回到目录

【部署】读取制度类txt文件导入dify的父子分段知识库

0. 背景

dify的知识库父子模式的分段效果不理想,一是按照500字强制分段,制度类一般编写内容质量高,章节内部的逻辑性强,强行分段可能对知识点造成破坏;二是子段的生成逻辑简单粗暴,按照父分段的标点符号简单分割,经过测试,召回效果非常不理想。 项目dify_import 0.1.0-release版本,支持读取高质量的txt制度类文件批量导入父子分段dify知识库并通过语言模型的推理产生相关关键字生成字段。

1. 搭建本地dify开发环境

参考 《win10的wsl环境下调试dify的api后端服务(20250511发布)

2. 登录dify,配置知识库

2.1. 创建一个父子分段知识库,名称"Regulation-IT"

在这里插入图片描述
[图01]

2.2. 知识库下手工创建<公司管理规定.txt>文档(可以是空文件)

在这里插入图片描述
[图02]

2.3. 工作室下创建chat bot 名称 “制度专家-IT”,并且关联上知识库 Regulation-IT

在这里插入图片描述
[图03]

2.4. 生成 "制度专家-IT"的api key

在这里插入图片描述
[图04]

3. 拉取、配置和运行dify_import

3.1. gitee拉dify_import源代码

3.2. 配置config.json参数

config.json
{
    "serverIP": "[根据实际修改]",
    "userName": "[根据实际修改]",
    "password": "[根据实际修改]",
    "datasetName": "Regulation-IT",
    "documentName": "公司管理规定.txt",
    "fileName": "产品权限管理.txt",
    "appKey": ""[根据实际修改]","
}

注:前三个参数根据实际环境配置
appKey是 2.4.生成的api key

并运行

> uv run .\child_chunks\20_dify_father_main.py

在这里插入图片描述
[图05]

4. 运行成功后,前台检查知识库导入是否成功

在这里插入图片描述
[图06]
这里的分段规则是1. 章节分段; 2.条例每500字以内生成一个分段

5. 在工作室-评测,调试和预览效果,非常完美!!

提示词

人员离职后,权限怎么处理
在这里插入图片描述
[图07]

对比一下没有引入知识库胡说八道的效果
在这里插入图片描述
[图08]

本文结束

回到目录

Logo

一站式 AI 云服务平台

更多推荐