Skip to content

知识分段

自动分段

知识的自动分段和处理,主要分为两种类型:

  1. 本地上传的文档知识、手动输入的知识、网页抓取的知识我们根据知识的特点使用对应的分段方式进行自动分段;

  2. QA问答的知识,我们使用特定的QA问答分段方式进行处理;

每种知识处理方式及支持的知识格式、知识来源见下表:

分段方式分段说明支持的知识格式支持的知识来源
Word类分段· 一个标题+段落内容分为一段· 若段落超过1000字时,强制按1000字进行分段pdf、doc、docx本地上传
PPT类分段· 一页PPT分为一段· 若段落超过1000字时,强制按1000字进行分段pdf、ppt、pptx本地上传
Excel分段· 一行内容+对应的表头分为一段**注意: **① 每行内容+对应表头的字数超过2000字,可能会失败;② 第一行作为表头不能合并单元格,否则会失败;③ 一个sheet中仅能包含一个表头+内容形式的表格,不支持多个表头+内容放在一个sheet中解析。xls、xlsx、本地上传
通用类分段· 检测转义字符\n\n(两次换行,即段落间有一行空行)分段· 段落超过1000字时,强制按1000字进行分段markdown、png、jpg、txt本地上传、手动输入、网页获取

自定义分段

  1. 通用自定义分段

    用户可以自己通过设置分段规则,来自定义文档的分段处理,分段规则包含:分段标识符和每段最长字数:

    • ·分段标识符:用户可以自定义分段的标识符,当检测到文档中的这个标识符时,自动分段。(标识符支持转义字符以及文档中的字符)

    • 每段最长字数:用户可以设置每段的最长字数,当达到该字数时,自动分段(一般建议在500字,过多会导致AI阅读速度、理解速度降低)

    image

  2. FAQ问答分段

当文档类型属于QA问答类型时,用户可以自己通过设置FAQ问答分段规则,来自定义问答类文档的分段处理,分段规则包含:设置问题开始的符和每段最长字数:

  • 问题开始的字符:用户可以设置问题开始的字符,当检测到文档中的这个字符时,自动分成一个问答段落。例如:文本内容是“问:为什么实用知识库?答:解决AI的幻觉问题;问:为什么实用知识库?答:解决数据的实时性问题;”设置问题开始的字符为“问”时,会将文本内容分为2个问答段落:“问:为什么实用知识库?答:解决AI的幻觉问题;”和“问:为什么实用知识库?答:解决数据的实时性问题;”

  • 每段最长字数:用户可以设置每段的最长字数,当达到该字数时,自动分段(一般建议控制在最长的问答字数范围内)

image

手动分段

当某些文档在自动分段后,仍然需要手动分段、编辑时,可以直接在编辑界面进行编辑:

  1. 编辑

    可直接在段落中进行编辑:

    • 编辑框中支持图文内容直接编辑;

    • 编辑框中支持直接复制粘贴图片和截图上传;

    • 每个段落不超过1000个字;

    image

  2. 分割

    在段落中,点击回车后,左边会出现分割剪刀,点击剪刀进行分割;

    image

  3. 合并

    点击两个段落中间的合并按钮,可以将两个段落进行合并。

    image