Skip to content
目录

知识库

知识库产品介绍

大模型通过训练可以学习到大量的语言模式和信息,但并非所有知识都可以从文本中直接学习得到,特别是对于那些需要最新、最准确信息的场景。知识库可以提供结构化的、经过验证的知识,使得模型在回答问题时能够更加准确和全面,消除幻觉,提高模型回答的可解释性。

紫东太初知识库产品是基于Taichu-mRAG框架构建的智能知识管理平台,支持用户上传本地文档,构建专属知识库,基于OCR、LLM+RAG等技术能力,深度融合文本、图像、视频、图表、公式等多模态数据,结合知识库检索和大模型的生成能力更快更高效构建大模型应用。

知识库产品提供包含知识问答、文档总结、文档信息抽取等接口能力,通过统一语义空间的多模态检索与生成技术,实现复杂业务场景下的精准问答、深度推理与知识溯源。产品旨在解决传统RAG技术的信息表征缺失与模态交互受限问题,推动大模型在个人应用和企业服务场景的应用落地,提供高效、可靠的知识资产管理工具。

知识库创建

建库上传

点击【新建知识库】按钮来创建账户下的知识库

descript

选择创建【文本知识库】或【多模态知识库】,编写知识库名称,选择想要上传的知识。

descript

创建完成后可上传所选文件,支持批量上传。

  • 文本知识库文档类型包括:
    • 知识库上传不超过300个文档, 文件不超过10M/300万字。
    • 非结构化文档支持docx、pdf、txt、md等格式的文档,
    • 结构化文档支持xlsx、csv等格式的文档(文件要求:表头:数据表第一行默认为表头,建议避免为空、避免合并单元格;数据表:支持文件内多张数据表;适用场景:适用于含有较长文本内容的表格文件,默认按行构建知识切片,读取单元格中的文本信息。)
  • 多模态知识库文档类型包括:
    • 支持ppt、docx、pdf、txt、md等格式的文档,不超过10M/50万字
    • 支持图片格式:jpg、png、jpeg格式图片,
    • 图片30px ≤ 边长 ≤ 4096px,比例3:1以内,单张不超过20M,数量不超过100张。
    • 支持视频格式:.mp4,.mov,
    • 单文件不超过100M,时长少于15min,每个用户总计最多5条。

descriptdescript

知识配置

知识内容可以选择不同的切分内容来进行选择最适合知识的类型,同时可预览切分内容。

  • 自动分块策略:
    • 版面分析:按章节、标题切割文档。
    • 视觉分块:识别图像、表格区域。
    • 语义滑窗:动态重叠分块确保上下文连贯。
    • 支持手动调整分块粒度。
  • 自定义切分:支持自选表示分进行段落切分。
  • 问答对切分:根据指定标识符识别问题及答案。

descriptdescript

点击下一步,完成知识库内容的入库与解析步骤,直至成功。

descript