深色模式
知识库
知识库产品介绍
大模型通过训练可以学习到大量的语言模式和信息,但并非所有知识都可以从文本中直接学习得到,特别是对于那些需要最新、最准确信息的场景。知识库可以提供结构化的、经过验证的知识,使得模型在回答问题时能够更加准确和全面,消除幻觉,提高模型回答的可解释性。
紫东太初知识库产品是基于Taichu-mRAG框架构建的智能知识管理平台,支持用户上传本地文档,构建专属知识库,基于OCR、LLM+RAG等技术能力,深度融合文本、图像、视频、图表、公式等多模态数据,结合知识库检索和大模型的生成能力更快更高效构建大模型应用。
知识库产品提供包含知识问答、文档总结、文档信息抽取等接口能力,通过统一语义空间的多模态检索与生成技术,实现复杂业务场景下的精准问答、深度推理与知识溯源。产品旨在解决传统RAG技术的信息表征缺失与模态交互受限问题,推动大模型在个人应用和企业服务场景的应用落地,提供高效、可靠的知识资产管理工具。
知识库创建
建库上传
点击【新建知识库】按钮来创建账户下的知识库

选择创建【文本知识库】或【多模态知识库】,编写知识库名称,选择想要上传的知识。

创建完成后可上传所选文件,支持批量上传。
- 文本知识库文档类型包括:
- 知识库上传不超过300个文档, 文件不超过10M/300万字。
- 非结构化文档支持docx、pdf、txt、md等格式的文档,
- 结构化文档支持xlsx、csv等格式的文档(文件要求:表头:数据表第一行默认为表头,建议避免为空、避免合并单元格;数据表:支持文件内多张数据表;适用场景:适用于含有较长文本内容的表格文件,默认按行构建知识切片,读取单元格中的文本信息。)
- 多模态知识库文档类型包括:
- 支持ppt、docx、pdf、txt、md等格式的文档,不超过10M/50万字
- 支持图片格式:jpg、png、jpeg格式图片,
- 图片30px ≤ 边长 ≤ 4096px,比例3:1以内,单张不超过20M,数量不超过100张。
- 支持视频格式:.mp4,.mov,
- 单文件不超过100M,时长少于15min,每个用户总计最多5条。


知识配置
知识内容可以选择不同的切分内容来进行选择最适合知识的类型,同时可预览切分内容。
- 自动分块策略:
- 版面分析:按章节、标题切割文档。
- 视觉分块:识别图像、表格区域。
- 语义滑窗:动态重叠分块确保上下文连贯。
- 支持手动调整分块粒度。
- 自定义切分:支持自选表示分进行段落切分。
- 问答对切分:根据指定标识符识别问题及答案。


点击下一步,完成知识库内容的入库与解析步骤,直至成功。
