功能总览

"紫东太初4.0”在感知理解、静态推理与动态推理等多个智能维度，紫东太初4.0均取得实质性进展。在执行交错思考任务时，模型能够灵活处理图像信息、挖掘视觉线索，形成“自主任务规划—交错思考执行—综合分析反馈”的完整推理闭环，更加贴近人类处理复杂问题的认知逻辑。

图像能力

带图思考

能力说明： “紫东太初多模态大模型“能对图像进行平移、放大、旋转、定位、增强与重建等细粒度操作的能力，实现了从被动分析到主动思考的根本转变。基于用户上传的图片，调用工具，在深度思考模式下分析图像，并推理得出最后的结果。
示例指令：
上传一张旋转了90度的地点图片，然后发送“图中是在哪里，请给出你的判断依据”
上传一张包含多个路牌的图片，然后发送“这个路牌分别指向哪几个目的地”

拍照解题

能力说明： "紫东太初多模态大模型"能对学科类题目进行思考、分析，给出解答思路和最终结果。
示例指令：
点击拍照解题，上传一张有多道题目的图片，圈选其中一道题，然后发送

图像描述

能力说明：“紫东太初多模态大模型”能基于用户上传的图片素材，准确理解并回答图片识别类问题，具体地，可以识别图像主体、背景、动作、颜色等等。同时支持上下文信息理解和多轮问答。
示例指令：
上传一张图片，然后发送 “请描述一下这张图片里面有什么”
上传一张图片，然后发送 “请描述一下这张图片里面有哪些颜色”

目标检测

能力说明：“紫东太初多模态大模型”支持丰富品类的目标检测任务，能够判定目标类型、数量和对应的位置信息。
示例指令：
- 上传一张图片，然后发送“图片中有几个人物”
- 上传一张图片，然后发送“帮我看看图片中有几种类型的动物”

图像检索

能力说明：“紫东太初多模态大模型”拥有海量的高质图片素材库，能为用户搜索出关联度高的精致图片素材。
示例指令：
- “帮我找一张樱花盛开图”
- “帮我找一幅上海夜景图”
- “汽车长什么样子呢，给我看看图片”

图像生成

能力说明：“紫东太初多模态大模型”能基于用户指令诉求生成对应的精致图片，并可以修改描述微调图片内容。Promote描述小技巧：添加具象的主体特性描述有助于定位到核心场景内容，添加风格或其他特性修饰词描述有助于调整图片整体效果。
示例指令：
- “画一幅唯美风格的樱花盛开图”
- “生成一张小狗在草地上玩耍的照片”
- “帮我画一幅老虎在游泳的图片”

文字识别

能力说明：“紫东太初多模态大模型”能支持多场景、多语种、高精度的文字检测与识别服务，具体业务场景包括：卡证文字识别、票据文字识别、文档图像处理等等。
示例指令：
- 上传一张图，然后发送“图中有什么文字”
- 上传一张图，然后发送“帮我识别出图片中的所有文字”

语言能力

自动深度思考

能力说明：“紫东太初多模态大模型”支持自动深度思考模式，在自动深度思考开启状态下，能根据用户输入的问题推理判断是否需要进行深度思考，高效给出回答。
示例指令：前5个问题，模型将跃过深度思考，直接给出答案；后5个问题，模型会先深度思考，再给出最终结果。
- “植树节是每年的几月几日？”
- “1 立方米等于多少立方分米？”
- “《荷塘月色》的作者是谁？”
- “人体最主要的呼吸器官是什么？”
- “世界上流经国家最多的河流是什么？”
- “结合元宇宙技术的发展现状，分析其对人类社交模式、工作场景及消费习惯的长期重塑作用，可能面临哪些技术瓶颈与伦理风险？”
- “从乡村振兴与电商经济交叉视角，解释 “农产品上行” 过程中存在的物流成本高、品牌溢价低等问题，提出适配乡村实际的解决方案。”
- “若未来 AI 生成内容（AIGC）全面渗透新闻、影视、文学领域，会对内容创作行业的版权界定、创作者收入模式及内容质量监管产生哪些冲击？”
- “对比道家‘无为而治’思想与现代企业管理中的‘扁平化管理’模式，二者在激发组织活力、平衡管理效率上的共通逻辑与适用边界是什么？”
- “某城市计划推行‘错峰上下班’制度以缓解交通拥堵，从市民生活节奏、企业运营成本、公共交通调度三个维度，分析该制度的可行性与优化方向。”

中文问答

能力说明：“紫东太初多模态大模型”能准确理解用户输入的问题语境，并能做出准确的知识性问答。包括：生活常识、工作技能、医学知识、历史人文等等。
示例指令：
- “考你一下，四大名著有哪些”
- “请问一下，世界上最高的山峰是哪一座”
- “什么是胃病，有哪些常见的类型和治疗方法？”
- “怎样安排个人财务和预算规划？”

文本摘要

能力说明：“紫东太初多模态大模型”能快速理解文章的核心观点，根据长文本提取简洁而准确的摘要。
示例指令：
- “帮我提取文章的摘要”+ 输入文章内容
- “帮我把这篇文章改得精简一些”+ 输入文章内容

文本续写

能力说明：“紫东太初多模态大模型”能基于用户输入的故事引导自动续写丰富故事内容。
示例指令：
- “请续写故事：从前，山上住着3个老和尚”

文本创作

能力说明：“紫东太初多模态大模型”能准确理解用户输入意图,并生成语意连贯、逻辑通顺的文本内容。覆盖常见的各类型文本创作业务场景如：写文章读后感、岗位招聘JD、信件邮件、邀请函、行程规划等等。
示例指令：
- “帮我写一个200字人工智能大模型发布会的新闻稿”
- “写一篇互联网AI产品经理招聘JD”
- “写一篇《三体》的读后感”
- “请帮我出一份武汉3日游的行程规划”
- “写一封给武汉市政府的感谢信”

标题生成

能力说明：“紫东太初多模态大模型”能基于对文章或者长文本的理解，快速聚合生成精简且概括的标题文案。
示例指令：
- “请给这篇文章生成一个标题：”+ 输入文章内容

语法分析

能力说明：“紫东太初多模态大模型”能基于用户上传的中英文文本素材，准确理解并分析句子的语法，提醒语法错误并修改等等。
示例指令：
- 请把句子修改成正确的语法表达“张总经理和李总工程师正在讨论一个技术改造项目，他同意他的看法。”
- 请指出句子中的错误，并把它改成正确的表达“A number of students is going to learn a foreign language.”

机器翻译

能力说明：“紫东太初多模态大模型”能帮助用户翻译各类型文本素材，包括中英文互译、文言文和白话文互译等等。
示例指令：
- 把英文句子翻译成中文“ All the bright, precious things fade so fast.And they don't come back.”
- 把文言文翻译成白话文“是故弟子不必不如师，师不必贤于弟子，闻道有先后，术业有专攻，如是而已。”

古诗创作

能力说明：“紫东太初多模态大模型”能基于用户给到的主题或引导内容即兴创作诗歌、绝句等。
示例指令：
- “请以思乡为主题写一首七言绝句”
- “请以梦想为主题写一首诗”

代码理解

能力说明：“紫东太初多模态大模型”能帮助用户理解c语言、Python、JAVA等绝大部分编程语言、算法和数据结构，快速给出所需的解答。
示例指令：
- “解释一下下面这段代码”+ 输入代码段

代码编写

能力说明：“紫东太初多模态大模型”能帮助用户快速编写简单的代码片段，例如函数、类或循环等。
示例指令：
- “请用python写一段快速排序代码”
- “编写一个程序，输入一个字符串，判断该字符串是否是回文字符串。”

数学计算

能力说明：“紫东太初多模态大模型”能处理常规数学计算问题，也能处理如《孙子算经》上记录的鸡兔同笼数学应用问题等。
示例指令：
- “847 - 347 * 364 等于多少”
- “一个笼子里有474只脚，167个头，里面有几只鸡，几只兔子？”

逻辑推理

能力说明：“紫东太初多模态大模型”能处理复杂的逻辑推理类问题，包括科学推理、常识推理、时空推理等等。
示例指令：
- “如果一个物体是圆的，那么它一定是球形的吗？”
- “如果一支蜡烛在一个密闭的容器中燃烧，会发生什么？”

视频能力

视频描述

能力说明：“紫东太初多模态大模型” 能基于用户上传的视频素材，准确理解并回答视频识别、视频描述类问题，同时支持上下文信息理解和多轮问答。
示例指令：
- 上传一段视频，然后发送“这段视频描述了什么”
- 上传一段视频，然后发送“这段视频里面出现了什么”

视频检索

能力说明：“紫东太初多模态大模型”拥有海量的高质视频素材库，能为用户搜索出关联度高的精致视频素材。
示例指令：
- “帮我搜索一个直播的短视频”
- “帮我找一个打篮球的视频”

视频问答

能力说明：“紫东太初多模态大模型” 能基于用户上传的视频素材，准确理解并回答视频相关的问题，同时支持上下文信息理解和多轮问答。
示例指令：
“你能从视频的音乐中感受到什么？”
“请分析下观众是否认可视频中的这段表演，并简要说明原因”

音乐能力

音乐生成

能力说明：“紫东太初多模态大模型”可以通过给定的文本提示可控生成高保真的音乐，并支持即兴创作多种风格类型和多种乐器演奏的音乐。
示例指令：
- “生成一段中国风的编钟曲”
- “生成一段欢快的钢琴曲”
- “生成一段小提琴歌曲”
- “吹一段萨克斯”

音乐多模问答

能力说明：“紫东太初多模态大模型”能基于对用户上传的音乐素材的理解，完成相关多模态问答任务。
示例指令：
- “根据这段音乐的氛围，作一首诗”
- “这段音乐是用什么乐器演奏的”
- “这段音乐描述了什么”

音频能力

音频鉴伪

能力说明：“紫东太初多模态大模型”能判断当前音频是真人说话还是机器合成。
示例指令：
- “这段⾳频是伪造的吗？”
- “判断这段⾳频的真假？”

音频事件分类

能力说明：“紫东太初多模态大模型”能检测当前音频中所包含的声音事件类型，目前支持11种单一声音事件和混合声音事件。
示例指令：
- “这段音频里有哪些事件类型？”
- “这段⾳频中有哪些声⾳？”

语音识别

能力说明：“紫东太初多模态大模型”采用领先的流式端到端语音语言一体化建模算法，将语音快速准确识别为文字，支持手机应用语音交互、语音内容分析多个场景。
示例方法：
- 点击输入栏麦克风图标，开始朗读，输入栏会自动实时识别语音中的文字内容并展示到输入框内。

语音合成

能力说明：“紫东太初多模态大模型”提供高度拟人、流畅自然的语音合成服务，满足文本阅读、语音播报等各类型场景需求。
示例指令：
- 输入一段文字，输入“帮我把这段文字合成语音文件”

即将上线，敬请期待

3D能力

3D场景描述

能力说明：“紫东太初多模态大模型”具备基于点云数据的3D场景理解和物体感知能力。
示例指令：
- “从这张三维图里面你看到了什么？”

信号类能力

信号识别

能力说明：“紫东太初多模态大模型” 支持雷达信号鉴别与知识交互，可借助模型快速掌握信号基本来源及参数等。
示例指令：
- “告诉我这段信号的相关信息。”
- “这个信号有什么用途？”

功能总览 ​

图像能力 ​

带图思考 ​

拍照解题 ​

图像描述 ​

目标检测 ​

图像检索 ​

图像生成 ​

文字识别 ​

语言能力 ​

自动深度思考 ​

中文问答 ​

文本摘要 ​

文本续写 ​

文本创作 ​

标题生成 ​

语法分析 ​

机器翻译 ​

古诗创作 ​

代码理解 ​

代码编写 ​

数学计算 ​

逻辑推理 ​

视频能力 ​

视频描述 ​

视频检索 ​

视频问答 ​

音乐能力 ​

音乐生成 ​

音乐多模问答 ​

音频能力 ​

音频鉴伪 ​

音频事件分类 ​

语音识别 ​

语音合成 ​

3D能力 ​

3D场景描述 ​

信号类能力 ​

信号识别 ​

功能总览

图像能力

带图思考

拍照解题

图像描述

目标检测

图像检索

图像生成

文字识别

语言能力

自动深度思考

中文问答

文本摘要

文本续写

文本创作

标题生成

语法分析

机器翻译

古诗创作

代码理解

代码编写

数学计算

逻辑推理

视频能力

视频描述

视频检索

视频问答

音乐能力

音乐生成

音乐多模问答

音频能力

音频鉴伪

音频事件分类

语音识别

语音合成

3D能力

3D场景描述

信号类能力

信号识别