人工智能“中国速度”!文心大模型3.5已整体超越ChatGPT!
文心一言不仅综合评分超越ChatGPT,位居全球第一,更在内容生态、数据认知、知识问答三大维度评分超越ChatGPT,且六大维度评分均位列国内大模型榜首。同时,文心一言近20项细分测评指标排名全球第一,遥遥领先其他国产大模型。
报告中,人民数据选取文心一言、讯飞星火、通义千问、ChatGPT等四个大模型进行综合能力测评,从内容生态、数据认知、言语理解、知识问答、逻辑推理、助力科研六个维度构建测评模型。
文心一言的综合表现最佳,在社会热点事件认知、信息来源权威性等维度评分远超ChatGPT。但包括ChatGPT在内的多个大模型,出现了答非所问或应答问答现象,无法完整理解题意。
文心一言成为唯一超过评分均值的国内大模型,在个人信息安全、敏感数据保护层面领先于其他大模型。
文心一言在文本推理、算数推理能力上的评分均超过其他国内大模型各大模型均能做出准确回答,文心一言的分析最为详细文心一言在“找规律问题”上能够迅速发现一般性规律并得出正确答案,而其他国内AI大模型规律识别能力有待提升。
多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型。全球领先的IT市场研究和咨询公司IDC最新发布的《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对第一;在新华网《国内LLM产品测试报告》中,百度文心一言整体领先,得分远超ChatGPT3.5、讯飞星火和 ChatGLM,充分展现文心大模型的“国家队”担当。
模型效果提升50%,训练速度提升2倍,推理速度提升30倍。
文心大模型频频取得“第一”,得益于百度“芯片-框架-模型-应用”四层技术栈优势、知识增强的核心特色和繁荣的大模型生态三大优势。百度拥有包含5500亿知识的世界上规模最大的知识图谱、最大的中文搜索引擎以及数据处理技术等,为文心大模型的快速迭代提供了坚实技术支撑。
猜你喜欢
科大讯飞半年报“答卷”:营收毛利双增、战略聚焦7+3、人费双控提质增效
得益于在基础大模型等方面坚定投入,科大讯飞产品质量和竞争力不断提高,在持续巩固其人工智能国家队产业地位上进一步奠定扎实基础,继续发挥AI行业压舱石的作用。