中文大模型忠实性幻觉评测:豆包大模型幻觉率4%全球最低,超GPT-4o等中外模型

2025-05-23 21:32:21     来源:

近日,根据SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果,豆包大模型1.5 Pro(Doubao-1.5-pro-32k)以仅4%的幻觉率、96%的准确率排名总榜第一,超越 DeepSeek-R1、DeepSeek-V3、Gemini-2.5-pro、GPT-4o-latest 等中外主流模型。

在涵盖文本摘要、多文本问答、对话补全等关键任务的细分评测中,豆包大模型1.5 Pro也均位列全球第一,在阅读理解任务中,其准确率则为国内最高,展现出在复杂语言理解与生成场景中的出色能力。

SuperCLUE 由独立第三方推出,是当前中文大语言模型评测的重要基准体系。其中 SuperCLUE-Faith 聚焦中文内容生成过程中的忠实性与幻觉控制能力,从文本摘要、阅读理解、多文本问答以及对话补全等角度展开测评,对象包括国内外共计16款具有代表性的模型,评估结果具备较强公信力与行业参考价值。

目前,豆包大模型家族已覆盖全模态、全场景,包括大语言模型、深度思考模型、视觉理解模型、语音大模型,以及图像、视频等视觉大模型,企业可以通过字节跳动旗下云服务平台火山引擎使用豆包大模型API服务。其中, 豆包大模型1.5 Pro 基于 MoE 架构构建并采用训练-推理一体化设计思路,在保证高性能的同时显著降低推理成本。通过激活有限参数实现对大规模场景的精准理解与生成,其综合性能已超过多款超大稠密预训练模型。

截至2025年3月底,豆包大模型日均 tokens 调用量已超过12.7万亿,是2024年12月的3倍,是一年前刚刚发布时的106倍。IDC 报告显示,2024年中国公有云大模型调用量激增,火山引擎以46.4%的市场份额位居中国市场第一。

据悉,火山引擎将于6月11日在北京举办FORCE原动力大会,将带来豆包大模型的最新升级进展与能力进化。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

京东工业发布工业大模型Joy industrial并启动上海“链动众城 万亿降本”计划
绿联科技发起“惊喜联接”整合营销事件,携手易烊千玺演绎云上云下的品质生活
巨量云图上线「618大促作战室」,助商家稳赢大促营销!
京东工业2025合作伙伴大会落地广州 以数智供应链助力品牌商家“一品通多端、一品通多国”
绿联官宣易烊千玺为全球品牌代言人,NAS第一股将迎来品牌新升级
VINEXPO ACADEMY将于Vinexpo Asia展会期间引领行业对话
京东携手中国白银城举办2025白银制品选品会 助力河南银饰产业带健康发展
京东调研:520超三成男士大声说“爱” 超四成女士认为表达更重要
解锁5月游戏新体验 高速电脑配置推荐
科技改变生活——安润吉第四届全民补硒日庆典在重庆举行
美豪丽致酒店3.0新店正式启幕,引领中高端酒店旅宿新风潮
活动预告|锦江酒店商旅华西区域老友品鉴会·重庆站即将启幕
YY直播宝地奇旅计划走进广东中医药博物馆 带领网友打卡岭南“水晶宫”
恭喜华兴新经济基金被投企业威高血净成功登陆上交所主板
绿联科技:2025中国P&E博览会回顾,NAS+麦克风新品现场亮相
永旺首驻荔湾!恒宝广场品质生活体验再焕新
37岁山东汉子三次转行 家政创业2年后公司年入500万
2025年春季学期中国气象局党校处级干部进修班赴湘开展党性教育实践活动
联通未来 智享生活 中国联通正式发布“智家通通”产品
轻薄与性能兼顾,华为新一代HUAWEI MateBook Pro正式发布
CHINA PRINT 2025 | 技术热浪席卷E2馆!方正展台7场硬核技术分享引爆全场
传统酒店困局突围战:揭秘"高性价比"酒店投资如何实现成本降低、收益倍增
中轴线上私飨盛筵 双厨联袂四手联弹
2025腾冲科学家论坛·中医药现代化(楚雄)专题活动盛大开幕
浙江移动携手华为发表517电信日活动专题演讲,共筑智算新生态,领航AI时代创新发展
三星堆-金沙全球推广主题曲《千年以后》上线酷狗音乐
荣耀平板GT亮相上海追梦骇客超感玩家盛典,极致电竞平板性能引玩家体验
荣耀MagicBook Pro 16 HUNTER助阵DreamHack嘉年华 体验区成大型开黑现场
京东618数码爆款直降叠加15%国补 520为爱助攻轻松解锁浪漫礼单
以爱之名,托举残缺希望:新瑞鹏残疾动物救助之路