实测讯飞星火大模型的真正实力：能否横扫国内大模型江湖？

日期：2025/03/31 15:37来源：未知人气：55

导读：在短短几个月时间里，我们的“国产大模型”已经如破土春芽般遍地开花。国内百度“文心一言”的发布拉开了这场人工智能狂欢的序幕。从华为、阿里、京东等互联网巨头到高校如复旦、清华，都纷纷加入该领域，推出自己的大语言模型，华为盘古、商汤日日新、阿里通义千问、京东灵犀、昆仑天工、360智脑等等。昨天（北京时间5月6日下午2:00），作为中国人工智能“国家队”的科大讯飞按计划揭晓了其认知大模......

在短短几个月时间里，我们的“国产大模型”已经如破土春芽般遍地开花。

国内百度“文心一言”的发布拉开了这场人工智能狂欢的序幕。从华为、阿里、京东等互联网巨头到高校如复旦、清华，都纷纷加入该领域，推出自己的大语言模型，华为盘古、商汤日日新、阿里通义千问、京东灵犀、昆仑天工、360智脑等等。

昨天（北京时间5月6日下午2:00），作为中国人工智能“国家队”的科大讯飞按计划揭晓了其认知大模型——讯飞星火，并展示了丰富的应用成果，为中国的生成式AI市场增添了一位强大的竞争者。

目前，讯飞星火认知大模型已经开始内测，可以在https://xinghuo.xfyun.cn进行申请试用。小编第一时间就申请并拿到了测试资格，并且迫不及待的对其实测一番，考察一下星火的问答水平到底如何。

以下我们从题库中随机选取了12道不同类型的题目进行测试，并且选择文心一言作为“对手”对比考察我们星火选手的认知水平~

能力测试

基础能力

先来个常识问答：谁是蝙蝠侠

讯飞星火和文心一言都给出了正确的回答，而相对来讲星火回答的维度更丰富一些，内容更加丰满，个人觉得星火的回答小胜一筹。

星火：

文心：

帮我们推荐10本科幻小说：

星火不仅推荐了书名和作者，甚至还贴心的做了一句话内容介绍，但这算数...属实不太好，说好的列10本出来，只给了我9本...

而文心的回答则中规中矩，简明扼要并且没有出现推荐数量错误。因此这一题文心胜出

星火：

文心：

第三题是互联网传播较火的一道题，我们也拿来测试一下星火：为什么爸妈结婚没叫我参加婚礼？

二者其实都没回答出我们想要的答案，此题没有胜出的一方

星火：

文心：

生成代码题：创建一个 SQL 请求以查找居住在上海并拥有超过 1000 积分的所有用户

二者都给出了正确答案。

区别是讯飞星火查的单表，而文心一言可能觉得积分应存放在另外一张表，需要进行关联查询...

这道题二者打平，没有胜出一方。

星火：

文心：

解释代码题：

解释这段代码是干什么的# Python 3 def remove_common_prefix(x, prefix, ws_prefix): x["completion"] = x["completion"].str[len(prefix) :] if ws_prefix: # keep the single whitespace as prefix x["completion"] = " " + x["completion"] return x

这道题二者都理解到了点子上，给出了对代码大致正确的理解，打平。

星火：

文心：

进阶能力

如果昨天是2021年4月30日，今天的日期是什么？以日/月/年表示。

显然星火给出了正确的日期答案，美中不足是对格式理解出现一点点误差。

而文心一言的回答就一言难尽了，答不对就不要给中间的计算过程啦，4月份可没有31天（--！）

星火：

文心：

来一道物理计算题：假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s，请计算这辆车的加速度，单位为 m/s/s

这道题二者的计算公式和中间过程都没啥问题，但是为啥最后一步简单的除法就难住了呢，最终计算结果都不对（难道和中学时代的小编一样，每次都光荣的错在最后的一步计算答案？）

正确的计算结果应该是7.22 m/s/s，相较而言星火的结果较为接近，而文心一言的结果太过离谱，这一题就算星火小胜吧

星火：

文心：

考验逻辑思维：

请问下列哪个事件引起了另一个事件？选项1：开始下雨。选项2：司机打开了雨刷器。

呃...星火的思考可能在另外一个境界，不是从我们凡人正常的角度去思考的(下雨导致司机打开雨刷器)

文心一言虽然有点逻辑混乱，但是充分体现了国人在有些场合打太极的精神，话不说满左右逢源...这一题就算文心小胜吧

星火：

文心：

来个简单的数学题目：给以下数字排序：3457，9823，3876

本想这道题属于送分题，以两个AI的实力都应该轻松答对。

结果是星火丝毫不啰嗦给出了正确回答，美中不足是没有备注按照从小到大排序。

而文心一言则好似出现了系统紊乱....（这回答看的小编开始怀疑人生）

星火：

文心：

垂直领域

晨吐通常发生在： (A)怀孕第一阶段 (B)怀孕第二阶段 (C)怀孕第三阶段 (D)在整个孕期都是如此

正确答案：晨吐通常在怀孕的头几个月里最为明显，尤其是在怀孕的前三个月，也就是第一孕期。

因此这道题星火给出了正确回答，文心回答错误。

星火：

文心：

如果政府在完全竞争的市场上对生产者进行补贴，那么（A）产品的需求会增加（B）产品的需求会减少（C）消费者盈余会增加（D）消费者盈余会减少

经济学方面的问题，二者都给出正确回答

星火：

文心：

从溶解度定理中，以下哪个陈述是正确的？ (A) 所有的氯化物、溴化物和碘化物都是可溶的 (B) 所有的硫酸盐都是可溶的 (C) 所有的氢氧化物都是可溶的 (D) 所有含铵的化合物都是可溶的

这道化学题二者给出来不同的回答，到底谁回答正确？

星火：

文心：

两个回答都是错的（--!），正确答案应该是D 所有铵化物都是可溶的。

看来两个AI还是要恶补一下化学知识啊！

结论

至此，本次新语数据故事汇对于「讯飞星火」的测试就结束了。

从测试回答的效果来看，总体讯飞星火的表现要优于百度的文心一言 。并且作为ChatGPT深度使用者，感觉星火的理解能力和ChatGPT更为接近，更像ChatGPT，只是推理能力和知识库方面稍逊一些，而文心的理解力则差的不少，感觉最像搜索。

而文心一言的优势有支持多模态（比如绘画创作） ，而目前讯飞星火语言模型仅支持文本的生成，无法创作视频或图像。

然而，作为中国领先的人工智能企业之一，科大讯飞在语音领域拥有显著的优势 。讯飞星火相比文心一言以及其他的国产大模型，加入了语音识别输入以及对结果的语音朗读功能 （语音语速及语调听下来都让人非常舒服）

最后，小编想说：国内的大语言模型正在迎来蓬勃发展的新时代，各大科技企业和高校都在积极研发和推广自己的大模型。这些大模型不仅在语音识别、自然语言处理等方面展现出了强大的性能和应用能力，也为中国人工智能产业的快速发展注入了新的活力。让我们一起鼓励和支持这些优秀的国内大语言模型，相信它们将为我们带来更加便捷、高效、智能的生活和工作体验，让中国的人工智能技术更上一层楼！

上一篇：实测科大讯飞大模型“星火”：多轮对话能写代码还将迭代三轮

下一篇：全球第三、国内第一，讯飞星火认知大模型获权威评测认可

实测讯飞星火大模型的真正实力：能否横扫国内大模型江湖？

能力测试

基础能力

解释这段代码是干什么的# Python 3 def remove_common_prefix(x, prefix, ws_prefix): x["completion"] = x["completion"].str[len(prefix) :] if ws_prefix: # keep the single whitespace as prefix x["completion"] = " " + x["completion"] return x

进阶能力

垂直领域

结论

相关星火大模型

星火大模型推荐

星火大模型排行