日期:2025/04/04 15:58来源:未知 人气:51
来源:硅基研究室
文 | 陶魏斌
没有跳票!
此前李彦宏透露的“百度有史以来最强大模型”,在今天(3月16日)如约而至——不但来了,百度还扔了一个炸弹。
打开文心一言的官网,文心大模型4.5和文心大模型X1都已经同步上线,这也预示着行业内又重燃起大模型竞争的战火。
对广大用户而言,科技巨头们的激烈竞争就是一场福音。这意味着我们能够享受到更高效、更智能的技术服务,而且这一切大多是免费的。
“硅基研究室”第一时间对文心X1和文心4.5进行了全面测试,以探究它们究竟能为用户带来怎样的体验升级。
测试下来,感受最深的是,这两款新版大模型,在性能上又实现了新突破,特别是文心X1在推理能力上,表现出的强大和专业,令人震惊。
可以这么说,在很多场景上,文心X1扮演的已经完全不是“实习生”,绝对算的上是一个成色很足的“专家”。
更关键的是,登陆文心一言官网,这两款大模型大家都可以免费使用——百度这次真是下了血本,提前免费向用户开放了。
根据百度官方介绍,文心大模型X1具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型,文心大模型X1兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。
作为一名科技博主,第一时间想着,文心X1能不能帮我来写一篇文章。
首先我们想到的是前段时间超火的Manus,看看文心X1会如何评价这个“当红炸子鸡”。
我们输入的提示词是:
请针对最近爆火的Manus以及围绕其引发的争论,写一篇2500字的评论,要求观点明确,逻辑清晰,内容准确,文字流程,具有可读性,符合互联网传播特色,同时体现专业性,有一定的思考。
很快,文心X1就开始干活了,首先它对我们的指令进行了拆解和思考。
我们发现在这一阶段,文心X1是不直接进行联网的,这个和DeepSeek的方案有一些差异——DS是首先进行了检索,然后根据搜索结果进行拆解思考。
紧接着,文心X1开始联网搜索,并把搜索结果和前面的推理思考进行了融合。
不到1分钟的时间,文心X1就输出了一篇评论稿,整个过程非常的流畅,大家更关心的文章水平怎么样,到底能不能用,我们在最后会展示整个过程,以及一字不改的文章,请大家来点评。
事实上,因为百度文心X1是一款能自主运用工具的大模型,所以文心X1是支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。
对于刚才的指令,我们实际上可以直接要求文心X1输出Word形式的文档。
鉴于此,我们准备测试一下文心X1的“财经”水平。
每年都3月-4月是A股上市公司的财报季,通常一则年度财务报告大多都有二三百页。不要说是非专业人士,就连财经口的同学看起来也都特别费神,再加上A股这么多公司,光重点行业、重点关注的上市公司,少说都有上百家,这实在是一项巨大的工程量。
于是我们就准备扔给文心X1,看看它能不能扮演“财经专家”的角色。
首先我们找来这个周末刚刚出炉的宁德时代财报,一共229页。
我们把下载下来的PDF格式文档,上传给文心X1,输入了相关指令:
你现在是一名财经专业分析师,请根据上传的宁德时代2024年年度报告文档,提炼出宁德时代的业绩亮点,同时用一句话做点评,要求客观专业,并通俗易懂,最后再拟5个适合互联网传播的业绩分析标题。
在这段指令当中,我们其实提出来三个不同类型的要求,第一个是分析亮点,第二个是做点评,第三还要拟标题。
我们看看文心X1是怎么干的:
这个过程我们觉得几乎可以拿满分,非常准确清晰地理解了我们的意图,并开始阅读文档。
可能因为文档内容比较丰富,文心X1花了将近1分钟的时间去提取——是不是我们的要求太高了,如果是人工去翻阅的话,再专业的财务人员也需要半小时以上,但对于AI,我们居然超过30秒,都有点……不耐烦了。
不过好在文心X1在阅读完财报后,结果的输出还是很快。
最终,文心X1在2分钟以内,完成了我们输入的指定。
那这个回答到底专业不专业?我们找来我们经常看到一个财经分析师在自己公众号上的分析,可以作为一个对比。
可以这么说,专业分析师关注的点,文心X1已经全部做了提炼,并且也作为关键核心信息去做了分析。
这就很可怕了,要知道要成为一名能被行业内认可的专业财经分析师,没有10年的积累几乎是不可能的,但现在文心X1的表现已经有模有样了。
某种程度上来说,文心X1还是一个多面手,不但给你做了财经方面的专业分析,还能成为一位财经记者,给你用一句话去总结好,还帮你拟好适合在网上传播的标题——在现实生活中,一个财经分析师和一个财经记者,往往很难在同一个人身上复合。
而且,一般来说,财经分析师也都有自己熟悉和擅长的行业,但对于文心X1来说,上一秒它可以给你分析宁德时代,下一秒马上可以跟你接着分析茅台股份或者建设银行。
想想这个就觉得——人类太弱小了。
体验完文心X1,我们继续把目光瞄向了文心大模型4.5。
这个百度首个原生多模态大模型,此前还没有面世,就已经被冠以“百度史上最强”了,“硅基研究室”第一时间亲测,看看到底有哪些强悍的能力,能不能超越此前带给大家惊艳的DeepSeek R1。
官方给出的介绍比较简单,称“文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。”
翻译成大白话就是,文心4.5是多模态的。
市面上现在很多的大模型是单一功能的,比如有的是推理回答,有的是用来作图的,有的是擅长做视频的,大家在用的时候,就需要在各种大模型之间不停输入输出,才能完成真正的工作要求。
插一句,之前走红的Manus,就是把各种大模型“套”在了一起,帮你一个流程解决了。但它有一个问题是,因为各个大模型之间的指令和语句理解都不一样,很容易最后出现走样。
文心4.5的这个多模态是原生多模态——这个能听,能说,能唱,能画的“助理”,是同一个大脑指挥的。
这就很符合人类思考的本质,能做到效率和效果的双保障。
另一方面,文心4.5还特意指出来“去幻觉”的概念。DeepSeek的流行,让很多人化身成为“作家”,不仅文笔斐然,还特别会“编故事”,导致出现了很多“无中生有”和“张冠李戴”的情况。
废话不说,提前来测一波。
作为自媒体博主,图片版权问题一直是困扰这个行业的难题,稍不留神就会造成图片侵权。
这次我们就让文心4.5来根据提供的文字,来匹配生成不同平台,比如小红书、微博、公众号等不同类型的图片。
我们先在微博上,找到人民日报今天发的这个早安语,然后请文心4.5来配图。
马上开干。
放大看一下,一眼看去很有宫崎骏的风格。
第二个任务是生成适合小红书发布的图片。
这张真的很合适。
还有关键的一点是,“懂事”的文心4.5,实际上还调整了图片的格式——微博是横屏,而小红书的图片是竖直图,而这一点完全是它自己理解分析的。
接下来是微信公众号的配图。
坦白来说,这个和微博配图有点重复了,这个当然很大原因是,我们输入的指定几乎是相同的——至于我们为什么这么做,是想让指令输入者以“小白”的形式出现,不需要懂太多“输入词”的熟练工。
令人意外的是,文心4.5好像也发现了这一点,它马上贴心地给出了提示:
我们点了“改为极简主义风格 ”,效果出来了:
可以这么说,这个配图水平,可以适配市面上80%以上的内容创作者,而且不需要你掌握太多的“提示词”技巧,你可以直接把你的文章丢给文心4.5,剩下的就是——验收。
测试完文字生成图片后,我们拉来个另一个家庭场景——给孩子辅导作业。
网上有个段子,说“不谈学习,母慈子孝,连搂带抱;一谈学习,鸡飞狗跳,呜嗷嗷叫;让老人血压高,让邻居不睡觉”。
而且这还是在能辅导作业的情况下,很多时候,家长的那点知识都还给了学校老师,基本就没有那个能力辅导了。
如果文心4.5能扮演“家庭老师”的身份,辅助解决孩子的学习困难,那能“解放”很多的家长了。
先来一题物理的电力问题:
注意,我们是直接拍照给到的一张图片 ,这很符合家庭的场景,家长直接从孩子的作业里,拍个照片进行上传。
很快,答案就出来了。
不但有答案,还非常清晰地给出了详细的答题过程。
要知道,现在市面上的很多中小学辅导软件,基本上都是收费的,你想看答案看过程,那就要充值付费,而文心4.5可是——免费的。
坦白来说,几轮测试体验下来,“硅基研究室”的几个同学已经从兴奋劲,掺杂了一点点小困惑。
兴奋是因为,文心的强大是显而易见的,而且文心的原生多模态特点,效率特别的高,并且能解决目前大家对推理大模型诟病比较多的“幻觉”问题。
在这测试过程中,我们还重点让文心X1做了很多的挑战,比如回答经典的“孤岛红眼睛、蓝眼睛岛民关系 ”的推理题;比如写了一篇“剧本杀级别的悬疑推理故事 ”;比如设计安排了“五一结婚需要做的准备事项安排 ”等等。
最终文心X1给出的答案都是专家级别的,感兴趣的朋友,可以自己去文心一言的官网去体验,现在都是免费的。
困惑在于,像百度文心这样强大的AI大模型出现,确实迫使我们去思考,作为人类,我们应该如何去合理应用和掌握这些工具,最终真正提升生产能力——而不是被取代。
这两年大模型工具的应用已经越来越普遍了。以百度文心为例,去年文心大模型日均调用量持续高速增长,与2023年同期的5000万次相比,一年增长33倍至16.5亿。
这个背后,是百度一直坚持压强式、马拉松式的研发投入。数据显示,近十年百度累计研发投入超过1800亿元,以大模型为核心的人工智能专利申请量、授权量,都是国内第一,全球领先,其中深度学习相关的专利申请量全球第一。
“我们相信只有规模化的应用才能让技术发挥它的价值。”李彦宏在百度25周年全员信中这样表示。
事实上,只有让最前沿的技术产品化、商业化,才让更多的人从中受益。
根据我们收到的信息,百度文心X1的价格是DeepSeek R1的一半,文心4.5价格是GPT4.5的1%,相信这样的价格能惠及更多的商业用户以及让大模型助力工业生产。
回到我们最开始的测试,不卖关子了,我们把文心X1写的这篇一字不改呈现出来,请你来点评: