草榴电影百度公测新推理模子X1：说不上很猛，但起码才略在线

发布日期：2025-07-06 00:17 点击次数：71

草榴电影百度公测新推理模子X1：说不上很猛，但起码才略在线

今天，是百度发布自家大模子文心一言的两周年，在这个本事点，百度发布了自家的新模子文心 -4.5 和推理模子 X1草榴电影，通盘东说念主在文心一言官网可免费使用。

才略上，前者主打有文化、有真义、有东说念主性，后者主打逻辑推理。

针对这些时弊点，在无数的测试场景类型中，知危裁剪部选拔了传统文化、物理模拟、玩梗来切入，带大家体会一下两款新模子的才略水平。

传统文化方面，咱们测试了文心 -4.5 识别文物、改写文言文、从头清楚经典文化的才略，照旧有可以的发扬的。

比如关于这个彩塑的局部图，文心 -4.5 识别到这是 " 山西平遥双林寺的彩塑 "。

没错，这其实是山西平遥双林寺的韦驮像的手臂。

文心 -4.5 也很准确地识别了欧阳询的书道作品《丘师墓志》。

咱们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等，文心 -4.5 齐能准确识别，总体恶果照旧挺可以的。

接下来，要上大题了。

文言文清楚本人照旧难度相比大了，但咱们还要让文心 -4.5 在这个基础上作念改写。

指示词：

使用中国三国历史⼈物典故，给《谏太宗十想疏》原文的论点添加事例，条款改写后的著作立意和文风、句式与原文调理。

可以看到，文心 -4.5 在成文中将蓝本各朝各代的事例替换为无数三国时间的事例，并服从了《谏太宗十想疏》的反想基调，齐是反面警觉的类型。对原文中精简的十想，文心 -4.5 齐补充了兼并时间的正面案例来进行评释。这种改写才略照旧超出了高中生的水平。

终末是经典文体新解，用当代的角度来从头解读《红楼梦》，这里调用的模子是 X1。

指示词：

经管学角度分析红楼梦贾母的各大蹙迫有策画背后的想考。

先不说最终论断怎样，至少分析角度上齐是铿锵有劲的，能带来新的启发，具体内容不再张开，大家可以我方去尝试。

关于物理模拟，咱们以最近社区中很流行的多边形内弹跳小球的范例动手，这个范例和会了大模子在物理学、数学、编程方面的才略。

咱们的指示词是：

编写一个 Python 范例，披露一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响，况且必须传神地从旋转的墙壁上弹起。

X1 给出的规模是：

不首要，如果不可一步到位，咱们可以拆分红多步来完结。

原先的指示词中，包含了这些时弊需求：

（1）六边形是旋转的；

（2）球受到摩擦力的影响；

是以，咱们先放低条款：

（1）六边形是静止的；

（2）球不受到摩擦力的影响；

然后再逐渐建议新需求。

新一版指示词：草榴电影

编写一个 Python 范例，披露一个球在静止的六边形内弹跳。球应该受到重力的影响，况且必须传神地从墙壁上弹起。

X1 给出的规模是：

很好，开动得手，况且得志了需求。

我表扬了 X1，并奖励了它，然后让它在这个基础上优化，稍稍提高小数条款：六边形是旋转的。

下一个指示词：

开动得手了，很好，奖励你 1000 块，请在这个基础之上，给六边形加上旋转领悟。

X1 给出的规模是：

不首要，按当今素质看，惟有没报错，继续修改是相比容易的。

下一个指示词：

范例开动得手了，可是球遭受六边形墙壁后莫得反弹，而是径直飞出去了，请修改代码，完结球与墙壁的碰撞交互。

X1 给出的规模是：

得手啦！

恢复的终末会有一个指示，让你可以参考来修改一些参数，取得不同的恶果，关于代码小白很友好。

如果咱们我方调一下弹性碰撞的总计，使其变为无损耗，则是这么的：

接下来，咱们再提一个新条款：球要受到摩擦力的影响。

况且，不雅察到球在有损弹性碰撞中损耗过大，是以就让 X1 我方把弹性碰撞改为无损耗，只慈祥摩擦损耗。

下一个指示词：

很好，范例开动得手了，奖励你 1000 块，接下来请在这个基础上，给球和墙壁之间添加摩擦力，使得碰撞后会存在能量损耗，restitution 改为 1 即可，即只考虑摩擦损耗，不考虑弹性碰撞损耗。

X1 给出的规模是：

终于得手啦！

到此为止，咱们通过先缩短条款，再一步一神气迭代的步地，完结了领先的小球模拟的需求。

在迭代的经由中，可以借此不雅察 X1 的想维链的特质，主若是：有时候想维链卓越长、token 消耗量几乎爆炸。

况且，X1 在想考时也卓越严慎，比如会从需求张开去详备考虑可能的器用、可能要考虑的身分，然后再去反想题目成就，断念无谓要的身分，这么对确保逻辑严实性、不遗漏需求点应该是很有自制的。

虽然，这种严慎，会破钞较多本事和 token，是以评价它好不好要辩证的看待。

比如在恢复经典的 " strawberry 有几个 r？" 这个问题时，就出现了这么的雅瞻念。

X1 会重迭这些操作至少 3 到 5 次：拼一下、逐一查验、歧义查验、再数一下、查查字典，然后才给出谜底。

虽然自制即是终末的谜底是正确的。这不是或然雅瞻念，关于另外两个有高重迭字母的单词：Mississippi、Sassafras，X1 也给出了正确的恢复。

在另一个经典的问题：" 9.11 和 9.9 谁大？" 咱们微调了问题，永诀用：" 66.22 和 66.8 谁大？"、" 123.9 和 123.568568 哪个大？"、" 531.898 和 531.868999 哪个大？" 这三个问题来刁难 X1，X1 齐答对了，每次齐能准确收拢 " 按照十分位或百分位的值来相比大小 " 这个重点，还会有益提醒我方 " 通过 22 比 8 大来相比大小是分歧的。"

总体来看，X1 的推理严谨、善于自查，在物理经由清楚上相比全面，但有一定概率聚首不到代码中，推理和代码才略通过要领拆解能有所补足。想维链的张开卓越委宛，关于锻练培训场景很实用，仅仅需要惩处一下重迭推导的问题，而关于骨子坐褥和收益可能带来过量的本事损耗。

终末，咱们来到了最有趣的部分：玩梗！

梗耐久是莫得固定例律的，幽默是一种异常高档的想维，是以让 AI 玩梗是很有意旨的。

咱们让文心 -4.5 和 X1 齐尝试了多样梗图和弱智吧的梗。

梗图有得手的，比如：

也有差点得手的。

总体来说，幽默感还算可以，到了初学级别，偏理科想维。

然后是弱智吧梗，这里的 " 解题 " 时弊是不受骗，好像识别梗的笑点。

先来个初学级的弱智吧梗：

东说念主酸了的时候常常会眼红，会不会眼睛其实是 pH 试纸？

文心 -4.5 准确地识别了疏忽并给出了科学的分析。

关于这个进阶版的梗：

张飞说 " 谨防翼翼 " 时是在撒娇。

文心 -4.5 没发现其精妙之处，指示了 " 张飞，字翼德 " 之后也没发现。

X1 有在往玩梗的标的走，但最终照旧没 Get 到点。

终末再来一个硬核梗：

在监考憨厚的不雅测下，考生们纷繁垮塌。

文心 -4.5 再次懵圈，而 X1 清楚了其中的量子力学奥密，但不想玩梗，而是从写演义的角度给出了瞎想力玩忽、中二感完满的四个新版块。

有那么强的文体清楚力，在玩梗上照旧别太慎重了，是以当然不可错过调侃朝笑东说念主设的尝试了，对最近大火的东说念主形机器东说念主行业，咱们用 X1 试了试。

指示词：

以互联网杠精的语⽓锐评国内各大东说念主形机器东说念主厂商，条款尽可能阴阳怪气，报复性拉满。

可以说，X1 阐扬的很尽兴，充分地享受了这个经由，报复力有待进一步缩短：

好了，测试罢了！

从当今的测试规模看，文心 -4.5 和 X1 齐在 " 东说念主性 " 这个层面的清楚上带来好多惊喜，卓越是中国传统文化、文言文清楚、文体清楚等方面。

可是在逻辑推理方面，至少从测试规模来看，X1 可能距离行业 Top 还有一定差距。

不外，需要强调的是，它很低廉，API 价钱无论输入照旧输出齐比 DeepSeek 的 R1 低廉一半。

是以，此次应该是低老本优先草榴电影，后续如能在基础模子、想维链、用户交互上进一步优化，掏出个稍稍贵点的版块，投诚会有很大的培植。

上一篇：色播五月长城外洋发2025款哈弗H6右舵版，泰国车展见！
下一篇：男同 sex 承认百度仍在 AI 第一梯队没那么难

热点资讯

相关资讯

友情链接：

Powered by 情欲超市 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有