草榴电影 百度公测新推理模子X1:说不上很猛,但起码才略在线
发布日期:2025-07-06 00:17 点击次数:71今天,是百度发布自家大模子文心一言的两周年,在这个本事点,百度发布了自家的新模子文心 -4.5 和推理模子 X1草榴电影,通盘东说念主在文心一言官网可免费使用。
才略上,前者主打有文化、有真义、有东说念主性,后者主打逻辑推理。
针对这些时弊点,在无数的测试场景类型中,知危裁剪部选拔了传统文化、物理模拟、玩梗来切入,带大家体会一下两款新模子的才略水平。
传统文化方面,咱们测试了文心 -4.5 识别文物、改写文言文、从头清楚经典文化的才略,照旧有可以的发扬的。
比如关于这个彩塑的局部图,文心 -4.5 识别到这是 " 山西平遥双林寺的彩塑 "。
没错,这其实是山西平遥双林寺的韦驮像的手臂。
文心 -4.5 也很准确地识别了欧阳询的书道作品《 丘师墓志 》。
咱们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等,文心 -4.5 齐能准确识别,总体恶果照旧挺可以的。
接下来,要上大题了。
文言文清楚本人照旧难度相比大了,但咱们还要让文心 -4.5 在这个基础上作念改写。
指示词:
使用中国三国历史⼈物典故,给《 谏太宗十想疏 》原文的论点添加事例,条款改写后的著作立意和文风、句式与原文调理。
可以看到,文心 -4.5 在成文中将蓝本各朝各代的事例替换为无数三国时间的事例,并服从了《 谏太宗十想疏 》的反想基调,齐是反面警觉的类型。对原文中精简的十想,文心 -4.5 齐补充了兼并时间的正面案例来进行评释。这种改写才略照旧超出了高中生的水平。
终末是经典文体新解,用当代的角度来从头解读《 红楼梦 》,这里调用的模子是 X1。
指示词:
经管学角度分析红楼梦贾母的各大蹙迫有策画背后的想考。
先不说最终论断怎样,至少分析角度上齐是铿锵有劲的,能带来新的启发,具体内容不再张开,大家可以我方去尝试。
关于物理模拟,咱们以最近社区中很流行的多边形内弹跳小球的范例动手,这个范例和会了大模子在物理学、数学、编程方面的才略。
咱们的指示词是:
编写一个 Python 范例,披露一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,况且必须传神地从旋转的墙壁上弹起。
X1 给出的规模是:
不首要,如果不可一步到位,咱们可以拆分红多步来完结。
原先的指示词中,包含了这些时弊需求:
(1)六边形是旋转的;
(2)球受到摩擦力的影响;
是以,咱们先放低条款:
(1)六边形是静止的;
(2)球不受到摩擦力的影响;
然后再逐渐建议新需求。
新一版指示词:草榴电影
编写一个 Python 范例,披露一个球在静止的六边形内弹跳。球应该受到重力的影响,况且必须传神地从墙壁上弹起。
X1 给出的规模是:
很好,开动得手,况且得志了需求。
我表扬了 X1,并奖励了它,然后让它在这个基础上优化,稍稍提高小数条款:六边形是旋转的。
下一个指示词:
开动得手了,很好,奖励你 1000 块,请在这个基础之上,给六边形加上旋转领悟。
X1 给出的规模是:
不首要,按当今素质看,惟有没报错,继续修改是相比容易的。
下一个指示词:
范例开动得手了,可是球遭受六边形墙壁后莫得反弹,而是径直飞出去了,请修改代码,完结球与墙壁的碰撞交互。
X1 给出的规模是:
得手啦!
恢复的终末会有一个指示,让你可以参考来修改一些参数,取得不同的恶果,关于代码小白很友好。
如果咱们我方调一下弹性碰撞的总计,使其变为无损耗,则是这么的:
接下来,咱们再提一个新条款:球要受到摩擦力的影响。
况且,不雅察到球在有损弹性碰撞中损耗过大,是以就让 X1 我方把弹性碰撞改为无损耗,只慈祥摩擦损耗。
下一个指示词:
很好,范例开动得手了,奖励你 1000 块,接下来请在这个基础上,给球和墙壁之间添加摩擦力,使得碰撞后会存在能量损耗,restitution 改为 1 即可,即只考虑摩擦损耗,不考虑弹性碰撞损耗。
X1 给出的规模是:
终于得手啦!
到此为止,咱们通过先缩短条款,再一步一神气迭代的步地,完结了领先的小球模拟的需求。
在迭代的经由中,可以借此不雅察 X1 的想维链的特质,主若是:有时候想维链卓越长、token 消耗量几乎爆炸。
况且,X1 在想考时也卓越严慎,比如会从需求张开去详备考虑可能的器用、可能要考虑的身分,然后再去反想题目成就,断念无谓要的身分,这么对确保逻辑严实性、不遗漏需求点应该是很有自制的。
虽然,这种严慎,会破钞较多本事和 token,是以评价它好不好要辩证的看待。
比如在恢复经典的 " strawberry 有几个 r?" 这个问题时,就出现了这么的雅瞻念。
X1 会重迭这些操作至少 3 到 5 次:拼一下、逐一查验、歧义查验、再数一下、查查字典,然后才给出谜底。
虽然自制即是终末的谜底是正确的。这不是或然雅瞻念,关于另外两个有高重迭字母的单词:Mississippi、Sassafras,X1 也给出了正确的恢复。
在另一个经典的问题:" 9.11 和 9.9 谁大?" 咱们微调了问题,永诀用:" 66.22 和 66.8 谁大?"、" 123.9 和 123.568568 哪个大?"、" 531.898 和 531.868999 哪个大?" 这三个问题来刁难 X1,X1 齐答对了,每次齐能准确收拢 " 按照十分位或百分位的值来相比大小 " 这个重点,还会有益提醒我方 " 通过 22 比 8 大来相比大小是分歧的。"
总体来看,X1 的推理严谨、善于自查,在物理经由清楚上相比全面,但有一定概率聚首不到代码中,推理和代码才略通过要领拆解能有所补足。想维链的张开卓越委宛,关于锻练培训场景很实用,仅仅需要惩处一下重迭推导的问题,而关于骨子坐褥和收益可能带来过量的本事损耗。
终末,咱们来到了最有趣的部分:玩梗!
梗耐久是莫得固定例律的,幽默是一种异常高档的想维,是以让 AI 玩梗是很有意旨的。
咱们让文心 -4.5 和 X1 齐尝试了多样梗图和弱智吧的梗。
梗图有得手的,比如:
也有差点得手的。
总体来说,幽默感还算可以,到了初学级别,偏理科想维。
然后是弱智吧梗,这里的 " 解题 " 时弊是不受骗,好像识别梗的笑点。
先来个初学级的弱智吧梗:
东说念主酸了的时候常常会眼红,会不会眼睛其实是 pH 试纸?
文心 -4.5 准确地识别了疏忽并给出了科学的分析。
关于这个进阶版的梗:
张飞说 " 谨防翼翼 " 时是在撒娇。
文心 -4.5 没发现其精妙之处,指示了 " 张飞,字翼德 " 之后也没发现。
X1 有在往玩梗的标的走,但最终照旧没 Get 到点。
终末再来一个硬核梗:
在监考憨厚的不雅测下,考生们纷繁垮塌。
文心 -4.5 再次懵圈,而 X1 清楚了其中的量子力学奥密,但不想玩梗,而是从写演义的角度给出了瞎想力玩忽、中二感完满的四个新版块。
有那么强的文体清楚力,在玩梗上照旧别太慎重了,是以当然不可错过调侃朝笑东说念主设的尝试了,对最近大火的东说念主形机器东说念主行业,咱们用 X1 试了试。
指示词:
以互联网杠精的语⽓锐评国内各大东说念主形机器东说念主厂商,条款尽可能阴阳怪气,报复性拉满。
可以说,X1 阐扬的很尽兴,充分地享受了这个经由,报复力有待进一步缩短:
好了,测试罢了!
从当今的测试规模看,文心 -4.5 和 X1 齐在 " 东说念主性 " 这个层面的清楚上带来好多惊喜,卓越是中国传统文化、文言文清楚、文体清楚等方面。
麻豆足交可是在逻辑推理方面,至少从测试规模来看,X1 可能距离行业 Top 还有一定差距。
不外,需要强调的是,它很低廉,API 价钱无论输入照旧输出齐比 DeepSeek 的 R1 低廉一半。
是以,此次应该是低老本优先草榴电影,后续如能在基础模子、想维链、用户交互上进一步优化,掏出个稍稍贵点的版块,投诚会有很大的培植。