情欲超市

草榴电影 百度公测新推理模子X1:说不上很猛,但起码才略在线

发布日期:2025-07-06 00:17    点击次数:71

草榴电影 百度公测新推理模子X1:说不上很猛,但起码才略在线

今天,是百度发布自家大模子文心一言的两周年,在这个本事点,百度发布了自家的新模子文心 -4.5 和推理模子 X1草榴电影,通盘东说念主在文心一言官网可免费使用。

才略上,前者主打有文化、有真义、有东说念主性,后者主打逻辑推理。

针对这些时弊点,在无数的测试场景类型中,知危裁剪部选拔了传统文化、物理模拟、玩梗来切入,带大家体会一下两款新模子的才略水平。

传统文化方面,咱们测试了文心 -4.5 识别文物、改写文言文、从头清楚经典文化的才略,照旧有可以的发扬的。

比如关于这个彩塑的局部图,文心 -4.5 识别到这是 " 山西平遥双林寺的彩塑 "。

没错,这其实是山西平遥双林寺的韦驮像的手臂。

文心 -4.5 也很准确地识别了欧阳询的书道作品《 丘师墓志 》。

咱们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等,文心 -4.5 齐能准确识别,总体恶果照旧挺可以的。

接下来,要上大题了。

文言文清楚本人照旧难度相比大了,但咱们还要让文心 -4.5 在这个基础上作念改写。

指示词:

使用中国三国历史⼈物典故,给《 谏太宗十想疏 》原文的论点添加事例,条款改写后的著作立意和文风、句式与原文调理。

可以看到,文心 -4.5 在成文中将蓝本各朝各代的事例替换为无数三国时间的事例,并服从了《 谏太宗十想疏 》的反想基调,齐是反面警觉的类型。对原文中精简的十想,文心 -4.5 齐补充了兼并时间的正面案例来进行评释。这种改写才略照旧超出了高中生的水平。

终末是经典文体新解,用当代的角度来从头解读《 红楼梦 》,这里调用的模子是 X1。

指示词:

经管学角度分析红楼梦贾母的各大蹙迫有策画背后的想考。

先不说最终论断怎样,至少分析角度上齐是铿锵有劲的,能带来新的启发,具体内容不再张开,大家可以我方去尝试。

关于物理模拟,咱们以最近社区中很流行的多边形内弹跳小球的范例动手,这个范例和会了大模子在物理学、数学、编程方面的才略。

咱们的指示词是:

编写一个 Python 范例,披露一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,况且必须传神地从旋转的墙壁上弹起。

X1 给出的规模是:

不首要,如果不可一步到位,咱们可以拆分红多步来完结。

原先的指示词中,包含了这些时弊需求:

(1)六边形是旋转的;

(2)球受到摩擦力的影响;

是以,咱们先放低条款:

(1)六边形是静止的;

(2)球不受到摩擦力的影响;

然后再逐渐建议新需求。

新一版指示词:草榴电影

编写一个 Python 范例,披露一个球在静止的六边形内弹跳。球应该受到重力的影响,况且必须传神地从墙壁上弹起。

X1 给出的规模是:

很好,开动得手,况且得志了需求。

我表扬了 X1,并奖励了它,然后让它在这个基础上优化,稍稍提高小数条款:六边形是旋转的。

下一个指示词:

开动得手了,很好,奖励你 1000 块,请在这个基础之上,给六边形加上旋转领悟。

X1 给出的规模是:

不首要,按当今素质看,惟有没报错,继续修改是相比容易的。

下一个指示词:

范例开动得手了,可是球遭受六边形墙壁后莫得反弹,而是径直飞出去了,请修改代码,完结球与墙壁的碰撞交互。

X1 给出的规模是:

得手啦!

恢复的终末会有一个指示,让你可以参考来修改一些参数,取得不同的恶果,关于代码小白很友好。

如果咱们我方调一下弹性碰撞的总计,使其变为无损耗,则是这么的:

接下来,咱们再提一个新条款:球要受到摩擦力的影响。

况且,不雅察到球在有损弹性碰撞中损耗过大,是以就让 X1 我方把弹性碰撞改为无损耗,只慈祥摩擦损耗。

下一个指示词:

很好,范例开动得手了,奖励你 1000 块,接下来请在这个基础上,给球和墙壁之间添加摩擦力,使得碰撞后会存在能量损耗,restitution 改为 1 即可,即只考虑摩擦损耗,不考虑弹性碰撞损耗。

X1 给出的规模是:

终于得手啦!

到此为止,咱们通过先缩短条款,再一步一神气迭代的步地,完结了领先的小球模拟的需求。

在迭代的经由中,可以借此不雅察 X1 的想维链的特质,主若是:有时候想维链卓越长、token 消耗量几乎爆炸。

况且,X1 在想考时也卓越严慎,比如会从需求张开去详备考虑可能的器用、可能要考虑的身分,然后再去反想题目成就,断念无谓要的身分,这么对确保逻辑严实性、不遗漏需求点应该是很有自制的。

虽然,这种严慎,会破钞较多本事和 token,是以评价它好不好要辩证的看待。

比如在恢复经典的 " strawberry 有几个 r?" 这个问题时,就出现了这么的雅瞻念。

X1 会重迭这些操作至少 3 到 5 次:拼一下、逐一查验、歧义查验、再数一下、查查字典,然后才给出谜底。

虽然自制即是终末的谜底是正确的。这不是或然雅瞻念,关于另外两个有高重迭字母的单词:Mississippi、Sassafras,X1 也给出了正确的恢复。

在另一个经典的问题:" 9.11 和 9.9 谁大?" 咱们微调了问题,永诀用:" 66.22 和 66.8 谁大?"、" 123.9 和 123.568568 哪个大?"、" 531.898 和 531.868999 哪个大?" 这三个问题来刁难 X1,X1 齐答对了,每次齐能准确收拢 " 按照十分位或百分位的值来相比大小 " 这个重点,还会有益提醒我方 " 通过 22 比 8 大来相比大小是分歧的。"

总体来看,X1 的推理严谨、善于自查,在物理经由清楚上相比全面,但有一定概率聚首不到代码中,推理和代码才略通过要领拆解能有所补足。想维链的张开卓越委宛,关于锻练培训场景很实用,仅仅需要惩处一下重迭推导的问题,而关于骨子坐褥和收益可能带来过量的本事损耗。

终末,咱们来到了最有趣的部分:玩梗!

梗耐久是莫得固定例律的,幽默是一种异常高档的想维,是以让 AI 玩梗是很有意旨的。

咱们让文心 -4.5 和 X1 齐尝试了多样梗图和弱智吧的梗。

梗图有得手的,比如:

也有差点得手的。

总体来说,幽默感还算可以,到了初学级别,偏理科想维。

然后是弱智吧梗,这里的 " 解题 " 时弊是不受骗,好像识别梗的笑点。

先来个初学级的弱智吧梗:

东说念主酸了的时候常常会眼红,会不会眼睛其实是 pH 试纸?

文心 -4.5 准确地识别了疏忽并给出了科学的分析。

关于这个进阶版的梗:

张飞说 " 谨防翼翼 " 时是在撒娇。

文心 -4.5 没发现其精妙之处,指示了 " 张飞,字翼德 " 之后也没发现。

X1 有在往玩梗的标的走,但最终照旧没 Get 到点。

终末再来一个硬核梗:

在监考憨厚的不雅测下,考生们纷繁垮塌。

文心 -4.5 再次懵圈,而 X1 清楚了其中的量子力学奥密,但不想玩梗,而是从写演义的角度给出了瞎想力玩忽、中二感完满的四个新版块。

有那么强的文体清楚力,在玩梗上照旧别太慎重了,是以当然不可错过调侃朝笑东说念主设的尝试了,对最近大火的东说念主形机器东说念主行业,咱们用 X1 试了试。

指示词:

以互联网杠精的语⽓锐评国内各大东说念主形机器东说念主厂商,条款尽可能阴阳怪气,报复性拉满。

可以说,X1 阐扬的很尽兴,充分地享受了这个经由,报复力有待进一步缩短:

好了,测试罢了!

从当今的测试规模看,文心 -4.5 和 X1 齐在 " 东说念主性 " 这个层面的清楚上带来好多惊喜,卓越是中国传统文化、文言文清楚、文体清楚等方面。

麻豆足交

可是在逻辑推理方面,至少从测试规模来看,X1 可能距离行业 Top 还有一定差距。

不外,需要强调的是,它很低廉,API 价钱无论输入照旧输出齐比 DeepSeek 的 R1 低廉一半。

是以,此次应该是低老本优先草榴电影,后续如能在基础模子、想维链、用户交互上进一步优化,掏出个稍稍贵点的版块,投诚会有很大的培植。






Powered by 情欲超市 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有