数学题于高考里,成了AI的“智商测试器”,讯飞星火出人意料地击败GPT,成为一匹黑马,这事儿变得有意思起来了。
十道填空题测出AI真实水平
搜狐科技选了2023年高考数学测试的题,是前10道填空题并不是随便选取的,题目包含了不等式,有圆形方程,同时还有三角形方程,甚至具备GDP增长率计算,基本上那些高中数学的核心知识点全部都覆盖了,五款主流AI大了些模型轮流进行作业,最终结果让人十分意外。
讯飞星火,答对了五道题目,其正确率达到了百分之五十,于这一轮测试之中,拔得了头筹。GPT以及文心一言,各自答对了四道,正确率百分之四十,紧紧跟随在后面。另外两款大模型,一道题目都没有蒙中正确答案,也就相当于在数学这门课程之上,交了空白的答卷。这样的结果,让不少人重新去审视国产大模型的实力。
三角函数题成全军覆没重灾区
量子位的测试愈发有意思了起来,存在一种情况是,他们更换了题本,并且还增添了GPT-4。有这样一道题目,它是关于函数f(x)=cosωx-1在区间有且仅有3个零点的,此题目成为了对AI数学能力进行考验的试金石。GPT-4所给出的答案是ω的取值范围是(0,1/2 U{1},然而这个答案彻头彻尾是错误的。
那些参与测试的其他大型模型,也都未能躲开这道题的困扰,提供的答案各式各样然而统统是错误的。那个时候测试编辑已然快要打算放弃了,以为此次又将全部失败,未曾料到讯飞星火最终给出了正确的答案。这样的转变着实令人记忆深刻,国产的模型在特定的题目方面确实具备一定的能力。
解题过程暴露AI思考短板
尽管讯飞星火于三角函数题的首个小问里答对了,然而认真去瞧它的解题步骤依旧出现了偏差,这意味着目前的AI大模型在数学推理之时,有的时候恰似一位“跳步”的学生,答案是正确的但中间过程存在问题,这种思维方式跟人类学生着实有几分相像。
数学题目并非仅仅着眼于最终得出的答案,其解题过程所具备的严谨程度同样是至关重要的。有着“跳步”这般现象的AI是要注意了,它在逻辑推理所呈现的连贯性方面是存在着还有提升的空间的。然而鉴于这是处于V1.5版本之前的测试情况,后续的升级理应是能够把这块短板给补上的。
横向对比显出国产模型潜力
那种由量子位所制作出来的横评汇总表具备相当直观的特性,GPT - 4在处于排列组合、立体几何以及三角函数这三道呈现为填空题形式的题目当中,仅答对了其中一道。讯飞星火同样是仅仅答对了一道填空题,可有在三角函数部分那种解答题里,起码还拿下了一个问题的回答。其余参与测评的那些大模型基本上都是充作陪跑角色出现的,没有一道题能够答对。
这一结果表明,于数学这般硬核能力方面,国产大模型并不逊色于国外顶尖模型。尤其是在具体题目之解答上,讯飞星火呈现出了颇为不错的推理能力。虽说整体正确率依旧不高,然而至少证实了中文大模型于数学领域存在追赶的实力。
数学能力成AI智商重要指标
为何众人皆热衷于用数学题目去考AI?是由于数学所检验的恰是理解以及推理的能力,而这与测量人类IQ的逻辑简直一模一样。高考数学题可是经由精心策划而成的,每一道题目都在对特定的思维能力展开考查。AI能够解出这些题目,这表明它在逻辑推理方面着实具备一定的本事。
基于两次测试的情况来看,AI大模型于数学题方面的表现,远远未能够达到那所谓“碾压人类”的程度。最高仅50%的正确率表明,哪怕是最为先进的AI,在面对高中数学题的时候,也会遭遇犯难的状况。这同样从侧面证实了人类智慧具备的复杂性,并非是说只要被超越便可以轻易完成超越的。
星火迭代瞄准更高目标
6月9日,讯飞星火V1.5版本被正式发布了,此次升级的重点在于提升数学能力。依据科大讯飞的规划,他们打算在10月24日达成中文超越GPT、英文旗鼓相当的目的。从这次高考数学测试的表现来讲,这个目标并非是随意说说而已的。
伴随数学能力得以提升,新版本于开放式问答方面有颇为显著的升级表现、在多轮对话这一领域同样有着突出的升级成果。文本生成能力在持续不断地优化之中还有语言理解能力也处于始终持续优化的动态态势并且逻辑推理能力亦是持续不断朝着良好方向得以优化。以一步一个脚印的方式进行迭代,如此这般务实的态度反倒致使人们对于国产大模型后续的未来更加充满信心。
你是否认为,将高考数学题目用以测试AI的“智商”,这一行为是靠谱的呢?要是使AI参与完整的高考,那么它能够被清华北大录取吗?欢迎于评论区把你的看法予以分享,点个赞从而让更多人目睹这场趣味性十足的AI对决。






