首个高考志愿AI测评发布 千问多项能力超人类咨询师

趣百科 新闻资讯 1

6月23日消息,据媒体报道,国内首个针对高考志愿填报场景的AI能力测评报告——《高考志愿AI测评基准》正式发布。该报告由独立研究团队友松实验室完成,以千问高考志愿填报Agent为首个测评对象。

结果显示,千问在多项指标上的表现已达到人类志愿咨询师水平,并在稳定性、精确性、结构化表达与效率层面展现出明显优势。

报告将千问高考Agent列为首个测评对象,原因在于其基于夸克8年高考服务数据与经验构建,产品形态、数据积累和用户覆盖均具有行业代表性。

人类对照组则由53名志愿填报咨询师组成,平均从业年限为4.6年。测评内容覆盖高考志愿填报的四个核心环节:基本事实与规则问答、模拟志愿填报、开放式咨询以及志愿推荐报告生成,对应考生和家长从查资料、看规则到排方案、做决策的完整流程。

测评数据显示:在44道客观题中,千问全部答对,准确率达100%,人类咨询师平均正确率为89.3%;在模拟志愿填报环节,千问生成的方案包含6个可录取志愿,未出现显性偏好违背,并精准命中了事后评估的最优录取结果,而人类咨询师平均仅给出5.3个可录取志愿。

在开放式咨询环节中,评审专家在100场匿名对比中,有58次更倾向选择千问的回答;其回答“可直接向学生和家长展示”的比例为56.0%,高于人类咨询师的33.0%,专家认为千问在专业路径拆解、风险提示和表达清晰度方面更稳定。

报告认为,在既定任务范围内,千问的多项表现已可媲美资深人类咨询师,尤其在稳定性、精确性与结构化表达方面优势显著。

但报告同时强调,人类咨询师的核心价值不可替代:涉及收入预期、就业判断等需要结合个体情况谨慎权衡的话题时,咨询师更能给出贴合实际的建议;而在亲子协商、价值取舍等场景中,结构完整的AI方案也无法替代人与人之间的沟通与判断。

报告建议,AI更擅长高效完成信息核验、资料整理与方案初筛,而人类咨询师可更多聚焦家庭沟通、价值引导与个性化决策。二者形成互补,既提升填报效率与准确性,也更好回应考生和家庭的真实需求。