传统基准测试的终结：在现实世界中评估人工智能的需求

人工智能模型在孤立测试中超越人类，却在实践中屡屡碰壁。专家主张转向基于工作流程与人类协作的评估基准。

研究与创新 •

•

5 de 四月 de 2026

•

全球人工智能行业正面临一个日益严峻的悖论：尽管模型在实验室测试中取得了令人瞩目的成绩，但在实际环境中的应用往往导致效率低下和挫败感。几十年来，人工智能成功的衡量标准一直基于机器与人类在书写代码或解决数学问题等孤立任务中的直接对比。然而，这种方法虽然因其简单和易于制造头条新闻而具有诱惑力，却忽略了一个事实：人工智能并非在真空中运作，而是在复杂、协作且往往混乱的生态系统中运行。

实验室测试的局限性

当前的人工智能评估领域由静态基准测试主导，这些测试侧重于二元回答（正确或错误）以及处理速度。这种方法制造了一种能力的幻觉，即模型在受控环境中可能表现出98%的准确率，但在整合到医院或法律部门时却表现糟糕。其根本缺陷在于，这些测试忽略了组织动态、人际互动以及人类决策的演变性质，而这些决策很少仅依赖于单一的孤立数据。

复杂环境中性能的谬误

2021年至2024年间在英国、美国和亚洲医疗机构进行的研究清楚地表明了技术性能与操作实用性之间的脱节。医生在使用经FDA等监管机构批准的人工智能工具时，往往发现该技术不仅没有加快诊断速度，反而引入了延误。这是因为医院的工作流程需要放射科医生、肿瘤科医生和护士之间的协调，并需遵守特定的监管规范。由于人工智能是在这种背景之外进行测试的，它反而成了障碍而非助手。

一种名为HAIC的新方法

为了降低这些风险并避免所谓的“人工智能坟场”——即昂贵的技术在实施失败后被废弃——人们提出了HAIC（Human-AI, Context-Specific Evaluation，即“人机协作、情境化评估”）基准。与传统测试不同，该方法论在评估成功的方式上提出了根本性的变革：

分析单位的转变：评估团队和工作流程的绩效，而不仅仅是单个软件的绩效。
时间跨度的扩展：分析人工智能在数周或数月内的影响，而非单次交互。
组织成果的衡量：关注协调质量和纠错能力，而非仅仅是速度。
系统性影响分析：考虑人工智能在整个产业链中实施的直接和间接后果。

对市场和社会的影响

坚持使用无法反映现实的指标会造成监管盲点，并浪费大量的财务和技术资源。当组织投资于未能兑现承诺的解决方案时，公众和内部对技术本身的信任就会受到侵蚀。依赖肤浅基准测试来决定人工智能采用情况的政府和企业，最终承担了不成比例的风险，并在缺乏生态有效性的数据下进行操作。因此，向情境化评估的过渡是一项经济和伦理上的必然，以确保人工智能成为具有可持续价值的工具。

人工智能评估的未来

未来的道路要求开发人员和管理者放弃对孤立准确性排名的痴迷，转而支持在真实环境中的压力测试。人工智能的未来成功将不再以其在国际象棋比赛或数学测试中击败人类的能力来衡量，而是以其高效融入人类团队、为复杂集体决策做出贡献的能力来衡量。下一代基准测试必须与这些工具旨在改变的工作环境一样复杂且充满活力，确保技术创新转化为真正的人类进步。