AI解数学考试速度超科学家出题

随着人工智能技术的快速发展，其应用领域不断扩展，如今，这种技术的潜力正深度影响着数学研究领域。一家非营利研究机构Epoch AI于2024年11月低调发布了名为“FrontierMath”的标准化基准，用以评估最新人工智能工具的数学推理能力。该基准不仅引发学术界关注，也展现了人工智能在数学领域快速进步的趋势。

“FrontierMath”基准的核心理念是在问题设置上提供已知的答案，而这些答案均由人类通过推理得出。这种设计为评估AI推理能力提供了一种客观参照。虽然某些AI在复杂问题上表现出色，但对于许多问题，人类仍需耗费大量时间和精力才能达成类似结果。在这一背景下，AI研究逐渐向更高难度问题迈进，并寻求达到甚至超越人类的能力。

近期，Google DeepMind 发布了最新实验性人工智能系统 Aletheia，该系统基于其旗舰技术 Gemini Deep Think 开发。据报道，Aletheia 成功完成了一项复杂的数学研究，计算出某些算术几何领域结构常数的特征权重（eigenweights）。这一成就虽数学上晦涩，但却具有重要意义——它是 AI 在高级数学领域发展的一次重要突破。

这一成果的背景更令人惊叹：虽然Burnham表示，一名人类如果“集中精力一周”可能也能实现类似结果，但迄今为止从未有人提出该结果。这标志着AI不仅能够复制人类的数学推理，也在某些专业领域开辟了新的研究可能性。

为了进一步评估AI系统解决高难度数学问题的实际能力，2024年2月6日，一组由11位数学专业人士组成的专家团队提出了“首个证明挑战”（First Proof Challenge）。这一挑战由10道极具难度的数学问题组成，这些问题源自研究人员的自然研究过程，问题的证明通常不超过五页且从未与外界分享。

“First Proof Challenge”旨在测试AI是否能够独立解决数学研究领域最复杂的问题。此举不仅吸引了专业数学家和业余数学爱好者的广泛关注，还吸引了包括OpenAI在内的多支团队参与。然而，挑战最终结果显示，截至2月14日，这些问题的完整正确答案仍未被提交。这一结果表明，尽管AI系统在特定领域表现卓越，其仍然面临着研究级别高难度问题的挑战。