Новый математический бенчмарк FrontierMath поставил ИИ в тупик
С экспертными задачами/imgs/2024/11/13/15/6654310/affc677a16e079d456e04c1c3bc0b5acbfa53c64.jpeg)
Что отличает FrontierMath от существующих бенчмарков, так это его конструкция: набор задач остается неопубликованным, чтобы избежать загрязнения данных, обеспечивая, что ИИ действительно сталкивается с трудностями, а не полагается на уже существующие наборы данных. Хотя ИИ-модели хорошо справляются с более простыми бенчмарками, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.
Разработанный с участием более 60 математиков и рецензируемый лауреатами Филдсовской премии, FrontierMath предлагает решения, которые могут быть проверены вычислениями, требующими сложных алгоритмов или больших числовых ответов.
Epoch AI планирует расширять бенчмарк и в будущем выпускать новые задачи для дальнейших испытаний и проверки пределов возможностей ИИ в математике.