В США создали систему оценки надежности моделей ИИ
Так называемых General Purpose AIЭти модели, как и те, которыми оснащены такие продвинутые инструменты ИИ, как ChatGPT и DALL-E, проходят предварительное обучение на огромных массивах данных и используются в различных приложениях, что создает "потенциальный риск получения неверных результатов в критических сценариях".
Метод основан на создании ансамбля слегка различающихся моделей и оценке их консенсуса в отношении представления данных. Измеряя согласованность этих представлений в разных моделях, исследователи могут оценить надежность прогнозов без тестирования в реальных условиях, что крайне важно в таких отраслях, как здравоохранение.
Ведущий автор исследования Янг-Джин Парк объясняет: "Наш подход измеряет консенсус между моделями. Если несколько моделей последовательно создают схожие представления для заданных точек данных, мы делаем вывод о надежности".
Новый уже метод превзошел существующие.