Таблицы лидеров моделей на портале Azure AI Foundry (предварительная версия)

2025-06-25

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Таблицы лидеров моделей (предварительная версия) на портале Azure AI Foundry позволяют упростить процесс выбора модели в каталоге моделей Azure AI Foundry. Таблицы лидеров модели, поддерживаемые отраслевыми стандартными тестами, помогут вам найти лучшую модель для пользовательского решения ИИ. В разделе "Таблицы лидеров моделей" каталога моделей можно просматривать списки лидеров для сравнения доступных моделей следующим образом:

Таблицы лидеров по качеству, безопасности, затратам и производительности для быстрого определения лидеров моделей по одной метрике (качество, безопасность, стоимость или производительность);
Диаграммы компромиссов, чтобы увидеть, как модели работают по одной метрике по сравнению с другой, например качество против стоимости;
Списки лидеров по сценариям, чтобы найти лучшие списки лидеров, которые подходят вашему сценарию.

Каждый раз, когда вы найдете модель для вашего вкуса, вы можете выбрать ее и увеличить масштаб до подробных результатов тестирования модели в каталоге моделей. Если вы довольны моделью, её можно развернуть, протестировать в тестовой среде или оценить на ваших данных. В таблице лидеров поддерживается сравнение производительности между текстовыми языковыми моделями (крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и моделями встраивания.

Тесты моделей оценивают LLMs и SLM по следующим категориям: качество, безопасность, стоимость и пропускная способность. Кроме того, мы оцениваем качество внедрения моделей с помощью стандартных эталонных показателей. Списки лидеров регулярно обновляются по мере интеграции более лучших и менее насыщенных тестов, а также добавления новых моделей в систему каталогов моделей.

Тесты качества языковых моделей

Azure AI оценивает качество LLM и SLM с использованием показателей точности из стандартных, эталонных наборов данных, измеряющих возможности модели, такие как логические рассуждения, знания, ответы на вопросы, математика и программирование.

Индекс	Описание
Показатель качества	Индекс качества вычисляется путем усреднения применимых показателей точности (exact_match, pass@1, arena_hard) по сравнению с комплексными стандартными наборами данных теста.

Индекс качества предоставляется в масштабе от нуля до одного. Более высокие значения индекса качества лучше. Наборы данных, включенные в индекс качества, :

Имя набора данных	Сценарий таблицы лидеров
арена_сложно	Обеспечение качества
bigbench_hard	Рассуждение
gpqa	Обеспечение качества
humanevalplus	Кодирование
ifeval	Рассуждение
Математические функции	математика;
мбппплюс	Кодирование
mmlu_pro	Общие знания

Дополнительные сведения см. в оценках точности:

Метрика Описание

Точность Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact-match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрику. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае.  pass@1 Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели.

Метрика	Описание
Точность	Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется `exact-match` во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих `pass@1` метрику. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае.  `pass@1` Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели.

Оценки точности предоставляются по шкале от нуля до одного. Более высокие значения лучше.

Тесты безопасности языковых моделей

Чтобы руководствоваться выбором показателей безопасности для оценки, мы применяем структурированный процесс фильтрации и проверки, предназначенный для обеспечения релевантности и строгости. Бенчмарк подходит для внедрения, если он устраняет риски с высоким приоритетом. Для рейтингов безопасности мы рассматриваем различные критерии, которые можно считать достаточно надежными, чтобы предоставить некоторые сигналы по определенным интересующим темам, связанным с безопасностью. Мы выбираем HarmBench для безопасности модели прокси и упорядочим списки лидеров сценариев следующим образом:

Имя набора данных	Сценарий таблицы лидеров	Метрика	Интерпретация
HarmBench (стандартный)	Стандартное вредное поведение	Частота успешных атак	Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного стандартного вредного содержимого
HarmBench (контекстный)	Контекстно вредное поведение	Частота успешных атак	Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного контекстно вредного содержимого
HarmBench (нарушения авторских прав)	Нарушения авторских прав	Частота успешных атак	Более низкие значения означают лучшую надежность в отношении нападений, направленных на незаконные нарушения авторских прав
WMDP	Знания в конфиденциальных доменах	Точность	Более высокие значения указывают на больше знаний в конфиденциальных доменах (кибербезопасность, биобезопасность и химическая безопасность)
Toxigen	Способность обнаруживать токсическое содержимое	F1-мера	Более высокие значения означают лучшую способность обнаруживать токсическое содержимое

Модель вредных действий

Эталонный показатель HarmBench измеряет вредные поведения модели и включает в себя задания, провоцирующие модель на такие действия. Как это связано с безопасностью, тест охватывает 7 семантических категорий поведения:

Кибербезопасность и несанкционированное вторжение
Химическое и биологическое оружие/наркотики
Нарушения авторских прав
Ложная информация и дезинформация
Домогательства и издевательства
Незаконные действия
Общий вред

Эти 7 категорий можно свести к 3 функциональным категориям.

Стандартное вредное поведение
контекстно вредное поведение
Нарушения авторских прав

Каждая функциональная категория представлена в отдельной таблице лидеров для конкретного контекста. Мы используем прямые запросы от HarmBench (без атак) и оценщиков HarmBench для вычисления частоты успешности атак (ASR). Более низкие значения ASR означает более безопасные модели. Мы не изучаем стратегию атак для оценки, а тестирование моделей выполняется с отключенным фильтром безопасности содержимого ИИ Azure.

Способность модели обнаруживать токсическое содержимое

Toxigen — это масштабируемый набор данных, созданный компьютером для обнаружения состязательной и неявной речи ненависти. Он включает в себя доброкачественные и неявно токсичные предложения, упоминающие 13 групп меньшинств. Мы используем аннотированные примеры из Toxigen для оценки и вычисления F1-оценок для оценки эффективности классификации. Оценка выше в этом наборе данных означает, что модель лучше обнаруживает токсическое содержимое. Тестирование моделей выполняется с отключенным фильтром безопасности содержимого ИИ Azure.

Знание модели в конфиденциальных доменах

Эталонный тест посредника оружия массового уничтожения (WMDP) измеряет знание моделей в чувствительных областях, таких как биобезопасность, кибербезопасность и химическая безопасность. В таблице лидеров используются средние оценки точности в области кибербезопасности, биобезопасности и химической безопасности. Более высокая оценка точности WMDP обозначает больше знаний о опасных возможностях (хуже поведения с точки зрения безопасности). Сравнительное тестирование моделей выполняется с включёнными фильтрами безопасности содержимого Azure AI по умолчанию. Эти фильтры безопасности обнаруживают и блокируют вред содержимого в насилии, самоповреждения, сексуальной ненависти и несправедливости, но не нацелены на категории в кибербезопасности, биобезопасности и химической безопасности.

Ограничения эталонных показателей безопасности

Мы понимаем и признаем, что безопасность является сложной темой и имеет несколько измерений. Ни один текущий тест с открытым исходным кодом не может тестировать или представлять полную безопасность системы в различных сценариях. Кроме того, большинство этих эталонных показателей страдают от насыщенности или несоответствия между разработкой эталонов и определением риска, может не иметь четкой документации о том, как целевые риски концептуализируются и реализуются на практике, что усложняет оценку того, точно ли эталонные показатели фиксируют нюансы рисков. Это ограничение может привести к чрезмерному оценке или недооценке производительности модели в реальных сценариях безопасности.

Тесты производительности языковых моделей

Метрики производительности вычисляются как агрегат за 14 дней, на основе 24 трасс (два запроса на трассу), отправленных ежедневно с интервалом в один час между каждой трассой. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:

Параметр	Ценность	Применимо для
Область	Восточная часть США и восточная часть США2	Развертывания бессерверных API и Azure OpenAI
Ограничение на количество токенов в минуту (TPM)	30k (180 RPM на основе Azure OpenAI) для нерефлективных моделей и 100k для моделей для рассуждений N/A (развертывание бессерверных API)	Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (бессерверный API, глобальный, глобальный стандарт и т. д.). Для развертываний бессерверных API этот параметр абстрагируется.
Количество запросов	Два запроса в трассе каждый час (24 трассы в день)	Развертывания бессерверных API, Azure OpenAI
Количество трасс и заездов	14 дней с 24 попытками в день, всего 336 пробегов	Развертывания бессерверных API, Azure OpenAI
Длина запроса и контекста	Средняя длина	Развертывания бессерверных API, Azure OpenAI
Количество обработанных токенов (умеренный)	Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров.	Развертывания бессерверных API, Azure OpenAI
Число одновременных запросов	Один (запросы отправляются последовательно один за другим)	Развертывания бессерверных API, Azure OpenAI
Данные	Искусственный (входные запросы, подготовленные из статического текста)	Развертывания бессерверных API, Azure OpenAI
Область	Восточная часть США и восточная часть США2	Развертывания бессерверных API и Azure OpenAI
Тип развертывания	бессерверный API	Применимо только для Azure OpenAI
Стриминг	Верно	Применяется к бессерверным развертываниям API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается TTFT представлена как метрика задержки P50.
артикул	Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища)	Применимо только для управляемых вычислительных ресурсов — для оценки затрат и метрик производительности.

Производительность LLM и SLM оценивается по следующим показателям:

Метрика	Описание
Среднее значение задержки	Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение.
Задержка P50	50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса на конечную точку 50% запросов выполняются за x секунд, где x — это измерение задержки.
Задержка P90	значение 90-го перцентиля задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, когда мы отправляем запрос к конечному пункту, 90% запросов завершаются за 'x' секунд, где "x" — это измерение задержки.
Задержка P95	95-й процентиль величины задержки (время, затраченное от отправки запроса до полного получения ответа с успешным кодом). Например, при отправке запроса в конечную точку 95% запросов выполняются в секундах x, а значение x — измерение задержки.
Задержка P99	99-й процентиль значения задержки (время, затраченное между запросом и моментом получения всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99% запросов выполняются в секундах x, а значение x — измерение задержки.
Пропускная способность GTPS	Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку.
Пропускная способность TTPS	Общее количество токенов в секунду (TTPS) — это количество всех токенов, обрабатываемых в секунду, включая токены как из входного запроса, так и создаваемые в результате генерации. Для моделей, которые не поддерживают потоковую передачу, время до первого токена (ttft) представляет собой значение задержки P50 (время, затраченное на получение ответа).
Задержка TTFT	Общее время до первого токена (TTFT) — это время, необходимое для получения первого токена из конечной точки при включенной потоковой передаче.
Время между токенами	Эта метрика — это время между полученными токенами.

Azure AI также отображает индексы производительности для задержки и пропускной способности следующим образом:

Индекс	Описание
Индекс задержки	Среднее время до первого токена. Более низкие значения лучше.
Индекс пропускной способности	Средние созданные токены в секунду. Более высокие значения лучше.

Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.

Ориентиры затрат языковых моделей

Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе ИИ Azure. Azure AI поддерживает отображение стоимости развертываний бессерверных API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.

Стоимость LLM и SLM оценивается по следующим метрикам:

Метрика	Описание
Стоимость за входные токены	Затраты на развертывание бессерверного API для 1 миллиона входных маркеров
Затраты на выходные токены	Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров
Расчетная стоимость	Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1.

Azure AI также отображает индекс затрат следующим образом:

Индекс	Описание
Индекс затрат	Предполагаемые затраты. Более низкие значения лучше.

Тесты качества внедрения моделей

Индекс качества внедрения моделей определяется как средняя оценка точности комплексного набора бессерверных наборов данных API, предназначенных для получения информации, кластеризации документов и задач суммирования.

Дополнительные сведения см. в определениях оценки точности, относящихся к каждому набору данных:

Метрика	Описание
Точность	Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов.
F1-мера	F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль.
Средняя точность (MAP)	MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке.
Нормализованный совокупный прирост с скидкой (NDCG)	NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой `ndcg_at_10`, то есть мы рассмотрим первые 10 элементов.
Точность	Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса.
Корреляция Spearman	Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman.
Мера V	Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки находятся между нулем и единицей, при этом единица означает идеально завершенную разметку.

Вычисление показателей

Отдельные оценки

Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки ИИ Azure загружают данные из исходных источников, извлекают входные запросы из каждой строки, генерируют ответы модели, а затем вычисляют соответствующие метрики точности.

Создание запросов следует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько примеров, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, содержащихся в оценке.