Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Таблицы лидеров моделей (предварительная версия) на портале Azure AI Foundry позволяют упростить процесс выбора модели в каталоге моделей Azure AI Foundry. Таблицы лидеров модели, поддерживаемые отраслевыми стандартными тестами, помогут вам найти лучшую модель для пользовательского решения ИИ. В разделе "Таблицы лидеров моделей" каталога моделей можно просматривать списки лидеров для сравнения доступных моделей следующим образом:
- Таблицы лидеров по качеству, безопасности, затратам и производительности для быстрого определения лидеров моделей по одной метрике (качество, безопасность, стоимость или производительность);
- Диаграммы компромиссов, чтобы увидеть, как модели работают по одной метрике по сравнению с другой, например качество против стоимости;
- Списки лидеров по сценариям, чтобы найти лучшие списки лидеров, которые подходят вашему сценарию.
Каждый раз, когда вы найдете модель для вашего вкуса, вы можете выбрать ее и увеличить масштаб до подробных результатов тестирования модели в каталоге моделей. Если вы довольны моделью, её можно развернуть, протестировать в тестовой среде или оценить на ваших данных. В таблице лидеров поддерживается сравнение производительности между текстовыми языковыми моделями (крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и моделями встраивания.
Тесты моделей оценивают LLMs и SLM по следующим категориям: качество, безопасность, стоимость и пропускная способность. Кроме того, мы оцениваем качество внедрения моделей с помощью стандартных эталонных показателей. Списки лидеров регулярно обновляются по мере интеграции более лучших и менее насыщенных тестов, а также добавления новых моделей в систему каталогов моделей.
Тесты качества языковых моделей
Azure AI оценивает качество LLM и SLM с использованием показателей точности из стандартных, эталонных наборов данных, измеряющих возможности модели, такие как логические рассуждения, знания, ответы на вопросы, математика и программирование.
Индекс | Описание |
---|---|
Показатель качества | Индекс качества вычисляется путем усреднения применимых показателей точности (exact_match, pass@1, arena_hard) по сравнению с комплексными стандартными наборами данных теста. |
Индекс качества предоставляется в масштабе от нуля до одного. Более высокие значения индекса качества лучше. Наборы данных, включенные в индекс качества, :
Имя набора данных | Сценарий таблицы лидеров |
---|---|
арена_сложно | Обеспечение качества |
bigbench_hard | Рассуждение |
gpqa | Обеспечение качества |
humanevalplus | Кодирование |
ifeval | Рассуждение |
Математические функции | математика; |
мбппплюс | Кодирование |
mmlu_pro | Общие знания |
Дополнительные сведения см. в оценках точности:
Метрика | Описание |
---|---|
Точность | Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact-match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрику. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае.
pass@1 Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели. |
Оценки точности предоставляются по шкале от нуля до одного. Более высокие значения лучше.
Тесты безопасности языковых моделей
Чтобы руководствоваться выбором показателей безопасности для оценки, мы применяем структурированный процесс фильтрации и проверки, предназначенный для обеспечения релевантности и строгости. Бенчмарк подходит для внедрения, если он устраняет риски с высоким приоритетом. Для рейтингов безопасности мы рассматриваем различные критерии, которые можно считать достаточно надежными, чтобы предоставить некоторые сигналы по определенным интересующим темам, связанным с безопасностью. Мы выбираем HarmBench для безопасности модели прокси и упорядочим списки лидеров сценариев следующим образом:
Имя набора данных | Сценарий таблицы лидеров | Метрика | Интерпретация |
---|---|---|---|
HarmBench (стандартный) | Стандартное вредное поведение | Частота успешных атак | Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного стандартного вредного содержимого |
HarmBench (контекстный) | Контекстно вредное поведение | Частота успешных атак | Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного контекстно вредного содержимого |
HarmBench (нарушения авторских прав) | Нарушения авторских прав | Частота успешных атак | Более низкие значения означают лучшую надежность в отношении нападений, направленных на незаконные нарушения авторских прав |
WMDP | Знания в конфиденциальных доменах | Точность | Более высокие значения указывают на больше знаний в конфиденциальных доменах (кибербезопасность, биобезопасность и химическая безопасность) |
Toxigen | Способность обнаруживать токсическое содержимое | F1-мера | Более высокие значения означают лучшую способность обнаруживать токсическое содержимое |
Модель вредных действий
Эталонный показатель HarmBench измеряет вредные поведения модели и включает в себя задания, провоцирующие модель на такие действия. Как это связано с безопасностью, тест охватывает 7 семантических категорий поведения:
- Кибербезопасность и несанкционированное вторжение
- Химическое и биологическое оружие/наркотики
- Нарушения авторских прав
- Ложная информация и дезинформация
- Домогательства и издевательства
- Незаконные действия
- Общий вред
Эти 7 категорий можно свести к 3 функциональным категориям.
- Стандартное вредное поведение
- контекстно вредное поведение
- Нарушения авторских прав
Каждая функциональная категория представлена в отдельной таблице лидеров для конкретного контекста. Мы используем прямые запросы от HarmBench (без атак) и оценщиков HarmBench для вычисления частоты успешности атак (ASR). Более низкие значения ASR означает более безопасные модели. Мы не изучаем стратегию атак для оценки, а тестирование моделей выполняется с отключенным фильтром безопасности содержимого ИИ Azure.
Способность модели обнаруживать токсическое содержимое
Toxigen — это масштабируемый набор данных, созданный компьютером для обнаружения состязательной и неявной речи ненависти. Он включает в себя доброкачественные и неявно токсичные предложения, упоминающие 13 групп меньшинств. Мы используем аннотированные примеры из Toxigen для оценки и вычисления F1-оценок для оценки эффективности классификации. Оценка выше в этом наборе данных означает, что модель лучше обнаруживает токсическое содержимое. Тестирование моделей выполняется с отключенным фильтром безопасности содержимого ИИ Azure.
Знание модели в конфиденциальных доменах
Эталонный тест посредника оружия массового уничтожения (WMDP) измеряет знание моделей в чувствительных областях, таких как биобезопасность, кибербезопасность и химическая безопасность. В таблице лидеров используются средние оценки точности в области кибербезопасности, биобезопасности и химической безопасности. Более высокая оценка точности WMDP обозначает больше знаний о опасных возможностях (хуже поведения с точки зрения безопасности). Сравнительное тестирование моделей выполняется с включёнными фильтрами безопасности содержимого Azure AI по умолчанию. Эти фильтры безопасности обнаруживают и блокируют вред содержимого в насилии, самоповреждения, сексуальной ненависти и несправедливости, но не нацелены на категории в кибербезопасности, биобезопасности и химической безопасности.
Ограничения эталонных показателей безопасности
Мы понимаем и признаем, что безопасность является сложной темой и имеет несколько измерений. Ни один текущий тест с открытым исходным кодом не может тестировать или представлять полную безопасность системы в различных сценариях. Кроме того, большинство этих эталонных показателей страдают от насыщенности или несоответствия между разработкой эталонов и определением риска, может не иметь четкой документации о том, как целевые риски концептуализируются и реализуются на практике, что усложняет оценку того, точно ли эталонные показатели фиксируют нюансы рисков. Это ограничение может привести к чрезмерному оценке или недооценке производительности модели в реальных сценариях безопасности.
Тесты производительности языковых моделей
Метрики производительности вычисляются как агрегат за 14 дней, на основе 24 трасс (два запроса на трассу), отправленных ежедневно с интервалом в один час между каждой трассой. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:
Параметр | Ценность | Применимо для |
---|---|---|
Область | Восточная часть США и восточная часть США2 | Развертывания бессерверных API и Azure OpenAI |
Ограничение на количество токенов в минуту (TPM) | 30k (180 RPM на основе Azure OpenAI) для нерефлективных моделей и 100k для моделей для рассуждений N/A (развертывание бессерверных API) |
Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (бессерверный API, глобальный, глобальный стандарт и т. д.). Для развертываний бессерверных API этот параметр абстрагируется. |
Количество запросов | Два запроса в трассе каждый час (24 трассы в день) | Развертывания бессерверных API, Azure OpenAI |
Количество трасс и заездов | 14 дней с 24 попытками в день, всего 336 пробегов | Развертывания бессерверных API, Azure OpenAI |
Длина запроса и контекста | Средняя длина | Развертывания бессерверных API, Azure OpenAI |
Количество обработанных токенов (умеренный) | Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров. | Развертывания бессерверных API, Azure OpenAI |
Число одновременных запросов | Один (запросы отправляются последовательно один за другим) | Развертывания бессерверных API, Azure OpenAI |
Данные | Искусственный (входные запросы, подготовленные из статического текста) | Развертывания бессерверных API, Azure OpenAI |
Область | Восточная часть США и восточная часть США2 | Развертывания бессерверных API и Azure OpenAI |
Тип развертывания | бессерверный API | Применимо только для Azure OpenAI |
Стриминг | Верно | Применяется к бессерверным развертываниям API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается TTFT представлена как метрика задержки P50. |
артикул | Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища) | Применимо только для управляемых вычислительных ресурсов — для оценки затрат и метрик производительности. |
Производительность LLM и SLM оценивается по следующим показателям:
Метрика | Описание |
---|---|
Среднее значение задержки | Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение. |
Задержка P50 | 50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса на конечную точку 50% запросов выполняются за x секунд, где x — это измерение задержки. |
Задержка P90 | значение 90-го перцентиля задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, когда мы отправляем запрос к конечному пункту, 90% запросов завершаются за 'x' секунд, где "x" — это измерение задержки. |
Задержка P95 | 95-й процентиль величины задержки (время, затраченное от отправки запроса до полного получения ответа с успешным кодом). Например, при отправке запроса в конечную точку 95% запросов выполняются в секундах x, а значение x — измерение задержки. |
Задержка P99 | 99-й процентиль значения задержки (время, затраченное между запросом и моментом получения всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99% запросов выполняются в секундах x, а значение x — измерение задержки. |
Пропускная способность GTPS | Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку. |
Пропускная способность TTPS | Общее количество токенов в секунду (TTPS) — это количество всех токенов, обрабатываемых в секунду, включая токены как из входного запроса, так и создаваемые в результате генерации. Для моделей, которые не поддерживают потоковую передачу, время до первого токена (ttft) представляет собой значение задержки P50 (время, затраченное на получение ответа). |
Задержка TTFT | Общее время до первого токена (TTFT) — это время, необходимое для получения первого токена из конечной точки при включенной потоковой передаче. |
Время между токенами | Эта метрика — это время между полученными токенами. |
Azure AI также отображает индексы производительности для задержки и пропускной способности следующим образом:
Индекс | Описание |
---|---|
Индекс задержки | Среднее время до первого токена. Более низкие значения лучше. |
Индекс пропускной способности | Средние созданные токены в секунду. Более высокие значения лучше. |
Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.
Ориентиры затрат языковых моделей
Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе ИИ Azure. Azure AI поддерживает отображение стоимости развертываний бессерверных API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.
Стоимость LLM и SLM оценивается по следующим метрикам:
Метрика | Описание |
---|---|
Стоимость за входные токены | Затраты на развертывание бессерверного API для 1 миллиона входных маркеров |
Затраты на выходные токены | Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров |
Расчетная стоимость | Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1. |
Azure AI также отображает индекс затрат следующим образом:
Индекс | Описание |
---|---|
Индекс затрат | Предполагаемые затраты. Более низкие значения лучше. |
Тесты качества внедрения моделей
Индекс качества внедрения моделей определяется как средняя оценка точности комплексного набора бессерверных наборов данных API, предназначенных для получения информации, кластеризации документов и задач суммирования.
Дополнительные сведения см. в определениях оценки точности, относящихся к каждому набору данных:
Метрика | Описание |
---|---|
Точность | Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов. |
F1-мера | F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль. |
Средняя точность (MAP) | MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке. |
Нормализованный совокупный прирост с скидкой (NDCG) | NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой ndcg_at_10 , то есть мы рассмотрим первые 10 элементов. |
Точность | Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса. |
Корреляция Spearman | Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman. |
Мера V | Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки находятся между нулем и единицей, при этом единица означает идеально завершенную разметку. |
Вычисление показателей
Отдельные оценки
Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки ИИ Azure загружают данные из исходных источников, извлекают входные запросы из каждой строки, генерируют ответы модели, а затем вычисляют соответствующие метрики точности.
Создание запросов следует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько примеров, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, содержащихся в оценке.