Поделиться через


Таблицы лидеров моделей на портале Microsoft Foundry (предварительная версия)

Замечание

Этот документ относится к порталу Microsoft Foundry (классическая модель).

🔄 Перейдите в новую документацию по Microsoft Foundry, если вы используете новый портал.

Замечание

Этот документ относится к порталу Microsoft Foundry (new).

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Таблицы лидеров модели (предварительная версия) на портале Microsoft Foundry позволяют упростить процесс выбора модели в каталоге моделей Foundry. Рейтинги моделей поддерживаются отраслевыми стандартами, которые помогут вам найти лучшую модель для вашей индивидуальной ИИ-разработки. В разделе "Таблицы лидеров моделей" каталога моделей можно просматривать списки лидеров для сравнения доступных моделей следующим образом:

Таблицы лидеров модели (предварительная версия) на портале Foundry позволяют упростить процесс выбора модели в каталоге моделей Foundry. Рейтинги моделей поддерживаются отраслевыми стандартами, которые помогут вам найти лучшую модель для вашей индивидуальной ИИ-разработки.

Дополнительные сведения о методологии тестирования для каждого раздела см. в следующих разделах:

  • Тестирование качества языковых моделей, чтобы понять, насколько хорошо модели выполняют основные задачи, включая логическое рассуждение, обработку знаний, решение вопросов, математику и кодирование;
  • Тестирование безопасности языковых моделей, чтобы понять, как безопасные модели являются против создания вредного поведения;
  • Тестирование производительности языковых моделей для понимания того, как модели выполняются с точки зрения задержки и пропускной способности.
  • Оценка затрат языковых моделей для понимания предполагаемой стоимости использования моделей.
  • Бенчмаркинг языковых моделей в таблице лидеров для поиска лучшей модели для вашего конкретного случая использования или сценария.
  • Оценка качества моделей встраивания, чтобы понять, насколько хорошо модели справляются с задачами, основанными на встраивании, включая поиск и извлечение.

Каждый раз, когда вы найдете модель для вашего вкуса, вы можете выбрать ее и увеличить масштаб до подробных результатов тестирования модели в каталоге моделей. Если вы довольны моделью, её можно развернуть, протестировать в тестовой среде или оценить на ваших данных. В таблице лидеров поддерживается сравнение производительности между текстовыми языковыми моделями (крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и моделями встраивания.

Тесты моделей оценивают LLMs и SLM по следующим категориям: качество, безопасность, стоимость и пропускная способность. Кроме того, мы оцениваем качество внедрения моделей с помощью стандартных эталонных показателей. Списки лидеров регулярно обновляются по мере интеграции более лучших и менее насыщенных тестов, а также добавления новых моделей в систему каталогов моделей.

Область сравнительного анализа моделей

В рейтингах моделей представлен подобранный набор текстовых языковых моделей из каталога моделей Foundry. Модели включаются на основе следующих критериев:

  • Приоритетные модели Azure Direct: Модели Azure Direct выбираются строго для наиболее подходящих моделей, рекомендуемых для сценариев GenAI клиентов.
  • Применимость основных эталонных показателей: модели должны подходить для задач общего назначения, включая логические рассуждения, знания, вопросы и ответы, математические рассуждения и возможности программирования. Специализированные модели (например, свертывание белка или QA, специфичное для домена) или другие модальности не поддерживаются.

Это определение гарантирует, что таблицы лидеров отражают текущие, высококачественные модели, относящиеся к основным сценариям искусственного интеллекта.

Тесты качества языковых моделей

Foundry оценивает качество LLM и SLM с использованием показателей точности из стандартных, комплексных эталонных наборов данных, измеряющих способности моделей, такие как логическое рассуждение, знания, ответы на вопросы, математика и кодирование.

Индекс Описание
Показатель качества Индекс качества вычисляется путем усреднения применимых показателей точности (exact_match, pass@1, arena_hard) по сравнению с комплексными стандартными наборами данных теста.

Индекс качества предоставляется в масштабе от нуля до одного. Более высокие значения индекса качества лучше. Наборы данных, включенные в индекс качества, :

Имя набора данных Категория
arena_hard Обеспечение качества
bigbench_hard (прорежено до 1000 примеров) Рассуждение
gpqa Обеспечение качества
humanevalplus Кодирование
ifeval Рассуждение
математических математика;
mbppplus Кодирование
mmlu_pro (понижено до 1000 примеров) Общие знания

Дополнительные сведения см. в оценках точности:

Метрика Описание
Точность Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact-match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрику. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае. pass@1 Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели.

Оценки точности предоставляются по шкале от нуля до одного. Более высокие значения лучше.

Тесты безопасности языковых моделей

Чтобы руководствоваться выбором показателей безопасности для оценки, мы применяем структурированный процесс фильтрации и проверки, предназначенный для обеспечения релевантности и строгости. Бенчмарк подходит для внедрения, если он устраняет риски с высоким приоритетом. Для рейтингов безопасности мы рассматриваем различные критерии, которые можно считать достаточно надежными, чтобы предоставить некоторые сигналы по определенным интересующим темам, связанным с безопасностью. Мы выбираем HarmBench для безопасности модели прокси и упорядочим списки лидеров сценариев следующим образом:

Имя набора данных Сценарий таблицы лидеров Метрика Интерпретация
HarmBench (стандартный) Стандартное вредное поведение Частота успешных атак Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного стандартного вредного содержимого
HarmBench (контекстный) Контекстно вредное поведение Частота успешных атак Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного контекстно вредного содержимого
HarmBench (нарушения авторских прав) Нарушения авторских прав Частота успешных атак Более низкие значения означают лучшую надежность в отношении нападений, направленных на незаконные нарушения авторских прав
WMDP Знания в конфиденциальных доменах Точность Более высокие значения указывают на больше знаний в конфиденциальных доменах (кибербезопасность, биобезопасность и химическая безопасность)
Toxigen Способность обнаруживать токсическое содержимое F1-мера Более высокие значения означают лучшую способность обнаруживать токсическое содержимое

Модель вредных действий

Эталонный показатель HarmBench измеряет вредные поведения модели и включает в себя задания, провоцирующие модель на такие действия. Как это связано с безопасностью, тест охватывает семь семантических категорий поведения:

  • Кибербезопасность и несанкционированное вторжение
  • Химическое и биологическое оружие/наркотики
  • Нарушения авторских прав
  • Ложная информация и дезинформация
  • Домогательства и издевательства
  • Незаконные действия
  • Общий вред

Эти семь категорий можно объединить в три функциональные категории.

  • Стандартное вредное поведение
  • контекстно вредное поведение
  • Нарушения авторских прав

Каждая функциональная категория представлена в отдельной таблице лидеров для конкретного контекста. Мы используем прямые запросы от HarmBench (без атак) и оценщиков HarmBench для вычисления частоты успешности атак (ASR). Более низкие значения ASR означают более безопасные модели. Мы не изучаем стратегию атаки для оценки, а тестирование моделей выполняется с отключенным фильтром безопасности содержимого Foundry.

Способность модели обнаруживать токсическое содержимое

Toxigen — это масштабируемый набор данных, созданный компьютером для обнаружения состязательной и неявной речи ненависти. Он включает в себя доброкачественные и неявно токсичные предложения, упоминающие 13 групп меньшинств. Мы используем аннотированные примеры из Toxigen для оценки и вычисления F1-оценок для оценки эффективности классификации. Оценка выше в этом наборе данных означает, что модель лучше обнаруживает токсическое содержимое. Тестирование моделей выполняется с отключенным фильтром безопасности содержимого Foundry.

Знание модели в конфиденциальных доменах

Эталон Proxy оружия массового уничтожения (WMDP) измеряет знание модели в чувствительных доменах, включая биобезопасность, химическую безопасность и кибербезопасность. В таблице лидеров используются средние оценки точности в области кибербезопасности, биобезопасности и химической безопасности. Более высокая оценка точности WMDP обозначает больше знаний о опасных возможностях (хуже поведения с точки зрения безопасности). Тестирование моделей выполняется с включёнными фильтрами безопасности содержимого Foundry по умолчанию. Эти фильтры безопасности обнаруживают и блокируют вред содержимого в насилии, самоповреждения, сексуальной, ненависти и несправедливости, но не нацелены на категории в кибербезопасности, биобезопасности и химической безопасности.

Ограничения эталонных показателей безопасности

Мы понимаем и признаем, что безопасность является сложной темой и имеет несколько измерений. Ни один текущий тест с открытым исходным кодом не может тестировать или представлять полную безопасность системы в различных сценариях. Кроме того, большинство этих эталонных показателей страдают от насыщенности или несоответствия между разработкой эталонов и определением риска, может не иметь четкой документации о том, как целевые риски концептуализируются и реализуются на практике, что усложняет оценку того, точно ли эталонные показатели фиксируют нюансы рисков. Это ограничение может привести к чрезмерному оценке или недооценке производительности модели в реальных сценариях безопасности.

Тесты производительности языковых моделей

Метрики производительности вычисляются как агрегат за 14 дней, на основе 24 трасс (два запроса на трассу), отправленных ежедневно с интервалом в один час между каждой трассой. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:

Параметр Ценность Применимо для
Область Восточная часть США и восточная часть США2 Развертывания бессерверных API и Azure OpenAI
Ограничение на количество токенов в минуту (TPM) 30k (180 RPM на основе Azure OpenAI) для нерефлективных моделей и 100k для моделей для рассуждений
N/A (развертывание бессерверных API)
Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (бессерверный API, глобальный, глобальный стандарт и т. д.).
Для развертываний бессерверных API этот параметр абстрагируется.
Количество запросов Два запроса в трассе каждый час (24 трассы в день) Развертывания бессерверных API, Azure OpenAI
Количество трасс и заездов 14 дней с 24 попытками в день, всего 336 пробегов Развертывания бессерверных API, Azure OpenAI
Длина запроса и контекста Средняя длина Развертывания бессерверных API, Azure OpenAI
Количество обработанных токенов (умеренный) Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров. Развертывания бессерверных API, Azure OpenAI
Число одновременных запросов Один (запросы отправляются последовательно один за другим) Развертывания бессерверных API, Azure OpenAI
Данные Искусственный (входные запросы, подготовленные из статического текста) Развертывания бессерверных API, Azure OpenAI
Область Восточная часть США и восточная часть США2 Развертывания бессерверных API и Azure OpenAI
Тип развертывания бессерверный API Применимо только для Azure OpenAI
Стриминг Верно Применяется к бессерверным развертываниям API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается, TTFT представлена как метрика задержки P50.
артикул Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища) Применимо только для управляемых вычислительных ресурсов — для оценки затрат и метрик производительности.

Производительность LLM и SLM оценивается по следующим показателям:

Метрика Описание
Среднее значение задержки Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение.
Задержка P50 50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса на конечную точку 50% запросов выполняются за x секунд, где x — это измерение задержки.
Задержка P90 значение 90-го перцентиля задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, когда мы отправляем запрос к конечному пункту, 90% запросов завершаются за 'x' секунд, где "x" — это измерение задержки.
Задержка P95 95-й процентиль величины задержки (время, затраченное от отправки запроса до полного получения ответа с успешным кодом). Например, при отправке запроса в конечную точку 95% запросов выполняются в секундах x, а значение x — измерение задержки.
Задержка P99 99-й процентиль значения задержки (время, затраченное между запросом и моментом получения всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99% запросов выполняются в секундах x, а значение x — измерение задержки.
Пропускная способность GTPS Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку.
Пропускная способность TTPS Общее количество токенов в секунду (TTPS) — это количество всех токенов, обрабатываемых в секунду, включая токены как из входного запроса, так и создаваемые в результате генерации. Для моделей, которые не поддерживают потоковую передачу, время на первый токен (ttft) соответствует показателю P50 задержки (время, затраченное на получение ответа).
Задержка TTFT Общее время до первого токена (TTFT) — это время, необходимое для получения первого токена из конечной точки при включенной потоковой передаче.
Время между токенами Эта метрика — это время между полученными токенами.

Foundry также отображает метрики производительности для задержки и пропускной способности следующим образом:

Метрика Описание
Задержка Среднее время до первого токена. Более низкие значения лучше.
Пропускная способность Средние созданные токены в секунду. Более высокие значения лучше.

Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.

Ориентиры затрат языковых моделей

Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе Foundry. Foundry поддерживает отображение стоимости бессерверных развертываний API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.

Стоимость LLM и SLM оценивается по следующим метрикам:

Метрика Описание
Стоимость за входные токены Затраты на развертывание бессерверного API для 1 миллиона входных маркеров
Затраты на выходные токены Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров
Расчетная стоимость Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1.

Foundry также отображает стоимость следующим образом:

Метрика Описание
Себестоимость Оценка стоимости доллара США на 1 миллион токенов. Предполагаемая рабочая нагрузка рассчитывается с использованием соотношения три к одному между входными и выходными токенами. Более низкие значения лучше.

Бенчмаркинг лидербордов сценариев

Доски лидеров для сценариев группируют эталонные наборы данных по общим целям оценки в реальном мире, чтобы вы могли быстро определить сильные и слабые стороны модели в соответствии с случаями использования. Каждый сценарий объединяет один или несколько общедоступных наборов данных теста. В следующей таблице перечислены доступные списки лидеров сценариев и связанные с ними наборы данных и описания.

Scenario Наборы данных Описание
Стандартное вредное поведение HarmBench (стандартный) Измеряет частоту успешных атак по стандартным вредоносным запросам. Чем ниже, тем лучше.
Контекстно вредное поведение HarmBench (contextual) Измеряет частоту успешных атак на контекстные вредоносные запросы. Чем ниже, тем лучше.
Нарушения авторских прав HarmBench (авторские права) Измеряет частоту успешных атак для нарушений авторских прав. Чем ниже, тем лучше.
Знания в конфиденциальных доменах WMDP (биобезопасность, химическая безопасность, кибербезопасность) Точность в трех подмножествах конфиденциального домена. Более высокая точность означает больше знаний о чувствительных возможностях модели.
Обнаружение токсикации ToxiGen (аннотированный) Оценка F1 для возможности обнаружения токсичных содержимого. Выше лучше.
Рассуждение BIG-Bench Hard (1000 из подвыборки) Оценка способностей к рассуждению. Более высокие значения лучше.
Кодирование BigCodeBench (инструктирование), HumanEvalPlus, LiveBench (кодирование), MBPPPlus Измеряет точность задач, связанных с кодом. Более высокие значения лучше.
Общие знания MMLU-Pro (1K английская подвыборка) 1 000-примерный англоязычный подвыборка MMLU-Pro.
Вопросы и ответы Arena-Hard, GPQA (алмаз) Состязательный подход к предпочтениям человека в QA (Arena-Hard) и многодисциплинарный QA на уровне подготовки магистратуры (GPQA diamond). Более высокие значения лучше.
математика; MATH (500 подвыборка) Измеряет математические возможности логики языковых моделей. Более высокие значения лучше.
Groundedness TruthfulQA (MC1) Оценка обоснованности и достоверности языковых моделей с выбором из нескольких вариантов. Более высокие значения лучше.

Тесты качества внедрения моделей

Индекс качества внедрения моделей определяется как средняя оценка точности комплексного набора бессерверных наборов данных API, предназначенных для получения информации, кластеризации документов и задач суммирования.

Дополнительные сведения см. в определениях оценки точности, относящихся к каждому набору данных:

Метрика Описание
Точность Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов.
F1-мера F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль.
Средняя точность (MAP) MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке.
Нормализованный совокупный прирост с скидкой (NDCG) NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой ndcg_at_10, то есть мы рассмотрим первые 10 элементов.
Точность Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса.
Корреляция Spearman Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman.
Мера V Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки находятся между нулем и единицей, при этом единица означает идеально завершенную разметку.

Вычисление показателей

Отдельные оценки

Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки Foundry загружают данные из исходных источников, извлекают запросы из каждой примеров строки, создают ответы модели и затем вычисляют метрики, относящиеся к точности.

Создание запросов следует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько примеров, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, содержащихся в оценке.