Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
Этот документ относится к порталу Microsoft Foundry (классическая модель).
🔄 Перейдите в новую документацию по Microsoft Foundry, если вы используете новый портал.
Замечание
Этот документ относится к порталу Microsoft Foundry (new).
Это важно
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Таблицы лидеров модели (предварительная версия) на портале Microsoft Foundry позволяют упростить процесс выбора модели в каталоге моделей Foundry. Рейтинги моделей поддерживаются отраслевыми стандартами, которые помогут вам найти лучшую модель для вашей индивидуальной ИИ-разработки. В разделе "Таблицы лидеров моделей" каталога моделей можно просматривать списки лидеров для сравнения доступных моделей следующим образом:
- Таблицы лидеров по качеству, безопасности, затратам и производительности для быстрого определения лидеров моделей по одной метрике (качество, безопасность, стоимость или производительность);
- Диаграммы компромиссов, чтобы увидеть, как модели работают по одной метрике по сравнению с другой, например качество против стоимости;
- Списки лидеров по сценариям, чтобы найти лучшие списки лидеров, которые подходят вашему сценарию.
Таблицы лидеров модели (предварительная версия) на портале Foundry позволяют упростить процесс выбора модели в каталоге моделей Foundry. Рейтинги моделей поддерживаются отраслевыми стандартами, которые помогут вам найти лучшую модель для вашей индивидуальной ИИ-разработки.
Дополнительные сведения о методологии тестирования для каждого раздела см. в следующих разделах:
- Тестирование качества языковых моделей, чтобы понять, насколько хорошо модели выполняют основные задачи, включая логическое рассуждение, обработку знаний, решение вопросов, математику и кодирование;
- Тестирование безопасности языковых моделей, чтобы понять, как безопасные модели являются против создания вредного поведения;
- Тестирование производительности языковых моделей для понимания того, как модели выполняются с точки зрения задержки и пропускной способности.
- Оценка затрат языковых моделей для понимания предполагаемой стоимости использования моделей.
- Бенчмаркинг языковых моделей в таблице лидеров для поиска лучшей модели для вашего конкретного случая использования или сценария.
- Оценка качества моделей встраивания, чтобы понять, насколько хорошо модели справляются с задачами, основанными на встраивании, включая поиск и извлечение.
Каждый раз, когда вы найдете модель для вашего вкуса, вы можете выбрать ее и увеличить масштаб до подробных результатов тестирования модели в каталоге моделей. Если вы довольны моделью, её можно развернуть, протестировать в тестовой среде или оценить на ваших данных. В таблице лидеров поддерживается сравнение производительности между текстовыми языковыми моделями (крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и моделями встраивания.
Тесты моделей оценивают LLMs и SLM по следующим категориям: качество, безопасность, стоимость и пропускная способность. Кроме того, мы оцениваем качество внедрения моделей с помощью стандартных эталонных показателей. Списки лидеров регулярно обновляются по мере интеграции более лучших и менее насыщенных тестов, а также добавления новых моделей в систему каталогов моделей.
Область сравнительного анализа моделей
В рейтингах моделей представлен подобранный набор текстовых языковых моделей из каталога моделей Foundry. Модели включаются на основе следующих критериев:
- Приоритетные модели Azure Direct: Модели Azure Direct выбираются строго для наиболее подходящих моделей, рекомендуемых для сценариев GenAI клиентов.
- Применимость основных эталонных показателей: модели должны подходить для задач общего назначения, включая логические рассуждения, знания, вопросы и ответы, математические рассуждения и возможности программирования. Специализированные модели (например, свертывание белка или QA, специфичное для домена) или другие модальности не поддерживаются.
Это определение гарантирует, что таблицы лидеров отражают текущие, высококачественные модели, относящиеся к основным сценариям искусственного интеллекта.
Тесты качества языковых моделей
Foundry оценивает качество LLM и SLM с использованием показателей точности из стандартных, комплексных эталонных наборов данных, измеряющих способности моделей, такие как логическое рассуждение, знания, ответы на вопросы, математика и кодирование.
| Индекс | Описание |
|---|---|
| Показатель качества | Индекс качества вычисляется путем усреднения применимых показателей точности (exact_match, pass@1, arena_hard) по сравнению с комплексными стандартными наборами данных теста. |
Индекс качества предоставляется в масштабе от нуля до одного. Более высокие значения индекса качества лучше. Наборы данных, включенные в индекс качества, :
| Имя набора данных | Категория |
|---|---|
| arena_hard | Обеспечение качества |
| bigbench_hard (прорежено до 1000 примеров) | Рассуждение |
| gpqa | Обеспечение качества |
| humanevalplus | Кодирование |
| ifeval | Рассуждение |
| математических | математика; |
| mbppplus | Кодирование |
| mmlu_pro (понижено до 1000 примеров) | Общие знания |
Дополнительные сведения см. в оценках точности:
| Метрика | Описание |
|---|---|
| Точность | Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact-match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрику. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае.
pass@1 Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели. |
Оценки точности предоставляются по шкале от нуля до одного. Более высокие значения лучше.
Тесты безопасности языковых моделей
Чтобы руководствоваться выбором показателей безопасности для оценки, мы применяем структурированный процесс фильтрации и проверки, предназначенный для обеспечения релевантности и строгости. Бенчмарк подходит для внедрения, если он устраняет риски с высоким приоритетом. Для рейтингов безопасности мы рассматриваем различные критерии, которые можно считать достаточно надежными, чтобы предоставить некоторые сигналы по определенным интересующим темам, связанным с безопасностью. Мы выбираем HarmBench для безопасности модели прокси и упорядочим списки лидеров сценариев следующим образом:
| Имя набора данных | Сценарий таблицы лидеров | Метрика | Интерпретация |
|---|---|---|---|
| HarmBench (стандартный) | Стандартное вредное поведение | Частота успешных атак | Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного стандартного вредного содержимого |
| HarmBench (контекстный) | Контекстно вредное поведение | Частота успешных атак | Более низкие значения означают лучшую надежность от атак, предназначенных для незаконного контекстно вредного содержимого |
| HarmBench (нарушения авторских прав) | Нарушения авторских прав | Частота успешных атак | Более низкие значения означают лучшую надежность в отношении нападений, направленных на незаконные нарушения авторских прав |
| WMDP | Знания в конфиденциальных доменах | Точность | Более высокие значения указывают на больше знаний в конфиденциальных доменах (кибербезопасность, биобезопасность и химическая безопасность) |
| Toxigen | Способность обнаруживать токсическое содержимое | F1-мера | Более высокие значения означают лучшую способность обнаруживать токсическое содержимое |
Модель вредных действий
Эталонный показатель HarmBench измеряет вредные поведения модели и включает в себя задания, провоцирующие модель на такие действия. Как это связано с безопасностью, тест охватывает семь семантических категорий поведения:
- Кибербезопасность и несанкционированное вторжение
- Химическое и биологическое оружие/наркотики
- Нарушения авторских прав
- Ложная информация и дезинформация
- Домогательства и издевательства
- Незаконные действия
- Общий вред
Эти семь категорий можно объединить в три функциональные категории.
- Стандартное вредное поведение
- контекстно вредное поведение
- Нарушения авторских прав
Каждая функциональная категория представлена в отдельной таблице лидеров для конкретного контекста. Мы используем прямые запросы от HarmBench (без атак) и оценщиков HarmBench для вычисления частоты успешности атак (ASR). Более низкие значения ASR означают более безопасные модели. Мы не изучаем стратегию атаки для оценки, а тестирование моделей выполняется с отключенным фильтром безопасности содержимого Foundry.
Способность модели обнаруживать токсическое содержимое
Toxigen — это масштабируемый набор данных, созданный компьютером для обнаружения состязательной и неявной речи ненависти. Он включает в себя доброкачественные и неявно токсичные предложения, упоминающие 13 групп меньшинств. Мы используем аннотированные примеры из Toxigen для оценки и вычисления F1-оценок для оценки эффективности классификации. Оценка выше в этом наборе данных означает, что модель лучше обнаруживает токсическое содержимое. Тестирование моделей выполняется с отключенным фильтром безопасности содержимого Foundry.
Знание модели в конфиденциальных доменах
Эталон Proxy оружия массового уничтожения (WMDP) измеряет знание модели в чувствительных доменах, включая биобезопасность, химическую безопасность и кибербезопасность. В таблице лидеров используются средние оценки точности в области кибербезопасности, биобезопасности и химической безопасности. Более высокая оценка точности WMDP обозначает больше знаний о опасных возможностях (хуже поведения с точки зрения безопасности). Тестирование моделей выполняется с включёнными фильтрами безопасности содержимого Foundry по умолчанию. Эти фильтры безопасности обнаруживают и блокируют вред содержимого в насилии, самоповреждения, сексуальной, ненависти и несправедливости, но не нацелены на категории в кибербезопасности, биобезопасности и химической безопасности.
Ограничения эталонных показателей безопасности
Мы понимаем и признаем, что безопасность является сложной темой и имеет несколько измерений. Ни один текущий тест с открытым исходным кодом не может тестировать или представлять полную безопасность системы в различных сценариях. Кроме того, большинство этих эталонных показателей страдают от насыщенности или несоответствия между разработкой эталонов и определением риска, может не иметь четкой документации о том, как целевые риски концептуализируются и реализуются на практике, что усложняет оценку того, точно ли эталонные показатели фиксируют нюансы рисков. Это ограничение может привести к чрезмерному оценке или недооценке производительности модели в реальных сценариях безопасности.
Тесты производительности языковых моделей
Метрики производительности вычисляются как агрегат за 14 дней, на основе 24 трасс (два запроса на трассу), отправленных ежедневно с интервалом в один час между каждой трассой. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:
| Параметр | Ценность | Применимо для |
|---|---|---|
| Область | Восточная часть США и восточная часть США2 | Развертывания бессерверных API и Azure OpenAI |
| Ограничение на количество токенов в минуту (TPM) | 30k (180 RPM на основе Azure OpenAI) для нерефлективных моделей и 100k для моделей для рассуждений N/A (развертывание бессерверных API) |
Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (бессерверный API, глобальный, глобальный стандарт и т. д.). Для развертываний бессерверных API этот параметр абстрагируется. |
| Количество запросов | Два запроса в трассе каждый час (24 трассы в день) | Развертывания бессерверных API, Azure OpenAI |
| Количество трасс и заездов | 14 дней с 24 попытками в день, всего 336 пробегов | Развертывания бессерверных API, Azure OpenAI |
| Длина запроса и контекста | Средняя длина | Развертывания бессерверных API, Azure OpenAI |
| Количество обработанных токенов (умеренный) | Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров. | Развертывания бессерверных API, Azure OpenAI |
| Число одновременных запросов | Один (запросы отправляются последовательно один за другим) | Развертывания бессерверных API, Azure OpenAI |
| Данные | Искусственный (входные запросы, подготовленные из статического текста) | Развертывания бессерверных API, Azure OpenAI |
| Область | Восточная часть США и восточная часть США2 | Развертывания бессерверных API и Azure OpenAI |
| Тип развертывания | бессерверный API | Применимо только для Azure OpenAI |
| Стриминг | Верно | Применяется к бессерверным развертываниям API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается, TTFT представлена как метрика задержки P50. |
| артикул | Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища) | Применимо только для управляемых вычислительных ресурсов — для оценки затрат и метрик производительности. |
Производительность LLM и SLM оценивается по следующим показателям:
| Метрика | Описание |
|---|---|
| Среднее значение задержки | Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение. |
| Задержка P50 | 50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса на конечную точку 50% запросов выполняются за x секунд, где x — это измерение задержки. |
| Задержка P90 | значение 90-го перцентиля задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, когда мы отправляем запрос к конечному пункту, 90% запросов завершаются за 'x' секунд, где "x" — это измерение задержки. |
| Задержка P95 | 95-й процентиль величины задержки (время, затраченное от отправки запроса до полного получения ответа с успешным кодом). Например, при отправке запроса в конечную точку 95% запросов выполняются в секундах x, а значение x — измерение задержки. |
| Задержка P99 | 99-й процентиль значения задержки (время, затраченное между запросом и моментом получения всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99% запросов выполняются в секундах x, а значение x — измерение задержки. |
| Пропускная способность GTPS | Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку. |
| Пропускная способность TTPS | Общее количество токенов в секунду (TTPS) — это количество всех токенов, обрабатываемых в секунду, включая токены как из входного запроса, так и создаваемые в результате генерации. Для моделей, которые не поддерживают потоковую передачу, время на первый токен (ttft) соответствует показателю P50 задержки (время, затраченное на получение ответа). |
| Задержка TTFT | Общее время до первого токена (TTFT) — это время, необходимое для получения первого токена из конечной точки при включенной потоковой передаче. |
| Время между токенами | Эта метрика — это время между полученными токенами. |
Foundry также отображает метрики производительности для задержки и пропускной способности следующим образом:
| Метрика | Описание |
|---|---|
| Задержка | Среднее время до первого токена. Более низкие значения лучше. |
| Пропускная способность | Средние созданные токены в секунду. Более высокие значения лучше. |
Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.
Ориентиры затрат языковых моделей
Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе Foundry. Foundry поддерживает отображение стоимости бессерверных развертываний API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.
Стоимость LLM и SLM оценивается по следующим метрикам:
| Метрика | Описание |
|---|---|
| Стоимость за входные токены | Затраты на развертывание бессерверного API для 1 миллиона входных маркеров |
| Затраты на выходные токены | Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров |
| Расчетная стоимость | Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1. |
Foundry также отображает стоимость следующим образом:
| Метрика | Описание |
|---|---|
| Себестоимость | Оценка стоимости доллара США на 1 миллион токенов. Предполагаемая рабочая нагрузка рассчитывается с использованием соотношения три к одному между входными и выходными токенами. Более низкие значения лучше. |
Бенчмаркинг лидербордов сценариев
Доски лидеров для сценариев группируют эталонные наборы данных по общим целям оценки в реальном мире, чтобы вы могли быстро определить сильные и слабые стороны модели в соответствии с случаями использования. Каждый сценарий объединяет один или несколько общедоступных наборов данных теста. В следующей таблице перечислены доступные списки лидеров сценариев и связанные с ними наборы данных и описания.
| Scenario | Наборы данных | Описание |
|---|---|---|
| Стандартное вредное поведение | HarmBench (стандартный) | Измеряет частоту успешных атак по стандартным вредоносным запросам. Чем ниже, тем лучше. |
| Контекстно вредное поведение | HarmBench (contextual) | Измеряет частоту успешных атак на контекстные вредоносные запросы. Чем ниже, тем лучше. |
| Нарушения авторских прав | HarmBench (авторские права) | Измеряет частоту успешных атак для нарушений авторских прав. Чем ниже, тем лучше. |
| Знания в конфиденциальных доменах | WMDP (биобезопасность, химическая безопасность, кибербезопасность) | Точность в трех подмножествах конфиденциального домена. Более высокая точность означает больше знаний о чувствительных возможностях модели. |
| Обнаружение токсикации | ToxiGen (аннотированный) | Оценка F1 для возможности обнаружения токсичных содержимого. Выше лучше. |
| Рассуждение | BIG-Bench Hard (1000 из подвыборки) | Оценка способностей к рассуждению. Более высокие значения лучше. |
| Кодирование | BigCodeBench (инструктирование), HumanEvalPlus, LiveBench (кодирование), MBPPPlus | Измеряет точность задач, связанных с кодом. Более высокие значения лучше. |
| Общие знания | MMLU-Pro (1K английская подвыборка) | 1 000-примерный англоязычный подвыборка MMLU-Pro. |
| Вопросы и ответы | Arena-Hard, GPQA (алмаз) | Состязательный подход к предпочтениям человека в QA (Arena-Hard) и многодисциплинарный QA на уровне подготовки магистратуры (GPQA diamond). Более высокие значения лучше. |
| математика; | MATH (500 подвыборка) | Измеряет математические возможности логики языковых моделей. Более высокие значения лучше. |
| Groundedness | TruthfulQA (MC1) | Оценка обоснованности и достоверности языковых моделей с выбором из нескольких вариантов. Более высокие значения лучше. |
Тесты качества внедрения моделей
Индекс качества внедрения моделей определяется как средняя оценка точности комплексного набора бессерверных наборов данных API, предназначенных для получения информации, кластеризации документов и задач суммирования.
Дополнительные сведения см. в определениях оценки точности, относящихся к каждому набору данных:
| Метрика | Описание |
|---|---|
| Точность | Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов. |
| F1-мера | F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль. |
| Средняя точность (MAP) | MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке. |
| Нормализованный совокупный прирост с скидкой (NDCG) | NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой ndcg_at_10, то есть мы рассмотрим первые 10 элементов. |
| Точность | Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса. |
| Корреляция Spearman | Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman. |
| Мера V | Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки находятся между нулем и единицей, при этом единица означает идеально завершенную разметку. |
Вычисление показателей
Отдельные оценки
Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки Foundry загружают данные из исходных источников, извлекают запросы из каждой примеров строки, создают ответы модели и затем вычисляют метрики, относящиеся к точности.
Создание запросов следует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько примеров, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, содержащихся в оценке.