Поделиться через


Таблицы лидеров моделей на портале Azure AI Foundry (предварительная версия)

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Таблицы лидеров моделей (предварительная версия) на портале Azure AI Foundry позволяют упростить процесс выбора модели в каталоге моделей Azure AI Foundry. Таблицы лидеров модели, поддерживаемые отраслевыми стандартными тестами, помогут вам найти лучшую модель для пользовательского решения ИИ. В разделе "Таблицы лидеров моделей" каталога моделей можно просматривать списки лидеров для сравнения доступных моделей следующим образом:

  • Таблицы показателей качества, затрат и производительности для быстрого определения лидеров моделей на основе одной метрики (качество, стоимость или пропускная способность);
  • Диаграммы компромиссов, чтобы увидеть, как модели работают по одной метрике по сравнению с другой, например качество против стоимости;
  • Списки лидеров по сценариям, чтобы найти лучшие списки лидеров, которые подходят вашему сценарию.

Каждый раз, когда вы найдете модель для вашего вкуса, вы можете выбрать ее и увеличить масштаб до подробных результатов тестирования модели в каталоге моделей. Если вы довольны моделью, её можно развернуть, протестировать в тестовой среде или оценить на ваших данных. В таблице лидеров поддерживается сравнение производительности между текстовыми языковыми моделями (крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и моделями встраивания.

Тестирование больших и небольших языковых моделей

Тесты моделей оценивают LLM и SLM в следующих категориях: качество, производительность и стоимость. Тесты регулярно обновляются по мере добавления новых наборов данных и связанных метрик в существующие модели, а также при добавлении новых моделей в каталог моделей.

Качество

Azure AI оценивает качество LLM и SLM с использованием показателей точности из стандартных, эталонных наборов данных, измеряющих возможности модели, такие как логические рассуждения, знания, ответы на вопросы, математика и программирование.

Индекс Описание
Показатель качества Индекс качества вычисляется путем усреднения применимых показателей точности (exact_match, pass@1, arena_hard) по сравнению с комплексными стандартными наборами данных теста.

Индекс качества предоставляется в масштабе от нуля до одного. Более высокие значения индекса качества лучше. Наборы данных, включенные в индекс качества, :

Имя набора данных Категория списка лидеров
BoolQ Обеспечение качества
HellaSwag Рассуждение
OpenBookQA Рассуждение
PIQA Рассуждение
Социальный IQA Рассуждение
Winogrande Рассуждение
TruthfulQA (MC) Заземленность
HumanEval Кодирование
GSM8K математика;
MMLU (Гуманитарные науки) Общие знания
MMLU (другое) Общие знания
MMLU (Социальные науки) Общие знания
MMLU (STEM) Общие знания

Дополнительные сведения см. в оценках точности:

Метрика Описание
Точность Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact-match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрики. Точное совпадение сравнивает созданный текст модели с правильным ответом по набору данных, выдавая один, если созданный текст полностью совпадает с ответом, и ноль в противном случае.  pass@1 Метрика измеряет долю решений модели, которые успешно проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности — это среднее значение точностей на уровне датасета для каждой модели.

Оценки точности предоставляются по шкале от нуля до одного. Более высокие значения лучше.

Производительность

Метрики производительности вычисляются как агрегат за 14 дней, на основе 24 трасс (два запроса на трассу), отправленных ежедневно с интервалом в один час между каждой трассой. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:

Параметр Ценность Применимо для
Область Восточная часть США и восточная часть США2 Бессерверные API и Azure OpenAI
Ограничение на количество токенов в минуту (TPM) 30k (180 RPM на основе Azure OpenAI) для нерефлективных моделей и 100k для моделей для рассуждений
N/A (бессерверные API)
Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (стандартный, глобальный, глобальный стандарт и т. д.).
Для бессерверных API этот параметр абстрагируется.
Количество запросов Два запроса в трассе каждый час (24 трассы в день) Бессерверные API, Azure OpenAI
Количество трасс и заездов 14 дней с 24 попытками в день, всего 336 пробегов Бессерверные API, Azure OpenAI
Длина запроса и контекста Средняя длина Бессерверные API, Azure OpenAI
Количество обработанных токенов (умеренный) Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров. Бессерверные API, Azure OpenAI
Число одновременных запросов Один (запросы отправляются последовательно один за другим) Бессерверные API, Azure OpenAI
Данные Искусственный (входные запросы, подготовленные из статического текста) Бессерверные API, Azure OpenAI
Область Восточная часть США и восточная часть США2 Бессерверные API и Azure OpenAI
Тип развертывания Стандарт Применимо только для Azure OpenAI
Стриминг Верно Применяется к бессерверным API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается TTFT представлена как метрика задержки P50.
артикул Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища) Применимо только для управляемых вычислительных ресурсов — для оценки затрат и метрик производительности.

Производительность LLM и SLM оценивается по следующим показателям:

Метрика Описание
Среднее значение задержки Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение.
Задержка P50 50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса на конечную точку 50% запросов выполняются за x секунд, где x — это измерение задержки.
Задержка P90 значение 90-го перцентиля задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, когда мы отправляем запрос к конечному пункту, 90% запросов завершаются за 'x' секунд, где "x" — это измерение задержки.
Задержка P95 95-й процентиль величины задержки (время, затраченное от отправки запроса до полного получения ответа с успешным кодом). Например, при отправке запроса в конечную точку 95% запросов выполняются в секундах x, а значение x — измерение задержки.
Задержка P99 99-й процентиль значения задержки (время, затраченное между запросом и моментом получения всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99% запросов выполняются в секундах x, а значение x — измерение задержки.
Пропускная способность GTPS Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку.
Пропускная способность TTPS Общее количество токенов в секунду (TTPS) — это количество всех токенов, обрабатываемых в секунду, включая токены как из входного запроса, так и создаваемые в результате генерации. Для моделей, которые не поддерживают потоковую передачу, время до первого токена (ttft) представляет собой значение задержки P50 (время, затраченное на получение ответа).
Задержка TTFT Общее время до первого токена (TTFT) — это время, необходимое для получения первого токена из конечной точки при включенной потоковой передаче.
Время между токенами Эта метрика — это время между полученными токенами.

Azure AI также отображает индексы производительности для задержки и пропускной способности следующим образом:

Индекс Описание
Индекс задержки Среднее время до первого токена. Более низкие значения лучше.
Индекс пропускной способности Средние созданные токены в секунду. Более высокие значения лучше.

Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.

Себестоимость

Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе ИИ Azure. Azure AI поддерживает отображение стоимости бессерверных API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.

Стоимость LLM и SLM оценивается по следующим метрикам:

Метрика Описание
Стоимость за входные токены Затраты на развертывание бессерверного API для 1 миллиона входных маркеров
Затраты на выходные токены Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров
Расчетная стоимость Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1.

Azure AI также отображает индекс затрат следующим образом:

Индекс Описание
Индекс затрат Предполагаемые затраты. Более низкие значения лучше.

Тестирование моделей внедрения

Тесты моделей оценивают внедрение моделей на основе качества.

Качество

Качество внедрения моделей оценивается по следующим метрикам:

Метрика Описание
Точность Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов.
F1-мера F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль.
Средняя точность (MAP) MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке.
Нормализованный совокупный прирост с скидкой (NDCG) NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой ndcg_at_10, то есть мы рассмотрим первые 10 элементов.
Точность Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса.
Корреляция Spearman Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman.
Мера V Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки находятся между нулем и единицей, при этом единица означает идеально завершенную разметку.

Вычисление показателей

Отдельные оценки

Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки ИИ Azure загружают данные из исходных источников, извлекают входные запросы из каждой строки, генерируют ответы модели, а затем вычисляют соответствующие метрики точности.

Создание запросов следует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько примеров, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Конвейеры оценки создают снимки, выбирая вопросы и ответы из части данных, исключенной из оценки.