Тесты моделей в Azure AI Studio
Внимание
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
В Azure AI Studio можно сравнить тесты между моделями и наборами данных, доступными в отрасли, чтобы решить, какой из них соответствует вашему бизнес-сценарию. Вы можете напрямую получить доступ к подробным результатам тестирования в каталоге моделей. Если у вас уже есть модели или вы изучаете модели, тестовые данные в Azure AI позволяют принимать обоснованные решения быстро и эффективно.
Azure AI поддерживает тестирование моделей для избранных моделей, которые наиболее часто используются. Поддерживаемые модели имеют значок тестов , который выглядит как гистограмма. Эти модели можно найти в каталоге моделей с помощью фильтра коллекций и выбора результатов теста. Затем можно использовать функцию поиска для поиска определенных моделей.
Тесты моделей помогают принимать обоснованные решения об устойчивости моделей и наборов данных перед началом любого задания. Тесты — это проверенный список наиболее подходящих моделей для задачи, основанный на комплексном сравнении метрик тестирования. Azure AI Studio предоставляет следующие тесты для моделей на основе коллекций каталогов моделей:
- Тесты для больших языковых моделей (LLM) и небольших языковых моделей (SLM)
- Тесты для моделей внедрения
Тестирование llms и SLM
Тесты моделей оценивают LLM и SLM в следующих категориях: качество, производительность и стоимость. Тесты обновляются регулярно по мере добавления новых метрик и наборов данных в существующие модели, а также при добавлении новых моделей в каталог моделей.
Качество
ИИ Azure оценивает качество LLM и SLM по различным метрикам, которые группируются в две основные категории: точность и метрики с помощью запроса:
Для метрики точности:
Метрическая | Description |
---|---|
Правильность | Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности, exact-match используемая во всех случаях, за исключением набора данных HumanEval , использующего метрику pass@1 . Точное совпадение сравнивает созданный текст модели с правильным ответом в соответствии с набором данных, сообщая один, если созданный текст соответствует ответу точно и ноль в противном случае. pass@1 Метрика измеряет долю решений модели, которые передают набор модульных тестов в задаче создания кода. На уровне модели оценка точности — среднее значение точности для каждой модели. |
Для метрик с поддержкой запроса:
Метрическая | Description |
---|---|
Согласованность | Согласованность оценивает, насколько хорошо языковая модель может производить выходные данные, которые плавно читаются, считывает естественно и напоминает человеческий язык. |
Беглость | Fluency оценивает знание языка прогнозируемого ответа искусственного интеллекта. Он оценивает, насколько хорошо сформированный текст соответствует грамматические правила, синтактические структуры и соответствующее использование словаря, что приводит к лингвистически правильным и естественным звуковым ответам. |
GPTSimilarity | GPTSimilarity — это мера, которая квалифифицирует сходство между наземным предложением истины (или документом) и предложением прогнозирования, созданным моделью ИИ. Метрика вычисляется с помощью первых вычислений внедрения уровней предложения, используя API внедрения для как правды, так и прогноза модели. Эти внедрения представляют высокомерные векторные представления предложений, захватывая их семантический смысл и контекст. |
Соответствие эталонным данным | Заземление измеряет, насколько хорошо созданные языковые модели ответы соответствуют данным из источника входных данных. |
С сортировкой по релевантности | Релевантность измеряет степень, в которой сформированные ответы языковой модели имеют отношение к заданным вопросам и непосредственно связаны с заданными вопросами. |
Azure AI также отображает индекс качества следующим образом:
Индекс | Description |
---|---|
Показатель качества | Индекс качества вычисляется путем уменьшения масштаба GPTSimilarity между нулем и одним, а затем усреднением с метриками точности. Более высокие значения индекса качества лучше. |
Индекс качества представляет средний показатель применимой первичной метрики (точность, перемасштабирование GPTSimilarity) более 15 стандартных наборов данных и предоставляется в масштабе от нуля до одного.
Индекс качества представляет две категории метрик:
- Точность (например, точное совпадение или
pass@k
). Диапазоны от нуля до одного. - Метрики на основе запроса (например, GPTSimilarity, заземленность, согласованность, беглость и релевантность). Диапазон от одного до пяти.
Стабильность значения индекса качества обеспечивает индикатор общего качества модели.
Производительность
Метрики производительности вычисляются как агрегат более 14 дней, на основе 24 следов (два запроса на след), отправленных ежедневно с интервалом в один час между каждым следом. Для каждого запроса к конечной точке модели используются следующие параметры по умолчанию:
Параметр | Значение | Применимо для |
---|---|---|
Область/регион | Восточная часть США и восточная часть США2 | Бессерверные API и Azure OpenAI |
Ограничение скорости маркеров в минуту (TPM) | 30k (180 RPM на основе Azure OpenAI) N/A (бессерверные API) |
Для моделей Azure OpenAI выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (стандартный, глобальный, глобальный стандарт и т. д.). Для бессерверных API этот параметр абстрагируется. |
Количество запросов | Два запроса в следе за каждым часом (24 следа в день) | Бессерверные API, Azure OpenAI |
Количество следов и запусков | 14 дней с 24 следами в день для 336 запусков | Бессерверные API, Azure OpenAI |
Длина запроса и контекста | Средняя длина | Бессерверные API, Azure OpenAI |
Количество обработанных маркеров (умеренный) | Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров. | Бессерверные API, Azure OpenAI |
Количество параллельных запросов | Один (запросы отправляются последовательно один за другим) | Бессерверные API, Azure OpenAI |
Data | Искусственный (входные запросы, подготовленные из статического текста) | Бессерверные API, Azure OpenAI |
Область/регион | Восточная часть США и восточная часть США2 | Бессерверные API и Azure OpenAI |
Тип развертывания | Стандартные | Применимо только для Azure OpenAI |
Потоковая передача | Истина | Применяется к бессерверным API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, задайте max_token = 1 для репликации сценария потоковой передачи, что позволяет вычислять такие метрики, как общее время до первого маркера (TTFT) для управляемых вычислений. |
Tokenizer | Пакет Tiktoken (Azure OpenAI) Идентификатор модели распознавания лиц (бессерверные API) |
Обнимать идентификатор модели распознавания лиц (БЕССерверные API Azure) |
Производительность LLM и SMS оценивается по следующим метрикам:
Метрическая | Description |
---|---|
Среднее значение задержки | Среднее время в секундах, затраченное на обработку запроса, вычисляемое по нескольким запросам. Для вычисления этой метрики мы отправим запрос в конечную точку каждый час, в течение двух недель и вычисляем среднее значение. |
Задержка P50 | 50-е значение процентиля (медиана) задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 50 % запросов выполняются в секундах x, а значение x — измерение задержки. |
Задержка P90 | 90-е значение задержки (время, затраченное между запросом и получением всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 90 % запросов выполняются в секундах x, а значение x — измерение задержки. |
Задержка P95 | 95-е значение задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 95 % запросов выполняются в секундах x, а значение x — измерение задержки. |
Задержка P99 | 99-е значение задержки (время, затраченное между запросом и при получении всего ответа с успешным кодом). Например, при отправке запроса в конечную точку 99 % запросов выполняются в секундах x, а значение x — измерение задержки. |
Пропускная способность GTPS | Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку. |
Пропускная способность TTPS | Общее количество маркеров в секунду (TTPS) — это количество общих маркеров, обрабатываемых в секунду, включая как из входного запроса, так и созданных выходных маркеров. |
Задержка TTFT | Общее время до первого маркера (TTFT) — это время, затраченное на первый маркер в ответе, возвращаемое из конечной точки при включении потоковой передачи. |
Время между маркерами | Эта метрика — это время между полученными токенами. |
Azure AI также отображает индексы производительности для задержки и пропускной способности следующим образом:
Индекс | Description |
---|---|
Индекс задержки | Среднее время на первый маркер. Более низкие значения лучше. |
Индекс пропускной способности | Средние созданные маркеры в секунду. Более высокие значения лучше. |
Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Мы обновляем наши показатели производительности по регулярной частоте.
Себестоимость
Расчеты затрат — это оценки использования конечной точки модели LLM или SLM, размещенной на платформе ИИ Azure. Azure AI поддерживает отображение стоимости бессерверных API и моделей Azure OpenAI. Поскольку эти затраты подлежат изменению, мы обновляем наши расчеты затрат по регулярной частоте.
Стоимость LLM и SLM оценивается по следующим метрикам:
Метрическая | Description |
---|---|
Затраты на входные маркеры | Затраты на развертывание бессерверного API для 1 миллиона входных маркеров |
Затраты на выходные маркеры | Затраты на развертывание бессерверного API для 1 миллиона выходных маркеров |
Расчетная стоимость | Стоимость суммы затрат на входные маркеры и затраты на выходные маркеры с соотношением 3:1. |
Azure AI также отображает индекс затрат следующим образом:
Индекс | Description |
---|---|
Индекс затрат | Предполагаемые затраты. Более низкие значения лучше. |
Тестирование моделей внедрения
Тесты моделей оценивают внедрение моделей на основе качества.
Качество
Качество внедрения моделей оценивается по следующим метрикам:
Метрическая | Description |
---|---|
Правильность | Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов. |
Оценка | F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль. |
Средняя средняя точность (MAP) | MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке. |
Нормализованный совокупный прирост с скидкой (NDCG) | NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В наших тестах k=10, указанная метрикой ndcg_at_10 , то есть мы рассмотрим первые 10 элементов. |
Точность | Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса. |
Корреляция Спирмена | Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman. |
Мера V | Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки лежат между нулем и одним, с одним из них идеально завершены маркировки. |
Вычисление показателей
Отдельные оценки
Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в репозиториях GitHub, поддерживаемых создателями или кураторами данных. Конвейеры оценки ИИ Azure загружают данные из исходных источников, извлекают запросы из каждой строки, создают ответы модели, а затем вычисляют соответствующие метрики точности.
Создание запросов следует рекомендациям для каждого набора данных, как указано в документе, введя набор данных и отраслевые стандарты. В большинстве случаев каждый запрос содержит несколько снимков, то есть несколько примеров полных вопросов и ответов на основные задачи. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, содержащихся в оценке.