Как тестировать модели в Azure AI Studio
Внимание
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
В этой статье вы узнаете, как сравнить тесты для моделей и наборов данных с помощью средства тестирования моделей в Azure AI Studio. Вы также узнаете, как анализировать результаты тестирования и выполнять тестирование с данными. Тестирование может помочь вам принимать обоснованные решения о том, какие модели соответствуют требованиям для конкретного варианта использования или приложения.
Необходимые компоненты
Подписка Azure с допустимым методом оплаты. Бесплатные или пробные подписки Azure не будут работать. Если у вас нет подписки Azure, создайте платную учетную запись Azure, чтобы начать работу.
Проект Azure AI Studio.
Доступ к эталонным тестам модели через каталог моделей
Azure AI поддерживает тестирование моделей для избранных моделей, которые наиболее часто используются. Выполните следующие действия, чтобы использовать подробные результаты тестирования для сравнения и выбора моделей непосредственно из каталога моделей AI Studio:
- Войдите в Azure AI Studio.
- Если вы еще не находитесь в проекте, выберите его.
- Выберите каталог моделей в левой области навигации.
Выберите нужную модель. Например, выберите gpt-4o. Это действие открывает страницу обзора модели.
Совет
В каталоге моделей можно отобразить модели, имеющие тестовые показатели, доступные с помощью фильтра коллекций и выбора результатов benchmark. Эти модели имеют значок тестов , который выглядит как гистограмма.
Перейдите на вкладку Benchmarks , чтобы проверить результаты теста для модели.
Вернитесь на домашнюю страницу каталога моделей.
Выберите "Сравнить модели" на домашней странице каталога моделей, чтобы изучить модели с поддержкой тестов, просмотреть их метрики и проанализировать компромиссы между различными моделями. Этот анализ может сообщить о выборе модели, которая лучше всего соответствует вашим требованиям.
Выберите нужные задачи и укажите измерения интереса, такие как качество ИИ и стоимость, чтобы оценить компромиссы между различными моделями.
Вы можете перейти в представление списка, чтобы получить более подробные результаты для каждой модели.
Анализ результатов теста
Если вы находитесь на вкладке "Тесты" для конкретной модели, вы можете собирать подробные сведения, чтобы лучше понять и интерпретировать результаты теста, включая:
Высокоуровневые статистические оценки: эти оценки качества ИИ, затрат, задержки и пропускной способности предоставляют краткий обзор производительности модели.
Сравнительная диаграмма: эти диаграммы отображают относительную позицию модели по сравнению с соответствующими моделями.
Таблица сравнения метрик: в этой таблице представлены подробные результаты для каждой метрики.
По умолчанию AI Studio отображает средний индекс по различным метрикам и наборам данных, чтобы обеспечить высокий уровень производительности модели.
Чтобы получить доступ к результатам теста для определенной метрики и набора данных, выполните указанные ниже действия.
Нажмите кнопку "Развернуть" на диаграмме. Всплывающий график сравнения показывает подробные сведения и обеспечивает большую гибкость для сравнения.
Выберите интересующую метрику и выберите различные наборы данных в зависимости от конкретного сценария. Для получения более подробных определений метрик и описаний общедоступных наборов данных, используемых для вычисления результатов, нажмите кнопку "Подробнее".
Оценка результатов теста с помощью данных
В предыдущих разделах показаны результаты теста, вычисляемые корпорацией Майкрософт, с помощью общедоступных наборов данных. Однако вы можете попытаться повторно создать тот же набор метрик с данными.
Вернитесь на вкладку Benchmarks в карточке модели.
Выберите "Попробовать с собственными данными ", чтобы оценить модель с данными. Оценка данных помогает узнать, как модель выполняется в определенных сценариях.