Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
MLflow 3 для GenAI — это открытая платформа, которая объединяет отслеживание, оценку и наблюдаемость для приложений и агентов GenAI на протяжении всего жизненного цикла разработки и рабочей среды. Он включает ведение журнала трассировки в реальном времени, встроенные и пользовательские оценки, включение отзывов человека и отслеживание версий, чтобы помочь вам эффективно оценить и улучшить качество приложений во время разработки и продолжить отслеживание и улучшение качества в рабочей среде.
Управляемый MLflow в Databricks расширяет MLflow с открытым исходным кодом с возможностями, предназначенными для производственных приложений GenAI, включая готовность к корпоративному управлению, полностью управляемое размещение, масштабирование на уровне рабочей среды и интеграцию с данными в Databricks lakehouse и каталоге Unity.
Сведения об оценке агента в MLflow 2 см. в разделе "Оценка агента" (MLflow 2) и руководство по миграции. Для MLflow 3 методы пакета SDK для оценки агента были интегрированы с управляемым Databricks MLflow.
Чтобы приступить к работе, ознакомьтесь с набором руководств.
Как MLflow 3 помогает оптимизировать качество приложения GenAI
Оценка приложений и агентов GenAI сложнее, чем оценка традиционного программного обеспечения. Входные и выходные данные часто являются текстом свободной формы, и многие различные выходные данные можно считать правильными. Качество зависит не только от правильности, но и от факторов, таких как точность, длина, полнота, соответствие и другие критерии, относящиеся к варианту использования. Поскольку LLM по своей природе являются недетерминированными, а агенты GenAI включают дополнительные компоненты, такие как ретриверы и инструменты, их ответы могут отличаться от одного выполнения к другому.
Разработчикам требуется конкретные метрики качества, автоматическая оценка и непрерывный мониторинг для создания и развертывания надежных приложений искусственного интеллекта. MLflow 3 для GenAI предоставляет эти ключевые компоненты для эффективного разработки, развертывания и непрерывного улучшения:
- Трассировка автоматически регистрирует входные данные, промежуточные шаги и выходные данные и предоставляет основу данных для оценки и мониторинга.
- Встроенные и пользовательские оценщики и эксперты LLM позволяют определять различные аспекты качества и настраивать метрики в соответствии с вашим вариантом использования.
- Приложения для проверки экспертной обратной связи позволяют собирать и маркировать наборы данных для оценки и согласовывать автоматизированные судьи и оценки с экспертной оценкой.
- Автоматическая оценка и мониторинг привлекают одних и тех же судей и оценщиков во время разработки и производства.
- Управление версиями приложений и запросов позволяет сравнивать версии и отслеживать улучшения по сравнению с итерациями.
С помощью MLflow 3 в Databricks вы можете перенести ИИ в данные, чтобы помочь вам глубоко понять и улучшить качество. Каталог Unity обеспечивает согласованное управление запросами, приложениями и трассировками. Поддерживая любую модель или фреймворк, MLflow сопровождает вас на протяжении всего цикла разработки до самого этапа производства и в нем.
Начало работы
Начните создавать лучшие приложения GenAI с помощью комплексных средств наблюдения и оценки.
| Задача | Описание |
|---|---|
| Краткое руководство по началу работы | Начните работу за считанные минуты с пошаговыми инструкциями по внедрению инструментов для первого приложения с трассировкой, проведением оценки и сбором отзывов от пользователей. |
| Начало работы: отслеживание MLflow для GenAI (Блокнот Databricks) | Создать систему инструментирования простого приложения GenAI для автоматического отслеживания подробных трассировок с целью отладки и оптимизации. |
| Руководство. Оценка и улучшение приложения GenAI | Инструкции по пошаговой оценке приложения для создания электронной почты, использующего генерацию, усиленную извлечением (RAG). |
| 10-минутная демонстрация: сбор отзывов пользователей | Сбор отзывов конечных пользователей, добавление заметок разработчика, создание сеансов проверки экспертов и использование этой обратной связи для оценки качества приложения GenAI. |
Трассировка
Средства трассировки в MLflow обеспечивают наблюдаемость и ведение журнала данных трассировки, необходимых для оценки и мониторинга.
| Функция | Описание |
|---|---|
| Отслеживание MLflow | Сквозная наблюдаемость для приложений GenAI, включая сложные системы на основе агентов. Отслеживайте входные данные, выходные данные, промежуточные шаги и метаданные для полного представления о том, как работает ваше приложение. |
| Что такое трассировка? | Введение в концепции отслеживания. |
| Просмотр поведения и производительности приложения | Полная видимость выполнения позволяет записывать запросы, извлечение, вызовы инструментов, ответы, задержку и затраты. |
| Наблюдаемость производственной среды | Используйте то же инструментирование в средах разработки и рабочей среды для согласованной оценки. |
| Создание наборов данных оценки | Анализ трассировок для выявления проблем с качеством, выбора репрезентативных трассировок, создания наборов данных оценки и систематического улучшения приложения. |
| Трассировка интеграций | Трассировка MLflow интегрирована со многими библиотеками и платформами для автоматической трассировки, что позволяет получить немедленную наблюдаемость в приложениях GenAI с минимальными настройками. |
| Код Genie для наблюдаемости и оценки агента | Используйте естественный язык для анализа трассировок, отладки ошибок, просмотра результатов оценки, проверки показателей и получения рекомендаций по инструментированию непосредственно в эксперименте. |
Оценка и мониторинг
Замените ручное тестирование автоматизированной оценкой с помощью встроенных и пользовательских судей LLM и показателей, которые соответствуют опыту человека и могут применяться как в разработке, так и в рабочей среде. Каждое рабочее взаимодействие становится возможностью улучшить с помощью интегрированных рабочих процессов обратной связи и оценки.
| Функция | Описание |
|---|---|
| Оценка и мониторинг агентов GenAI | Обзор оценки и мониторинга агентов с помощью MLflow 3 в Databricks. |
| Судьи и оценщики LLM | MLflow 3 включает встроенные оценщики LLM для обеспечения безопасности, релевантности, правильности, качества извлечения и других аспектов. Вы также можете создавать пользовательские оценочные инструменты LLM и инструменты оценки на основе кода в соответствии с вашими специфическими бизнес-требованиями. |
| Оценка | Выполните оценку во время разработки или как часть процесса выпуска. |
| Мониторинг рабочей среды | Непрерывно отслеживайте выборку производственного трафика с помощью судей и оценщиков LLM. |
| Сбор отзывов о людях | Сбор и использование отзывов от экспертов домена и конечных пользователей во время разработки и во время рабочей среды для непрерывного улучшения. |
| Код Genie для наблюдаемости и оценки агента | Попросите Genie Code просматривать оценки, проверять наборы данных оценки, проверять конфигурации оценки и настраивать оценку для агента с помощью естественного языка. |
Управление жизненным циклом приложений GenAI
Для версии, отслеживания и управления всем приложением GenAI используйте инструменты корпоративного уровня для управления жизненным циклом и соблюдения регламентов.
| Функция | Описание |
|---|---|
| Реестр запросов | Централизованное управление версиями и общим доступом к подсказкам в вашей организации с возможностями тестирования A/B и интеграцией каталога Unity. |
| Интеграция предприятия |
Каталог Unity. Единое управление всеми ресурсами ИИ с корпоративными функциями безопасности, контроля доступа и соответствия требованиям. Аналитика данных. Подключите данные GenAI к бизнес-данным в Databricks Lakehouse и предоставьте пользовательскую аналитику бизнес-стейкхолдерам. Обслуживание агента. Развертывание агентов в рабочей среде с масштабированием и операционными возможностями. |