MLflow 3 для GenAI

MLflow 3 для GenAI — это открытая платформа, которая объединяет отслеживание, оценку и наблюдаемость для приложений и агентов GenAI на протяжении всего жизненного цикла разработки и рабочей среды. Он включает ведение журнала трассировки в реальном времени, встроенные и пользовательские оценки, включение отзывов человека и отслеживание версий, чтобы помочь вам эффективно оценить и улучшить качество приложений во время разработки и продолжить отслеживание и улучшение качества в рабочей среде.

Управляемый MLflow в Databricks расширяет MLflow с открытым исходным кодом с возможностями, предназначенными для производственных приложений GenAI, включая готовность к корпоративному управлению, полностью управляемое размещение, масштабирование на уровне рабочей среды и интеграцию с данными в Databricks lakehouse и каталоге Unity.

Сведения об оценке агента в MLflow 2 см. в разделе "Оценка агента" (MLflow 2) и руководство по миграции. Для MLflow 3 методы пакета SDK для оценки агента были интегрированы с управляемым Databricks MLflow.

Чтобы приступить к работе, ознакомьтесь с набором руководств.

Как MLflow 3 помогает оптимизировать качество приложения GenAI

Оценка приложений и агентов GenAI сложнее, чем оценка традиционного программного обеспечения. Входные и выходные данные часто являются текстом свободной формы, и многие различные выходные данные можно считать правильными. Качество зависит не только от правильности, но и от факторов, таких как точность, длина, полнота, соответствие и другие критерии, относящиеся к варианту использования. Поскольку LLM по своей природе являются недетерминированными, а агенты GenAI включают дополнительные компоненты, такие как ретриверы и инструменты, их ответы могут отличаться от одного выполнения к другому.

Разработчикам требуется конкретные метрики качества, автоматическая оценка и непрерывный мониторинг для создания и развертывания надежных приложений искусственного интеллекта. MLflow 3 для GenAI предоставляет эти ключевые компоненты для эффективного разработки, развертывания и непрерывного улучшения:

Трассировка автоматически регистрирует входные данные, промежуточные шаги и выходные данные и предоставляет основу данных для оценки и мониторинга.
Встроенные и пользовательские оценщики и эксперты LLM позволяют определять различные аспекты качества и настраивать метрики в соответствии с вашим вариантом использования.
Приложения для проверки экспертной обратной связи позволяют собирать и маркировать наборы данных для оценки и согласовывать автоматизированные судьи и оценки с экспертной оценкой.
Автоматическая оценка и мониторинг привлекают одних и тех же судей и оценщиков во время разработки и производства.
Управление версиями приложений и запросов позволяет сравнивать версии и отслеживать улучшения по сравнению с итерациями.

С помощью MLflow 3 в Databricks вы можете перенести ИИ в данные, чтобы помочь вам глубоко понять и улучшить качество. Каталог Unity обеспечивает согласованное управление запросами, приложениями и трассировками. Поддерживая любую модель или фреймворк, MLflow сопровождает вас на протяжении всего цикла разработки до самого этапа производства и в нем.

Начало работы

Начните создавать лучшие приложения GenAI с помощью комплексных средств наблюдения и оценки.

Задача	Описание
Краткое руководство по началу работы	Начните работу за считанные минуты с пошаговыми инструкциями по внедрению инструментов для первого приложения с трассировкой, проведением оценки и сбором отзывов от пользователей.
Начало работы: отслеживание MLflow для GenAI (Блокнот Databricks)	Создать систему инструментирования простого приложения GenAI для автоматического отслеживания подробных трассировок с целью отладки и оптимизации.
Руководство. Оценка и улучшение приложения GenAI	Инструкции по пошаговой оценке приложения для создания электронной почты, использующего генерацию, усиленную извлечением (RAG).
10-минутная демонстрация: сбор отзывов пользователей	Сбор отзывов конечных пользователей, добавление заметок разработчика, создание сеансов проверки экспертов и использование этой обратной связи для оценки качества приложения GenAI.

Трассировка

Средства трассировки в MLflow обеспечивают наблюдаемость и ведение журнала данных трассировки, необходимых для оценки и мониторинга.

Функция	Описание
Отслеживание MLflow	Сквозная наблюдаемость для приложений GenAI, включая сложные системы на основе агентов. Отслеживайте входные данные, выходные данные, промежуточные шаги и метаданные для полного представления о том, как работает ваше приложение.
Что такое трассировка?	Введение в концепции отслеживания.
Просмотр поведения и производительности приложения	Полная видимость выполнения позволяет записывать запросы, извлечение, вызовы инструментов, ответы, задержку и затраты.
Наблюдаемость производственной среды	Используйте то же инструментирование в средах разработки и рабочей среды для согласованной оценки.
Создание наборов данных оценки	Анализ трассировок для выявления проблем с качеством, выбора репрезентативных трассировок, создания наборов данных оценки и систематического улучшения приложения.
Трассировка интеграций	Трассировка MLflow интегрирована со многими библиотеками и платформами для автоматической трассировки, что позволяет получить немедленную наблюдаемость в приложениях GenAI с минимальными настройками.
Код Genie для наблюдаемости и оценки агента	Используйте естественный язык для анализа трассировок, отладки ошибок, просмотра результатов оценки, проверки показателей и получения рекомендаций по инструментированию непосредственно в эксперименте.

Оценка и мониторинг

Замените ручное тестирование автоматизированной оценкой с помощью встроенных и пользовательских судей LLM и показателей, которые соответствуют опыту человека и могут применяться как в разработке, так и в рабочей среде. Каждое рабочее взаимодействие становится возможностью улучшить с помощью интегрированных рабочих процессов обратной связи и оценки.

Функция	Описание
Оценка и мониторинг агентов GenAI	Обзор оценки и мониторинга агентов с помощью MLflow 3 в Databricks.
Судьи и оценщики LLM	MLflow 3 включает встроенные оценщики LLM для обеспечения безопасности, релевантности, правильности, качества извлечения и других аспектов. Вы также можете создавать пользовательские оценочные инструменты LLM и инструменты оценки на основе кода в соответствии с вашими специфическими бизнес-требованиями.
Оценка	Выполните оценку во время разработки или как часть процесса выпуска.
Мониторинг рабочей среды	Непрерывно отслеживайте выборку производственного трафика с помощью судей и оценщиков LLM.
Сбор отзывов о людях	Сбор и использование отзывов от экспертов домена и конечных пользователей во время разработки и во время рабочей среды для непрерывного улучшения.
Код Genie для наблюдаемости и оценки агента	Попросите Genie Code просматривать оценки, проверять наборы данных оценки, проверять конфигурации оценки и настраивать оценку для агента с помощью естественного языка.

Управление жизненным циклом приложений GenAI

Для версии, отслеживания и управления всем приложением GenAI используйте инструменты корпоративного уровня для управления жизненным циклом и соблюдения регламентов.

Функция	Описание
Реестр запросов	Централизованное управление версиями и общим доступом к подсказкам в вашей организации с возможностями тестирования A/B и интеграцией каталога Unity.
Интеграция предприятия	Каталог Unity. Единое управление всеми ресурсами ИИ с корпоративными функциями безопасности, контроля доступа и соответствия требованиям. Аналитика данных. Подключите данные GenAI к бизнес-данным в Databricks Lakehouse и предоставьте пользовательскую аналитику бизнес-стейкхолдерам. Обслуживание агента. Развертывание агентов в рабочей среде с масштабированием и операционными возможностями.

Функция

Описание

Реестр запросов

Централизованное управление версиями и общим доступом к подсказкам в вашей организации с возможностями тестирования A/B и интеграцией каталога Unity.

Интеграция предприятия

Каталог Unity. Единое управление всеми ресурсами ИИ с корпоративными функциями безопасности, контроля доступа и соответствия требованиям.
Аналитика данных. Подключите данные GenAI к бизнес-данным в Databricks Lakehouse и предоставьте пользовательскую аналитику бизнес-стейкхолдерам.
Обслуживание агента. Развертывание агентов в рабочей среде с масштабированием и операционными возможностями.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-08