Поделиться через


Introduction to Databricks Lakehouse Monitoring

This article describes Databricks Lakehouse Monitoring. It covers the benefits of monitoring your data and gives an overview of the components and usage of Databricks Lakehouse Monitoring.

Databricks Lakehouse Monitoring позволяет отслеживать статистические свойства и качество данных во всех таблицах в вашей учетной записи. Вы также можете использовать его для отслеживания производительности моделей машинного обучения и конечных точек, обслуживающих модели, путем мониторинга таблиц вывода, содержащих входные и прогнозы модели. The diagram shows the flow of data through data and ML pipelines in Databricks, and how you can use monitoring to continuously track data quality and model performance.

Databricks Lakehouse Monitoring overview

Why use Databricks Lakehouse Monitoring?

To draw useful insights from your data, you must have confidence in the quality of your data. Monitoring your data provides quantitative measures that help you track and confirm the quality and consistency of your data over time. При обнаружении изменений в распределении данных таблицы или производительности соответствующей модели таблицы, созданные Databricks Lakehouse Monitoring, могут записывать и оповещать вас об изменении и помочь вам определить причину.

Databricks Lakehouse Monitoring helps you answer questions like the following:

  • What does data integrity look like, and how does it change over time? Например, какова доля значений NULL или нуля в текущих данных и увеличилась ли она?
  • What does the statistical distribution of the data look like, and how does it change over time? Например, что такое 90-й процентиль числового столбца? Или как распределяются значения в категориальном столбце и чем они отличаются от вчерашнего дня?
  • Is there drift between the current data and a known baseline, or between successive time windows of the data?
  • What does the statistical distribution or drift of a subset or slice of the data look like?
  • How are ML model inputs and predictions shifting over time?
  • How is model performance trending over time? Is model version A performing better than version B?

Кроме того, Databricks Lakehouse Monitoring позволяет управлять степенью детализации наблюдений и настраивать пользовательские метрики.

Requirements

The following are required to use Databricks Lakehouse Monitoring:

  • Для работы с каталoгом Unity рабочая область должна быть настроена, и у вас должен быть доступ к Databricks SQL.
  • Для мониторинга поддерживаются только разностные таблицы, а таблица должна быть одной из следующих типов таблиц: управляемые таблицы, внешние таблицы, представления, материализованные представления или потоковые таблицы.
  • Мониторы, созданные на основе материализованных представлений и потоковых таблиц, не поддерживают инкрементальную обработку.
  • Not all regions are supported. Сведения о региональной поддержке см. в столбце «Мониторинг Lakehouse» в таблице «Искусственный интеллект и машинное обучение».

Note

Databricks Lakehouse Monitoring uses serverless compute for jobs but does not require that your account be enabled for serverless compute. For information about tracking Lakehouse Monitoring expenses, see View Lakehouse Monitoring expenses.

How Lakehouse Monitoring works on Databricks

Чтобы отслеживать таблицу в Databricks, создайте монитор, подключенный к таблице. Чтобы отслеживать производительность модели машинного обучения, вы подключаете монитор к таблице вывода, содержащей входные данные модели и соответствующие прогнозы.

Databricks Lakehouse Monitoring provides the following types of analysis: time series, snapshot, and inference.

Profile type Description
Time series Используется для таблиц, содержащих набор данных временных рядов на основе столбца метки времени. Monitoring computes data quality metrics across time-based windows of the time series.
Inference Используется для таблиц, содержащих журнал запросов для модели. Each row is a request, with columns for the timestamp , the model inputs, the corresponding prediction, and (optional) ground-truth label. Monitoring compares model performance and data quality metrics across time-based windows of the request log.
Snapshot Используется для всех других типов таблиц. Мониторинг вычисляет метрики качества данных по всем данным в таблице. Полная таблица обрабатывается при каждом обновлении.

В этом разделе кратко описаны входные таблицы, используемые Databricks Lakehouse Monitoring, и таблицы метрик, которые он создаёт. На схеме показана связь между входной таблицей, таблицами метрик, монитором и панелью мониторинга.

Databricks Lakehouse Monitoring diagram

основная таблица и базовая таблица

Помимо отслеживаемой таблицы, называемой основной таблицей, можно также указать базовую таблицу, которая будет использоваться в качестве ссылки для измерения смещения, или изменения значений с течением времени. Базовая таблица полезна при наличии примера того, что вы ожидаете, что данные будут выглядеть. Идея заключается в том, что смещение затем вычисляется относительно ожидаемых значений и распределений данных.

Базовая таблица должна содержать набор данных, который отражает ожидаемое качество входных данных с точки зрения статистических распределений, распределения отдельных столбцов, отсутствующих значений и других характеристик. Она должна соответствовать схеме отслеживаемой таблицы. Исключением является столбец метки времени для таблиц, используемых с профилями временных рядов или выводов. Если столбцы отсутствуют в основной таблице или базовой таблице, мониторинг использует эвристики лучших усилий для вычисления выходных метрик.

For monitors that use a snapshot profile, the baseline table should contain a snapshot of the data where the distribution represents an acceptable quality standard. Например, в данных распределения оценок можно установить эталон для предыдущего класса, в котором оценки распределялись равномерно.

Для мониторов, использующих профиль временных рядов, базовая таблица должна содержать данные, представляющие интервалы времени, в которых распределение данных представляет приемлемый стандарт качества. Например, для данных о погоде можно задать базовые показатели на неделю, месяц или год, где температура была близка к ожидаемым нормальным температурам.

For monitors that use an inference profile, a good choice for a baseline is the data that was used to train or validate the model being monitored. In this way, users can be alerted when the data has drifted relative to what the model was trained and validated on. Эта таблица должна содержать те же столбцы признаков, что и основная таблица, и дополнительно иметь тот же model_id_col, который был указан для InferenceLog основной таблицы, чтобы данные агрегировались согласованно. В идеале набор тестов или проверки, используемый для оценки модели, должен использоваться для обеспечения сопоставимых метрик качества модели.

Таблицы метрик и панель мониторинга

Монитор таблиц создает две таблицы метрик и панель мониторинга. Значения метрик вычисляются для всей таблицы, а также для временных окон и подмножеств данных (или «срезов»), указанных при создании монитора. In addition, for inference analysis, metrics are computed for each model ID. Дополнительные сведения о таблицах метрик см. в таблицах метрик мониторинга.

  • Таблица метрик профиля содержит сводную статистику. See the profile metrics table schema.
  • Таблица метрик смещения содержит статистику, связанную с дрейфом данных с течением времени. Если указана базовая таблица, смещение также отслеживается относительно базовых значений. See the drift metrics table schema.

Таблицы метрик — это разностные таблицы и хранятся в указанной схеме каталога Unity. Эти таблицы можно просматривать с помощью пользовательского интерфейса Databricks, запрашивать их с помощью Databricks SQL и создавать панели мониторинга и оповещения на основе них.

For each monitor, Databricks automatically creates a dashboard to help you visualize and present the monitor results. Панель мониторинга полностью настраивается. See Dashboards.

Start using Lakehouse Monitoring on Databricks

Ознакомьтесь со следующими статьями, чтобы приступить к работе: