Обогащение данных с помощью функций ИИ

Это важно

Эта функция доступна в общедоступной предварительной версии.

Функции ИИ — это встроенные функции, которые можно использовать для применения LLM или передовых методов исследования на данных, хранящихся в Azure Databricks, для преобразования и обогащения данных. Их можно запускать в любом месте в Databricks, включая Databricks SQL, записные книжки, декларативные конвейеры Lakeflow Spark и рабочие процессы.

Функции ИИ просты в использовании, быстры и масштабируемы. Аналитики могут использовать их для применения интеллектуального анализа данных к собственным данным, в то время как инженеры данных, специалисты по обработке данных и инженеры машинного обучения могут использовать их для создания производственного уровня пакетных конвейеров.

Конкретное и общее назначение задач

Функции ИИ имеют функции конкретной задачи и общего назначения:

  • Функции ИИ, предназначенные для конкретной задачи — специально разработанные функции, оптимизированные для конкретной задачи, такие как анализ документов, извлечение сущностей, классификация и анализ тональности. Эти функции обеспечиваются системами, управляемыми и исследовательскими, под управлением Azure Databricks. Некоторые функции включают опыт взаимодействия с пользовательским интерфейсом. См. функции ИИ для конкретных задач поддерживаемых функций и моделей.
  • ai_query — функция общего назначения для гибкости задач и моделей. Укажите запрос и выберите любой поддерживаемый API фундаментальной модели. См. раздел "Использование ai_query".

Дерево принятия решений для функций ИИ для конкретных задач и ai_query

функции ИИ для конкретной задачи

Функции, относящиеся к задачам, ограничены для определенной задачи, поэтому можно автоматизировать обычные преобразования, такие как извлечение сущностей, перевод и классификация. Databricks рекомендует эти функции для начала работы, так как они вызывают современные методы исследования, поддерживаемые Databricks и не требуют каких-либо настроек.

Пример см. в статье "Анализ отзывов клиентов с помощью функций ИИ ".

Следующие функции группируются по задачам.

Интеллектуальная обработка документов:

Функция Описание
ai_parse_document Парсинг структурированных содержимых (текста, таблиц, описаний рисунков) и макета из неструктурированных документов с использованием передовых исследовательских методов.
ai_extract Извлеките структурированные поля из документов или текста, используя определяемую схему.
ai_classify Классифицируйте входной текст, используя передовые исследовательские техники, в соответствии с предоставляемыми вами метками.
ai_prep_search Преобразование проанализированных выходных данных документа в блоки, готовые к поиску, оптимизированные для векторного поиска и конвейеров RAG.

Преобразование текста:

Функция Описание
исправить грамматику при помощи ИИ Исправьте грамматические ошибки в тексте с помощью модели создания искусственного интеллекта.
ai_translate Перевод текста на указанный целевой язык с помощью модели создания искусственного интеллекта.
ai_summarize Создайте сводку текста с помощью SQL и модели создания искусственного интеллекта.
ai_mask Замаскировать указанные сущности в тексте с использованием передовой генеративной модели ИИ.

Анализ текста:

Функция Описание
ai_анализ_настроения Анализ тональности исходного текста с использованием передовой генеративной модели ИИ.
ai_similarity Сравните две строки и вычислить семантический показатель сходства с помощью модели создания искусственного интеллекта.

Создайте содержимое. Для настраиваемых подсказок или конкретной модели см. раздел "Использование ai_query:

Функция Описание
ai_gen Ответьте на запрос, предоставленный пользователем, с помощью передовой генеративной модели ИИ.

Прогноз временных рядов:

Функция Описание
ai_forecast Прогнозируемые данные до указанного временного горизонта. Эта табличная функция предназначена для экстраполации данных временных рядов в будущем.

Поиск с внедрением векторного поиска:

Функция Описание
vector_search Запросите и выполните поиск в индексе Mosaic AI Vector Search с использованием передовой генеративной модели ИИ.

Использование функций ИИ в рабочих рабочих процессах

Для крупномасштабного пакетного вывода можно интегрировать функции ИИ для конкретных задач или функцию ai_query общего назначения в ваши рабочие процессы, такие как декларативные конвейеры Lakeflow Spark, рабочие процессы Databricks и потоковая обработка данных. Это позволяет осуществлять обработку промышленного уровня в масштабе.

Рекомендации по функциям искусственного интеллекта в рабочей среде:

Пусть функции ИИ обрабатывают рабочую нагрузку в масштабе: Функции ИИ автоматически управляют параллелизмом, повторными попытками и масштабированием. Рекомендуется отправить полный набор данных в одном запросе, а не вручную разделить его на небольшие пакеты. Производительность может не масштабироваться линейно от очень небольших рабочих нагрузок до крупномасштабных рабочих нагрузок.

Используйте базовые модели, размещенные в Databricks: При использовании функции ai_query ИИ используйте базовые модели Databricks (с префиксом databricks-), а не заданную пропускную способность. Эти конечные точки, не требующие начальной настройки, полностью управляемые и лучше всего подходят для пакетной обработки.

В статье "Развертывание пакетных конвейеров вывода" приведены примеры и подробности.

Мониторинг хода выполнения функций ИИ

Чтобы понять, сколько выводов завершилось или завершилось сбоем, и устранить неполадки с производительностью, можно отслеживать ход выполнения функций ИИ с помощью функции профиля запроса.

В Databricks Runtime 16.1 ML и более поздних версиях из окна запроса редактора SQL в рабочей области:

  1. Выберите элемент Выполняется--- в нижней части окна Исходные результаты. Откроется окно производительности справа.
  2. Щелкните "Просмотреть профиль запроса", чтобы просмотреть сведения о производительности.
  3. Щелкните ИИ-запрос , чтобы просмотреть метрики для этого конкретного запроса, включая количество завершенных и неудачных выводов и общее время выполнения запроса.

Просмотр затрат на рабочие нагрузки функций ИИ

Затраты на функцию ИИ записываются как часть MODEL_SERVING продукта в соответствии с типом BATCH_INFERENCE предложения. См. пример запроса "Просмотр затрат для рабочих нагрузок пакетного вывода прогнозов".

Замечание

Для ai_parse_document, ai_extractи ai_classify затраты записываются как часть AI_FUNCTIONS продукта. Пример запроса см. в разделе "Просмотр затрат на ai_parse_document запуски ".

Просмотр затрат на рабочие нагрузки пакетного инференса

В следующих примерах показано, как фильтровать рабочие нагрузки пакетного вывода на основе заданий, вычислений, хранилищ SQL и декларативных конвейеров Spark Lakeflow.

См. статью "Мониторинг затрат на обслуживание модели " для общих примеров того, как просматривать затраты на рабочие нагрузки пакетного вывода, использующие функции ИИ.

Jobs

В следующем запросе показано, какие задания используются для пакетного вывода с помощью system.workflow.jobs таблицы систем. См. Мониторинг затрат и производительности заданий с помощью системных таблиц.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Ниже показано, какие кластеры используются для пакетного вывода с помощью system.compute.clusters таблицы систем.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Декларативные конвейеры Lakeflow Spark

Ниже показано, какие декларативные конвейеры Lakeflow Spark используются для пакетного прогнозирования с помощью system.lakeflow.pipelines таблицы систем.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Хранилище SQL

Ниже показано, какие хранилища SQL используются для пакетного вывода с помощью system.compute.warehouses таблицы систем.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Просмотр затрат на запуски ai_parse_document

В следующем примере показано, как запрашивать таблицы системы выставления счетов для просмотра затрат на выполнение ai_parse_document.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";