Извлечение сведений

Это важно

Эта функция доступна в общедоступной предварительной версии и соответствует ТРЕБОВАНИЯМ HIPAA.

На этой странице рассматривается новая версия извлечения информации. Сведения о предыдущей версии см. в разделе "Использование извлечения информации" (устаревшая версия)

Извлечение информации преобразует неструктурированные документы и текст в ключ, структурированные аналитические сведения с помощью определенной схемы. Это позволяет напрямую использовать сведения, внедренные в неструктурированный текст, PDF-файлы, изображения или таблицы для анализа, создания отчетов или нижестоящих агентов и приложений.

Примеры извлечения информации:

Извлечение юридических сторон и условий из контрактов.
Извлечение позиций и платёжных условий из счетов.
Извлечение ключевых сведений из медицинских записей и заметок.

Извлечение информации основано на функции ai_extractИИ. Извлечение информации содержит визуальный пользовательский интерфейс для настройки и оптимизации функции с определенной схемой для извлечения.

Извлечение сведений использует хранилище по умолчанию для хранения временных преобразований данных, контрольных точек модели и внутренних метаданных, обеспечивающих работу каждого агента. При удалении агента все данные, связанные с агентом, удаляются из хранилища по умолчанию.

Требования

Рабочая область, которая включает в себя следующее:
- ИИ извлекает общедоступную предварительную версию. См. Управление предварительными версиями Azure Databricks.
- Бессерверные вычисления включены. См. требования к бессерверным вычислениям.
- Каталог Unity включен. См. Включение рабочей области для каталога Unity.
- Доступ к бессерверной политике использования с ненулевой бюджетом.
Эта функция доступна только в некоторых регионах, см. сведения о доступности функций ИИ.
Возможность использовать функциюai_extract SQL.
Неструктурированные данные, из которых требуется извлечь информацию. Данные должны находиться в томе каталога Unity или таблице.
- Чтобы создать агент, вам потребуется по крайней мере 1 файл в разделе каталога Unity или 1 строка в вашей таблице.

Создание агента извлечения сведений

Перейдите к значку Агенты в левой панели навигации вашего рабочего пространства. Щелкните Создать агента>Извлечение сведений.

Шаг 1. Выберите данные, из которых извлечь информацию.

Выберите файлы или данные, из которого требуется извлечь информацию. Вы можете загрузить файлы, выбрать том Unity Catalog с поддерживаемыми типами файлов или таблицу, содержащую текстовые данные.
Нажмите кнопку "Создать агент".

Шаг 2. Настройка и уточнение схемы извлечения

После того как процесс извлечения информации завершит обработку ваших данных, настройте и уточните, какие именно данные необходимо извлечь из документов.

В разделе "Конфигурация" определите схему извлечения. Это можно сделать несколькими способами:
- Введите естественный язык, описывающий сведения, которые требуется извлечь, и нажмите кнопку "Создать схему". Извлечение информации интеллектуально создает схему JSON с именами полей и определениями для вас. Измените эти описания по мере необходимости.
- В качестве альтернативы нажмите «Или, задать вручную», чтобы самостоятельно определить вашу схему:
  1. Нажмите поле «Добавить».
  2. Введите имя поля, тип и описание.
  3. Нажмите кнопку "Подтвердить".
  4. Повторите для каждого поля, которое требуется извлечь.
  5. Нажмите кнопку "Сохранить и запустить извлечение".
- Вы также можете щелкнуть JSON , чтобы изменить схему JSON напрямую. Нажмите кнопку "Применить изменения" при завершении.
При каждом обновлении схемы и нажатии кнопки "Сохранить и запустить извлечение", извлечение информации обновляет агент извлечения, выполняется извлечение и отображаются результаты для каждого ввода.
Слева просмотрите проанализированный документ и извлечение агента. Повторите результаты извлечения двумя способами. Во-первых, предоставляя обратную связь естественного языка по одному или нескольким входным данным. Это будет интеллектуально настраивать описания после нажатия кнопки "Сохранить и запустить извлечение". Во-вторых, вручную изменив описания схемы. Это войдет в силу после нажатия кнопки "Сохранить" и запустить извлечение.
Используйте версии для сравнения или возврата к предыдущей конфигурации. Щелкните "Версии", а затем нажмите кнопку "Сравнить ", чтобы сравнить определение схемы предыдущей версии с текущей версией. Нажмите кнопку "Восстановить" , чтобы восстановить предыдущую версию.

Шаг 3. Используйте вашего агента извлечения

Как только вы будете довольны производительностью агента, используйте его для извлечения информации.

Кликните "Использовать агент" в правом верхнем углу. Вы можете выбрать один из следующих вариантов:

Запустите агент, чтобы извлекать информацию из всех ваших данных в SQL. Откроется SQL-запрос, который использует ai_extract для извлечения информации из вашего тома или таблицы в соответствии с определенной схемой. Дополнительные сведения об использовании ai_extract в запросах SQL см. в разделе «Функция ai_extract».
Создайте декларативный поток Spark для развертывания конвейера ETL, который выполняется с запланированными интервалами, чтобы активировать ваш агент с новыми данными. При этом создаются декларативные конвейеры Lakeflow Spark, которые обновляют таблицу потоковой передачи с извлеченными данными. Расписание конвейера можно настроить для запуска при поступлении новых данных. Чтобы получить дополнительную информацию о декларативных конвейерах Lakeflow Spark, см. Lakeflow Spark Declarative Pipelines.

Ограничения

См Ограничения

Агенты извлечения информации имеют максимальную длину контекста в 128k токенов.
Рабочие области, в которых включены повышенная безопасность и соответствие, не поддерживаются.
Типы схем объединения не поддерживаются.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-19