Извлечение сведений

Это важно

Эта функция доступна в общедоступной предварительной версии и соответствует ТРЕБОВАНИЯМ HIPAA.

На этой странице рассматривается новая версия извлечения информации. Сведения о предыдущей версии см. в разделе "Использование извлечения информации" (устаревшая версия)

Извлечение информации преобразует неструктурированные документы и текст в ключ, структурированные аналитические сведения с помощью определенной схемы. Это позволяет напрямую использовать сведения, внедренные в неструктурированный текст, PDF-файлы, изображения или таблицы для анализа, создания отчетов или нижестоящих агентов и приложений.

Примеры извлечения информации:

  • Извлечение юридических сторон и условий из контрактов.
  • Извлечение позиций и платёжных условий из счетов.
  • Извлечение ключевых сведений из медицинских записей и заметок.

Извлечение информации основано на функции ai_extractИИ. Извлечение информации содержит визуальный пользовательский интерфейс для настройки и оптимизации функции с определенной схемой для извлечения.

Извлечение сведений использует хранилище по умолчанию для хранения временных преобразований данных, контрольных точек модели и внутренних метаданных, обеспечивающих работу каждого агента. При удалении агента все данные, связанные с агентом, удаляются из хранилища по умолчанию.

Требования

Создание агента извлечения сведений

Перейдите к значку Агенты в левой панели навигации вашего рабочего пространства. Щелкните Создать агента>Извлечение сведений.

Шаг 1. Выберите данные, из которых извлечь информацию.

  1. Выберите файлы или данные, из которого требуется извлечь информацию. Вы можете загрузить файлы, выбрать том Unity Catalog с поддерживаемыми типами файлов или таблицу, содержащую текстовые данные.

  2. Нажмите кнопку "Создать агент".

Шаг 2. Настройка и уточнение схемы извлечения

После того как процесс извлечения информации завершит обработку ваших данных, настройте и уточните, какие именно данные необходимо извлечь из документов.

  1. В разделе "Конфигурация" определите схему извлечения. Это можно сделать несколькими способами:

    • Введите естественный язык, описывающий сведения, которые требуется извлечь, и нажмите кнопку "Создать схему". Извлечение информации интеллектуально создает схему JSON с именами полей и определениями для вас. Измените эти описания по мере необходимости.
    • В качестве альтернативы нажмите «Или, задать вручную», чтобы самостоятельно определить вашу схему:
      1. Нажмите поле «Добавить».
      2. Введите имя поля, тип и описание.
      3. Нажмите кнопку "Подтвердить".
      4. Повторите для каждого поля, которое требуется извлечь.
      5. Нажмите кнопку "Сохранить и запустить извлечение".
    • Вы также можете щелкнуть JSON , чтобы изменить схему JSON напрямую. Нажмите кнопку "Применить изменения" при завершении.

    При каждом обновлении схемы и нажатии кнопки "Сохранить и запустить извлечение", извлечение информации обновляет агент извлечения, выполняется извлечение и отображаются результаты для каждого ввода.

  2. Слева просмотрите проанализированный документ и извлечение агента. Повторите результаты извлечения двумя способами. Во-первых, предоставляя обратную связь естественного языка по одному или нескольким входным данным. Это будет интеллектуально настраивать описания после нажатия кнопки "Сохранить и запустить извлечение". Во-вторых, вручную изменив описания схемы. Это войдет в силу после нажатия кнопки "Сохранить" и запустить извлечение.

  3. Используйте версии для сравнения или возврата к предыдущей конфигурации. Щелкните "Версии", а затем нажмите кнопку "Сравнить ", чтобы сравнить определение схемы предыдущей версии с текущей версией. Нажмите кнопку "Восстановить" , чтобы восстановить предыдущую версию.

Шаг 3. Используйте вашего агента извлечения

Как только вы будете довольны производительностью агента, используйте его для извлечения информации.

Кликните "Использовать агент" в правом верхнем углу. Вы можете выбрать один из следующих вариантов:

  • Запустите агент, чтобы извлекать информацию из всех ваших данных в SQL. Откроется SQL-запрос, который использует ai_extract для извлечения информации из вашего тома или таблицы в соответствии с определенной схемой. Дополнительные сведения об использовании ai_extract в запросах SQL см. в разделе «Функция ai_extract».
  • Создайте декларативный поток Spark для развертывания конвейера ETL, который выполняется с запланированными интервалами, чтобы активировать ваш агент с новыми данными. При этом создаются декларативные конвейеры Lakeflow Spark, которые обновляют таблицу потоковой передачи с извлеченными данными. Расписание конвейера можно настроить для запуска при поступлении новых данных. Чтобы получить дополнительную информацию о декларативных конвейерах Lakeflow Spark, см. Lakeflow Spark Declarative Pipelines.

Ограничения