Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в общедоступной предварительной версии и соответствует ТРЕБОВАНИЯМ HIPAA.
На этой странице рассматривается новая версия извлечения информации. Сведения о предыдущей версии см. в разделе "Использование извлечения информации" (устаревшая версия)
Извлечение информации преобразует неструктурированные документы и текст в ключ, структурированные аналитические сведения с помощью определенной схемы. Это позволяет напрямую использовать сведения, внедренные в неструктурированный текст, PDF-файлы, изображения или таблицы для анализа, создания отчетов или нижестоящих агентов и приложений.
Примеры извлечения информации:
- Извлечение юридических сторон и условий из контрактов.
- Извлечение позиций и платёжных условий из счетов.
- Извлечение ключевых сведений из медицинских записей и заметок.
Извлечение информации основано на функции ai_extractИИ. Извлечение информации содержит визуальный пользовательский интерфейс для настройки и оптимизации функции с определенной схемой для извлечения.
Извлечение сведений использует хранилище по умолчанию для хранения временных преобразований данных, контрольных точек модели и внутренних метаданных, обеспечивающих работу каждого агента. При удалении агента все данные, связанные с агентом, удаляются из хранилища по умолчанию.
Требования
- Рабочая область, которая включает в себя следующее:
- ИИ извлекает общедоступную предварительную версию. См. Управление предварительными версиями Azure Databricks.
- Бессерверные вычисления включены. См. требования к бессерверным вычислениям.
- Каталог Unity включен. См. Включение рабочей области для каталога Unity.
- Доступ к бессерверной политике использования с ненулевой бюджетом.
- Эта функция доступна только в некоторых регионах, см. сведения о доступности функций ИИ.
- Возможность использовать функцию
ai_extractSQL. - Неструктурированные данные, из которых требуется извлечь информацию. Данные должны находиться в томе каталога Unity или таблице.
- Чтобы создать агент, вам потребуется по крайней мере 1 файл в разделе каталога Unity или 1 строка в вашей таблице.
Создание агента извлечения сведений
Перейдите к Агенты в левой панели навигации вашего рабочего пространства. Щелкните Создать агента>Извлечение сведений.
Шаг 1. Выберите данные, из которых извлечь информацию.
Выберите файлы или данные, из которого требуется извлечь информацию. Вы можете загрузить файлы, выбрать том Unity Catalog с поддерживаемыми типами файлов или таблицу, содержащую текстовые данные.
Нажмите кнопку "Создать агент".
Шаг 2. Настройка и уточнение схемы извлечения
После того как процесс извлечения информации завершит обработку ваших данных, настройте и уточните, какие именно данные необходимо извлечь из документов.
В разделе "Конфигурация" определите схему извлечения. Это можно сделать несколькими способами:
- Введите естественный язык, описывающий сведения, которые требуется извлечь, и нажмите кнопку "Создать схему". Извлечение информации интеллектуально создает схему JSON с именами полей и определениями для вас. Измените эти описания по мере необходимости.
- В качестве альтернативы нажмите «Или, задать вручную», чтобы самостоятельно определить вашу схему:
- Нажмите поле «Добавить».
- Введите имя поля, тип и описание.
- Нажмите кнопку "Подтвердить".
- Повторите для каждого поля, которое требуется извлечь.
- Нажмите кнопку "Сохранить и запустить извлечение".
- Вы также можете щелкнуть JSON , чтобы изменить схему JSON напрямую. Нажмите кнопку "Применить изменения" при завершении.
При каждом обновлении схемы и нажатии кнопки "Сохранить и запустить извлечение", извлечение информации обновляет агент извлечения, выполняется извлечение и отображаются результаты для каждого ввода.
Слева просмотрите проанализированный документ и извлечение агента. Повторите результаты извлечения двумя способами. Во-первых, предоставляя обратную связь естественного языка по одному или нескольким входным данным. Это будет интеллектуально настраивать описания после нажатия кнопки "Сохранить и запустить извлечение". Во-вторых, вручную изменив описания схемы. Это войдет в силу после нажатия кнопки "Сохранить" и запустить извлечение.
Используйте версии для сравнения или возврата к предыдущей конфигурации. Щелкните "Версии", а затем нажмите кнопку "Сравнить ", чтобы сравнить определение схемы предыдущей версии с текущей версией. Нажмите кнопку "Восстановить" , чтобы восстановить предыдущую версию.
Шаг 3. Используйте вашего агента извлечения
Как только вы будете довольны производительностью агента, используйте его для извлечения информации.
Кликните "Использовать агент" в правом верхнем углу. Вы можете выбрать один из следующих вариантов:
-
Запустите агент, чтобы извлекать информацию из всех ваших данных в SQL. Откроется SQL-запрос, который использует
ai_extractдля извлечения информации из вашего тома или таблицы в соответствии с определенной схемой. Дополнительные сведения об использованииai_extractв запросах SQL см. в разделе «Функцияai_extract». - Создайте декларативный поток Spark для развертывания конвейера ETL, который выполняется с запланированными интервалами, чтобы активировать ваш агент с новыми данными. При этом создаются декларативные конвейеры Lakeflow Spark, которые обновляют таблицу потоковой передачи с извлеченными данными. Расписание конвейера можно настроить для запуска при поступлении новых данных. Чтобы получить дополнительную информацию о декларативных конвейерах Lakeflow Spark, см. Lakeflow Spark Declarative Pipelines.
Ограничения
- См Ограничения
- Агенты извлечения информации имеют максимальную длину контекста в 128k токенов.
- Рабочие области, в которых включены повышенная безопасность и соответствие, не поддерживаются.
- Типы схем объединения не поддерживаются.