Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом кратком руководстве вы узнаете, как набор навыков в службе "Поиск ИИ Azure" добавляет оптическое распознавание символов (OCR), анализ изображений, обнаружение языка, слияние текста и распознавание сущностей для создания содержимого с возможностью поиска текста в индексе.
Мастер импорта данных можно запустить в портале Azure, чтобы применить навыки для создания и преобразования текстового содержимого во время индексирования. Входные данные — это необработанные данные, как правило, большие двоичные объекты в службе хранилища Azure. Выходные данные — это индекс, который можно найти, содержащий текст изображения, подписи и сущности, созданные ИИ. Затем вы можете запросить созданное содержимое на портале Azure с помощью обозревателя поиска.
Перед запуском мастера необходимо создать несколько ресурсов и загрузить примеры файлов.
Предварительные условия
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно .
Служба поиска на основе ИИ Azure. Создайте службу или найдите существующую службу в текущей подписке. Вы можете использовать бесплатную службу для этого краткого руководства.
Учетная запись хранения Azure. Используйте хранилище BLOB-объектов Azure на стандартном аккаунте с производительностью общего назначения (общего назначения v2). Чтобы избежать расходов на пропускную способность, используйте регион, в котором находится поиск Azure AI.
Примечание.
В этом кратком руководстве используются средства Foundry для обогащения ИИ. Поскольку рабочая нагрузка небольшая, инструменты Foundry используются за кулисами для бесплатной обработки данных до 20 транзакций. Поэтому вам не нужно создавать ресурс Microsoft Foundry.
Подготовка примера данных
В этом разделе описано, как создать контейнер службы хранилища Azure для хранения примеров данных, состоящих из различных типов файлов, включая изображения и файлы приложений, которые не доступны для полнотекстового поиска в собственных форматах.
Чтобы подготовить примеры данных для этого краткого руководства:
Перейдите к учетной записи хранения Azure на портале Azure.
В левой области выберитеконтейнеры> данных.
Создайте контейнер и отправьте образец данных в контейнер.
Запуск мастера
Чтобы запустить мастер, выполните следующие действия:
Перейдите в службу поиска в портал Azure.
На странице "Обзор" выберите "Импорт данных".
Выберите хранилище BLOB-объектов Azure для источника данных.
Выберите поиск ключевых слов.
Шаг 1. Создание источника данных
Для поиска ИИ Azure требуется подключение к источнику данных для приема содержимого и индексирования. В этом случае источник данных — это учетная запись хранения Azure.
Чтобы создать источник данных, выполните следующие действия.
На странице "Подключение к данным" выберите подписку Azure.
Выберите учетную запись хранения и выберите созданный контейнер.
Нажмите кнопку Далее.
Если вы получите Error detecting index schema from data source, индексатор, управляющий мастером, не может подключиться к вашему источнику данных. Источник данных, скорее всего, имеет защиту безопасности. Попробуйте выполнить следующие шаги, а затем повторно запустите мастер.
| Функции безопасности | Решение |
|---|---|
| Ресурсу требуются роли Azure или его ключи доступа отключены. | Подключитесь к доверенной службе или подключитесь с помощью управляемого удостоверения. |
| Ресурс находится за брандмауэром IP-адресов. | Создайте правило входящего трафика для поиска Azure AI и портала Azure. |
| Для ресурса требуется подключение к частной конечной точке. | Подключитесь через частную конечную точку. |
Шаг 2. Добавление когнитивных навыков
Следующим шагом является настройка обогащения ИИ для вызова OCR, анализа изображений и распознавания сущностей.
OCR и анализ изображений доступны для BLOB-объектов в Хранилище BLOB-объектов Azure и Azure Data Lake Storage (ADLS) 2-го поколения, а также для содержимого изображений в Microsoft OneLake. Изображения могут быть автономными файлами или внедренными изображениями в PDF-файл или другие файлы.
Чтобы добавить навыки, выполните следующие действия.
Выберите "Извлечь сущности" и щелкните значок шестеренки.
Установите и сохраните следующие флажки:
Лица
Расположения
Организации
Выберите "Извлечь текст из изображений", а затем щелкните значок шестеренки.
Установите и сохраните следующие флажки:
Создание тегов
Классифицировать содержимое
Оставьте флажок Use a free Foundry Tools resource (Ограниченные обогащения) выбранным.
Пример данных состоит из 14 файлов, поэтому бесплатного предоставления 20 транзакций на инструменты Foundry достаточно.
Нажмите кнопку Далее.
Шаг 3. Настройка индекса
Индекс содержит содержимое, доступное для поиска. Мастер обычно может создать схему путем выборки источника данных. На этом шаге вы просматриваете созданную схему и потенциально пересматриваете все параметры.
В этом кратком вводном руководстве мастер задает разумные значения по умолчанию:
Поля по умолчанию основаны на свойствах метаданных существующих блобов и новых полях для выходных данных обогащения, таких как
persons,locations, иorganizations. Типы данных выводятся по метаданным и на основе выборки данных.Ключ
metadata_storage_pathдокумента по умолчанию выбран, так как поле содержит уникальные значения.Атрибуты полей по умолчанию основаны на выбранных навыках. Например, поля, созданные навыком распознавания сущностей (
persons,locations, иorganizations) являются извлекаемыми, фильтруемыми, фасетируемыми и доступными для поиска. Чтобы просмотреть и изменить эти атрибуты, выберите поле и нажмите кнопку "Настроить".Извлекаемые поля можно вернуть в результатах, а поля с возможностью поиска поддерживают полнотекстовый поиск. Используйте фильтруемый параметр , если вы хотите использовать поля в выражении фильтра.
Маркировка поля как извлекаемого не означает, что поле должно отображаться в результатах поиска. Вы можете контролировать, какие поля возвращаются с помощью
selectпараметра запроса.
После просмотра схемы индекса нажмите кнопку "Далее".
Шаг 4. Пропуск дополнительных параметров
Мастер предлагает дополнительные параметры для семантического ранжирования и планирования индексов, которые выходят за рамки этого краткого руководства. Пропустите этот шаг, нажав кнопку "Далее".
Шаг 5. Просмотр и создание объектов
Последним шагом является проверка конфигурации и создание индекса, индексатора и источника данных в службе поиска. Индексатор автоматизирует процесс извлечения содержимого из источника данных, загрузки индекса и выполнения набора функций.
Чтобы просмотреть и создать объекты, выполните следующие действия.
Примите префикс имени объектов по умолчанию.
Просмотрите конфигурации объектов.
Обогащение ИИ, семантическая сортировка и планирование индексатора отключены или установлены по умолчанию, так как вы пропустили шаги мастера настройки.
Выберите "Создать ", чтобы одновременно создать объекты и запустить индексатор.
Состояние монитора
Вы можете отслеживать создание индексатора на портале Azure. Индексирование на основе навыков занимает больше времени, чем индексирование на основе текста, особенно анализ OCR и изображений.
Чтобы следить за ходом индексатора.
В левой области выберите индексаторы.
Выберите индексатор из списка.
Выберите "Успешно" (или " Не удалось") для просмотра сведений о выполнении.
В этом кратком руководстве есть несколько предупреждений, в том числе Could not execute skill because one or more skill input was invalid. это предупреждение сообщает, что PNG-файл в источнике данных не предоставляет текстовые данные для распознавания сущностей. Это происходит из-за того, что вышестоящий навык OCR не распознал текст в изображении и не мог предоставить текстовые входные данные для нисходящего навыка распознавания сущностей.
Предупреждения распространены в выполнении набора навыков. Когда вы разбираетесь в том, как навыки итерируют ваши данные, вы можете начать замечать шаблоны и понимать, какие предупреждения можно безопасно игнорировать.
Запросы в обозревателе поиска
Чтобы запросить индекс, выполните следующий запрос:
В левой области выберите индексы.
Выберите индекс из списка. Если в индексе нет документов или хранилища, дождитесь обновления портала Azure.
На вкладке обозревателя поиска введите строку поиска, например
satya nadella.
Панель поиска принимает ключевые слова, заключенные в кавычки фразы и операторы. Например: "Satya Nadella" +"Bill Gates" +"Steve Ballmer"
Результаты возвращаются в виде подробного JSON, который может быть трудно прочитать, особенно в больших документах. Ниже приведены советы по поиску в этом средстве:
- Переключитесь на представление JSON, чтобы указать параметры, которые формируют результаты.
- Добавьте
select, чтобы ограничить поля в результатах. - Добавьте
count, чтобы отобразить количество совпадений. - Используйте Ctrl-F для поиска в формате JSON для определенных свойств или терминов.
Ниже приведен пример JSON, который можно вставить в представление:
{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "merged_content, persons"
}
Совет
Строки запроса чувствительны к регистру, поэтому если вы получаете сообщение «неизвестное поле», проверьте поля или определение индекса (JSON), чтобы убедиться в правильности имени и регистра.
Общие выводы
Вы создали свой первый набор навыков и узнали основные шаги индексирования на основе навыков.
Некоторые ключевые понятия, которые мы надеемся, что вы усвоили, включают зависимости. Набор навыков привязан к индексатору, а индексаторы зависят от Azure и источника. Хотя в этом кратком руководстве используется Azure Blob-хранилище, доступны другие источники данных Azure. Дополнительные сведения см. в разделе "Индексаторы в службе Поиск на базе ИИ Azure".
Еще одна важная концепция заключается в том, что навыки применяются к форматам контента, а при использовании разнородного контента некоторые входные данные пропускаются. Кроме того, крупные файлы и (или) значения полей могут привести к превышению ограничений индексатора на используемом уровне службы. В таких случаях появление предупреждений считается нормальным.
Выходные данные направляются в индекс поиска, и между парами "имя-значение", созданными во время индексирования, и отдельными полями в индексе создается сопоставление. Внутри мастера настраивается дерево обогащения и определяется набор навыков, устанавливающий порядок операций и общий поток. Эти шаги скрыты в мастере, но когда вы начинаете писать код, они становятся важными.
Наконец, вы узнали, что можно проверить содержимое, запрашивая индекс. В конечном счете поиск Azure AI предоставляет поисковый индекс, который можно запрашивать с помощью простого или полностью расширенного синтаксиса запросов. Индекс, который содержит обогащенные поля, не отличается от других. Вы можете включить стандартные или пользовательские анализаторы, профили оценки, синонимы, фасетная навигация, геопоиск и другие функции поиска ИИ Azure.
Очистка ресурсов
При работе с собственной подпиской рекомендуется завершить проект, удалив ресурсы, которые больше не нужны. Ресурсы, оставленные работающими, могут стоить вам денег.
На портале Azure выберите все ресурсы или группы ресурсов на левой панели, чтобы найти ресурсы и управлять ими. Вы можете удалить ресурсы по отдельности или удалить группу ресурсов, чтобы удалить все ресурсы одновременно.
Если вы используете бесплатную службу поиска, помните, что вы ограничены тремя индексами, индексаторами и источниками данных. Вы можете удалить отдельные элементы на портале, чтобы остаться в пределах ограничения.
Следующий шаг
Для создания наборов навыков можно использовать портал Azure, REST API или пакет SDK Azure. Попробуйте интерфейсы REST API с помощью клиента REST и дополнительных примеров данных: