Поделиться через


Мастер импорта данных на портале Azure

Мастер импорта данных на портале Azure предоставляет путь без кода к запрашиваемому индексу поиска. Он подключается к поддерживаемму источнику данных, настраивает необязательное обогащение и векторизацию ИИ, выводит схему индекса и загружает содержимое в индекс. Мастером можно пользоваться для поиска ключевых слов, RAG и многомодального RAG.

Мастер поддерживает следующее:

  • Создание конвейера индексатора, включая индекс, индексатор, источник данных и набор навыков.
  • Встроенные индексаторы и коннекторы Azure Logic Apps.
  • Обогащение искусственного интеллекта на основе навыков.
  • Разбиение данных и встроенная векторизация, включая многомодальные встраивания.
  • Конфигурация семантического ранжирования.
  • Создание хранилища знаний.

Что поддерживает мастер

В этом разделе описываются возможности, доступные в мастере.

Встроенные примеры данных

Встроенные примерные данные для индекса hotels-sample больше недоступны. Однако вы можете создать идентичный индекс, следуя краткому руководству: полнотекстовый поиск в портале Azure.

Источники данных

Мастер подключается к следующим источникам данных через встроенные индексаторы или соединители Logic Apps (предварительная версия).

Источник данных Поддерживается Подключение
ADLS 2-го поколения Встроенный индексатор
Хранилище BLOB-объектов Azure Встроенный индексатор
Azure хранилище файлов Соединитель Logic Apps
Azure очереди Соединитель Logic Apps
Хранилище таблиц Azure Встроенный индексатор
Azure SQL Database и Managed Instance Встроенный индексатор
Cosmos DB для NoSQL Встроенный индексатор
Cosmos DB для MongoDB Встроенный индексатор
Cosmos DB для Apache Gremlin Встроенный индексатор
MySQL Неприменимо
OneDrive Соединитель Logic Apps
OneDrive для бизнеса Соединитель Logic Apps
OneLake Встроенный индексатор
Служебная шина Соединитель Logic Apps
SharePoint Соединитель Logic Apps
Использование SQL Server на виртуальных машинах Встроенный индексатор

Подсказка

Вместо использования соединителя Logic Apps для хранилища файлов Azure или SharePoint можно использовать REST API службы поиска для программного индексирования данных из этих источников. Дополнительные сведения см. в разделах "Индексирование данных из файлов Azure" и "Индексирование данных из библиотек документов SharePoint".

Навыки

Следующие навыки могут отображаться в наборе навыков, созданном мастером. После создания набора навыков можно изменить определение JSON, чтобы добавить или удалить навыки.

Навык Поддерживается Описание
AML Доступно только для RAG и мультимодальной версии RAG.
Многомодальное внедрение в Azure Vision Доступно только для RAG и мультимодального RAG.
Эмбеддинг Azure OpenAI Доступно только для RAG и мультимодальной RAG.
Макет документа Доступно только для RAG и мультимодального RAG.
Распознавание сущностей Доступно только для поиска ключевых слов.
Анализ изображений Доступно для объектов BLOB службы хранилища Azure и файлов Microsoft OneLake при условии использования режима синтаксического анализа по умолчанию. Используйте тип содержимого изображения, например PNG или JPG, или внедренное изображение в файле приложения, например PDF.
Извлечение ключевых фраз. Доступно только для поиска ключевых слов.
Распознавание языка. Доступно только для поиска ключевых слов. Автоматически добавляется, когда набор навыков включает распознавание сущностей, извлечение ключевых фраз или разделение текста. Не настраивается пользователем.
Перевод текста Неприменимо.
Распознавание текста Доступно для блобов Azure Storage и файлов Microsoft OneLake, предполагая режим синтаксического анализа по умолчанию. Используйте тип содержимого изображения, например PNG или JPG, или внедренное изображение в файле приложения, например PDF.
Обнаружение PII Неприменимо.
Сентимент Неприменимо.
Формирователь Неприменимо.
Разделение текста Добавлено для фрагментирования данных при выборе модели внедрения. Для навыков без привязки он добавляется при настройке детализации исходного поля на страницы или предложения.
Слияние текста Добавлено для фрагментирования данных при выборе модели внедрения. Для навыков без привязки он добавляется при настройке детализации исходного поля на страницы или предложения.

Семантическое ранжирование

Семантическое ранжирование доступно для всех сценариев мастера: поиск по ключевым словам, RAG и мультимодальный RAG. Если этот параметр включен, мастер добавляет семантическую конфигурацию в индекс.

Хранилища знаний

Создание хранилища знаний доступно только для сценария многомодальной RAG. Мастер извлекает изображения из документов и сохраняет их как большие двоичные объекты в контейнере службы хранилища Azure, который вы указываете.

Что создает мастер

После завершения работы мастера в вашей службе поиска создаются несколько объектов. Точные объекты зависят от параметров, которые вы выбрали. Например, при применении обогащения на основе навыков создается набор навыков.

Объект Описание
Источник данных Хранит сведения о подключении для поддерживаемого источника данных Microsoft или Azure.
Указатель Структура физических данных для полнотекстового поиска, векторного поиска и других запросов. Может включать конфигурацию семантики, если включить семантическую ранжировку.
Индексатор Выполняет импорт данных, извлекая их из источника данных и помещая в целевой индекс по необязательному расписанию. Также может ссылаться на набор навыков.
Набор навыков (Необязательно) Набор инструкций для обогащения ИИ, блокирования данных и интегрированной векторизации во время индексирования.
Хранилище знаний (Необязательно) Дополнительное хранилище в Azure Storage для результатов набора навыков, таких как извлеченные образы.

Чтобы просмотреть эти объекты после запуска мастера, выполните следующие действия.

  1. Войдите в Azure portal и выберите search service.
  2. В левой области выберите "Управление поиском ", чтобы найти страницы для индексов, индексаторов, источников данных и наборов навыков.

Преимущества и ограничения

В этом разделе рассматриваются преимущества и минусы работы мастера. Используйте эти сведения, чтобы решить, когда использовать мастер и когда следует рассмотреть альтернативные варианты, например программные подходы с помощью REST API или пакетов SDK Azure.

Льготы

Прежде чем писать любой код, вы можете использовать мастер для создания прототипов и проверки концепции. Мастер подключается к внешним источникам данных, выбирает данные для создания начального индекса, а затем импортирует и при необходимости векторизует данные в виде документов JSON в индекс в службе поиска Azure AI.

Если вы оцениваете наборы навыков, мастер обрабатывает сопоставления полей выходных данных и добавляет вспомогательные функции для создания доступных объектов. Разделение текста добавляется при указании режима синтаксического анализа. Слияние текста добавляется при выборе анализа изображений, чтобы мастер смог объединить текстовые описания с содержимым изображения. Все эти задачи требуют времени на освоение. Если вы не знакомы с обогащением, поручив выполнение этих шагов другим, вы сможете оценить ценность навыка без существенных затрат времени и усилий.

Выборка — это процесс, с помощью которого выводится схема индекса, которая имеет некоторые ограничения. При создании источника данных мастер выбирает случайный образец документов, чтобы определить, какие столбцы являются частью источника данных. Не все файлы считываются, так как это может занять несколько часов для больших источников данных. При выборе документов исходные метаданные (например, имя поля или тип) используются для создания коллекции полей в схеме индекса. В зависимости от сложности исходных данных может потребоваться изменить начальную схему для точности или расширить ее для полноты. Вы можете внести свои изменения непосредственно на странице определения индекса.

В целом преимущества мастера понятны: если выполнены требования, можно создать запрашиваемый индекс в течение нескольких минут. Мастер обрабатывает некоторые сложности индексирования, такие как сериализация данных в виде документов JSON.

Ограничения

  • Мастер не поддерживает итерацию или повторное использование. Каждый проход через мастер создает индекс, набор навыков и конфигурацию индексатора. После завершения работы мастера можно изменить созданные объекты с помощью других средств портала, REST API-интерфейсов или Azure SDK.

  • Исходное содержимое должно находиться в поддерживаемом источнике данных.

  • Выборка, используемая для вывода предварительной схемы индекса, происходит по подмножества исходных данных. Для источников данных большого объема мастер может пропустить поля. Если выборка недостаточна, может потребоваться вручную добавить поля в индекс или исправить выводимые типы данных.

  • Обогащение ИИ и встроенная векторизация, предоставляемые в мастере, ограничены подмножеством встроенных навыков.

Защита подключений

Защита сети влияет на подключение портала к конечной точке, а также подключения конечных точек к внешним ресурсам во время операций портала.

Подключения портала к службе поиска

Подключения портала к защищенной сети конечной точке выполняются с помощью IP-адреса клиента.

Подсказка

Портал обнаруживает IP-адрес клиента и предлагает добавить его в брандмауэр поисковой службы.

Подключения портала к внешним ресурсам

Мастер подключается к внешним ресурсам для:

Все исходящие запросы на данные, защищенные сетью, и обработку ИИ из мастер-консоли осуществляются с использованием IP-адреса вашего клиента.

В этом разделе описываются требования к подключению для исходящих запросов.

Настройка доступа на портале к внешним ресурсам

  • Ресурсы, защищенные IP-адресом: добавьте IP-адрес клиента во внешний ресурс allowList. Если поддерживается, укажите Microsoft.Search/searchServices в качестве доверенной службы. Например, в Azure Storage можно перечислить Microsoft.Search/searchServices как надежную службу.

  • Частные подключения: мастер использует общие закрытые ссылки. Убедитесь, что ваш поисковый сервис соответствует требованиям уровня и региона. Убедитесь, что ваш внешний источник данных поддерживает совместное использование частных ссылок.

Если мастер не может подключиться, вы увидите "Access denied due to Virtual Network/Firewall rules". Рассмотрим сценарии или программные подходы в качестве альтернативы.

Рабочий процесс

Мастер следует рабочему процессу высокого уровня:

  1. Подключитесь к поддерживаемому источнику данных Azure.

  2. (Необязательно) Добавьте навыки для извлечения или создания содержимого и структуры.

  3. Создайте схему индекса, выводимую данными источника выборки.

  4. Запустите мастер для создания объектов, при необходимости векторизации данных, загрузки данных в индекс, задания расписания и настройки других параметров.

Рабочий процесс является односторонним конвейером. Мастер нельзя использовать для редактирования любых созданных объектов, но можно использовать другие средства портала, такие как конструктор индексов или редакторы JSON, для внесения разрешенных обновлений.

Запуск мастера

  1. Войдите в Azure portal и выберите search service.

  2. На странице "Обзор" выберите "Импорт данных".

    Снимок экрана: параметры мастера импорта.

    Мастер открывается в полностью развернутом виде в окне браузера, предоставляя больше пространства для работы.

  3. Выберите сценарий: поиск ключевых слов, RAG или Многомодальная RAG.

    В выбранном сценарии определяются доступные источники данных и навыки, а также схема индекса и конфигурация индексатора, созданные мастером.

  4. Выполните оставшиеся действия, чтобы создать индекс, индексатор и другие применимые объекты.

Настройка источника данных

Мастер подключается к внешнему поддерживаемому источнику данных с помощью внутренней логики, предоставленной индексаторами, которые оснащены для выборки источника, чтения метаданных, взлома документов для чтения содержимого и структуры, а также сериализации содержимого в формате JSON для последующего импорта в поиск ИИ Azure.

Не все источники данных предварительного просмотра гарантированно доступны в мастере. Так как каждый источник данных может привести к изменениям в будущем, предварительный источник данных добавляется только при полной поддержке всех функций мастера, таких как определение набора навыков и вывод схемы индекса.

Можно импортировать только из одной таблицы, представления базы данных или эквивалентной структуры данных. Однако структура может включать иерархические или вложенные подструктуры. Подробнее см. в статье Как моделировать сложные типы.

Настройка набора навыков

Конфигурация набора навыков возникает после определения источника данных, так как тип источника данных сообщает о доступности определенных встроенных навыков. Например, если вы индексируете файлы из Azure Blob Storage, выбранный вами режим обработки синтаксиса этих файлов определяет, доступен ли анализ настроений.

Мастер добавляет не только навыки, которые вы выбираете, но и навыки, необходимые для успешного результата.

Наборы навыков являются необязательными, и в нижней части страницы есть кнопка, чтобы перейти дальше, если вы не хотите обогащения с помощью ИИ.

Настройка схемы индекса

Мастер выбирает образцы из источника данных для определения полей и типов полей. В зависимости от источника данных также могут предлагаться поля для индексирования метаданных.

Поскольку выборка является неточным определением, просмотрите индекс, чтобы учесть следующие соображения.

  1. Является ли список полей точным? Если источник данных содержит поля, которые не были выбраны в выборке, можно вручную добавить пропущенные поля. Вы также можете удалить поля, которые не добавляют значение в интерфейс поиска или не будут использоваться в выражении фильтра или профиле оценки.

  2. Подходит ли тип данных для входящих данных? Azure AI Search поддерживает типы данных entity data model (EDM), . Для данных Azure SQL существует диаграмма мапинг, которая содержит эквивалентные значения. Дополнительные сведения см. в разделе "Сопоставления полей" и "Преобразования".

  3. У вас есть одно поле, которое может использоваться в качестве ключа? Это поле должно быть Edm.String, которое однозначно идентифицирует документ. Для реляционных данных оно может быть сопоставлено с первичным ключом. Для блобов это может быть metadata-storage-path. Если значения полей включают пробелы или дефисы, необходимо задать параметр "Ключ кодирования Base-64 " на шаге "Создание индексатора " в разделе "Дополнительные параметры", чтобы отключить проверку для этих символов.

  4. Задайте атрибуты, чтобы определить, как это поле используется в индексе.

    Уделите время этому шагу, так как атрибуты определяют физическое выражение полей в индексе. Если вы хотите изменить атрибуты позже, даже программно, вам почти всегда нужно удалить и перестроить индекс. Основные атрибуты, такие как Searchable и Retrievable, оказывают незначительное влияние на хранилище. Включение фильтров и использование предлагаемых подсказок увеличивает требования к хранению.

    • Доступный для поиска: позволяет использовать полнотекстовый поиск. Каждое поле, используемое в запросах свободной формы или в выражениях запросов, должно иметь этот атрибут. Инвертированные индексы создаются для каждого поля с меткой Доступный для поиска.

    • Доступный для получения: возвращает поле в результатах поиска. Каждое поле с содержимым для результатов поиска должно иметь этот атрибут. Установка этого поля не влияет на размер индекса.

    • Фильтруемый: позволяет ссылаться на поле в выражениях фильтра. Все поля, используемые в выражении $filter, должны иметь этот атрибут. Выражения фильтра используются для точных совпадений. Так как текстовые строки остаются нетронутыми, для размещения дословного содержания требуется больше хранилища.

    • Facetable позволяет использовать поле для фасетной навигации. Только поля, также помеченные как Фильтруемые, могут быть помечены как Аспектируемые.

    • Сортируемый: позволяет использовать поле при сортировке. Все поля, используемые в выражении $Orderby, должны иметь этот атрибут.

  5. Требуется ли лексический анализ? Для полей Edm.String, которые являются поисковыми, можно установить анализатор, если необходимо улучшенное индексирование и запросы с учетом языка.

    Значение по умолчанию — Standard Lucene, но вы можете выбрать Microsoft English , если вы хотите использовать анализатор Майкрософт для расширенной лексической обработки, например разрешение неправильных форм существительных и глаголов. В Azure portal можно указать только анализаторы языка. Если вы хотите использовать пользовательский анализатор или неязыковый анализатор, например ключевое слово или шаблон, необходимо создать его программным способом. Дополнительные сведения см. в разделе "Добавление анализаторов языка".

  6. Нужна ли вам функция typeahead в виде автозаполнения или предлагаемых результатов? Установите флажок "Suggester", чтобы включить предложения запросов и автозаполнение на выбранных полях. Подсказки увеличивают число токенизированных терминов в вашем индексе, что увеличивает использование хранилища.

Настройка индексатора

Последняя страница мастера собирает пользовательские входные данные для конфигурации индексатора. Можно указать расписание и задать другие параметры, которые зависят от типа источника данных.

Во внутреннем режиме мастер настраивает следующие определения, которые не отображаются в индексаторе до тех пор, пока он не будет создан.

Попробуйте мастер настройки

Лучший способ понять преимущества и ограничения мастера импорта данных — пройти через него. Следующие квикстарты оформлены с использованием мастера.