Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом кратком руководстве вы используете мастер импорта данных на портале Azure для начала работы с многомодальным поиском. Мастер упрощает процесс извлечения, фрагментирования, векторизации и загрузки текста и изображений в индекс, доступный для поиска.
В этом кратком руководстве используется многомодальный PDF-файл из репозитория azure-search-sample-data. Однако вы можете использовать разные файлы и все же завершить работу с этим быстрым запуском.
Tip
У вас есть документы с большим количеством текста? См. раздел Quickstart: векторный поиск на портале Azure для разбиения на блоки и преобразования содержимого в векторы с необязательной поддержкой изображений.
Prerequisites
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно .
Служба Поиск с использованием ИИ Azure. В этом кратком руководстве требуется уровень "Базовый" или более высокий для поддержки управляемых удостоверений.
Учетная запись служба хранилища Azure. Используйте Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения (учетная запись хранения с иерархическим пространством имен) в учетной записи стандартной производительности (общего назначения версии 2). Уровни доступа могут быть горячими, прохладными или холодными.
Знакомство с мастером. См. мастер импорта данных на портале Azure.
Поддерживаемые методы извлечения
Для извлечения содержимого выберите извлечение по умолчанию с помощью Поиск с использованием ИИ Azure или расширенное извлечение с помощью Azure Document Intelligence в Foundry Tools.
| Method | Description |
|---|---|
| Извлечение по умолчанию | Извлекает метаданные расположения только из pdf-изображений. Не требуется другой ресурс Azure. |
| Расширенное извлечение | Извлекает метаданные расположения из текста и изображений для нескольких типов документов. Требуется учетная запись Azure ИИ с несколькими службами1 для интеграции. |
1 В целях выставления счетов необходимо привязать вашу многосервисную учетную запись к набору навыков Поиск с использованием ИИ Azure. Мастеру требуется, чтобы служба поиска и учетная запись с несколькими службами были в одном и том же поддерживаемом регионе для навыка макета документов.
Поддерживаемые методы внедрения
Для внедрения содержимого выберите один из следующих методов:
Вербализация изображений: Использует LLM для создания описаний изображений на естественном языке, а затем использует модель внедрения для векторизации обычного текста и вербализованных изображений.
Многомодальные внедрения: Использует модель внедрения для непосредственного векторизации текста и изображений.
Портал поддерживает следующие модели для каждого метода. Инструкции по развертыванию приведены в следующем разделе.
| Provider | Модели вербализации изображений | Модели для многомодальных встраиваний |
|---|---|---|
| Учетная запись Azure AI с несколькими службами1 | Встраиваемая модель: Azure Vision мультимодальная | Azure Vision Multimodal |
| Проект на базе узла Microsoft Foundry | LLMs:
|
|
| Проект Microsoft Foundry | LLMs:
|
|
| ресурс Azure OpenAI3, 4 | LLMs:
|
1 В целях выставления счетов необходимо привязать вашу многосервисную учетную запись к набору навыков Поиск с использованием ИИ Azure. Мастер требует, чтобы ваша служба поиска и учетная запись нескольких служб находились в одном поддерживаемом регионе для многомодального навыка Azure Vision с использованием вложений.
2 Мастер поддерживает только бессерверные развертывания API для этой модели. Вы можете использовать использовать Azure CLI для подготовки бессерверного развертывания.
3 Конечная точка вашего ресурса Azure OpenAI должна иметь поддомен custom, например https://my-unique-name.openai.azure.com. Если вы создали ресурс на портале Azure, этот поддомен был автоматически создан во время настройки ресурса.
4 ресурсы Azure OpenAI (с доступом к моделям встраивания), созданные на портале Microsoft Foundry, не поддерживаются. На портале Azure необходимо создать ресурс OpenAI Azure.
Требования к общедоступной конечной точке
Все предыдущие ресурсы должны иметь общедоступный доступ, чтобы мастер смог получить к ним доступ. В противном случае мастер завершается ошибкой. После запуска мастера можно включить брандмауэры и частные конечные точки в компонентах интеграции для обеспечения безопасности. Дополнительные сведения см. в разделе "Безопасные подключения" в мастере импорта.
Если частные конечные точки уже присутствуют и их невозможно отключить, альтернативой является запуск соответствующего сквозного потока из скрипта или программы на виртуальной машине. Виртуальная машина должна находиться в той же виртуальной сети, что и частная конечная точка. Вот пример кода на Python для интегрированной векторизации. В том же репозитории GitHub есть примеры на других языках программирования.
Настройка доступа
Перед началом работы убедитесь, что у вас есть разрешения на доступ к содержимому и операциям. В этой быстрой настройке используется Microsoft Entra ID для аутентификации и доступа с авторизацией на основе ролей. Для назначения ролей необходимо быть владельцем или администратором доступа пользователей . Если роли недоступны, используйте аутентификацию по ключу.
Настройте необходимые роли и условные роли , определенные в этом разделе.
Обязательные роли
Поиск с использованием ИИ Azure и служба хранилища Azure требуются для всех сценариев многомодального поиска.
Поиск с использованием ИИ Azure предоставляет многомодальный конвейер. Настройте доступ для себя и службы поиска для чтения данных, запуска конвейера и взаимодействия с другими Azure ресурсами.
В службе Поиск с использованием ИИ Azure:
Назначьте следующие роли себе.
Участник сервиса поиска
Участник данных индекса поиска
Средство чтения индексов поиска
Условные роли
На следующих вкладках освещаются ресурсы, совместимые с вспомогательной программой для многомодального поиска. Выберите только вкладки, которые применяются к выбранному методу извлечения и методу внедрения.
Учетная запись с несколькими службами предоставляет доступ к нескольким службам Azure, включая Azure аналитику документов для извлечения содержимого и Azure Vision для внедрения содержимого. Для вашей службы поиска требуется доступ к навыку компоновки документа и навыку многомодальных встраиваний Azure Vision .
В учетной записи, включающей несколько служб:
- Назначьте пользователя Cognitive Services управляемой идентичности службы поиска.
Подготовка примера данных
В этом кратком руководстве используется пример многомодального PDF-файла, но вы также можете использовать собственные файлы. Если вы пользуетесь бесплатным поисковым сервисом, используйте менее 20 файлов, чтобы оставаться в пределах бесплатной квоты для обработки данных.
Чтобы подготовить примеры данных для этого краткого руководства:
Перейдите к учетной записи хранения Azure на портале Azure.
В левой области выберитеконтейнеры> данных.
Создайте контейнер и отправьте sample PDF в контейнер.
Создайте другой контейнер для хранения изображений, извлеченных из PDF-файла.
Подготовка моделей
Note
Если вы используете Azure Vision, пропустите этот шаг. Многомодальные внедрения встроены в учетную запись с несколькими службами и не требуют развертывания модели.
Мастер предлагает несколько вариантов внедрения содержимого. Для словесного описания изображений требуется большая языковая модель (LLM) для составления описаний и модель встраивания для преобразования текста и содержимого изображения в векторы, в то время как для прямых многомодальных встраиваний требуется только одна модель встраивания. Эти модели доступны через Azure OpenAI и Foundry.
Сведения о развертывании моделей, необходимых для выбранного метода внедрения, см. в разделе "Развертывание моделей Microsoft Foundry" на портале Foundry.
Запуск мастера
Перейдите в службу поиска в портал Azure.
На странице "Обзор" выберите "Импорт данных".
Выберите источник данных: Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения.
Выберите multimodal RAG.
Запуск мастера
Мастер описывает несколько этапов настройки. В этом разделе рассматриваются все этапы последовательности.
Подключение к данным
Поиск с использованием ИИ Azure требуется подключение к источнику данных для приема содержимого и индексирования. В этом случае источником данных является ваша учетная запись служба хранилища Azure.
Чтобы подключиться к данным, выполните приведенные далее действия.
На странице Подключение к вашим данным выберите подписку Azure.
Выберите учетную запись хранения и контейнер, в который вы отправили образцы данных.
Установите флажок "Проверка подлинности с помощью управляемого удостоверения ". Оставьте тип удостоверения назначенным системой.
Нажмите кнопку Далее.
Извлеките содержимое
В зависимости от выбранного метода извлечения мастер предоставляет параметры конфигурации для взлома документов и фрагментирования.
Метод по умолчанию вызывает навык извлечения документов для извлечения текстового содержимого и создания нормализованных изображений из документов. Затем вызывается навык разделения текста, чтобы разделить извлеченное текстовое содержимое на страницы.
Чтобы использовать навык извлечения документов, выполните следующие действия.
Вставьте своё содержимое
На этом шаге мастер использует выбранный метод внедрения для создания векторных представлений текста и изображений.
Мастер вызывает один из навыков для создания описательного текста для изображений (вербализации изображений) и другой для создания векторных представлений как для текста, так и для изображений.
Для описания изображений навык GenAI Prompt использует развернутый LLM для анализа каждого извлеченного изображения и создания описания на естественном языке.
Для эмбеддингов навык Azure OpenAI Embedding, навык AML или навык Azure Vision мультимодальных эмбеддингов использует вашу развернутую модель эмбеддингов для преобразования фрагментов текста и словесных описаний в векторы высокой размерности. Эти векторы позволяют осуществлять поиск по сходству и гибридный поиск.
Чтобы использовать навыки для словесизации изображений, выполните следующие действия.
На странице внедрения содержимого выберите "Вербализация изображения".
На вкладке "Словесизация изображений ":
Для типа выберите поставщика LLM: Azure OpenAI или Microsoft Foundry.
Выберите свою Azure подписку, ресурс и развертывание LLM.
Для типа проверки подлинности выберите удостоверение, назначенное системой, если вы не используете центральный проект. В противном случае оставьте его ключом API.
Установите флажок, подтверждающий осознание последствий выставления счетов при использовании этих ресурсов.
На вкладке "Векторизация текста ":
Для выбора типа, выберите поставщика модели: Azure OpenAI, Microsoft Foundry или Azure Визуальное представление в средстве Foundry.
Выберите свою Azure подписку, ресурс и развертывание модели внедрения (если применимо).
Для типа проверки подлинности выберите удостоверение, назначенное системой, если вы не используете центральный проект. В противном случае оставьте его ключом API.
Установите флажок, подтверждающий осознание последствий выставления счетов при использовании этих ресурсов.
Нажмите кнопку Далее.
Хранение извлеченных изображений
Следующим шагом является отправка изображений, извлеченных из документов в служба хранилища Azure. В Поиск с использованием ИИ Azure это дополнительное хранилище называется хранилищем knowledge.
Чтобы сохранить извлеченные изображения, выполните следующие действия.
На странице выходных данных Image выберите подписку Azure.
Выберите учетную запись хранения и контейнер для объектов BLOB, созданный для хранения изображений.
Установите флажок "Проверка подлинности с помощью управляемого удостоверения ". Оставьте тип удостоверения назначенным системой.
Нажмите кнопку Далее.
Добавление семантического ранжирования
На странице "Дополнительные параметры" можно дополнительно добавить семантический рейтинг для повторного просмотра результатов в конце выполнения запроса. Переранжирование перемещает наиболее семантически релевантные совпадения на верхние позиции.
Сопоставление новых полей
На странице "Дополнительные параметры" можно дополнительно добавить поля в схему индекса. По умолчанию мастер создает поля, описанные в следующей таблице.
| Field | Применимо к | Description | Attributes |
|---|---|---|---|
| content_id | Векторы текста и изображения | Строковое поле. Ключ документа для индекса. | Извлекаемые, сортируемые и доступные для поиска. |
| document_title | Векторы текста и изображения | Строковое поле. Название документа, доступного для чтения пользователем. | Извлекаемые и доступные для поиска. |
| text_document_id | Текстовые векторы | Строковое поле. Определяет родительский документ, из которого создается блок текста. | Извлекаемые и фильтруемые. |
| image_document_id | Векторы изображений | Строковое поле. Определяет родительский документ, из которого происходит изображение. | Извлекаемые и фильтруемые. |
| content_text | Текстовые векторы | Строковое поле. Удобочитаемая версия фрагмента текста. | Извлекаемые и доступные для поиска. |
| content_embedding | Векторы текста и изображения | Collection(Edm.Single). Векторный представление текста и изображений. | Извлекаемые и доступные для поиска. |
| content_path | Векторы текста и изображения | Строковое поле. Путь к содержимому в контейнере хранилища. | Извлекаемые и доступные для поиска. |
| locationMetadata | Векторы изображений | Edm.ComplexType. Содержит метаданные о расположении изображения в документах. | Зависит от поля. |
Вы не можете изменить созданные поля или их атрибуты, но можно добавить поля, если источник данных предоставляет их. Например, Хранилище BLOB-объектов Azure предоставляет коллекцию полей метаданных.
Чтобы добавить поля в схему индекса, выполните следующие действия.
В разделе "Индекс" выберите "Предварительный просмотр" и "Изменить".
Выберите "Добавить поле".
Выберите исходное поле из доступных полей, введите имя поля для индекса и примите (или переопределите) тип данных по умолчанию.
Если вы хотите восстановить схему до исходной версии, нажмите кнопку "Сброс".
Ключевые моменты этого шага:
Схема индекса предоставляет векторные и невекторные поля для блокированных данных.
Режим синтаксического анализа документов создает блоки (один документ поиска на блок).
Планирование индексирования
Для источников данных, где базовые данные являются переменными, можно запланировать индексирование для записи изменений с определенным интервалом или определенными датами и временем.
Чтобы запланировать индексирование:
На странице "Дополнительные параметры" в разделе "Расписание индексирования" укажите расписание выполнения индексатора. Рекомендуем Once для этого краткого руководства.
Нажмите кнопку Далее.
Завершение работы мастера
Последним шагом является проверка конфигурации и создание необходимых объектов для многомодального поиска. При необходимости вернитесь на предыдущие страницы мастера, чтобы настроить конфигурацию.
Чтобы завершить работу мастера, выполните следующие действия.
На странице проверки и создания укажите префикс для объектов, создаваемых мастером. Распространенный префикс помогает оставаться упорядоченным.
Нажмите кнопку "Создать".
Созданные мастером объекты
Когда мастер завершит настройку, он создает следующие объекты:
| Object | Description |
|---|---|
| Источник данных | Представляет подключение к Хранилище BLOB-объектов Azure. |
| Index | Содержит текстовые поля, векторные поля, векторизаторы, профили векторов и векторные алгоритмы. Невозможно изменить индекс по умолчанию во время рабочего процесса мастера. Индексы соответствуют последней предварительной версии REST API, чтобы вы могли использовать функции предварительной версии. |
| Набор навыков | Содержит следующие навыки:
|
| Indexer | Управляет конвейером индексирования с сопоставлениями полей и сопоставлениями выходных полей (если это применимо). |
| Хранилище знаний | Сохраняет извлечённые образы как блобы в служба хранилища Azure для последующей обработки данных или мультимодальных сценариев. |
Tip
Созданные мастером объекты имеют настраиваемые определения JSON. Чтобы просмотреть или изменить эти определения, выберите "Управление поиском " в левой области, где можно просматривать индексы, индексаторы, источники данных и наборы навыков.
Чтобы просмотреть хранилище знаний, перейдите в учетную запись хранения Azure и выберите контейнер, назначенный для вывода изображения.
Проверка результатов
В этом кратком руководстве создается многомодальный индекс, поддерживающий гибридный поиск по тексту и изображениям. Если вы не используете прямые многомодальные встраивания, индекс не принимает изображения в качестве входа для запросов, что требует использования навыков AML или многомодальные встраивания Azure Vision с эквивалентным векторизатором. Дополнительные сведения см. в разделе "Настройка векторизатора" в индексе поиска.
Гибридный поиск объединяет полнотекстовые запросы и векторные запросы. При выполнении гибридного запроса поисковая система вычисляет семантику сходства между запросом и индексированных векторов и ранжирует результаты соответствующим образом. Для индекса, созданного в этом кратком руководстве, результаты отображают содержимое из поля content_text, которое тесно соответствует вашему запросу.
Чтобы запросить многомодальный индекс, выполните следующий запрос:
Перейдите в службу поиска в портал Azure.
В левой области выберите управление поиском>индексы.
Выберите индекс.
Выберите параметры запроса и выберите "Скрыть векторные значения" в результатах поиска. Этот шаг делает результаты более читаемыми.
Введите текст, для которого требуется выполнить поиск. В наших примерах используется
energy.Чтобы запустить запрос, выберите "Поиск".
Результаты JSON должны содержать текст и содержимое изображения, связанные с
energyв вашем индексе. Если вы включили семантический рангировщик,@search.answersмассив предоставляет краткие семантические ответы с высокой достоверности, чтобы быстро определить соответствующие совпадения."@search.answers": [ { "key": "a71518188062_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_normalized_images_7", "text": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like energy distribution, resource allocation, and environmental monitoring. **Accelerate the development of sustainability solution...", "highlights": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like<em> energy distribution, </em>resource<em> allocation, </em>and environmental monitoring. **Accelerate the development of sustainability solution...", "score": 0.9950000047683716 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_5", "text": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim 10.5 gigawatts (GW) of renewable energy to the grid.910.5 GWof new renewable energy capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "highlights": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim <em> 10.5 gigawatts (GW) of renewable energy </em>to the<em> grid.910.5 </em>GWof new<em> renewable energy </em>capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "score": 0.9890000224113464 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_50", "text": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community Solar MicrogridsDeveloping energy transition programsWe are co-innovating with communities to develop energy transition programs that align their goals with broader s.", "highlights": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community<em> Solar MicrogridsDeveloping energy transition programsWe </em>are co-innovating with communities to develop<em> energy transition programs </em>that align their goals with broader s.", "score": 0.9869999885559082 } ]
Очистите ресурсы
При работе с собственной подпиской рекомендуется завершить проект, удалив ресурсы, которые больше не нужны. Ресурсы, оставленные работающими, могут стоить вам денег.
На портале Azure выберите All resources или Resource groups на панели слева, чтобы найти ресурсы и управлять ими. Вы можете удалить ресурсы по отдельности или удалить группу ресурсов, чтобы удалить все ресурсы одновременно.
Следующий шаг
В этом кратком руководстве описан мастер импорта данных , который создает все необходимые объекты для многомодального поиска. Подробные сведения о каждом шаге см. в руководстве по многомодальному использованию.