Azure OpenAI на ваших данных (классический)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Ссылки в этой статье могут открывать содержимое в новой документации Microsoft Foundry вместо документации Foundry (классической), которую вы просматриваете сейчас.

Важно

Azure OpenAI On Your Data устарел и приближается к выходу из эксплуатации.

Microsoft прекратила адаптацию новых моделей в Azure OpenAI On Your Data. Эта функция поддерживает только следующие модели:

GPT-4o (версии 2024-05-13, 2024-08-06 и 2024-11-20)
GPT-4o-mini (версия 2024-07-18) После завершения работы этой модели все Azure OpenAI On Your Data API и поддерживаемые коннекторы источников данных перестают работать.

Рекомендуем перенести задачи Azure OpenAI On Your Data на Foundry Agent Service с использованием Foundry IQ, чтобы извлекать контент и генерировать обоснованные ответы на основе ваших данных. Чтобы начать, см. Подключение базы знаний Foundry IQ.

Используйте эту статью, чтобы узнать о Azure OpenAI On Your Data, что упрощает для разработчиков подключение, прием и создание корпоративных данных для быстрого создания персонализированных копилот (предварительная версия). Он улучшает понимание пользователей, ускоряет выполнение задач, повышает эффективность работы и помогает принимать решения.

Что такое Azure OpenAI на ваших данных

Azure OpenAI On Your Data позволяет запускать расширенные модели ИИ, такие как GPT-35-Turbo и GPT-4 на собственных корпоративных данных, не требуя обучения или точной настройки моделей. Вы можете одновременно общаться и анализировать данные с большей точностью. Вы можете указать источники для поддержки ответов на основе последних сведений, доступных в указанных источниках данных. Вы можете получить доступ к Azure OpenAI On Your Data с помощью REST API через пакет SDK или веб-интерфейс на портале Microsoft Foundry portal. Вы также можете создать веб-приложение, которое подключается к вашим данным для предоставления расширенного решения для чата или развернуть его непосредственно в качестве копилота в Copilot Studio (предварительная версия).

Разработка с помощью Azure OpenAI на ваших данных

Схема, показывающая пример рабочего процесса.

Как правило, процесс разработки, который вы используете с Azure OpenAI On Your Data:

Прием: отправка файлов с помощью портала Foundry или API приема. Это позволяет разделить на части, обработать и встроить ваши данные в экземпляр Поиск с использованием ИИ Azure, который можно использовать с моделями Azure OpenAI. Если у вас есть существующий поддерживаемый источник данных, вы также можете подключить его напрямую.
Develop. После попытки Azure OpenAI On Your Data начните разработку приложения с помощью доступного REST API и пакетов SDK, доступных на нескольких языках. Он создаст подсказки и намерения поиска для передачи в сервис Azure OpenAI.
Inference: после развертывания приложения в предпочитаемой среде он отправит запросы на Azure OpenAI, который выполнит несколько действий перед возвратом ответа:
1. Создание намерений: служба определит намерение запроса пользователя, чтобы определить правильный ответ.
2. Извлечение. Служба извлекает соответствующие блоки доступных данных из подключенного источника данных, запрашивая его. Например, с помощью семантического или векторного поиска. Для влияния на извлечение используются такие параметры, как строгость и количество извлеченных документов.
3. Фильтрация и повторная обработка. Результаты поиска на шаге извлечения улучшаются путем ранжирования и фильтрации данных для уточнения релевантности.
4. Создание ответов: полученные данные отправляются вместе с другими сведениями, такими как системное сообщение в большую языковую модель (LLM) и ответ отправляется в приложение.

Чтобы приступить к работе, подключите источник данных с помощью портала Foundry и начните задавать вопросы и чаты по данным.

Управление доступом на основе ролей Azure (Azure RBAC) для добавления источников данных

Чтобы полностью использовать Azure OpenAI On Your Data, необходимо задать одну или несколько Azure ролей RBAC. Дополнительные сведения см. в разделе Azure OpenAI в конфигурации данных.

Форматы данных и типы файлов

Azure OpenAI On Your Data поддерживает следующие типы файлов:

.txt
.md
.html
.docx
.pptx
.pdf

Существует ограничение отправки, и есть некоторые предостережения о структуре документов и о том, как это может повлиять на качество ответов из модели:

Если вы преобразуете данные из неподдерживаемого формата в поддерживаемый формат, оптимизируйте качество ответа модели, гарантируя преобразование:
- Не приводит к значительной потере данных.
- Не добавляет неожиданный шум в ваши данные.
Если файлы имеют специальное форматирование, например таблицы и столбцы, или точки маркеров, подготовьте данные с помощью скрипта подготовки данных, доступного в GitHub.
Для документов и наборов данных с длинным текстом следует использовать доступный сценарий подготовки данных. Скрипт разбивает данные на части, чтобы ответы модели были более точными. Этот скрипт также поддерживает сканированные PDF-файлы и изображения.

Поддерживаемые источники данных

Для отправки данных необходимо подключиться к источнику данных. Если вы хотите использовать свои данные для взаимодействия с моделью Azure OpenAI, данные сегментируются в поисковом индексе, чтобы соответствующие данные можно было найти по пользовательским запросам.

Примечание

Данные должны быть неструктурированным текстом для получения наилучших результатов. Если у вас есть нетекстовые полуструктурированные или структурированные данные, рассмотрите возможность преобразования его в текст. Если файлы имеют специальное форматирование, например таблицы и столбцы, или точки маркеров, подготовьте данные с помощью скрипта подготовки данных, доступного в GitHub.

База данных Integrated Vector Database в Azure Cosmos DB на базе vCore для MongoDB изначально поддерживает интеграцию с Azure OpenAI On Your Data.

Для некоторых источников данных, таких как отправка файлов с локального компьютера (предварительная версия) или данных, содержащихся в учетной записи хранения BLOB-объектов (предварительная версия), используется Поиск с использованием ИИ Azure. При выборе следующих источников данных, ваши данные принимаются в индекс Поиск с использованием ИИ Azure.

Прием данных через Поиск с использованием ИИ Azure	Описание
Поиск с использованием ИИ Azure	Используйте существующий индекс Поиск с использованием ИИ Azure с Azure OpenAI для обработки ваших данных.
Отправка файлов (предварительная версия)	Передайте файлы с локального компьютера, чтобы храниться в базе данных Хранилище BLOB-объектов Azure и передавать их в Поиск с использованием ИИ Azure.
URL-адрес или веб-адрес (предварительная версия)	Веб-содержимое из URL-адресов хранится в Хранилище BLOB-объектов Azure.
Хранилище BLOB-объектов Azure (предварительная версия)	Отправка файлов из Хранилище BLOB-объектов Azure для приема в индекс Поиск с использованием ИИ Azure.

Возможно, вы хотите использовать индекс Поиск с использованием ИИ Azure, если хотите:

Настройте процесс создания индекса.
Используйте индекс, созданный ранее, для приема данных из других источников данных.

Примечание

Чтобы использовать существующий индекс, он должен иметь по крайней мере одно поле для поиска.
Установите для опции CORS Allow Origin Type значение all и для опции Разрешенные источники значение *.
В индексе поиска невозможно иметь сложные поля.

Типы поиска

Azure OpenAI On Your Data предоставляет следующие типы поиска, которые можно использовать при добавлении источника данных.

Поиск ключевых слов
Семантический поиск
Векторный поиск с помощью модели text-embedding-ada-002, доступной в выбранных регионах

Чтобы включить векторный поиск, вам потребуется существующая модель внедрения, развернутая в ресурсе Azure OpenAI. Выберите развертывание эмбеддинга при подключении данных, а затем выберите один из типов векторного поиска в разделе Управление данными. Если вы используете Поиск с использованием ИИ Azure в качестве источника данных, убедитесь, что в индексе есть векторный столбец.

Если вы используете собственный индекс, можно настроить сопоставление полей при добавлении источника данных, чтобы определить поля, которые будут сопоставлены при ответе на вопросы. Чтобы настроить сопоставление полей, выберите "Использовать сопоставление настраиваемых полей " на странице источника данных при добавлении источника данных.

Важно

Семантический поиск зависит от дополнительных цен. Чтобы включить семантический поиск или векторный поиск, необходимо выбрать базовый или более высокий номер SKU . Дополнительные сведения см. в разделе "Разница в ценовой категории " и ограничения служб .
Чтобы повысить качество получения информации и ответа модели, рекомендуется включить семантический поиск на следующих языках источника данных: английский, французский, испанский, португальский, итальянский, итальянский, китайский(zh), японский, корейский, русский и арабский.

Параметр поиска	Тип извлечения	Дополнительные цены?	Преимущества
Ключевое слово	Поиск ключевых слов	Нет дополнительных цен.	Выполняет быстрый и гибкий анализ запросов и сопоставление по полям с возможностью поиска, используя термины или фразы в любом поддерживаемом языке, с операторами или без них.
Семантические	Семантический поиск	Дополнительные цены на использование семантического поиска .	Улучшает точность и релевантность результатов поиска с помощью рерантера (с моделями ИИ) для понимания семантического смысла терминов и документов, возвращаемых первоначальным рангером поиска.
Вектор	Векторный поиск	Дополнительное ценообразование в учетной записи Azure OpenAI при вызове модели встраивания.	Позволяет находить документы, похожие на заданный входной запрос, на основе векторных представлений содержимого.
гибрид (вектор + ключевое слово)	Гибридная среда поиска векторов и поиска ключевых слов	Дополнительная плата в вашей учетной записи Azure OpenAI за вызов модели эмбеддинга.	Выполняет поиск сходства по полям векторов с помощью векторных эмбеддингов, а также поддерживает гибкий разбор запросов и полнотекстовый поиск по буквенно-цифровым полям с помощью терминных запросов.
hybrid (vector + keyword) + семантика	Гибрид векторного поиска, семантического поиска и поиска ключевых слов.	Дополнительная стоимость на вашей учетной записи Azure OpenAI от вызова модели встраивания и дополнительная стоимость для использования семантического поиска.	Использует векторные внедрения, распознавание речи и гибкий анализ запросов для создания расширенных возможностей поиска и создания приложений искусственного интеллекта, которые могут обрабатывать сложные и разнообразные сценарии извлечения информации.

Интеллектуальный поиск

Azure OpenAI On Your Data включает интеллектуальный поиск данных. Семантический поиск включен по умолчанию, если у вас есть как семантический поиск, так и поиск ключевых слов. При внедрении моделей интеллектуальный поиск по умолчанию использует гибридный и семантический поиск.

Управление доступом на уровне документа

Примечание

Управление доступом на уровне документа поддерживается при выборе Поиск с использованием ИИ Azure в качестве источника данных.

Azure OpenAI On Your Data позволяет ограничить документы, которые можно использовать в ответах для разных пользователей, с помощью фильтров безопасности Поиск с использованием ИИ Azure фильтров безопасности. При включении доступа на уровне документа результаты поиска, возвращаемые из Поиск с использованием ИИ Azure и используемые для создания ответа, обрезаются на основе членства в группах Microsoft Entra пользователей. Доступ на уровне документа можно включить только в существующих индексах Поиск с использованием ИИ Azure. Дополнительные сведения см. в разделе Azure OpenAI On Your Data network and access configuration.

Сопоставление полей индекса

Если вы используете собственный индекс, вам будет предложено на портале Foundry определить поля, которые необходимо сопоставить с ответами на вопросы при добавлении источника данных. Можно указать несколько полей для данных содержимого и включать все поля, имеющие текст, относящиеся к вашему варианту использования.

В этом примере поля, сопоставленные с данными содержимого и заголовком, предоставляют модели сведения для ответа на вопросы. Заголовок также используется для заголовка текста ссылки. Поле, сопоставленное с именем файла, генерирует имена ссылок в ответе.

Правильное сопоставление этих полей помогает обеспечить более высокое качество отклика модели и корректность ссылок. Кроме того, его можно настроить в API с помощью fieldsMapping параметра.

Если вы хотите реализовать дополнительные критерии на основе значений для выполнения запросов, можно настроить фильтр поиска с помощью filter параметра в REST API.

Как данные загружаются в функцию поиска Azure с применением ИИ

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Встроенная векторизация, новое предложение Поиск с использованием ИИ Azure, использует предварительно настроенные навыки для разбиения на части и встраивания входных данных. Служба приема данных Azure OpenAI больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется Поиск с использованием ИИ Azure.

Подключение к данным

Необходимо выбрать способ аутентификации подключения в Azure OpenAI, Поиск с использованием ИИ Azure и Azure Blob-хранилище. Вы можете выбрать удостоверение, автоматически назначаемое системой или ключ API. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения к ресурсам Поиск с использованием ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure. Выбрав системно назначенное управляемое удостоверение, проверка подлинности будет основываться на назначении роли. Управляемое удостоверение, назначаемое системой выбрано по умолчанию в целях безопасности.

После нажатия следующей кнопки программа автоматически проверит настройку, чтобы использовать выбранный метод проверки подлинности. Если возникла ошибка, ознакомьтесь со статьей о назначениях ролей , чтобы обновить настройку.

После исправления установки нажмите кнопку "Далее ", чтобы проверить и продолжить. Пользователи API также могут настроить проверку подлинности с назначенным управляемым удостоверением и ключами API.

Вы можете использовать Хранилище BLOB-объектов Azure в качестве источника данных, если вы хотите подключиться к существующим Хранилище BLOB-объектов Azure и использовать файлы, хранящиеся в контейнерах.

Планирование автоматического обновления индекса

Примечание

Автоматическое обновление индекса поддерживается только для Хранилище BLOB-объектов Azure.

Чтобы сохранить индекс Поиск с использованием ИИ Azure up-to-date с последними данными, можно запланировать автоматическое обновление индекса, а не обновлять его вручную при каждом обновлении данных. Автоматическое обновление индекса доступно только при выборе Хранилище BLOB-объектов Azure в качестве источника данных. Чтобы включить автоматическое обновление индекса, выполните приведенные далее действия.

Добавьте источник данных с помощью портала Foundry.
В разделе "Выбор или добавление источника данных " выберите расписание индексатора и выберите частоту обновления, который вы хотите применить.

После того как частота приема данных настроена на значение, отличающееся от один раз, индексаторы Поиск с использованием ИИ Azure будут созданы с расписанием, эквивалентным 0.5 * the cadence specified. Это означает, что по указанному курсу индексаторы будут извлекать, повторно обрабатывать и индексировать документы, добавленные или измененные из контейнера хранилища. Этот процесс гарантирует, что обновленные данные предварительно обрабатываются и индексируются в конечный индекс с требуемой частотой автоматически. Чтобы обновить данные, необходимо передать только дополнительные документы на портале Azure. На портале выберите учетная запись хранения>контейнеры. Выберите имя исходного контейнера, а затем отправьте. Индекс автоматически будет собирать файлы после запланированного периода обновления. Промежуточные активы, созданные в ресурсе Поиск с использованием ИИ Azure, не будут удалены после импорта, чтобы обеспечить возможность будущих запусков. Эти ресурсы:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Чтобы изменить расписание, можно использовать портал Azure.

Откройте страницу ресурсов поиска на портале Azure
Выбор индексаторов на левой панели
Выполните следующие действия для двух индексаторов, имеющих имя индекса в качестве префикса.
1. Выберите индексатор, чтобы открыть его. Затем выберите вкладку параметров .
2. Обновите расписание до требуемой частоты из "Расписание" или укажите настраиваемую частоту из "Интервал (минут)"
3. Нажмите кнопку "Сохранить".

Как данные загружаются в функцию поиска Azure с применением ИИ

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

С помощью портала Foundry вы можете загрузить файлы со своего компьютера, чтобы попробовать Azure OpenAI на ваших данных. Вы также можете создать новую учетную запись Хранилище BLOB-объектов Azure и ресурс Поиск с использованием ИИ Azure. Затем служба сохраняет файлы в контейнер хранилища Azure и выполняет прием из контейнера. Вы можете использовать статью краткое руководство, чтобы узнать, как использовать этот параметр источника данных.

Как данные загружаются в функцию поиска Azure с применением ИИ

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

Вы можете вставить URL-адреса и служба будет хранить содержимое веб-страницы, используя его при создании ответов из модели. Содержимое в URL-адресах или веб-адресах, которые используются, должны иметь следующие характеристики для правильного приема:

Общедоступный веб-сайт, например Использование данных с Azure OpenAI в модели Foundry — Azure OpenAI | Microsoft Learn. Невозможно добавить URL-адрес или веб-адрес с помощью управления доступом, например с паролем.
Веб-сайт HTTPS.
Размер содержимого в каждом URL-адресе меньше 5 МБ.
Веб-сайт можно скачать как один из поддерживаемых типов файлов.
Поддерживается только один слой вложенных ссылок. На веб-странице будут доступны только до 20 ссылок.

После добавления URL-адреса или веб-адреса для загрузки данных, веб-страницы с этого URL-адреса извлекаются и сохраняются в Хранилище BLOB-объектов Azure с именем контейнера: webpage-<index name>. Каждый URL-адрес будет сохранен в другом контейнере в учетной записи. Затем файлы индексируются в индекс Поиск с использованием ИИ Azure, который используется для извлечения при чате с моделью.

Как данные загружаются в функцию поиска Azure с применением ИИ

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

Вы можете подключиться к базе данных вектора Elasticsearch и общаться с данными.

Необходимые условия

База данных Elasticsearch
Модель внедрения. Вы можете:
- Используйте существующую модель внедрения Azure OpenAI text-embedding-ada-002 или
- Используйте собственную модель встраивания, размещённую в Elasticsearch.
Подготовьте данные с помощью записной книжки Python, доступной в GitHub.

Запрос доступа

Использование источника данных Elasticsearch — это предварительная версия функции, которая распространяется на условия службы ограниченного доступа в условиях конкретной службы. Необходимо заполнить и отправить форму запроса , чтобы запросить доступ к источнику данных Elasticsearch. Форма запрашивает сведения о вашей компании и сценарии, для которых планируется использовать источник данных Elasticsearch. После отправки формы команда openAI Azure будет просматривать ее и отправлять вам электронное письмо с решением в течение 10 рабочих дней.