Поделиться через


Примеры использования бессерверных API-инференсов для моделей Foundry

Каталог моделей искусственного интеллекта Azure предлагает большой выбор моделей Azure AI Foundry из широкого спектра поставщиков. У вас есть различные варианты развертывания моделей из каталога моделей. В этой статье перечислены примеры вывода для развертываний бессерверных API.

Important

Модели, которые находятся в предварительной версии, помечены как предварительный просмотр на своих карточках моделей в каталоге моделей.

Для выполнения вывода с моделями некоторые модели, такие как TimeGEN-1 от Nixtla и Cohere rerank, требуют использования пользовательских API от поставщиков модели. Другие поддерживают вывод с помощью API вывода модели. Дополнительные сведения об отдельных моделях можно найти, просмотрев карточки моделей в каталоге моделей на портале Azure AI Foundry.

Cohere

Семейство моделей Cohere включает различные модели, оптимизированные для разных сценариев использования, включая переподборку, завершение сеансов чата и модели вложений.

Примеры вывода: команда Cohere и встраивание

В следующей таблице приведены ссылки на примеры использования моделей Cohere.

Description Language Sample
Веб-запросы Bash Command-RCommand-R+
cohere-embed.ipynb
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link
Пакет SDK OpenAI (экспериментальный) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Метод генерации с дополнением извлечением (RAG) и использование инструмента: команда Cohere и встраивание

Description Packages Sample
Создайте локальный векторный индекс сходства Facebook AI (FAISS), используя векторы Cohere — Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Используйте команду Cohere R/R+ для ответа на вопросы из данных в локальном индексе вектора FAISS — Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Используйте Cohere Command R/R+ для ответа на вопросы с данными в поисковом векторном индексе ИИ — Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Используйте Cohere Command R/R+ для ответа на вопросы из данных в векторном индексе поиска ИИ — SDK от Cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Вызов функции или инструмента R+ с помощью LangChain cohere langchain langchain_cohere command_tools-langchain.ipynb

Перераспределение Cohere

Чтобы выполнить инференцию с помощью моделей переранжирования Cohere, необходимо использовать пользовательские API Cohere. Дополнительные сведения о модели переранжирования Cohere и ее возможностях см. в разделе Cohere rerank.

Цены на модели повторной ранжировки Cohere

Запросы, которые не следует путать с запросом пользователя, — это счетчик цен, который ссылается на стоимость, связанную с маркерами, используемыми в качестве входных данных для вывода модели Cohere Rerank. Cohere считает одной единицей поиска запрос, содержащий до 100 документов, которые будут ранжированы. Документы длиной более 500 токенов (для Cohere-rerank-v3.5) или более 4096 токенов (для Cohere-rerank-v3-english и Cohere-rerank-v3-многоязычный) при включении длины поискового запроса разделяются на несколько блоков, где каждый блок учитывается как один документ.

См. коллекцию моделей Cohere на портале Azure AI Foundry.

Core42

В следующей таблице приведены ссылки на примеры использования моделей Jais.

Description Language Sample
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link

DeepSeek

Семейство моделей DeepSeek включает DeepSeek-R1, который превосходен в задачах рассуждения, используя пошаговый процесс обучения, таких как задачи лингвистики, научного рассуждения и программирования, DeepSeek-V3-0324, языковую модель на основе смеси экспертов (Mixture-of-Experts, MoE) и другие.

В следующей таблице приведены ссылки на примеры использования моделей DeepSeek.

Description Language Sample
Пакет вывода искусственного интеллекта Azure для Python Python Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для Java Java Link

Meta

Модели и инструменты Meta Llama — это коллекция предварительно обученных и точно настроенных генеративных моделей ИИ для работы с текстами и изображениями. Диапазон метаданных моделей масштабируется для включения:

  • Небольшие языковые модели (SLM), такие как 1B и 3B Base и модели Instruct, для вывода на устройствах и выводов на периферии.
  • Средние крупные языковые модели (LLMs), такие как 7B, 8B и 70B Base и модели Instruct
  • Высокопроизводительные модели, такие как Meta Llama 3.1-405B Instruct, используются для генерации синтетических данных и сценариев дистилляции.
  • Высокопроизводительные изначально многомодальные модели Llama 4 Scout и Llama 4 Maverick используют сочетание экспертных методов архитектуры для достижения ведущих результатов в распознавании текста и изображений.

В следующей таблице приведены ссылки на примеры использования моделей Meta Llama.

Description Language Sample
Запрос CURL Bash Link
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link
Веб-запросы Python Python Link
Пакет SDK OpenAI (экспериментальный) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Модели Майкрософт включают различные группы моделей, такие как модели MAI, модели Phi, модели ИИ здравоохранения и многое другое. Чтобы просмотреть все доступные модели Майкрософт, просмотрите коллекцию моделей Майкрософт на портале Azure AI Foundry.

В следующей таблице приведены ссылки на примеры использования моделей Майкрософт.

Description Language Sample
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link
LangChain Python Link
Llama-Index Python Link

См . коллекцию моделей Майкрософт на портале Azure AI Foundry.

Мистраль ИИ

Мистраль ИИ предлагает две категории моделей, а именно:

  • Премиум модели: Сюда входят Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) и Ministral 3B, доступные как бессерверные API с оплатой по мере использования на основе токенов.
  • Открытые модели: к ним относятся Мистраль-малый-2503, Codestral и Mistral Nemo (которые доступны как бессерверные API с выставлением счетов по мере использования токенов) и Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 и Mistral-7B-v01(которые доступны для скачивания и запуска на локальных управляемых конечных точках).

В следующей таблице приведены ссылки на примеры использования моделей Mistral.

Description Language Sample
Запрос CURL Bash Link
Пакет вывода искусственного интеллекта Azure для C# C# Link
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link
Веб-запросы Python Python Link
Пакет SDK OpenAI (экспериментальный) Python Mistral - пример пакета SDK OpenAI
LangChain Python Мистраль — пример LangChain
Мистраль ИИ Python Mistral - образец Mistral AI
LiteLLM Python Мистраль — пример LiteLLM

Nixtla

TimeGEN-1 в Nixtla — это созданная предварительно обученная модель прогнозирования и обнаружения аномалий для данных временных рядов. TimeGEN-1 может создавать точные прогнозы для новых временных рядов без обучения, используя только исторические значения и экзогенные ковариации в качестве входных данных.

Для выполнения инференции TimeGEN-1 необходимо использовать пользовательский API для инференции Nixtla. Дополнительные сведения о модели TimeGEN-1 и ее возможностях см. в разделе Nixtla.

Оцените количество необходимых токенов

Прежде чем создать развертывание TimeGEN-1, полезно оценить количество токенов, которые вы планируете использовать и за которые будет выставлен счет. Один маркер соответствует одной точке данных в входном наборе данных или выходном наборе данных.

Предположим, что у вас есть следующий входной набор данных временных рядов:

Unique_id Timestamp Целевая переменная Экзогенная переменная 1 Экзогенная переменная 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Чтобы определить количество маркеров, умножьте количество строк (в этом примере два) и количество столбцов, используемых для прогнозирования, не подсчитывая столбцы unique_id и метки времени (в этом примере три), чтобы получить всего шесть маркеров.

Учитывая следующий выходной набор данных:

Unique_id Timestamp Прогнозируемая целевая переменная
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Кроме того, можно выяснить количество токенов, подсчитав количество данных, возвращенных после прогноза. В этом примере количество токенов равно двум.

Оценка цен на основе токенов

Существует четыре счетчика цен, определяющих цену, которую вы оплачиваете. Эти метры приведены следующим образом:

Ценовой индикатор Description
paygo-inference-input-tokens Затраты, связанные с маркерами, используемыми в качестве входных данных для вывода при finetune_steps = 0
paygo-inference-output-tokens Затраты, связанные с маркерами, используемыми в качестве вывода при finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Затраты, связанные с маркерами, используемыми в качестве входных данных при finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Затраты, связанные с маркерами, используемыми в качестве вывода при finetune_steps> 0

См. коллекцию моделей Nixtla на портале Azure AI Foundry.

ИИ стабильности

Модели ИИ стабильности, развернутые с помощью бессерверного развертывания API, реализуют API вывода моделей на маршруте /image/generations. Примеры использования моделей ИИ стабильности см. в следующих примерах:

Gretel Навигатор

Gretel Navigator использует составную архитектуру ИИ, специально спроектированную для синтетических данных, сочетая лучшие небольшие языковые модели с открытым кодом (SLM), настроенные более чем для 10 отраслей. Эта специально созданная система создает разнообразные наборы данных, относящиеся к домену, в масштабе сотен до миллионов примеров. Система также сохраняет сложные статистические связи и обеспечивает повышенную скорость и точность по сравнению с созданием данных вручную.

Description Language Sample
Пакет вывода искусственного интеллекта Azure для JavaScript JavaScript Link
Пакет вывода искусственного интеллекта Azure для Python Python Link