Поделиться через


Начните выполнять запросы к моделям LLM в Databricks

В этой статье описывается, как начать использовать API моделей Foundation для работы с и выполнения запросов к большим языковым моделям (LLM) в Databricks.

Самый простой способ начать работу с обслуживанием и запросом моделей LLM в Databricks — использовать API модели Foundation на основе оплаты за токен . API предоставляет доступ к популярным базовым моделям через конечные точки с оплатой за каждый токен, которые автоматически доступны в интерфейсе обслуживания рабочего пространства Databricks. Ознакомьтесь с поддерживаемыми моделями ДЛЯ API моделей Databricks Foundation.

Кроме того, вы можете протестировать и общаться с моделями с оплатой за токен с помощью игровой площадки ИИ. Ознакомьтесь с чатом с LLM и прототипами генеративных приложений ИИ в AI Playground.

For production workloads, particularly those with a fine-tuned model or that require performance guarantees, Databricks recommends using Foundation Model APIs on a provisioned throughput endpoint.

Requirements

  • A Databricks workspace in a supported region for Foundation Model APIs pay-per-token.
  • Личный токен доступа Databricks для запроса и доступа к конечным точкам службы модели ИИ Мозаики с помощью клиента OpenAI.

Important

В качестве одной из лучших практик безопасности для производственных сценариев Databricks рекомендует использовать межмашинные токены OAuth для аутентификации в ходе эксплуатации.

For testing and development, Databricks recommends using a personal access token belonging to service principals instead of workspace users. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

Начало работы с API-интерфейсами модели Foundation

Следующий пример предназначен для запуска в блокноте Databricks. Пример кода запрашивает модель Meta Llama 3.1 405B Instruct, которая обслуживается на конечной точке с оплатой за токен databricks-meta-llama-3-1-405b-instruct.

В этом примере клиент OpenAI используется для запроса модели, заполняя model поле именем конечной точки обслуживания модели, в которой размещена модель, которую требуется запрашивать. Используйте личный маркер доступа для заполнения DATABRICKS_TOKENэкземпляра рабочей области Databricks для подключения клиента OpenAI к Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Note

Если вы столкнулись со следующим сообщением ImportError: cannot import name 'OpenAI' from 'openai', обновите версию openai, используя !pip install -U openai. После установки пакета запустите .dbutils.library.restartPython()

Expected output:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Next steps