компоненты Azure Databricks

В этой статье представлены основные компоненты, которые необходимо понять, чтобы эффективно использовать Azure Databricks.

Учетные записи и рабочие области

В Azure Databricks workspace — это деплоймент в облаке, который служит средой для вашей команды для доступа к ресурсам Databricks. Ваша организация может выбрать несколько рабочих областей или только одну в зависимости от потребностей.

Объект Azure Databricks account представляет одну сущность, которая может включать несколько рабочих областей. Учетные записи, включенные для каталога Unity , можно использовать для управления пользователями и их доступом к данным централизованно во всех рабочих областях в учетной записи.

Выставление счетов: единицы Databricks (DBUs)

Azure Databricks выставляет счета на основе единиц Databricks (DBUs), которые являются единицами вычислительной мощности в час в зависимости от типа экземпляра виртуальной машины.

См. страницу цен Azure Databricks.

Проверка подлинности и авторизация

В этом разделе описываются понятия, которые необходимо знать при управлении удостоверениями Azure Databricks и их доступом к ресурсам Azure Databricks.

Пользователь

Отдельная личность, которая получает доступ к системе. Идентичности пользователей представлены адресами электронной почты. См. раздел "Управление пользователями".

Субъект-служба

Удостоверение службы, предназначенное для использования с заданиями, автоматизированными инструментами и системами, например скриптами, приложениями и платформами CI/CD. Принципы службы представлены идентификатором приложения. См . раздел "Субъекты-службы".

Группа

Коллекция идентичностей. Группы упрощают управление идентификацией, позволяя легче назначать доступ к рабочим областям, данным и другим защищаемым объектам. Все удостоверения Databricks можно назначать в качестве членов групп. См . статью "Группы".

Список управления доступом (ACL)

Список разрешений, подключенных к рабочей области, кластеру, заданию, таблице или эксперименту. ACL (список управления доступом) указывает, какие пользователи или системные процессы имеют доступ к объектам, а также какие операции разрешены на объектах. Каждая запись в обычном списке управления доступом указывает объект и операцию. См. списки управления доступом.

Личный токен доступа

Личный маркер доступа — это строка, используемая для проверки подлинности вызовов REST API, подключений партнеров технологии и других средств. См. раздел Аутентификация с помощью личных токенов доступа Azure Databricks (устаревший).

Microsoft Entra ID маркеры также можно использовать для проверки подлинности в REST API.

интерфейсы Azure Databricks

В этом разделе описаны интерфейсы для доступа к ресурсам в Azure Databricks.

Пользовательский интерфейс

Пользовательский интерфейс Azure Databricks — это графический интерфейс для взаимодействия с функциями, такими как папки рабочей области и их содержащиеся объекты, объекты данных и вычислительные ресурсы.

Джинн

Genie — это упрощенный интерфейс Azure Databricks, предназначенный для бизнес-пользователей. Она предоставляет одну точку входа для просмотра панелей мониторинга ИИ/BI, задавать вопросы о данных и использовать Databricks Apps без навигации по техническим понятиям рабочей области. См. пользовательский интерфейс Genie.

REST API

REST API Databricks предоставляет конечные точки для изменения или запроса сведений об Azure Databricks учетных записях и объектах рабочей области. См. справочник по учетной записи и справочник по рабочей области.

SQL REST API

REST API SQL позволяет автоматизировать задачи в объектах SQL. См. API SQL.

интерфейс командной строки (CLI)

Интерфейс командной строки Databricks размещен в GitHub. Интерфейс командной строки построен на основе REST API Databricks.

Управление данными

В этом разделе описываются средства и логические объекты, используемые для упорядочивания и управления данными по Azure Databricks. См. объекты Database в Azure Databricks.

Каталог Unity

Каталог Unity — это единое решение для управления данными и ресурсами ИИ на Azure Databricks, которое обеспечивает централизованный контроль доступа, аудит, происхождение и возможности обнаружения данных в рабочих областях Databricks. См. раздел "Что такое каталог Unity?".

Каталог

Каталоги — это контейнер самого высокого уровня для организации и изоляции данных на Azure Databricks. Вы можете совместно использовать каталоги между рабочими областями в рамках одного региона и одной учетной записи. См. Что такое каталоги в Azure Databricks?.

Схема

Схемы, также известные как базы данных, содержатся в каталогах и обеспечивают более детализированный уровень организации. Они содержат объекты базы данных и ресурсы ИИ, такие как тома, таблицы, функции и модели. См. Что такое схемы в Azure Databricks?.

Стол

Таблицы упорядочивают и управляют доступом к структурированным данным. Вы выполняете запросы к таблицам с помощью Apache Spark SQL и API Apache Spark. См. таблицы Azure Databricks.

Просмотреть

Представление — это объект, доступный только для чтения, производный от одной или нескольких таблиц и представлений. Представления сохраняют запросы, определённые для таблиц. См. Что такое представление?.

Объем

Тома представляют логический объем хранилища в облачном хранилище объектов и организуют доступ к нетабличным данным. Databricks рекомендует использовать тома для управления доступом ко всем нетабличным данным в объектном облачном хранилище. См. раздел "Что такое тома каталога Unity?".

таблицы Delta

По умолчанию все таблицы, созданные в Azure Databricks, являются разностными таблицами. Таблицы Delta основаны на open-source проекте Delta Lake, системе для высокопроизводительного хранилища таблиц ACID в облачных объектных хранилищах. Таблица Delta хранит данные в виде каталога файлов в облачном хранилище объектов и регистрирует метаданные таблицы в хранилище метаданных в пределах каталога и схемы.

Метастор

Каталог Unity предоставляет хранилище метаданных на уровне учетной записи, которое регистрирует метаданные о данных, ИИ и разрешениях для каталогов, схем и таблиц. См. раздел "Хранилище метаданных".

Azure Databricks предоставляет устаревшее хранилище метаданных Hive для клиентов, которые не приняли каталог Unity. См. управление доступом к таблицам метаданных Hive (устаревшая версия).

Обозреватель каталогов

Обозреватель каталогов позволяет просматривать и управлять данными и ресурсами ИИ, включая схемы (базы данных), таблицы, модели, тома (не табличные данные), функции и зарегистрированные модели машинного обучения. Его можно использовать для поиска объектов данных и владельцев, понимания связей данных между таблицами и управления разрешениями и общим доступом. См. раздел "Что такое обозреватель каталогов?".

корень DBFS

Внимание

Хранение и доступ к данным с помощью корня DBFS или точек монтирования DBFS является устаревшим подходом и не рекомендовано Databricks. Вместо этого Databricks рекомендует использовать каталог Unity для управления доступом ко всем данным. См. раздел "Что такое каталог Unity?".

Корневой каталог DBFS — это расположение хранилища, доступное всем пользователям по умолчанию. См. раздел "Что такое DBFS?".

Управление вычислениями

В этом разделе описываются понятия, которые необходимо знать для выполнения вычислений в Azure Databricks.

Кластер

Набор вычислительных ресурсов и конфигураций, в которых выполняются записные книжки и задания. Существует два типа кластеров: универсальные кластеры и кластеры заданий. См. раздел "Вычисления".

  • Вы создаете кластер всех целей с помощью пользовательского интерфейса, интерфейса командной строки или REST API. Вы можете вручную завершить и перезапустить универсальный кластер. Несколько пользователей могут использовать такие кластеры одновременно для интерактивного совместного анализа данных.
  • Планировщик заданий Azure Databricks создает новый кластер заданий при выполнении задания в новом кластере заданий и завершает кластер после завершения задания. Невозможно перезапустить кластер заданий.

Пул

Набор простаивающих экземпляров, готовых к использованию, которые сокращают время запуска и автоматического масштабирования кластера. При подключении к пулу кластер резервирует драйверные и рабочие узлы из пула. См. справочник по конфигурации пула.

Если у пула недостаточно ресурсов простоя для размещения запроса кластера, пул расширяется, выделяя новые экземпляры от поставщика экземпляров. При завершении работы подключенного кластера экземпляры, которые он использовал, возвращаются в пул и могут быть повторно использованы другим кластером.

Databricks Runtime

Набор основных компонентов, выполняемых в кластерах, управляемых Azure Databricks. См. раздел "Вычисления". Azure Databricks имеет следующие среды выполнения:

  • Databricks Runtime включает Apache Spark, но также добавляет ряд компонентов и обновлений, которые значительно повышают удобство использования, производительность и безопасность аналитики больших данных.
  • Databricks Runtime для Машинное обучение основан на Databricks Runtime и предоставляет предварительно созданную инфраструктуру machine learning, интегрированную со всеми возможностями рабочей области Azure Databricks. Она содержит много популярных библиотек, включая TensorFlow, Keras, PyTorch и XGBoost.

Пользовательский интерфейс заданий и конвейеров

Пользовательский интерфейс рабочей области "Задания и конвейеры" предоставляет вход в задания, декларативные конвейеры Spark Lakeflow и UIs Lakeflow Connect, которые позволяют управлять и планировать рабочие процессы.

Работы

Механизм, не требующий взаимодействия, для оркестрации и планирования блокнотов, библиотек и других задач. Смотрите задания Lakeflow

Конвейеры

Декларативные конвейеры Spark Lakeflow предоставляют декларативную платформу для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных. См. Lakeflow Spark декларативные конвейеры.

Рабочая нагрузка

Рабочая нагрузка — это объем возможностей обработки, необходимых для выполнения задачи или группы задач. Azure Databricks определяет два типа рабочих нагрузок: инженерия данных (задание) и аналитика данных (универсальное использование).

  • Data engineering (автоматизированная) рабочая нагрузка выполняется в кластере заданий a job cluster, который планировщик заданий Azure Databricks создает для каждой рабочей нагрузки.
  • Аналитика данных Рабочая нагрузка (интерактивная) выполняется в кластере всех целей. Интерактивные рабочие нагрузки обычно выполняют команды в Azure Databricks notebook. Однако выполнение задания в существующем кластере всех целей также рассматривается как интерактивная рабочая нагрузка.

Контекст выполнения

Состояние среды цикла чтения–выполнения–вывода (REPL) для каждого поддерживаемого языка программирования. Поддерживаемые языки: Python, R, Scala и SQL.

Инжиниринг данных

Средства проектирования данных помогают совместному взаимодействию между специалистами по обработке и анализу данных, инженерами по обработке и анализу данных.

Рабочая область

Рабочая область workspace — это среда для доступа ко всем активам Azure Databricks. Рабочая область упорядочивает объекты (записные книжки, библиотеки, панели мониторинга и эксперименты) в папки и предоставляет доступ к объектам данных и вычислительным ресурсам.

Записная книжка

Веб-интерфейс для создания рабочих процессов обработки и машинного обучения, которые могут содержать выполняемые команды, визуализации и текст повествования. См. записные книжки Databricks.

Библиотека

Пакет кода, доступный для записной книжки или задания, выполняющегося на вашем кластере. Среды выполнения Databricks включают множество библиотек, и вы также можете загрузить собственные. См. раздел "Установка библиотек".

Папка Git (ранее Repos)

Папка, содержимое которой имеет общие версии посредством синхронизации с удаленным репозиторием Git. Папки Databricks Git интегрируются с Git для обеспечения контроля источников и управления версиями ваших проектов.

ИИ и машинное обучение

Databricks предоставляет интегрированную сквозную среду с управляемыми службами для разработки и развертывания приложений искусственного интеллекта и машинного обучения.

Мозаика ИИ

Фирменное название для продуктов и услуг от Databricks Mosaic AI Research, команды исследователей и инженеров, ответственных за самые большие прорывы в генеративном ИИ. Мозаичные продукты ИИ включают функции машинного обучения и ИИ в Databricks. См. исследование мозаики.

Среда выполнения машинного обучения

Для разработки моделей машинного обучения и искусственного интеллекта Databricks предоставляет среду выполнения Databricks для Машинное обучение, которая автоматизирует создание вычислений с предварительно созданной machine learning и инфраструктурой глубокого обучения, включая наиболее распространенные библиотеки машинного обучения и библиотеки DL. Также содержит встроенную, предварительно настроенную поддержку GPU, включая драйверы и вспомогательные библиотеки. Ознакомьтесь с информацией о последних выпусках среды выполнения в разделе заметки о выпусках Databricks Runtime и совместимости.

Эксперимент

Коллекция запусков MLflow для разработки агентов, приложений LLM и моделей машинного обучения. См. Упорядочение учебных запусков с помощью экспериментов MLflow.

Функции

Функции являются важным компонентом моделей машинного обучения. Хранилище функций обеспечивает общий доступ к функциям и обнаружение компонентов в организации, а также гарантирует, что для обучения и вывода моделей используется тот же код вычислений функций. См. раздел "Хранилище компонентов Databricks".

Модели генеративного ИИ

Databricks поддерживает изучение, разработку и развертывание формируемых моделей искусственного интеллекта, в том числе:

Реестр моделей

Databricks предоставляет размещенную версию реестра моделей MLflow в каталоге Unity. Модели, зарегистрированные в каталоге Unity, наследуют централизованный контроль доступа, происхождение и перекрестное обнаружение и доступ между рабочими областями. См. статью "Управление жизненным циклом модели" в каталоге Unity.

Обслуживание модели

Служба модели ИИ Мозаики предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение. С помощью платформы развертывания моделей ИИ Mosaic вы можете развертывать собственные модели, фундаментальные модели или сторонние модели, размещенные за пределами Databricks. См. статью "Развертывание моделей с помощью мозаичных моделей ИИ".

Хранение данных

Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. См. архитектуру хранения данных.

Запрос

Запрос — это допустимая инструкция SQL, которая позволяет взаимодействовать с данными. Вы можете создавать запросы с помощью редактора SQL на платформе или подключаться с помощью соединителя SQL, драйвера или API. Дополнительные сведения о работе с запросами см. в статье "Доступ" и управление сохраненными запросами .

Хранилище SQL

Вычислительный ресурс, на котором выполняются запросы SQL. Существует три типа хранилищ SQL: классические, профессиональные и бессерверные. Azure Databricks рекомендует использовать бессерверные склады, где они доступны. Ознакомьтесь с типами хранилища SQL , чтобы сравнить доступные функции для каждого типа хранилища.

Журнал запросов

Список выполненных запросов и их характеристик производительности. Журнал запросов позволяет отслеживать производительность запросов, помогая выявлять узкие места и оптимизировать среды выполнения запросов. См. журнал запросов.

Визуализация

Графическое представление результата выполнения запроса. См. визуализации в записных книжках и SQL-редакторе Databricks.

Панель инструментов

Презентация визуализаций данных и комментариев. Панели мониторинга можно использовать для автоматической отправки отчетов всем пользователям в вашей учетной записи Azure Databricks. Используйте код Genie для создания визуализаций на основе запросов естественного языка. См. панели мониторинга. Вы также можете создать панель мониторинга из записной книжки. Панели мониторинга в записных книжках.