глоссарий технической терминологии Azure Databricks

A

Список управления доступом (ACL)

Список разрешений, подключенных к рабочей области, кластеру, заданию, таблице или эксперименту. ACL указывает, какие пользователи или системные процессы получают доступ к объектам и какие операции разрешены в ресурсах. Каждая запись в типичном списке управления доступом указывает субъект и операцию. См. списки управления доступом.

режим доступа

Функция безопасности, которая определяет, кто может использовать вычислительный ресурс и данные, к которым они могут получить доступ при использовании вычислительного ресурса. Каждый вычислительный ресурс в Azure Databricks имеет режим доступа. См. режимы доступа.

Транзакции ACID

Транзакции базы данных, которые обрабатываются надежно. ACID означает атомарность, согласованность, изоляцию, устойчивость. Ознакомьтесь с рекомендациями по надежности.

Агент Bricks

Функции Azure Databricks, позволяющие создавать высококачественные решения ИИ.

искусственный интеллект (ИИ)

Способность компьютера имитировать интеллектуальное поведение человека. См. сведения об ИИ и машинном обучении в Databricks.

Агент ИИ

Приложение с сложными возможностями рассуждений, которое позволяет ему создавать собственный план и выполнять задачу в соответствии с инструментами в своем распоряжении. См. шаблоны проектирования системы агента.

Функции ИИ

Встроенные функции SQL в Azure Databricks, позволяющие применять технологии ИИ к вашим данным непосредственно из SQL. См . статью "Обогащение данных с помощью функций ИИ".

Шлюз искусственного интеллекта

Решение Azure Databricks для управления и мониторинга конечными точками LLM, кодовыми агентами и точками развертывания моделей. Используйте шлюз ИИ для анализа использования, настройки разрешений и управления емкостью между поставщиками. См. шлюз ИИ Unity.

Детская площадка для искусственного интеллекта

Функция Azure Databricks, с помощью которой пользователи могут взаимодействовать, тестировать и сравнивать модели создания ИИ, обслуживаемые в рабочей области Azure Databricks. Посмотрите чат с LLM и прототипирование генеративных приложений ИИ с использованием AI Playground.

Обнаружение аномалий

Методы и средства, используемые для выявления необычных шаблонов, которые не соответствуют ожидаемому поведению в наборах данных. Azure Databricks упрощает обнаружение аномалий с помощью возможностей машинного обучения и обработки данных.

Apache Iceberg

Формат таблицы с открытым исходным кодом для аналитических нагрузок, поддерживающий эволюцию схемы, путешествие во времени и скрытое разбиение на разделы. Azure Databricks поддерживает таблицы Iceberg, управляемые каталогом Unity и внешними каталогами. См. раздел Что такое Apache Iceberg в Azure Databricks?.

Apache Spark

Распределенная вычислительная система с открытым кодом, используемая для рабочих нагрузок больших данных. Обзор Apache Spark.

искусственные нейронные сети (ANN)

Вычислительная система, работающая по принципу нейронов в человеческом мозге.

asset

Сущность в рабочей области Azure Databricks (например, объект или файл).

журнал аудита

Запись действий и действий пользователей в среде Azure Databricks, важной для обеспечения безопасности, соответствия требованиям и оперативного мониторинга. См. справочник по журналу диагностики.

Автозагрузчик

Функция приема данных, которая постепенно и эффективно обрабатывает новые файлы данных по мере их поступления в облачное хранилище без дополнительной настройки. См. раздел "Что такое автозагрузчик?".

AutoML

Функция Azure Databricks, которая упрощает процесс применения машинного обучения к наборам данных путем автоматического поиска оптимальной конфигурации алгоритма и гиперпараметров. См. раздел "Что такое AutoML?".

автоматизированная линия данных

Процесс автоматического отслеживания и визуализации потока данных из источника с помощью различных преобразований в окончательную форму, необходимый для отладки, соответствия и понимания зависимостей данных. Azure Databricks способствует этому через интеграции с инструментами отслеживания происхождения данных.

автомасштабирование, горизонтальное

Добавление или удаление исполнителей на основе количества задач, ожидающих назначения. Это происходит динамически во время одного обновления.

автомасштабирование, вертикальное

Увеличение или уменьшение размера машины (драйвера или исполнителя) на основе нагрузки на память (или ее отсутствия). Это происходит только в начале нового обновления.

Azure Databricks

Версия Databricks, оптимизированная для облачной платформы Microsoft Azure.

B

пакетная обработка

Метод обработки данных, позволяющий определить явные инструкции по обработке фиксированного количества статических не изменяющихся данных в виде одной операции. Azure Databricks использует spark SQL или DataFrames. См. статью "Стандартные соединители" в Lakeflow Connect.

Обнаружение предвзятости и устранение рисков

Процесс выявления и устранения предвзятости в моделях данных и машинного обучения для обеспечения справедливости и точности. Databricks предлагает средства и интеграции, помогающие обнаруживать и устранять смещение. См. статью "Мониторинг справедливости и предвзятости" для моделей классификации.

бизнес-аналитика (BI)

Стратегии и технологии, используемые предприятиями для анализа данных и управления бизнес-информацией.

C

каталог (Unity Catalog)

Первый уровень трехуровневого пространства имен каталога Unity (catalog.schema.table-etc). Каталог — это контейнер для схем, которые, в свою очередь, содержат таблицы, представления, тома, модели и функции. См. раздел Что такое каталоги в Azure Databricks?.

Обозреватель каталогов

Функция Azure Databricks, которая предоставляет пользовательский интерфейс для изучения данных, схем (баз данных), таблиц, моделей, функций и других ресурсов ИИ. Его можно использовать для поиска объектов данных и владельцев, понимания связей данных между таблицами и управления разрешениями и общим доступом. См. раздел "Что такое обозреватель каталогов?".

дочерний экземпляр

Дочерний экземпляр — это клон исходного экземпляра базы данных, выполненный по методу копирования при записи. Его можно создать из текущей точки во времени или из исторической точки во времени в окне хранения. См. раздел "Восстановление данных и путешествия по времени".

CICD или CI/CD

Объединенные методики непрерывной интеграции (CI) и непрерывной доставки (CD). См. раздел CI/CD на Azure Databricks.

очистка данных

Данные, прошедшие через процесс очистки данных, который является процессом обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных и ссылается на определение неполных, неправильных, неправильных, неточных или неуместных частей данных, а затем замены, изменения или удаления грязных или грубых данных.

Чистые комнаты

Функция Azure Databricks, использующая Delta Sharing и бессерверные вычисления для обеспечения безопасной среды, защищающей конфиденциальность, в которой несколько сторон могут делиться конфиденциальными данными предприятия и сотрудничать без прямого доступа к данным друг друга. С помощью чистых комнат пользователи из других учетных записей Databricks могут совместно создавать аналитические сведения о общих проектах, таких как рекламные кампании, инвестиционные решения или исследования и разработки, без предоставления доступа к конфиденциальным базовым данным. См. раздел Что такое Azure Databricks Clean Rooms?.

Поставщик облачной платформы

Компания, предоставляющая платформу облачных вычислений. Например, Microsoft Azure, Amazon Web Services (AWS) и Google Cloud Platform (GCP).

cluster

Несерверный вычислительный ресурс, используемый в записных книжках, заданиях и декларативных конвейерах Spark Lakeflow. Термин compute заменил cluster в пользовательском интерфейсе Azure Databricks, но по-прежнему используется в API кластеров и в метаданных.

compute

Относится к вычислительным ресурсам, которые являются элементами инфраструктуры, будь то оборудование или программное обеспечение, которые позволяют решать проблемы и создавать решения путем получения, анализа и хранения данных. Compute.

непрерывный конвейер

Конвейер, который постоянно обновляет все таблицы, так как новые данные поступают в входные данные без остановки. Смотрите Активированный режим против непрерывного режима конвейера.

D

направленный ациклический граф (DAG)

Метод представления зависимостей между задачами в рабочем процессе или конвейере. В модели обработки DAG задачи представлены как узлы в ациклическом графе, где края представляют зависимости между задачами.

каталог данных

Средство управления метаданными для управления источниками данных, предоставляющее сведения о структуре, расположении и использовании данных. Azure Databricks интегрируется с внешними каталогами данных для расширенного управления метаданными.

управление данными

Практика управления доступностью, целостностью, безопасностью и удобством использования данных, участием политик, процедур и технологий для обеспечения качества и соответствия данным.

прием данных

Процесс импорта, передачи, загрузки и обработки данных из различных источников в Azure Databricks для хранения, анализа и обработки.

озеро данных

Большое хранилище, содержащее огромный объем необработанных данных в их изначальном формате, пока они не потребуются.

Data Lakehouse

Система управления данными, которая объединяет преимущества озер данных и хранилищ данных. Озера данных предоставляют масштабируемые возможности хранения и обработки для современных организаций, которые хотят избежать изолированных систем для обработки различных рабочих нагрузок, таких как машинное обучение (ML) и бизнес-аналитика (BI). Озеро данных может помочь установить один источник истины, исключить избыточные затраты и обеспечить свежесть данных. См. раздел "Что такое озеро данных?".

Профилирование данных

Отслеживает статистические свойства и качество данных во всех таблицах в вашей учетной записи. Вы также можете использовать его для отслеживания производительности моделей машинного обучения и конечных точек, обслуживающих модели, путем мониторинга таблиц вывода, содержащих входные и прогнозы модели. См. профилирование данных.

конвейер данных

Ряд этапов, в которых данные создаются, собираются, обрабатываются и перемещаются в место назначения. Databricks упрощает создание и управление сложными конвейерами данных для пакетной обработки и обработки данных в режиме реального времени.

конфиденциальность данных

Практика защиты персональных данных от несанкционированного доступа, использования, раскрытия или кражи. Azure Databricks подчеркивает надежные функции конфиденциальности и безопасности данных, включая сквозное шифрование, управление доступом на основе ролей и соответствие основным нормативным требованиям по защите данных, для защиты конфиденциальной информации и обеспечения управления данными.

Визуализация данных

Подход к управлению данными, позволяющий приложению получать и управлять ими, не требуя технических сведений о данных, таких как форматирование или расположение. Azure Databricks может служить частью уровня виртуализации данных, обеспечивая простой доступ к данным и анализ данных в разных источниках.

Хранение данных

Относится к сбору и хранению данных из нескольких источников, чтобы получить быстрый доступ к бизнес-аналитике и отчетности. Архитектура лейкхаус и Databricks SQL предоставляют возможности облачного хранения данных для ваших озер данных. См. архитектуру хранения данных.

каталог баз данных

Сущность каталога Unity, представляющая базу данных Postgres в одном из экземпляров. Это концептуально похоже на внешний каталог в каталоге Unity. См. раздел "Регистрация базы данных в каталоге Unity".

Экземпляр базы данных

Экземпляр базы данных управляет хранилищем и вычислительными ресурсами и предоставляет конечные точки, к которым подключаются пользователи. См. раздел "Что такое экземпляр базы данных?".

Databricks

Единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в большом масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает облачную инфраструктуру от вашего имени. См. раздел Что такое Azure Databricks?.

Databricks AI/BI

Продукт бизнес-аналитики для предоставления понимания семантики данных, что позволяет самостоятельно анализировать данные. ИИ/BI основан на комплексной системе ИИ, которая извлекает аналитические выводы из полного жизненного цикла ваших данных на платформе Databricks, включая конвейеры ETL, историю данных и другие запросы. См. статью Databricks AI/BI.

Функции ИИ Databricks

Подсистема интеллектуальной аналитики данных, движующая платформу Databricks. Это составная система ИИ, которая объединяет использование моделей ИИ, извлечения, ранжирования и персонализации систем для понимания семантики данных и шаблонов использования вашей организации. См. дополнительные функции Databricks AI.

Приложения Databricks

Функция Azure Databricks, которая позволяет разработчикам создавать и развертывать безопасные данные и приложения ИИ непосредственно на платформе Azure Databricks с помощью Python или платформ Node.js. Приложения выполняются на бессерверных вычислениях и интегрируются с каталогом Unity, Databricks SQL и OAuth. См. статью "Приложения Databricks".

Декларативные пакеты автоматизации

Инструмент для упрощения внедрения рекомендаций по проектированию программного обеспечения, включая управление версиями, проверку кода, тестирование и непрерывную интеграцию и доставку (CI/CD) для ваших проектов данных и искусственного интеллекта. Пакеты позволяют описывать ресурсы Azure Databricks, такие как задания, конвейеры и записные книжки, в виде исходных файлов. См. что такое декларативные пакеты автоматизации.

Интерфейс командной строки Databricks

Интерфейс командной строки для Azure Databricks, позволяющий пользователям управлять рабочими областями Databricks и развертывать задания, записные книжки и библиотеки. См. интерфейс командной строки Databricks.

Databricks Connect

Клиентская библиотека, которая позволяет разработчикам подключать свои любимые интегрированные среды разработки (IDE), ноутбуки и другие инструменты к вычислительным ресурсам Azure Databricks и удаленно выполнять код на Spark. См. Databricks Connect.

Контейнерные службы Databricks

Функция Azure Databricks, которая позволяет указать образ Docker при создании вычислений. См . раздел "Настройка контейнеров с помощью службы контейнеров Databricks".

Databricks Marketplace

Открытый форум для обмена продуктами данных. У поставщиков должна быть учетная запись Azure Databricks, но получатели могут быть любыми пользователями. Ресурсы Marketplace включают наборы данных, записные книжки Azure Databricks, акселераторы решений Azure Databricks и модели машинного обучения. Наборы данных обычно становятся доступными как каталоги табличных данных, хотя и не табличные данные, в виде томов Azure Databricks, также поддерживаются. См. раздел "Что такое Databricks Marketplace?".

Среда выполнения Databricks

Среда выполнения, оптимизированная для аналитики больших данных. Databricks также предлагает Databricks Runtime для машинного обучения, оптимизированный для рабочих нагрузок машинного обучения. См. заметки о выпуске и совместимости версий Databricks Runtime.

Databricks SQL (DBSQL)

Набор служб, обеспечивающих возможности хранилища данных и производительность для ваших существующих озер данных. Databricks SQL поддерживает открытые форматы и стандартный SQL ANSI. Редактор SQL на платформе и средства мониторинга позволяют участникам команды сотрудничать с другими Azure Databricks пользователями непосредственно в рабочей области. См. статью Хранилище данных на Azure Databricks.

DBUs

Единица Databricks (DBU) — это нормализованная единица обработки мощности на платформе Databricks Lakehouse, используемой для измерения и ценообразования. Количество единиц DBU, используемых рабочей нагрузкой, определяется метриками обработки, которые могут включать используемые вычислительные ресурсы и объем обработанных данных. См. компоненты Azure Databricks.

Файловая система Databricks (DBFS)

Распределенная файловая система, подключенная к рабочей области Azure Databricks и доступная на вычислительных ресурсах Azure Databricks. Azure Databricks рекомендует использовать тома каталога Unity вместо DBFS для управления доступом к не табличным данным. См. раздел "Что такое DBFS?".

DataFrame

Структура данных, которая упорядочивает данные в двухмерную таблицу строк и столбцов, как электронную таблицу. DataFrame — одна из наиболее распространенных структур данных, используемых в современной аналитике данных, поскольку она представляет собой гибкую и интуитивно понятную структуру для хранения и работы с данными. См. учебник: Загрузка и преобразование данных с помощью Apache Spark DataFrames.

dataset

Структурированная коллекция данных, упорядоченная и хранящуюся вместе для анализа или обработки. Данные в наборе данных обычно связаны с одним источником или предназначены для одного проекта.

Delta Lake

Слой хранения с открытым исходным кодом, который обеспечивает надежность хранилищам данных. Delta Lake поддерживает транзакции ACID и масштабируемую обработку метаданных, а также позволяет объединить обработку потоковых данных и пакетную обработку. См. Что такое Delta Lake в Azure Databricks?.

Pipelines

Декларативная платформа для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных. Вы определяете преобразования для выполнения над вашими данными, а Lakeflow Spark Declarative Pipelines управляет оркестрацией задач, управлением кластерами, мониторингом, качеством данных и обработкой ошибок. См. декларативные конвейеры Lakeflow Spark.

Наборы данных конвейеров

Потоковые таблицы, материализованные представления и представления, поддерживаемые на основе результатов декларативных запросов.

Дельта Шеринг

Позволяет предоставлять общий доступ к данным и ресурсам ИИ в Azure Databricks пользователям за пределами организации, независимо от того, используют ли эти пользователи Azure Databricks или нет. Так же доступен в виде проекта с открытым исходным кодом для совместного использования табличных данных, использование его в Azure Databricks добавляет возможность совместного использования нетабличных данных, неструктурированных данных (объёмов), моделей ИИ, представлений, отфильтрованных данных и записных книжек. См. раздел "Что такое Delta Sharing?".

Delta-таблицы

Формат таблицы данных по умолчанию в Azure Databricks и является функцией платформы данных Delta Lake открытый код. Таблицы Delta обычно используются для озер данных, где данные загружаются с помощью потоковой передачи или крупными партиями. См. таблицы Azure Databricks.

E

встраивание (существительное)

Математическое представление семантического содержимого данных, например текста или изображений, выраженное как вектор чисел. Встраивания используются в Azure Databricks для векторного поиска, генерации с увеличенными возможностями извлечения и других приложений ИИ. Отличается от термина "внедрение" как для внедрения панели мониторинга в пользовательский интерфейс. См. Mosaic AI Vector Search.

ETL (извлечение, преобразование, загрузка)

Современный подход к интеграции данных, который извлекает данные из источников, загружает их в целевую систему, а затем преобразует их внутри целевой системы. См. Руководство: Создание ETL-конвейера с помощью декларативных конвейеров Lakeflow Spark.

внешняя таблица

Таблица, зарегистрированная в каталоге Unity Catalog, где данные находятся во внешнем облачном хранилище. Каталог Unity управляет метаданными и контролем доступа, но жизненный цикл данных управляется за пределами Azure Databricks. См. статью " Работа с внешними таблицами".

F

Хранилище компонентов

Центральный репозиторий для хранения, управления и обслуживания функций для моделей машинного обучения. См. раздел "Хранилище компонентов Databricks".

тонкой настройки

Процесс принятия предварительно обученной модели машинного обучения и дальнейшего обучения его на небольшом наборе данных для конкретного домена для оптимизации производительности для конкретного приложения. См. статью "Обучение моделей ИИ и машинного обучения".

flow

Поток — это процесс в декларативных конвейерах Lakeflow Spark, который считывает данные, преобразует их и записывает в целевой пункт.

иностранная таблица

Таблица только для чтения в каталоге Unity, данные которой управляются каталогом за пределами каталога Unity, например AWS Glue или Snowflake. Azure Databricks использует федерацию Lakehouse для получения метаданных и чтения таблицы из объектного хранилища. См. статью "Работа с внешними таблицами".

базовые модели

Крупные модели машинного обучения предварительно обучены с намерением дальнейшего дообучения для более конкретных задач понимания и генерации текста. См. API модели Databricks Foundation.

G

Код Genie

Автономный партнер ИИ, разработанный специально для работы с данными в Azure Databricks. Код Genie глубоко интегрирован с Unity Catalog, обеспечивая понимание контекста ваших таблиц, столбцов и их происхождения, что ускоряет выполнение сложных многоэтапных задач с данными. См. код Genie.

Genie Space

Функция Azure Databricks AI/BI, которая позволяет бизнес-командам взаимодействовать с данными с помощью естественного языка. Эксперты по доменам настраивают Genie Spaces с наборами данных, примерами запросов и рекомендациями, чтобы Genie могли переводить бизнес-вопросы в запросы SQL. Узнайте , что такое Genie Space.

Пользовательский интерфейс Genie

Упрощенный интерфейс Azure Databricks, предназначенный для бизнес-пользователей, предоставляющий единую точку входа для взаимодействия с панелями мониторинга ИИ/BI, пространствами Genie и Databricks Apps без навигации по техническим понятиям рабочей области. См. пользовательский интерфейс Genie.

генерированный ИИ

Тип искусственного интеллекта, ориентированный на способность компьютеров использовать модели для создания содержимого, например изображений, текста, кода и синтетических данных. Созданные приложения ИИ создаются на основе моделей создания ИИ: больших языковых моделей (LLMs) и базовых моделей. См. сведения об ИИ и машинном обучении в Databricks.

Папки Git

Визуальный клиент Git, интегрированный в рабочую область Azure Databricks, которая предоставляет возможности управления версиями, совместной работы и CI/CD для записных книжек и файлов. Прежнее название — Repos. См. папки Git Azure Databricks.

I

Вывод

Процесс использования обученной модели машинного обучения для создания прогнозов или выходных данных из новых входных данных. Azure Databricks поддерживает вывод в режиме реального времени и пакетной обработки с помощью службы модели ИИ Мозаики. См. статью "Развертывание моделей с помощью мозаичных моделей ИИ".

init-скрипт

Скрипт оболочки, который выполняется при запуске вычислительного ресурса Azure Databricks. Скрипты Init могут устанавливать пакеты, изменять конфигурации или задавать переменные среды. См. статью "Что такое скрипты инициализации?".

J

job

Основной модуль для планирования и оркестрации производственных рабочих нагрузок в Azure Databricks. Задания состоят из одной или нескольких задач. Смотрите Задания Lakeflow.

L

Lakeflow Connect

Предлагает встроенные соединители для приема данных из корпоративных приложений и баз данных. Результирующий конвейер приема управляется каталогом Unity и работает на основе бессерверных вычислений и декларативных конвейеров LakeFlow Spark. См. раздел "Управляемые соединители" в Lakeflow Connect.

Федерация Lakehouse

Платформа федерации запросов для Azure Databricks. Федерация запросов терминов описывает коллекцию функций, позволяющих пользователям и системам выполнять запросы к нескольким источникам данных без необходимости переносить все данные в единую систему. Azure Databricks использует каталог Unity для управления федерацией запросов. См. статью "Что такое Федерация Lakehouse?".

Lakebase

Azure Databricks Lakebase — это база данных OLTP, интегрированная с lakehouse. База данных обработки транзакций в сети (OLTP) — это специализированный тип системы баз данных, предназначенная для эффективной обработки больших объемов транзакционных данных в режиме реального времени. Lakebase позволяет создать базу данных OLTP на Azure Databricks и перенести рабочие нагрузки OLTP в Lakehouse.

См. Lakebase.

Конечная точка службы Lakebase

Точка подключения Lakebase является основным пунктом доступа к вашей базе данных Lakebase Postgres. Каждая конечная точка определяется уникальным идентификатором конечной точки и работает в одном облачном регионе. Конечную точку можно настроить как единичный вычислительный ресурс или с высокой доступностью, что объединяет основной вычислительный экземпляр с одним или несколькими вторичными вычислительными экземплярами для автоматического переключения при сбое. Подключение к базе данных выполняется через строки подключения конечной точки.

См. раздел "Высокий уровень доступности".

большая языковая модель (LLM)

Модель обработки естественного языка (NLP), предназначенная для задач, таких как ответы на открытые вопросы, чат, суммирование содержимого, выполнение практически произвольных инструкций, перевода и создания контента и кода. LLM обучаются на массивных наборах данных с помощью современных алгоритмов машинного обучения, чтобы изучить шаблоны и структуры человеческого языка. Ознакомьтесь с большими языковыми моделями (LLM) в Databricks.

library

Пакет кода, доступный для записной книжки или задания, выполняемого в вашем кластере. Среды выполнения Databricks включают множество библиотек, и вы также можете загрузить свои собственные. См. раздел "Установка библиотек".

кластеризация жидкости

Функция оптимизации макета данных Azure Databricks для таблиц Delta и Iceberg, которое аддитивно кластеризует данные на основе указанных столбцов, тем самым повышая производительность запросов. В отличие от традиционного секционирования, кластеризация жидкости адаптируется к изменению шаблонов данных. См. раздел "Использование кластеризации жидкости" для таблиц.

M

управляемая таблица

Таблица, файлы данных и метаданные которой полностью управляются каталогом Unity. Управляемые таблицы всегда хранятся в формате Delta или Iceberg и получают преимущества от автоматического обслуживания с помощью прогнозной оптимизации. См. управляемые таблицы Unity Catalog в Azure Databricks для Delta Lake и Apache Iceberg.

материализованное представление

Представление, предварительно компьютированное и сохраненное, чтобы его можно было запрашивать с более низкой задержкой или многократно без избыточных вычислений. См. материализованные представления.

Medallion архитектура

Шаблон организации данных, используемый для логического упорядочения данных в лейкхаусе, с целью последовательного и постепенного улучшения структуры и качества данных по мере их прохождения через уровни архитектуры (от уровня бронзы к серебру и золоту). Что такое архитектура медальона lakehouse?.

metastore

Компонент, в котором хранятся все сведения о структуре различных таблиц и секций в хранилище данных, включая сведения о типах столбцов и столбцов, сериализаторы и десериализаторы, необходимые для чтения и записи данных, а также соответствующие файлы, в которых хранятся данные. См. раздел "Хранилище метаданных".

Представление метрик

Объект каталога Unity, предоставляющий централизованный способ определения и управления повторно используемыми бизнес-метриками. Представления метрик отделяют определения мер от групп измерений, позволяя определять метрики один раз и запрашивать их гибко в любом измерении. Смотрите представления метрик каталога Unity.

MLflow

Крупнейшая в мире платформа с открытым исходным кодом для инженерии искусственного интеллекта, агентов, LLM и моделей машинного обучения. MLflow позволяет командам всех размеров выполнять отладку, оценку, мониторинг и оптимизацию приложений ИИ при управлении затратами и управлением доступом к моделям и данным. MLflow на Azure Databricks — это полностью управляемая служба с дополнительными функциями для корпоративных клиентов, обеспечивая масштабируемое и безопасное управляемое развертывание MLflow. См. MLflow на Databricks.

Отслеживание MLflow

Функция MLflow для GenAI, которая обеспечивает сквозную наблюдаемость путем регистрации каждого шага агента или приложения ИИ. Используйте трассировку MLflow для отладки, мониторинга и аудита поведения агента в разработке и рабочей среде. См. треккинг MLflow — наблюдаемость для GenAI.

Протокол контекста модели (MCP)

Стандарт с открытым исходным кодом, который связывает агентов ИИ с инструментами, ресурсами, запросами и другими контекстными сведениями через стандартный интерфейс. Azure Databricks предоставляет управляемые, внешние и пользовательские серверы MCP. См. протокол контекста модели (MCP) в Databricks.

Обучение модели

Процесс обучения моделей машинного обучения и глубокого обучения на Azure Databricks с использованием многих популярных библиотек с открытым исходным кодом. См. статью "Обучение моделей ИИ и машинного обучения".

Мозаика ИИ

Функция, предоставляющая унифицированные средства для создания, развертывания, оценки и управления решениями ИИ и машинного обучения— от создания прогнозных моделей машинного обучения до последних созданных приложений искусственного интеллекта. См. сведения об ИИ и машинном обучении в Databricks.

Сервис мозаичной модели ИИ

Унифицированный интерфейс для развертывания, управления и запросов моделей ИИ для инференции в режиме реального времени и пакетной обработки. См. статью "Развертывание моделей с помощью мозаичных моделей ИИ".

Обучение модели Mosaic AI

Эта функция позволяет использовать данные для настройки базовой модели для оптимизации производительности конкретного приложения. Выполняя полную настройку или продолжая обучение базовой модели, вы можете обучать собственную модель с помощью значительно меньше данных, времени и вычислительных ресурсов, чем обучение модели с нуля. Ознакомьтесь с тонкой настройкой модели Foundation.

Поиск векторов Mosaic AI

Векторный индекс поиска, встроенный в платформу Databricks Data Intelligence и интегрированный с его средствами управления и производительности. См. Mosaic AI Vector Search.

N

notebook

Интерактивный веб-интерфейс, используемый специалистами по обработке и анализу данных для написания и выполнения кода на нескольких языках (например, Python, Scala, SQL) в одном документе. См. записные книжки Databricks.

O

OAuth

OAuth — это открытый стандарт делегирования доступа, который часто используется для пользователей Интернета для предоставления доступа к веб-сайтам или приложениям доступа к их информации на других веб-сайтах, но без предоставления им паролей. См. Авторизация доступа к ресурсам Azure Databricks.

P

Партнёрское подключение

Программа Databricks, которая обеспечивает интеграцию, поддерживаемую независимыми поставщиками программного обеспечения для подключения к большинству корпоративных систем данных. См. раздел "Что такое Databricks Partner Connect?".

личный маркер доступа (PAT)

Строка символов, которая используется для проверки подлинности пользователя при доступе к компьютерной системе вместо пароля. См. Авторизация доступа к ресурсам Azure Databricks.

Photon

Высокопроизводительный собственный векторизированный движок запросов Databricks, который выполняет ваши рабочие нагрузки SQL и вызовы API DataFrame быстрее, чтобы сократить общую стоимость на каждую рабочую нагрузку. Photon совместим с API Apache Spark, поэтому он работает с существующим кодом. См. статью "Что такое Фотон?".

прогнозная оптимизация

Функция Azure Databricks, которая автоматически идентифицирует и выполняет операции обслуживания в управляемых таблицах каталога Unity для повышения производительности запросов и снижения затрат на хранение. См. прогнозную оптимизацию для управляемых каталогом Unity таблиц.

pipeline

DAG таблиц, представлений, материализованных представлений, потоков и приемников, которые обновляются лениво в порядке зависимостей, определяемом системой.

R

генерация, усиленная поиском (RAG)

Метод, позволяющий большой языковой модели (LLM) создавать обогащенные ответы путем расширения запроса пользователя с поддержкой данных, полученных из внешнего источника информации. Включив полученные сведения, RAG позволяет LLM создавать более точные и качественные ответы по сравнению с тем, когда запрос не дополняется дополнительным контекстом. См. раздел RAG (получение дополненного поколения) на Azure Databricks.

S

схема (Каталог Unity)

Дочерний элемент каталога в Unity Catalog, который может содержать таблицы, представления (views), тома, модели и функции. Схема — это второй уровень трехуровневого пространства имен каталога Unity (catalog.schema.table-etc). См. раздел "Что такое каталог Unity?".

бессерверные вычисления

Вычислительные ресурсы, управляемые Azure Databricks, что снижает затраты на управление и обеспечивает мгновенное вычисление для повышения производительности пользователей. См. раздел "Подключение к бессерверным вычислениям".

субъект-служба

Идентификатор, созданный для использования с автоматизированными инструментами, выполнения заданий и приложений. Вы можете ограничить доступ субъекта-службы к ресурсам с помощью разрешений таким же образом, как и пользователь Azure Databricks. В отличие от пользователя Azure Databricks, служебный принципал — это удостоверение, доступное только через API; оно не имеет возможности напрямую получить доступ к пользовательскому интерфейсу Azure Databricks или интерфейсу командной строки Databricks CLI. См . раздел "Субъекты-службы".

приемник (конвейеры)

Приемник — это место назначения для потока данных, который записывает данные во внешнюю систему (например, Kafka, Kinesis, Delta).

Хранилище SQL

Вычислительный ресурс, который позволяет запрашивать и просматривать данные по Azure Databricks. См. статью "Подключение к хранилищу SQL".

потоковая обработка

Метод обработки данных, позволяющий определить запрос к несвязанным, постоянно растущим набору данных, а затем обрабатывать данные в небольших добавочных пакетах. Azure Databricks обработка потоков данных использует Structured Streaming. См. основные понятия структурированной потоковой передачи.

streaming

Потоковая передача означает любой мультимедийный контент — в прямом эфире или записанный — т. е. поток данных, доставляемый на компьютеры и мобильные устройства через Интернет и воспроизводимый в режиме реального времени. См. основные понятия структурированной потоковой передачи.

Аналитика потоковой передачи

Процесс анализа данных, постоянно создаваемых различными источниками. Azure Databricks поддерживает потоковую аналитику с помощью структурированной потоковой передачи, что позволяет обрабатывать и анализировать динамические данные для аналитики в режиме реального времени.

Структурированная потоковая передача

Масштабируемый и отказоустойчивый обработчик потоковой обработки, построенный на подсистеме SQL Spark, что позволяет выполнять сложные вычисления в качестве потоковых запросов. См. основные понятия структурированной потоковой передачи.

потоковая таблица

Управляемая таблица, в которую осуществляется запись потоком данных. См. таблицы потоковой передачи.

системные таблицы

Azure Databricks размещает аналитическое хранилище данных, связанное с операционными данными вашей учетной записи, такими как журналы аудита, оплачиваемое использование и происхождение данных. Системные таблицы доступны в каталоге system в Unity Catalog. См. справочник по системным таблицам.

синхронизированная таблица

Синхронизированная таблица — это таблица Postgres только для чтения каталога Unity, которая автоматически синхронизирует данные из таблицы каталога Unity с экземпляром базы данных. См. статью «Использование данных Lakehouse с таблицами, синхронизированными через Lakebase (подготовленное Lakebase)».

T

table

Таблица находится в схеме и содержит строки данных. Все таблицы, созданные в Databricks, используют Delta Lake по умолчанию. Таблицы, поддерживаемые Delta Lake, также называются таблицами Delta. См. таблицы Azure Databricks.

триггерный конвейер

Поток данных, который загружает все данные, доступные в начале обновления для каждой таблицы, работает в порядке зависимостей и затем завершает работу. Смотрите Активированный режим против непрерывного режима конвейера.

U

определяемая пользователем функция (UDF)

Пользовательская функция, созданная пользователем для расширения встроенных возможностей SQL или языка программирования. В Azure Databricks UDF можно зарегистрировать в Unity Catalog для управления и повторного использования в разных рабочих областях. См. раздел "Что такое пользовательские функции?".

каталог Unity

Функция Azure Databricks, которая обеспечивает централизованный контроль доступа, аудит, родословную данных и возможности обнаружения данных в рабочих областях Azure Databricks. См. раздел "Что такое каталог Unity?".

V

векторная база данных

База данных, оптимизированная для хранения и извлечения внедренных данных. Внедрение — это математические представления семантического содержимого данных, обычно текстовые или изображения. Databricks предоставляет индекс векторного поиска, который позволяет использовать функции векторной базы данных в таблицах Delta. См. Mosaic AI Vector Search.

view

Виртуальная таблица, определяемая SQL-запросом. Он не сохраняет данные, но предоставляет способ представления данных из одной или нескольких таблиц в определенном формате или абстракции. См. Что такое представление?.

тома (каталог Unity)

Объекты каталога Unity, обеспечивающие управление не табличными наборами данных. Томы представляют собой логическую единицу хранения в облачном объектном хранилище. Тома предоставляют возможности для доступа к файлам, их хранения, управления ими и упорядочения. См. раздел "Что такое тома каталога Unity?".

W

Задания Lakeflow

Набор средств, позволяющих планировать и оркестрировать задачи обработки данных на Azure Databricks. Смотрите Задания Lakeflow.

workload

Объем возможностей обработки, необходимых для выполнения задачи или группы задач. Azure Databricks определяет два типа рабочих нагрузок: инженерия данных (задание) и аналитика данных (универсальное использование). См. компоненты Azure Databricks.

workspace

Среда организации, которая позволяет пользователям Databricks разрабатывать, просматривать и предоставлять общий доступ к объектам, таким как записные книжки, эксперименты, запросы и панели мониторинга. См. пользовательский интерфейс рабочей области.