Поделиться через


Знакомство с машинным обучением Spark в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Это важно

Надстройка "Кластеры больших данных Microsoft SQL Server 2019" будет прекращена. Поддержка кластеров больших данных SQL Server 2019 завершится 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на этой платформе, а программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений для SQL Server до этого времени. Для получения дополнительной информации см. запись блога об объявлении и параметры работы с большими данными на платформе Microsoft SQL Server.

В этой статье объясняется, как эффективно использовать Spark для машинного обучения в кластерах больших данных SQL Server.

Машинное обучение Spark в кластерах больших данных SQL Server

Кластеры больших данных SQL Server позволяют сценариям машинного обучения и решениям с помощью различных стеков технологий: служб машинного обучения SQL Server и Apache Spark ML.

Чтобы лучше понять, когда следует использовать каждый стек технологий, ознакомьтесь с руководством по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается машинное обучение Apache Spark.

Для сценариев машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным подходом. Тем не менее, это далеко не полный список возможностей того, что можно достичь с помощью Машинного обучения Spark, для полного списка функций см. в статье Spark MLlib.

В следующем разделе представлен список сценариев и ссылок на Spark в кластерах больших данных SQL Server.

Основные элементы машинного обучения Spark в кластерах больших данных SQL Server

Учись Содержимое Ссылка
Среда выполнения кластеров больших данных SQL Server для Apache Spark Будет показано, что входит в состав каждого выпуска. Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark
Пул хранения Как хранить и использовать HDFS + Spark вместе для разблокировки данных для машинного обучения Знакомство с пулом носителей в кластерах больших данных SQL Server
Используйте возможности на основе цифровых блокнотов и ваши избранные средства. Подключите конечную точку Spark-Livy, используя выбранные вами средства Отправка заданий Spark в кластерах больших данных SQL Server в Azure Data Studio
Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code
Использование sparklyr в кластере больших данных SQL Server
Установка дополнительных пакетов В случае, если пакет не предусмотрен по умолчанию, установите его. Управление библиотекой Spark
Как устранять неполадки В случае поломки Устранение неполадок ноутбука pyspark
Отладка и диагностика приложений Spark в кластерах больших данных SQL Server на сервере истории Spark
Отправка пакетных заданий машинного обучения Сделайте так, чтобы обучение машинного обучения и пакетная оценка запускались через командную строку. Отправка заданий Spark с помощью средств командной строки
Быстрое перемещение данных между SQL Server и Spark Сделайте sql Server источником и (или) назначением для сценариев машинного обучения Spark. Использование HDFS не является обязательным Использование соединителя Apache Spark для SQL Server и AZURE SQL
Эксплуатация модели Spark После обучения ввод в эксплуатацию с помощью MLeap Создание, экспорт и оценка моделей машинного обучения Spark в кластерах больших данных SQL Server
Общие сведения о первичной обработке данных Наряду с мощными возможностями обработки данных Spark мы поставляем PROSE Обработка данных с помощью акселератора кода PROSE

Дальнейшие шаги

Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".