Краткое руководство. Интерактивное обработка данных с помощью Apache Spark в Машинное обучение Azure
Для обработки интерактивных Машинное обучение Azure обработки данных записной книжки Машинное обучение Azure интеграция с Azure Synapse Analytics обеспечивает простой доступ к платформе Apache Spark. Этот доступ позволяет Машинное обучение Azure интерактивные данные записной книжки.
В этом кратком руководстве описано, как выполнять интерактивные операции обработки данных с помощью Машинное обучение Azure бессерверных вычислений Spark, учетной записи хранения Azure Data Lake Storage (ADLS) 2-го поколения и сквозного руководства пользователя.
Необходимые компоненты
- Подписка Azure; Если у вас нет подписки Azure, создайте бесплатную учетную запись перед началом работы.
- Рабочая область Машинного обучения Azure. Посетите страницу "Создание ресурсов рабочей области".
- Учетная запись хранения Azure Data Lake Storage (ADLS) 2-го поколения. Посетите учетную запись хранения Azure Data Lake Storage (ADLS) 2-го поколения.
Хранение учетных данных учетной записи хранения Azure в качестве секретов в Azure Key Vault
Для хранения учетных данных учетной записи хранения Azure в качестве секретов в Azure Key Vault с помощью пользовательского интерфейса портал Azure:
Перейдите в Azure Key Vault в портал Azure
Выбор секретов на левой панели
Выберите + Создать или импортировать.
На экране "Создание секрета" введите имя для создаваемого секрета.
Перейдите к учетной записи Хранилище BLOB-объектов Azure в портал Azure, как показано на этом рисунке:
Выбор ключей доступа на панели слева на странице "Учетная запись Хранилище BLOB-объектов Azure"
Нажмите кнопку "Показать рядом с ключом 1", а затем скопируйте в буфер обмена , чтобы получить ключ доступа к учетной записи хранения
Примечание.
Выбор соответствующих параметров для копирования
- Маркеры подписанного URL-адреса контейнера хранилища BLOB-объектов Azure
- Учетные данные субъекта-службы учетной записи хранения Azure Data Lake Storage (ADLS) 2-го поколения
- идентификатор клиента
- идентификатор клиента и
- secret
в соответствующих пользовательских интерфейсах при создании секретов Azure Key Vault для них
Вернитесь к экрану "Создание секрета"
В текстовом поле "Секретное значение" введите учетные данные ключа доступа для учетной записи хранения Azure, скопированной в буфер обмена на предыдущем шаге.
Нажмите кнопку Создать
Совет
Клиентская библиотека секретов Azure CLI и Azure Key Vault для Python также могут создавать секреты Azure Key Vault.
Добавление назначений ролей в учетные записи хранения Azure
Перед началом интерактивной обработки данных необходимо убедиться, что пути входных и выходных данных доступны. Во-первых, для
Удостоверение пользователя сеанса Notebooks, вошедшего в систему пользователя
or
субъект-служба
назначьте роли чтения и чтения blob-объектов хранилища удостоверениям пользователя, вошедшего в систему. Однако в некоторых сценариях может потребоваться записать входящие данные обратно в учетную запись хранения Azure. Роли чтения и чтения BLOB-объектов хранилища предоставляют доступ только для чтения к удостоверению пользователя или субъекту-службе. Чтобы включить доступ на чтение и запись, назначьте роли участника и участника данных BLOB-объектов хранилища удостоверению пользователя или субъекту-службе. Чтобы назначить соответствующие роли удостоверению пользователя, выполните следующие действия.
Поиск и выбор службы учетных записей хранения
На странице учетных записей хранения выберите учетную запись хранения Azure Data Lake Storage (ADLS) 2-го поколения из списка. Откроется страница с обзором учетной записи хранения
Выберите контроль доступа (IAM) на левой панели
Добавить назначение ролей
Поиск и выбор участника данных BLOB-объектов хранилища ролей
Выберите Далее
Выбор пользователя, группы или субъекта-службы
Выбор и выбор элементов
Поиск удостоверения пользователя под кнопкой "Выбрать"
Выберите удостоверение пользователя из списка, чтобы оно отображалось в разделе "Выбранные члены"
Выберите соответствующее удостоверение пользователя
Выберите Далее
Выбор проверки и назначения
Повторите шаги 2–13 для назначения роли участника
После назначения удостоверений пользователя данные в учетной записи хранения Azure должны стать доступными.
Примечание.
Если подключенный пул Synapse Spark указывает на пул Synapse Spark в рабочей области Azure Synapse, которая связана с ней, необходимо настроить управляемую частную конечную точку в учетной записи хранения, чтобы обеспечить доступ к данным.
Обеспечение доступа к ресурсам для заданий Spark
Для доступа к данным и другим ресурсам задания Spark могут использовать управляемое удостоверение или сквозное руководство пользователя. В следующей таблице приведены различные механизмы доступа к ресурсам при использовании Машинное обучение Azure бессерверных вычислений Spark и присоединенного пула Synapse Spark.
Пул Spark | Поддерживаемые удостоверения | Удостоверение по умолчанию |
---|---|---|
Бессерверные вычисления Spark | Удостоверение пользователя, назначаемое пользователем управляемое удостоверение, присоединенное к рабочей области | Удостоверение пользователя |
Присоединенный пул Synapse Spark | Удостоверение пользователя, назначаемое пользователем управляемое удостоверение, присоединенное к подключенному пулу Synapse Spark, назначаемое системой управляемое удостоверение подключенного пула Synapse Spark | Назначаемое системой управляемое удостоверение подключенного пула Synapse Spark |
Если код интерфейса командной строки или пакета SDK определяет возможность использования управляемого удостоверения, Машинное обучение Azure бессерверные вычисления Spark используют управляемое удостоверение, назначаемое пользователем, подключенное к рабочей области. Управляемое удостоверение, назначаемое пользователем, можно подключить к существующей рабочей области Машинное обучение Azure с помощью интерфейса командной строки Машинное обучение Azure версии 2 или с ARMClient
помощью.
Следующие шаги
- Apache Spark в Машинное обучение Azure
- Присоединение пула Synapse Spark и управление ими в Машинное обучение Azure
- Интерактивная обработка данных с помощью Apache Spark в Машинное обучение Azure
- Отправка заданий Spark в Машинное обучение Azure
- Примеры кода для заданий Spark с помощью интерфейса командной строки Машинное обучение Azure
- Примеры кода для заданий Spark с помощью пакета SDK для Python Машинное обучение Azure