Поделиться через


Использование средств Azure Data Lake для Visual Studio Code

Это важно

Новые учетные записи Azure Data Lake Analytics больше не могут быть созданы, если подписка не включена. Если вам нужно включить подписку, свяжитесь с поддержкой и предоставьте ваш бизнес-сценарий.

Если вы уже используете Azure Data Lake Analytics, вам потребуется создать план миграции в Azure Synapse Analytics для вашей организации к 29 февраля 2024 г.

Из этой статьи вы узнаете, как использовать средства Azure Data Lake для Visual Studio Code (VS Code) для создания, тестирования и запуска скриптов U-SQL. Сведения также рассматриваются в следующем видео:

Предпосылки

Средства Azure Data Lake для VS Code поддерживают Windows, Linux и macOS. Локальный запуск U-SQL и локальная отладка работают только в Windows.

Для macOS и Linux:

Установка средств Azure Data Lake

После установки необходимых компонентов можно установить Средства Azure Data Lake для VS Code.

Установка средств Azure Data Lake

  1. Откройте Visual Studio Code.

  2. Выберите расширения в левой области. Введите средства Azure Data Lake в поле поиска.

  3. Выберите Установить рядом с инструментами Azure Data Lake.

    Выбор для установки средств Data Lake

    Через несколько секунд кнопка "Установить " изменяется на перезагрузку.

  4. Выберите "Перезагрузить ", чтобы активировать расширение Azure Data Lake Tools .

  5. Выберите "Перезагрузить окно ", чтобы подтвердить. Средства Azure Data Lake отображаются на панели расширений.

Активация средств Azure Data Lake

Создайте USQL-файл или откройте существующий USQL-файл для активации расширения.

Работа с U-SQL

Чтобы работать с U-SQL, необходимо открыть файл U-SQL или папку.

Открытие примера скрипта

Откройте палитру команд (CTRL+SHIFT+P) и введите ADL: откройте пример скрипта. Откроется еще один экземпляр этого примера. Вы также можете редактировать, настраивать и отправлять скрипт в этом экземпляре.

Открытие папки для проекта U-SQL

  1. В Visual Studio Code выберите меню "Файл " и выберите команду "Открыть папку".

  2. Укажите папку и выберите "Выбрать папку".

  3. Выберите меню "Файл " и нажмите кнопку "Создать". Файл Untitled-1 добавляется в проект.

  4. Введите следующий код в файле Untitled-1:

    @departments  =
        SELECT * FROM
            (VALUES
                (31,    "Sales"),
                (33,    "Engineering"),
                (34,    "Clerical"),
                (35,    "Marketing")
            ) AS
                  D( DepID, DepName );
    

    OUTPUT @departments TO "/Output/departments.csv" USING Outputters.CSV();

    Скрипт создает файл departments.csv с некоторыми данными, включенными в папку /output.

  5. Сохраните файл как myUSQL.usql в открытой папке.

Компиляция скрипта U-SQL

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Компиляция скрипта. Результаты компиляции отображаются в окне вывода . Вы также можете щелкнуть правой кнопкой мыши файл скрипта, а затем выбрать ADL: Компиляция скрипта для компиляции задания U-SQL. Результат компиляции отображается в области вывода .

Отправка скрипта U-SQL

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Отправить задание. Вы также можете щелкнуть правой кнопкой мыши файл скрипта, а затем выбрать ADL: Отправить задание.

После отправки задания U-SQL журналы отправки отображаются в окне вывода в VS Code. Представление задания отображается в правой области. Если отправка выполнена успешно, URL-адрес задания также отображается. Url-адрес задания можно открыть в веб-браузере, чтобы отслеживать состояние задания в режиме реального времени.

На вкладке СВОДКА представления задания отображаются сведения о задании. Основные функции включают повторную отправку скрипта, дублирование скрипта и открытие на портале. На вкладке DATA представления задания можно ссылаться на входные файлы, выходные файлы и файлы ресурсов. Файлы можно скачать на локальный компьютер.

Вкладка

Вкладка данных в представлении задания

Установка контекста по умолчанию

Вы можете задать контекст по умолчанию, чтобы применить этот параметр ко всем файлам скриптов, если параметры для файлов не заданы отдельно.

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: задайте контекст по умолчанию. Или щелкните правой кнопкой мыши редактор скриптов и выберите ADL: Задать контекст по умолчанию.

  3. Выберите нужную учетную запись, базу данных и схему. Параметр сохраняется в файле конфигурации xxx_settings.json.

    Учетная запись, база данных и набор схем в качестве контекста по умолчанию

Настройка параметров скрипта

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: задайте параметры скрипта.

  3. Файл xxx_settings.json открывается со следующими свойствами:

    • Учетная запись Azure Data Lake Analytics под вашей подпиской Azure, которая необходима для компиляции и выполнения заданий U-SQL. Перед компиляцией и запуском заданий U-SQL необходимо настроить учетную запись компьютера.
    • база данных: база данных под учетной записью. Значение по умолчанию — master.
    • схема: схема в рамках вашей базы данных. Значение по умолчанию — dbo.
    • optionalSettings:
      • приоритет: диапазон приоритетов составляет от 1 до 1000, с 1 в качестве наивысшего приоритета. Значение по умолчанию — 1000.
      • degreeOfParallelism: диапазон параллелизма составляет от 1 до 150. Значение по умолчанию равно максимально допустимому параллелизму в учетной записи Azure Data Lake Analytics.

    Содержимое JSON-файла

Примечание.

После сохранения конфигурации сведения о учетной записи, базе данных и схеме отображаются в строке состояния в левом нижнем углу соответствующего USQL-файла, если у вас нет контекста по умолчанию.

Настройка игнорирования в Git

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: задайте Git Ignore.

    • Если у вас нет файла .gitIgnore в рабочей папке VS Code, в папке создается файл с именем .gitIgnore . Четыре элемента (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj) добавляются в файл по умолчанию. При необходимости можно внести дополнительные обновления.
    • Если у вас уже есть файл .gitIgnore в рабочей папке VS Code, средство добавляет четыре элемента (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj) в файл .gitIgnore , если четыре элемента не были включены в файл.

    Элементы в файле .gitIgnore

Работа с файлами программной части: C#, Python и R

Azure Data Lake Tools поддерживает несколько пользовательских кодов. Инструкции см. в статье "Разработка U-SQL с помощью Python, R и C Sharp для Azure Data Lake Analytics в VS Code".

Работа с сборками

Дополнительные сведения о разработке сборок см. в статье "Разработка сборок U-SQL" для заданий Azure Data Lake Analytics.

Средства Data Lake можно использовать для регистрации пользовательских сборок кода в каталоге Data Lake Analytics.

Зарегистрировать сборку

Вы можете зарегистрировать сборку с помощью команды ADL: Register Assembly or ADL: Register Assembly (Advanced).

Для регистрации выполните команду ADL: Register Assembly

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Регистрация сборки.
  3. Укажите путь локальной сборки.
  4. Выберите учетную запись Data Lake Analytics.
  5. Выберите базу данных.

Портал открывается в браузере и отображает процесс регистрации сборки.

Более удобный способ активировать ADL: регистрация команды сборки — щелкнуть правой кнопкой мыши файл .dll в проводнике.

Для регистрации через команду ADL: Регистрация сборки (Расширенная)

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: Регистрация сборки (расширенный).

  3. Укажите путь локальной сборки.

  4. Отображается JSON-файл. При необходимости просмотрите и измените зависимости сборки и параметры ресурсов. Инструкции отображаются в окне выходных данных . Чтобы перейти к регистрации сборки, сохраните (CTRL+S) JSON-файл.

    JSON-файл с зависимостями сборки и параметрами ресурсов

Примечание.

  • Azure Data Lake Tools автоматически определяет, есть ли у динамической библиотеки (DLL) какие-либо зависимости сборки. Зависимости отображаются в JSON-файле после их обнаружения.
  • Вы можете отправлять ресурсы DLL (например, .txt, .pngи .csv) как часть регистрации сборки.

Другой способ активировать команду ADL: Регистрация сборки (дополнительно) — щелкнуть правой кнопкой мыши файл .dll в проводнике.

В следующем коде U-SQL показано, как вызвать сборку. В примере имя сборки test.

REFERENCE ASSEMBLY [test];
@a =
    EXTRACT
        Iid int,
    Starts DateTime,
    Region string,
    Query string,
    DwellTime int,
    Results string,
    ClickedUrls string
    FROM @"Sample/SearchLog.txt"
    USING Extractors.Tsv();
@d =
    SELECT DISTINCT Region
    FROM @a;
@d1 =
    PROCESS @d
    PRODUCE
        Region string,
    Mkt string
    USING new USQLApplication_codebehind.MyProcessor();
OUTPUT @d1
    TO @"Sample/SearchLogtest.txt"
    USING Outputters.Tsv();

Использование локального запуска и локальной отладки U-SQL для пользователей Windows

Локальное выполнение U-SQL тестирует ваши данные и подтверждает правильность скрипта перед публикацией кода в Data Lake Analytics. Вы можете использовать локальную функцию отладки для выполнения следующих задач перед отправкой кода в Data Lake Analytics:

  • Отладьте свой код C# в Code-Behind.
  • Пошаговая отладка кода.
  • Проверьте ваш скрипт локально.

Локальная функция запуска и локальной отладки работает только в средах Windows и не поддерживается в операционных системах на основе macOS и Linux.

Инструкции по локальному запуску и локальной отладке см. в разделе "Локальный запуск U-SQL" и "Локальная отладка" с помощью Visual Studio Code.

Подключение к Azure

Прежде чем скомпилировать и запустить сценарии U-SQL в Data Lake Analytics, необходимо подключиться к учетной записи Azure.

Подключение к Azure с помощью команды

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: Имя входа. Сведения о входе отображаются в правом нижнем углу.

    Ввод команды входа

    Уведомление о входе и проверке подлинности

  3. Выберите "Копировать" и "Открыть ", чтобы открыть веб-страницу входа. Вставьте код в поле и нажмите кнопку "Продолжить".

    Веб-страница входа

  4. Следуйте инструкциям для входа с веб-страницы. При подключении имя учетной записи Azure отображается в строке состояния в левом нижнем углу окна VS Code.

Примечание.

  • Инструменты Data Lake автоматически принимают вас при следующем входе в систему, если вы не выйдете из нее.
  • Если у вашей учетной записи есть два фактора, рекомендуется использовать проверку подлинности телефона, а не пин-код.

Чтобы выйти из системы, введите команду ADL: выход.

Подключение к Azure из обозревателя

Разверните AZURE DATALAKE, выберите "Войти в Azure", а затем выполните шаг 3 и шаг 4 для подключения к Azure с помощью команды.

Выбор

Вы не можете выйти из обозревателя. Чтобы выйти из системы, см. Подключение к Azure с помощью команды.

Создание скрипта извлечения

Вы можете создать скрипт извлечения для .csv, TSV и .txt файлов с помощью команды ADL: создание скрипта EXTRACT или из обозревателя Azure Data Lake.

Создание скрипта извлечения с помощью команды

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд, и введите ADL: create EXTRACT Script.
  2. Укажите полный путь к файлу службы хранилища Azure и выберите клавишу ВВОД.
  3. Выберите одну учетную запись.
  4. Для файла .txt выберите разделитель для извлечения файла.

Процесс создания скрипта извлечения

Скрипт извлечения создается на основе записей. Для скрипта, который не может обнаружить столбцы, выберите один из двух вариантов. В противном случае будет создан только один скрипт.

Результат создания скрипта извлечения

Создать скрипт извлечения из Explorer.

Другим способом создания скрипта извлечения является контекстное меню (правая кнопка мыши) на файле .csv, .tsv или .txt в Azure Data Lake Store или хранилище объектов BLOB в Azure.

Команда Create EXTRACT Script (Создать скрипт EXTRACT) из контекстного меню

Дальнейшие действия