Использование записных книжек Microsoft Fabric
Записная книжка Microsoft Fabric — это основной элемент кода для разработки заданий Apache Spark и экспериментов машинного обучения. Это веб-интерактивная поверхность, используемая специалистами по обработке и анализу данных, для написания кода с помощью расширенных визуализаций и текста Markdown. Инженеры данных записывают код для приема данных, подготовки данных и преобразования данных. Специалисты по обработке и анализу данных также используют записные книжки для создания решений машинного обучения, включая создание экспериментов и моделей, отслеживание моделей и развертывание.
Записная книжка Fabric позволяет:
- Начало работы с нулевыми усилиями по настройке.
- Легко изучить и обработать данные с интуитивно понятным интерфейсом с низким кодом.
- Обеспечьте безопасность данных благодаря встроенным функциям безопасности предприятия.
- Анализ данных в необработанных форматах (CSV, txt, JSON и т. д.), обработанных форматов файлов (parquet, Delta Lake и т. д.), с помощью мощных возможностей Spark.
- Повысьте продуктивность труда с расширенными возможностями разработки и встроенной визуализацией данных.
В этой статье описывается, как использовать записные книжки в области обработки и анализа данных.
Контекст безопасности запущенной записной книжки
Выполнение записной книжки можно активировать тремя разными способами в Fabric с полной гибкостью в соответствии с различными сценариями:
- Интерактивное выполнение: пользователь вручную активирует выполнение с помощью различных записей пользовательского интерфейса или вызова REST API. Выполнение будет выполняться в контексте безопасности текущего пользователя.
- Выполнение от имени действия конвейера: выполнение активируется из конвейера Фабрики данных Fabric. Подробные действия см. в действии записной книжки. Выполнение будет выполняться в контексте безопасности владельца конвейера.
- Планировщик: выполнение активируется из плана планировщика. Выполнение будет выполняться в контексте безопасности пользователя, который настраивает или обновляет план планировщика.
Гибкость этих вариантов выполнения с различным контекстом безопасности позволяет соответствовать разным сценариям и требованиям, но также требует учитывать контекст безопасности при разработке и разработке записной книжки, в противном случае может привести к неожиданному поведению и даже некоторым проблемам безопасности.
При первом создании записной книжки появится предупреждающее сообщение, чтобы напомнить вам о риске выполнения кода, не просматривая его.
Ниже приведены некоторые рекомендации, которые помогут избежать проблем с безопасностью.
- Прежде чем вручную запустить записную книжку, откройте параметр записной книжки и проверьте раздел "Сведения" на панели "Сведения" для обновления изменений, убедитесь, что вы в порядке с последним изменением.
- Перед добавлением действия записной книжки в конвейер откройте параметр записной книжки и проверьте раздел "Сведения" на панели "Сведения" для обновления изменений, убедитесь, что вы в порядке с последним изменением. Если вы не уверены в последнем изменении, откройте записную книжку, чтобы просмотреть изменения, прежде чем добавить его в конвейер.
- Перед обновлением плана планировщика откройте параметр записной книжки и проверьте раздел "Сведения" на панели "Сведения" для обновления изменения, убедитесь, что вы в порядке с последним изменением. Если вы не уверены в последнем изменении, откройте записную книжку, чтобы просмотреть изменения перед обновлением плана планировщика.
- Отделите рабочую область на разной стадии (разработка, тестирование, прод) и управляйте доступом на разных этапах, чтобы избежать проблемы с безопасностью. Добавьте только пользователя, которому вы доверяете, на этапе prod.
Создание записных книжек
Вы можете создать новую записную книжку или импортировать существующую записную книжку.
Создание записной книжки
Как и в других стандартных процессах создания элементов Fabric, вы можете легко создать записную книжку на домашней странице Fabric Инжиниринг данных, новой рабочей области или в Центре создания.
Импорт существующих записных книжек
Можно импортировать одну или несколько существующих записных книжек с локального компьютера с помощью записи на панели инструментов рабочей области. Записные книжки Fabric распознают стандартные файлы Jupyter Notebook .ipynb и исходные файлы, такие как .py, SCALA и .sql, и создают новые элементы записной книжки соответствующим образом.
Экспорт записной книжки
Записную книжку можно экспортировать в другие стандартные форматы. Записная книжка Synapse можно экспортировать в:
- Стандартный файл записной книжки (IPYNB), используемый для записных книжек Jupyter.
- HTML-файл (.html), который можно открыть непосредственно из браузера.
- Файл Python (.py).
- Латекс-файл (.tex).
Сохранение записной книжки
В Fabric записная книжка по умолчанию автоматически сохраняется после открытия и редактирования записной книжки; Вам не нужно беспокоиться о потере изменений кода. Можно также использовать сохранение копии, чтобы клонировать другую копию в текущей рабочей области или в другую рабочую область.
Если вы предпочитаете сохранить записную книжку вручную, можно переключиться на параметр сохранения вручную , чтобы иметь локальную ветвь элемента записной книжки, а затем использовать команду "Сохранить " или CTRL+s для сохранения изменений.
Вы также можете переключиться в режим сохранения вручную, нажав кнопку "Изменить -> Сохранить параметры -> Вручную". Чтобы включить локальную ветвь записной книжки, сохраните ее вручную, нажмите кнопку "Сохранить " или используйте сочетание клавиш CTRL+s .
Подключение lakehouses и записных книжек
Записные книжки Fabric теперь поддерживают тесное взаимодействие с lakehouses; вы можете легко добавить новый или существующий lakehouse из обозревателя Lakehouse.
Вы можете перейти к разным лейкхаусам в обозревателе Lakehouse и установить один лейкхаус как по умолчанию, закрепив его. Затем ваше значение по умолчанию подключено к рабочему каталогу среды выполнения, и вы можете прочитать или записать его в lakehouse по умолчанию с помощью локального пути.
Примечание.
Необходимо перезапустить сеанс после закрепления нового озера или переименования озера по умолчанию.
Добавление или удаление lakehouse
Выбор значка X рядом с именем lakehouse удаляет его на вкладке записной книжки, но элемент Lakehouse по-прежнему существует в рабочей области.
Выберите "Добавить lakehouse" , чтобы добавить в записную книжку больше озерных домов, добавив существующую или создав новый lakehouse.
Изучение файла lakehouse
Вложенные папки и файлы в разделе "Таблицы и файлы" представления Lake отображаются в области содержимого между списком lakehouse и содержимым записной книжки. Выберите разные папки в разделе "Таблицы и файлы ", чтобы обновить область содержимого.
Операции с папкой и файлами
Если выбрать файл (.csv, PARQUET, .txt, .jpg, .png и т. д.) с помощью правой кнопки мыши, можно использовать API Spark или Pandas для загрузки данных. Новая ячейка кода создается и вставляется под ячейкой фокуса.
Можно легко скопировать путь с другим форматом из выбранного файла или папки и использовать соответствующий путь в коде.
Ресурсы записной книжки
Обозреватель ресурсов записной книжки предоставляет файловую систему unix, которая поможет вам управлять папками и файлами. Он предлагает пространство файловой системы для записи, в котором можно хранить небольшие файлы, такие как модули кода, семантические модели и изображения. Вы можете легко получить доступ к ним с кодом в записной книжке, как если бы вы работали с локальной файловой системой.
Примечание.
- Максимальное количество хранилищ ресурсов для встроенной папки и папки среды составляет 500 МБ с одним размером до 100 МБ. Они позволяют в общей сложности до 100 экземпляров файлов и папок.
- При использовании
notebookutils.notebook.run()
используйтеnotebookutils.nbResPath
команду для доступа к целевому ресурсу записной книжки. Относительный путь , встроенный или всегда указывает на встроенную папку корневой записной книжки.
Встроенная папка ресурсов
Встроенная папка ресурсов — это системная предопределенная папка для каждого экземпляра элемента записной книжки. Ниже приведены основные возможности ресурсов записной книжки.
- Вы можете использовать распространенные операции, такие как создание, удаление, загрузка, перетаскивание, переименование, дублирование и поиск по пользовательскому интерфейсу.
- Для быстрого изучения можно использовать относительные
builtin/YourData.txt
пути. Этотnotebookutils.nbResPath
метод помогает составить полный путь. - Вы можете легко переместить проверенные данные в лейкхаус с помощью параметра "Запись в lakehouse ". Структура содержит встроенные фрагменты кода для распространенных типов файлов, которые помогут вам быстро приступить к работе.
- Эти ресурсы также доступны для использования в случае запуска записной книжки справочника.
notebookutils.notebook.run()
Папка ресурсов среды
Папка ресурсов среды — это общий репозиторий, предназначенный для упрощения совместной работы в нескольких записных книжках.
Вы можете найти вкладку "Ресурсы " в среде и иметь полные операции для управления файлами ресурсов здесь. Эти файлы можно совместно использовать для нескольких записных книжек после присоединения записной книжки к текущей среде.
На странице "Записная книжка" можно легко найти вторую корневую папку в разделе "Ресурсы", унаследованные от подключенной среды.
Вы также можете работать с файлами и папками с папкой встроенных ресурсов.
Путь к ресурсу среды будет автоматически подключен к кластеру записных книжек, используйте относительный путь /env для доступа к ресурсам среды.
Редактор файлов
Редактор файлов позволяет просматривать и изменять файлы непосредственно в папке ресурсов записной книжки и папке ресурсов среды в записной книжке. Поддерживаемые типы файлов включают CSV, TXT, HTML, YML, PY, SQL и многое другое. С помощью редактора файлов вы можете легко получать доступ к файлам и изменять файлы в записной книжке, она поддерживает выделение ключевых слов и предоставляет необходимую языковую службу при открытии и редактировании файлов кода, таких как .py и .sql.
Вы можете получить доступ к этой функции с помощью команды "Просмотреть и изменить" в меню файла. Дважды щелкните файл быстрее.
Изменение содержимого в редакторе файлов необходимо сохранить вручную, нажав кнопку "Сохранить " или сочетания клавиш: CTRL+S, редактор файлов не поддерживает автоматическое сохранение.
Редактор файлов также влияет на режим записной книжки. Файлы можно просматривать только в режиме записной книжки без разрешения на редактирование.
Примечание.
Ниже приведены некоторые ограничения для редактора файлов.
- Ограничение размера файла составляет 1 МБ.
- Эти типы файлов не поддерживаются для просмотра и редактирования: .xlsx и .parquet.
Совместная работа в записной книжке
Записная книжка Fabric — это элемент совместной работы, поддерживающий редактирование нескольких пользователей одной записной книжки.
При открытии записной книжки по умолчанию вы вводите режим совместного редактирования и автоматически сохраняется каждая редактируемая записная книжка. Если ваши коллеги одновременно открывают одну и ту же записную книжку, вы увидите свой профиль, запустите выходные данные, индикатор курсора, индикатор выбора и трассировку редактирования. С помощью функций совместной работы можно легко выполнить программирование пар, удаленную отладку и сценарии обучения.
Совместное использование записной книжки
Совместное использование записной книжки — это удобный способ совместной работы с участниками группы. Авторизованные роли рабочей области могут просматривать или изменять или запускать записные книжки по умолчанию. Записную книжку можно предоставить с указанными разрешениями.
Выберите "Общий доступ " на панели инструментов записной книжки.
Выберите соответствующую категорию пользователей , которые могут просматривать эту записную книжку. Вы можете выбрать разрешения "Общий доступ", "Изменить" или "Выполнить " для получателей.
После нажатия кнопки "Применить" можно отправить записную книжку напрямую или скопировать ссылку на других пользователей. Затем получатели могут открыть записную книжку с соответствующим представлением, предоставленным уровнем разрешений.
Чтобы дополнительно управлять разрешениями записной книжки, выберите список>элементов рабочей области "Дополнительные параметры" и выберите пункт "Управление разрешениями". На этом экране можно обновить существующий доступ к записной книжке и разрешения.
Комментарий ячейки кода
Комментарии — это еще одна полезная функция для сценариев совместной работы. В настоящее время Fabric поддерживает добавление комментариев на уровне ячеек.
Нажмите кнопку "Примечания" на панели инструментов записной книжки или индикатора комментариев ячеек, чтобы открыть панель "Комментарии".
Выберите код в ячейке кода, выберите "Создать " в области "Примечания ", добавьте примечания, а затем нажмите кнопку "Опубликовать комментарий ", чтобы сохранить.
Если вам нужны, найдите комментарий "Изменить", "Разрешить поток" и "Удалить", выбрав параметр "Дополнительно" рядом с комментарием.
Добавление тегов других пользователей в комментарий
"Тег" относится к упоминанию и уведомлению пользователя в потоке комментариев, что повышает эффективность совместной работы по конкретным вопросам.
Выберите раздел кода в ячейке и создайте поток комментариев.
Введите имя пользователя и выберите правильный в списке предложений, если хотите упомянуть кого-то для обсуждения определенного раздела.
Поделитесь своими аналитическими сведениями и опубликуйте их.
Уведомление по электронной почте будет активировано, и пользователь нажимает ссылку "Открыть примечания ", чтобы быстро найти эту ячейку.
Кроме того, авторизуйте и настройте разрешения для пользователей при добавлении тегов, у которых нет доступа, обеспечивая хорошое управление ресурсами кода.
Примечание.
Для элемента комментария помеченный пользователь больше не получит уведомление электронной почты, если вы обновляете комментарий в течение одного часа. Но он отправит уведомление по электронной почте новому пользователю с тегами.
Переключатель режима записной книжки
Записные книжки Fabric поддерживают четыре режима, которые можно легко переключать: режим разработки , режим выполнения , режим редактирования и режим просмотра . Каждый режим сопоставляется с определенным сочетанием разрешений. При совместном использовании записной книжки другим участникам группы вы можете предоставить соответствующие разрешения получателям, и они увидят лучший доступный режим записной книжки в соответствии с их разрешением, и они смогут переключаться между режимом, на который у них есть разрешение.
- Режим разработки: чтение, выполнение, требуется разрешение на запись.
- Запуск только в режиме: чтение, выполнение необходимого разрешения.
- Режим редактирования: требуется разрешение на чтение, запись.
- Режим просмотра: требуется разрешение на чтение.