Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Средство Data Wrangler — это ресурс на основе записных книжек, который предоставляет иммерсивный интерфейс для анализа аналитических данных. Он объединяет отображение данных, например сетки, с динамической сводной статистикой, встроенными визуализациями и библиотекой общих операций очистки данных. Каждую операцию можно применить с помощью нескольких шагов. Вы можете обновить отображение данных в режиме реального времени и создать код в pandas или PySpark, который можно сохранить обратно в записную книжку в качестве повторной функции. В этой статье рассматривается изучение и преобразование пандовых кадров данных. Для получения дополнительной информации об использовании Data Wrangler на DataFrames Spark смотрите этот ресурс.
Предварительные условия
Получите подписку Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой нижней части домашней страницы, чтобы перейти на Fabric.
Ограничения
- Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
- Отображение Data Wrangler лучше всего работает на больших мониторах, хотя можно минимизировать или скрыть разные части интерфейса, чтобы он подходил для меньших экранов.
Запуск данных Wrangler
Вы можете запустить Data Wrangler непосредственно из блокнота Microsoft Fabric для изучения и преобразования любой таблицы данных pandas или Spark. Дополнительные сведения об использовании Data Wrangler с DataFrame Spark см. в этой сопутствующей статье. В этом фрагменте кода показано, как считывать образцы данных в DataFrame pandas.
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
На вкладке "Главная" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите нужный объект в Data Wrangler.
Совет
Не удается открыть Wrangler, пока ядро записной книжки занято. Ячейка должна завершить выполнение перед запуском Data Wrangler, как показано на этом снимке экрана.
Выбор пользовательских примеров
Чтобы открыть пользовательский образец любого активного кадра данных с помощью Wrangler, выберите "Выбрать пользовательский пример" в раскрывающемся списке, как показано на снимке экрана:
Это запускает всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор). Первые 5000 строк кадра данных служат размером выборки по умолчанию, как показано на снимке экрана:
Просмотр сводной статистики
При загрузке Data Wrangler в панели "Сводка" отображается информационный обзор выбранного датафрейма. В этом обзоре содержатся сведения о размерах DataFrame, его пропущенных значениях и прочем. Выбор любого столбца в сетке Data Wrangler предложит панели "Сводка" обновить и отобразить описательную статистику о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.
Совет
Статистика и визуальные элементы для столбцов (как на панели "Сводка", так и в заголовках столбцов) зависят от типа данных столбца. Например, в заголовке столбца отображается гистограмма с бинированием по числовому столбцу только если столбец приведен к числовому типу, как показано на снимке экрана.
Просмотр операций очистки данных
Список действий по очистке данных можно найти на панели "Операции". На панели "Операции" выбор шага очистки данных запрашивает указать целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:
Совет
Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:
Предварительный просмотр и применение операций
Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительно просмотренный код, выберите "Применить" в любом месте. Чтобы удалить просмотренный код и попробовать новую операцию, выберите "Отбросить", как показано на снимке экрана:
После применения операции сетка отображения Data Wrangler и сводная статистика обновляются для отражения результатов. Код отображается в списке зафиксированных операций, который находится на панели "Шаги очистки", как показано на этом скриншоте:
Совет
Вы всегда можете отменить последний примененный шаг. На панели "Очистка шагов" появится значок корзины, если навести указатель мыши на самый последний примененный шаг, как показано на этом снимке экрана.
В этой таблице перечислены операции, поддерживаемые Data Wrangler:
Операция | Description |
---|---|
Сортировать | Сортировка столбца по возрастанию или убыванию |
Фильтр | Фильтрация строк на основе одного или нескольких условий |
Одно горячее кодирование | Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку |
Многоярлыковый бинаризатор | Разделите данные с помощью разделителя и создайте новые столбцы для каждой категории, помечая 1, если строка имеет эту категорию и 0, если это не так. |
Изменение типа столбца | Изменение типа данных столбца |
Удаление столбца | Удаление одного или нескольких столбцов |
Выбор столбца | Выберите один или несколько столбцов, чтобы сохранить и удалить остальные |
Переименование столбца | Переименование столбца |
Удаление отсутствующих значений | Удаление строк с отсутствующими значениями |
Удаление повторяющихся строк | Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах |
Заполнение отсутствующих значений | Замените значения, отсутствующие в ячейках, новым значением. |
Поиск и замена | Замените ячейки точным шаблоном сопоставления |
Группировка по столбцу и агрегация | Группировать по значениям столбцов и агрегированным результатам |
Удалить пробелы | Удаление пробелов из начала и конца текста |
Разделение текста | Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя |
Преобразование текста в строчные буквы | Преобразуйте текст в строчные буквы |
Преобразование текста в верхний регистр | Преобразование текста в ВЕРХНИЙ РЕГИСТР |
Минимальное или максимальное масштабирование значений | Масштабирование числового столбца между минимальным и максимальным значением |
Заливка флэш-памяти | Автоматическое создание нового столбца на основе примеров, производных от существующего столбца |
Изменение дисплея
В любое время вы можете настроить интерфейс с помощью вкладки "Представления" на панели инструментов, расположенной над сеткой отображения Data Wrangler. Это может скрыть или отобразить различные панели на основе ваших настроек и размера экрана, как показано на этом снимке экрана:
Сохранение и экспорт кода
Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Экспорт кода закрывает Data Wrangler и добавляет новую функцию в ячейку кода в записной книжке. Вы также можете скачать очищенный кадр данных в виде CSV-файла.
Совет
Инструмент Data Wrangler генерирует код, который применяется только при ручном запуске новой ячейки, и не перезаписывает ваш исходный DataFrame, как показано на этом снимке экрана.
Затем можно запустить экспортируемый код, как показано на снимке экрана:
Связанный контент
- Чтобы попробовать Data Wrangler на Spark DataFrames, перейдите к данной сопроводительной статье.
- Для демонстрации возможностей Data Wrangler в Fabric в формате live-action ознакомьтесь с этим видео от наших друзей из Guy in a Cube.
- Чтобы попробовать Data Wrangler в Visual Studio Code, перейдите к Data Wrangler в VS Code
- Вы нуждаетесь в какой-то функции, которую мы упустили? Дайте нам знать! Предложите это на форуме "Идеи тканей"