Подключение к файлам Parquet в потоках данных

Вы можете подключиться к файлам Parquet в Dataflow Gen2, используя соединитель Parquet, предоставленный Data Factory в Microsoft Fabric.

Настройте ваше подключение для Dataflow Gen2

Вы можете подключить поток данных 2-го поколения в Microsoft Fabric к файлам Parquet с помощью соединителей Power Query. Выполните следующие действия, чтобы создать подключение:

  1. Проверьте возможности, ограничения и рекомендации , чтобы убедиться, что ваш сценарий поддерживается.
  2. Получение данных в системе Fabric.
  3. Подключитесь к файлу Parquet.

Возможности

  • Импорт
    • Basic
    • Продвинутый

Получение данных

Чтобы получить данные в фабрике данных, выполните приведенные действия.

  1. В левой части Фабрики данных выберите Рабочие области.

  2. В рабочей области Data Factory выберите Новый>Dataflow Gen2, чтобы создать новый поток данных.

    снимок экрана: рабочая область, в которой вы решили создать новый поток данных.

  3. В Power Query выберите Получить данные на ленте или выберите Получить данные из другого источника в текущем представлении.

    снимок экрана: рабочая область Power Query с выделенным параметром

  4. На странице Выбор источника данных используйте поиска для поиска имени соединителя или выберите просмотреть дополнительные в правой части соединителя, чтобы просмотреть список всех соединителей, доступных в службе Power BI.

    снимок экрана страницы

  5. Если вы решили просмотреть дополнительные соединители, вы по-прежнему можете использовать поиск по имени соединителя или выбрать категорию, чтобы просмотреть список соединителей, связанных с этой категорией.

    снимок экрана страницы с источниками данных фабрики данных, отображаемой после выбора

Подключитесь к файлу Parquet

Чтобы подключиться к файлу Parquet из Power Query Online, выполните следующие действия.

  1. Выберите параметр Parquet в интерфейсе получения данных. Различные приложения имеют различные способы получения данных в Power Query Online. Дополнительные сведения о том, как получить доступ к возможности получения данных в Power Query Online из вашего приложения, смотрите в разделе Где получить данные.

    Снимок экрана окна получения данных с акцентом на Parquet.

  2. В Parquet укажите имя сервера и базы данных. Или введите путь и имя файла, если вы подключаетесь к локальному файлу.

    Снимок экрана окна «Подключение к источнику данных» для подключения к файлу Parquet.

  3. Если вы подключаетесь к локальному файлу, выберите имя локального шлюза данных. Если данные в сети, вам не нужно предоставлять локальный шлюз данных.

  4. Если вы подключаетесь к этому источнику данных в первый раз, выберите тип проверки подлинности и введите свои учетные данные. В Power Query Online выберите один из следующих типов проверки подлинности:

    • Анонимный (онлайн)
    • Ключ учетной записи (в сети)
    • Windows (локальный файл)
  5. Нажмите кнопку "Далее ", чтобы перейти к редактору Power Query, где можно начать преобразование данных.

Ограничения и рекомендации

Соединитель Power Query Parquet поддерживает только чтение файлов из локальной файловой системы, хранилища BLOB-объектов Azure и Azure Data Lake Storage 2-го поколения.

Возможно, можно считывать небольшие файлы из других источников с помощью функции Binary.Buffer для буферизации файла в памяти. Однако если файл слишком большой, скорее всего, будет возникать следующая ошибка:

Error: Parquet.Document cannot be used with streamed binary values.

Binary.Buffer Использование функции таким образом также может повлиять на производительность.