Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
CSV-файл (значения с разделителями-запятыми) — это текстовый файл с разделителями-запятыми, используемый для сохранения данных в структурированном формате таблицы.
DAG для разбора CSV позволяет клиенту загружать данные в экземпляр Microsoft Azure Data Manager for Energy на основе индивидуальной схемы, то есть схемы, которая не соответствует хорошо известной схеме OSDU® (WKS). Перед загрузкой данных клиенты должны создать и зарегистрировать пользовательскую схему с помощью службы схемы.
Синтаксический анализ DAG CSV реализует подход ELT (Извлечение, Загрузка и Преобразование) к загрузке данных, то есть данные сначала извлекаются из исходной системы в формате CSV и загружаются в экземпляр Azure Data Manager для управления данными в энергетике. Затем его можно преобразовать в хорошо известную схему OSDU® с помощью службы сопоставления.
Какие функции выполняет импорт CSV?
DAG синтаксического анализа CSV позволяет клиентам загружать данные CSV в инстанс Microsoft Azure Data Manager для энергетического сектора. Он анализирует каждую строку CSV-файла и создает запись метаданных хранилища. Система выполняет schema validation для обеспечения того, чтобы данные CSV соответствовали зарегистрированной пользовательской схеме. Он автоматически выполняет действие type coercion над столбцами на основе определения типа данных схемы. Он создает unique id для каждой строки записи CSV путем объединения источника, типа сущности и строки в кодировке Base64, сформированной путем объединения естественных ключей в данных. Это выполняет unit conversion, преобразуя заявленную информацию о системе отсчета в соответствующую сохраняемую ссылку с помощью службы единиц. Он осуществляет CRS conversion для пространственно ориентированных столбцов на основе информации о рамке отсчета (FoR), присутствующей в схеме. Он создает relationships метаданные, как объявлено в исходной схеме. Наконец, она persists записывает метаданные с помощью службы хранилища.
Компоненты обработки парсинга CSV
Рабочий процесс АНАЛИЗА CSV-файла DAG состоит из следующих служб:
- Файловая служба упрощает управление файлами в экземпляре Azure Data Manager для энергетики. Он позволяет пользователю безопасно отправлять, обнаруживать и загружать файлы с платформы данных.
- Служба схем упрощает управление схемами в экземпляре Azure Data Manager для энергетики. Он позволяет пользователю создавать, запрашивать и искать схемы на платформе данных.
- Служба хранилища упрощает хранение сведений о метаданных для сущностей домена, которые передаются на платформу данных. Она также вызывает события изменения записей хранилища, которые позволяют подчиненным службам выполнять операции с записями метаданных приема.
- Служба управления единицами упрощает управление и конвертацию единиц
- Служба рабочих процессов упрощает управление рабочими процессами в экземпляре Azure Data Manager для энергетики. Это обёрточный сервис поверх движка оркестрации Airflow.
Схема компонентов приема CSV
Рабочий процесс загрузки синтаксического анализатора CSV
Для выполнения рабочей цепочки задач DAG для парсера CSV пользователь должен иметь действующий токен авторизации и соответствующий доступ к следующим службам: Поиск, Хранилище, Схема, Файловая служба, Права, Юридический, и Рабочий процесс.
На схеме ниже показан рабочий процесс анализа DAG с помощью парсера CSV:
Чтобы выполнить рабочий процесс DAG анализатора CSV, пользователь должен сначала создать и зарегистрировать схему с помощью службы рабочего процесса. После создания схемы пользователь использует службу файлов для отправки CSV-файла в экземпляры Microsoft Azure Data Manager для энергетики, а также создает запись хранения универсального типа файла. Затем служба файлов предоставляет пользователю идентификатор файла, который используется при активации рабочего процесса синтаксического анализа CSV с помощью службы рабочего процесса. Служба рабочего процесса предоставляет идентификатор выполнения, который пользователь может использовать для отслеживания состояния выполнения рабочего процесса синтаксического анализа CSV.
OSDU® — это товарный знак Open Group.
Дальнейшие действия
Перейдите к руководству по синтаксическому анализу CSV и узнайте, как выполнять обработку данных с помощью CSV-парсера.