Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом руководстве показано, как анализировать данные с помощью бессерверного пула SQL.
Бессерверный встроенный пул SQL.
Бессерверные пулы SQL позволяют использовать SQL без необходимости резервировать мощность. Выставление счетов за использование бессерверного пула SQL зависит от объема данных, обработанных для выполнения запроса, а не от количества узлов, используемых для выполнения запроса.
Каждая рабочая область поставляется с предварительно настроенным бессерверным пулом SQL с именем Встроенный.
Анализ данных такси Нью-Йорка с помощью бессерверного пула SQL
Примечание.
Убедитесь, что примерные данные помещены в учетную запись основного хранилища.
В Synapse Studio перейдите в центр разработки
Создайте новый скрипт SQL.
Вставьте следующий код в сценарий. (Обновите
contosolake
на имя вашей учетной записи хранения иusers
на имя вашего контейнера.)SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Выберите Выполнить.
Исследование данных — это упрощенный сценарий, в котором можно понять основные характеристики данных. Дополнительные сведения об исследовании и анализе данных см. в этом руководстве.
Создание базы данных для исследования данных
Содержимое файлов можно просматривать непосредственно через базу данных master
. Для некоторых простых сценариев просмотра данных не нужно создавать отдельную базу.
Однако для более глубокого изучения может потребоваться создать некоторые служебные объекты, например:
- Внешние источники данных, представляющие собой именованные ссылки для учетных записей хранения.
- Учетные данные с привязкой к базе данных, позволяющие указать способ аутентификации для доступа к внешнему источнику данных.
- Пользователи базы данных с разрешениями на доступ к некоторым источникам или объектам базы.
- Вспомогательные представления, процедуры и функции, которые можно использовать в запросах.
Используйте базу данных
master
, чтобы создать отдельную базу данных для пользовательских объектов базы данных. В базе данныхmaster
пользовательские объекты не могут быть созданы.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Внимание
Используйте параметры сортировки с суффиксом
_UTF8
, чтобы убедиться, что текст UTF-8 правильно преобразуется в столбцыVARCHAR
.Latin1_General_100_BIN2_UTF8
обеспечивает лучшую производительность запросов, которые считывают данные из файлов Parquet и контейнеров Azure Cosmos DB. Дополнительные сведения об изменении параметров сортировки см. в разделе "Типы сортировки", поддерживаемые для Synapse SQL.Переключите контекст базы данных с
master
наDataExplorationDB
с помощью следующей команды. Чтобы переключить текущую базу данных, также можно применить элемент пользовательского интерфейса использовать базу данных:USE DataExplorationDB
Создайте из
DataExplorationDB
служебные объекты, такие как учетные данные и источники данных.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Примечание.
Внешний источник данных можно создать без учетных данных. Если учетные данные не существуют, для получения доступа к внешнему источнику данных будет использоваться идентификация вызывающего абонента.
При необходимости используйте только что созданную
DataExplorationDB
базу данных для создания имени входа для пользователя, которыйDataExplorationDB
получит доступ к внешним данным:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
Затем создайте пользователя базы данных в
DataExplorationDB
для указанного выше имени входа и предоставьте ему разрешениеADMINISTER DATABASE BULK OPERATIONS
.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Изучите содержимое файла, используя относительный путь и источник данных:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Опубликуйте свои изменения в рабочей области.
База данных для изучения данных — это просто заполнитель, в котором можно хранить служебные объекты. Пул Synapse SQL поддерживает гораздо больше возможностей и позволяет создать логическое хранилище данных — реляционный уровень на базе источников данных Azure. Дополнительные сведения о создании логического хранилища данных см. в этом руководстве.