Фильтрация данных с помощью ускорения запросов Azure Data Lake Storage

Статья
2025-04-07

В этой статье показано, как использовать ускорение запросов для получения подмножества данных из учетной записи хранения.

Ускорение запросов позволяет приложениям и платформам аналитики значительно оптимизировать обработку данных, извлекая только данные, необходимые для выполнения данной операции. Дополнительные сведения см. в статье " Ускорение запросов Azure Data Lake Storage".

Предпосылки

Для доступа к службе хранилища Azure требуется подписка Azure. Если у вас еще нет подписки, создайте бесплатную учетную запись Azure, прежде чем начинать работу.
Учетная запись хранения общего назначения версии 2 . См. статью "Создание учетной записи хранения".
Двойное шифрование не поддерживается.
Если вы запрашиваете JSON-файл, каждый размер записи в этом файле должен быть меньше 1 МБ.
Выберите вкладку, чтобы просмотреть все необходимые компоненты пакета SDK.
- PowerShell
- .NET
- Java
- Python
- Node.js
Неприменимо

Пакет SDK для .NET
- Комплект SDK для Java (JDK) версии 8 или более поздней версии.
- Apache Maven
  
  Примечание.
  
  В этой статье предполагается, что вы создали проект Java с помощью Apache Maven. Пример создания проекта с помощью Apache Maven см. в разделе "Настройка".
Python 3.8 или более поздней версии.

Для использования пакета SDK Node.js не требуется никаких дополнительных предварительных требований.

Настройка среды

Шаг 1. Установка пакетов

Установите модуль Az версии 4.6.0 или более поздней.

Install-Module -Name Az -Repository PSGallery -Force

Чтобы обновить старую версию Az, выполните следующую команду:

Update-Module -Name Az

Откройте командную строку и измените каталог (cd) в папку проекта, например:
```
cd myProject
```
Установите версию 12.5.0-preview.6 или более позднюю клиентскую библиотеку для хранения Blob-объектов Azure для пакета .NET, используя команду dotnet add package.
```
dotnet add package Azure.Storage.Blobs -v 12.8.0
```
Примеры, отображаемые в этой статье, анализируют CSV-файл с помощью библиотеки CsvHelper . Чтобы использовать такую библиотеку, используйте следующую команду.
```
dotnet add package CsvHelper
```

Откройте файлpom.xml проекта в текстовом редакторе. Добавьте приведенные ниже элементы зависимости в группу зависимостей.

<!-- Request static dependencies from Maven -->
<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-core</artifactId>
    <version>1.6.0</version>
</dependency>
 <dependency>
     <groupId>org.apache.commons</groupId>
     <artifactId>commons-csv</artifactId>
     <version>1.8</version>
 </dependency>
 <dependency>
   <groupId>com.azure</groupId>
   <artifactId>azure-storage-blob</artifactId>
   <version>12.8.0-beta.1</version>
 </dependency>

Установите клиентную библиотеку Azure Data Lake Storage для Python с помощью pip.

pip install azure-storage-blob==12.4.0

Установите клиентскую библиотеку Data Lake для JavaScript. Для этого откройте окно терминала и введите приведенную ниже команду.

    npm install @azure/storage-blob
    npm install @fast-csv/parse

Шаг 2. Добавление утверждений

Неприменимо

Добавьте эти using инструкции в начало файла кода.

using Azure.Storage.Blobs;
using Azure.Storage.Blobs.Models;
using Azure.Storage.Blobs.Specialized;

Ускорение запросов извлекает данные в формате CSV и JSON. Поэтому обязательно добавьте директивы using для всех библиотек анализа CSV или JSON, которые вы решили использовать. Примеры, отображаемые в этой статье, анализируют CSV-файл с помощью библиотеки CSVHelper , доступной в NuGet. Поэтому мы добавим эти using инструкции в начало файла кода.

using CsvHelper;
using CsvHelper.Configuration;

Чтобы скомпилировать примеры, представленные в этой статье, также необходимо добавить эти using инструкции.

using System.Threading.Tasks;
using System.IO;
using System.Globalization;

Добавьте эти import инструкции в начало файла кода.

import com.azure.storage.blob.*;
import com.azure.storage.blob.options.*;
import com.azure.storage.blob.models.*;
import com.azure.storage.common.*;
import java.io.*;
import java.util.function.Consumer;
import org.apache.commons.csv.*;

Добавьте эти инструкции импорта в начало файла кода.

import sys, csv
from azure.storage.blob import BlobServiceClient, ContainerClient, BlobClient, DelimitedTextDialect, BlobQueryError

storage-blob Включите модуль, разместив эту инструкцию в верхней части файла кода.

const { BlobServiceClient } = require("@azure/storage-blob");

Ускорение запросов извлекает данные в формате CSV и JSON. Поэтому обязательно добавьте инструкции для всех модулей анализа CSV или JSON, которые вы решили использовать. Примеры, отображаемые в этой статье, анализируют CSV-файл с помощью модуля fast-csv . Поэтому мы добавим эту инструкцию в начало файла кода.

const csv = require('@fast-csv/parse');

Извлечение данных с помощью фильтра

С помощью SQL можно указать предикаты фильтра строк и проекции столбцов в запросе ускорения запросов. Следующий код запрашивает CSV-файл в хранилище и возвращает все строки данных, где третий столбец соответствует значению Hemingway, Ernest.

В SQL-запросе ключевое слово BlobStorage используется для обозначения запрашиваемого файла.
Ссылки на столбцы указываются как _N, где _1 — это первый столбец. Если исходный файл содержит строку заголовка, можно ссылаться на столбцы по имени, указанному в строке заголовка.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library.csv"
Get-QueryCsv $ctx $container $blob "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'" $false

Асинхронный метод BlockBlobClient.QueryAsync отправляет запрос в API ускорения запросов, а затем передает результаты обратно в приложение в виде объекта Stream .

static async Task QueryHemingway(BlockBlobClient blob)
{
    string query = @"SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    await DumpQueryCsv(blob, query, false);
}

private static async Task DumpQueryCsv(BlockBlobClient blob, string query, bool headers)
{
    try
    {
        var options = new BlobQueryOptions()
        {
            InputTextConfiguration = new BlobQueryCsvTextOptions()
            { 
                HasHeaders = true, 
                RecordSeparator = "\n", 
                ColumnSeparator = ",", 
                EscapeCharacter = '\\', 
                QuotationCharacter = '"'
            },
            OutputTextConfiguration = new BlobQueryCsvTextOptions() 
            { 
                HasHeaders = true, 
                RecordSeparator = "\n", 
                ColumnSeparator = ",", 
                EscapeCharacter = '\\', 
                QuotationCharacter = '"' },
            ProgressHandler = new Progress<long>((finishedBytes) => 
                Console.Error.WriteLine($"Data read: {finishedBytes}"))
        };
        options.ErrorHandler += (BlobQueryError err) => {
            Console.ForegroundColor = ConsoleColor.Red;
            Console.Error.WriteLine($"Error: {err.Position}:{err.Name}:{err.Description}");
            Console.ResetColor();
        };
        // BlobDownloadInfo exposes a Stream that will make results available when received rather than blocking for the entire response.
        using (var reader = new StreamReader((await blob.QueryAsync(
                query,
                options)).Value.Content))
        {
            using (var parser = new CsvReader
                (reader, new CsvConfiguration(CultureInfo.CurrentCulture) { HasHeaderRecord = true }))
            {
                while (await parser.ReadAsync())
                {
                    Console.Out.WriteLine(String.Join(" ", parser.Parser.Record));
                }
            }
        }
    }
    catch (Exception ex)
    {
        System.Windows.Forms.MessageBox.Show("Exception: " + ex.ToString());
    }
}

Метод BlockBlobClient.openInputStream() отправляет запрос в API ускорения запросов, а затем передает результаты обратно в приложение в виде InputStream объекта, который можно считать как любой другой объект InputStream.

static void QueryHemingway(BlobClient blobClient) {
    String expression = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    DumpQueryCsv(blobClient, expression, true);
}

static void DumpQueryCsv(BlobClient blobClient, String query, Boolean headers) {
    try {
        BlobQuerySerialization input = new BlobQueryDelimitedSerialization()
            .setRecordSeparator('\n')
            .setColumnSeparator(',')
            .setHeadersPresent(headers)
            .setFieldQuote('\0')
            .setEscapeChar('\\');
        BlobQuerySerialization output = new BlobQueryDelimitedSerialization()
            .setRecordSeparator('\n')
            .setColumnSeparator(',')
            .setHeadersPresent(true)
            .setFieldQuote('\0')
            .setEscapeChar('\n');
        Consumer<BlobQueryError> errorConsumer = System.out::println;
        Consumer<BlobQueryProgress> progressConsumer = progress -> System.out.println("total bytes read: " + progress.getBytesScanned());
        BlobQueryOptions queryOptions = new BlobQueryOptions(query)
            .setInputSerialization(input)
            .setOutputSerialization(output)
            .setErrorConsumer(errorConsumer)
            .setProgressConsumer(progressConsumer);

        /* Open the query input stream. */
        InputStream stream = blobClient.openQueryInputStream(queryOptions).getValue();
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(stream))) {
            /* Read from stream like you normally would. */
            for (CSVRecord record : CSVParser.parse(reader, CSVFormat.EXCEL.withHeader())) {
                System.out.println(record.toString());
            }
        }
    } catch (Exception e) {
        System.err.println("Exception: " + e.toString());
        e.printStackTrace(System.err);
    }
}

def query_hemingway(blob: BlobClient):
    query = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'"
    dump_query_csv(blob, query, False)

def dump_query_csv(blob: BlobClient, query: str, headers: bool):
    qa_reader = blob.query_blob(query, blob_format=DelimitedTextDialect(has_header=headers), on_error=report_error, encoding='utf-8')
    # records() returns a generator that will stream results as received. It will not block pending all results.
    csv_reader = csv.reader(qa_reader.records())
    for row in csv_reader:
        print("*".join(row))

В этом примере запрос отправляется в API ускорения запросов, а затем передает результаты обратно. Объект, blob переданный в вспомогательной queryHemingway функции, имеет тип BlockBlobClient. Дополнительные сведения о том, как получить объект BlockBlobClient, см. в статье Краткое руководство: Управление объектами blob с использованием JavaScript SDK версии 12 в Node.js.

async function queryHemingway(blob)
{
    const query = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    await dumpQueryCsv(blob, query, false);
}

async function dumpQueryCsv(blob, query, headers)
{
    var response = await blob.query(query, {
        inputTextConfiguration: {
            kind: "csv",
            recordSeparator: '\n',
            hasHeaders: headers
        },
        outputTextConfiguration: {
            kind: "csv",
            recordSeparator: '\n',
            hasHeaders: true
        },
        onProgress: (progress) => console.log(`Data read: ${progress.loadedBytes}`),
        onError: (err) => console.error(`Error: ${err.position}:${err.name}:${err.description}`)});
    return new Promise(
        function (resolve, reject) {
            csv.parseStream(response.readableStreamBody)
                .on('data', row => console.log(row))
                .on('error', error => {
                    console.error(error);
                    reject(error);
                })
                .on('end', rowCount => resolve());
    });
}

Получение определенных столбцов

Результаты можно ограничить подмножеством столбцов. Таким образом вы извлекаете только столбцы, необходимые для выполнения заданного вычисления. Это повышает производительность приложения и снижает затраты, так как меньше данных передается по сети.

Примечание.

Максимальное число столбцов, которым можно ограничить результаты, — 49. Если вам нужно, чтобы результаты содержали более 49 столбцов, используйте подстановочный знак (*) для выражения SELECT (например: SELECT *).

Этот код извлекает только BibNum столбец для всех книг в наборе данных. Он также использует сведения из строки заголовка в исходном файле для ссылки на столбцы в запросе.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library-with-headers.csv"
Get-QueryCsv $ctx $container $blob "SELECT BibNum FROM BlobStorage" $true

static async Task QueryBibNum(BlockBlobClient blob)
{
    string query = @"SELECT BibNum FROM BlobStorage";
    await DumpQueryCsv(blob, query, true);
}

static void QueryBibNum(BlobClient blobClient)
{
    String expression = "SELECT BibNum FROM BlobStorage";
    DumpQueryCsv(blobClient, expression, true);
}

def query_bibnum(blob: BlobClient):
    query = "SELECT BibNum FROM BlobStorage"
    dump_query_csv(blob, query, True)

async function queryBibNum(blob)
{
    const query = "SELECT BibNum FROM BlobStorage";
    await dumpQueryCsv(blob, query, true);
}

Следующий код объединяет фильтрацию строк и проекции столбцов в один и тот же запрос.

Get-QueryCsv $ctx $container $blob $query $true

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType
            FROM BlobStorage
            WHERE ItemType IN
                ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')"

static async Task QueryDvds(BlockBlobClient blob)
{
    string query = @"SELECT BibNum, Title, Author, ISBN, Publisher, ItemType
        FROM BlobStorage
        WHERE ItemType IN
            ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    await DumpQueryCsv(blob, query, true);
}

static void QueryDvds(BlobClient blobClient)
{
    String expression = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType " +
                        "FROM BlobStorage " +
                        "WHERE ItemType IN " +
                        "   ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    DumpQueryCsv(blobClient, expression, true);
}

def query_dvds(blob: BlobClient):
    query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType "\
        "FROM BlobStorage "\
        "WHERE ItemType IN "\
        "   ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')"
    dump_query_csv(blob, query, True)

async function queryDvds(blob)
{
    const query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType " +
                  "FROM BlobStorage " +
                  "WHERE ItemType IN " +
                  " ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    await dumpQueryCsv(blob, query, true);
}

Поделиться через