Поделиться через


Indexers - Create

Создает новый индексатор.

POST {endpoint}/indexers?api-version=2024-07-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

api-version
query True

string

Версия клиентского API.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string

uuid

Идентификатор отслеживания, отправляемый запросом на отладку.

Текст запроса

Имя Обязательно Тип Описание
dataSourceName True

string

Имя источника данных, из которого индексатор считывает данные.

name True

string

Имя индексатора.

targetIndexName True

string

Имя индекса, в который индексатор записывает данные.

@odata.etag

string

ETag индексатора.

description

string

Описание индексатора.

disabled

boolean

Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false.

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.

fieldMappings

FieldMapping[]

Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе.

outputFieldMappings

FieldMapping[]

Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием.

parameters

IndexingParameters

Параметры для выполнения индексатора.

schedule

IndexingSchedule

Расписание для этого индексатора.

skillsetName

string

Имя набора навыков, выполняемого с помощью этого индексатора.

Ответы

Имя Тип Описание
201 Created

SearchIndexer

Other Status Codes

ErrorResponse

Ответ на ошибку.

Примеры

SearchServiceCreateIndexer

Образец запроса

POST https://myservice.search.windows.net/indexers?api-version=2024-07-01

{
  "name": "myindexer",
  "description": "an indexer",
  "dataSourceName": "mydatasource",
  "targetIndexName": "orders",
  "schedule": {
    "interval": "PT1H",
    "startTime": "2015-01-01T00:00:00Z"
  },
  "parameters": {
    "maxFailedItems": 10,
    "maxFailedItemsPerBatch": 5
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  }
}

Пример ответа

{
  "name": "myindexer",
  "description": "an indexer",
  "dataSourceName": "mydatasource",
  "targetIndexName": "orders",
  "schedule": {
    "interval": "PT1H",
    "startTime": "2015-01-01T00:00:00Z"
  },
  "parameters": {
    "maxFailedItems": 10,
    "maxFailedItemsPerBatch": 5
  },
  "fieldMappings": [],
  "disabled": false,
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  }
}

Определения

Имя Описание
AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.

BlobIndexerDataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

BlobIndexerImageAction

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

BlobIndexerParsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

BlobIndexerPDFTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Ответ на ошибку

FieldMapping

Определяет сопоставление между полем в источнике данных и целевым полем в индексе.

FieldMappingFunction

Представляет функцию, которая преобразует значение из источника данных перед индексированием.

IndexerExecutionEnvironment

Указывает среду, в которой должен выполняться индексатор.

IndexingParameters

Представляет параметры для выполнения индексатора.

IndexingParametersConfiguration

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

IndexingSchedule

Представляет расписание выполнения индексатора.

SearchIndexer

Представляет индексатор.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.

Имя Тип Описание
applicationId

string

Идентификатор приложения AAD, которому было предоставлено необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD.

applicationSecret

string

Ключ проверки подлинности указанного приложения AAD.

BlobIndexerDataToExtract

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

Имя Тип Описание
allMetadata

string

Извлекает метаданные, предоставляемые подсистемой хранилища BLOB-объектов Azure, и метаданные конкретного типа контента (например, метаданные, уникальные для только .png файлов индексируются).

contentAndMetadata

string

Извлекает все метаданные и текстовое содержимое из каждого большого двоичного объекта.

storageMetadata

string

Индексирует только стандартные свойства BLOB-объектов и пользовательские метаданные.

BlobIndexerImageAction

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

Имя Тип Описание
generateNormalizedImagePerPage

string

Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого, но обрабатывает PDF-файлы по-разному, что каждая страница будет отображаться как изображение и нормализуется соответствующим образом, а не извлекает внедренные изображения. Типы файлов, отличные от PDF, будут обрабатываться так же, как если бы был задан параметр GenerateNormalizedImages.

generateNormalizedImages

string

Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого. Для этого действия требуется, чтобы для dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к однородному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска. Эти сведения создаются для каждого изображения при использовании этого параметра.

none

string

Игнорирует внедренные изображения или файлы изображений в наборе данных. Это значение по умолчанию.

BlobIndexerParsingMode

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

Имя Тип Описание
default

string

Установите значение по умолчанию для обычной обработки файлов.

delimitedText

string

Задайте для разделителя текста, если большие двоичные объекты являются обычными CSV-файлами.

json

string

Установите значение json, чтобы извлечь структурированное содержимое из JSON-файлов.

jsonArray

string

Установите значение jsonArray для извлечения отдельных элементов массива JSON в виде отдельных документов.

jsonLines

string

Установите значение jsonLines для извлечения отдельных сущностей JSON, разделенных новой строкой в виде отдельных документов.

text

string

Задайте значение text, чтобы повысить производительность индексирования в файлах обычного текста в хранилище BLOB-объектов.

BlobIndexerPDFTextRotationAlgorithm

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

Имя Тип Описание
detectAngles

string

Может создавать более удобочитаемое извлечение текста из PDF-файлов, вращающих текст внутри них. Обратите внимание, что при использовании этого параметра может быть небольшое влияние на скорость производительности. Этот параметр применяется только к PDF-файлам и только к PDF-файлам с внедренным текстом. Если вращаемый текст отображается в внедренном изображении в ФОРМАТЕ PDF, этот параметр не применяется.

none

string

Использует обычное извлечение текста. Это значение по умолчанию.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительные сведения.

type

string

Дополнительный тип сведений.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Дополнительные сведения об ошибке.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Целевой объект ошибки.

ErrorResponse

Ответ на ошибку

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

FieldMapping

Определяет сопоставление между полем в источнике данных и целевым полем в индексе.

Имя Тип Описание
mappingFunction

FieldMappingFunction

Функция, применяемая к каждому значению исходного поля перед индексированием.

sourceFieldName

string

Имя поля в источнике данных.

targetFieldName

string

Имя целевого поля в индексе. Совпадает с именем исходного поля по умолчанию.

FieldMappingFunction

Представляет функцию, которая преобразует значение из источника данных перед индексированием.

Имя Тип Описание
name

string

Имя функции сопоставления полей.

parameters

object

Словарь пар имени параметра и значения для передачи функции. Каждое значение должно быть примитивным типом.

IndexerExecutionEnvironment

Указывает среду, в которой должен выполняться индексатор.

Имя Тип Описание
private

string

Указывает, что индексатор должен работать с средой, подготовленной специально для службы поиска. Это должно быть указано только в качестве среды выполнения, если индексатор должен безопасно получить доступ к ресурсам через общие ресурсы приватного канала.

standard

string

Указывает, что служба поиска может определить, где должен выполняться индексатор. Это среда по умолчанию, когда ничего не указано и является рекомендуемыми значениями.

IndexingParameters

Представляет параметры для выполнения индексатора.

Имя Тип Default value Описание
batchSize

integer

Количество элементов, считываемых из источника данных и индексированных в виде одного пакета, чтобы повысить производительность. Значение по умолчанию зависит от типа источника данных.

configuration

IndexingParametersConfiguration

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

maxFailedItems

integer

0

Максимальное количество элементов, которые могут завершать индексирование для выполнения индексатора, по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0.

maxFailedItemsPerBatch

integer

0

Максимальное количество элементов в одном пакете, которое может завершиться сбоем индексирования для пакета, которое по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0.

IndexingParametersConfiguration

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

Имя Тип Default value Описание
allowSkillsetToReadFileData

boolean

False

Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.

dataToExtract

BlobIndexerDataToExtract

contentAndMetadata

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

delimitedTextDelimiter

string

Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "|").

delimitedTextHeaders

string

Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.

documentRoot

string

Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.

excludedFileNameExtensions

string

Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.

executionEnvironment

IndexerExecutionEnvironment

standard

Указывает среду, в которой должен выполняться индексатор.

failOnUnprocessableDocument

boolean

False

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.

failOnUnsupportedContentType

boolean

False

Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.

firstLineContainsHeaders

boolean

True

Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.

imageAction

BlobIndexerImageAction

none

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

indexStorageMetadataOnlyForOversizedDocuments

boolean

False

Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

indexedFileNameExtensions

string

Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.

parsingMode

BlobIndexerParsingMode

default

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

pdfTextRotationAlgorithm

BlobIndexerPDFTextRotationAlgorithm

none

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

queryTimeout

string

00:05:00

Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

IndexingSchedule

Представляет расписание выполнения индексатора.

Имя Тип Описание
interval

string

Интервал времени между выполнением индексатора.

startTime

string

Время запуска индексатора.

SearchIndexer

Представляет индексатор.

Имя Тип Default value Описание
@odata.etag

string

ETag индексатора.

dataSourceName

string

Имя источника данных, из которого индексатор считывает данные.

description

string

Описание индексатора.

disabled

boolean

False

Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false.

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.

fieldMappings

FieldMapping[]

Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе.

name

string

Имя индексатора.

outputFieldMappings

FieldMapping[]

Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием.

parameters

IndexingParameters

Параметры для выполнения индексатора.

schedule

IndexingSchedule

Расписание для этого индексатора.

skillsetName

string

Имя набора навыков, выполняемого с помощью этого индексатора.

targetIndexName

string

Имя индекса, в который индексатор записывает данные.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

Имя Тип Описание
accessCredentials

AzureActiveDirectoryApplicationCredentials

Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение.

keyVaultKeyName

string

Имя ключа Azure Key Vault, используемого для шифрования неактивных данных.

keyVaultKeyVersion

string

Версия ключа Azure Key Vault, используемая для шифрования неактивных данных.

keyVaultUri

string

Универсальный код ресурса (URI) Хранилища ключей Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI может быть https://my-keyvault-name.vault.azure.net.