Indexers - Create

Ссылка

Служба:: Search Service

Версия API:: 2024-07-01

Создает новый индексатор.

POST {endpoint}/indexers?api-version=2024-07-01

Параметры URI

Имя	В	Обязательно	Тип	Описание
endpoint	path	True	string	URL-адрес конечной точки службы поиска.
api-version	query	True	string	Версия клиентского API.

Заголовок запроса

Имя	Обязательно	Тип	Описание
x-ms-client-request-id		string (uuid)	Идентификатор отслеживания, отправляемый запросом на отладку.

Текст запроса

Имя	Обязательно	Тип	Описание
dataSourceName	True	string	Имя источника данных, из которого индексатор считывает данные.
name	True	string	Имя индексатора.
targetIndexName	True	string	Имя индекса, в который индексатор записывает данные.
@odata.etag		string	ETag индексатора.
description		string	Описание индексатора.
disabled		boolean	Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false.
encryptionKey		SearchResourceEncryptionKey	Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.
fieldMappings		FieldMapping[]	Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе.
outputFieldMappings		FieldMapping[]	Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием.
parameters		IndexingParameters	Параметры для выполнения индексатора.
schedule		IndexingSchedule	Расписание для этого индексатора.
skillsetName		string	Имя набора навыков, выполняемого с помощью этого индексатора.

Ответы

Имя	Тип	Описание
201 Created	SearchIndexer
Other Status Codes	ErrorResponse	Ответ на ошибку.

Примеры

SearchServiceCreateIndexer

Образец запроса

HTTP

POST https://myservice.search.windows.net/indexers?api-version=2024-07-01

{
  "name": "myindexer",
  "description": "an indexer",
  "dataSourceName": "mydatasource",
  "targetIndexName": "orders",
  "schedule": {
    "interval": "PT1H",
    "startTime": "2015-01-01T00:00:00Z"
  },
  "parameters": {
    "maxFailedItems": 10,
    "maxFailedItemsPerBatch": 5
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  }
}

Пример ответа

Код состояния:: 201

{
  "name": "myindexer",
  "description": "an indexer",
  "dataSourceName": "mydatasource",
  "targetIndexName": "orders",
  "schedule": {
    "interval": "PT1H",
    "startTime": "2015-01-01T00:00:00Z"
  },
  "parameters": {
    "maxFailedItems": 10,
    "maxFailedItemsPerBatch": 5
  },
  "fieldMappings": [],
  "disabled": false,
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  }
}

Определения

Имя	Описание
AzureActiveDirectoryApplicationCredentials	Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.
BlobIndexerDataToExtract	Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.
BlobIndexerImageAction	Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.
BlobIndexerParsingMode	Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
BlobIndexerPDFTextRotationAlgorithm	Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
ErrorAdditionalInfo	Дополнительные сведения об ошибке управления ресурсами.
ErrorDetail	Сведения об ошибке.
ErrorResponse	Ответ на ошибку
FieldMapping	Определяет сопоставление между полем в источнике данных и целевым полем в индексе.
FieldMappingFunction	Представляет функцию, которая преобразует значение из источника данных перед индексированием.
IndexerExecutionEnvironment	Указывает среду, в которой должен выполняться индексатор.
IndexingParameters	Представляет параметры для выполнения индексатора.
IndexingParametersConfiguration	Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.
IndexingSchedule	Представляет расписание выполнения индексатора.
SearchIndexer	Представляет индексатор.
SearchResourceEncryptionKey	Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

AzureActiveDirectoryApplicationCredentials

Object

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.

Имя	Тип	Описание
applicationId	string	Идентификатор приложения AAD, которому было предоставлено необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD.
applicationSecret	string	Ключ проверки подлинности указанного приложения AAD.

BlobIndexerDataToExtract

Перечисление

Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.

Значение	Описание
allMetadata	Извлекает метаданные, предоставляемые подсистемой хранилища BLOB-объектов Azure, и метаданные конкретного типа контента (например, метаданные, уникальные для только .png файлов индексируются).
contentAndMetadata	Извлекает все метаданные и текстовое содержимое из каждого большого двоичного объекта.
storageMetadata	Индексирует только стандартные свойства BLOB-объектов и пользовательские метаданные.

BlobIndexerImageAction

Перечисление

Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.

Значение	Описание
generateNormalizedImagePerPage	Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого, но обрабатывает PDF-файлы по-разному, что каждая страница будет отображаться как изображение и нормализуется соответствующим образом, а не извлекает внедренные изображения. Типы файлов, отличные от PDF, будут обрабатываться так же, как если бы был задан параметр GenerateNormalizedImages.
generateNormalizedImages	Извлекает текст из изображений (например, слово STOP из знака остановки трафика) и внедряет его в поле содержимого. Для этого действия требуется, чтобы для dataToExtract задано значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к однородному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска. Эти сведения создаются для каждого изображения при использовании этого параметра.
none	Игнорирует внедренные изображения или файлы изображений в наборе данных. Это значение по умолчанию.

BlobIndexerParsingMode

Перечисление

Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.

Значение	Описание
default	Установите значение по умолчанию для обычной обработки файлов.
delimitedText	Задайте для разделителя текста, если большие двоичные объекты являются обычными CSV-файлами.
json	Установите значение json, чтобы извлечь структурированное содержимое из JSON-файлов.
jsonArray	Установите значение jsonArray для извлечения отдельных элементов массива JSON в виде отдельных документов.
jsonLines	Установите значение jsonLines для извлечения отдельных сущностей JSON, разделенных новой строкой в виде отдельных документов.
text	Задайте значение text, чтобы повысить производительность индексирования в файлах обычного текста в хранилище BLOB-объектов.

BlobIndexerPDFTextRotationAlgorithm

Перечисление

Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.

Значение	Описание
detectAngles	Может создавать более удобочитаемое извлечение текста из PDF-файлов, вращающих текст внутри них. Обратите внимание, что при использовании этого параметра может быть небольшое влияние на скорость производительности. Этот параметр применяется только к PDF-файлам и только к PDF-файлам с внедренным текстом. Если вращаемый текст отображается в внедренном изображении в ФОРМАТЕ PDF, этот параметр не применяется.
none	Использует обычное извлечение текста. Это значение по умолчанию.

Значение

Описание

detectAngles

Может создавать более удобочитаемое извлечение текста из PDF-файлов, вращающих текст внутри них. Обратите внимание, что при использовании этого параметра может быть небольшое влияние на скорость производительности. Этот параметр применяется только к PDF-файлам и только к PDF-файлам с внедренным текстом. Если вращаемый текст отображается в внедренном изображении в ФОРМАТЕ PDF, этот параметр не применяется.

none

Использует обычное извлечение текста. Это значение по умолчанию.

ErrorAdditionalInfo

Object

Дополнительные сведения об ошибке управления ресурсами.

Имя	Тип	Описание
info	object	Дополнительные сведения.
type	string	Дополнительный тип сведений.

ErrorDetail

Object

Сведения об ошибке.

Имя	Тип	Описание
additionalInfo	ErrorAdditionalInfo[]	Дополнительные сведения об ошибке.
code	string	Код ошибки.
details	ErrorDetail[]	Сведения об ошибке.
message	string	Сообщение об ошибке.
target	string	Целевой объект ошибки.

ErrorResponse

Object

Ответ на ошибку

Имя	Тип	Описание
error	ErrorDetail	Объект ошибки.

FieldMapping

Object

Определяет сопоставление между полем в источнике данных и целевым полем в индексе.

Имя	Тип	Описание
mappingFunction	FieldMappingFunction	Функция, применяемая к каждому значению исходного поля перед индексированием.
sourceFieldName	string	Имя поля в источнике данных.
targetFieldName	string	Имя целевого поля в индексе. Совпадает с именем исходного поля по умолчанию.

FieldMappingFunction

Object

Представляет функцию, которая преобразует значение из источника данных перед индексированием.

Имя	Тип	Описание
name	string	Имя функции сопоставления полей.
parameters	object	Словарь пар имени параметра и значения для передачи функции. Каждое значение должно быть примитивным типом.

IndexerExecutionEnvironment

Перечисление

Указывает среду, в которой должен выполняться индексатор.

Значение	Описание
private	Указывает, что индексатор должен работать с средой, подготовленной специально для службы поиска. Это должно быть указано только в качестве среды выполнения, если индексатор должен безопасно получить доступ к ресурсам через общие ресурсы приватного канала.
standard	Указывает, что служба поиска может определить, где должен выполняться индексатор. Это среда по умолчанию, когда ничего не указано и является рекомендуемыми значениями.

Значение

Описание

private

Указывает, что индексатор должен работать с средой, подготовленной специально для службы поиска. Это должно быть указано только в качестве среды выполнения, если индексатор должен безопасно получить доступ к ресурсам через общие ресурсы приватного канала.

standard

Указывает, что служба поиска может определить, где должен выполняться индексатор. Это среда по умолчанию, когда ничего не указано и является рекомендуемыми значениями.

IndexingParameters

Object

Представляет параметры для выполнения индексатора.

Имя	Тип	Default value	Описание
batchSize	integer (int32)		Количество элементов, считываемых из источника данных и индексированных в виде одного пакета, чтобы повысить производительность. Значение по умолчанию зависит от типа источника данных.
configuration	IndexingParametersConfiguration		Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.
maxFailedItems	integer (int32)	0	Максимальное количество элементов, которые могут завершать индексирование для выполнения индексатора, по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0.
maxFailedItemsPerBatch	integer (int32)	0	Максимальное количество элементов в одном пакете, которое может завершиться сбоем индексирования для пакета, которое по-прежнему считается успешным. -1 означает, что ограничение не ограничено. Значение по умолчанию — 0.

IndexingParametersConfiguration

Object

Словарь свойств конфигурации для индексатора. Каждое имя — это имя определенного свойства. Каждое значение должно быть примитивным типом.

Имя	Тип	Default value	Описание
allowSkillsetToReadFileData	boolean	False	Если значение true, создадит путь //document//file_data, представляющий исходные данные файла, скачанные из источника данных BLOB-объекта. Это позволяет передавать исходные данные файла в пользовательский навык обработки в конвейере обогащения или навык извлечения документов.
dataToExtract	BlobIndexerDataToExtract	contentAndMetadata	Указывает данные, извлекаемые из хранилища BLOB-объектов Azure, и сообщает индексатору, какие данные извлекаются из содержимого изображения, если параметр imageAction имеет значение, отличное от "none". Это относится к внедренным содержимым изображения в .PDF или другом приложении или файлах изображений, таких как .jpg и .png, в больших двоичных объектах Azure.
delimitedTextDelimiter	string		Для BLOB-объектов CSV задает разделитель однозначных символов для CSV-файлов, где каждая строка запускает новый документ (например, "\|").
delimitedTextHeaders	string		Для BLOB-объектов CSV указывается список заголовков столбцов с разделителями-запятыми, полезный для сопоставления исходных полей с полями назначения в индексе.
documentRoot	string		Для массивов JSON, учитывая структурированный или полуструктурированный документ, можно указать путь к массиву с помощью этого свойства.
excludedFileNameExtensions	string		Список расширений имен файлов с разделителями-запятыми, которые следует игнорировать при обработке из хранилища BLOB-объектов Azure. Например, можно исключить ".png, .mp4" для пропуска этих файлов во время индексирования.
executionEnvironment	IndexerExecutionEnvironment	standard	Указывает среду, в которой должен выполняться индексатор.
failOnUnprocessableDocument	boolean	False	Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование, если документ завершается сбоем индексирования.
failOnUnsupportedContentType	boolean	False	Для больших двоичных объектов Azure задайте значение false, если вы хотите продолжить индексирование при обнаружении неподдерживаемого типа контента, и вы не знаете все типы контента (расширения файлов) заранее.
firstLineContainsHeaders	boolean	True	Для BLOB-объектов CSV указывает, что первая (непустая) строка каждого большого двоичного объекта содержит заголовки.
imageAction	BlobIndexerImageAction	none	Определяет, как обрабатывать внедренные образы и файлы изображений в хранилище BLOB-объектов Azure. Для настройки imageAction любое значение, отличное от "none", требуется, чтобы набор навыков также был присоединен к индексатору.
indexStorageMetadataOnlyForOversizedDocuments	boolean	False	Для больших двоичных объектов Azure задайте для этого свойства значение true, чтобы индексировать метаданные хранилища для содержимого BLOB-объектов, слишком большого размера для обработки. Слишком большие двоичные объекты обрабатываются как ошибки по умолчанию. Ограничения размера большого двоичного объекта см. в https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.
indexedFileNameExtensions	string		Список расширений имен файлов с разделителями-запятыми для выбора при обработке из хранилища BLOB-объектов Azure. Например, можно сосредоточить индексирование на определенных файлах приложений ".docx, .pptx, .msg", чтобы в частности включить эти типы файлов.
parsingMode	BlobIndexerParsingMode	default	Представляет режим синтаксического анализа для индексирования из источника данных BLOB-объектов Azure.
pdfTextRotationAlgorithm	BlobIndexerPDFTextRotationAlgorithm	none	Определяет алгоритм извлечения текста из PDF-файлов в хранилище BLOB-объектов Azure.
queryTimeout	string	00:05:00	Увеличивает время ожидания за пределами 5-минутного значения по умолчанию для источников данных базы данных SQL Azure, указанного в формате hh:mm:ss.

IndexingSchedule

Object

Представляет расписание выполнения индексатора.

Имя	Тип	Описание
interval	string (duration)	Интервал времени между выполнением индексатора.
startTime	string (date-time)	Время запуска индексатора.

SearchIndexer

Object

Представляет индексатор.

Имя	Тип	Default value	Описание
@odata.etag	string		ETag индексатора.
dataSourceName	string		Имя источника данных, из которого индексатор считывает данные.
description	string		Описание индексатора.
disabled	boolean	False	Значение, указывающее, отключен ли индексатор. Значение по умолчанию — false.
encryptionKey	SearchResourceEncryptionKey		Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных для определения индексатора (а также состояния выполнения индексатора), если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать их. После шифрования определения индексатора он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Определение индексатора (и состояние выполнения индексатора) не будет затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.
fieldMappings	FieldMapping[]		Определяет сопоставления между полями в источнике данных и соответствующими целевыми полями в индексе.
name	string		Имя индексатора.
outputFieldMappings	FieldMapping[]		Сопоставления полей вывода применяются после обогащения и непосредственно перед индексированием.
parameters	IndexingParameters		Параметры для выполнения индексатора.
schedule	IndexingSchedule		Расписание для этого индексатора.
skillsetName	string		Имя набора навыков, выполняемого с помощью этого индексатора.
targetIndexName	string		Имя индекса, в который индексатор записывает данные.

SearchResourceEncryptionKey

Object

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

Имя	Тип	Описание
accessCredentials	AzureActiveDirectoryApplicationCredentials	Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение.
keyVaultKeyName	string	Имя ключа Azure Key Vault, используемого для шифрования неактивных данных.
keyVaultKeyVersion	string	Версия ключа Azure Key Vault, используемая для шифрования неактивных данных.
keyVaultUri	string	Универсальный код ресурса (URI) Хранилища ключей Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI может быть `https://my-keyvault-name.vault.azure.net`.

Поделиться через

Indexers - Create

Параметры URI

Заголовок запроса

Текст запроса

Ответы

Примеры

SearchServiceCreateIndexer

Образец запроса

Пример ответа

Определения

AzureActiveDirectoryApplicationCredentials

BlobIndexerDataToExtract

BlobIndexerImageAction

BlobIndexerParsingMode

BlobIndexerPDFTextRotationAlgorithm

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

FieldMapping

FieldMappingFunction

IndexerExecutionEnvironment

IndexingParameters

IndexingParametersConfiguration

IndexingSchedule

SearchIndexer

SearchResourceEncryptionKey

Дополнительные ресурсы