Indexes - Create Or Update
Создает новый индекс поиска или обновляет индекс, если он уже существует.
PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01
Параметры URI
| Имя | В | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
|
index
|
path | True |
string |
Определение индекса, который необходимо создать или обновить. |
|
api-version
|
query | True |
string |
Версия клиентского API. |
|
allow
|
query |
boolean |
Позволяет добавлять в индекс новые анализаторы, генераторы маркеров, фильтры маркеров или фильтры символов, переводя индекс в автономный режим по крайней мере на несколько секунд. Это временно приводит к сбою индексирования и запросов. Производительность и доступность записи индекса могут быть снижены в течение нескольких минут после обновления индекса или дольше для очень больших индексов. |
Заголовок запроса
| Имя | Обязательно | Тип | Описание |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Идентификатор отслеживания, отправленный вместе с запросом на помощь в отладке. |
|
| If-Match |
string |
Определяет условие If-Match. Операция будет выполнена только в том случае, если ETag на сервере соответствует этому значению. |
|
| If-None-Match |
string |
Определяет условие If-None-Match. Операция будет выполнена только в том случае, если ETag на сервере не соответствует этому значению. |
|
| Prefer | True |
string |
Для запросов HTTP PUT указывает службе вернуть созданный или обновленный ресурс при успешном выполнении. |
Текст запроса
| Имя | Обязательно | Тип | Описание |
|---|---|---|---|
| fields | True |
Поля индекса. |
|
| name | True |
string |
Имя индекса. |
| @odata.etag |
string |
ETag индекса. |
|
| analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
|
| charFilters | CharFilter[]: |
Символ фильтруется по индексу. |
|
| corsOptions |
Параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
||
| defaultScoringProfile |
string |
Имя профиля оценки, который будет использоваться, если он не указан в запросе. Если это свойство не задано и в запросе не указан профиль оценки, то будет использоваться оценка по умолчанию (tf-idf). |
|
| description |
string |
Описание индекса. |
|
| encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования данных при хранении, когда вы хотите быть уверены в том, что никто, даже корпорация Майкрософт, не сможет расшифровать ваши данные. После того, как вы зашифровали свои данные, они всегда останутся зашифрованными. Служба поиска будет игнорировать попытки установить для этого свойства значение null. Вы можете изменить это свойство по мере необходимости, если хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных поисковых служб и доступно только для платных служб, созданных 1 января 2019 г. или позже. |
||
| normalizers | LexicalNormalizer[]: |
Нормализаторы для индекса. |
|
| scoringProfiles |
Профили оценки для индекса. |
||
| semantic |
Определяет параметры индекса поиска, влияющие на семантические возможности. |
||
| similarity | Similarity: |
Тип алгоритма схожести, который будет использоваться при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
|
| suggesters |
Подсказчики для индекса. |
||
| tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
|
| tokenizers | LexicalTokenizer[]: |
Генераторы маркеров для индекса. |
|
| vectorSearch |
Содержит параметры конфигурации, связанные с векторным поиском. |
Ответы
| Имя | Тип | Описание |
|---|---|---|
| 200 OK | ||
| 201 Created | ||
| Other Status Codes |
Ответ на ошибку. |
Примеры
SearchServiceCreateOrUpdateIndex
Образец запроса
PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Пример ответа
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Определения
| Имя | Описание |
|---|---|
|
Ascii |
Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault. |
|
Azure |
Позволяет создать векторное встраивание для заданного текстового ввода с помощью ресурса Azure OpenAI. |
|
Azure |
Имя модели Azure Open AI, которое будет вызываться. |
|
Azure |
Указывает параметры для подключения к ресурсу Azure OpenAI. |
|
Azure |
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса. |
|
Binary |
Содержит параметры конфигурации, специфичные для метода сжатия двоичного квантования, используемого во время индексирования и запросов. |
| BM25Similarity |
Функция ранжирования основана на алгоритме подобия Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает в себя нормализацию длины (управляется параметром 'b'), а также насыщение частоты терминов (контролируется параметром 'k1'). |
|
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
|
Cjk |
Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Cjk |
Скрипты, которые могут быть проигнорированы CjkBigramTokenFilter. |
|
Classic |
Устаревший алгоритм подобия, использующий реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит статическую нормализацию длины документа, а также координирующие факторы, которые наказывают документы, которые лишь частично соответствуют искомым запросам. |
|
Classic |
Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. Этот токенизатор реализован с помощью Apache Lucene. |
|
Common |
Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Cors |
Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
|
Custom |
Позволяет контролировать процесс преобразования текста в индексируемые/доступные для поиска токены. Это определяемая пользователем конфигурация, состоящая из одного предопределенного генератора маркеров и одного или нескольких фильтров. Генератор маркеров отвечает за разбиение текста на маркеры, а также за фильтры для изменения маркеров, выдаваемых генератором маркеров. |
|
Custom |
Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый маркер. |
|
Dictionary |
Разлагает сложные слова, встречающиеся во многих германских языках. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Distance |
Определяет функцию, которая увеличивает баллы в зависимости от расстояния от географического местоположения. |
|
Distance |
Предоставляет значения параметров для функции оценки расстояния. |
|
Edge |
Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Edge |
Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма. |
|
Edge |
Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Edge |
Размечает входные данные от ребра в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene. |
|
Elision |
Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Error |
Дополнительные сведения об ошибке управления ресурсами. |
|
Error |
Сведения об ошибке. |
|
Error |
Ответ на ошибку |
|
Exhaustive |
Содержит параметры, специфичные для полного алгоритма KNN. |
|
Exhaustive |
Содержит параметры конфигурации, специфичные для исчерпывающего алгоритма KNN, используемого во время запросов, который будет выполнять поиск методом перебора по всему векторному индексу. |
|
Freshness |
Определяет функцию, которая повышает баллы на основе значения поля даты и времени. |
|
Freshness |
Предоставляет значения параметров для функции оценки актуальности. |
|
Hnsw |
Содержит параметры, специфичные для алгоритма HNSW. |
|
Hnsw |
Содержит параметры конфигурации, специфичные для алгоритма приближенных ближайших соседей HNSW, используемого во время индексирования и запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью и точностью поиска. |
|
Input |
Сопоставление полей ввода для навыка. |
|
Keep |
Фильтр маркеров, в котором хранятся только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Keyword |
Помечает термины как ключевые слова. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Keyword |
Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene. |
|
Keyword |
Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene. |
|
Length |
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Lexical |
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой. |
|
Lexical |
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой. |
|
Lexical |
Определяет имена всех токенизаторов, поддерживаемых поисковой системой. |
|
Limit |
Ограничивает количество токенов при индексации. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Lucene |
Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки. |
|
Lucene |
Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene. |
|
Lucene |
Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene. |
|
Magnitude |
Определяет функцию, которая увеличивает баллы на основе величины числового поля. |
|
Magnitude |
Предоставляет значения параметров для функции оценки величины. |
|
Mapping |
Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Совпадение является жадным (выигрывает самое длинное совпадение с шаблоном в данный момент). Заменой может быть пустая строка. Этот фильтр символов реализован с помощью Apache Lucene. |
|
Microsoft |
Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм. |
|
Microsoft |
Делит текст с помощью правил, зависящих от языка. |
|
Microsoft |
Список языков, поддерживаемых генератором маркеров корневых элементов языка Майкрософт. |
|
Microsoft |
Список языков, поддерживаемых генератором маркеров языка Майкрософт. |
|
NGram |
Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
NGram |
Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
NGram |
Токенизирует входные данные в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene. |
|
Output |
Сопоставление выходных полей для навыка. |
|
Path |
Генератор маркеров для иерархий, подобных путям. Этот токенизатор реализован с помощью Apache Lucene. |
|
Pattern |
Гибко разделяет текст на термины с помощью шаблона регулярных выражений. Данный анализатор реализован с использованием Apache Lucene. |
|
Pattern |
Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Pattern |
Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализован с помощью Apache Lucene. |
|
Pattern |
Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Pattern |
Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. Этот токенизатор реализован с помощью Apache Lucene. |
|
Phonetic |
Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter. |
|
Phonetic |
Создание жетонов для фонетических соответствий. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Prioritized |
Описывает поля title, content и keywords, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. |
|
Ranking |
Представляет оценку, используемую для сортировки документов. |
|
Regex |
Определяет флаги, которые можно комбинировать для управления использованием регулярных выражений в анализаторе шаблонов и генераторе маркеров шаблонов. |
|
Rescoring |
Содержит параметры для повторного сканирования. |
|
Scalar |
Содержит параметры, специфичные для скалярного квантования. |
|
Scalar |
Содержит параметры конфигурации, специфичные для метода сжатия скалярного квантования, используемого во время индексирования и запросов. |
|
Scoring |
Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки. |
|
Scoring |
Определяет функцию, используемую для интерполяции повышения балла по ряду документов. |
|
Scoring |
Определяет параметры поискового индекса, влияющие на оценку в поисковых запросах. |
|
Search |
Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поля при поиске. |
|
Search |
Определяет тип данных поля в индексе поиска. |
|
Search |
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса. |
|
Search |
Очищает свойство identity источника данных. |
|
Search |
Указывает идентификатор для используемого источника данных. |
|
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки хранимых данных, таких как индексы и сопоставления синонимов. |
|
Semantic |
Определяет конкретную конфигурацию, которая будет использоваться в контексте семантических возможностей. |
|
Semantic |
Поле, которое используется как часть семантической конфигурации. |
|
Semantic |
Определяет параметры индекса поиска, влияющие на семантические возможности. |
|
Shingle |
Создает комбинации жетонов как один жетон. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Snowball |
Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Snowball |
Язык, используемый для фильтра маркеров Snowball. |
|
Stemmer |
Предоставляет возможность переопределения других фильтров стемминга с помощью пользовательского стемминга на основе словаря. Любые термины из словаря будут помечены как ключевые слова, чтобы они не были связаны со стеммерами вниз по цепочке. Необходимо размещать перед любыми фильтрами для стемминга. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Stemmer |
Фильтр стемминга для конкретного языка. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Stemmer |
Язык, используемый для фильтра маркеров парадигматического модуля. |
|
Stop |
Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. Данный анализатор реализован с использованием Apache Lucene. |
|
Stopwords |
Определяет предопределенный список стоп-слов для конкретного языка. |
|
Stopwords |
Удаляет стоп-слова из потока токенов. Этот фильтр маркеров реализован с помощью Apache Lucene. |
| Suggester |
Определяет, как API Suggest должен применяться к группе полей в индексе. |
|
Suggester |
Значение, указывающее на возможности средства подбора. |
|
Synonym |
Сопоставление синонимов из одного или нескольких слов в потоке токенов. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Tag |
Определяет функцию, которая повышает баллы документов со строковыми значениями, соответствующими заданному списку тегов. |
|
Tag |
Предоставляет значения параметров для функции оценки тегов. |
|
Text |
Определяет веса в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах. |
|
Token |
Представляет классы символов, над которыми может работать фильтр маркеров. |
|
Token |
Определяет имена всех фильтров токенов, поддерживаемых поисковой системой. |
|
Truncate |
Усекает термины до определенной длины. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Uax |
Токенизирует URL-адреса и адреса электронной почты как один токен. Этот токенизатор реализован с помощью Apache Lucene. |
|
Unique |
Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализован с помощью Apache Lucene. |
|
Vector |
Формат кодировки для интерпретации содержимого векторных полей. |
|
Vector |
Содержит параметры конфигурации, связанные с векторным поиском. |
|
Vector |
Алгоритм, используемый для индексирования и запросов. |
|
Vector |
Метрика сходства, используемая для векторных сравнений. Рекомендуется выбрать ту же метрику подобия, на которой обучалась модель встраивания. |
|
Vector |
Метод сжатия, используемый для индексирования и запросов. |
|
Vector |
Метод хранения исходных векторов полной точности, используемых для восстановления и операций с внутренними индексами. |
|
Vector |
Квантованный тип данных сжатых векторных значений. |
|
Vector |
Определяет комбинацию конфигураций для использования с векторным поиском. |
|
Vector |
Метод векторизации, который будет использоваться во время запроса. |
|
Web |
Задает свойства для подключения к определенному пользователем векторизатору. |
|
Web |
Указывает определяемый пользователем векторизатор для создания векторного встраивания строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса Web API набора навыков. |
|
Word |
Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов. Этот фильтр маркеров реализован с помощью Apache Lucene. |
AsciiFoldingTokenFilter
Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| preserveOriginal |
boolean |
False |
Значение, указывающее, будет ли сохранен исходный токен. По умолчанию — false. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.
| Имя | Тип | Описание |
|---|---|---|
| applicationId |
string |
Идентификатор приложения AAD, которому предоставлены необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
| applicationSecret |
string |
Ключ аутентификации указанного приложения AAD. |
AzureOpenAIEmbeddingSkill
Позволяет создать векторное встраивание для заданного текстового ввода с помощью ресурса Azure OpenAI.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип навыка. |
| apiKey |
string |
Ключ API указанного ресурса Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. |
| context |
string |
Представляет уровень, на котором выполняются операции, например корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document. |
| deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI на указанном ресурсе. |
| description |
string |
Описание навыка, которое описывает входы, выходы и использование навыка. |
| dimensions |
integer (int32) |
Число измерений, в которых должны быть внедренные выходные данные. Поддерживается только в моделях text-embedding-3 и более поздних версий. |
| inputs |
Входными данными навыков может быть столбец в исходном наборе данных или выходные данные вышестоящего навыка. |
|
| modelName |
Имя модели внедрения, которая развертывается по указанному пути deploymentId. |
|
| name |
string |
Название навыка, которое однозначно идентифицирует его в наборе навыков. Навыку, имя которого не определено, будет присвоено по умолчанию в виде индекса из 1 в массиве навыков, начинающегося с префикса '#'. |
| outputs |
Выходными данными навыка является либо поле в индексе поиска, либо значение, которое может быть использовано в качестве входных данных другим навыком. |
|
| resourceUri |
string (uri) |
URI ресурса Azure OpenAI. |
AzureOpenAIModelName
Имя модели Azure Open AI, которое будет вызываться.
| Значение | Описание |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Указывает параметры для подключения к ресурсу Azure OpenAI.
| Имя | Тип | Описание |
|---|---|---|
| apiKey |
string |
Ключ API указанного ресурса Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. |
| deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI на указанном ресурсе. |
| modelName |
Имя модели внедрения, которая развертывается по указанному пути deploymentId. |
|
| resourceUri |
string (uri) |
URI ресурса Azure OpenAI. |
AzureOpenAIVectorizer
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.
| Имя | Тип | Описание |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Содержит параметры, относящиеся к векторизации внедрения Azure OpenAI. |
| kind |
string:
azure |
Название метода векторизации, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет ассоциироваться с этим конкретным методом векторизации. |
BinaryQuantizationVectorSearchCompressionConfiguration
Содержит параметры конфигурации, специфичные для метода сжатия двоичного квантования, используемого во время индексирования и запросов.
| Имя | Тип | Описание |
|---|---|---|
| kind |
string:
binary |
Название типа метода сжатия, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет связано с этой конкретной конфигурацией. |
| rescoringOptions |
Содержит параметры для повторного сканирования. |
|
| truncationDimension |
integer (int32) |
Количество измерений для усечения векторов. Усечение векторов уменьшает размер векторов и объем данных, которые необходимо передать во время поиска. Это может снизить затраты на хранение и повысить производительность поиска за счет отзыва. Его следует использовать только для встраиваний, обученных с помощью обучения представлений Matryoshka Representation Learning (MRL), таких как OpenAI text-embedding-3-large (small). Значение по умолчанию равно null, что означает отсутствие усечения. |
BM25Similarity
Функция ранжирования основана на алгоритме подобия Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает в себя нормализацию длины (управляется параметром 'b'), а также насыщение частоты терминов (контролируется параметром 'k1').
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа. |
| k1 |
number (double) |
Это свойство управляет функцией масштабирования между частотой терминов каждого совпадающего термина и итоговой оценкой релевантности пары документ-запрос. По умолчанию используется значение 1,2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты семестров. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
| Значение | Описание |
|---|---|
| html_strip |
Фильтр символов, который пытается отсечь конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| ignoreScripts |
Скрипты, которые нужно игнорировать. |
||
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| outputUnigrams |
boolean |
False |
Значение, указывающее, следует ли выводить одновременно униграммы и биграммы (если true) или только биграммы (если false). По умолчанию — false. |
CjkBigramTokenFilterScripts
Скрипты, которые могут быть проигнорированы CjkBigramTokenFilter.
| Значение | Описание |
|---|---|
| han |
Игнорируйте письмо Хань при формировании биграмм терминов ККК. |
| hiragana |
Игнорируйте хираганский шрифт при формировании биграмм терминов ККЯ. |
| katakana |
Игнорируйте шрифт катакана при формировании биграмм терминов ККЯ. |
| hangul |
Игнорируйте письменность хангыль при формировании биграмм терминов ККЯ. |
ClassicSimilarity
Устаревший алгоритм подобия, использующий реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит статическую нормализацию длины документа, а также координирующие факторы, которые наказывают документы, которые лишь частично соответствуют искомым запросам.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
CommonGramTokenFilter
Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| commonWords |
string[] |
Набор общих слов. |
|
| ignoreCase |
boolean |
False |
Значение, указывающее, будет ли сопоставление общих слов нечувствительным к регистру. По умолчанию — false. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| queryMode |
boolean |
False |
Значение, указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает биграммы, а затем удаляет общие слова и отдельные термины, за которыми следует общее слово. По умолчанию — false. |
CorsOptions
Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.
| Имя | Тип | Описание |
|---|---|---|
| allowedOrigins |
string[] |
Список источников, из которых коду JavaScript будет предоставлен доступ к вашему индексу. Может содержать список хостов вида {protocol}://{fully-qualified-domain-name}[:{port#}], или один '*' для разрешения всех источников (не рекомендуется). |
| maxAgeInSeconds |
integer (int64) |
Продолжительность, в течение которой браузеры должны кэшировать ответы CORS перед проверкой. По умолчанию 5 минут. |
CustomAnalyzer
Позволяет контролировать процесс преобразования текста в индексируемые/доступные для поиска токены. Это определяемая пользователем конфигурация, состоящая из одного предопределенного генератора маркеров и одного или нескольких фильтров. Генератор маркеров отвечает за разбиение текста на маркеры, а также за фильтры для изменения маркеров, выдаваемых генератором маркеров.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
| charFilters |
Список фильтров символов, используемых для подготовки входного текста перед его обработкой генератором маркеров. Например, они могут заменять определенные символы или символы. Фильтры запускаются в том порядке, в котором они перечислены. |
|
| name |
string |
Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
| tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных генератором маркеров. Например, можно указать фильтр нижнего регистра, который преобразует все символы в строчные. Фильтры запускаются в том порядке, в котором они перечислены. |
|
| tokenizer |
Имя маркеризатора, используемого для разделения непрерывного текста на последовательность маркеров, например для разбиения предложения на слова. |
CustomNormalizer
Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый маркер.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип нормализатора. |
| charFilters |
Список фильтров символов, используемых для подготовки входного текста перед его обработкой. Например, они могут заменять определенные символы или символы. Фильтры запускаются в том порядке, в котором они перечислены. |
|
| name |
string |
Имя нормализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. Он не может заканчиваться на '.microsoft' или '.lucene', а также называться 'asciifolding', 'standard', 'lowercase', 'uppercase' или 'elision'. |
| tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения входного маркера. Например, можно указать фильтр нижнего регистра, который преобразует все символы в строчные. Фильтры запускаются в том порядке, в котором они перечислены. |
DictionaryDecompounderTokenFilter
Разлагает сложные слова, встречающиеся во многих германских языках. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Максимальный размер подслова. Выводятся только подслова, которые короче этого числа. Значение по умолчанию — 15. Максимум 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Минимальный размер подслова. Выводятся только подслова длиннее этого значения. Значение по умолчанию — 2. Максимум 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Минимальный размер слова. Обрабатываются только слова, длиннее этого. Значение по умолчанию — 5. Максимум 300. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| onlyLongestMatch |
boolean |
False |
Значение, указывающее, следует ли добавлять в выходные данные только самое длинное совпадающее подслово. По умолчанию — false. |
| wordList |
string[] |
Список слов, с которыми нужно сопоставить. |
DistanceScoringFunction
Определяет функцию, которая увеличивает баллы в зависимости от расстояния от географического местоположения.
| Имя | Тип | Описание |
|---|---|---|
| boost |
number (double) |
Множитель для исходного счета. Должно быть положительное число, не равное 1,0. |
| distance |
Значения параметров для функции оценки расстояния. |
|
| fieldName |
string |
Имя поля, используемого в качестве входных данных для функции подсчета очков. |
| interpolation |
Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear". |
|
| type |
string:
distance |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре. |
DistanceScoringParameters
Предоставляет значения параметров для функции оценки расстояния.
| Имя | Тип | Описание |
|---|---|---|
| boostingDistance |
number (double) |
Расстояние в километрах от опорного места, где заканчивается дальность наддува. |
| referencePointParameter |
string |
Название параметра, передаваемого в поисковых запросах для указания местоположения ссылки. |
EdgeNGramTokenFilter
Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| maxGram |
integer (int32) |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. |
| minGram |
integer (int32) |
1 |
Минимальная длина n-грамма. По умолчанию 1. Должно быть меньше значения maxGram. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| side | front |
Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма. По умолчанию используется значение "front". |
EdgeNGramTokenFilterSide
Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма.
| Значение | Описание |
|---|---|
| front |
Указывает, что n-грамма должна создаваться с лицевой стороны входных данных. |
| back |
Указывает, что n-грамма должна быть сгенерирована из обратной стороны входных данных. |
EdgeNGramTokenFilterV2
Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| side | front |
Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма. По умолчанию используется значение "front". |
EdgeNGramTokenizer
Размечает входные данные от ребра в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| tokenChars |
Классы персонажей для сохранения в токенах. |
ElisionTokenFilter
Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
| articles |
string[] |
Набор статей для удаления. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
| Имя | Тип | Описание |
|---|---|---|
| info |
object |
Дополнительная информация. |
| type |
string |
Тип дополнительной информации. |
ErrorDetail
Сведения об ошибке.
| Имя | Тип | Описание |
|---|---|---|
| additionalInfo |
Ошибка дополнительная информация. |
|
| code |
string |
Код ошибки. |
| details |
Сведения об ошибке. |
|
| message |
string |
Сообщение об ошибке. |
| target |
string |
Цель ошибки. |
ErrorResponse
Ответ на ошибку
| Имя | Тип | Описание |
|---|---|---|
| error |
Объект ошибки. |
ExhaustiveKnnParameters
Содержит параметры, специфичные для полного алгоритма KNN.
| Имя | Тип | Описание |
|---|---|---|
| metric |
Метрика сходства, используемая для векторных сравнений. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, специфичные для исчерпывающего алгоритма KNN, используемого во время запросов, который будет выполнять поиск методом перебора по всему векторному индексу.
| Имя | Тип | Описание |
|---|---|---|
| exhaustiveKnnParameters |
Содержит параметры, специфичные для полного алгоритма KNN. |
|
| kind |
string:
exhaustive |
Название типа алгоритма, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет связано с этой конкретной конфигурацией. |
FreshnessScoringFunction
Определяет функцию, которая повышает баллы на основе значения поля даты и времени.
| Имя | Тип | Описание |
|---|---|---|
| boost |
number (double) |
Множитель для исходного счета. Должно быть положительное число, не равное 1,0. |
| fieldName |
string |
Имя поля, используемого в качестве входных данных для функции подсчета очков. |
| freshness |
Значения параметров для функции оценки актуальности. |
|
| interpolation |
Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear". |
|
| type |
string:
freshness |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре. |
FreshnessScoringParameters
Предоставляет значения параметров для функции оценки актуальности.
| Имя | Тип | Описание |
|---|---|---|
| boostingDuration |
string (duration) |
Срок действия, по истечении которого бустинг прекратится для конкретного документа. |
HnswParameters
Содержит параметры, специфичные для алгоритма HNSW.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Размер динамического списка, содержащего ближайших соседей, который используется во время индексирования. Увеличение этого параметра может улучшить качество индекса за счет увеличения времени индексации. В определенный момент увеличение этого параметра приводит к уменьшению отдачи. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Размер динамического списка, содержащего ближайших соседей, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска, за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению отдачи. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Количество двунаправленных связей, создаваемых для каждого нового элемента во время построения. Увеличение значения этого параметра может улучшить запоминаемость и сократить время извлечения для наборов данных с высокой внутренней размерностью за счет увеличения потребления памяти и увеличения времени индексирования. |
| metric |
Метрика сходства, используемая для векторных сравнений. |
HnswVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, специфичные для алгоритма приближенных ближайших соседей HNSW, используемого во время индексирования и запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью и точностью поиска.
| Имя | Тип | Описание |
|---|---|---|
| hnswParameters |
Содержит параметры, специфичные для алгоритма HNSW. |
|
| kind |
string:
hnsw |
Название типа алгоритма, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет связано с этой конкретной конфигурацией. |
InputFieldMappingEntry
Сопоставление полей ввода для навыка.
| Имя | Тип | Описание |
|---|---|---|
| inputs |
Рекурсивные входные данные, используемые при создании сложного типа. |
|
| name |
string |
Имя входных данных. |
| source |
string |
Источник входных данных. |
| sourceContext |
string |
Исходный контекст, используемый для выбора рекурсивных входных данных. |
KeepTokenFilter
Фильтр маркеров, в котором хранятся только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| keepWords |
string[] |
Список слов, которые нужно сохранить. |
|
| keepWordsCase |
boolean |
False |
Значение, указывающее, следует ли сначала писать все слова в нижнем регистре. По умолчанию — false. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
KeywordMarkerTokenFilter
Помечает термины как ключевые слова. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| ignoreCase |
boolean |
False |
Значение, указывающее, следует ли игнорировать регистр. Если true, все слова сначала преобразуются в нижний регистр. По умолчанию — false. |
| keywords |
string[] |
Список слов, которые нужно пометить как ключевые слова. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
KeywordTokenizer
Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| bufferSize |
integer (int32) |
256 |
Размер буфера чтения в байтах. Значение по умолчанию — 256. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
KeywordTokenizerV2
Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Максимальная длина токена. Значение по умолчанию — 256. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
LengthTokenFilter
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| max |
integer (int32) maximum: 300 |
300 |
Максимальная длина в символах. По умолчанию и максимум - 300. |
| min |
integer (int32) maximum: 300 |
0 |
Минимальная длина в символах. Значение по умолчанию — 0. Максимум 300. Должно быть меньше значения max. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
LexicalAnalyzerName
Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.
| Значение | Описание |
|---|---|
| ar.microsoft |
Анализатор Microsoft для арабского языка. |
| ar.lucene |
Анализатор Lucene для арабского языка. |
| hy.lucene |
Анализатор Lucene для армянского языка. |
| bn.microsoft |
Анализатор Microsoft для Bangla. |
| eu.lucene |
Анализатор Lucene для баскского языка. |
| bg.microsoft |
Анализатор Microsoft для болгарского языка. |
| bg.lucene |
Анализатор люцин для болгарского языка. |
| ca.microsoft |
Анализатор Microsoft для каталанского языка. |
| ca.lucene |
Анализатор Lucene для каталанского языка. |
| zh-Hans.microsoft |
Анализатор Microsoft для китайского языка (упрощенный). |
| zh-Hans.lucene |
Анализатор Lucene для китайского языка (упрощенный). |
| zh-Hant.microsoft |
Анализатор Microsoft для китайского языка (традиционный). |
| zh-Hant.lucene |
Анализатор люцин для китайского языка (традиционный). |
| hr.microsoft |
Анализатор Microsoft для хорватского языка. |
| cs.microsoft |
Анализатор Microsoft для чешского языка. |
| cs.lucene |
Анализатор Lucene для чешского языка. |
| da.microsoft |
Анализатор Microsoft для датского языка. |
| da.lucene |
Анализатор Lucene для датского языка. |
| nl.microsoft |
Анализатор Microsoft для голландского языка. |
| nl.lucene |
Анализатор Lucene для голландского языка. |
| en.microsoft |
Анализатор Microsoft для английского языка. |
| en.lucene |
Анализатор Lucene для английского языка. |
| et.microsoft |
Анализатор Microsoft для эстонского языка. |
| fi.microsoft |
Анализатор Microsoft для финского языка. |
| fi.lucene |
Анализатор Lucene для финского языка. |
| fr.microsoft |
Анализатор Microsoft для французского языка. |
| fr.lucene |
Анализатор Lucene для французского языка. |
| gl.lucene |
Анализатор Lucene для галисийского языка. |
| de.microsoft |
Анализатор Microsoft для немецкого языка. |
| de.lucene |
Анализатор Lucene для немецкого языка. |
| el.microsoft |
Анализатор Microsoft для греческого языка. |
| el.lucene |
Анализатор Lucene для греческого языка. |
| gu.microsoft |
Анализатор Microsoft для гуджарати. |
| he.microsoft |
Анализатор Microsoft для иврита. |
| hi.microsoft |
Анализатор Microsoft для хинди. |
| hi.lucene |
Анализатор Lucene для хинди. |
| hu.microsoft |
Анализатор Microsoft для венгерского языка. |
| hu.lucene |
Анализатор Lucene для венгерского языка. |
| is.microsoft |
Анализатор Microsoft для исландского. |
| id.microsoft |
Анализатор Microsoft для индонезийского языка (Bahasa). |
| id.lucene |
Анализатор Lucene для индонезийского языка. |
| ga.lucene |
Анализатор Lucene для ирландцев. |
| it.microsoft |
Анализатор Microsoft для итальянского языка. |
| it.lucene |
Анализатор Lucene для итальянского языка. |
| ja.microsoft |
Анализатор Microsoft для японского языка. |
| ja.lucene |
Анализатор Lucene для японского языка. |
| kn.microsoft |
Анализатор Microsoft для Kannada. |
| ko.microsoft |
Анализатор Microsoft для корейского языка. |
| ko.lucene |
Анализатор Lucene для корейского языка. |
| lv.microsoft |
Анализатор Microsoft для латышского языка. |
| lv.lucene |
Анализатор Lucene для латышского языка. |
| lt.microsoft |
Анализатор Microsoft для литовского языка. |
| ml.microsoft |
Анализатор Microsoft для малаялам. |
| ms.microsoft |
Анализатор Microsoft для малайского языка (латиницы). |
| mr.microsoft |
Анализатор Microsoft для маратхи. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Анализатор Lucene для норвежского языка. |
| fa.lucene |
Анализатор Lucene для персидского языка. |
| pl.microsoft |
Анализатор Microsoft для польского языка. |
| pl.lucene |
Анализатор Lucene для польского языка. |
| pt-BR.microsoft |
Анализатор Microsoft для португальского языка (Бразилия). |
| pt-BR.lucene |
Анализатор Lucene для португальского языка (Бразилия). |
| pt-PT.microsoft |
Анализатор Microsoft для португальского языка (Португалия). |
| pt-PT.lucene |
Анализатор Lucene для португальского языка (Португалия). |
| pa.microsoft |
Анализатор Microsoft для пенджаби. |
| ro.microsoft |
Анализатор Microsoft для румынского языка. |
| ro.lucene |
Анализатор Lucene для румынского языка. |
| ru.microsoft |
Анализатор Microsoft для русского языка. |
| ru.lucene |
Анализатор люцин для русского языка. |
| sr-cyrillic.microsoft |
Анализатор Microsoft для сербского языка (кириллица). |
| sr-latin.microsoft |
Анализатор Microsoft для сербского языка (латиница). |
| sk.microsoft |
Анализатор Microsoft для словацкого языка. |
| sl.microsoft |
Анализатор Microsoft для словенского языка. |
| es.microsoft |
Анализатор Microsoft для испанского языка. |
| es.lucene |
Анализатор Lucene для испанского языка. |
| sv.microsoft |
Анализатор Microsoft для шведского языка. |
| sv.lucene |
Анализатор Lucene для шведского языка. |
| ta.microsoft |
Анализатор Microsoft для тамильского языка. |
| te.microsoft |
Анализатор Microsoft для телугу. |
| th.microsoft |
Анализатор Microsoft для тайского языка. |
| th.lucene |
Анализатор Lucene для тайского языка. |
| tr.microsoft |
Анализатор Microsoft для турецкого языка. |
| tr.lucene |
Анализатор Lucene для турецкого языка. |
| uk.microsoft |
Анализатор Microsoft для украинского языка. |
| ur.microsoft |
Анализатор Microsoft для урду. |
| vi.microsoft |
Анализатор Microsoft для вьетнамского языка. |
| standard.lucene |
Стандартный анализатор люцина. |
| standardasciifolding.lucene |
Стандартный ASCII Folding Lucene analyzer. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Обрабатывает все содержимое поля как единый маркер. Это полезно для таких данных, как почтовые индексы, идентификаторы и названия некоторых продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Гибко разделяет текст на термины с помощью шаблона регулярных выражений. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Разделяет текст на небуквенные буквы и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Анализатор, использующий генератор маркеров пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.
LexicalTokenizerName
Определяет имена всех токенизаторов, поддерживаемых поисковой системой.
LimitTokenFilter
Ограничивает количество токенов при индексации. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| consumeAllTokens |
boolean |
False |
Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнуто значение maxTokenCount. По умолчанию — false. |
| maxTokenCount |
integer (int32) |
1 |
Максимальное количество производимых токенов. По умолчанию 1. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
LuceneStandardAnalyzer
Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. |
| name |
string |
Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| stopwords |
string[] |
Список стоп-слов. |
LuceneStandardTokenizer
Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxTokenLength |
integer (int32) |
255 |
Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
LuceneStandardTokenizerV2
Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
MagnitudeScoringFunction
Определяет функцию, которая увеличивает баллы на основе величины числового поля.
| Имя | Тип | Описание |
|---|---|---|
| boost |
number (double) |
Множитель для исходного счета. Должно быть положительное число, не равное 1,0. |
| fieldName |
string |
Имя поля, используемого в качестве входных данных для функции подсчета очков. |
| interpolation |
Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear". |
|
| magnitude |
Значения параметров для функции оценки величины. |
|
| type |
string:
magnitude |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре. |
MagnitudeScoringParameters
Предоставляет значения параметров для функции оценки величины.
| Имя | Тип | Описание |
|---|---|---|
| boostingRangeEnd |
number (double) |
Значение поля, на котором заканчивается форсирование. |
| boostingRangeStart |
number (double) |
Значение поля, с которого начинается бустинг. |
| constantBoostBeyondRange |
boolean |
Значение, указывающее, следует ли применять постоянное повышение для значений поля, выходящих за пределы конечного значения диапазона; Значение по умолчанию — false. |
MappingCharFilter
Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Совпадение является жадным (выигрывает самое длинное совпадение с шаблоном в данный момент). Заменой может быть пустая строка. Этот фильтр символов реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент универсального кода ресурса (URI), указывающий тип фильтра char. |
| mappings |
string[] |
Список отображений следующего формата: "a=>b" (все вхождения символа "a" будут заменены на символ "b"). |
| name |
string |
Имя фильтра символов. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftLanguageStemmingTokenizer
Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| isSearchTokenizer |
boolean |
False |
Значение, указывающее, как используется генератор маркеров. Задайте значение true, если используется в качестве генератора маркеров поиска, и false, если используется в качестве генератора маркеров индексирования. По умолчанию — false. |
| language |
Используемый язык. По умолчанию используется английский язык. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. Лексемы длиной более 300 символов сначала разбиваются на лексемы длиной 300, а затем каждая из этих лексем разбивается на основе максимальной длины лексемы. По умолчанию 255. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftLanguageTokenizer
Делит текст с помощью правил, зависящих от языка.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| isSearchTokenizer |
boolean |
False |
Значение, указывающее, как используется генератор маркеров. Задайте значение true, если используется в качестве генератора маркеров поиска, и false, если используется в качестве генератора маркеров индексирования. По умолчанию — false. |
| language |
Используемый язык. По умолчанию используется английский язык. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. Лексемы длиной более 300 символов сначала разбиваются на лексемы длиной 300, а затем каждая из этих лексем разбивается на основе максимальной длины лексемы. По умолчанию 255. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
MicrosoftStemmingTokenizerLanguage
Список языков, поддерживаемых генератором маркеров корневых элементов языка Майкрософт.
| Значение | Описание |
|---|---|
| arabic |
Выбирает создатель маркеров корневых элементов Майкрософт для арабского языка. |
| bangla |
Выбирает создатель маркеров Microsoft Stemming для Bangla. |
| bulgarian |
Выбирает маркеризатор корневых элементов Майкрософт для болгарского языка. |
| catalan |
Выбирает генератор маркеров Microsoft Stemming для каталанского языка. |
| croatian |
Выбирает маркеризатор корневых элементов Майкрософт для хорватского языка. |
| czech |
Выбирает разметчик Microsoft stemming для чешского языка. |
| danish |
Выбирает создатель маркеров корневых элементов Майкрософт для датского языка. |
| dutch |
Выбирает обозначатель корневых маркеров Майкрософт для голландского языка. |
| english |
Выбирает маркеризатор корневых элементов Майкрософт для английского языка. |
| estonian |
Выбирает генератор маркеров Microsoft stemming для эстонского языка. |
| finnish |
Выбирает создатель маркеров Microsoft stemming для финского языка. |
| french |
Выбирает разметчик Microsoft Stemming для французского языка. |
| german |
Выбирает маркеризатор корневых элементов Майкрософт для немецкого языка. |
| greek |
Выбирает маркеризатор корневых элементов Майкрософт для греческого языка. |
| gujarati |
Выбирает маркеризатор корневых элементов Майкрософт для гуджарати. |
| hebrew |
Выбирает разметчик корневых элементов Майкрософт для иврита. |
| hindi |
Выбирает создатель маркеров Microsoft Stemming для хинди. |
| hungarian |
Выбирает маркеризатор корневых элементов Майкрософт для венгерского языка. |
| icelandic |
Выбирает генератор маркеров Microsoft stemming для исландского языка. |
| indonesian |
Выбирает создатель маркеров Microsoft stemming для индонезийского языка. |
| italian |
Выбирает маркеризатор корневых элементов Майкрософт для итальянского языка. |
| kannada |
Выбирает создатель маркеров корневых элементов Майкрософт для каннада. |
| latvian |
Выбирает генератор маркеров Microsoft stemming для латышского языка. |
| lithuanian |
Выбирает создатель маркеров Microsoft stemming для литовского языка. |
| malay |
Выбирает создатель маркеров корневых элементов Майкрософт для малайского языка. |
| malayalam |
Выбирает создатель маркеров корневых элементов Майкрософт для малаялам. |
| marathi |
Выбирает создатель маркеров корневых элементов Майкрософт для маратхи. |
| norwegianBokmaal |
Выбирает генератор маркеров Microsoft stemming для норвежского языка (Bokmål). |
| polish |
Выбирает разметчик Microsoft stemming для польского языка. |
| portuguese |
Выбирает генератор маркеров Microsoft stemming для португальского языка. |
| portugueseBrazilian |
Выбирает создатель маркеров Microsoft stemming для португальского языка (Бразилия). |
| punjabi |
Выбирает создатель маркеров корневых элементов Майкрософт для пенджаби. |
| romanian |
Выбирает генератор маркеров Microsoft stemming для румынского языка. |
| russian |
Выбирает генератор маркеров Microsoft для русского языка. |
| serbianCyrillic |
Выбирает маркеризатор корневых элементов Майкрософт для сербского (кириллица). |
| serbianLatin |
Выбирает создатель маркеров Microsoft Stemming для сербского (латинского) языка. |
| slovak |
Выбирает маркеризатор корневых элементов Майкрософт для словацкого языка. |
| slovenian |
Выбирает генератор маркеров Microsoft stemming для словенского языка. |
| spanish |
Выбирает создатель маркеров корневых элементов Майкрософт для испанского языка. |
| swedish |
Выбирает маркеризатор корневых элементов Майкрософт для шведского языка. |
| tamil |
Выбирает создатель маркеров корневых элементов Майкрософт для тамильского языка. |
| telugu |
Выбирает создатель маркеров корневых элементов Майкрософт для телугу. |
| turkish |
Выбирает маркеризатор корневых элементов Майкрософт для турецкого языка. |
| ukrainian |
Выбирает токенизатор Microsoft stemming для украинского языка. |
| urdu |
Выбирает создатель маркеров корневых элементов Майкрософт для урду. |
MicrosoftTokenizerLanguage
Список языков, поддерживаемых генератором маркеров языка Майкрософт.
| Значение | Описание |
|---|---|
| bangla |
Выбирает генератор маркеров Майкрософт для Bangla. |
| bulgarian |
Выбирает генератор маркеров Майкрософт для болгарского языка. |
| catalan |
Выбирает генератор маркеров Майкрософт для каталанского языка. |
| chineseSimplified |
Выбирает генератор маркеров Майкрософт для китайского языка (упрощенное письмо). |
| chineseTraditional |
Выбирает генератор маркеров Майкрософт для китайского языка (традиционный). |
| croatian |
Выбирает генератор маркеров Майкрософт для хорватского языка. |
| czech |
Выбирает генератор маркеров Майкрософт для чешского языка. |
| danish |
Выбирает генератор маркеров Майкрософт для датского языка. |
| dutch |
Выбирает генератор маркеров Майкрософт для голландского языка. |
| english |
Выбирает генератор маркеров Майкрософт для английского языка. |
| french |
Выбирает генератор маркеров Майкрософт для французского языка. |
| german |
Выбирает генератор маркеров Майкрософт для немецкого языка. |
| greek |
Выбирает генератор маркеров Майкрософт для греческого языка. |
| gujarati |
Выбирает генератор маркеров Майкрософт для гуджарати. |
| hindi |
Выбирает генератор маркеров Майкрософт для хинди. |
| icelandic |
Выбирает генератор маркеров Майкрософт для исландского языка. |
| indonesian |
Выбирает генератор маркеров Майкрософт для индонезийского языка. |
| italian |
Выбирает генератор маркеров Майкрософт для итальянского языка. |
| japanese |
Выбирает генератор маркеров Майкрософт для японского языка. |
| kannada |
Выбирает генератор маркеров Майкрософт для Kannada. |
| korean |
Выбирает генератор маркеров Майкрософт для корейского языка. |
| malay |
Выбирает генератор маркеров Майкрософт для малайского языка. |
| malayalam |
Выбирает генератор маркеров Майкрософт для малаялам. |
| marathi |
Выбирает генератор маркеров Майкрософт для маратхи. |
| norwegianBokmaal |
Выбирает генератор маркеров Майкрософт для норвежского языка (Bokmål). |
| polish |
Выбирает генератор маркеров Майкрософт для польского языка. |
| portuguese |
Выбирает генератор маркеров Майкрософт для португальского языка. |
| portugueseBrazilian |
Выбирает генератор маркеров Майкрософт для португальского языка (Бразилия). |
| punjabi |
Выбирает генератор маркеров Майкрософт для пенджаби. |
| romanian |
Выбирает генератор маркеров Майкрософт для румынского языка. |
| russian |
Выбирает генератор маркеров Майкрософт для русского языка. |
| serbianCyrillic |
Выбирает генератор маркеров Майкрософт для сербского (кириллицы). |
| serbianLatin |
Выбирает генератор маркеров Майкрософт для сербского (латинского) языка. |
| slovenian |
Выбирает генератор маркеров Майкрософт для словенского языка. |
| spanish |
Выбирает генератор маркеров Майкрософт для испанского языка. |
| swedish |
Выбирает генератор маркеров Майкрософт для шведского языка. |
| tamil |
Выбирает генератор маркеров Майкрософт для тамильского языка. |
| telugu |
Выбирает генератор маркеров Майкрософт для телугу. |
| thai |
Выбирает генератор маркеров Майкрософт для тайского языка. |
| ukrainian |
Выбирает токенизатор Microsoft для украинского языка. |
| urdu |
Выбирает генератор маркеров Майкрософт для урду. |
| vietnamese |
Выбирает генератор маркеров Майкрософт для вьетнамского языка. |
NGramTokenFilter
Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| maxGram |
integer (int32) |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. |
| minGram |
integer (int32) |
1 |
Минимальная длина n-грамма. По умолчанию 1. Должно быть меньше значения maxGram. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
NGramTokenFilterV2
Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
NGramTokenizer
Токенизирует входные данные в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| tokenChars |
Классы персонажей для сохранения в токенах. |
OutputFieldMappingEntry
Сопоставление выходных полей для навыка.
| Имя | Тип | Описание |
|---|---|---|
| name |
string |
Имя выходных данных, определяемое навыком. |
| targetName |
string |
Целевое имя выходных данных. Он является необязательным и по умолчанию является именем. |
PathHierarchyTokenizerV2
Генератор маркеров для иерархий, подобных путям. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| delimiter |
string (char) |
/ |
Используемый символ разделителя. По умолчанию используется "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Максимальная длина токена. По умолчанию и максимум - 300. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| replacement |
string (char) |
/ |
Значение, которое, если оно задано, заменяет символ разделителя. По умолчанию используется "/". |
| reverse |
boolean |
False |
Значение, указывающее, следует ли генерировать токены в обратном порядке. По умолчанию — false. |
| skip |
integer (int32) |
0 |
Количество начальных токенов, которые нужно пропустить. Значение по умолчанию — 0. |
PatternAnalyzer
Гибко разделяет текст на термины с помощью шаблона регулярных выражений. Данный анализатор реализован с использованием Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
| flags |
Флаги регулярных выражений. |
||
| lowercase |
boolean |
True |
Значение, указывающее, следует ли писать термины в нижнем регистре. Значение по умолчанию — истинно. |
| name |
string |
Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. Default — это выражение, которое соответствует одному или нескольким символам, не являющимся словами. |
| stopwords |
string[] |
Список стоп-слов. |
PatternCaptureTokenFilter
Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| patterns |
string[] |
Список шаблонов для сопоставления с каждым маркером. |
|
| preserveOriginal |
boolean |
True |
Значение, указывающее, следует ли возвращать исходный токен, даже если один из шаблонов совпадает. Значение по умолчанию — истинно. |
PatternReplaceCharFilter
Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент универсального кода ресурса (URI), указывающий тип фильтра char. |
| name |
string |
Имя фильтра символов. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
| pattern |
string |
Шаблон регулярного выражения. |
| replacement |
string |
Заменяющий текст. |
PatternReplaceTokenFilter
Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
| pattern |
string |
Шаблон регулярного выражения. |
| replacement |
string |
Заменяющий текст. |
PatternTokenizer
Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| flags |
Флаги регулярных выражений. |
||
| group |
integer (int32) |
-1 |
Порядковый номер совпадающей группы в шаблоне регулярного выражения, отсчитываемый от нуля, для извлечения в лексемы. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на лексемы, независимо от совпадающих групп. Значение по умолчанию — -1. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. Default — это выражение, которое соответствует одному или нескольким символам, не являющимся словами. |
PhoneticEncoder
Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.
| Значение | Описание |
|---|---|
| metaphone |
Кодирует маркер в значение Metaphone. |
| doubleMetaphone |
Кодирует токен в двойное значение метафона. |
| soundex |
Кодирует токен в значение Soundex. |
| refinedSoundex |
Кодирует токен в значение Refined Soundex. |
| caverphone1 |
Кодирует маркер в значение Caverphone 1.0. |
| caverphone2 |
Кодирует маркер в значение Caverphone 2.0. |
| cologne |
Кодирует лексему в кёльнское фонетическое значение. |
| nysiis |
Кодирует токен в значение NYSIIS. |
| koelnerPhonetik |
Кодирует токен с помощью алгоритма Kölner Phonetik. |
| haasePhonetik |
Кодирует лексему с помощью уточнения Хаазе алгоритма Kölner Phonetik. |
| beiderMorse |
Кодирует лексему в Beider-Morse значение. |
PhoneticTokenFilter
Создание жетонов для фонетических соответствий. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| encoder | metaphone |
Используемый фонетический кодировщик. По умолчанию используется термин "metaphone". |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| replace |
boolean |
True |
Значение, указывающее, должны ли закодированные токены заменять исходные токены. Если false, то закодированные токены добавляются в качестве синонимов. Значение по умолчанию — истинно. |
PrioritizedFields
Описывает поля title, content и keywords, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов.
| Имя | Тип | Описание |
|---|---|---|
| prioritizedContentFields |
Определяет поля содержимого, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Для достижения наилучшего результата выбранные поля должны содержать текст в виде естественного языка. Порядок полей в массиве отражает их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
| prioritizedKeywordsFields |
Определяет поля ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Для достижения наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве отражает их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
| titleField |
Определяет поле заголовка, которое будет использоваться для семантического ранжирования, подписей, выделения и ответов. Если в индексе нет поля заголовка, оставьте его пустым. |
RankingOrder
Представляет оценку, используемую для сортировки документов.
| Значение | Описание |
|---|---|
| BoostedRerankerScore |
Устанавливает порядок сортировки как BoostedRerankerScore |
| RerankerScore |
Устанавливает порядок сортировки как ReRankerScore |
RegexFlags
Определяет флаги, которые можно комбинировать для управления использованием регулярных выражений в анализаторе шаблонов и генераторе маркеров шаблонов.
| Значение | Описание |
|---|---|
| CANON_EQ |
Обеспечивает каноническую эквивалентность. |
| CASE_INSENSITIVE |
Включает сопоставление без учета регистра. |
| COMMENTS |
Разрешает пробелы и комментарии в шаблоне. |
| DOTALL |
Включает режим dotall. |
| LITERAL |
Включает буквальный синтаксический анализ шаблона. |
| MULTILINE |
Включает многострочный режим. |
| UNICODE_CASE |
Включает складывание регистра с учетом Юникода. |
| UNIX_LINES |
Включает режим линий Unix. |
RescoringOptions
Содержит параметры для повторного сканирования.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| defaultOversampling |
number (double) |
Коэффициент передискретизации по умолчанию. Избыточная дискретизация позволяет получить больший набор потенциальных документов, чтобы компенсировать потерю разрешения из-за квантования. Это увеличивает набор результатов, которые будут переоцениваться на векторах полной точности. Минимальное значение равно 1, что означает отсутствие передискретизации (1x). Этот параметр может быть установлен только в том случае, если 'enableRescoring' имеет значение true. Более высокие значения улучшают запоминание за счет задержки. |
|
| enableRescoring |
boolean |
True |
Если задано значение true, то после первоначального поиска по сжатым векторам оценки сходства пересчитываются с использованием векторов полной точности. Это улучшит запоминание за счет задержки. |
| rescoreStorageMethod | preserveOriginals |
Управляет методом хранения исходных векторов. Эта настройка является неизменяемой. |
ScalarQuantizationParameters
Содержит параметры, специфичные для скалярного квантования.
| Имя | Тип | Описание |
|---|---|---|
| quantizedDataType |
Квантованный тип данных сжатых векторных значений. |
ScalarQuantizationVectorSearchCompressionConfiguration
Содержит параметры конфигурации, специфичные для метода сжатия скалярного квантования, используемого во время индексирования и запросов.
| Имя | Тип | Описание |
|---|---|---|
| kind |
string:
scalar |
Название типа метода сжатия, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет связано с этой конкретной конфигурацией. |
| rescoringOptions |
Содержит параметры для повторного сканирования. |
|
| scalarQuantizationParameters |
Содержит параметры, специфичные для скалярного квантования. |
|
| truncationDimension |
integer (int32) |
Количество измерений для усечения векторов. Усечение векторов уменьшает размер векторов и объем данных, которые необходимо передать во время поиска. Это может снизить затраты на хранение и повысить производительность поиска за счет отзыва. Его следует использовать только для встраиваний, обученных с помощью обучения представлений Matryoshka Representation Learning (MRL), таких как OpenAI text-embedding-3-large (small). Значение по умолчанию равно null, что означает отсутствие усечения. |
ScoringFunctionAggregation
Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.
| Значение | Описание |
|---|---|
| sum |
Увеличьте баллы по сумме всех результатов функции оценки. |
| average |
Увеличьте баллы на среднее значение всех результатов функции оценки. |
| minimum |
Увеличьте баллы по минимуму всех результатов функции подсчета баллов. |
| maximum |
Увеличьте баллы по максимальному количеству всех результатов функции подсчета баллов. |
| firstMatching |
Увеличьте счет с помощью первой применимой функции подсчета очков в профиле подсчета очков. |
ScoringFunctionInterpolation
Определяет функцию, используемую для интерполяции повышения балла по ряду документов.
| Значение | Описание |
|---|---|
| linear |
Увеличивает количество очков на линейно уменьшающуюся величину. Это интерполяция по умолчанию для функций оценки. |
| constant |
Увеличивает очки на постоянный коэффициент. |
| quadratic |
Увеличивает количество очков на величину, которая уменьшается квадратически. Ускорения уменьшаются медленно при увеличении очков и быстрее при уменьшении очков. Этот параметр интерполяции не допускается в функциях оценки тегов. |
| logarithmic |
Увеличивает количество очков на величину, которая уменьшается логарифмически Ускорения быстро уменьшаются при увеличении количества очков и медленнее при уменьшении очков. Этот параметр интерполяции не допускается в функциях оценки тегов. |
ScoringProfile
Определяет параметры поискового индекса, влияющие на оценку в поисковых запросах.
| Имя | Тип | Описание |
|---|---|---|
| functionAggregation |
Значение, указывающее, как должны быть объединены результаты отдельных функций оценки. По умолчанию "Сумма". Игнорируется, если нет функций подсчета очков. |
|
| functions | ScoringFunction[]: |
Набор функций, влияющих на оценку документов. |
| name |
string |
Имя профиля скоринга. |
| text |
Параметры, повышающие оценку на основе совпадений текста в определенных полях индекса. |
SearchField
Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поля при поиске.
| Имя | Тип | Описание |
|---|---|---|
| analyzer |
Имя анализатора, который будет использоваться для поля. Эта опция может быть использована только с полями, доступными для поиска, и не может быть установлена вместе с searchAnalyzer или indexAnalyzer. После того, как анализатор выбран, его нельзя изменить для поля. Должно быть null для сложных полей. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Размерность векторного поля. |
| facetable |
boolean |
Значение, указывающее, следует ли разрешить ссылку на поле в фасетных запросах. Обычно используется в презентации результатов поиска, включающих количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по бренду, по мегапикселям, по цене и т. д.). Это свойство должно иметь значение null для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетами. Значение по умолчанию справедливо для всех остальных простых полей. |
| fields |
Список подполей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Должно быть null или empty для простых полей. |
|
| filterable |
boolean |
Значение, указывающее, следует ли разрешить ссылку на поле в $filter запросах. Filterable отличается от searchable тем, как обрабатываются строки. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не подвергаются разбиению по словам, поэтому сравнения выполняются только для точных совпадений. Например, если вы установите такое поле f в значение "солнечный день", то $filter=f eq 'sunny' не найдет совпадений, но $filter=f eq 'sunny day' найдет. Это свойство должно иметь значение null для сложных полей. Значение по умолчанию равно true для простых полей и null для сложных полей. |
| indexAnalyzer |
Имя анализатора, используемого во время индексации поля. Эту опцию можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с searchAnalyzer и не может быть установлен вместе с опцией analyzer. Этому свойству нельзя присвоить имя анализатора языка; Используйте свойство analyzer, если вам нужен анализатор языка. После того, как анализатор выбран, его нельзя изменить для поля. Должно быть null для сложных полей. |
|
| key |
boolean |
Значение, указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе, которое должно иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую и обновления или удаления определенных документов. Значение по умолчанию равно false для простых полей и null для сложных полей. |
| name |
string |
Имя поля, которое должно быть уникальным в пределах коллекции полей индекса или родительского поля. |
| normalizer |
Имя нормализатора, используемого для поля. Эту опцию можно использовать только с полями с включенными фильтруемыми, сортируемыми или фасетными таблицами. После выбора нормализатора его нельзя изменить для поля. Должно быть null для сложных полей. |
|
| retrievable |
boolean |
Значение, указывающее, может ли поле быть возвращено в результате поиска. Вы можете отключить этот параметр, если хотите использовать поле (например, поле) в качестве фильтра, сортировки или механизма оценки, но не хотите, чтобы поле было видно конечному пользователю. Это свойство должно иметь значение true для ключевых полей, а для сложных полей оно должно быть равно null. Это свойство можно изменить на существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию — true для простых полей, false — для векторных полей и null — для сложных полей. |
| searchAnalyzer |
Имя анализатора, используемого во время поиска поля. Эту опцию можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с indexAnalyzer и не может быть установлен вместе с опцией analyzer. Этому свойству нельзя присвоить имя анализатора языка; Используйте свойство analyzer, если вам нужен анализатор языка. Этот анализатор может быть обновлен на существующем поле. Должно быть null для сложных полей. |
|
| searchable |
boolean |
Значение, указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексации он будет подвергаться анализу, например, разбиванию по словам. Если вы установите в поле для поиска значение типа "солнечный день", оно будет внутренне разделено на отдельные токены "sunny" и "day". В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно быть равно false для простых полей других нестроковых типов данных, а для сложных полей оно должно быть равно null. Примечание: поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных токенизированных версий значения поля для полнотекстового поиска. Если вы хотите сэкономить место в индексе и вам не нужно включать поле в поиск, установите для параметра searchable значение false. |
| sortable |
boolean |
Значение, указывающее, следует ли разрешить ссылку на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по баллам, но во многих случаях пользователи могут захотеть сортировать результаты по полям в документах. Простое поле может быть сортируемым только в том случае, если оно является однозначным (оно имеет единственное значение в области родительского документа). Простые поля коллекции не могут быть сортируемыми, так как они являются многозначными. Простые подполя сложных коллекций также являются многозначными и поэтому не могут быть сортируемыми. Это верно, является ли это немедленное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, и свойство sortable должно иметь значение null для таких полей. Значение по умолчанию для sortable — true для простых полей с однозначным значением, false для простых полей с несколькими значениями и null для сложных полей. |
| stored |
boolean |
Неизменяемое значение, указывающее, будет ли поле сохраняться отдельно на диске для возврата в результате поиска. Вы можете отключить эту опцию, если не планируете возвращать содержимое поля в ответе на поиск, чтобы сэкономить на накладных расходах на хранение. Это можно задать только при создании индекса и только для векторных полей. Это свойство нельзя изменить для существующих полей или установить значение false для новых полей. Если для этого свойства задано значение false, свойство retrievable также должно быть установлено в значение false. Это свойство должно иметь значение true или unset для ключевых полей, для новых полей и для невекторных полей, а для сложных полей оно должно быть равно null. Отключение этого свойства снизит требования к хранилищу индексов. Значение по умолчанию равно true для векторных полей. |
| synonymMaps |
string[] |
Список имен синонимов сопоставляется с этим полем. Эту опцию можно использовать только с полями, доступными для поиска. В настоящее время поддерживается только одна карта синонимов на поле. Назначение сопоставления синонимов полю гарантирует, что условия запроса, предназначенные для этого поля, развертываются во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Должен быть null или пустой коллекцией для сложных полей. |
| type |
Тип данных поля. |
|
| vectorEncoding |
Формат кодировки для интерпретации содержимого поля. |
|
| vectorSearchProfile |
string |
Имя профиля векторного поиска, указывающего алгоритм и векторизатор, используемые при поиске векторного поля. |
SearchFieldDataType
Определяет тип данных поля в индексе поиска.
| Значение | Описание |
|---|---|
| Edm.String |
Указывает, что поле содержит строку. |
| Edm.Int32 |
Указывает, что поле содержит 32-разрядное целое число со знаком. |
| Edm.Int64 |
Указывает, что поле содержит 64-разрядное целое число со знаком. |
| Edm.Double |
Указывает, что поле содержит число IEEE с плавающей запятой двойной точности. |
| Edm.Boolean |
Указывает, что поле содержит логическое значение (true или false). |
| Edm.DateTimeOffset |
Указывает, что поле содержит значение даты и времени, включая информацию о часовом поясе. |
| Edm.GeographyPoint |
Указывает, что поле содержит геолокацию в терминах долготы и широты. |
| Edm.ComplexType |
Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, имеют подполя других типов. |
| Edm.Single |
Указывает, что поле содержит число с плавающей запятой одинарной точности. Это допустимо только при использовании с Collection(Edm.Single). |
| Edm.Half |
Указывает, что поле содержит число с плавающей запятой половинной точности. Это справедливо только при использовании с Collection(Edm.Half). |
| Edm.Int16 |
Указывает, что поле содержит 16-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.Int16). |
| Edm.SByte |
Указывает, что поле содержит 8-разрядное целое число со знаком. Это справедливо только при использовании с Collection(Edm.SByte). |
| Edm.Byte |
Указывает, что поле содержит 8-разрядное целое число без знака. Это допустимо только при использовании с Collection(Edm.Byte). |
SearchIndex
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.
| Имя | Тип | Описание |
|---|---|---|
| @odata.etag |
string |
ETag индекса. |
| analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
| charFilters | CharFilter[]: |
Символ фильтруется по индексу. |
| corsOptions |
Параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
|
| defaultScoringProfile |
string |
Имя профиля оценки, который будет использоваться, если он не указан в запросе. Если это свойство не задано и в запросе не указан профиль оценки, то будет использоваться оценка по умолчанию (tf-idf). |
| description |
string |
Описание индекса. |
| encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования данных при хранении, когда вы хотите быть уверены в том, что никто, даже корпорация Майкрософт, не сможет расшифровать ваши данные. После того, как вы зашифровали свои данные, они всегда останутся зашифрованными. Служба поиска будет игнорировать попытки установить для этого свойства значение null. Вы можете изменить это свойство по мере необходимости, если хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных поисковых служб и доступно только для платных служб, созданных 1 января 2019 г. или позже. |
|
| fields |
Поля индекса. |
|
| name |
string |
Имя индекса. |
| normalizers | LexicalNormalizer[]: |
Нормализаторы для индекса. |
| scoringProfiles |
Профили оценки для индекса. |
|
| semantic |
Определяет параметры индекса поиска, влияющие на семантические возможности. |
|
| similarity | Similarity: |
Тип алгоритма схожести, который будет использоваться при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
| suggesters |
Подсказчики для индекса. |
|
| tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
| tokenizers | LexicalTokenizer[]: |
Генераторы маркеров для индекса. |
| vectorSearch |
Содержит параметры конфигурации, связанные с векторным поиском. |
SearchIndexerDataNoneIdentity
Очищает свойство identity источника данных.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
SearchIndexerDataUserAssignedIdentity
Указывает идентификатор для используемого источника данных.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
| userAssignedIdentity |
string |
Полный идентификатор ресурса Azure управляемого удостоверения, назначенного пользователем, обычно в форме "/subscriptions/12345678-1234-1234-123467890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки хранимых данных, таких как индексы и сопоставления синонимов.
| Имя | Тип | Описание |
|---|---|---|
| accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение. |
|
| keyVaultKeyName |
string |
Имя ключа Azure Key Vault, который будет использоваться для шифрования неактивных данных. |
| keyVaultKeyVersion |
string |
Версия ключа Azure Key Vault, который будет использоваться для шифрования неактивных данных. |
| keyVaultUri |
string |
URI Azure Key Vault, также называемый DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Примером URI может быть . |
SemanticConfiguration
Определяет конкретную конфигурацию, которая будет использоваться в контексте семантических возможностей.
| Имя | Тип | Описание |
|---|---|---|
| name |
string |
Имя семантической конфигурации. |
| prioritizedFields |
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, priordKeywordsFields и priordContentFields). |
|
| rankingOrder |
Указывает тип оценки, который будет использоваться для сортировки результатов поиска. |
SemanticField
Поле, которое используется как часть семантической конфигурации.
| Имя | Тип | Описание |
|---|---|---|
| fieldName |
string |
SemanticSettings
Определяет параметры индекса поиска, влияющие на семантические возможности.
| Имя | Тип | Описание |
|---|---|---|
| configurations |
Семантические конфигурации для индекса. |
|
| defaultConfiguration |
string |
Позволяет задать имя семантической конфигурации по умолчанию в индексе, что делает его необязательным для каждой передачи в качестве параметра запроса. |
ShingleTokenFilter
Создает комбинации жетонов как один жетон. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| filterToken |
string |
_ |
Строка для вставки для каждой позиции, в которой нет лексемы. По умолчанию используется символ подчеркивания («_»). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Максимальный размер битумной черепицы. По умолчанию и минимальное значение равно 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Минимальный размер битумной черепицы. По умолчанию и минимальное значение равно 2. Должно быть меньше значения maxShingleSize. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| outputUnigrams |
boolean |
True |
Значение, указывающее, будет ли выходной поток содержать входные токены (юниграммы), а также битумную черепицу. Значение по умолчанию — истинно. |
| outputUnigramsIfNoShingles |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы в тех случаях, когда битумная черепица недоступна. Это свойство имеет приоритет, если для параметра outputUnigrams задано значение false. По умолчанию — false. |
| tokenSeparator |
string |
Строка, используемая при соединении соседних жетонов для формирования черепицы. По умолчанию используется одинарный пробел («»). |
SnowballTokenFilter
Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
| language |
Используемый язык. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
SnowballTokenFilterLanguage
Язык, используемый для фильтра маркеров Snowball.
| Значение | Описание |
|---|---|
| armenian |
Выбирает токенизатор стемминга Lucene Snowball для армянского языка. |
| basque |
Выбирает маркеризатор стеблей Lucene Snowball для Basque. |
| catalan |
Выбирает токенизатор стемминга Lucene Snowball для каталанского языка. |
| danish |
Выбирает маркеризатор стемминга Lucene Snowball для датского языка. |
| dutch |
Выбирает маркеризатор стемминга Lucene Snowball для голландского языка. |
| english |
Выбирает маркеризатор стемминга Lucene Snowball для английского языка. |
| finnish |
Выбирает токенизатор стемминга Lucene Snowball для финского языка. |
| french |
Выбирает маркеризатор стемминга Lucene Snowball для французского языка. |
| german |
Выбирает маркеризатор стемминга Lucene Snowball для немецкого языка. |
| german2 |
Выбирает маркеризатор стемминга Lucene Snowball, использующий немецкий вариант алгоритма. |
| hungarian |
Выбирает маркеризатор стемминга Lucene Snowball для венгерского языка. |
| italian |
Выбирает токенизатор стемминга Lucene Snowball для итальянского языка. |
| kp |
Выбирает маркеризатор стемминга Lucene Snowball для голландского языка, использующий алгоритм Kraaij-Pohlmann стемминга. |
| lovins |
Выбирает маркеризатор стемминга Lucene Snowball для английского языка, использующий алгоритм выделения корней Lovins. |
| norwegian |
Выбирает маркеризатор стемминга Lucene Snowball для норвежского языка. |
| porter |
Выбирает маркеризатор стемминга Lucene Snowball для английского языка, использующий алгоритм выделения корней Портера. |
| portuguese |
Выбирает токенизатор стемминга Lucene Snowball для португальского языка. |
| romanian |
Выбирает токенизатор стеблей Lucene Snowball для румынского языка. |
| russian |
Выбирает стемминг-токенизатор Lucene Snowball для русского языка. |
| spanish |
Выбирает маркеризатор стемминга Lucene Snowball для испанского языка. |
| swedish |
Выбирает маркеризатор стемминга Lucene Snowball для шведского языка. |
| turkish |
Выбирает маркеризатор стемминга Lucene Snowball для турецкого языка. |
StemmerOverrideTokenFilter
Предоставляет возможность переопределения других фильтров стемминга с помощью пользовательского стемминга на основе словаря. Любые термины из словаря будут помечены как ключевые слова, чтобы они не были связаны со стеммерами вниз по цепочке. Необходимо размещать перед любыми фильтрами для стемминга. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
| rules |
string[] |
Список правил стемминга в формате: "word => stem", например: "ran => run". |
StemmerTokenFilter
Фильтр стемминга для конкретного языка. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
| language |
Используемый язык. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
StemmerTokenFilterLanguage
Язык, используемый для фильтра маркеров парадигматического модуля.
| Значение | Описание |
|---|---|
| arabic |
Выбирает маркеризатор выделения корней Lucene для арабского языка. |
| armenian |
Выбирает токенизатор выделения корней Lucene для армянского языка. |
| basque |
Выбирает разметчик корневых маркеров Lucene для баскского языка. |
| brazilian |
Выбирает токенизатор выделения корней Lucene для португальского языка (Бразилия). |
| bulgarian |
Выбирает токенизатор ценового стемминга для болгарского языка. |
| catalan |
Выбирает токенизатор выделения стволов Lucene для каталанского языка. |
| czech |
Выбирает токенизатор корневых токенов Lucene для чешского языка. |
| danish |
Выбирает разметчик корневых маркеров Lucene для датского языка. |
| dutch |
Выбирает разметчик выделения корней Lucene для голландского языка. |
| dutchKp |
Выбирает маркеризатор выделения корней Lucene для голландского языка, использующий алгоритм Kraaij-Pohlmann стемминга. |
| english |
Выбирает маркеризатор корневых маркеров Lucene для английского языка. |
| lightEnglish |
Выбирает маркеризатор выделения корней Lucene для английского языка, который выполняет выделение светлых стеммингов. |
| minimalEnglish |
Выбирает маркеризатор выделения корней Lucene для английского языка, который выполняет минимальное выделение корней. |
| possessiveEnglish |
Выбирает маркеризатор корневых слов Lucene для английского языка, который удаляет завершающие притяжательные падежи из слов. |
| porter2 |
Выбирает разметчик выделения корней Lucene для английского языка, использующий алгоритм стемминга Porter2. |
| lovins |
Выбирает маркеризатор корней Lucene для английского языка, использующий алгоритм выделения корней Lovins. |
| finnish |
Выбирает маркеризатор выделения корней Lucene для финского языка. |
| lightFinnish |
Выбирает токенизатор стемминга Lucene для финского языка, который выполняет светлый стемминг. |
| french |
Выбирает маркеризатор выделения корней Lucene для французского языка. |
| lightFrench |
Выбирает маркеризатор выделения корней Lucene для французского языка, который выполняет легкое выделение стеблей. |
| minimalFrench |
Выбирает разметчик выделения корней Lucene для французского языка, который выполняет минимальное выделение корней. |
| galician |
Выбирает маркеризатор корневых токенов Lucene для галисийского языка. |
| minimalGalician |
Выбирает разметчик стемминга Lucene для Galician, который выполняет минимальное стеммирование. |
| german |
Выбирает маркеризатор корневых маркеров Lucene для немецкого языка. |
| german2 |
Выбирает маркеризатор выделения корней Lucene, использующий немецкий вариант алгоритма. |
| lightGerman |
Выбирает маркеризатор выделения корней Lucene для немецкого языка, который выполняет легкое выделение корней. |
| minimalGerman |
Выбирает разметчик выделения корней Lucene для немецкого языка, который выполняет минимальное выделение корней. |
| greek |
Выбирает маркеризатор корней Lucene для греческого языка. |
| hindi |
Выбирает маркеризатор выделения корней Lucene для хинди. |
| hungarian |
Выбирает маркеризатор корневых маркеров Lucene для венгерского языка. |
| lightHungarian |
Выбирает токенизатор выделения стеблей Lucene для венгерского языка, который выполняет светлый стемминг. |
| indonesian |
Выбирает маркеризатор выделения корней Lucene для индонезийского языка. |
| irish |
Выбирает маркеризатор корневых маркеров Lucene для ирландского языка. |
| italian |
Выбирает токенизатор выделения корней Lucene для итальянского языка. |
| lightItalian |
Выбирает токенизатор Lucene для итальянского языка, который выполняет светлый стемминг. |
| sorani |
Выбирает маркеризатор корней Lucene для Sorani. |
| latvian |
Выбирает стемминг-токенизатор Lucene для латышского языка. |
| norwegian |
Выбирает токенизатор выделения корней Lucene для норвежского языка (букмол). |
| lightNorwegian |
Выбирает маркеризатор выделения корней Lucene для норвежского языка (букмол), который выполняет выделение светлых стеммингов. |
| minimalNorwegian |
Выбирает маркеризатор выделения корней Lucene для норвежского языка (Bokmål), который выполняет минимальное выделение корней. |
| lightNynorsk |
Выбирает маркеризатор выделения корней Lucene для норвежского языка (Nynorsk), который выполняет выделение светлых стеммингов. |
| minimalNynorsk |
Выбирает разметчик выделения корней Lucene для норвежского языка (Nynorsk), который выполняет минимальное выделение корней. |
| portuguese |
Выбирает маркеризатор выделения корней Lucene для португальского языка. |
| lightPortuguese |
Выбирает маркеризатор выделения корней Lucene для португальского языка, который выполняет светлый стемминг. |
| minimalPortuguese |
Выбирает токенизатор выделения корней Lucene для португальского языка, который выполняет минимальное выделение корней. |
| portugueseRslp |
Выбирает разметчик выделения корней Lucene для португальского языка, использующий алгоритм выделения корней RSLP. |
| romanian |
Выбирает токенизатор выделения корней Lucene для румынского языка. |
| russian |
Выбирает стемминг-токенизатор Lucene для русского языка. |
| lightRussian |
Выбирает токенизатор ценового стемминга для русского языка, который выполняет светлый стемминг. |
| spanish |
Выбирает разметчик выделения корней Lucene для испанского языка. |
| lightSpanish |
Выбирает маркеризатор стемминга Lucene для испанского языка, который выполняет светлый стемминг. |
| swedish |
Выбирает разметчик корневых маркеров Lucene для шведского языка. |
| lightSwedish |
Выбирает разметчик выделения стемминга Lucene для шведского языка, который выполняет светлый стемминг. |
| turkish |
Выбирает маркеризатор корневых токенов Lucene для турецкого языка. |
StopAnalyzer
Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. Данный анализатор реализован с использованием Apache Lucene.
| Имя | Тип | Описание |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
| name |
string |
Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
| stopwords |
string[] |
Список стоп-слов. |
StopwordsList
Определяет предопределенный список стоп-слов для конкретного языка.
| Значение | Описание |
|---|---|
| arabic |
Выбор списка стоп-слов для арабского языка. |
| armenian |
Выбор списка стоп-слов для армянского языка. |
| basque |
Выбирает список стоп-слов для баскского языка. |
| brazilian |
Выбор списка стоп-слов для португальского языка (Бразилия). |
| bulgarian |
Выбирает список стоп-слов для болгарского языка. |
| catalan |
Выбирает список стоп-слов для каталанского языка. |
| czech |
Выбор списка стоп-слов для чешского языка. |
| danish |
Выбор списка стоп-слов для датского языка. |
| dutch |
Выбор списка стоп-слов для голландского языка. |
| english |
Выбор списка стоп-слов для английского языка. |
| finnish |
Выбор списка стоп-слов для финского языка. |
| french |
Выбор списка стоп-слов для французского языка. |
| galician |
Выбирает список стоп-слов для галисийского языка. |
| german |
Выбор списка стоп-слов для немецкого языка. |
| greek |
Выбор списка стоп-слов для греческого языка. |
| hindi |
Выбор списка стоп-слов для хинди. |
| hungarian |
Выбирает список стоп-слов для венгерского языка. |
| indonesian |
Выбор списка стоп-слов для индонезийского языка. |
| irish |
Выбор списка стоп-слов для ирландского языка. |
| italian |
Выбор списка стоп-слов для итальянского языка. |
| latvian |
Выбирает список стоп-слов для латышского языка. |
| norwegian |
Выбор списка стоп-слов для норвежского языка. |
| persian |
Выбор списка стоп-слов для персидского языка. |
| portuguese |
Выбор списка стоп-слов для португальского языка. |
| romanian |
Выбирает список стоп-слов для румынского языка. |
| russian |
Выбирает список стоп-слов для русского языка. |
| sorani |
Выбор списка стоп-слов для Sorani. |
| spanish |
Выбор списка стоп-слов для испанского языка. |
| swedish |
Выбор списка стоп-слов для шведского языка. |
| thai |
Выбирает список стоп-слов для тайского языка. |
| turkish |
Выбирает список стоп-слов для турецкого языка. |
StopwordsTokenFilter
Удаляет стоп-слова из потока токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| ignoreCase |
boolean |
False |
Значение, указывающее, следует ли игнорировать регистр. Если true, все слова сначала преобразуются в нижний регистр. По умолчанию — false. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| removeTrailing |
boolean |
True |
Значение, указывающее, следует ли игнорировать последний поисковый запрос, если это стоп-слово. Значение по умолчанию — истинно. |
| stopwords |
string[] |
Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы. |
|
| stopwordsList | english |
Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов не могут быть заданы. По умолчанию используется английский язык. |
Suggester
Определяет, как API Suggest должен применяться к группе полей в индексе.
| Имя | Тип | Описание |
|---|---|---|
| name |
string |
Имя автора предложения. |
| searchMode |
Значение, указывающее на возможности средства подбора. |
|
| sourceFields |
string[] |
Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступно для поиска. |
SuggesterSearchMode
Значение, указывающее на возможности средства подбора.
| Значение | Описание |
|---|---|
| analyzingInfixMatching |
Сопоставляет последовательные целые термины и префиксы в поле. Например, для поля «Самая быстрая коричневая лиса» запросы «быстрый» и «самый быстрый бровь» будут совпадать. |
SynonymTokenFilter
Сопоставление синонимов из одного или нескольких слов в потоке токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| expand |
boolean |
True |
Значение, указывающее, будут ли все слова в списке синонимов (если нотация => не используется) сопоставлены друг с другом. Если true, то все слова в списке синонимов (если нотация => не используется) будут сопоставлены друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если false, то следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — истинно. |
| ignoreCase |
boolean |
False |
Значение, указывающее, следует ли складывать регистр для сопоставления. По умолчанию — false. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| synonyms |
string[] |
Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины в левой части символа => будут заменены на все термины в его правой части; 2. Невероятное, невероятное, потрясающее, удивительное - список равнозначных слов через запятую. Установите параметр expand, чтобы изменить способ интерпретации этого списка. |
TagScoringFunction
Определяет функцию, которая повышает баллы документов со строковыми значениями, соответствующими заданному списку тегов.
| Имя | Тип | Описание |
|---|---|---|
| boost |
number (double) |
Множитель для исходного счета. Должно быть положительное число, не равное 1,0. |
| fieldName |
string |
Имя поля, используемого в качестве входных данных для функции подсчета очков. |
| interpolation |
Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear". |
|
| tag |
Значения параметров для функции оценки тегов. |
|
| type |
string:
tag |
Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре. |
TagScoringParameters
Предоставляет значения параметров для функции оценки тегов.
| Имя | Тип | Описание |
|---|---|---|
| tagsParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания списка тегов для сравнения с целевым полем. |
TextWeights
Определяет веса в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.
| Имя | Тип | Описание |
|---|---|---|
| weights |
object |
Словарь весовых коэффициентов для каждого поля для повышения оценки документа. Ключи — это имена полей, а значения — веса для каждого поля. |
TokenCharacterKind
Представляет классы символов, над которыми может работать фильтр маркеров.
| Значение | Описание |
|---|---|
| letter |
Хранит буквы в токенах. |
| digit |
Хранит цифры в токенах. |
| whitespace |
Сохраняет пробелы в токенах. |
| punctuation |
Сохраняет знаки препинания в токенах. |
| symbol |
Хранит символы в токенах. |
TokenFilterName
Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.
TruncateTokenFilter
Усекает термины до определенной длины. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| length |
integer (int32) maximum: 300 |
300 |
Длина, по которой будут усечены сроки. По умолчанию и максимум - 300. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
UaxUrlEmailTokenizer
Токенизирует URL-адреса и адреса электронной почты как один токен. Этот токенизатор реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип генератора маркеров. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. |
| name |
string |
Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
UniqueTokenFilter
Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| onlyOnSamePosition |
boolean |
False |
Значение, указывающее, следует ли удалять дубликаты только в одной и той же позиции. По умолчанию — false. |
VectorEncodingFormat
Формат кодировки для интерпретации содержимого векторных полей.
| Значение | Описание |
|---|---|
| packedBit |
Формат кодирования, представляющий биты, упакованные в более широкий тип данных. |
VectorSearch
Содержит параметры конфигурации, связанные с векторным поиском.
| Имя | Тип | Описание |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса. |
| compressions | VectorSearchCompressionConfiguration[]: |
Содержит параметры конфигурации, относящиеся к методу сжатия, используемому во время индексирования или запроса. |
| profiles |
Определяет комбинации конфигураций для использования с векторным поиском. |
|
| vectorizers | VectorSearchVectorizer[]: |
Содержит параметры конфигурации для векторизации текстовых векторных запросов. |
VectorSearchAlgorithmKind
Алгоритм, используемый для индексирования и запросов.
| Значение | Описание |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World) — тип алгоритма приближенных ближайших соседей. |
| exhaustiveKnn |
Исчерпывающий алгоритм KNN, который будет выполнять перебор паролей. |
VectorSearchAlgorithmMetric
Метрика сходства, используемая для векторных сравнений. Рекомендуется выбрать ту же метрику подобия, на которой обучалась модель встраивания.
| Значение | Описание |
|---|---|
| cosine |
Измеряет угол между векторами для количественной оценки их сходства, не обращая внимания на величину. Чем меньше угол, тем ближе сходство. |
| euclidean |
Вычисляет расстояние по прямой между векторами в многомерном пространстве. Чем меньше расстояние, тем ближе сходство. |
| dotProduct |
Вычисляет сумму произведений по элементам для измерения выравнивания и сходства величин. Чем больше и позитивнее, тем ближе сходство. |
| hamming |
Применимо только к битовым двоичным типам данных. Определяет несходство путем подсчета различных положений в двоичных векторах. Чем меньше различий, тем ближе сходство. |
VectorSearchCompressionKind
Метод сжатия, используемый для индексирования и запросов.
| Значение | Описание |
|---|---|
| scalarQuantization |
Скалярное квантование — разновидность метода сжатия. При скалярном квантовании исходные значения векторов сжимаются до более узкого типа путем дискретизации и представления каждого компонента вектора с использованием сокращенного набора квантованных значений, тем самым уменьшая общий размер данных. |
| binaryQuantization |
Двоичное квантование — разновидность метода сжатия. При двоичном квантовании исходные значения векторов сжимаются до более узкого двоичного типа путем дискретизации и представления каждого компонента вектора с помощью двоичных значений, тем самым уменьшая общий размер данных. |
VectorSearchCompressionRescoreStorageMethod
Метод хранения исходных векторов полной точности, используемых для восстановления и операций с внутренними индексами.
| Значение | Описание |
|---|---|
| preserveOriginals |
Этот параметр сохраняет исходные векторы полной точности. Выберите этот вариант для максимальной гибкости и высочайшего качества сжатых результатов поиска. Это потребляет больше места, но позволяет проводить повторную и избыточную выборку. |
| discardOriginals |
Этот вариант отбрасывает исходные векторы полной точности. Выберите этот вариант для максимальной экономии памяти. Поскольку этот вариант не допускает повторения и избыточной дискретизации, он часто приводит к незначительному или умеренному снижению качества. |
VectorSearchCompressionTargetDataType
Квантованный тип данных сжатых векторных значений.
| Значение | Описание |
|---|---|
| int8 |
VectorSearchProfile
Определяет комбинацию конфигураций для использования с векторным поиском.
| Имя | Тип | Описание |
|---|---|---|
| algorithm |
string |
Имя конфигурации алгоритма векторного поиска, которая определяет алгоритм и необязательные параметры. |
| compression |
string |
Имя конфигурации метода сжатия, указывающей метод сжатия и необязательные параметры. |
| name |
string |
Имя, которое будет связано с этим конкретным профилем векторного поиска. |
| vectorizer |
string |
Имя векторизации, настраиваемой для использования с векторным поиском. |
VectorSearchVectorizerKind
Метод векторизации, который будет использоваться во время запроса.
| Значение | Описание |
|---|---|
| azureOpenAI |
Создание внедрений с помощью ресурса Azure OpenAI во время запроса. |
| customWebApi |
Создавайте встраивания с помощью пользовательской веб-конечной точки во время запроса. |
WebApiParameters
Задает свойства для подключения к определенному пользователем векторизатору.
| Имя | Тип | Описание |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. Если указан authResourceId, но он не указан, используется управляемое удостоверение, назначенное системой. При обновлении индексатора, если идентификатор не указан, значение остается неизменным. Если установлено значение "none", значение этого свойства очищается. |
| authResourceId |
string |
Применяется к пользовательским конечным точкам, которые подключаются к внешнему коду в функции Azure или другом приложении, выполняющем преобразования. Это значение должно быть идентификатором приложения, созданным для функции или приложения при его регистрации в Azure Active Directory. Если указано, векторизация подключается к функции или приложению с помощью управляемого идентификатора (системного или назначаемого пользователем) службы поиска и маркера доступа функции или приложения, используя это значение в качестве идентификатора ресурса для создания области маркера доступа. |
| httpHeaders |
object |
Заголовки, необходимые для выполнения HTTP-запроса. |
| httpMethod |
string |
Метод для HTTP-запроса. |
| timeout |
string (duration) |
Требуемое время ожидания для запроса. Значение по умолчанию — 30 секунд. |
| uri |
string (uri) |
URI веб-API, предоставляющего векторизатор. |
WebApiVectorizer
Указывает определяемый пользователем векторизатор для создания векторного встраивания строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса Web API набора навыков.
| Имя | Тип | Описание |
|---|---|---|
| customWebApiParameters |
Задает свойства определяемого пользователем векторизатора. |
|
| kind |
string:
custom |
Название метода векторизации, который настраивается для использования с векторным поиском. |
| name |
string |
Имя, которое будет ассоциироваться с этим конкретным методом векторизации. |
WordDelimiterTokenFilter
Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов. Этот фильтр маркеров реализован с помощью Apache Lucene.
| Имя | Тип | Default value | Описание |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
| catenateAll |
boolean |
False |
Значение, указывающее, будут ли объединены все части подслова. Например, если задано значение true, "Azure-Search-1" становится "AzureSearch1". По умолчанию — false. |
| catenateNumbers |
boolean |
False |
Значение, указывающее, будет ли катенировано максимальное количество прогонов числовых частей. Например, если для этого параметра задано значение true, "1-2" становится "12". По умолчанию — false. |
| catenateWords |
boolean |
False |
Значение, указывающее, будет ли сочленено максимальное количество прогонов частей слова. Например, если задано значение true, "Azure-Search" становится "AzureSearch". По умолчанию — false. |
| generateNumberParts |
boolean |
True |
Значение, указывающее, следует ли создавать числовые подслова. Значение по умолчанию — истинно. |
| generateWordParts |
boolean |
True |
Значение, указывающее, следует ли создавать слова деталей. Если задано, то генерируются части слов; например, "AzureSearch" становится "Azure" "Search". Значение по умолчанию — истинно. |
| name |
string |
Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. |
|
| preserveOriginal |
boolean |
False |
Значение, указывающее, будут ли исходные слова сохранены и добавлены в список подслов. По умолчанию — false. |
| protectedWords |
string[] |
Список токенов, которые необходимо защитить от разграничивания. |
|
| splitOnCaseChange |
boolean |
True |
Значение, указывающее, следует ли разделять слова на caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Search". Значение по умолчанию — истинно. |
| splitOnNumerics |
boolean |
True |
Значение, указывающее, следует ли разбивать на числа. Например, если задано значение true, "Azure1Search" становится "Azure", "1", "Search". Значение по умолчанию — истинно. |
| stemEnglishPossessive |
boolean |
True |
Значение, указывающее, следует ли удалять конечные "'s" для каждого подслова. Значение по умолчанию — истинно. |