Поделиться через


Indexes - Create Or Update

Создает новый индекс поиска или обновляет индекс, если он уже существует.

PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Определение индекса, который необходимо создать или обновить.

api-version
query True

string

Версия клиентского API.

allowIndexDowntime
query

boolean

Позволяет добавлять в индекс новые анализаторы, генераторы маркеров, фильтры маркеров или фильтры символов, переводя индекс в автономный режим по крайней мере на несколько секунд. Это временно приводит к сбою индексирования и запросов. Производительность и доступность записи индекса могут быть снижены в течение нескольких минут после обновления индекса или дольше для очень больших индексов.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string (uuid)

Идентификатор отслеживания, отправленный вместе с запросом на помощь в отладке.

If-Match

string

Определяет условие If-Match. Операция будет выполнена только в том случае, если ETag на сервере соответствует этому значению.

If-None-Match

string

Определяет условие If-None-Match. Операция будет выполнена только в том случае, если ETag на сервере не соответствует этому значению.

Prefer True

string

Для запросов HTTP PUT указывает службе вернуть созданный или обновленный ресурс при успешном выполнении.

Текст запроса

Имя Обязательно Тип Описание
fields True

SearchField[]

Поля индекса.

name True

string

Имя индекса.

@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы для индекса.

charFilters CharFilter[]:

Символ фильтруется по индексу.

corsOptions

CorsOptions

Параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, который будет использоваться, если он не указан в запросе. Если это свойство не задано и в запросе не указан профиль оценки, то будет использоваться оценка по умолчанию (tf-idf).

description

string

Описание индекса.

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования данных при хранении, когда вы хотите быть уверены в том, что никто, даже корпорация Майкрософт, не сможет расшифровать ваши данные. После того, как вы зашифровали свои данные, они всегда останутся зашифрованными. Служба поиска будет игнорировать попытки установить для этого свойства значение null. Вы можете изменить это свойство по мере необходимости, если хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных поисковых служб и доступно только для платных служб, созданных 1 января 2019 г. или позже.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Нормализаторы для индекса.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры индекса поиска, влияющие на семантические возможности.

similarity Similarity:

Тип алгоритма схожести, который будет использоваться при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Подсказчики для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Генераторы маркеров для индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

Ответы

Имя Тип Описание
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

Ответ на ошибку.

Примеры

SearchServiceCreateOrUpdateIndex

Образец запроса

PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01





{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Пример ответа

{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}
{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Определения

Имя Описание
AsciiFoldingTokenFilter

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализован с помощью Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.

AzureOpenAIEmbeddingSkill

Позволяет создать векторное встраивание для заданного текстового ввода с помощью ресурса Azure OpenAI.

AzureOpenAIModelName

Имя модели Azure Open AI, которое будет вызываться.

AzureOpenAIParameters

Указывает параметры для подключения к ресурсу Azure OpenAI.

AzureOpenAIVectorizer

Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.

BinaryQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, специфичные для метода сжатия двоичного квантования, используемого во время индексирования и запросов.

BM25Similarity

Функция ранжирования основана на алгоритме подобия Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает в себя нормализацию длины (управляется параметром 'b'), а также насыщение частоты терминов (контролируется параметром 'k1').

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

CjkBigramTokenFilter

Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. Этот фильтр маркеров реализован с помощью Apache Lucene.

CjkBigramTokenFilterScripts

Скрипты, которые могут быть проигнорированы CjkBigramTokenFilter.

ClassicSimilarity

Устаревший алгоритм подобия, использующий реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит статическую нормализацию длины документа, а также координирующие факторы, которые наказывают документы, которые лишь частично соответствуют искомым запросам.

ClassicTokenizer

Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. Этот токенизатор реализован с помощью Apache Lucene.

CommonGramTokenFilter

Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализован с помощью Apache Lucene.

CorsOptions

Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

CustomAnalyzer

Позволяет контролировать процесс преобразования текста в индексируемые/доступные для поиска токены. Это определяемая пользователем конфигурация, состоящая из одного предопределенного генератора маркеров и одного или нескольких фильтров. Генератор маркеров отвечает за разбиение текста на маркеры, а также за фильтры для изменения маркеров, выдаваемых генератором маркеров.

CustomNormalizer

Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый маркер.

DictionaryDecompounderTokenFilter

Разлагает сложные слова, встречающиеся во многих германских языках. Этот фильтр маркеров реализован с помощью Apache Lucene.

DistanceScoringFunction

Определяет функцию, которая увеличивает баллы в зависимости от расстояния от географического местоположения.

DistanceScoringParameters

Предоставляет значения параметров для функции оценки расстояния.

EdgeNGramTokenFilter

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.

EdgeNGramTokenFilterSide

Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма.

EdgeNGramTokenFilterV2

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.

EdgeNGramTokenizer

Размечает входные данные от ребра в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.

ElisionTokenFilter

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). Этот фильтр маркеров реализован с помощью Apache Lucene.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Ответ на ошибку

ExhaustiveKnnParameters

Содержит параметры, специфичные для полного алгоритма KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, специфичные для исчерпывающего алгоритма KNN, используемого во время запросов, который будет выполнять поиск методом перебора по всему векторному индексу.

FreshnessScoringFunction

Определяет функцию, которая повышает баллы на основе значения поля даты и времени.

FreshnessScoringParameters

Предоставляет значения параметров для функции оценки актуальности.

HnswParameters

Содержит параметры, специфичные для алгоритма HNSW.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, специфичные для алгоритма приближенных ближайших соседей HNSW, используемого во время индексирования и запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью и точностью поиска.

InputFieldMappingEntry

Сопоставление полей ввода для навыка.

KeepTokenFilter

Фильтр маркеров, в котором хранятся только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализован с помощью Apache Lucene.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализован с помощью Apache Lucene.

KeywordTokenizer

Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.

KeywordTokenizerV2

Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.

LengthTokenFilter

Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализован с помощью Apache Lucene.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

LimitTokenFilter

Ограничивает количество токенов при индексации. Этот фильтр маркеров реализован с помощью Apache Lucene.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки.

LuceneStandardTokenizer

Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.

LuceneStandardTokenizerV2

Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.

MagnitudeScoringFunction

Определяет функцию, которая увеличивает баллы на основе величины числового поля.

MagnitudeScoringParameters

Предоставляет значения параметров для функции оценки величины.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Совпадение является жадным (выигрывает самое длинное совпадение с шаблоном в данный момент). Заменой может быть пустая строка. Этот фильтр символов реализован с помощью Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм.

MicrosoftLanguageTokenizer

Делит текст с помощью правил, зависящих от языка.

MicrosoftStemmingTokenizerLanguage

Список языков, поддерживаемых генератором маркеров корневых элементов языка Майкрософт.

MicrosoftTokenizerLanguage

Список языков, поддерживаемых генератором маркеров языка Майкрософт.

NGramTokenFilter

Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.

NGramTokenFilterV2

Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.

NGramTokenizer

Токенизирует входные данные в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.

OutputFieldMappingEntry

Сопоставление выходных полей для навыка.

PathHierarchyTokenizerV2

Генератор маркеров для иерархий, подобных путям. Этот токенизатор реализован с помощью Apache Lucene.

PatternAnalyzer

Гибко разделяет текст на термины с помощью шаблона регулярных выражений. Данный анализатор реализован с использованием Apache Lucene.

PatternCaptureTokenFilter

Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализован с помощью Apache Lucene.

PatternReplaceCharFilter

Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализован с помощью Apache Lucene.

PatternReplaceTokenFilter

Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализован с помощью Apache Lucene.

PatternTokenizer

Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. Этот токенизатор реализован с помощью Apache Lucene.

PhoneticEncoder

Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.

PhoneticTokenFilter

Создание жетонов для фонетических соответствий. Этот фильтр маркеров реализован с помощью Apache Lucene.

PrioritizedFields

Описывает поля title, content и keywords, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов.

RankingOrder

Представляет оценку, используемую для сортировки документов.

RegexFlags

Определяет флаги, которые можно комбинировать для управления использованием регулярных выражений в анализаторе шаблонов и генераторе маркеров шаблонов.

RescoringOptions

Содержит параметры для повторного сканирования.

ScalarQuantizationParameters

Содержит параметры, специфичные для скалярного квантования.

ScalarQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, специфичные для метода сжатия скалярного квантования, используемого во время индексирования и запросов.

ScoringFunctionAggregation

Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции повышения балла по ряду документов.

ScoringProfile

Определяет параметры поискового индекса, влияющие на оценку в поисковых запросах.

SearchField

Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поля при поиске.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

SearchIndex

Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.

SearchIndexerDataNoneIdentity

Очищает свойство identity источника данных.

SearchIndexerDataUserAssignedIdentity

Указывает идентификатор для используемого источника данных.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки хранимых данных, таких как индексы и сопоставления синонимов.

SemanticConfiguration

Определяет конкретную конфигурацию, которая будет использоваться в контексте семантических возможностей.

SemanticField

Поле, которое используется как часть семантической конфигурации.

SemanticSettings

Определяет параметры индекса поиска, влияющие на семантические возможности.

ShingleTokenFilter

Создает комбинации жетонов как один жетон. Этот фильтр маркеров реализован с помощью Apache Lucene.

SnowballTokenFilter

Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. Этот фильтр маркеров реализован с помощью Apache Lucene.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

StemmerOverrideTokenFilter

Предоставляет возможность переопределения других фильтров стемминга с помощью пользовательского стемминга на основе словаря. Любые термины из словаря будут помечены как ключевые слова, чтобы они не были связаны со стеммерами вниз по цепочке. Необходимо размещать перед любыми фильтрами для стемминга. Этот фильтр маркеров реализован с помощью Apache Lucene.

StemmerTokenFilter

Фильтр стемминга для конкретного языка. Этот фильтр маркеров реализован с помощью Apache Lucene.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров парадигматического модуля.

StopAnalyzer

Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. Данный анализатор реализован с использованием Apache Lucene.

StopwordsList

Определяет предопределенный список стоп-слов для конкретного языка.

StopwordsTokenFilter

Удаляет стоп-слова из потока токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.

Suggester

Определяет, как API Suggest должен применяться к группе полей в индексе.

SuggesterSearchMode

Значение, указывающее на возможности средства подбора.

SynonymTokenFilter

Сопоставление синонимов из одного или нескольких слов в потоке токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.

TagScoringFunction

Определяет функцию, которая повышает баллы документов со строковыми значениями, соответствующими заданному списку тегов.

TagScoringParameters

Предоставляет значения параметров для функции оценки тегов.

TextWeights

Определяет веса в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.

TokenCharacterKind

Представляет классы символов, над которыми может работать фильтр маркеров.

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

TruncateTokenFilter

Усекает термины до определенной длины. Этот фильтр маркеров реализован с помощью Apache Lucene.

UaxUrlEmailTokenizer

Токенизирует URL-адреса и адреса электронной почты как один токен. Этот токенизатор реализован с помощью Apache Lucene.

UniqueTokenFilter

Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализован с помощью Apache Lucene.

VectorEncodingFormat

Формат кодировки для интерпретации содержимого векторных полей.

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и запросов.

VectorSearchAlgorithmMetric

Метрика сходства, используемая для векторных сравнений. Рекомендуется выбрать ту же метрику подобия, на которой обучалась модель встраивания.

VectorSearchCompressionKind

Метод сжатия, используемый для индексирования и запросов.

VectorSearchCompressionRescoreStorageMethod

Метод хранения исходных векторов полной точности, используемых для восстановления и операций с внутренними индексами.

VectorSearchCompressionTargetDataType

Квантованный тип данных сжатых векторных значений.

VectorSearchProfile

Определяет комбинацию конфигураций для использования с векторным поиском.

VectorSearchVectorizerKind

Метод векторизации, который будет использоваться во время запроса.

WebApiParameters

Задает свойства для подключения к определенному пользователем векторизатору.

WebApiVectorizer

Указывает определяемый пользователем векторизатор для создания векторного встраивания строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса Web API набора навыков.

WordDelimiterTokenFilter

Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов. Этот фильтр маркеров реализован с помощью Apache Lucene.

AsciiFoldingTokenFilter

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

preserveOriginal

boolean

False

Значение, указывающее, будет ли сохранен исходный токен. По умолчанию — false.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.

Имя Тип Описание
applicationId

string

Идентификатор приложения AAD, которому предоставлены необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD.

applicationSecret

string

Ключ аутентификации указанного приложения AAD.

AzureOpenAIEmbeddingSkill

Позволяет создать векторное встраивание для заданного текстового ввода с помощью ресурса Azure OpenAI.

Имя Тип Описание
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Фрагмент URI, указывающий тип навыка.

apiKey

string

Ключ API указанного ресурса Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений.

context

string

Представляет уровень, на котором выполняются операции, например корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document.

deploymentId

string

Идентификатор развертывания модели Azure OpenAI на указанном ресурсе.

description

string

Описание навыка, которое описывает входы, выходы и использование навыка.

dimensions

integer (int32)

Число измерений, в которых должны быть внедренные выходные данные. Поддерживается только в моделях text-embedding-3 и более поздних версий.

inputs

InputFieldMappingEntry[]

Входными данными навыков может быть столбец в исходном наборе данных или выходные данные вышестоящего навыка.

modelName

AzureOpenAIModelName

Имя модели внедрения, которая развертывается по указанному пути deploymentId.

name

string

Название навыка, которое однозначно идентифицирует его в наборе навыков. Навыку, имя которого не определено, будет присвоено по умолчанию в виде индекса из 1 в массиве навыков, начинающегося с префикса '#'.

outputs

OutputFieldMappingEntry[]

Выходными данными навыка является либо поле в индексе поиска, либо значение, которое может быть использовано в качестве входных данных другим навыком.

resourceUri

string (uri)

URI ресурса Azure OpenAI.

AzureOpenAIModelName

Имя модели Azure Open AI, которое будет вызываться.

Значение Описание
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Указывает параметры для подключения к ресурсу Azure OpenAI.

Имя Тип Описание
apiKey

string

Ключ API указанного ресурса Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений.

deploymentId

string

Идентификатор развертывания модели Azure OpenAI на указанном ресурсе.

modelName

AzureOpenAIModelName

Имя модели внедрения, которая развертывается по указанному пути deploymentId.

resourceUri

string (uri)

URI ресурса Azure OpenAI.

AzureOpenAIVectorizer

Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.

Имя Тип Описание
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Содержит параметры, относящиеся к векторизации внедрения Azure OpenAI.

kind string:

azureOpenAI

Название метода векторизации, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет ассоциироваться с этим конкретным методом векторизации.

BinaryQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, специфичные для метода сжатия двоичного квантования, используемого во время индексирования и запросов.

Имя Тип Описание
kind string:

binaryQuantization

Название типа метода сжатия, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет связано с этой конкретной конфигурацией.

rescoringOptions

RescoringOptions

Содержит параметры для повторного сканирования.

truncationDimension

integer (int32)

Количество измерений для усечения векторов. Усечение векторов уменьшает размер векторов и объем данных, которые необходимо передать во время поиска. Это может снизить затраты на хранение и повысить производительность поиска за счет отзыва. Его следует использовать только для встраиваний, обученных с помощью обучения представлений Matryoshka Representation Learning (MRL), таких как OpenAI text-embedding-3-large (small). Значение по умолчанию равно null, что означает отсутствие усечения.

BM25Similarity

Функция ранжирования основана на алгоритме подобия Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает в себя нормализацию длины (управляется параметром 'b'), а также насыщение частоты терминов (контролируется параметром 'k1').

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа.

k1

number (double)

Это свойство управляет функцией масштабирования между частотой терминов каждого совпадающего термина и итоговой оценкой релевантности пары документ-запрос. По умолчанию используется значение 1,2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты семестров.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Значение Описание
html_strip

Фильтр символов, который пытается отсечь конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreScripts

CjkBigramTokenFilterScripts[]

Скрипты, которые нужно игнорировать.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

outputUnigrams

boolean

False

Значение, указывающее, следует ли выводить одновременно униграммы и биграммы (если true) или только биграммы (если false). По умолчанию — false.

CjkBigramTokenFilterScripts

Скрипты, которые могут быть проигнорированы CjkBigramTokenFilter.

Значение Описание
han

Игнорируйте письмо Хань при формировании биграмм терминов ККК.

hiragana

Игнорируйте хираганский шрифт при формировании биграмм терминов ККЯ.

katakana

Игнорируйте шрифт катакана при формировании биграмм терминов ККЯ.

hangul

Игнорируйте письменность хангыль при формировании биграмм терминов ККЯ.

ClassicSimilarity

Устаревший алгоритм подобия, использующий реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит статическую нормализацию длины документа, а также координирующие факторы, которые наказывают документы, которые лишь частично соответствуют искомым запросам.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

CommonGramTokenFilter

Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

commonWords

string[]

Набор общих слов.

ignoreCase

boolean

False

Значение, указывающее, будет ли сопоставление общих слов нечувствительным к регистру. По умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

queryMode

boolean

False

Значение, указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает биграммы, а затем удаляет общие слова и отдельные термины, за которыми следует общее слово. По умолчанию — false.

CorsOptions

Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

Имя Тип Описание
allowedOrigins

string[]

Список источников, из которых коду JavaScript будет предоставлен доступ к вашему индексу. Может содержать список хостов вида {protocol}://{fully-qualified-domain-name}[:{port#}], или один '*' для разрешения всех источников (не рекомендуется).

maxAgeInSeconds

integer (int64)

Продолжительность, в течение которой браузеры должны кэшировать ответы CORS перед проверкой. По умолчанию 5 минут.

CustomAnalyzer

Позволяет контролировать процесс преобразования текста в индексируемые/доступные для поиска токены. Это определяемая пользователем конфигурация, состоящая из одного предопределенного генератора маркеров и одного или нескольких фильтров. Генератор маркеров отвечает за разбиение текста на маркеры, а также за фильтры для изменения маркеров, выдаваемых генератором маркеров.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Фрагмент URI, указывающий тип анализатора.

charFilters

CharFilterName[]

Список фильтров символов, используемых для подготовки входного текста перед его обработкой генератором маркеров. Например, они могут заменять определенные символы или символы. Фильтры запускаются в том порядке, в котором они перечислены.

name

string

Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

tokenFilters

TokenFilterName[]

Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных генератором маркеров. Например, можно указать фильтр нижнего регистра, который преобразует все символы в строчные. Фильтры запускаются в том порядке, в котором они перечислены.

tokenizer

LexicalTokenizerName

Имя маркеризатора, используемого для разделения непрерывного текста на последовательность маркеров, например для разбиения предложения на слова.

CustomNormalizer

Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый маркер.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Фрагмент URI, указывающий тип нормализатора.

charFilters

CharFilterName[]

Список фильтров символов, используемых для подготовки входного текста перед его обработкой. Например, они могут заменять определенные символы или символы. Фильтры запускаются в том порядке, в котором они перечислены.

name

string

Имя нормализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами. Он не может заканчиваться на '.microsoft' или '.lucene', а также называться 'asciifolding', 'standard', 'lowercase', 'uppercase' или 'elision'.

tokenFilters

TokenFilterName[]

Список фильтров маркеров, используемых для фильтрации или изменения входного маркера. Например, можно указать фильтр нижнего регистра, который преобразует все символы в строчные. Фильтры запускаются в том порядке, в котором они перечислены.

DictionaryDecompounderTokenFilter

Разлагает сложные слова, встречающиеся во многих германских языках. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxSubwordSize

integer (int32)

maximum: 300
15

Максимальный размер подслова. Выводятся только подслова, которые короче этого числа. Значение по умолчанию — 15. Максимум 300.

minSubwordSize

integer (int32)

maximum: 300
2

Минимальный размер подслова. Выводятся только подслова длиннее этого значения. Значение по умолчанию — 2. Максимум 300.

minWordSize

integer (int32)

maximum: 300
5

Минимальный размер слова. Обрабатываются только слова, длиннее этого. Значение по умолчанию — 5. Максимум 300.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

onlyLongestMatch

boolean

False

Значение, указывающее, следует ли добавлять в выходные данные только самое длинное совпадающее подслово. По умолчанию — false.

wordList

string[]

Список слов, с которыми нужно сопоставить.

DistanceScoringFunction

Определяет функцию, которая увеличивает баллы в зависимости от расстояния от географического местоположения.

Имя Тип Описание
boost

number (double)

Множитель для исходного счета. Должно быть положительное число, не равное 1,0.

distance

DistanceScoringParameters

Значения параметров для функции оценки расстояния.

fieldName

string

Имя поля, используемого в качестве входных данных для функции подсчета очков.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear".

type string:

distance

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре.

DistanceScoringParameters

Предоставляет значения параметров для функции оценки расстояния.

Имя Тип Описание
boostingDistance

number (double)

Расстояние в километрах от опорного места, где заканчивается дальность наддува.

referencePointParameter

string

Название параметра, передаваемого в поисковых запросах для указания местоположения ссылки.

EdgeNGramTokenFilter

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer (int32)

2

Максимальная длина n-грамма. Значение по умолчанию — 2.

minGram

integer (int32)

1

Минимальная длина n-грамма. По умолчанию 1. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

side

EdgeNGramTokenFilterSide

front

Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма. По умолчанию используется значение "front".

EdgeNGramTokenFilterSide

Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма.

Значение Описание
front

Указывает, что n-грамма должна создаваться с лицевой стороны входных данных.

back

Указывает, что n-грамма должна быть сгенерирована из обратной стороны входных данных.

EdgeNGramTokenFilterV2

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer (int32)

maximum: 300
2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300.

minGram

integer (int32)

maximum: 300
1

Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

side

EdgeNGramTokenFilterSide

front

Указывает, с какой стороны входных данных должна быть сгенерирована n-грамма. По умолчанию используется значение "front".

EdgeNGramTokenizer

Размечает входные данные от ребра в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

maxGram

integer (int32)

maximum: 300
2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300.

minGram

integer (int32)

maximum: 300
1

Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

tokenChars

TokenCharacterKind[]

Классы персонажей для сохранения в токенах.

ElisionTokenFilter

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

articles

string[]

Набор статей для удаления.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительная информация.

type

string

Тип дополнительной информации.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Ошибка дополнительная информация.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Цель ошибки.

ErrorResponse

Ответ на ошибку

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

ExhaustiveKnnParameters

Содержит параметры, специфичные для полного алгоритма KNN.

Имя Тип Описание
metric

VectorSearchAlgorithmMetric

Метрика сходства, используемая для векторных сравнений.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, специфичные для исчерпывающего алгоритма KNN, используемого во время запросов, который будет выполнять поиск методом перебора по всему векторному индексу.

Имя Тип Описание
exhaustiveKnnParameters

ExhaustiveKnnParameters

Содержит параметры, специфичные для полного алгоритма KNN.

kind string:

exhaustiveKnn

Название типа алгоритма, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет связано с этой конкретной конфигурацией.

FreshnessScoringFunction

Определяет функцию, которая повышает баллы на основе значения поля даты и времени.

Имя Тип Описание
boost

number (double)

Множитель для исходного счета. Должно быть положительное число, не равное 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции подсчета очков.

freshness

FreshnessScoringParameters

Значения параметров для функции оценки актуальности.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear".

type string:

freshness

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре.

FreshnessScoringParameters

Предоставляет значения параметров для функции оценки актуальности.

Имя Тип Описание
boostingDuration

string (duration)

Срок действия, по истечении которого бустинг прекратится для конкретного документа.

HnswParameters

Содержит параметры, специфичные для алгоритма HNSW.

Имя Тип Default value Описание
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Размер динамического списка, содержащего ближайших соседей, который используется во время индексирования. Увеличение этого параметра может улучшить качество индекса за счет увеличения времени индексации. В определенный момент увеличение этого параметра приводит к уменьшению отдачи.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Размер динамического списка, содержащего ближайших соседей, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска, за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению отдачи.

m

integer (int32)

minimum: 4
maximum: 10
4

Количество двунаправленных связей, создаваемых для каждого нового элемента во время построения. Увеличение значения этого параметра может улучшить запоминаемость и сократить время извлечения для наборов данных с высокой внутренней размерностью за счет увеличения потребления памяти и увеличения времени индексирования.

metric

VectorSearchAlgorithmMetric

Метрика сходства, используемая для векторных сравнений.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, специфичные для алгоритма приближенных ближайших соседей HNSW, используемого во время индексирования и запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью и точностью поиска.

Имя Тип Описание
hnswParameters

HnswParameters

Содержит параметры, специфичные для алгоритма HNSW.

kind string:

hnsw

Название типа алгоритма, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет связано с этой конкретной конфигурацией.

InputFieldMappingEntry

Сопоставление полей ввода для навыка.

Имя Тип Описание
inputs

InputFieldMappingEntry[]

Рекурсивные входные данные, используемые при создании сложного типа.

name

string

Имя входных данных.

source

string

Источник входных данных.

sourceContext

string

Исходный контекст, используемый для выбора рекурсивных входных данных.

KeepTokenFilter

Фильтр маркеров, в котором хранятся только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

keepWords

string[]

Список слов, которые нужно сохранить.

keepWordsCase

boolean

False

Значение, указывающее, следует ли сначала писать все слова в нижнем регистре. По умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение, указывающее, следует ли игнорировать регистр. Если true, все слова сначала преобразуются в нижний регистр. По умолчанию — false.

keywords

string[]

Список слов, которые нужно пометить как ключевые слова.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

KeywordTokenizer

Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

bufferSize

integer (int32)

256

Размер буфера чтения в байтах. Значение по умолчанию — 256.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

KeywordTokenizerV2

Выдает все входные данные в виде одного маркера. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Фрагмент URI, указывающий тип генератора маркеров.

maxTokenLength

integer (int32)

maximum: 300
256

Максимальная длина токена. Значение по умолчанию — 256. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

LengthTokenFilter

Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

max

integer (int32)

maximum: 300
300

Максимальная длина в символах. По умолчанию и максимум - 300.

min

integer (int32)

maximum: 300
0

Минимальная длина в символах. Значение по умолчанию — 0. Максимум 300. Должно быть меньше значения max.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Значение Описание
ar.microsoft

Анализатор Microsoft для арабского языка.

ar.lucene

Анализатор Lucene для арабского языка.

hy.lucene

Анализатор Lucene для армянского языка.

bn.microsoft

Анализатор Microsoft для Bangla.

eu.lucene

Анализатор Lucene для баскского языка.

bg.microsoft

Анализатор Microsoft для болгарского языка.

bg.lucene

Анализатор люцин для болгарского языка.

ca.microsoft

Анализатор Microsoft для каталанского языка.

ca.lucene

Анализатор Lucene для каталанского языка.

zh-Hans.microsoft

Анализатор Microsoft для китайского языка (упрощенный).

zh-Hans.lucene

Анализатор Lucene для китайского языка (упрощенный).

zh-Hant.microsoft

Анализатор Microsoft для китайского языка (традиционный).

zh-Hant.lucene

Анализатор люцин для китайского языка (традиционный).

hr.microsoft

Анализатор Microsoft для хорватского языка.

cs.microsoft

Анализатор Microsoft для чешского языка.

cs.lucene

Анализатор Lucene для чешского языка.

da.microsoft

Анализатор Microsoft для датского языка.

da.lucene

Анализатор Lucene для датского языка.

nl.microsoft

Анализатор Microsoft для голландского языка.

nl.lucene

Анализатор Lucene для голландского языка.

en.microsoft

Анализатор Microsoft для английского языка.

en.lucene

Анализатор Lucene для английского языка.

et.microsoft

Анализатор Microsoft для эстонского языка.

fi.microsoft

Анализатор Microsoft для финского языка.

fi.lucene

Анализатор Lucene для финского языка.

fr.microsoft

Анализатор Microsoft для французского языка.

fr.lucene

Анализатор Lucene для французского языка.

gl.lucene

Анализатор Lucene для галисийского языка.

de.microsoft

Анализатор Microsoft для немецкого языка.

de.lucene

Анализатор Lucene для немецкого языка.

el.microsoft

Анализатор Microsoft для греческого языка.

el.lucene

Анализатор Lucene для греческого языка.

gu.microsoft

Анализатор Microsoft для гуджарати.

he.microsoft

Анализатор Microsoft для иврита.

hi.microsoft

Анализатор Microsoft для хинди.

hi.lucene

Анализатор Lucene для хинди.

hu.microsoft

Анализатор Microsoft для венгерского языка.

hu.lucene

Анализатор Lucene для венгерского языка.

is.microsoft

Анализатор Microsoft для исландского.

id.microsoft

Анализатор Microsoft для индонезийского языка (Bahasa).

id.lucene

Анализатор Lucene для индонезийского языка.

ga.lucene

Анализатор Lucene для ирландцев.

it.microsoft

Анализатор Microsoft для итальянского языка.

it.lucene

Анализатор Lucene для итальянского языка.

ja.microsoft

Анализатор Microsoft для японского языка.

ja.lucene

Анализатор Lucene для японского языка.

kn.microsoft

Анализатор Microsoft для Kannada.

ko.microsoft

Анализатор Microsoft для корейского языка.

ko.lucene

Анализатор Lucene для корейского языка.

lv.microsoft

Анализатор Microsoft для латышского языка.

lv.lucene

Анализатор Lucene для латышского языка.

lt.microsoft

Анализатор Microsoft для литовского языка.

ml.microsoft

Анализатор Microsoft для малаялам.

ms.microsoft

Анализатор Microsoft для малайского языка (латиницы).

mr.microsoft

Анализатор Microsoft для маратхи.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Анализатор Lucene для норвежского языка.

fa.lucene

Анализатор Lucene для персидского языка.

pl.microsoft

Анализатор Microsoft для польского языка.

pl.lucene

Анализатор Lucene для польского языка.

pt-BR.microsoft

Анализатор Microsoft для португальского языка (Бразилия).

pt-BR.lucene

Анализатор Lucene для португальского языка (Бразилия).

pt-PT.microsoft

Анализатор Microsoft для португальского языка (Португалия).

pt-PT.lucene

Анализатор Lucene для португальского языка (Португалия).

pa.microsoft

Анализатор Microsoft для пенджаби.

ro.microsoft

Анализатор Microsoft для румынского языка.

ro.lucene

Анализатор Lucene для румынского языка.

ru.microsoft

Анализатор Microsoft для русского языка.

ru.lucene

Анализатор люцин для русского языка.

sr-cyrillic.microsoft

Анализатор Microsoft для сербского языка (кириллица).

sr-latin.microsoft

Анализатор Microsoft для сербского языка (латиница).

sk.microsoft

Анализатор Microsoft для словацкого языка.

sl.microsoft

Анализатор Microsoft для словенского языка.

es.microsoft

Анализатор Microsoft для испанского языка.

es.lucene

Анализатор Lucene для испанского языка.

sv.microsoft

Анализатор Microsoft для шведского языка.

sv.lucene

Анализатор Lucene для шведского языка.

ta.microsoft

Анализатор Microsoft для тамильского языка.

te.microsoft

Анализатор Microsoft для телугу.

th.microsoft

Анализатор Microsoft для тайского языка.

th.lucene

Анализатор Lucene для тайского языка.

tr.microsoft

Анализатор Microsoft для турецкого языка.

tr.lucene

Анализатор Lucene для турецкого языка.

uk.microsoft

Анализатор Microsoft для украинского языка.

ur.microsoft

Анализатор Microsoft для урду.

vi.microsoft

Анализатор Microsoft для вьетнамского языка.

standard.lucene

Стандартный анализатор люцина.

standardasciifolding.lucene

Стандартный ASCII Folding Lucene analyzer. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Обрабатывает все содержимое поля как единый маркер. Это полезно для таких данных, как почтовые индексы, идентификаторы и названия некоторых продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Гибко разделяет текст на термины с помощью шаблона регулярных выражений. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Разделяет текст на небуквенные буквы и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Анализатор, использующий генератор маркеров пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

Значение Описание
asciifolding

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Нормализует текст лексемы в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Стандартный нормализатор, который состоит из строчных и асцифульдных. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Нормализует текст токена в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Значение Описание
classic

Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Размечает входные данные от ребра в n-граммах заданного размера. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Выдает все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Разделяет текст на небуквы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Разделяет текст на небуквенные буквы и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Делит текст с помощью правил, зависящих от языка.

microsoft_language_stemming_tokenizer

Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм.

nGram

Токенизирует входные данные в n-граммах заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Генератор маркеров для иерархий, подобных путям. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Стандартный анализатор люцина; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Токенизирует URL-адреса и адреса электронной почты как один токен. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Разделяет текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Ограничивает количество токенов при индексации. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

consumeAllTokens

boolean

False

Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнуто значение maxTokenCount. По умолчанию — false.

maxTokenCount

integer (int32)

1

Максимальное количество производимых токенов. По умолчанию 1.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Фрагмент URI, указывающий тип анализатора.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов.

name

string

Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

stopwords

string[]

Список стоп-слов.

LuceneStandardTokenizer

Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

maxTokenLength

integer (int32)

255

Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

LuceneStandardTokenizerV2

Разрывает текст в соответствии с правилами сегментации текста в Юникоде. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Фрагмент URI, указывающий тип генератора маркеров.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

MagnitudeScoringFunction

Определяет функцию, которая увеличивает баллы на основе величины числового поля.

Имя Тип Описание
boost

number (double)

Множитель для исходного счета. Должно быть положительное число, не равное 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции подсчета очков.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear".

magnitude

MagnitudeScoringParameters

Значения параметров для функции оценки величины.

type string:

magnitude

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре.

MagnitudeScoringParameters

Предоставляет значения параметров для функции оценки величины.

Имя Тип Описание
boostingRangeEnd

number (double)

Значение поля, на котором заканчивается форсирование.

boostingRangeStart

number (double)

Значение поля, с которого начинается бустинг.

constantBoostBeyondRange

boolean

Значение, указывающее, следует ли применять постоянное повышение для значений поля, выходящих за пределы конечного значения диапазона; Значение по умолчанию — false.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Совпадение является жадным (выигрывает самое длинное совпадение с шаблоном в данный момент). Заменой может быть пустая строка. Этот фильтр символов реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Фрагмент универсального кода ресурса (URI), указывающий тип фильтра char.

mappings

string[]

Список отображений следующего формата: "a=>b" (все вхождения символа "a" будут заменены на символ "b").

name

string

Имя фильтра символов. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftLanguageStemmingTokenizer

Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

isSearchTokenizer

boolean

False

Значение, указывающее, как используется генератор маркеров. Задайте значение true, если используется в качестве генератора маркеров поиска, и false, если используется в качестве генератора маркеров индексирования. По умолчанию — false.

language

MicrosoftStemmingTokenizerLanguage

Используемый язык. По умолчанию используется английский язык.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. Лексемы длиной более 300 символов сначала разбиваются на лексемы длиной 300, а затем каждая из этих лексем разбивается на основе максимальной длины лексемы. По умолчанию 255.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftLanguageTokenizer

Делит текст с помощью правил, зависящих от языка.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

isSearchTokenizer

boolean

False

Значение, указывающее, как используется генератор маркеров. Задайте значение true, если используется в качестве генератора маркеров поиска, и false, если используется в качестве генератора маркеров индексирования. По умолчанию — false.

language

MicrosoftTokenizerLanguage

Используемый язык. По умолчанию используется английский язык.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов. Лексемы длиной более 300 символов сначала разбиваются на лексемы длиной 300, а затем каждая из этих лексем разбивается на основе максимальной длины лексемы. По умолчанию 255.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftStemmingTokenizerLanguage

Список языков, поддерживаемых генератором маркеров корневых элементов языка Майкрософт.

Значение Описание
arabic

Выбирает создатель маркеров корневых элементов Майкрософт для арабского языка.

bangla

Выбирает создатель маркеров Microsoft Stemming для Bangla.

bulgarian

Выбирает маркеризатор корневых элементов Майкрософт для болгарского языка.

catalan

Выбирает генератор маркеров Microsoft Stemming для каталанского языка.

croatian

Выбирает маркеризатор корневых элементов Майкрософт для хорватского языка.

czech

Выбирает разметчик Microsoft stemming для чешского языка.

danish

Выбирает создатель маркеров корневых элементов Майкрософт для датского языка.

dutch

Выбирает обозначатель корневых маркеров Майкрософт для голландского языка.

english

Выбирает маркеризатор корневых элементов Майкрософт для английского языка.

estonian

Выбирает генератор маркеров Microsoft stemming для эстонского языка.

finnish

Выбирает создатель маркеров Microsoft stemming для финского языка.

french

Выбирает разметчик Microsoft Stemming для французского языка.

german

Выбирает маркеризатор корневых элементов Майкрософт для немецкого языка.

greek

Выбирает маркеризатор корневых элементов Майкрософт для греческого языка.

gujarati

Выбирает маркеризатор корневых элементов Майкрософт для гуджарати.

hebrew

Выбирает разметчик корневых элементов Майкрософт для иврита.

hindi

Выбирает создатель маркеров Microsoft Stemming для хинди.

hungarian

Выбирает маркеризатор корневых элементов Майкрософт для венгерского языка.

icelandic

Выбирает генератор маркеров Microsoft stemming для исландского языка.

indonesian

Выбирает создатель маркеров Microsoft stemming для индонезийского языка.

italian

Выбирает маркеризатор корневых элементов Майкрософт для итальянского языка.

kannada

Выбирает создатель маркеров корневых элементов Майкрософт для каннада.

latvian

Выбирает генератор маркеров Microsoft stemming для латышского языка.

lithuanian

Выбирает создатель маркеров Microsoft stemming для литовского языка.

malay

Выбирает создатель маркеров корневых элементов Майкрософт для малайского языка.

malayalam

Выбирает создатель маркеров корневых элементов Майкрософт для малаялам.

marathi

Выбирает создатель маркеров корневых элементов Майкрософт для маратхи.

norwegianBokmaal

Выбирает генератор маркеров Microsoft stemming для норвежского языка (Bokmål).

polish

Выбирает разметчик Microsoft stemming для польского языка.

portuguese

Выбирает генератор маркеров Microsoft stemming для португальского языка.

portugueseBrazilian

Выбирает создатель маркеров Microsoft stemming для португальского языка (Бразилия).

punjabi

Выбирает создатель маркеров корневых элементов Майкрософт для пенджаби.

romanian

Выбирает генератор маркеров Microsoft stemming для румынского языка.

russian

Выбирает генератор маркеров Microsoft для русского языка.

serbianCyrillic

Выбирает маркеризатор корневых элементов Майкрософт для сербского (кириллица).

serbianLatin

Выбирает создатель маркеров Microsoft Stemming для сербского (латинского) языка.

slovak

Выбирает маркеризатор корневых элементов Майкрософт для словацкого языка.

slovenian

Выбирает генератор маркеров Microsoft stemming для словенского языка.

spanish

Выбирает создатель маркеров корневых элементов Майкрософт для испанского языка.

swedish

Выбирает маркеризатор корневых элементов Майкрософт для шведского языка.

tamil

Выбирает создатель маркеров корневых элементов Майкрософт для тамильского языка.

telugu

Выбирает создатель маркеров корневых элементов Майкрософт для телугу.

turkish

Выбирает маркеризатор корневых элементов Майкрософт для турецкого языка.

ukrainian

Выбирает токенизатор Microsoft stemming для украинского языка.

urdu

Выбирает создатель маркеров корневых элементов Майкрософт для урду.

MicrosoftTokenizerLanguage

Список языков, поддерживаемых генератором маркеров языка Майкрософт.

Значение Описание
bangla

Выбирает генератор маркеров Майкрософт для Bangla.

bulgarian

Выбирает генератор маркеров Майкрософт для болгарского языка.

catalan

Выбирает генератор маркеров Майкрософт для каталанского языка.

chineseSimplified

Выбирает генератор маркеров Майкрософт для китайского языка (упрощенное письмо).

chineseTraditional

Выбирает генератор маркеров Майкрософт для китайского языка (традиционный).

croatian

Выбирает генератор маркеров Майкрософт для хорватского языка.

czech

Выбирает генератор маркеров Майкрософт для чешского языка.

danish

Выбирает генератор маркеров Майкрософт для датского языка.

dutch

Выбирает генератор маркеров Майкрософт для голландского языка.

english

Выбирает генератор маркеров Майкрософт для английского языка.

french

Выбирает генератор маркеров Майкрософт для французского языка.

german

Выбирает генератор маркеров Майкрософт для немецкого языка.

greek

Выбирает генератор маркеров Майкрософт для греческого языка.

gujarati

Выбирает генератор маркеров Майкрософт для гуджарати.

hindi

Выбирает генератор маркеров Майкрософт для хинди.

icelandic

Выбирает генератор маркеров Майкрософт для исландского языка.

indonesian

Выбирает генератор маркеров Майкрософт для индонезийского языка.

italian

Выбирает генератор маркеров Майкрософт для итальянского языка.

japanese

Выбирает генератор маркеров Майкрософт для японского языка.

kannada

Выбирает генератор маркеров Майкрософт для Kannada.

korean

Выбирает генератор маркеров Майкрософт для корейского языка.

malay

Выбирает генератор маркеров Майкрософт для малайского языка.

malayalam

Выбирает генератор маркеров Майкрософт для малаялам.

marathi

Выбирает генератор маркеров Майкрософт для маратхи.

norwegianBokmaal

Выбирает генератор маркеров Майкрософт для норвежского языка (Bokmål).

polish

Выбирает генератор маркеров Майкрософт для польского языка.

portuguese

Выбирает генератор маркеров Майкрософт для португальского языка.

portugueseBrazilian

Выбирает генератор маркеров Майкрософт для португальского языка (Бразилия).

punjabi

Выбирает генератор маркеров Майкрософт для пенджаби.

romanian

Выбирает генератор маркеров Майкрософт для румынского языка.

russian

Выбирает генератор маркеров Майкрософт для русского языка.

serbianCyrillic

Выбирает генератор маркеров Майкрософт для сербского (кириллицы).

serbianLatin

Выбирает генератор маркеров Майкрософт для сербского (латинского) языка.

slovenian

Выбирает генератор маркеров Майкрософт для словенского языка.

spanish

Выбирает генератор маркеров Майкрософт для испанского языка.

swedish

Выбирает генератор маркеров Майкрософт для шведского языка.

tamil

Выбирает генератор маркеров Майкрософт для тамильского языка.

telugu

Выбирает генератор маркеров Майкрософт для телугу.

thai

Выбирает генератор маркеров Майкрософт для тайского языка.

ukrainian

Выбирает токенизатор Microsoft для украинского языка.

urdu

Выбирает генератор маркеров Майкрософт для урду.

vietnamese

Выбирает генератор маркеров Майкрософт для вьетнамского языка.

NGramTokenFilter

Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer (int32)

2

Максимальная длина n-грамма. Значение по умолчанию — 2.

minGram

integer (int32)

1

Минимальная длина n-грамма. По умолчанию 1. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

NGramTokenFilterV2

Генерирует n-грамм заданного размера (размеров). Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer (int32)

maximum: 300
2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300.

minGram

integer (int32)

maximum: 300
1

Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

NGramTokenizer

Токенизирует входные данные в n-граммах заданного размера. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

maxGram

integer (int32)

maximum: 300
2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимум 300.

minGram

integer (int32)

maximum: 300
1

Минимальная длина n-грамма. По умолчанию 1. Максимум 300. Должно быть меньше значения maxGram.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

tokenChars

TokenCharacterKind[]

Классы персонажей для сохранения в токенах.

OutputFieldMappingEntry

Сопоставление выходных полей для навыка.

Имя Тип Описание
name

string

Имя выходных данных, определяемое навыком.

targetName

string

Целевое имя выходных данных. Он является необязательным и по умолчанию является именем.

PathHierarchyTokenizerV2

Генератор маркеров для иерархий, подобных путям. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Фрагмент URI, указывающий тип генератора маркеров.

delimiter

string (char)

/

Используемый символ разделителя. По умолчанию используется "/".

maxTokenLength

integer (int32)

maximum: 300
300

Максимальная длина токена. По умолчанию и максимум - 300.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

replacement

string (char)

/

Значение, которое, если оно задано, заменяет символ разделителя. По умолчанию используется "/".

reverse

boolean

False

Значение, указывающее, следует ли генерировать токены в обратном порядке. По умолчанию — false.

skip

integer (int32)

0

Количество начальных токенов, которые нужно пропустить. Значение по умолчанию — 0.

PatternAnalyzer

Гибко разделяет текст на термины с помощью шаблона регулярных выражений. Данный анализатор реализован с использованием Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Фрагмент URI, указывающий тип анализатора.

flags

RegexFlags

Флаги регулярных выражений.

lowercase

boolean

True

Значение, указывающее, следует ли писать термины в нижнем регистре. Значение по умолчанию — истинно.

name

string

Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. Default — это выражение, которое соответствует одному или нескольким символам, не являющимся словами.

stopwords

string[]

Список стоп-слов.

PatternCaptureTokenFilter

Использует регулярные выражения Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

patterns

string[]

Список шаблонов для сопоставления с каждым маркером.

preserveOriginal

boolean

True

Значение, указывающее, следует ли возвращать исходный токен, даже если один из шаблонов совпадает. Значение по умолчанию — истинно.

PatternReplaceCharFilter

Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Фрагмент универсального кода ресурса (URI), указывающий тип фильтра char.

name

string

Имя фильтра символов. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

Шаблон регулярного выражения.

replacement

string

Заменяющий текст.

PatternReplaceTokenFilter

Фильтр символов, который заменяет символы во входной строке. Он использует регулярное выражение для определения последовательностей символов для сохранения и шаблон замены для определения символов для замены. Например, если на входе есть текст "aa bb aa bb", шаблон "(aa)\s+(bb)", а на замену приходит "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

Шаблон регулярного выражения.

replacement

string

Заменяющий текст.

PatternTokenizer

Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

flags

RegexFlags

Флаги регулярных выражений.

group

integer (int32)

-1

Порядковый номер совпадающей группы в шаблоне регулярного выражения, отсчитываемый от нуля, для извлечения в лексемы. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на лексемы, независимо от совпадающих групп. Значение по умолчанию — -1.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. Default — это выражение, которое соответствует одному или нескольким символам, не являющимся словами.

PhoneticEncoder

Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.

Значение Описание
metaphone

Кодирует маркер в значение Metaphone.

doubleMetaphone

Кодирует токен в двойное значение метафона.

soundex

Кодирует токен в значение Soundex.

refinedSoundex

Кодирует токен в значение Refined Soundex.

caverphone1

Кодирует маркер в значение Caverphone 1.0.

caverphone2

Кодирует маркер в значение Caverphone 2.0.

cologne

Кодирует лексему в кёльнское фонетическое значение.

nysiis

Кодирует токен в значение NYSIIS.

koelnerPhonetik

Кодирует токен с помощью алгоритма Kölner Phonetik.

haasePhonetik

Кодирует лексему с помощью уточнения Хаазе алгоритма Kölner Phonetik.

beiderMorse

Кодирует лексему в Beider-Morse значение.

PhoneticTokenFilter

Создание жетонов для фонетических соответствий. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

encoder

PhoneticEncoder

metaphone

Используемый фонетический кодировщик. По умолчанию используется термин "metaphone".

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

replace

boolean

True

Значение, указывающее, должны ли закодированные токены заменять исходные токены. Если false, то закодированные токены добавляются в качестве синонимов. Значение по умолчанию — истинно.

PrioritizedFields

Описывает поля title, content и keywords, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов.

Имя Тип Описание
prioritizedContentFields

SemanticField[]

Определяет поля содержимого, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Для достижения наилучшего результата выбранные поля должны содержать текст в виде естественного языка. Порядок полей в массиве отражает их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

prioritizedKeywordsFields

SemanticField[]

Определяет поля ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Для достижения наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве отражает их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

titleField

SemanticField

Определяет поле заголовка, которое будет использоваться для семантического ранжирования, подписей, выделения и ответов. Если в индексе нет поля заголовка, оставьте его пустым.

RankingOrder

Представляет оценку, используемую для сортировки документов.

Значение Описание
BoostedRerankerScore

Устанавливает порядок сортировки как BoostedRerankerScore

RerankerScore

Устанавливает порядок сортировки как ReRankerScore

RegexFlags

Определяет флаги, которые можно комбинировать для управления использованием регулярных выражений в анализаторе шаблонов и генераторе маркеров шаблонов.

Значение Описание
CANON_EQ

Обеспечивает каноническую эквивалентность.

CASE_INSENSITIVE

Включает сопоставление без учета регистра.

COMMENTS

Разрешает пробелы и комментарии в шаблоне.

DOTALL

Включает режим dotall.

LITERAL

Включает буквальный синтаксический анализ шаблона.

MULTILINE

Включает многострочный режим.

UNICODE_CASE

Включает складывание регистра с учетом Юникода.

UNIX_LINES

Включает режим линий Unix.

RescoringOptions

Содержит параметры для повторного сканирования.

Имя Тип Default value Описание
defaultOversampling

number (double)

Коэффициент передискретизации по умолчанию. Избыточная дискретизация позволяет получить больший набор потенциальных документов, чтобы компенсировать потерю разрешения из-за квантования. Это увеличивает набор результатов, которые будут переоцениваться на векторах полной точности. Минимальное значение равно 1, что означает отсутствие передискретизации (1x). Этот параметр может быть установлен только в том случае, если 'enableRescoring' имеет значение true. Более высокие значения улучшают запоминание за счет задержки.

enableRescoring

boolean

True

Если задано значение true, то после первоначального поиска по сжатым векторам оценки сходства пересчитываются с использованием векторов полной точности. Это улучшит запоминание за счет задержки.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Управляет методом хранения исходных векторов. Эта настройка является неизменяемой.

ScalarQuantizationParameters

Содержит параметры, специфичные для скалярного квантования.

Имя Тип Описание
quantizedDataType

VectorSearchCompressionTargetDataType

Квантованный тип данных сжатых векторных значений.

ScalarQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, специфичные для метода сжатия скалярного квантования, используемого во время индексирования и запросов.

Имя Тип Описание
kind string:

scalarQuantization

Название типа метода сжатия, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет связано с этой конкретной конфигурацией.

rescoringOptions

RescoringOptions

Содержит параметры для повторного сканирования.

scalarQuantizationParameters

ScalarQuantizationParameters

Содержит параметры, специфичные для скалярного квантования.

truncationDimension

integer (int32)

Количество измерений для усечения векторов. Усечение векторов уменьшает размер векторов и объем данных, которые необходимо передать во время поиска. Это может снизить затраты на хранение и повысить производительность поиска за счет отзыва. Его следует использовать только для встраиваний, обученных с помощью обучения представлений Matryoshka Representation Learning (MRL), таких как OpenAI text-embedding-3-large (small). Значение по умолчанию равно null, что означает отсутствие усечения.

ScoringFunctionAggregation

Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.

Значение Описание
sum

Увеличьте баллы по сумме всех результатов функции оценки.

average

Увеличьте баллы на среднее значение всех результатов функции оценки.

minimum

Увеличьте баллы по минимуму всех результатов функции подсчета баллов.

maximum

Увеличьте баллы по максимальному количеству всех результатов функции подсчета баллов.

firstMatching

Увеличьте счет с помощью первой применимой функции подсчета очков в профиле подсчета очков.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции повышения балла по ряду документов.

Значение Описание
linear

Увеличивает количество очков на линейно уменьшающуюся величину. Это интерполяция по умолчанию для функций оценки.

constant

Увеличивает очки на постоянный коэффициент.

quadratic

Увеличивает количество очков на величину, которая уменьшается квадратически. Ускорения уменьшаются медленно при увеличении очков и быстрее при уменьшении очков. Этот параметр интерполяции не допускается в функциях оценки тегов.

logarithmic

Увеличивает количество очков на величину, которая уменьшается логарифмически Ускорения быстро уменьшаются при увеличении количества очков и медленнее при уменьшении очков. Этот параметр интерполяции не допускается в функциях оценки тегов.

ScoringProfile

Определяет параметры поискового индекса, влияющие на оценку в поисковых запросах.

Имя Тип Описание
functionAggregation

ScoringFunctionAggregation

Значение, указывающее, как должны быть объединены результаты отдельных функций оценки. По умолчанию "Сумма". Игнорируется, если нет функций подсчета очков.

functions ScoringFunction[]:

Набор функций, влияющих на оценку документов.

name

string

Имя профиля скоринга.

text

TextWeights

Параметры, повышающие оценку на основе совпадений текста в определенных полях индекса.

SearchField

Представляет поле в определении индекса, которое описывает имя, тип данных и поведение поля при поиске.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, который будет использоваться для поля. Эта опция может быть использована только с полями, доступными для поиска, и не может быть установлена вместе с searchAnalyzer или indexAnalyzer. После того, как анализатор выбран, его нельзя изменить для поля. Должно быть null для сложных полей.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Размерность векторного поля.

facetable

boolean

Значение, указывающее, следует ли разрешить ссылку на поле в фасетных запросах. Обычно используется в презентации результатов поиска, включающих количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по бренду, по мегапикселям, по цене и т. д.). Это свойство должно иметь значение null для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетами. Значение по умолчанию справедливо для всех остальных простых полей.

fields

SearchField[]

Список подполей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Должно быть null или empty для простых полей.

filterable

boolean

Значение, указывающее, следует ли разрешить ссылку на поле в $filter запросах. Filterable отличается от searchable тем, как обрабатываются строки. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не подвергаются разбиению по словам, поэтому сравнения выполняются только для точных совпадений. Например, если вы установите такое поле f в значение "солнечный день", то $filter=f eq 'sunny' не найдет совпадений, но $filter=f eq 'sunny day' найдет. Это свойство должно иметь значение null для сложных полей. Значение по умолчанию равно true для простых полей и null для сложных полей.

indexAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время индексации поля. Эту опцию можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с searchAnalyzer и не может быть установлен вместе с опцией analyzer. Этому свойству нельзя присвоить имя анализатора языка; Используйте свойство analyzer, если вам нужен анализатор языка. После того, как анализатор выбран, его нельзя изменить для поля. Должно быть null для сложных полей.

key

boolean

Значение, указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе, которое должно иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую и обновления или удаления определенных документов. Значение по умолчанию равно false для простых полей и null для сложных полей.

name

string

Имя поля, которое должно быть уникальным в пределах коллекции полей индекса или родительского поля.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для поля. Эту опцию можно использовать только с полями с включенными фильтруемыми, сортируемыми или фасетными таблицами. После выбора нормализатора его нельзя изменить для поля. Должно быть null для сложных полей.

retrievable

boolean

Значение, указывающее, может ли поле быть возвращено в результате поиска. Вы можете отключить этот параметр, если хотите использовать поле (например, поле) в качестве фильтра, сортировки или механизма оценки, но не хотите, чтобы поле было видно конечному пользователю. Это свойство должно иметь значение true для ключевых полей, а для сложных полей оно должно быть равно null. Это свойство можно изменить на существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию — true для простых полей, false — для векторных полей и null — для сложных полей.

searchAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время поиска поля. Эту опцию можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с indexAnalyzer и не может быть установлен вместе с опцией analyzer. Этому свойству нельзя присвоить имя анализатора языка; Используйте свойство analyzer, если вам нужен анализатор языка. Этот анализатор может быть обновлен на существующем поле. Должно быть null для сложных полей.

searchable

boolean

Значение, указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексации он будет подвергаться анализу, например, разбиванию по словам. Если вы установите в поле для поиска значение типа "солнечный день", оно будет внутренне разделено на отдельные токены "sunny" и "day". В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно быть равно false для простых полей других нестроковых типов данных, а для сложных полей оно должно быть равно null. Примечание: поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных токенизированных версий значения поля для полнотекстового поиска. Если вы хотите сэкономить место в индексе и вам не нужно включать поле в поиск, установите для параметра searchable значение false.

sortable

boolean

Значение, указывающее, следует ли разрешить ссылку на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по баллам, но во многих случаях пользователи могут захотеть сортировать результаты по полям в документах. Простое поле может быть сортируемым только в том случае, если оно является однозначным (оно имеет единственное значение в области родительского документа). Простые поля коллекции не могут быть сортируемыми, так как они являются многозначными. Простые подполя сложных коллекций также являются многозначными и поэтому не могут быть сортируемыми. Это верно, является ли это немедленное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, и свойство sortable должно иметь значение null для таких полей. Значение по умолчанию для sortable — true для простых полей с однозначным значением, false для простых полей с несколькими значениями и null для сложных полей.

stored

boolean

Неизменяемое значение, указывающее, будет ли поле сохраняться отдельно на диске для возврата в результате поиска. Вы можете отключить эту опцию, если не планируете возвращать содержимое поля в ответе на поиск, чтобы сэкономить на накладных расходах на хранение. Это можно задать только при создании индекса и только для векторных полей. Это свойство нельзя изменить для существующих полей или установить значение false для новых полей. Если для этого свойства задано значение false, свойство retrievable также должно быть установлено в значение false. Это свойство должно иметь значение true или unset для ключевых полей, для новых полей и для невекторных полей, а для сложных полей оно должно быть равно null. Отключение этого свойства снизит требования к хранилищу индексов. Значение по умолчанию равно true для векторных полей.

synonymMaps

string[]

Список имен синонимов сопоставляется с этим полем. Эту опцию можно использовать только с полями, доступными для поиска. В настоящее время поддерживается только одна карта синонимов на поле. Назначение сопоставления синонимов полю гарантирует, что условия запроса, предназначенные для этого поля, развертываются во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Должен быть null или пустой коллекцией для сложных полей.

type

SearchFieldDataType

Тип данных поля.

vectorEncoding

VectorEncodingFormat

Формат кодировки для интерпретации содержимого поля.

vectorSearchProfile

string

Имя профиля векторного поиска, указывающего алгоритм и векторизатор, используемые при поиске векторного поля.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

Значение Описание
Edm.String

Указывает, что поле содержит строку.

Edm.Int32

Указывает, что поле содержит 32-разрядное целое число со знаком.

Edm.Int64

Указывает, что поле содержит 64-разрядное целое число со знаком.

Edm.Double

Указывает, что поле содержит число IEEE с плавающей запятой двойной точности.

Edm.Boolean

Указывает, что поле содержит логическое значение (true или false).

Edm.DateTimeOffset

Указывает, что поле содержит значение даты и времени, включая информацию о часовом поясе.

Edm.GeographyPoint

Указывает, что поле содержит геолокацию в терминах долготы и широты.

Edm.ComplexType

Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, имеют подполя других типов.

Edm.Single

Указывает, что поле содержит число с плавающей запятой одинарной точности. Это допустимо только при использовании с Collection(Edm.Single).

Edm.Half

Указывает, что поле содержит число с плавающей запятой половинной точности. Это справедливо только при использовании с Collection(Edm.Half).

Edm.Int16

Указывает, что поле содержит 16-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.Int16).

Edm.SByte

Указывает, что поле содержит 8-разрядное целое число со знаком. Это справедливо только при использовании с Collection(Edm.SByte).

Edm.Byte

Указывает, что поле содержит 8-разрядное целое число без знака. Это допустимо только при использовании с Collection(Edm.Byte).

SearchIndex

Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.

Имя Тип Описание
@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы для индекса.

charFilters CharFilter[]:

Символ фильтруется по индексу.

corsOptions

CorsOptions

Параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, который будет использоваться, если он не указан в запросе. Если это свойство не задано и в запросе не указан профиль оценки, то будет использоваться оценка по умолчанию (tf-idf).

description

string

Описание индекса.

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования данных при хранении, когда вы хотите быть уверены в том, что никто, даже корпорация Майкрософт, не сможет расшифровать ваши данные. После того, как вы зашифровали свои данные, они всегда останутся зашифрованными. Служба поиска будет игнорировать попытки установить для этого свойства значение null. Вы можете изменить это свойство по мере необходимости, если хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных поисковых служб и доступно только для платных служб, созданных 1 января 2019 г. или позже.

fields

SearchField[]

Поля индекса.

name

string

Имя индекса.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Нормализаторы для индекса.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры индекса поиска, влияющие на семантические возможности.

similarity Similarity:

Тип алгоритма схожести, который будет использоваться при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Подсказчики для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Генераторы маркеров для индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

SearchIndexerDataNoneIdentity

Очищает свойство identity источника данных.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Фрагмент URI, указывающий тип удостоверения.

SearchIndexerDataUserAssignedIdentity

Указывает идентификатор для используемого источника данных.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Фрагмент URI, указывающий тип удостоверения.

userAssignedIdentity

string

Полный идентификатор ресурса Azure управляемого удостоверения, назначенного пользователем, обычно в форме "/subscriptions/12345678-1234-1234-123467890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки хранимых данных, таких как индексы и сопоставления синонимов.

Имя Тип Описание
accessCredentials

AzureActiveDirectoryApplicationCredentials

Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение.

keyVaultKeyName

string

Имя ключа Azure Key Vault, который будет использоваться для шифрования неактивных данных.

keyVaultKeyVersion

string

Версия ключа Azure Key Vault, который будет использоваться для шифрования неактивных данных.

keyVaultUri

string

URI Azure Key Vault, также называемый DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Примером URI может быть .https://my-keyvault-name.vault.azure.net

SemanticConfiguration

Определяет конкретную конфигурацию, которая будет использоваться в контексте семантических возможностей.

Имя Тип Описание
name

string

Имя семантической конфигурации.

prioritizedFields

PrioritizedFields

Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделения и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, priordKeywordsFields и priordContentFields).

rankingOrder

RankingOrder

Указывает тип оценки, который будет использоваться для сортировки результатов поиска.

SemanticField

Поле, которое используется как часть семантической конфигурации.

Имя Тип Описание
fieldName

string

SemanticSettings

Определяет параметры индекса поиска, влияющие на семантические возможности.

Имя Тип Описание
configurations

SemanticConfiguration[]

Семантические конфигурации для индекса.

defaultConfiguration

string

Позволяет задать имя семантической конфигурации по умолчанию в индексе, что делает его необязательным для каждой передачи в качестве параметра запроса.

ShingleTokenFilter

Создает комбинации жетонов как один жетон. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

filterToken

string

_

Строка для вставки для каждой позиции, в которой нет лексемы. По умолчанию используется символ подчеркивания («_»).

maxShingleSize

integer (int32)

minimum: 2
2

Максимальный размер битумной черепицы. По умолчанию и минимальное значение равно 2.

minShingleSize

integer (int32)

minimum: 2
2

Минимальный размер битумной черепицы. По умолчанию и минимальное значение равно 2. Должно быть меньше значения maxShingleSize.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

outputUnigrams

boolean

True

Значение, указывающее, будет ли выходной поток содержать входные токены (юниграммы), а также битумную черепицу. Значение по умолчанию — истинно.

outputUnigramsIfNoShingles

boolean

False

Значение, указывающее, следует ли выводить юниграммы в тех случаях, когда битумная черепица недоступна. Это свойство имеет приоритет, если для параметра outputUnigrams задано значение false. По умолчанию — false.

tokenSeparator

string

Строка, используемая при соединении соседних жетонов для формирования черепицы. По умолчанию используется одинарный пробел («»).

SnowballTokenFilter

Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

SnowballTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

Значение Описание
armenian

Выбирает токенизатор стемминга Lucene Snowball для армянского языка.

basque

Выбирает маркеризатор стеблей Lucene Snowball для Basque.

catalan

Выбирает токенизатор стемминга Lucene Snowball для каталанского языка.

danish

Выбирает маркеризатор стемминга Lucene Snowball для датского языка.

dutch

Выбирает маркеризатор стемминга Lucene Snowball для голландского языка.

english

Выбирает маркеризатор стемминга Lucene Snowball для английского языка.

finnish

Выбирает токенизатор стемминга Lucene Snowball для финского языка.

french

Выбирает маркеризатор стемминга Lucene Snowball для французского языка.

german

Выбирает маркеризатор стемминга Lucene Snowball для немецкого языка.

german2

Выбирает маркеризатор стемминга Lucene Snowball, использующий немецкий вариант алгоритма.

hungarian

Выбирает маркеризатор стемминга Lucene Snowball для венгерского языка.

italian

Выбирает токенизатор стемминга Lucene Snowball для итальянского языка.

kp

Выбирает маркеризатор стемминга Lucene Snowball для голландского языка, использующий алгоритм Kraaij-Pohlmann стемминга.

lovins

Выбирает маркеризатор стемминга Lucene Snowball для английского языка, использующий алгоритм выделения корней Lovins.

norwegian

Выбирает маркеризатор стемминга Lucene Snowball для норвежского языка.

porter

Выбирает маркеризатор стемминга Lucene Snowball для английского языка, использующий алгоритм выделения корней Портера.

portuguese

Выбирает токенизатор стемминга Lucene Snowball для португальского языка.

romanian

Выбирает токенизатор стеблей Lucene Snowball для румынского языка.

russian

Выбирает стемминг-токенизатор Lucene Snowball для русского языка.

spanish

Выбирает маркеризатор стемминга Lucene Snowball для испанского языка.

swedish

Выбирает маркеризатор стемминга Lucene Snowball для шведского языка.

turkish

Выбирает маркеризатор стемминга Lucene Snowball для турецкого языка.

StemmerOverrideTokenFilter

Предоставляет возможность переопределения других фильтров стемминга с помощью пользовательского стемминга на основе словаря. Любые термины из словаря будут помечены как ключевые слова, чтобы они не были связаны со стеммерами вниз по цепочке. Необходимо размещать перед любыми фильтрами для стемминга. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

rules

string[]

Список правил стемминга в формате: "word => stem", например: "ran => run".

StemmerTokenFilter

Фильтр стемминга для конкретного языка. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

StemmerTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров парадигматического модуля.

Значение Описание
arabic

Выбирает маркеризатор выделения корней Lucene для арабского языка.

armenian

Выбирает токенизатор выделения корней Lucene для армянского языка.

basque

Выбирает разметчик корневых маркеров Lucene для баскского языка.

brazilian

Выбирает токенизатор выделения корней Lucene для португальского языка (Бразилия).

bulgarian

Выбирает токенизатор ценового стемминга для болгарского языка.

catalan

Выбирает токенизатор выделения стволов Lucene для каталанского языка.

czech

Выбирает токенизатор корневых токенов Lucene для чешского языка.

danish

Выбирает разметчик корневых маркеров Lucene для датского языка.

dutch

Выбирает разметчик выделения корней Lucene для голландского языка.

dutchKp

Выбирает маркеризатор выделения корней Lucene для голландского языка, использующий алгоритм Kraaij-Pohlmann стемминга.

english

Выбирает маркеризатор корневых маркеров Lucene для английского языка.

lightEnglish

Выбирает маркеризатор выделения корней Lucene для английского языка, который выполняет выделение светлых стеммингов.

minimalEnglish

Выбирает маркеризатор выделения корней Lucene для английского языка, который выполняет минимальное выделение корней.

possessiveEnglish

Выбирает маркеризатор корневых слов Lucene для английского языка, который удаляет завершающие притяжательные падежи из слов.

porter2

Выбирает разметчик выделения корней Lucene для английского языка, использующий алгоритм стемминга Porter2.

lovins

Выбирает маркеризатор корней Lucene для английского языка, использующий алгоритм выделения корней Lovins.

finnish

Выбирает маркеризатор выделения корней Lucene для финского языка.

lightFinnish

Выбирает токенизатор стемминга Lucene для финского языка, который выполняет светлый стемминг.

french

Выбирает маркеризатор выделения корней Lucene для французского языка.

lightFrench

Выбирает маркеризатор выделения корней Lucene для французского языка, который выполняет легкое выделение стеблей.

minimalFrench

Выбирает разметчик выделения корней Lucene для французского языка, который выполняет минимальное выделение корней.

galician

Выбирает маркеризатор корневых токенов Lucene для галисийского языка.

minimalGalician

Выбирает разметчик стемминга Lucene для Galician, который выполняет минимальное стеммирование.

german

Выбирает маркеризатор корневых маркеров Lucene для немецкого языка.

german2

Выбирает маркеризатор выделения корней Lucene, использующий немецкий вариант алгоритма.

lightGerman

Выбирает маркеризатор выделения корней Lucene для немецкого языка, который выполняет легкое выделение корней.

minimalGerman

Выбирает разметчик выделения корней Lucene для немецкого языка, который выполняет минимальное выделение корней.

greek

Выбирает маркеризатор корней Lucene для греческого языка.

hindi

Выбирает маркеризатор выделения корней Lucene для хинди.

hungarian

Выбирает маркеризатор корневых маркеров Lucene для венгерского языка.

lightHungarian

Выбирает токенизатор выделения стеблей Lucene для венгерского языка, который выполняет светлый стемминг.

indonesian

Выбирает маркеризатор выделения корней Lucene для индонезийского языка.

irish

Выбирает маркеризатор корневых маркеров Lucene для ирландского языка.

italian

Выбирает токенизатор выделения корней Lucene для итальянского языка.

lightItalian

Выбирает токенизатор Lucene для итальянского языка, который выполняет светлый стемминг.

sorani

Выбирает маркеризатор корней Lucene для Sorani.

latvian

Выбирает стемминг-токенизатор Lucene для латышского языка.

norwegian

Выбирает токенизатор выделения корней Lucene для норвежского языка (букмол).

lightNorwegian

Выбирает маркеризатор выделения корней Lucene для норвежского языка (букмол), который выполняет выделение светлых стеммингов.

minimalNorwegian

Выбирает маркеризатор выделения корней Lucene для норвежского языка (Bokmål), который выполняет минимальное выделение корней.

lightNynorsk

Выбирает маркеризатор выделения корней Lucene для норвежского языка (Nynorsk), который выполняет выделение светлых стеммингов.

minimalNynorsk

Выбирает разметчик выделения корней Lucene для норвежского языка (Nynorsk), который выполняет минимальное выделение корней.

portuguese

Выбирает маркеризатор выделения корней Lucene для португальского языка.

lightPortuguese

Выбирает маркеризатор выделения корней Lucene для португальского языка, который выполняет светлый стемминг.

minimalPortuguese

Выбирает токенизатор выделения корней Lucene для португальского языка, который выполняет минимальное выделение корней.

portugueseRslp

Выбирает разметчик выделения корней Lucene для португальского языка, использующий алгоритм выделения корней RSLP.

romanian

Выбирает токенизатор выделения корней Lucene для румынского языка.

russian

Выбирает стемминг-токенизатор Lucene для русского языка.

lightRussian

Выбирает токенизатор ценового стемминга для русского языка, который выполняет светлый стемминг.

spanish

Выбирает разметчик выделения корней Lucene для испанского языка.

lightSpanish

Выбирает маркеризатор стемминга Lucene для испанского языка, который выполняет светлый стемминг.

swedish

Выбирает разметчик корневых маркеров Lucene для шведского языка.

lightSwedish

Выбирает разметчик выделения стемминга Lucene для шведского языка, который выполняет светлый стемминг.

turkish

Выбирает маркеризатор корневых токенов Lucene для турецкого языка.

StopAnalyzer

Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. Данный анализатор реализован с использованием Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Фрагмент URI, указывающий тип анализатора.

name

string

Название анализатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

stopwords

string[]

Список стоп-слов.

StopwordsList

Определяет предопределенный список стоп-слов для конкретного языка.

Значение Описание
arabic

Выбор списка стоп-слов для арабского языка.

armenian

Выбор списка стоп-слов для армянского языка.

basque

Выбирает список стоп-слов для баскского языка.

brazilian

Выбор списка стоп-слов для португальского языка (Бразилия).

bulgarian

Выбирает список стоп-слов для болгарского языка.

catalan

Выбирает список стоп-слов для каталанского языка.

czech

Выбор списка стоп-слов для чешского языка.

danish

Выбор списка стоп-слов для датского языка.

dutch

Выбор списка стоп-слов для голландского языка.

english

Выбор списка стоп-слов для английского языка.

finnish

Выбор списка стоп-слов для финского языка.

french

Выбор списка стоп-слов для французского языка.

galician

Выбирает список стоп-слов для галисийского языка.

german

Выбор списка стоп-слов для немецкого языка.

greek

Выбор списка стоп-слов для греческого языка.

hindi

Выбор списка стоп-слов для хинди.

hungarian

Выбирает список стоп-слов для венгерского языка.

indonesian

Выбор списка стоп-слов для индонезийского языка.

irish

Выбор списка стоп-слов для ирландского языка.

italian

Выбор списка стоп-слов для итальянского языка.

latvian

Выбирает список стоп-слов для латышского языка.

norwegian

Выбор списка стоп-слов для норвежского языка.

persian

Выбор списка стоп-слов для персидского языка.

portuguese

Выбор списка стоп-слов для португальского языка.

romanian

Выбирает список стоп-слов для румынского языка.

russian

Выбирает список стоп-слов для русского языка.

sorani

Выбор списка стоп-слов для Sorani.

spanish

Выбор списка стоп-слов для испанского языка.

swedish

Выбор списка стоп-слов для шведского языка.

thai

Выбирает список стоп-слов для тайского языка.

turkish

Выбирает список стоп-слов для турецкого языка.

StopwordsTokenFilter

Удаляет стоп-слова из потока токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение, указывающее, следует ли игнорировать регистр. Если true, все слова сначала преобразуются в нижний регистр. По умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

removeTrailing

boolean

True

Значение, указывающее, следует ли игнорировать последний поисковый запрос, если это стоп-слово. Значение по умолчанию — истинно.

stopwords

string[]

Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы.

stopwordsList

StopwordsList

english

Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов не могут быть заданы. По умолчанию используется английский язык.

Suggester

Определяет, как API Suggest должен применяться к группе полей в индексе.

Имя Тип Описание
name

string

Имя автора предложения.

searchMode

SuggesterSearchMode

Значение, указывающее на возможности средства подбора.

sourceFields

string[]

Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступно для поиска.

SuggesterSearchMode

Значение, указывающее на возможности средства подбора.

Значение Описание
analyzingInfixMatching

Сопоставляет последовательные целые термины и префиксы в поле. Например, для поля «Самая быстрая коричневая лиса» запросы «быстрый» и «самый быстрый бровь» будут совпадать.

SynonymTokenFilter

Сопоставление синонимов из одного или нескольких слов в потоке токенов. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

expand

boolean

True

Значение, указывающее, будут ли все слова в списке синонимов (если нотация => не используется) сопоставлены друг с другом. Если true, то все слова в списке синонимов (если нотация => не используется) будут сопоставлены друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если false, то следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — истинно.

ignoreCase

boolean

False

Значение, указывающее, следует ли складывать регистр для сопоставления. По умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

synonyms

string[]

Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины в левой части символа => будут заменены на все термины в его правой части; 2. Невероятное, невероятное, потрясающее, удивительное - список равнозначных слов через запятую. Установите параметр expand, чтобы изменить способ интерпретации этого списка.

TagScoringFunction

Определяет функцию, которая повышает баллы документов со строковыми значениями, соответствующими заданному списку тегов.

Имя Тип Описание
boost

number (double)

Множитель для исходного счета. Должно быть положительное число, не равное 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции подсчета очков.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как бустинг будет интерполирован по оценкам документа; по умолчанию имеет значение "Linear".

tag

TagScoringParameters

Значения параметров для функции оценки тегов.

type string:

tag

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть в нижнем регистре.

TagScoringParameters

Предоставляет значения параметров для функции оценки тегов.

Имя Тип Описание
tagsParameter

string

Имя параметра, передаваемого в поисковых запросах для указания списка тегов для сравнения с целевым полем.

TextWeights

Определяет веса в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.

Имя Тип Описание
weights

object

Словарь весовых коэффициентов для каждого поля для повышения оценки документа. Ключи — это имена полей, а значения — веса для каждого поля.

TokenCharacterKind

Представляет классы символов, над которыми может работать фильтр маркеров.

Значение Описание
letter

Хранит буквы в токенах.

digit

Хранит цифры в токенах.

whitespace

Сохраняет пробелы в токенах.

punctuation

Сохраняет знаки препинания в токенах.

symbol

Хранит символы в токенах.

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

Значение Описание
arabic_normalization

Фильтр маркеров, который применяет арабский нормализатор для нормализации орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Удаляет все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Нормализует разницу в ширине CJK. Сворачивает варианты ASCII полной ширины в эквивалентную базовую латиницу, а варианты катаканы половинной ширины в эквивалентную кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Удаляет английские притяжательные падежи и точки из аббревиатур. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Нормализует немецкие символы в соответствии с эвристикой алгоритма снежного кома German2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Нормализует текст на хинди, чтобы устранить некоторые различия в вариантах написания. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Нормализует представление текста в Юникоде на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Выдает каждый входящий токен дважды, один раз как ключевое слово и один раз как не-ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Удаляет слишком длинные или слишком короткие слова. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ограничивает количество токенов при индексации. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Нормализует текст лексемы в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Генерирует n-грамм заданного размера (размеров). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Создание жетонов для фонетических соответствий. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Использует алгоритм выделения корней Porter для преобразования потока маркеров. См. http://tartarus.org/~martin/PorterStemmer

reverse

Переворачивает строку токена. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Складывает скандинавские символы еЕааэАЭ-a> и öЕøЕØ-o>. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Создает комбинации жетонов как один жетон. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Фильтр стемминга для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Удаляет стоп-слова из потока токенов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Обрезает начальные и конечные пробелы из лекс. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Усекает термины до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Нормализует текст токена в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов.

TruncateTokenFilter

Усекает термины до определенной длины. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

length

integer (int32)

maximum: 300
300

Длина, по которой будут усечены сроки. По умолчанию и максимум - 300.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

UaxUrlEmailTokenizer

Токенизирует URL-адреса и адреса электронной почты как один токен. Этот токенизатор реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Фрагмент URI, указывающий тип генератора маркеров.

maxTokenLength

integer (int32)

maximum: 300
255

Максимальная длина токена. По умолчанию 255. Фишки длиннее максимальной длины разделяются. Максимальная длина токена, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

UniqueTokenFilter

Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

onlyOnSamePosition

boolean

False

Значение, указывающее, следует ли удалять дубликаты только в одной и той же позиции. По умолчанию — false.

VectorEncodingFormat

Формат кодировки для интерпретации содержимого векторных полей.

Значение Описание
packedBit

Формат кодирования, представляющий биты, упакованные в более широкий тип данных.

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

Имя Тип Описание
algorithms VectorSearchAlgorithmConfiguration[]:

Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса.

compressions VectorSearchCompressionConfiguration[]:

Содержит параметры конфигурации, относящиеся к методу сжатия, используемому во время индексирования или запроса.

profiles

VectorSearchProfile[]

Определяет комбинации конфигураций для использования с векторным поиском.

vectorizers VectorSearchVectorizer[]:

Содержит параметры конфигурации для векторизации текстовых векторных запросов.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и запросов.

Значение Описание
hnsw

HNSW (Hierarchical Navigable Small World) — тип алгоритма приближенных ближайших соседей.

exhaustiveKnn

Исчерпывающий алгоритм KNN, который будет выполнять перебор паролей.

VectorSearchAlgorithmMetric

Метрика сходства, используемая для векторных сравнений. Рекомендуется выбрать ту же метрику подобия, на которой обучалась модель встраивания.

Значение Описание
cosine

Измеряет угол между векторами для количественной оценки их сходства, не обращая внимания на величину. Чем меньше угол, тем ближе сходство.

euclidean

Вычисляет расстояние по прямой между векторами в многомерном пространстве. Чем меньше расстояние, тем ближе сходство.

dotProduct

Вычисляет сумму произведений по элементам для измерения выравнивания и сходства величин. Чем больше и позитивнее, тем ближе сходство.

hamming

Применимо только к битовым двоичным типам данных. Определяет несходство путем подсчета различных положений в двоичных векторах. Чем меньше различий, тем ближе сходство.

VectorSearchCompressionKind

Метод сжатия, используемый для индексирования и запросов.

Значение Описание
scalarQuantization

Скалярное квантование — разновидность метода сжатия. При скалярном квантовании исходные значения векторов сжимаются до более узкого типа путем дискретизации и представления каждого компонента вектора с использованием сокращенного набора квантованных значений, тем самым уменьшая общий размер данных.

binaryQuantization

Двоичное квантование — разновидность метода сжатия. При двоичном квантовании исходные значения векторов сжимаются до более узкого двоичного типа путем дискретизации и представления каждого компонента вектора с помощью двоичных значений, тем самым уменьшая общий размер данных.

VectorSearchCompressionRescoreStorageMethod

Метод хранения исходных векторов полной точности, используемых для восстановления и операций с внутренними индексами.

Значение Описание
preserveOriginals

Этот параметр сохраняет исходные векторы полной точности. Выберите этот вариант для максимальной гибкости и высочайшего качества сжатых результатов поиска. Это потребляет больше места, но позволяет проводить повторную и избыточную выборку.

discardOriginals

Этот вариант отбрасывает исходные векторы полной точности. Выберите этот вариант для максимальной экономии памяти. Поскольку этот вариант не допускает повторения и избыточной дискретизации, он часто приводит к незначительному или умеренному снижению качества.

VectorSearchCompressionTargetDataType

Квантованный тип данных сжатых векторных значений.

Значение Описание
int8

VectorSearchProfile

Определяет комбинацию конфигураций для использования с векторным поиском.

Имя Тип Описание
algorithm

string

Имя конфигурации алгоритма векторного поиска, которая определяет алгоритм и необязательные параметры.

compression

string

Имя конфигурации метода сжатия, указывающей метод сжатия и необязательные параметры.

name

string

Имя, которое будет связано с этим конкретным профилем векторного поиска.

vectorizer

string

Имя векторизации, настраиваемой для использования с векторным поиском.

VectorSearchVectorizerKind

Метод векторизации, который будет использоваться во время запроса.

Значение Описание
azureOpenAI

Создание внедрений с помощью ресурса Azure OpenAI во время запроса.

customWebApi

Создавайте встраивания с помощью пользовательской веб-конечной точки во время запроса.

WebApiParameters

Задает свойства для подключения к определенному пользователем векторизатору.

Имя Тип Описание
authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. Если указан authResourceId, но он не указан, используется управляемое удостоверение, назначенное системой. При обновлении индексатора, если идентификатор не указан, значение остается неизменным. Если установлено значение "none", значение этого свойства очищается.

authResourceId

string

Применяется к пользовательским конечным точкам, которые подключаются к внешнему коду в функции Azure или другом приложении, выполняющем преобразования. Это значение должно быть идентификатором приложения, созданным для функции или приложения при его регистрации в Azure Active Directory. Если указано, векторизация подключается к функции или приложению с помощью управляемого идентификатора (системного или назначаемого пользователем) службы поиска и маркера доступа функции или приложения, используя это значение в качестве идентификатора ресурса для создания области маркера доступа.

httpHeaders

object

Заголовки, необходимые для выполнения HTTP-запроса.

httpMethod

string

Метод для HTTP-запроса.

timeout

string (duration)

Требуемое время ожидания для запроса. Значение по умолчанию — 30 секунд.

uri

string (uri)

URI веб-API, предоставляющего векторизатор.

WebApiVectorizer

Указывает определяемый пользователем векторизатор для создания векторного встраивания строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса Web API набора навыков.

Имя Тип Описание
customWebApiParameters

WebApiParameters

Задает свойства определяемого пользователем векторизатора.

kind string:

customWebApi

Название метода векторизации, который настраивается для использования с векторным поиском.

name

string

Имя, которое будет ассоциироваться с этим конкретным методом векторизации.

WordDelimiterTokenFilter

Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов. Этот фильтр маркеров реализован с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

catenateAll

boolean

False

Значение, указывающее, будут ли объединены все части подслова. Например, если задано значение true, "Azure-Search-1" становится "AzureSearch1". По умолчанию — false.

catenateNumbers

boolean

False

Значение, указывающее, будет ли катенировано максимальное количество прогонов числовых частей. Например, если для этого параметра задано значение true, "1-2" становится "12". По умолчанию — false.

catenateWords

boolean

False

Значение, указывающее, будет ли сочленено максимальное количество прогонов частей слова. Например, если задано значение true, "Azure-Search" становится "AzureSearch". По умолчанию — false.

generateNumberParts

boolean

True

Значение, указывающее, следует ли создавать числовые подслова. Значение по умолчанию — истинно.

generateWordParts

boolean

True

Значение, указывающее, следует ли создавать слова деталей. Если задано, то генерируются части слов; например, "AzureSearch" становится "Azure" "Search". Значение по умолчанию — истинно.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, тире или символы подчеркивания, может начинаться и заканчиваться только буквенно-цифровыми символами и ограничен 128 символами.

preserveOriginal

boolean

False

Значение, указывающее, будут ли исходные слова сохранены и добавлены в список подслов. По умолчанию — false.

protectedWords

string[]

Список токенов, которые необходимо защитить от разграничивания.

splitOnCaseChange

boolean

True

Значение, указывающее, следует ли разделять слова на caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Search". Значение по умолчанию — истинно.

splitOnNumerics

boolean

True

Значение, указывающее, следует ли разбивать на числа. Например, если задано значение true, "Azure1Search" становится "Azure", "1", "Search". Значение по умолчанию — истинно.

stemEnglishPossessive

boolean

True

Значение, указывающее, следует ли удалять конечные "'s" для каждого подслова. Значение по умолчанию — истинно.