Поделиться через


Indexes - Analyze

Показывает, как анализатор разбивает текст на лексемы.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Название индекса, по которому будет тестироваться анализатор.

api-version
query True

string

Версия клиентского API.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string (uuid)

Идентификатор отслеживания, отправленный вместе с запросом на помощь в отладке.

Текст запроса

Имя Обязательно Тип Описание
text True

string

Текст разбивается на токены.

analyzer

LexicalAnalyzerName

Имя анализатора, который будет использоваться для разрыва заданного текста. Если этот параметр не указан, необходимо указать генератор маркеров. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, которые будут использоваться при разрыве заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

tokenFilters

TokenFilterName[]

Необязательный список фильтров токенов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

Ответы

Имя Тип Описание
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Ответ на ошибку.

Примеры

SearchServiceIndexAnalyze

Образец запроса

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Пример ответа

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Определения

Имя Описание
AnalyzedTokenInfo

Информация о токене, возвращаемом анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбивки этого текста на маркеры.

AnalyzeResult

Результат тестирования анализатора на тексте.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Ответ на ошибку

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

AnalyzedTokenInfo

Информация о токене, возвращаемом анализатором.

Имя Тип Описание
endOffset

integer (int32)

Индекс последнего символа лексемы в входном тексте.

position

integer (int32)

Положение токена во входном тексте относительно других токенов. Первая лексема во входном тексте имеет позицию 0, следующая — позицию 1 и так далее. В зависимости от используемого анализатора, некоторые лексемы могут иметь одинаковое положение, например, если они являются синонимами друг друга.

startOffset

integer (int32)

Индекс первого символа лексемы во входном тексте.

token

string

Токен, возвращаемый анализатором.

AnalyzeRequest

Указывает некоторые компоненты текста и анализа, используемые для разбивки этого текста на маркеры.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, который будет использоваться для разрыва заданного текста. Если этот параметр не указан, необходимо указать генератор маркеров. Параметры токенизатора и анализатора являются взаимоисключающими.

charFilters

CharFilterName[]

Необязательный список фильтров символов, которые будут использоваться при разрыве заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.

normalizer

LexicalNormalizerName

Имя нормализатора, используемого для нормализации заданного текста.

text

string

Текст разбивается на токены.

tokenFilters

TokenFilterName[]

Необязательный список фильтров токенов, используемых при разрыве заданного текста. Этот параметр можно задать только при использовании параметра tokenizer.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разрыва заданного текста. Если этот параметр не указан, необходимо указать анализатор. Параметры токенизатора и анализатора являются взаимоисключающими.

AnalyzeResult

Результат тестирования анализатора на тексте.

Имя Тип Описание
tokens

AnalyzedTokenInfo[]

Список токенов, возвращаемых анализатором, указанный в запросе.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Значение Описание
html_strip

Фильтр символов, который пытается отсечь конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительная информация.

type

string

Тип дополнительной информации.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Ошибка дополнительная информация.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Цель ошибки.

ErrorResponse

Ответ на ошибку

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Значение Описание
ar.microsoft

Анализатор Microsoft для арабского языка.

ar.lucene

Анализатор Lucene для арабского языка.

hy.lucene

Анализатор Lucene для армянского языка.

bn.microsoft

Анализатор Microsoft для Bangla.

eu.lucene

Анализатор Lucene для баскского языка.

bg.microsoft

Анализатор Microsoft для болгарского языка.

bg.lucene

Анализатор люцин для болгарского языка.

ca.microsoft

Анализатор Microsoft для каталанского языка.

ca.lucene

Анализатор Lucene для каталанского языка.

zh-Hans.microsoft

Анализатор Microsoft для китайского языка (упрощенный).

zh-Hans.lucene

Анализатор Lucene для китайского языка (упрощенный).

zh-Hant.microsoft

Анализатор Microsoft для китайского языка (традиционный).

zh-Hant.lucene

Анализатор люцин для китайского языка (традиционный).

hr.microsoft

Анализатор Microsoft для хорватского языка.

cs.microsoft

Анализатор Microsoft для чешского языка.

cs.lucene

Анализатор Lucene для чешского языка.

da.microsoft

Анализатор Microsoft для датского языка.

da.lucene

Анализатор Lucene для датского языка.

nl.microsoft

Анализатор Microsoft для голландского языка.

nl.lucene

Анализатор Lucene для голландского языка.

en.microsoft

Анализатор Microsoft для английского языка.

en.lucene

Анализатор Lucene для английского языка.

et.microsoft

Анализатор Microsoft для эстонского языка.

fi.microsoft

Анализатор Microsoft для финского языка.

fi.lucene

Анализатор Lucene для финского языка.

fr.microsoft

Анализатор Microsoft для французского языка.

fr.lucene

Анализатор Lucene для французского языка.

gl.lucene

Анализатор Lucene для галисийского языка.

de.microsoft

Анализатор Microsoft для немецкого языка.

de.lucene

Анализатор Lucene для немецкого языка.

el.microsoft

Анализатор Microsoft для греческого языка.

el.lucene

Анализатор Lucene для греческого языка.

gu.microsoft

Анализатор Microsoft для гуджарати.

he.microsoft

Анализатор Microsoft для иврита.

hi.microsoft

Анализатор Microsoft для хинди.

hi.lucene

Анализатор Lucene для хинди.

hu.microsoft

Анализатор Microsoft для венгерского языка.

hu.lucene

Анализатор Lucene для венгерского языка.

is.microsoft

Анализатор Microsoft для исландского.

id.microsoft

Анализатор Microsoft для индонезийского языка (Bahasa).

id.lucene

Анализатор Lucene для индонезийского языка.

ga.lucene

Анализатор Lucene для ирландцев.

it.microsoft

Анализатор Microsoft для итальянского языка.

it.lucene

Анализатор Lucene для итальянского языка.

ja.microsoft

Анализатор Microsoft для японского языка.

ja.lucene

Анализатор Lucene для японского языка.

kn.microsoft

Анализатор Microsoft для Kannada.

ko.microsoft

Анализатор Microsoft для корейского языка.

ko.lucene

Анализатор Lucene для корейского языка.

lv.microsoft

Анализатор Microsoft для латышского языка.

lv.lucene

Анализатор Lucene для латышского языка.

lt.microsoft

Анализатор Microsoft для литовского языка.

ml.microsoft

Анализатор Microsoft для малаялам.

ms.microsoft

Анализатор Microsoft для малайского языка (латиницы).

mr.microsoft

Анализатор Microsoft для маратхи.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Анализатор Lucene для норвежского языка.

fa.lucene

Анализатор Lucene для персидского языка.

pl.microsoft

Анализатор Microsoft для польского языка.

pl.lucene

Анализатор Lucene для польского языка.

pt-BR.microsoft

Анализатор Microsoft для португальского языка (Бразилия).

pt-BR.lucene

Анализатор Lucene для португальского языка (Бразилия).

pt-PT.microsoft

Анализатор Microsoft для португальского языка (Португалия).

pt-PT.lucene

Анализатор Lucene для португальского языка (Португалия).

pa.microsoft

Анализатор Microsoft для пенджаби.

ro.microsoft

Анализатор Microsoft для румынского языка.

ro.lucene

Анализатор Lucene для румынского языка.

ru.microsoft

Анализатор Microsoft для русского языка.

ru.lucene

Анализатор люцин для русского языка.

sr-cyrillic.microsoft

Анализатор Microsoft для сербского языка (кириллица).

sr-latin.microsoft

Анализатор Microsoft для сербского языка (латиница).

sk.microsoft

Анализатор Microsoft для словацкого языка.

sl.microsoft

Анализатор Microsoft для словенского языка.

es.microsoft

Анализатор Microsoft для испанского языка.

es.lucene

Анализатор Lucene для испанского языка.

sv.microsoft

Анализатор Microsoft для шведского языка.

sv.lucene

Анализатор Lucene для шведского языка.

ta.microsoft

Анализатор Microsoft для тамильского языка.

te.microsoft

Анализатор Microsoft для телугу.

th.microsoft

Анализатор Microsoft для тайского языка.

th.lucene

Анализатор Lucene для тайского языка.

tr.microsoft

Анализатор Microsoft для турецкого языка.

tr.lucene

Анализатор Lucene для турецкого языка.

uk.microsoft

Анализатор Microsoft для украинского языка.

ur.microsoft

Анализатор Microsoft для урду.

vi.microsoft

Анализатор Microsoft для вьетнамского языка.

standard.lucene

Стандартный анализатор люцина.

standardasciifolding.lucene

Стандартный ASCII Folding Lucene analyzer. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Обрабатывает все содержимое поля как единый маркер. Это полезно для таких данных, как почтовые индексы, идентификаторы и названия некоторых продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Гибко разделяет текст на термины с помощью шаблона регулярных выражений. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Разделяет текст на небуквенные буквы и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Разделяет текст по небуквам; Применяет фильтры маркеров нижнего регистра и стоп-слов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Анализатор, использующий генератор маркеров пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.

Значение Описание
asciifolding

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Нормализует текст лексемы в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Стандартный нормализатор, который состоит из строчных и асцифульдных. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Нормализует текст токена в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Значение Описание
classic

Токенизатор на основе грамматики, который подходит для обработки большинства документов на европейском языке. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Размечает входные данные от ребра в n-граммах заданного размера. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Выдает все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Разделяет текст на небуквы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Разделяет текст на небуквенные буквы и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Делит текст с помощью правил, зависящих от языка.

microsoft_language_stemming_tokenizer

Делит текст с помощью правил, специфичных для языка, и сокращает слова до их базовых форм.

nGram

Токенизирует входные данные в n-граммах заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Генератор маркеров для иерархий, подобных путям. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Генератор маркеров, использующий сопоставление шаблонов регулярных выражений для создания отдельных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Стандартный анализатор люцина; Состоит из стандартного токенизатора, фильтра в нижнем регистре и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Токенизирует URL-адреса и адреса электронной почты как один токен. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Разделяет текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Определяет имена всех фильтров токенов, поддерживаемых поисковой системой.

Значение Описание
arabic_normalization

Фильтр маркеров, который применяет арабский нормализатор для нормализации орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Удаляет все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Преобразует буквенные, цифровые и символьные символы Юникода, отсутствующие в первых 127 символах ASCII (блок Юникода "Basic Latin"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Формирует биграммы терминов CJK, которые генерируются из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Нормализует разницу в ширине CJK. Сворачивает варианты ASCII полной ширины в эквивалентную базовую латиницу, а варианты катаканы половинной ширины в эквивалентную кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Удаляет английские притяжательные падежи и точки из аббревиатур. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Построение биграмм для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Генерирует n-грамм заданного размера (размеров), начиная с лицевой или обратной стороны входного токена. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Убирает элизии. Например, "l'avion" (самолет) будет преобразовано в "avion" (самолет). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Нормализует немецкие символы в соответствии с эвристикой алгоритма снежного кома German2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Нормализует текст на хинди, чтобы устранить некоторые различия в вариантах написания. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Нормализует представление текста в Юникоде на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Выдает каждый входящий токен дважды, один раз как ключевое слово и один раз как не-ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Удаляет слишком длинные или слишком короткие слова. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ограничивает количество токенов при индексации. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Нормализует текст лексемы в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Генерирует n-грамм заданного размера (размеров). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Создание жетонов для фонетических соответствий. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Использует алгоритм выделения корней Porter для преобразования потока маркеров. См. http://tartarus.org/~martin/PorterStemmer

reverse

Переворачивает строку токена. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Складывает скандинавские символы еЕааэАЭ-a> и öЕøЕØ-o>. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Создает комбинации жетонов как один жетон. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Фильтр, который выделяет слова с помощью стеммера, созданного методом Snowball. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Фильтр стемминга для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Удаляет стоп-слова из потока токенов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Обрезает начальные и конечные пробелы из лекс. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Усекает термины до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Отфильтровывает маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Нормализует текст токена в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Разбивает слова на подслова и выполняет необязательные преобразования для групп подслов.