Поделиться через


LexicalTokenizerName type

Определяет значения для LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> можно использовать взаимозаменяемо с LexicalTokenizerName, этот перечисление содержит известные значения, поддерживаемые службой.

Известные значения, поддерживаемые службой

классический: токенизатор на основе грамматики, подходящий для обработки большинства документов на языке Европы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram: маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2: выводит весь вход в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
буквы: делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
строчные: делит текст на небуквенный и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer: разделяет текст с помощью правил, относящихся к языку.
microsoft_language_stemming_tokenizer: разделяет текст с помощью правил, относящихся к языку, и сокращает их базовые формы.
nGram: маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2: токенизатор для иерархий, похожих на путь. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
шаблон: токенизатор, использующий шаблон регулярного выражения для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2: анализатор Standard Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email: маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
пробелов: делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

type LexicalTokenizerName = string