Основы эмбеддингов в Azure OpenAI в моделях Microsoft Foundry (классические)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Примечание

Ссылки в этой статье могут открывать содержимое в новой документации Microsoft Foundry вместо документации Foundry (классической), которую вы просматриваете сейчас.

Внедрение — это специальный формат представления данных, который модели машинного обучения и алгоритмы могут легко использовать. Эмбеддинг является информационно плотным представлением семантического значения фрагмента текста. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, то их векторные представления также должны быть похожими. Эмбеддинги обеспечивают векторный поиск по сходству в системах поиска, таких как Поиск с использованием ИИ Azure (рекомендуется), а также в базах данных Azure, таких как Azure Cosmos DB for MongoDB vCore, База данных SQL Azure и База данных Azure для PostgreSQL - Flexible Server.

Внедрение моделей

Внедрение упрощает машинное обучение для больших входных данных, представляющих слова, записывая семантические сходства в векторном пространстве. Таким образом, можно использовать эмбеддинги, чтобы определить, связаны ли два фрагмента текста семантически или схожи, и предоставить оценку степени сходства.

Косинусное сходство

Azure эмбеддинги OpenAI часто полагаются на косинусное сходство для вычисления сходства между документами и запросом.

С математической точки зрения, мера сходства по косинусу измеряет косинус угла между двумя векторами, проецируемыми в многомерное пространство. Это измерение полезно, потому что, если два документа далеки друг от друга по евклидовому расстоянию из-за размера, они все же могут иметь меньший угол между ними и, следовательно, более высокое косинусное сходство. Дополнительные сведения о уравнениях косинусного сходства см. в Косинусное сходство.

Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.

Дальнейшие действия

Узнайте больше об использовании Azure OpenAI и эмбеддингов для поиска по документам с помощью нашего руководства по embeddings.
Храните векторные представления и выполняйте поиск по векторному сходству с помощью Azure Cosmos DB для MongoDB vCore, Azure Cosmos DB для NoSQL, База данных SQL Azure или База данных Azure для PostgreSQL — Flexible Server.
Использование Ивентхауса в аналитике в режиме реального времени в Microsoft Fabric в качестве базы данных Vector
- Используйте функцию series_cosine_similarity для поиска сходства.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-06