Поделиться через


Общие сведения о внедрении в Azure OpenAI в microsoft Foundry Models (классическая модель)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Внедрение — это специальный формат представления данных, который machine learning модели и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрение поиска сходства вектора питания в системах извлечения, таких как Azure AI Search (рекомендуется) и в базах данных Azure, таких как Azure Cosmos DB для виртуальных ядер MongoDB, Azure SQL Database и Azure Database for PostgreSQL — гибкий сервер.

Внедрение моделей

Встраивания упрощают применение машинного обучения к большим входным данным, представляющим слова, захватывая семантические сходства в пространстве векторов. Таким образом, можно использовать эмбеддинги, чтобы определить, связаны ли два фрагмента текста семантически или похожи, и предоставить показатель для оценки сходства.

Косинусное сходство

Azure внедрения OpenAI часто полагаются на сходство косинуса для вычисления сходства между документами и запросом.

С математической точки зрения, косинусная мера сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерном пространстве. Это измерение полезно, потому что если два документа далеко друг от друга по евклидовому расстоянию по причине размера, они тем не менее могут иметь меньший угол между ними и, следовательно, более высокое косинусное сходство. Дополнительные сведения об уравнениях косинусного сходства см. в статье Косинусное сходство.

Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.

Дальнейшие шаги