Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Внедрение — это специальный формат представления данных, который модели машинного обучения и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Встраиваемые элементы обеспечивают поиск сходства вектора в системах извлечения, таких как рекомендованная Поиск ИИ Azure и в базах данных Azure, таких как Azure Cosmos DB для MongoDB vCore, База данных SQL Azure и База данных Azure для PostgreSQL — Гибкий сервер.
Внедрение моделей
Внедрение упрощает машинное обучение для больших входных данных, представляющих слова, записывая семантические сходства в векторном пространстве. Таким образом, можно использовать эмбеддинги, чтобы определить, связаны ли два фрагмента текста семантически или похожи, и предоставить показатель для оценки сходства.
Косинусное сходство
Встраивания Azure OpenAI часто зависят от косинусного сходства для вычисления сходства между документами и запросом.
С математической точки зрения, косинусная мера сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерном пространстве. Это измерение полезно, потому что если два документа далеко друг от друга по евклидовому расстоянию по причине размера, они тем не менее могут иметь меньший угол между ними и, следовательно, более высокое косинусное сходство. Дополнительные сведения об уравнениях косинусного сходства см. в статье Косинусное сходство.
Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.
Дальнейшие шаги
- Узнайте больше об использовании Azure OpenAI и эмбеддингов для выполнения поиска документов с помощью нашего руководства по эмбеддингам.
- Сохраните встраивания и выполняйте поиск по векторам (сходство) с помощью Azure Cosmos DB для MongoDB vCore, Azure Cosmos DB для NoSQL, Azure SQL Database или Azure Database for PostgreSQL — гибкий сервер.
- Использование хранилища событий в аналитике в режиме реального времени в Microsoft Fabric в качестве векторной базы данных
- Используйте функцию series_cosine_similarity для поиска сходства.