Векторы индексов и запросов в Azure Cosmos DB для NoSQL в Java

2025-04-11
Применяется к: ✅ NoSQL

В этой статье описывается процесс создания векторных данных, индексирования данных и последующего запроса данных в контейнере.

Прежде чем использовать индексирование и поиск векторов, необходимо сначала включить векторный поиск в Azure Cosmos DB для NoSQL. После настройки контейнера Azure Cosmos DB для поиска векторов создайте политику внедрения векторов. Затем вы добавите векторные индексы в политику индексирования контейнеров. Затем вы создадите контейнер с векторными индексами и политикой внедрения векторов. Наконец, выполняется векторный поиск хранимых данных.

Предварительные требования

Существующая учетная запись Azure Cosmos DB для NoSQL.
- Если у вас нет подписки Azure, попробуйте azure Cosmos DB для NoSQL бесплатно.
- Если у вас есть подписка Azure, создайте новую учетную запись Azure Cosmos DB для NoSQL.
Последняя версия пакета SDK Java для Azure Cosmos DB.

Включение функции

Чтобы включить векторный поиск Azure Cosmos DB для NoSQL, выполните следующие действия.

Перейдите на страницу ресурсов Azure Cosmos DB для NoSQL.
На левой панели в разделе "Параметры" выберите "Компоненты".
Выберите векторный поиск в Azure Cosmos DB для NoSQL.
Ознакомьтесь с описанием функции, чтобы убедиться, что вы хотите включить ее.
Выберите "Включить", чтобы включить векторный поиск в Azure Cosmos DB для NoSQL.

Совет

Кроме того, используйте Azure CLI, чтобы обновить возможности учетной записи для поддержки векторного поиска в Azure Cosmos DB для NoSQL.

az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch

Запрос на регистрацию автоматически одобряется, но на это может уйти 15 минут.

Общие сведения о шагах, связанных с векторным поиском

В следующих шагах предполагается, что вы знаете, как настроить учетную запись Azure Cosmos DB для NoSQL и создать базу данных. Функция поиска векторов в настоящее время не поддерживается в существующих контейнерах. Необходимо создать новый контейнер. При создании контейнера необходимо указать политику внедрения вектора на уровне контейнера и политику индексирования векторов.

Давайте рассмотрим пример создания базы данных для интернет-магазина книг. Вы хотите сохранить название, автор, ISBN и описание каждой книги. Кроме того, необходимо определить следующие два свойства, чтобы содержать векторные внедрения:

Свойство contentVector содержит вставки текста , созданные из текстового содержимого книги. Например, вы объединяете title, author, isbn свойства и description свойства перед созданием встраивания.
Свойство coverImageVector генерируется из изображений обложки книги.

Чтобы выполнить векторный поиск, выполните следующие действия.

Создайте и сохраните векторные внедрения для полей, в которых требуется выполнить поиск векторов.
Укажите пути векторного вложения в политике вложения векторов.
Включите все векторные индексы, которые требуется в политике индексирования для контейнера.

Для последующих разделов этой статьи рассмотрим следующую структуру для элементов, хранящихся в контейнере:

{
  "title": "book-title", 
  "author": "book-author", 
  "isbn": "book-isbn", 
  "description": "book-description", 
  "contentVector": [2, -1, 4, 3, 5, -2, 5, -7, 3, 1], 
  "coverImageVector": [0.33, -0.52, 0.45, -0.67, 0.89, -0.34, 0.86, -0.78] 
}

Сначала создайте CosmosContainerProperties объект.

CosmosContainerProperties collectionDefinition = new CosmosContainerProperties(UUID.randomUUID().toString(), "Partition_Key_Def");

Создайте политику встраивания вектора для вашего контейнера

Теперь необходимо определить политику вектора контейнера. Эта политика предоставляет сведения, которые сообщают обработчику запросов Azure Cosmos DB о том, как обрабатывать свойства векторов в системных VectorDistance функциях. Эта политика также предоставляет необходимые сведения для политики индексирования векторов, если вы решили указать ее.

Следующие сведения включаются в политику вектора контейнера:

Параметр	Описание
`path`	Путь свойства, содержащий векторы.
`datatype`	Тип элементов вектора. (Значение по умолчанию — `Float32`.)
`dimensions`	Длина каждого вектора в пути. (Значение по умолчанию — `1536`.)
`distanceFunction`	Метрика, используемая для вычисления расстояния или сходства. (Значение по умолчанию — `Cosine`.)

В примере с сведениями о книге политика вектора может выглядеть следующим образом:

// Creating vector embedding policy
CosmosVectorEmbeddingPolicy cosmosVectorEmbeddingPolicy = new CosmosVectorEmbeddingPolicy();

CosmosVectorEmbedding embedding1 = new CosmosVectorEmbedding();
embedding1.setPath("/coverImageVector");
embedding1.setDataType(CosmosVectorDataType.FLOAT32);
embedding1.setDimensions(8L);
embedding1.setDistanceFunction(CosmosVectorDistanceFunction.COSINE);

CosmosVectorEmbedding embedding2 = new CosmosVectorEmbedding();
embedding2.setPath("/contentVector");
embedding2.setDataType(CosmosVectorDataType.FLOAT32);
embedding2.setDimensions(10L);
embedding2.setDistanceFunction(CosmosVectorDistanceFunction.DOT_PRODUCT);

cosmosVectorEmbeddingPolicy.setCosmosVectorEmbeddings(Arrays.asList(embedding1, embedding2, embedding3));

collectionDefinition.setVectorEmbeddingPolicy(cosmosVectorEmbeddingPolicy);

Создание векторного индекса в политике индексирования

После принятия решения о путях внедрения векторов необходимо добавить векторные индексы в политику индексирования. В настоящее время функция поиска векторов для Azure Cosmos DB для NoSQL поддерживается только в новых контейнерах. При создании контейнера применяется политика вектора. Вы не можете изменить политику позже. Политика индексирования выглядит примерно так:

IndexingPolicy indexingPolicy = new IndexingPolicy();
indexingPolicy.setIndexingMode(IndexingMode.CONSISTENT);
ExcludedPath excludedPath1 = new ExcludedPath("/coverImageVector/*");
ExcludedPath excludedPath2 = new ExcludedPath("/contentVector/*");
indexingPolicy.setExcludedPaths(ImmutableList.of(excludedPath1, excludedPath2));

IncludedPath includedPath1 = new IncludedPath("/*");
indexingPolicy.setIncludedPaths(Collections.singletonList(includedPath1));

// Creating vector indexes
CosmosVectorIndexSpec cosmosVectorIndexSpec1 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec1.setPath("/coverImageVector");
cosmosVectorIndexSpec1.setType(CosmosVectorIndexType.QUANTIZED_FLAT.toString());

CosmosVectorIndexSpec cosmosVectorIndexSpec2 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec2.setPath("/contentVector");
cosmosVectorIndexSpec2.setType(CosmosVectorIndexType.DISK_ANN.toString());

indexingPolicy.setVectorIndexes(Arrays.asList(cosmosVectorIndexSpec1, cosmosVectorIndexSpec2, cosmosVectorIndexSpec3));

collectionDefinition.setIndexingPolicy(indexingPolicy);

Наконец, создайте контейнер с политикой индекса контейнера и политикой векторного индекса.

database.createContainer(collectionDefinition).block();

Внимание

Векторный путь добавляется в excludedPaths раздел политики индексирования, чтобы оптимизировать производительность при вставке. Не добавление пути вектора в excludedPaths приводит к увеличению платы за единицу запроса и задержке при вставке векторов.

Выполнение запроса поиска сходства векторов

После создания контейнера с необходимой политикой векторов и вставки в контейнер данных вектора используйте системную функцию VectorDistance в запросе для проведения векторного поиска.

Предположим, что вы хотите искать книги о рецептах пищи, глядя на описание. Сначала необходимо получить встраивание текста запроса. В этом случае может потребоваться создать эмбеддинги для текста запроса food recipe. После получения встраивания для вашего поискового запроса, его можно использовать в функции VectorDistance в векторном поисковом запросе, чтобы получить все элементы, похожие на ваш запрос.

SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10])

Этот запрос извлекает названия книг, а также оценки сходства в отношении вашего запроса. Ниже приведен пример в Java:

float[] embedding = new float[10];
for (int i = 0; i < 10; i++) {
    array[i] = i + 1;
}
ArrayList<SqlParameter> paramList = new ArrayList<SqlParameter>();
  paramList.add(new SqlParameter("@embedding", embedding));
  SqlQuerySpec querySpec = new SqlQuerySpec("SELECT c.title, VectorDistance(c.contentVector,@embedding) AS SimilarityScore  FROM c ORDER BY VectorDistance(c.contentVector,@embedding)", paramList);
  CosmosPagedIterable<Family> filteredFamilies = container.queryItems(querySpec, new CosmosQueryRequestOptions(), Family.class);

  if (filteredFamilies.iterator().hasNext()) {
      Family family = filteredFamilies.iterator().next();
      logger.info(String.format("First query result: Family with (/id, partition key) = (%s,%s)",family.getId(),family.getLastName()));
  }

Поделиться через