WeaviateStore

Weaviate 是一个开源的向量数据库，既可以存储对象也可以存储向量，允许将向量搜索与结构化过滤结合使用。LangChain 通过 weaviate-client 包连接到 Weaviate，这是 Weaviate 的官方 Typescript 客户端。

本指南提供了使用 Weaviate 向量存储的快速概述。如需详细了解所有 WeaviateStore 功能和配置，请访问 API 参考文档。

概述

集成详情

类	包	Python 支持	包的最新版本
`WeaviateStore`	`@langchain/weaviate`	✅

设置

要使用 Weaviate 向量存储，你需要先设置一个 Weaviate 实例并安装 @langchain/weaviate 集成包。你还应该安装 weaviate-client 包以初始化客户端来连接你的实例，以及安装 uuid 包（如果你希望为索引的文档分配 ID）。

本指南还将使用 OpenAI 嵌入模型，这需要你安装 @langchain/openai 集成包。如果需要，你也可以使用其他支持的嵌入模型。

:::提示请参阅安装集成包的一般说明部分。 :::

npm
yarn
pnpm

npm i @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

yarn add @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

pnpm add @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

你需要在本地或服务器上运行 Weaviate。更多信息请参阅 Weaviate 官方文档。

凭据

设置好实例后，请设置以下环境变量：

// 如果在本地运行，包含端口号，例如 "localhost:8080"
process.env.WEAVIATE_URL = "YOUR_WEAVIATE_URL";
// 可选，用于云部署
process.env.WEAVIATE_API_KEY = "YOUR_API_KEY";

如果你在本指南中使用 OpenAI 嵌入模型，还需要设置你的 OpenAI 密钥：

process.env.OPENAI_API_KEY = "YOUR_API_KEY";

如果你想对模型调用进行自动追踪，也可以通过取消注释以下内容来设置你的 LangSmith API 密钥：

// process.env.LANGSMITH_TRACING="true"
// process.env.LANGSMITH_API_KEY="your-api-key"

实例化

连接一个 Weaviate 客户端

在大多数情况下，你应该使用以下连接辅助函数之一来连接到你的 Weaviate 实例：

connectToWeaviateCloud
connectToLocal
connectToCustom

import { WeaviateStore } from "@langchain/weaviate";
import { OpenAIEmbeddings } from "@langchain/openai";
import weaviate from "weaviate-client";

const embeddings = new OpenAIEmbeddings({
  model: "text-embedding-3-small",
});

const weaviateClient = weaviate.connectToWeaviateCloud({
  clusterURL: process.env.WEAVIATE_URL!,
  options: {
    authCredentials: new weaviate.ApiKey(process.env.WEAVIATE_API_KEY || ""),
    headers: {
      "X-OpenAI-Api-Key": process.env.OPENAI_API_KEY || "",
      "X-Cohere-Api-Key": process.env.COHERE_API_KEY || "",
    },
  },
});

初始化向量存储

要创建集合，请至少指定集合名称。如果不指定任何属性，auto-schema 会自动创建它们。

const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  // Must start with a capital letter
  indexName: "Langchainjs_test",
});

要使用 Weaviate 的命名向量、向量化器、重排序器、生成模型等，请在启用向量存储时使用 schema 属性。创建向量存储时，schema 中的集合名称和其他属性将具有优先权。

const vectorStore = new WeaviateStore(embeddings, {
  client: weaviateClient,
  schema: {
    name: "Langchainjs_test",
    description: "A simple dataset",
    properties: [
      {
        name: "title",
        dataType: dataType.TEXT,
      },
      {
        name: "foo",
        dataType: dataType.TEXT,
      },
    ],
    vectorizers: [
      vectorizer.text2VecOpenAI({
        name: "title",
        sourceProperties: ["title"], // (Optional) Set the source property(ies)
        // vectorIndexConfig: configure.vectorIndex.hnsw()   // (Optional) Set the vector index configuration
      }),
    ],
    generative: weaviate.configure.generative.openAI(),
    reranker: weaviate.configure.reranker.cohere(),
  },
});

管理向量存储

向向量存储中添加项目

注意： 如果您希望将 ID 与索引的文档相关联，则这些 ID 必须是 UUID。

import type { Document } from "@langchain/core/documents";
import { v4 as uuidv4 } from "uuid";

const document1: Document = {
  pageContent: "The powerhouse of the cell is the mitochondria",
  metadata: { source: "https://example.com" },
};

const document2: Document = {
  pageContent: "Buildings are made out of brick",
  metadata: { source: "https://example.com" },
};

const document3: Document = {
  pageContent: "Mitochondria are made out of lipids",
  metadata: { source: "https://example.com" },
};

const document4: Document = {
  pageContent: "The 2024 Olympics are in Paris",
  metadata: { source: "https://example.com" },
};

const documents = [document1, document2, document3, document4];
const uuids = [uuidv4(), uuidv4(), uuidv4(), uuidv4()];

await vectorStore.addDocuments(documents, { ids: uuids });

[
  '610f9b92-9bee-473f-a4db-8f2ca6e3442d',
  '995160fa-441e-41a0-b476-cf3785518a0d',
  '0cdbe6d4-0df8-4f99-9b67-184009fee9a2',
  '18a8211c-0649-467b-a7c5-50ebb4b9ca9d'
]

从向量存储中删除项目

你可以通过传递 filter 参数按 ID 进行删除：

await vectorStore.delete({ ids: [uuids[3]] });

查询向量存储

一旦你的向量存储创建完成并将相关文档添加进去后，在运行链或代理时很可能需要对其进行查询。在 Weaviate v3 中，客户端主要通过与 collections 交互来操作数据库中的对象。collection 对象可以在整个代码库中重复使用。 ### 直接查询

可以如下进行简单的相似性搜索。Filter 辅助类使使用带有条件的过滤器变得更加简单。v3 客户端简化了 Filter 的使用方式，使你的代码更加简洁清晰。

关于 Weaviate 过滤器语法的更多信息，请参见此页面。

import { Filters } from "weaviate-client";

const collection = client.collections.use("Langchainjs_test");

const filter = Filters.and(
  collection.filter.byProperty("source").equal("https://example.com")
);

const similaritySearchResults = await vectorStore.similaritySearch(
  "biology",
  2,
  filter
);

for (const doc of similaritySearchResults) {
  console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}

* The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* Mitochondria are made out of lipids [{"source":"https://example.com"}]

如果你想执行相似性搜索并获得相应的分数，可以运行以下命令：

const similaritySearchWithScoreResults =
  await vectorStore.similaritySearchWithScore("biology", 2, filter);

for (const [doc, score] of similaritySearchWithScoreResults) {
  console.log(
    `* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(
      doc.metadata
    )}]`
  );
}

* [SIM=0.835] The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* [SIM=0.852] Mitochondria are made out of lipids [{"source":"https://example.com"}]

混合搜索

在 Weaviate 中，混合搜索 通过融合向量搜索和关键词（BM25F）搜索的两个结果集来组合结果。要更改关键词和向量组件的相对权重，请在查询中设置 alpha 值。

查看文档以获取完整的混合搜索选项列表。

const results = await vectorStore.hybridSearch("biology", {
  limit: 1,
  alpha: 0.25,
  targetVector: ["title"],
  rerank: {
    property: "title",
    query: "greeting",
  },
});

检索增强生成（RAG）

检索增强生成（RAG）将信息检索与生成式 AI 模型相结合。

在 Weaviate 中，RAG 查询包含两个部分：一个搜索查询和一个提供给模型的提示。Weaviate 首先执行搜索，然后将搜索结果和你的提示一起传递给生成式 AI 模型，最后返回生成的响应。 * @param query 要搜索的查询。 * @param options 执行混合搜索的可用选项 * @param generate 生成的可用选项。请查看文档以获取完整列表

const results = await vectorStore.generate(
  "hello world",
  {
    singlePrompt: {
      prompt: "Translate this into German: {title}",
    },
    config: generativeParameters.openAI({
      model: "gpt-3.5-turbo",
    }),
  },
  {
    limit: 2,
    targetVector: ["title"],
  }
);

通过转换为检索器进行查询

您还可以将向量存储转换为检索器，以便在您的链中更方便地使用。

const retriever = vectorStore.asRetriever({
  // Optional filter
  filter: filter,
  k: 2,
});
await retriever.invoke("biology");

[
  Document {
    pageContent: 'The powerhouse of the cell is the mitochondria',
    metadata: { source: 'https://example.com' },
    id: undefined
  },
  Document {
    pageContent: 'Mitochondria are made out of lipids',
    metadata: { source: 'https://example.com' },
    id: undefined
  }
]

检索增强生成的用法

有关如何将此向量存储用于检索增强生成（RAG）的指南，请参阅以下部分：

API 参考文档

如需详细了解所有 WeaviateStore 功能和配置，请访问 API 参考文档。

Vector store conceptual guide
Vector store how-to guides

WeaviateStore

概述

集成详情

设置

凭据

实例化

连接一个 Weaviate 客户端

初始化向量存储

管理向量存储

向向量存储中添加项目

从向量存储中删除项目

查询向量存储

混合搜索

检索增强生成（RAG）

通过转换为检索器进行查询

检索增强生成的用法

API 参考文档

Was this page helpful?

You can also leave detailed feedback on GitHub.

概述​

集成详情​

设置​

凭据​

实例化​

连接一个 Weaviate 客户端​

初始化向量存储​

管理向量存储​

向向量存储中添加项目​

从向量存储中删除项目​

查询向量存储​

混合搜索​

检索增强生成（RAG）​

通过转换为检索器进行查询​

检索增强生成的用法​

API 参考文档​

Related​

Was this page helpful?

You can also leave detailed feedback on GitHub.

概述

集成详情

设置

凭据

实例化

连接一个 Weaviate 客户端

初始化向量存储

管理向量存储

向向量存储中添加项目

从向量存储中删除项目

查询向量存储

混合搜索

检索增强生成（RAG）

通过转换为检索器进行查询

检索增强生成的用法

API 参考文档

Related