Skip to main content

WeaviateStore

Weaviate 是一个开源的向量数据库,既可以存储对象也可以存储向量,允许将向量搜索与结构化过滤结合使用。LangChain 通过 weaviate-client 包连接到 Weaviate,这是 Weaviate 的官方 Typescript 客户端。

本指南提供了使用 Weaviate 向量存储 的快速概述。如需详细了解所有 WeaviateStore 功能和配置,请访问 API 参考文档

概述

集成详情

Python 支持包的最新版本
WeaviateStore@langchain/weaviateNPM - 版本

设置

要使用 Weaviate 向量存储,你需要先设置一个 Weaviate 实例并安装 @langchain/weaviate 集成包。你还应该安装 weaviate-client 包以初始化客户端来连接你的实例,以及安装 uuid 包(如果你希望为索引的文档分配 ID)。

本指南还将使用 OpenAI 嵌入模型,这需要你安装 @langchain/openai 集成包。如果需要,你也可以使用 其他支持的嵌入模型

:::提示 请参阅安装集成包的一般说明部分。 :::

yarn add @langchain/weaviate @langchain/core weaviate-client uuid @langchain/openai

你需要在本地或服务器上运行 Weaviate。更多信息请参阅 Weaviate 官方文档

凭据

设置好实例后,请设置以下环境变量:

// 如果在本地运行,包含端口号,例如 "localhost:8080"
process.env.WEAVIATE_URL = "YOUR_WEAVIATE_URL";
// 可选,用于云部署
process.env.WEAVIATE_API_KEY = "YOUR_API_KEY";

如果你在本指南中使用 OpenAI 嵌入模型,还需要设置你的 OpenAI 密钥:

process.env.OPENAI_API_KEY = "YOUR_API_KEY";

如果你想对模型调用进行自动追踪,也可以通过取消注释以下内容来设置你的 LangSmith API 密钥:

// process.env.LANGSMITH_TRACING="true"
// process.env.LANGSMITH_API_KEY="your-api-key"

实例化

连接一个 Weaviate 客户端

在大多数情况下,你应该使用以下连接辅助函数之一来连接到你的 Weaviate 实例:

  • connectToWeaviateCloud
  • connectToLocal
  • connectToCustom
import { WeaviateStore } from "@langchain/weaviate";
import { OpenAIEmbeddings } from "@langchain/openai";
import weaviate from "weaviate-client";

const embeddings = new OpenAIEmbeddings({
model: "text-embedding-3-small",
});

const weaviateClient = weaviate.connectToWeaviateCloud({
clusterURL: process.env.WEAVIATE_URL!,
options: {
authCredentials: new weaviate.ApiKey(process.env.WEAVIATE_API_KEY || ""),
headers: {
"X-OpenAI-Api-Key": process.env.OPENAI_API_KEY || "",
"X-Cohere-Api-Key": process.env.COHERE_API_KEY || "",
},
},
});

初始化向量存储

要创建集合,请至少指定集合名称。如果不指定任何属性,auto-schema 会自动创建它们。

const vectorStore = new WeaviateStore(embeddings, {
client: weaviateClient,
// Must start with a capital letter
indexName: "Langchainjs_test",
});

要使用 Weaviate 的命名向量、向量化器、重排序器、生成模型等,请在启用向量存储时使用 schema 属性。创建向量存储时,schema 中的集合名称和其他属性将具有优先权。

const vectorStore = new WeaviateStore(embeddings, {
client: weaviateClient,
schema: {
name: "Langchainjs_test",
description: "A simple dataset",
properties: [
{
name: "title",
dataType: dataType.TEXT,
},
{
name: "foo",
dataType: dataType.TEXT,
},
],
vectorizers: [
vectorizer.text2VecOpenAI({
name: "title",
sourceProperties: ["title"], // (Optional) Set the source property(ies)
// vectorIndexConfig: configure.vectorIndex.hnsw() // (Optional) Set the vector index configuration
}),
],
generative: weaviate.configure.generative.openAI(),
reranker: weaviate.configure.reranker.cohere(),
},
});

管理向量存储

向向量存储中添加项目

注意: 如果您希望将 ID 与索引的文档相关联,则这些 ID 必须是 UUID。

import type { Document } from "@langchain/core/documents";
import { v4 as uuidv4 } from "uuid";

const document1: Document = {
pageContent: "The powerhouse of the cell is the mitochondria",
metadata: { source: "https://example.com" },
};

const document2: Document = {
pageContent: "Buildings are made out of brick",
metadata: { source: "https://example.com" },
};

const document3: Document = {
pageContent: "Mitochondria are made out of lipids",
metadata: { source: "https://example.com" },
};

const document4: Document = {
pageContent: "The 2024 Olympics are in Paris",
metadata: { source: "https://example.com" },
};

const documents = [document1, document2, document3, document4];
const uuids = [uuidv4(), uuidv4(), uuidv4(), uuidv4()];

await vectorStore.addDocuments(documents, { ids: uuids });
[
'610f9b92-9bee-473f-a4db-8f2ca6e3442d',
'995160fa-441e-41a0-b476-cf3785518a0d',
'0cdbe6d4-0df8-4f99-9b67-184009fee9a2',
'18a8211c-0649-467b-a7c5-50ebb4b9ca9d'
]

从向量存储中删除项目

你可以通过传递 filter 参数按 ID 进行删除:

await vectorStore.delete({ ids: [uuids[3]] });

查询向量存储

一旦你的向量存储创建完成并将相关文档添加进去后,在运行链或代理时很可能需要对其进行查询。 在 Weaviate v3 中,客户端主要通过与 collections 交互来操作数据库中的对象。collection 对象可以在整个代码库中重复使用。 ### 直接查询

可以如下进行简单的相似性搜索。Filter 辅助类使使用带有条件的过滤器变得更加简单。v3 客户端简化了 Filter 的使用方式,使你的代码更加简洁清晰。

关于 Weaviate 过滤器语法的更多信息,请参见 此页面

import { Filters } from "weaviate-client";

const collection = client.collections.use("Langchainjs_test");

const filter = Filters.and(
collection.filter.byProperty("source").equal("https://example.com")
);

const similaritySearchResults = await vectorStore.similaritySearch(
"biology",
2,
filter
);

for (const doc of similaritySearchResults) {
console.log(`* ${doc.pageContent} [${JSON.stringify(doc.metadata, null)}]`);
}
* The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* Mitochondria are made out of lipids [{"source":"https://example.com"}]

如果你想执行相似性搜索并获得相应的分数,可以运行以下命令:

const similaritySearchWithScoreResults =
await vectorStore.similaritySearchWithScore("biology", 2, filter);

for (const [doc, score] of similaritySearchWithScoreResults) {
console.log(
`* [SIM=${score.toFixed(3)}] ${doc.pageContent} [${JSON.stringify(
doc.metadata
)}]`
);
}
* [SIM=0.835] The powerhouse of the cell is the mitochondria [{"source":"https://example.com"}]
* [SIM=0.852] Mitochondria are made out of lipids [{"source":"https://example.com"}]

混合搜索

在 Weaviate 中,混合搜索 通过融合向量搜索和关键词(BM25F)搜索的两个结果集来组合结果。要更改关键词和向量组件的相对权重,请在查询中设置 alpha 值。

查看 文档 以获取完整的混合搜索选项列表。

const results = await vectorStore.hybridSearch("biology", {
limit: 1,
alpha: 0.25,
targetVector: ["title"],
rerank: {
property: "title",
query: "greeting",
},
});

检索增强生成(RAG)

检索增强生成(RAG)将信息检索与生成式 AI 模型相结合。

在 Weaviate 中,RAG 查询包含两个部分:一个搜索查询和一个提供给模型的提示。Weaviate 首先执行搜索,然后将搜索结果和你的提示一起传递给生成式 AI 模型,最后返回生成的响应。 * @param query 要搜索的查询。 * @param options 执行混合搜索的可用选项 * @param generate 生成的可用选项。请查看文档以获取完整列表

const results = await vectorStore.generate(
"hello world",
{
singlePrompt: {
prompt: "Translate this into German: {title}",
},
config: generativeParameters.openAI({
model: "gpt-3.5-turbo",
}),
},
{
limit: 2,
targetVector: ["title"],
}
);

通过转换为检索器进行查询

您还可以将向量存储转换为检索器,以便在您的链中更方便地使用。

const retriever = vectorStore.asRetriever({
// Optional filter
filter: filter,
k: 2,
});
await retriever.invoke("biology");
[
Document {
pageContent: 'The powerhouse of the cell is the mitochondria',
metadata: { source: 'https://example.com' },
id: undefined
},
Document {
pageContent: 'Mitochondria are made out of lipids',
metadata: { source: 'https://example.com' },
id: undefined
}
]

检索增强生成的用法

有关如何将此向量存储用于检索增强生成(RAG)的指南,请参阅以下部分:

API 参考文档

如需详细了解所有 WeaviateStore 功能和配置,请访问 API 参考文档


Was this page helpful?


You can also leave detailed feedback on GitHub.