📄️ html-to-text
在摄入 HTML 文档以供后续检索时,我们通常只关注网页的实际内容,而非其语义结构。使用 HtmlToTextTransformer 剥离 HTML 标签可以使内容分块更加丰富,从而提高检索的有效性。
📄️ @mozilla/readability
在摄入 HTML 文档以供后续检索时,我们通常只关注网页的实际内容,而非语义结构。
📄️ OpenAI 函数元数据标记器
在处理文档时,常常需要为导入的文档添加结构化元数据标签,例如文档的标题、语气或长度,以便后续进行更精确的相似性搜索。然而,当文档数量庞大时,手动完成这一标注过程可能会非常繁琐。