Skip to main content

评估

评估是一个评估由大型语言模型(LLM)驱动的应用程序性能和效果的过程。
它涉及根据一组预定义的标准或基准测试模型的响应,以确保其达到期望的质量标准并满足预期用途。
这个过程对于构建可靠的应用程序至关重要。

LangSmith 通过以下几种方式帮助完成这一过程:

  • 通过其追踪和注释功能,更轻松地创建和管理数据集
  • 提供一个评估框架,帮助你定义指标并将你的应用程序与数据集进行对比测试
  • 允许你跟踪随时间变化的结果,并可以按计划或作为 CI/代码的一部分自动运行你的评估器

要了解更多信息,请查看 LangSmith 指南


Was this page helpful?


You can also leave detailed feedback on GitHub.