Opik - 开源 LLM 评估平台

文章目录

- 一、关于 Opik
- - 功能
- 二、🛠️ 安装
- 三、🏁 开始使用
- - 1、📝 记录跟踪
  - 2、🧑‍⚖️ 作为法官的LLM指标
  - 3、🔍 评估您的 LLM 应用程序

一、关于 Opik

Opik是一个开源平台，用于评估、测试和监控LLM应用程序。由Comet构建。

从RAG聊天机器人到代码助理，再到复杂的代理管道等等，构建LLM系统，通过跟踪、评估和仪表盘运行得更好、更快、更便宜。

官网：https://www.comet.com/site/products/opik/
官方文档：https://www.comet.com/docs/opik/
Docker ： https://github.com/comet-ml/opik/actions/workflows/build_apps.yml
Slack | Twitter

功能

您可以使用Opik进行以下操作：

开发：
- 跟踪 Tracing： 在开发和生产过程中跟踪所有LLM调用和跟踪（快速启动，集成
- 注释：通过使用 Python SDK or the UI 记录反馈分数来注释LLM调用
- Playground ：在 prompt playground 使用不同的提示词和模型
评估：让你的LLM 应用的评估流程自动化
- 数据集和实验：存储测试用例并运行实验（数据集，评估您的LLM申请)
- LLM作为判断指标：使用Opik的LLM作为判断指标，用于 hallucination detection, moderation 和 RAG 评估 (Answer Relevance, Context Precision
- CI/CD集成：使用我们的 PyTest integration 作为CI/CD管道的一部分运行评估
生产监控：
- 记录所有生产跟踪：Opik设计用于支持大量跟踪，便于监视生产应用程序。即使是小型部署，每天也可以接收超过4000万条跟踪！
- 监控仪表板：查看 Opik Dashboard 中随时间变化的反馈分数、跟踪计数和标记。
- 在线评估指标：使用LLM作为评判指标，轻松为所有生产跟踪打分，并通过 Opik’s online evaluation metrics 确定生产LLM应用程序的任何问题。

TIP：如果您正在寻找Opik今天没有的功能，请提出一个新的GitHub讨论主题 🚀

二、🛠️ 安装

Opik可以作为完全开源的本地安装或使用 Comet.com 作为托管解决方案提供。开始使用Opik的最简单方法是创建一个免费的Comet账户，在comet.com。

如果您想自己托管Opik，可以通过克隆存储库并使用 Docker Compose 启动平台来实现：

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git# Navigate to the opik/deployment/docker-compose directory
cd opik/deployment/docker-compose# Start the Opik platform
docker compose up --detach# You can now visit http://localhost:5173 on your browser!

关于不同的部署选项的更多信息，请参阅我们的部署指南：

安装方法	文档链接
本地实例	Local Deployments
Kubernetes	Kubernetes

三、🏁 开始使用

要开始使用，您首先需要安装 Python SDK：

pip install opik

一旦 SDK 安装完毕，您可以通过运行 opik configure 命令来配置它：

opik configure

这将允许您通过设置正确的本地服务器地址来本地配置 Opik，或者如果您正在使用云平台，可以通过设置 API 密钥来配置。

TIP：您也可以从您的 Python 代码中调用 opik.configure(use_local=True) 方法来配置 SDK 在本地安装上运行。

现在，您可以使用 Python SDK 开始记录跟踪。

1、📝 记录跟踪

开始的最简单方法是使用我们的其中一个集成。Opik 支持：

Integration	Description	Documentation	Try in Colab
OpenAI	Log traces for all OpenAI LLM calls	Documentation	Open Quickstart In Colab
LiteLLM	Call any LLM model using the OpenAI format	Documentation	Open Quickstart In Colab
LangChain	Log traces for all LangChain LLM calls	Documentation	Open Quickstart In Colab
Haystack	Log traces for all Haystack calls	Documentation	Open Quickstart In Colab
Anthropic	Log traces for all Anthropic LLM calls	Documentation	Open Quickstart In Colab
Bedrock	Log traces for all Bedrock LLM calls	Documentation	Open Quickstart In Colab
CrewAI	Log traces for all CrewAI calls	Documentation	Open Quickstart In Colab
DeepSeek	Log traces for all DeepSeek LLM calls	Documentation
DSPy	Log traces for all DSPy runs	Documentation	Open Quickstart In Colab
Gemini	Log traces for all Gemini LLM calls	Documentation	Open Quickstart In Colab
Groq	Log traces for all Groq LLM calls	Documentation	Open Quickstart In Colab
Guardrails	Log traces for all Guardrails validations	Documentation	Open Quickstart In Colab
Instructor	Log traces for all LLM calls made with Instructor	Documentation	Open Quickstart In Colab
LangGraph	Log traces for all LangGraph executions	Documentation	Open Quickstart In Colab
LlamaIndex	Log traces for all LlamaIndex LLM calls	Documentation	Open Quickstart In Colab
Ollama	Log traces for all Ollama LLM calls	Documentation	Open Quickstart In Colab
Predibase	Fine-tune and serve open-source Large Language Models	Documentation	Open Quickstart In Colab
Ragas	Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines	Documentation	Open Quickstart In Colab
watsonx	Log traces for all watsonx LLM calls	Documentation	Open Quickstart In Colab

TIP ：如果您正在使用的框架未列在上述内容中，请随时提交问题或提交包含集成的 PR。

如果您没有使用上述任何框架，您也可以使用 track 函数装饰器来记录跟踪:

import opikopik.configure(use_local=True) # Run locally@opik.track
def my_llm_function(user_question: str) -> str:# Your LLM code herereturn "Hello"

TIP：轨迹装饰器可以与我们的任何集成一起使用，也可以用于跟踪嵌套函数调用。

2、🧑‍⚖️ 作为法官的LLM指标

Python Opik SDK 包含了多个作为法官的LLM指标，以帮助您评估您的LLM应用程序。在指标文档中了解更多信息。

要使用它们，只需导入相关的指标并使用 score 函数：

from opik.evaluation.metrics import Hallucinationmetric = Hallucination()
score = metric.score(input="What is the capital of France?",output="Paris",context=["France is a country in Europe."]
)
print(score)