Opik - 开源 LLM 评估平台

news/2025/3/14 20:31:13/

文章目录

    • 一、关于 Opik
      • 功能
    • 二、🛠️ 安装
    • 三、🏁 开始使用
      • 1、📝 记录跟踪
      • 2、🧑‍⚖️ 作为法官的LLM指标
      • 3、🔍 评估您的 LLM 应用程序


一、关于 Opik

Opik是一个开源平台,用于评估、测试和监控LLM应用程序。由Comet构建。

从RAG聊天机器人到代码助理,再到复杂的代理管道等等,构建LLM系统,通过跟踪、评估和仪表盘运行得更好、更快、更便宜。

  • 官网:https://www.comet.com/site/products/opik/
  • 官方文档:https://www.comet.com/docs/opik/
  • Docker : https://github.com/comet-ml/opik/actions/workflows/build_apps.yml
  • Slack | Twitter

功能

您可以使用Opik进行以下操作:

  • 开发:
    • 跟踪 Tracing: 在开发和生产过程中跟踪所有LLM调用和跟踪(快速启动,集成
    • 注释 : 通过使用 Python SDK or the UI 记录反馈分数来注释LLM调用
    • Playground : 在 prompt playground 使用不同的提示词和模型
  • 评估 :让你的LLM 应用的评估流程自动化
    • 数据集和实验:存储测试用例并运行实验(数据集,评估您的LLM申请)
    • LLM作为判断指标:使用Opik的LLM作为判断指标,用于 hallucination detection, moderation 和 RAG 评估 (Answer Relevance, Context Precision
    • CI/CD集成:使用我们的 PyTest integration 作为CI/CD管道的一部分运行评估
  • 生产监控
    • 记录所有生产跟踪:Opik设计用于支持大量跟踪,便于监视生产应用程序。即使是小型部署,每天也可以接收超过4000万条跟踪!
    • 监控仪表板:查看 Opik Dashboard 中随时间变化的反馈分数、跟踪计数和标记。
    • 在线评估指标:使用LLM作为评判指标,轻松为所有生产跟踪打分,并通过 Opik’s online evaluation metrics 确定生产LLM应用程序的任何问题。

TIP:如果您正在寻找Opik今天没有的功能,请提出一个新的GitHub讨论主题 🚀


二、🛠️ 安装

Opik可以作为完全开源的本地安装或使用 Comet.com 作为托管解决方案提供。开始使用Opik的最简单方法是创建一个免费的Comet账户,在comet.com。

如果您想自己托管Opik,可以通过克隆存储库并使用 Docker Compose 启动平台来实现:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git# Navigate to the opik/deployment/docker-compose directory
cd opik/deployment/docker-compose# Start the Opik platform
docker compose up --detach# You can now visit http://localhost:5173 on your browser!

关于不同的部署选项的更多信息,请参阅我们的部署指南:

安装方法文档链接
本地实例Local Deployments
KubernetesKubernetes

三、🏁 开始使用

要开始使用,您首先需要安装 Python SDK:

pip install opik

一旦 SDK 安装完毕,您可以通过运行 opik configure 命令来配置它:

opik configure

这将允许您通过设置正确的本地服务器地址来本地配置 Opik,或者如果您正在使用云平台,可以通过设置 API 密钥来配置。

TIP:您也可以从您的 Python 代码中调用 opik.configure(use_local=True) 方法来配置 SDK 在本地安装上运行。

现在,您可以使用 Python SDK 开始记录跟踪。


1、📝 记录跟踪

开始的最简单方法是使用我们的其中一个集成。Opik 支持:

IntegrationDescriptionDocumentationTry in Colab
OpenAILog traces for all OpenAI LLM callsDocumentationOpen Quickstart In Colab
LiteLLMCall any LLM model using the OpenAI formatDocumentationOpen Quickstart In Colab
LangChainLog traces for all LangChain LLM callsDocumentationOpen Quickstart In Colab
HaystackLog traces for all Haystack callsDocumentationOpen Quickstart In Colab
AnthropicLog traces for all Anthropic LLM callsDocumentationOpen Quickstart In Colab
BedrockLog traces for all Bedrock LLM callsDocumentationOpen Quickstart In Colab
CrewAILog traces for all CrewAI callsDocumentationOpen Quickstart In Colab
DeepSeekLog traces for all DeepSeek LLM callsDocumentation
DSPyLog traces for all DSPy runsDocumentationOpen Quickstart In Colab
GeminiLog traces for all Gemini LLM callsDocumentationOpen Quickstart In Colab
GroqLog traces for all Groq LLM callsDocumentationOpen Quickstart In Colab
GuardrailsLog traces for all Guardrails validationsDocumentationOpen Quickstart In Colab
InstructorLog traces for all LLM calls made with InstructorDocumentationOpen Quickstart In Colab
LangGraphLog traces for all LangGraph executionsDocumentationOpen Quickstart In Colab
LlamaIndexLog traces for all LlamaIndex LLM callsDocumentationOpen Quickstart In Colab
OllamaLog traces for all Ollama LLM callsDocumentationOpen Quickstart In Colab
PredibaseFine-tune and serve open-source Large Language ModelsDocumentationOpen Quickstart In Colab
RagasEvaluation framework for your Retrieval Augmented Generation (RAG) pipelinesDocumentationOpen Quickstart In Colab
watsonxLog traces for all watsonx LLM callsDocumentationOpen Quickstart In Colab

TIP : 如果您正在使用的框架未列在上述内容中,请随时 提交问题 或提交包含集成的 PR。


如果您没有使用上述任何框架,您也可以使用 track 函数装饰器来 记录跟踪:

import opikopik.configure(use_local=True) # Run locally@opik.track
def my_llm_function(user_question: str) -> str:# Your LLM code herereturn "Hello"

TIP:轨迹装饰器可以与我们的任何集成一起使用,也可以用于跟踪嵌套函数调用。


2、🧑‍⚖️ 作为法官的LLM指标

Python Opik SDK 包含了多个作为法官的LLM指标,以帮助您评估您的LLM应用程序。在指标文档中了解更多信息。

要使用它们,只需导入相关的指标并使用 score 函数:

from opik.evaluation.metrics import Hallucinationmetric = Hallucination()
score = metric.score(input="What is the capital of France?",output="Paris",context=["France is a country in Europe."]
)
print(score)

Opik 还包括许多预构建的启发式指标,以及创建您自己的指标的能力。在 指标文档 中了解更多信息。


3、🔍 评估您的 LLM 应用程序

Opik 允许您在开发过程中通过 数据集 和 实验 评估您的 LLM 应用程序。

您还可以使用我们的 PyTest 集成 将评估作为 CI/CD 管道的一部分运行。


2025-03-11(二)


http://www.ppmy.cn/news/1579143.html

相关文章

游戏引擎学习第156天

仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾 昨天的工作主要是展示了如何制作一个基础的粒子系统,可以看到我们制作的粒子系统其实很简单。我们使用了一些现成的资源,而粒子系统的效果看起来还不错。 今天的计划 今天我们继续讲解粒子系统&am…

【机器人-基础知识】欧拉角、旋转矩阵和四元数

1. 欧拉角 1.1. 欧拉角的定义 欧拉角是一组三个角度,用于描述一个刚体在三维空间中的定向关系。具体来说,它们表示从一个固定参考坐标系到刚体坐标系的一系列旋转。常见的定义方式是将总体旋转分解为三个连续的简单旋转,每次旋转都绕着当前坐标系的某一固定轴进行。 例如,…

Manus:成为AI Agent领域的标杆

一、引言 官网:Manus 随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独…

Git和GitHub基础教学

文章目录 1. 前言2. 历史3. 下载安装Git3.1 下载Git3.2 安装Git3.3 验证安装是否成功 4. 配置Git5. Git基础使用5.1 通过Git Bash使用5.1.1 创建一个新的仓库。5.1.1.1 克隆别人的仓库5.1.1.2 自己创建一个本地仓库 5.1.2 管理存档 5.2 通过Visual Studio Code使用 6. Git完成远…

谷云科技RestCloud智能体搭建平台助力企业快速搭建AI Agent

——引言—— “企业今年要继续降本增效,每个岗位都要思考怎么用好AI,IT部你们要做好表率……” 近期越来越多的企业出现这样的声音。随着AI技术的普及,企业对智能体的需求日益增长,但实际开发过程中却常常遇到诸多难题。 案例0…

基于JSP和SQL的CD销售管理系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,CD销售管理系统当然不能排除在外。CD销售管理系统是在实际应用和软件工程的开发原理之上,运用Java语言、JSP技术以及SSM框架进…

JVM内存结构笔记03-方法区

文章目录 方法区1.定义2.组成方法区与永久代和元空间的关系为什么要将永久代 (PermGen) 替换为元空间 (MetaSpace) 呢? 3.方法区常用参数4.运行时常量池常量池运行时常量池定义查看class文件 方法区 1.定义 方法区属于是 JVM 运行时数据区域的一块逻辑区域,是各个…

【模拟面试】计算机考研复试集训(第三天)

文章目录 前言一、专业面试1、串的模式匹配算法?KMP 思想?2、简述 CPU 的主要功能3、什么是 ER 图?有哪些部分组成?4、简述一下模拟退火算法的思想5、你想出去找实习,但实验室不允许,你会怎么做&#xff1f…