使用 MongoDB 构建 AI:Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心

devtools/2024/10/20 18:38:59/

在这里插入图片描述
大语言模型可能不可靠,这几乎算不上头条新闻。对于某些用例,这可能会带来不便。而对于其他行业,尤其是受监管行业,后果则要严重得多。于是,业内首个大语言模型自动评估平台 Patronus AI 应运而生。

Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立,旨在增强企业对生成式 AI 应用程序的信心,在塑造值得信赖的 AI 生态方面处于领先地位。

Patronus 联合创始人兼首席技术官 Rebecca Qian 解释道:“我们的平台支持工程师在真实场景中对 LLM 性能进行评分和基准测试,生成对抗性测试用例,监控幻觉并检测 PII 及其他意外和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误,从而安全、自信地部署 AI 产品。”

在这里插入图片描述

在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中,Patronus 有了一个惊人的发现。研究人员发现,许多广泛使用的先进 LLM 经常出现幻觉,错误回答或拒绝回答金融分析师问题的比例高达 81%! 尽管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了增强,但错误率仍然如此之高。

检索增强生成 (RAG) 是为模型提供最新的、特定于领域上下文的一种常见方式,但应用程序所有者面临的一个关键问题是如何以可扩展的方式测试模型输出的可靠性。这时候,Patronus 的作用就凸显出来了。该公司采用生成式 AI 生态系统(包括模型提供商和框架以及向量存储和 RAG 解决方案)中的领先技术,提供托管评估服务、测试套件和对抗数据集。

“当我们评估形势以确定最佳合作伙伴时,我们看到了客户对 MongoDB Atlas 的巨大需求,”Qian 说道。“ 通过我们的 Patronus RAG 评估 API,我们可以帮助客户验证他们基于 MongoDB Atlas 构建的 RAG 系统是否能持续提供优质、可靠的信息。

在其新发布的十分钟指南中,Patronus 向开发者演示了一个工作流,展示了如何评估基于 MongoDB Atlas 的检索系统。该指南的重点是对照 SEC 10-K 文件评估幻觉和回答的相关性,模拟金融分析师查询文件,以获得分析和见解的过程。该工作流由以下工具构建:

  • LlamaIndex 数据框架,用于导入和切分源 PDF 文档
  • Atlas Vector Search ,用于存储、索引和查询切分后的元数据和嵌入
  • Patronus,用于对模型响应进行评分

工作流如下图所示:
在这里插入图片描述

根据分析结果,开发者可以采取一些措施来提高 RAG 系统的性能,包括探索不同的索引、修改文档切分大小、重新设计提示,以及对嵌入模型本身进行微调(针对大多数特定领域的应用程序)。

正如 Qian 所说:“无论您采用哪种方法来调试和修复幻觉,一定要对 RAG 系统进行持续测试,以确保长期实施性能改进。当然,您可以反复使用 Patronus API 进行确认。”

MongoDB Atlas
MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务,由 MongoDB 数据库的开发团队构建和运维,可以在亚马逊云科技、Microsoft Azure、Google Cloud Platform 云平台上轻松部署、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践,可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和 API 就 可以完成这些工作,由此您可以将更多宝贵的时间花在构建您的应用上。


http://www.ppmy.cn/devtools/111135.html

相关文章

浏览器和nodejs事件循环(Event Loop)有什么区别?

单线程和异步 JS是单线程的,无论在浏览器还是在nodejs浏览器中JS执行和DOM渲染共用一个线程,是互斥的异步是单线程的解决方案 1. 浏览器中的事件循环 异步里面分宏任务和微任务 宏任务:setTimeout,setInterval,set…

pytorch对不同的可调参数,分配不同的学习率

在 PyTorch 中,你可以通过为优化器传递不同的学习率来针对不同的可调参数分配不同的学习率。这通常通过向优化器传递一个字典列表来实现,其中每个字典指定特定参数组的学习率。下面是一个示例代码,展示了如何实现这一点: import …

Python 多线程

开始学习Python线程 线程模块 使用Threading模块创建线程 线程同步 线程优先级队列( Queue) 多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更…

Pyspark下操作dataframe方法(1)

文章目录 Pyspark dataframe创建DataFrame使用Row对象使用元组与scheam使用字典与scheam注意 agg 聚合操作alias 设置别名字段设置别名设置dataframe别名 cache 缓存checkpoint RDD持久化到外部存储coalesce 设置dataframe分区数量collect 拉取数据columns 获取dataframe列 Pys…

苹果宣布iOS 18正式版9月17日推送:支持27款iPhone升级

9月10日消息,在苹果秋季发布会结束后, 苹果宣布将于9月17日(下周二)推送iOS 18正式版系统。 苹果官网显示,iOS 18正式版将兼容第二代iPhone SE及之后的所有机型,加上刚发布的iPhone 16系列,共兼容27款iPhone。 iOS 18升…

【数据获取与读取】JSON CSV

数据分析流程 获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据 公开数据集 飞桨(百度旗下深度学习平台)数据集:https:/aistudio.baidu.com/aistudio/datasetoverview 天池(阿里云旗下开发者竞赛平台&#xf…

​了解MySQL 的二进制日志文件​Binlog

1. SQL 语句的几种类型 首先介绍一下,对于一个 SQL 语句,它常常被分为以下几种类型: DDL(Data Definition Language,数据定义语言):用来操作数据库、表、列等,比如 CREATE、ALTER…

现在有一台ubuntu22.04 的工作站机器,现在想通过RDP的方式进行远程开发

在 Ubuntu 22.04 工作站上通过 RDP(远程桌面协议)进行连接的具体步骤如下: 1. 安装 RDP 服务 Ubuntu 默认不支持 RDP 连接,因此你需要安装一个 RDP 服务器,通常使用 xrdp 这个软件包。 步骤: 打开终端&a…