Textual Dataset Distillation via Language Model Embedding

news/2024/12/28 0:32:39/

Method

在这里插入图片描述
将数据集丢入embedding模型,丢入embedding前可以加入prompt加强效果,然后获取k-means聚类的中心向量来作为需要的蒸馏embeddings,然后使用vec2text模型还原成原始文本。

Result

在这里插入图片描述

Q:

这里有一点不清楚:

  1. 聚类中心的embedding是怎么转换成原来的文本的,如果是不同的embedding模型,那各自的representation space不同,怎么通过一个vec2text model还原。

http://www.ppmy.cn/news/1558649.html

相关文章

BAPI_BATCH_CHANGE在更新后不自动更新批次特征

1、问题介绍 在CL03中看到分类特性配置了制造日期字段,并绑定了生产日期字段MCH1~HSDAT MSC2N修改批次的生产日期字段时,自动修改了对应的批次特性 但是通过BAPI:BAPI_BATCH_CHANGE修改生产日期时,并没有更新到批次特性中 2、BAPI…

CSS系列(35)-- Subgrid详解

前端技术探索系列:CSS Subgrid详解 📐 致读者:探索子网格布局的艺术 👋 前端开发者们, 今天我们将深入探讨 CSS Subgrid,这个强大的网格布局扩展特性。 基础概念 🚀 子网格设置 /* 父网格…

ubuntu编译遇到的问题

一.ffmpeg链接不到库文件 undefined reference to avcodec_register_all undefined reference to avcodec_register_all undefined reference to av_opt_set_defaults undefined reference to av_opt_set_defaults undefined reference to av_parse_video_frame_rate undefine…

MDS-NPV/NPIV

在存储区域网络(SAN)中,域ID(Domain ID)是一个用于区分不同存储区域的关键参数。域ID允许SAN环境中的不同部分独立操作,从而提高效率和安全性。以下是关于域ID的一些关键信息: 域ID的作用&…

C++线程安全函数

在 C 中,线程安全的函数是指在多线程环境下可以安全调用,不会导致数据竞争或其他并发问题的函数。C 标准库提供了许多线程安全的函数,同时也要求开发者在使用自定义函数时确保线程安全。以下是一些常见的线程安全函数和实现线程安全的方法&am…

AIDD - 人工智能药物设计 - 在 Docker 上创建和运行 PostgreSQL + RDKit 卡带环境

在 Docker 上创建和运行 PostgreSQL RDKit 卡带环境 背景 我们将讨论化学数据库。 看起来,如果你在 PostgreSQL 中放置一个 RDKit cartridge (扩展),就可以基于 SQL 进行结构相似性搜索,看起来很有趣。但是我找不到…

Go的初级核心实用开发

Go 语言因其简洁、高效和强大的并发支持而广受欢迎,尤其适合构建网络服务、分布式系统和高性能应用。以下是 Go 编程中的一些实用技巧,帮助你编写更高效、更简洁且易于维护的代码。 1. 使用 defer 简化资源管理 defer 是 Go 中非常有用的特性&#xff…

寻找适合小户型的开源知识库open source knowledge base之路

寻找一个开源的知识库,为了把以前花很多时间收集的信息或是项目/课程资料放到一个容易归类和管理的私有自主系统中,以便更容易查阅,花更少时间收集、对比版本及分享等一系列管理工作,同时确保在需要时可以相对快速找到有用的资料&…