目录
特征向量
什么是特征向量
特征向量的优势
应用领域
预写式日志
数据可靠性
缓冲区设置
旧日志删除
特征向量
什么是特征向量
向量是具有一定大小和方向的量,可以简单理解为一串数字的集合,就像一行多列的矩阵,比如:[2,0,1,9,0,6,3,0]。每一行代表一个数据项,每一列代表一个该数据项的各个属性。
特征向量是包含事物重要特征的向量。大家比较熟知的一个特征向量是RGB (红-绿-蓝)色彩。每种颜色都可以通过对红(R)、绿(G)、蓝(B)三种颜色的比例来得到。这样一个特征向量可以描述为:颜色 = [红,绿,蓝]。
特征向量的优势
随着现代计算机和机器学习技术的飞速发展,越来越多的多媒体数据被存储、分析和运用在房地产、制药以及金融信息服务等领域。多媒体数据通常有多维度的特征。
而特征向量则可以通过多维度数值高效准确地描述多媒体内容。
特征向量在机器学习和模式识别的多个领域都拥有重要地位。机器学习算法通常需要用数值来表示描述对象以便于进行统计分析。
应用领域
特征向量,因其能通过数值的方式高效准确地描述对象,目前被广泛运用于机器学习的各种领域。
- 图像识别向量特征可以是梯度幅值、颜色、灰度强度、边缘、区域等。由于图像的数值化表示更容易定义和分析,特征向量在图像识别领域有着广泛的应用。
- 语音识别向量特征可以是音长、噪音等级、信噪比等。
- 垃圾邮件过滤向量特征可以是 IP 地址、文字结构、某个词出现的频率、特定邮件标题等。
预写式日志
预写式日志首先把用户的插入和删除请求记入日志文件,然后由后台线程写入系统。一旦将用户请求成功写入日志,服务端即会返回成功。开启该功能可以增强数据的可靠性,并减少对客户端的阻塞。
数据可靠性
预写式日志能保证修改请求的原子性。所有返回成功的请求都会被完整地写入系统。对于因系统意外退出或者链接意外断开而没有响应的请求,操作只可能全部成功或者全部失败。操作是否成功可以通过调用其它接口来确认。此外,在系统重启时,日志中还未被应用到系统状态的请求将被重新执行。
缓冲区设置
预写式日志使用的缓冲区大小由系统参数 wal.buffer_size 决定。为保证预写式日志的写入性能,建议把缓冲区大小设为单批次导入数据量大小的 2 倍以上。
关于如何设置系统参数 wal.buffer_size,请见 Milvus 配置。
旧日志删除
Milvus 会自动删除那些已经应用到系统的日志。