tfrecord文件介绍、读取、写入介绍

devtools/2024/9/20 7:27:50/ 标签: 深度学习, 人工智能, tensorflow

1、tfrecord文件格式介绍

       tfrecord文件格式,是深度学习框架tensorflow专用的一种文件格式,其底层使用protobuf,TensorFlow(python)也提供了api用于读取和写入tfrecord,非常方便,而对于golang语言,目前没有成熟的包可以使用,调研过一个nivida的开源库,这个库已经三四年没有更新,在读取tfrecord上存在问题,所以go语言,至今没有找到合适的包可以操作tfrecord。

       一个tfrecord文件是有多个example组成,一个example是有多个key-value对构成的结构:

2、tfrecord文件操作

测试环境:

python:3.8

TensorFlow:2.13

系统:Ubuntu2004

2.1 生成tfrecord

#!/usr/bin/python3.10
import tensorflow as tf
import numpy as npdef _bytes_feature(value):if isinstance(value, type(tf.constant(0))):value = value.numpy() return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))def _float_feature(value):return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))def _int64_feature(value):return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))def _int64_list_feature(value):return tf.train.Feature(int64_list=tf.train.Int64List(value=value))def _bytes_list_feature(value):return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value.astype(np.float32).tobytes()]))def serialize_example(f0, f1, f2, f3, f4):features = {'a': _int64_feature(f0),'b': _int64_list_feature(f1),'c': _bytes_feature(f2),'d': _float_feature(f3),'e': _bytes_list_feature(f4)}example_proto = tf.train.Example(features=tf.train.Features(feature=features))return example_proto.SerializeToString()def main():filename = 'tf.tfrecord'with tf.io.TFRecordWriter(filename) as writer:for i in range(10):example = serialize_example(1, [1, 1, 9], b'tfrecord', 1.4, np.array([1, 2, 3]))writer.write(example)if __name__ == '__main__':main()

上面代码共写了10个example到文件里,运行上面 代码之前,需要安装tensorflow

TensorFlow安装完成后,运行上面python代码:

执行完成后,生成tf.tfrecord文件,下面我们会尝试读取一下生成的这个文件。

2.2 读取tfrecord

上面2.1生成了一个tfrecord文件,我们就来读取这个文件,首先这个tfrecord一共包含10个example,每个example包含5个key,可以对照第一章节的图示进行理解,读取代码如下:

#!/usr/bin/python3.10
import tensorflow as tf
import numpy as npfeature_desc = {'a': tf.io.FixedLenFeature((), tf.int64, default_value=0),'b': tf.io.FixedLenFeature((3), tf.int64, default_value=[-1, -1, -1]),'c': tf.io.FixedLenFeature((), tf.string, default_value=''),'d': tf.io.FixedLenFeature((), tf.float32, default_value=0.0),'e': tf.io.FixedLenFeature((), tf.string)
}def main():filename = '/root/python/tfrecord/tf.tfrecord'examples = tf.data.TFRecordDataset(filename)for example in examples:feature = tf.io.parse_single_example(example, feature_desc)print('a=', feature['a'].numpy())print('b=', feature['b'].numpy())print('c=', feature['c'].numpy().decode('utf-8'))print('d=', feature['d'].numpy())print('e=', tf.io.decode_raw(feature['e'], tf.float32))if __name__ == '__main__':main()

代码运行结果:

3、获取tfrecord文件特征属性

当某些时候,我们不知道tfrecord的特征属性时,也就是不知道文件里的feature格式时,我们可以用下面的方法将feature的key值、value等信息打印出来:

#!/usr/bin/python3.10
import tensorflow as tf
import numpy as npdef getTFRecordFormat(files):  # 加载TFRecord数据  ds = tf.data.TFRecordDataset(files)  ds = ds.batch(1)  ds = ds.prefetch(buffer_size=tf.data.AUTOTUNE)  for batch_data in ds.take(1):  for serialized_example in batch_data:  example_proto = tf.train.Example.FromString(serialized_example.numpy())  for key, feature in example_proto.features.feature.items():  ftype = None  fvalue = None  if feature.HasField('bytes_list'):  ftype = 'bytes_list'  fvalue = (feature.bytes_list.value)  elif feature.HasField('float_list'):  ftype = 'float_list'  fvalue = (feature.float_list.value)  elif feature.HasField('int64_list'):  ftype = 'int64_list'  fvalue = (feature.int64_list.value)  if ftype:  result = '{0} : {1} {2}'.format(key, ftype, fvalue)  print(result)  def main():filename = '/root/python/tfrecord/tf.tfrecord'getTFRecordFormat(filename)
if __name__ == '__main__':main()

代码运行记录:

4、为什么使用tfrecord

     TFRecord文件格式在机器学习和深度学习应用中具有多个优势,这也是为什么它被广泛采用的原因。以下是TFRecord文件格式的主要优点:

  • 高效的数据存储与读取:TFRecord使用二进制格式来存储数据,相比于文本格式(如CSV或JSON),它更加紧凑,因此可以节省存储空间。此外,二进制格式的数据读取速度也更快,这对于大规模数据集的训练和推理过程尤为重要。
  • 多样化的数据类型支持:TFRecord可以支持多种数据类型,包括整数、浮点数、字符串等,这使得它非常适合存储各种类型的训练数据。无论是图像、文本还是其他类型的数据,都可以方便地存储为TFRecord格式。
  • 方便的数据预处理:通过将数据转换为TFRecord格式,可以方便地进行数据预处理操作,如数据增强、归一化等。这些操作可以在数据加载阶段进行,从而避免了在训练过程中重复进行预处理,提高了训练效率。
  • 易于扩展与并行处理:TFRecord文件可以轻松地扩展以适应更大的数据集。此外,由于其紧凑的二进制格式和高效的数据读取机制,TFRecord文件也支持并行处理,可以充分利用多核CPU或GPU的并行计算能力。
  • 跨平台兼容性:TFRecord文件使用Protocol Buffers进行编码,这是一种跨平台的序列化结构数据格式。因此,TFRecord文件可以在不同的操作系统和编程环境中使用,具有良好的兼容性。

综上所述,TFRecord文件格式在机器学习和深度学习中具有高效、灵活、易于扩展和跨平台兼容等优点,使得它成为处理大规模数据集的首选格式之一。


http://www.ppmy.cn/devtools/22190.html

相关文章

Eureka服务注册与发现

Eureka服务注册与发现 概念原理Eureka的基本架构Eureka包含两个组件:Eureka Server和Eureka Client 三大角色目前工程情况 构建步骤step1:EurekaServer服务注册中心Module的建立step2:将已有的微服务注册进eureka服务中心actuator与注册微服务…

人机交互系统文本分类 text classification环节源码(E-commerce)

我把pre-trained model 下载到了本地 效果如下(到时候把代码中的sequence 和labels换成自己的text和分类就行了。): 源码见链接: https://download.csdn.net/download/qqqweiweiqq/89211553

blender Principled Hair BSDF

三种模式: Direct Coloring 直接指定所需的RGB颜色值着色器会尝试近似所需的吸收系数来模拟该颜色Melanin Concentration 使用更加物理化的方式定义头发/毛发颜色通过指定黑色素(Melanin)的浓度和黑红色素(Pheomelanin/Eumelanin)的比例来确定颜色更符合头发/毛发中…

面向表格数据的大模型推理

现实世界中存在大量未利用的先验知识和未标记数据。而在医疗等高价值领域,获取足够标记数据训练机器学习模型尤其困难,这限制了传统监督学习算法的应用。尽管深度学习方法在其他领域取得了显著进展,但在表格数据分类上仍未能超越传统的机器学…

vue 项目关于不同分辨率的电脑网页适配方案

流式布局:这是一种相对灵活的布局方式,页面的元素宽度使用相对宽度(例如百分比)来定义,而不是使用绝对宽度(例如像素)。这样,当浏览器窗口大小变化时,元素会自动调整大小…

Error opening file a bytes-like object is required,not ‘NoneType‘

错误显示,打开的是一个无效路径的文件 查看json文件内容,索引的路径与json文件保存的路径不同 方法:使用python脚本统一修改json文件路径 import json import os import argparse import cv2 from tqdm import tqdm import numpy as np impo…

react 遇到的问题1 ——( 数据更新视图没更新)已解决

问题: 使用react开发项目时,使用useState 定义数据,通过定义的set方法修改数据,视图没有更新 原因: 在 React 中使用 useState 定义数据时,useState 返回一个数组,包含当前状态和更新的函数。…

Android 自定义view 中增加属性,初始化时读取

因为自定义View 有正向和反向两个状态,所以需要在初始化时区分加载哪个layout 在Android中,要在自定义View中增加属性,你需要完成以下步骤: 在res/values/attrs.xml文件中定义属性。 在自定义View的构造函数中获取这些属性。 在…

RabbitMQ延迟队列,死信队列(8)

死信队列 概览 死信队列(Dead Letter Queue,DLQ)是 RabbitMQ 中的一种特殊队列,用于存储无法被消费者正常处理的消息。当消息被发送到普通队列时,如果满足一定的条件,比如消息过期、被拒绝、队列长度达到…

上海鑫吉百数——让制造型食品企业焕发新生机!

随着全球化和互联网的普及,食品行业的竞争也日益激烈。数字化转型有助于企业打破地域限制,拓宽市场渠道,提升品牌影响力和竞争力。在信息化、网络化的时代背景下,数字化转型成为企业适应社会发展的必然选择。消费者对于食品的需求…

<计算机网络自顶向下> Internet Protocol(未完成)

互联网中的网络层 IP数据报格式 ver: 四个比特的版本号(IPV4 0100, IPV6 0110) headlen:head的长度(头部长度字段(IHL)指定了头部的长度,以32位字(4字节)为单位计算。这…

SSH Key生成

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

绿色发展!暴雨推出全液冷机架服务器

4月26日,暴雨发布业内首个实现原生全液冷的通用机架服务器。基于在液冷技术和产业生态化上的深厚积累,暴雨本次在通用机架服务器液冷技术上实现重大突破,从原生全液冷、大解耦、高能效三方面发力,为液冷数据中心建设提速。 当前&a…

Unity功能——开发中逻辑坐标和世界坐标是什么?

声明:本文为个人笔记,用于学习研究使用非商用,内容为个人研究及综合整理所得,若有违规,请联系,违规必改。 Unity功能——逻辑坐标和世界坐标 文章目录 Unity功能——逻辑坐标和世界坐标一.开发环境二.问题描…

Spring日志

Spring日志的作用: 1.定位和发现问题 2.系统监控 3.数据采集 4.日志审计 打印日志步骤: 1.定义日志对象2.打印日志 RestController public class LoggerController {private static Logger logger LoggerFactory.getLogger(LoggerController.class);PostConstructpublic v…

从零学算法135

135. 分发糖果 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求,给这些孩子分发糖果: 每个孩子至少分配到 1 个糖果。 相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果,计算并返…

【K8s】工作以来遇到的K8s相关问题、故障

工作以来遇到的有关K8S相关问题及故障 deployments 资源 2副本情况下,一个springboot的pod能访问,一个不能(端口不通)在K8S运维(多人管理) 不知道谁在链路加了个跨域配置,导致前端打不开图片某些安全部门演练时经常在…

对增加LLaMA 3 上下文长度技术的猜测

AI苏妲己: 在许多应用场景中,如长对话、长文档摘要或长期计划执行等,大语言模型能够支持较长的上下文窗口是非常理想的。以一次处理约50页书籍内容为例,通常需要模型支持32K个token的上下文长度。目前,主流的大语言模…

01.JAVAEE初阶之计算机如何工作

1.一台机器如何组成 冯诺依曼体系 CPU 中央处理器: 进行算术运算和逻辑判断.存储器: 分为外存和内存, 用于存储数据(使用二进制方式存储)输入设备: 用户给计算机发号施令的设备.输出设备: 计算机个用户汇报结果的设备. 针对存储空间 硬盘 > 内存 >> CPU针对数据访问…

JDBC 常用的API

JDBC是通过IDEA来操作数据库 简单的例子 public class jdbcStart {Testpublic void testjdbc()throws Exception{//1.注册驱动(确认使用哪个数据库)Class.forName("com.mysql.cj.jdbc.Driver");//2.连接数据库(获取到一个数据库连…