【PyG】PyG中的Cora数据集

news/2025/1/15 8:45:16/

Cora数据集简介

以下内容引用自https://blog.csdn.net/yeziand01/article/details/93374216。

Cora数据集共包含2708个样本点,每个样本点的特征向量长度为1433。每个样本点都是一篇科学论文,样本点总共有7个类别。

每篇论文的特征向量长度为1433,特征是一个词向量,词向量的每一个元素对应一个词,且该元素是一个布尔值,如果为 1 1 1,那就代表这个词在论文中出现过,否则就是没出现过。

Cora数据集是图结构数据,是著名的论文引用数据集。下面通过PyG来对Cora数据集进行读取,并在python中对数据集的结构进行查看。

使用PyG读取Cora数据集

这部分内容参考自https://zhuanlan.zhihu.com/p/543207982。

使用torch_geometric.datasets库中的Planetoid,读取Cora数据集,必要的参数包括数据集的路径(即存放Cora文件夹的路径)以及数据集的名称,即'Cora'

dataset = Planetoid(root=path, name=name)

dataset保存了数据集本身及数据集的一些性质,比如结点特征的数量(dataset.num_node_features)和结点的类别dataset.num_classes

之后,取:

data = dataset[0].to(device)

便可对数据集的结构进行查看。

data是数据集本身,其中存储了整个Cora数据集,它的类型是torch_geometric.data.data.Data,对它进行输出,输出的结果为:

Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708], train_mask=[2708], val_mask=[2708], test_mask=[2708])

其中,x=[2708, 1433]对应的就是图中的2708个结点了,每个结点具有1433个特征(词袋特征向量);而edge_index=[2, 10556]表示图中有10556条边,第一个维度为2表示起点和终点;y=[2708]是一个一维向量,存储的是每一个结点的标签;后面的三个mask是布尔值数组,以train_mask为例,它是一个由True/False组成的一维向量,如果为True即表示当前索引对应的结点是训练集当中的结点。


http://www.ppmy.cn/news/1363916.html

相关文章

let和const命令

1.let命令 基本用法 ES6新增了let命令,用来声明变量。它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效。 { let a 10; var b 1; } a//报错:a is not defined b//1 上面代码在代码块中,分别用let和var声明…

基于YOLOv8深度学习+Pyqt5的电动车头盔佩戴检测系统

wx供重浩:创享日记 对话框发送:225头盔 获取完整源码源文件已标注的数据集(1463张)源码各文件说明配置跑通说明文档 若需要一对一远程操作在你电脑跑通,有偿89yuan 效果展示 基于YOLOv8深度学习PyQT5的电动车头盔佩戴检…

MySQL学习笔记3: MySQL数据库基础

目录 前言目标数据库操作(针对database 的操作)1. 创建数据库 create database 数据库名;2. 查看数据库 show databases;3. 选中数据库 use 数据库名;4. 删除数据库 drop database 数据库名; mysql中支持的数据类型1. 数值类型: NUMERIC(M,D)2. 字符串类…

阿里开源低代码引擎 - Low-Code Engine

阿里开源低代码引擎 - Low-Code Engine 本文主要介绍如何在Windows运行/开发阿里开源低代码引擎 - Low-Code Engine 详细文档参见【 阿里开源低代码引擎 - Low-Code Engine 官方文档】 目录 阿里开源低代码引擎 - Low-Code Engine一、环境准备1、使用 WSL 在 Windows 上安装 L…

vue2 项目 vscode 配置

安装node.js 下载https://nodejs.org/zh-cn/download/ 安装到目录D:\nodejs(自定义,不能有空格、中文、特殊字符)配置环境变量,将安装目录加入Path环境变量配置npm 在安装目录新建 node_cache 和 node_global 两个文件夹&#xff…

基于springboot+vue的音乐网站(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

案例:微服务从Java/SpringBoot迁移到Golan

基于 Java 的微服务,特别是那些使用 Spring Boot 的微服务,长期以来因其强大的功能和广泛的社区支持而闻名。Spring Boot 的约定优于配置方法简化了微服务的部署和开发,提供了大量开箱即用的功能,例如自动配置、独立功能和简单的依…

springboot-基础-thymeleaf配置+YAML语法

备份笔记。所有代码都是2019年测试通过的,如有问题请自行搜索解决! 目录 配置thymeleafthymeleaf举例参数设置yaml基础知识YAML语法报错:Expecting a Mapping node but got 其他语法 spring boot不推荐使用jsp。thymeleaf是一个XML/XHTML/HTM…