Word文档的读取(1)

embedded/2024/12/22 14:06:02/

读取一个班的答题卡

解决方法:

导入os模块后,将乔老师的文件夹路径 /Users/qiao/answerKey 赋值给变量allKeyPath。
使用os.listdir()函数获取该路径下所有的答题卡名称列表,并赋值给变量allItems。
最后使用for循环遍历所有答题卡,并在循环内使用print输出文件名称。

因为我们要进行文件相关的操作,所以需要在一开始使用import导入Python内置的os模块。乔老师使用的是macOS系统的电脑,他将学生的答题卡保存到了路径为 /Users/qiao/answerKey 的文件夹中。我们需要先获取该文件夹下所有的答题卡列表,再使用for循环遍历文件夹中所有学生的答题卡,以便之后逐个读取信息。

完成了第一个步骤,接下来,我们就需要在for循环里,依次获取每位学生的班级姓名学号选择题分数填空题分数
面对总共三个班的学生,每位学生都有相对应的五条信息,我们应该如何在程序中存储这些数据呢?

确定使用字典来存储每个学生的数据后,我们可以在for循环外,使用一个列表来汇总存储所有学生的字典数据
如图所示:列表中的每个元素就是一个装了学生信息的字典。

现在,就可以在for循环里,根据答题卡的文件名来依次获取学生的班级和姓名信息,并将它们存储到studentData字典里。一份答题卡的完整名称为:"x年级x班-xxx.docx"。我们需要先获取文件名的前半段"x年级x班-xxx",再分别获取其中的班级信息"x年级x班"和姓名信息"xxx"

根据注释,填写代码。

我们可以通过os.path.splitext()函数来获取文件名的的前半段:"x年级x班-xxx"。然后,通过字符串的内置函数split(),以"-"为分隔符,并配合索引,来分别获取班级信息"x年级x班"和姓名信息"xxx"。我们把班级信息储存在studentData的 classInfo 键里,姓名信息存储在studentData的 name 键里,并在代码最后使用print输出了变量allStudentsData进行查看。

# 使用import导入os模块

import os

# 将乔老师的答题卡文件夹路径 /Users/qiao/answerKey 赋值给变量allKeyPath

allKeyPath = "/Users/qiao/answerKey"

# 使用os.listdir()函数获取该路径下所有的文件,并赋值给变量allItems

allItems = os.listdir(allKeyPath)

# 定义一个空列表allStudentsData存储所有学生数据

allStudentsData = []

# 使用for循环逐个遍历所有学生答题卡

for item in allItems:

    # 定义一个空字典studentData存储单个学生数据

    studentData = {}

   

    # 使用os.path.splitext()函数获取文件名的前半段,并赋值给变量fileName

    fileName = os.path.splitext(item)[0]

    # 使用split()函数以"-"分隔文件名,将第1部分班级信息赋值到学生数据字典的classInfo键里

    studentData["classInfo"] = fileName.split("-")[0]

    # 使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里

    studentData["name"] = fileName.split("-")[1]

    # 使用append()函数将studentData添加到总学生数据allStudentsData中

    allStudentsData.append(studentData)

   

# 使用print输出变量allStudentsData

print(allStudentsData)

还记得帮助乔老师解决问题的步骤吗?
刚刚我们已经完成了前两步,现在我们来完成第三步:确定答题卡中要读取的信息位置。在开始确定答题卡中要读取的信息位置前,我们需要先学习一下Word文档的基本结构

一个Word文件就是一个Word文档(Document)。Word文档(Document)的基本组成单位是段落(Paragraph)。标题、目录、正文、图形、空行都是段落。

连续具有相同样式的基本单元可称为一个样式块(run)。例如,图中这一段话原本是同一个样式块。但在这个段落中加粗一个字,那么这个字就形成了一个样式块。并且这个加粗的字的左右两边都被切割成了新的样式块。这样这句话就变成了三个样式块。没有任何内容的空行段落里没有样式块。段落里只要有内容就至少包含一个样式块。

除了段落外,Word文档中还能嵌入表格(Table)。表格和段落在Word文档中属于并列级别。也就是说表格不属于任何段落,我们不能够通过遍历段落来获取表格。

和Excel表格的结构很相似,Word文档中的表格也是由单元格(Cell)组成。
单元格中的内容可以包含段落和表格,相当于独自构成了一个完整的Word文档。

我们可以通过行(Row)列(Column)对单元格进行定位。
Excel表格不同,Word文档中的表格行号和列号都默认从数字0开始,并依次递增。

至此,我们就掌握了Word文档的基本结构

习题:

现在,乔老师已经了解了Word文档的基本结构。


http://www.ppmy.cn/embedded/109346.html

相关文章

Python专项进阶——初步认识Numpy库

NumPy是Numeric Python的缩写,一个优秀的开源科学计算库。 个人理解,NumPy是一个主要围绕着数值数组对象(ndarray)(或叫做矩阵)进行各种操作的对象、函数集合。提供很多实用的数学函数,涵盖线性…

《JavaEE进阶》----13.<Spring Boot【配置文件】>

本篇博客讲解 1.SpringBoot配置文件的格式以及对应的语法 2.了解两个配置文件格式的差异、优缺点。 我们这里只做简单的介绍。看会,了解,学会读取就行了。 因为配置文件实在太多了,这里只做基础的介绍。 一、配置文件的作用 前言 计算机中有许…

UniApp开发微信小程序前期准备工作(涵盖了从项目构思到准备开发阶段的主要步骤和角色分配,以及可能涉及的一些费用)

为了帮助技术小白更好地理解如何开始使用UniApp开发小程序,下面是一份简化版的指南,它涵盖了从项目构思到准备开发阶段的主要步骤和角色分配,以及可能涉及的一些费用。 1. 了解UniApp 首先,你需要对UniApp有一个基本的了解。Uni…

【Python 千题 —— 算法篇】无重复字符最长子段

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在编程过程中,处理字符串的任务时常遇到,其中一个经典问题是查找无重复字符的最长子串。这在很多应用场景中…

[Linux] Linux如何管理进程

标题:[Linux] Linux如何管理进程 水墨不写bug 目录 一、如何理解管理 二、如何进行管理(先描述,后管理) 三、进程的概念 正文开始: 在《Linux操作系统入门详解》中,我们了解到了操作系统的定位…

交友系统“陌陌”全方位解析

交友系统在现代社会中扮演着越来越重要的角色,尤其是随着互联网技术的发展,各种交友软件层出不穷。陌陌作为其中的佼佼者,其全方位解析对于理解交友系统的商业开发至关重要。 陌陌的核心功能是提供基于地理位置的社交服务,用户可…

模拟网络丢包常用方法以及工具

文章目录 背景常用方法代码实现使用方法测试代码 使用网络流量控制工具 常用工具Clumsy 背景 在软件开发过程中,经常需要模拟不同的网络环境来测试应用在不同条件下的表现。 这些模拟可以采用多种方式进行,包括在代码中实现随机丢包、随机延时、乱序&am…

transforemr网络理解

1.transformer网络中数据的流动过程: 2.transformer中残差的理解: 残差连接(Residual Connection) 的核心思想就是通过将输入与经过变化的输出相加,来最大限度地保留原始信息。 transforemr中注意力层网络和前馈神经…