欢迎点击「算法与编程之美」↑关注我们!
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。
欢迎加入团队圈子!与作者面对面!直接点击!
1 问题分析
docx格式的文件本质上是一个ZIP文件,因此一个docx文件的后缀改为zip后是可以用解压工具打开的。而将一个docx文件的后缀改为zip后就可以发现有一个文件夹储存了所有的Word文档图片。
图1. 1更改文件后缀名
将docx文件的后缀改为ZIP后:
图1. 2 zip文件目录
可以看到一个固定的存放图片文件夹:/word/media/
图1. 3图片存放目录
找到了图片存放的固定的路径,那么只需要修改文件后缀名,再将图片拷贝出来,最后把文件从zip改回docx即可。
2 实现代码
import zipfile
docx_path = "…" # docx文件路径 image_path = "…" # 图片存放路径
docx = zipfile.ZipFile(docx_path)
for info in docx.infolist(): if info.filename.endswith((".png", ".jpeg", ".gif")): docx.extract(info.filename, image_path) |
3 运行结果
原文件包含的图片:
图3. 1原文件包含的图片
提取的图片:
图3. 2提取的图片
END
主 编 | 王文星
责 编 | 雀 跃
能力越强,责任越大。实事求是,严谨细致。
——where2go 团队
微信号:算法与编程之美
长按识别二维码关注我们!
温馨提示:点击页面右下角“写留言”发表评论,期待您的参与!期待您的转发!