通过系列文章,来记录PPStructure源代码研究过程中学习到的知识。
首在修身养性,若能兼济他人,则善莫大焉。
本文首先通过一个表格识别的应用场景,举例说明PPStructure的基本应用,然后分析其内部实现时序,介绍相关类,为PPStructure的源码研究形成一个总体印象。
目录
- 1.应用举例
- 2.时序关系
- 3.核心类
- 4.小结
1.应用举例
下面用一段简单代码,来体现如何使用PPStructure进行表格的识别。完整代码及其注释参照gitee。
table_engine = PPStructure(use_gpu=True, show_log=True, image_orientation=False)
img = cv2.imread('./img/table1.jpg')
model_result = table_engine(img)
if len(model_result) == 1 and model_result[0]['type'] == 'table':html_doc = model_result[0]['res']['html']try:soup = BeautifulSoup(html_doc, 'html.parser')tables = pd.read_html(str(soup), header=None