【大模型微调】pdf转markdown

news/2024/12/4 6:08:33/

目前市面上大部分都是pdf文档,要想转换成能训练的文本,调研了各种工具。

觉得MinerU确实不错。

参考此链接进行操作

MinerU/docs/README_Ubuntu_CUDA_Acceleration_en_US.md at master · opendatalab/MinerU · GitHub

需要注意的几个点:

1. 使用root账户安装的,配置文件在此处  /root/magic-pdf.json

2. 配置文件cuda,使能表格的配置文件参考为

{"bucket_info": {"bucket-name-1": ["ak","sk","endpoint"],"bucket-name-2": ["ak","sk"

http://www.ppmy.cn/news/1552198.html

相关文章

微信小程序分包流程

小程序目录结构 - app.js - app.json - app.wxss - pages // 主包所有页面- index // 页面内容,包含(index.js,index.wxml,index.json,index.wxss)- logs - packageA // 第一个分包- pages // 第一个分包的所有页面- index // 页面内容,包含(index.js,index.wxml,index.json…

南昌榉之乡托养机构解读:自闭症与看电视并无必然联系

在探讨自闭症的成因时,有人会问:自闭症是多看电视引起的吗?今天,就让我们来看看南昌榉之乡托养机构对此有何见解。 榉之乡大龄自闭症托养机构在江苏、广东、江西等地都有分校,一直致力于为大龄自闭症患者提供专业的支持…

Kylin Server V10 下 Kafka 集群部署

一、ZooKeeper 集群部署 1、主机规划 主机名 IP 地址 myid 10.8.3.35 1 10.8.3.36 2 10.8.3.37 3 2、拓扑结构 3、部署 (1) 下载Zookeeper [root@localhost ~]# cd /usr/local [root@localhost local]# wget https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper-…

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(6)

1.问题描述: 推送通知到手机,怎么配置拉起应用指定的页面? 解决方案: 1、如果点击通知栏打开默认Ability的话, actionType可以设置为0, 同时可以在.clickAction.data中,指定待跳转的page页面…

React Native学习笔记(三)

一 组件简介 1.1 简介 RN中的核心组件,是对原生组件的封装 原生组件:Android或ios内的组件核心组件:RN中常用的,来自react-native的组件 原生组件 在 Android 开发中是使用 Kotlin 或 Java 来编写视图;在 iOS 开发…

操作系统内存分配管理相关习题3

虚拟内存 虚拟存储器基本概念 当作业要求的内存空间超过内存总容量时,无法装入内存运行; 有大量作业要求运行,但内存容量不足以容纳所有这些作业,只能将少量作业装入内存运行 解决内存容量不够问题的办法: • 从物理…

Nginx学习-安装以及基本的使用

一、背景 Nginx是一个很强大的高性能Web和反向代理服务,也是一种轻量级的Web服务器,可以作为独立的服务器部署网站,应用非常广泛,特别是现在前后端分离的情况下。而在开发过程中,我们常常需要在window系统下使用Nginx…

【开源】A059-基于SpringBoot的社区养老服务系统的设计与实现

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看项目链接获取⬇️,记得注明来意哦~🌹 赠送计算机毕业设计600个选题ex…