Python文本数据切分及HTML数据处理

news/2025/1/15 18:46:29/

要实现这个功能,你可以使用Python的字符串处理方法,结合正则表达式来找到合适的切分点。下面是一个简单的实现示例:
import re

def split_text(text, max_length=50):
    # 使用正则表达式匹配句子结束符"。!"等,并尝试在此处分割
    sentences = re.split('(?<=[。!])', text)
    result = []
    current_sentence = ""
    
    for sentence in sentences:
        # 如果加上新的句子长度不超过限制,则直接添加
        if len(current_sentence) + len(sentence) <= max_length:
            current_sentence += sentence
        else:
            # 如果超过了长度限制,则将当前句子加入结果列表,并开始新句子
            result.append(current_sentence.strip())
            current_sentence = sentence
    
    # 添加最后一个


http://www.ppmy.cn/news/1525817.html

相关文章

基于python+django+vue的视频点播管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于pythondjangovueMySQL的视…

CSS——弹性盒子布局(display: flex)

CSS——弹性盒子布局&#xff08;display: flex&#xff09; 我们经常听说一种布局&#xff1a;Flexbox或者是弹性布局&#xff0c;它的全称叫做弹性盒子布局&#xff08;Flexible Box Layout&#xff09;&#xff0c;那么它到底该如何实现呢&#xff1f;从我们熟悉的 display…

Auracast认证:蓝牙广播音频的革新之旅

低功耗音频&#xff08;LE Audio&#xff09;技术的突破&#xff0c;为蓝牙世界带来了前所未有的广播音频功能。Auracast™&#xff0c;作为蓝牙技术联盟精心打造的音频广播解决方案&#xff0c;正引领着一场全新的音频分享革命。它不仅革新了传统蓝牙技术的局限&#xff0c;更…

self-play RL学习笔记

让AI用随机的路径尝试新的任务&#xff0c;如果效果超预期&#xff0c;那就更新神经网络的权重&#xff0c;使得AI记住多使用这个成功的事件&#xff0c;再开始下一次的尝试。——llya Sutskever 这两天炸裂朋友圈的OpenAI草莓大模型o1和此前代码能力大幅升级的Claude 3.5&…

Linux 生成 git ssh 公钥

在Linux系统中生成SSH公钥以用于Git的步骤如下&#xff1a; 打开终端&#xff1a;首先&#xff0c;你需要打开你的Linux系统的终端。 检查SSH密钥&#xff1a;在生成新的SSH密钥之前&#xff0c;你可以检查是否已经存在SSH密钥。在终端中输入以下命令&#xff1a; ls -al ~/.s…

011复杂度06斐波那契数复杂度

视频地址:011复杂度06斐波那契数复杂度_哔哩哔哩_bilibili 菲波纳粹数列的一个方法&#xff0c;一个是这个&#xff0c;一个是这个&#xff0c;一个是递归版本&#xff0c;一个是非递归版本&#xff0c;我们来估算一下它们的复杂度啊&#xff0c;首先我们先算一下这个那这个复…

OpenAI GPT-3 API error: “You must provide a model parameter“

题意&#xff1a;OpenAI GPT-3 API 错误&#xff1a;“你必须提供一个模型参数” 问题背景&#xff1a; I am trying to POST a question to openAI API via SWIFT. It works fine, if I use the same payload via Postman, but in the Xcode-Condole I got the following res…

解决RabbitMQ设置TTL过期后不进入死信队列

解决RabbitMQ设置TTL过期后不进入死信队列 问题发现问题解决方法一&#xff1a;只监听死信队列&#xff0c;在死信队列里面处理业务逻辑方法二&#xff1a;改为自动确认模式 问题发现 最近再学习RabbitMQ过程中&#xff0c;看到关于死信队列内容&#xff1a; 来自队列的消息可…