最小化二进制字符串中最长相同子字符串的长度
在处理二进制字符串问题时,优化字符串结构以满足特定条件是一项常见的挑战。本文将探讨一个具体的问题:给定一个长度为 n
的二进制字符串 s
和一个整数 numOps
,通过最多 numOps
次位翻转操作,最小化字符串 s
中最长相同子字符串的长度。
问题描述
输入
- 字符串
s
:长度为n
的二进制字符串,仅由字符'0'
和'1'
组成。 - 整数
numOps
:允许执行的最大位翻转次数。
操作
在每次操作中,你可以选择任意一个下标 i
(0 <= i < n
),并翻转 s[i]
的值:
- 如果
s[i] == '1'
,则将其改为'0'
。 - 如果
s[i] == '0'
,则将其改为'1'
。
目标
通过最多 numOps
次操作,最小化字符串 s
中最长相同子字符串的长度。相同子字符串指的是子字符串中的所有字符都相同。
示例
示例 1
- 输入:
s = "000001"
,numOps = 1
- 输出:
2
- 解释:
- 将
s[2]
改为'1'
,得到s = "001001"
。 - 此时,最长的相同子字符串为
s[0..1]
和s[3..4]
,长度均为2
。
- 将
示例 2
- 输入:
s = "0000"
,numOps = 2
- 输出:
1
- 解释:
- 将
s[0]
和s[2]
改为'1'
,得到s = "1010"
。 - 所有相同子字符串的长度均为
1
。
- 将
示例 3
- 输入:
s = "0101"
,numOps = 0
- 输出:
1
- 解释:
- 不进行任何操作,字符串中所有相同子字符串的长度均为
1
。
- 不进行任何操作,字符串中所有相同子字符串的长度均为
本题重要概念
段的分割
在优化字符串以最小化最长相同子字符串长度的过程中,段的分割是关键步骤。这里的“分割”不仅仅是简单地将字符串切开,而是通过翻转特定位置的字符,将一个连续的相同字符段划分为多个较小的段,从而减少最长段的长度。
具体来说,假设有一个长度为 k 的连续相同字符段。通过翻转其中的若干字符,可以将这个段分割成 seg + 1 个子段。每次翻转一个字符,相当于在该位置引入一个不同字符,从而将原来的段划分为两个部分。例如:
示例:考虑一个包含 10 个连续 ‘0’ 的字符串 “0000000000”。
如果我们翻转其中的 2 个 ‘0’ 为 ‘1’,例如将索引 3 和 7 位置的 ‘0’ 翻转为 ‘1’,字符串变为 “0001000100”。
这样,原本的 10 个 ‘0’ 被分割成了三个子段:“000”, “000”, 和 “00”。
经过这次分割,最长的 ‘0’ 子段长度由 10 减少到了 3。
通过这种方式,每次翻转操作都能有效地将一个较长的段分割成多个较短的段,从而逐步减少整个字符串中最长相同子字符串的长度。具体来说,一个长度为 k 的段,经过 seg 次分割后,每个子段的最大长度大约为 ceil(k / (seg + 1))。
解题思路
要最小化字符串中最长相同子字符串的长度,可以通过以下步骤进行优化:
-
检查是否可以分割为长度为1的子串:
- 首先判断是否可以通过最多
numOps
次翻转操作将字符串s
转换为一个交替字符串,如"1010"
或"0101"
。 - 如果可以实现,则返回
1
,因为此时最长的相同子字符串长度为1
。
- 首先判断是否可以通过最多
-
处理长度为2的字符串:
- 对于长度为2的字符串,如果无法转换为交替字符串(即已经是
"00"
或"11"
),则不需要进一步分割。 - 因为分割长度为2的字符串会影响前后部分,且前面已经判断了是否可以得到长度为1的结果。
- 如果当前最长的子串长度已经是2,则答案必定是2。
- 对于长度为2的字符串,如果无法转换为交替字符串(即已经是
-
分段统计:
- 将字符串
s
分割成连续的相同字符段。例如,"000001"
可以分为["00000", "1"]
。
- 将字符串
-
优先处理最长段:
- 通过优先将最长的相同字符段进行分割,可以有效减少最长段的长度。具体而言,使用优先队列(堆)来不断选择当前最长的段进行分割。
-
段的分割:
- 每次分割一个段,将其分成更多的小段,从而降低该段的最大长度。
- 假设一个段的长度为
k
,通过翻转特定位置的字符,将这个段分割seg次,成seg + 1
个子段,每段的最大长度约为ceil(k / (seg + 1))
。
-
迭代操作:
- 重复上述过程,直到用完所有的操作次数
numOps
或者无法进一步优化。
- 重复上述过程,直到用完所有的操作次数
-
最终结果:
- 操作完成后,堆顶元素即为当前最长相同子字符串的长度。
代码实现
from heapq import heapify, heapreplace
from itertools import groupbyclass Solution:def minLength(self, s: str, numOps: int) -> int:n = len(s)# 首先检查是否可以通过 numOps 次翻转将字符串转为交替字符串# 交替字符串有两种可能:"0101..." 或 "1010..."# 计算将 s 转换为这两种模式所需的翻转次数ops_to_alternate_0 = sum(1 for i, c in enumerate(s) if c != ('0' if i % 2 == 0 else '1'))ops_to_alternate_1 = sum(1 for i, c in enumerate(s) if c != ('1' if i % 2 == 0 else '0'))min_ops_to_alternate = min(ops_to_alternate_0, ops_to_alternate_1)# 如果可以通过翻转操作将字符串转为交替字符串,则最长相同子字符串长度为1if min_ops_to_alternate <= numOps:return 1# 特殊处理长度为2的字符串if n == 2:# 如果已经是交替字符串,返回1if s[0] != s[1]:return 1# 否则,需要至少1次操作将其分割为交替elif numOps >= 1:return 1else:return 2 # 无法分割,最长相同子字符串长度为2# 分组统计连续相同字符的段groups = [len(list(group)) for _, group in groupby(s)]# 如果分组中所有段的长度均为1,则已经是交替字符串if all(g == 1 for g in groups):return 1# 初始化堆,存储每个段的最大长度及分割次数# 堆中存储 (-最大长度, 原始长度, 分割次数)heap = [(-g, g, 1) for g in groups]heapify(heap)for _ in range(numOps):max_seg, k, seg = heap[0]# 如果当前最长段已经不能进一步分割if max_seg == -2:return 2# 将当前最长段进行一次分割# 新的最大长度为 ceil(k / (seg + 1)),这里用整除代替ceil# 因为 k // (seg + 1) 已经是向下取整,取负数用于最大堆new_max = -(k // (seg + 1))# 更新分割次数new_seg = seg + 1# 替换堆顶元素heapreplace(heap, (new_max, k, new_seg))# 返回操作后的最长相同子字符串长度return -heap[0][0]