写在前面
在工作中一直使用split进行字串的分隔,但是始终没有认真研究过该方法,今天在使用该方法时遇到了一些问题,特进行学习记录。
遇到的问题
在使用“|”作为字串的分隔符的时候,分隔结果和预期不一样。
方法定义
// 从方法的实现上, 可以了解split的参数可以是正则表达式、任意字符、符号、数字、字符串等。
public String[] split(String regex) {
}
重点关注
因为split方法也支持正则表达式,而正则表达式存在特殊字符串的情况,这样就出现了上述问题,所以需要注意下表中的特殊字符。
特殊字符
特殊字符 | 说明 |
---|---|
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 \$。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。 |
. | 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \.。 |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 \[。 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配换行符。序列 ‘\\’ 匹配 ‘\’,而 ‘\(’ 则匹配 ‘(’。 |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 |
{ | 标记限定符表达式的开始。要匹配 {,请使用 \{。 |
| | 指明两项之间的一个选择。要匹配 |,请使用 \|。 |
示例代码
// 1.如何使用|进行分隔?
String[] a = "a|b|c".split("\\|"); // 执行结果: [a, b, c]
// 2.如何使用.进行分隔?
String[] b = "a.b.c".split("\\."); // 执行结果: [a, b, c]
// 3.如何使用正则表达式进行分隔?
// 正则表达式:\d+表示一个或多个数字
String[] c = "a11b222c3333d".split("\\d+"); // 执行结果: [a, b, c, d]
// 4.如何使用多个不同的分隔符进行分隔?
// 分隔符可以有多个字符, 它们使用|分隔成左右两部分, 左右两边表达式之间是"或"的关系, 匹配左边或者右边.
String[] d = "a,b#c@d%%e".split(",|#|@|%%"); // 执行结果: [a, b, c, d, e]
高级进阶
// limit默认是0,regex表示正则表达式,limit用来参数控制分隔的次数。
public String[] split(String regex, int limit) {
}String[] e = "a@b@c@d@e@".split("@", -1); // 执行结果: [a, b, c, d, e, ]
String[] f = "a@b@c@d@e@".split("@", 0); // 执行结果: [a, b, c, d, e]
String[] g = "a@b@c@d@e@".split("@", 1); // 执行结果: [a@b@c@d@e@]
String[] h = "a@b@c@d@e@".split("@", 2); // 执行结果: [a, b@c@d@e@]
String[] i = "a@b@c@d@e@".split("@", 100); // 执行结果: [a, b, c, d, e, ]
String[] j = "@@@".split("@", 100); // 执行结果: [, , , ]
String[] k = "bo:and:fo".split("o", 100); // 执行结果: [b, :and:f, ]
String[] l = "boo:and:foo".split("o", 100); // 执行结果: [b, , :and:f, , ]
String[] m = "booo:and:fooo".split("o", 0); // 执行结果: [b, , , :and:f]
// 1. 字符串开头出现分隔符,其余部分正常分隔,开头会分隔出一个空字符串。
// 2. 分隔符紧挨着,其余部分正常分隔,分隔符之间也会分隔出一个空字符串。
// 3. 字符串末尾出现分隔符,其余部分正常分隔,末尾会分隔出一个空字符串,是否丢弃末尾的空格需要判断limit的值:
A. 如果 limit < 0,匹配到多少次,就分隔多少次,数组可以是任何长度,结尾的空字符串不会丢弃;
B. 如果 limit = 0,匹配到多少次,就分隔多少次,数组可以是任何长度,并且结尾空字符串将被丢弃;
C. 如果 limit = 1,不进行分隔,直接将字串变成长度为1的数组;
D. 如果 limit > 1,(从左到右)最多分隔 n - 1 次,数组的长度将不会大于n, 结尾的空字符串不会丢弃。