如果要计算两文本匹配度的规则匹配分数
不能根据几个badcase去调,会造成 解了这个badcase,出了另一个badcase的情况!针对几个badcase在那改规则(尤其是 有哪些 规则/特征 还没定,就开始改 规则/特征 的权重),就是XJBG。
要归并到一个 可加和 的公式上,最后发现还是这样最好的,比如:
两文本匹配分数 = 前缀匹配汉字数 + 后缀匹配汉字数 + 前缀匹配拼音数 + 后缀匹配拼音数
规则,其实也是设计特征,上面匹配分数
为例,就是4个特征,这4个特征有如下特点:
对于每条数据,4个特征都是有默认值的,也就是对所有数据都生效的;
对于每条数据,4个特征明显是可加和的,在同一个量级的;