摘要: 创新性是论文的核心. 本贴描述论文创新的几种评价视角, 并举例说明.
1. 问题与方法的视角
这是最常见的视角.
1.1 老问题老方法
在某些领域, 能想到的方法几乎都想到了, 所以人们写论文的时候, 会写成如下形式:
例 1. GoogleNet在基于示功图故障诊断中的应用——以大庆油田为例.
这里的方法是GoogleNet, 问题是基于示功图故障诊断, 两者都是现成的, 甚至有人已经做过这方面的工作. 但是, 用于大庆油田还是首次, 可能会涉及网络超参数的设置, 几个具体的异常样本的处理等等.
当然, 这种论文的创新性不强, 只是说有一定的实用价值.
1.2 新问题老方法
新问题可以使用一些老方法来做.
例 2. 属性约简的回溯法.
这里假设论文撰写的时候, 属性约简是一个新的问题. 对于组合优化等类型的问题, 回溯法是万能解题法, 因此, 它是一个老方法, 把新问题往上一套就搞定.
例 3. 基于图片风格转换网络的端到端全波形反演.
这里假设端到端全波形反演是一个新问题, 至少在数据整理方面, 它与传统问题不同. 而图片风格转换网络是一个现成的网络, 其架构已经设计好, 只需要把地震数据及其标签 (如速度模型) 放进去训练即可.
说明: 新问题一经认可并有许多的追随者, 因此很高的价值. 即使使用的方法比较老, 也会得到大家的承认. 也有人会认为, 新问题不可能用老方法来做, 因为再怎么也会对方法做一定的改变, 以适应新方法. 这方面确实可以有保留意见, 我也是强行想写得完备些.
1.3 老问题新方法
新方法的开发是一项主要任务.
例 3. Induction of decision trees.
即使决策树 ID3 的这篇原创新很高的论文, 应对的也是当时的一个老问题. 决策树的结构在那时已经有了一些研究. 该文提出了利用信息增益作为启发式信息, 因此获得了很好的效果, 即绝大多数时候能够获得最小的决策树.
说明: 计算机领域, 多数的 (特别是算法类) 论文属于这个类别.
1.4 新问题新方法
新问题一般还是要开发相应的新方法.
例 4. Test-cost-sensitive attribute reduction
测试代价敏感属性约简, 题目就是新问题的名称. 它是对 “属性约简” 问题的泛化, 因此, 所设计的启发式算法也比后者的复杂那么一丢丢.
例 5. Three-way recommender systems based on random forests.
首次提出三支推荐系统的概念, 所以是新问题. 虽然随机森林是已有方法, 但我们也需要进行一定的改造.
例 6. Frequent pattern discovery with tri-partition alphabets.
频繁项挖掘是一个老问题, 但有三分字母表的情况是新问题. 相应地也设计了新方法.
说明: 本小节塞了私货, 都是我们自己的论文.
2. 数据、场景、问题、方法的视角
参见 机器学习研究套路: 数据、场景、问题、方法.
3. 原始、递进、结合、集成的视角
3.1 原始创新
大家都喜欢原始创新, 但毕竟这种工作很少. 当然, 有些原始创新销声匿迹了, 没起到什么影响, 就不算在此列. 我们所说的原始创新一般都对应了一个研究方向, 如:
- k k kNN: 基于相似性的预测;
- 决策树: 基于树形规则的预测;
- PCA: 基于特征值与特征向量的特征提取;
- 感知机: 开创神经网络;
- CNN: 卷积核支持图像处理.
3.2 递进创新
- 假设 sigmoid 是原创的激活函数, 则 ReLU 激活函数是递进创新 (可能有人觉得还是原始创新, 先这样吧).
- k k kNN 是原始创新, 加权 k k kNN 就是递进创新. 加权这个策略也是机器学习界常用的灌水方式. 但步子很大, 迈到度量学习, 还是要算原始创新.
- 有人提出用一个辅助任务做 FWI, 再用两个辅助任务做, 就算是递进创新.
- 在别人提出损失函数的基础上, 增加或替换正则项.
说明: 绝大多数算法的创新, 都是递进创新. 常见的引言节奏如下: A 提出了 B 问题, 给出了 C 方法; D 发现了 C 方法的局限性, 提出了 E 方法; 我发现在 E 方法的局限性, 提出了 F 方法.
3.3 结合创新
机器学习主流问题的很多方法, 都被用于其它领域.
例 7: Seismic image super-resolution reconstruction through deep feature mining network.
有人觉得挺有意思, 但也有人觉得不完全符合领域的一些认识. 做研究, 先试了再说.
例 8: Fast convex set projection with deep prior for seismic interpolation.
用自然图片预训练的网络, 可以为地震数据处理提供支撑. 这个世界具有各种相似性.
说明: 他山之石, 可以攻玉. 如果是首次进行这类结合, 对领域的贡献还是很大.
3.4 集成创新
- 对于问题 A, 有方案 B 与 C, 各适用于一些数据集. 现开发方案 D = B + C, 它自动地选择 B 与 C 的较好者, 也可以表达为 D = max{B, C}. 这就是简单的集成创新. 由于机器学习方法没有哪种是通吃的赢家, 这种集成在实际工作中非常有用.
- 集成学习 Ensemble learning 是机器学习的一个重要方向, 它甚至可以做到用多个弱分类器集成一个强分类器的效果.
- 深度学习中, 把各种模块拼凑在一起, 类似于七巧板拼图, 或者电脑城配计算机, 这些都可以算是集成创新.