关于AI拍照搜题的一些想法

今天一起体验作业帮“拍照搜题”功能，从实际产品使用流程中切实感受AI技术如何为教育创造更多可能~

作业帮是一款以“拍照搜题”为核心功能的在线教育产品，该功能的实现主要运用了OCR和深度学习技术，故本文围绕该项功能的体验，结合简要的技术分析，领略作业帮化身“AI小叮当”的魅力，话不多说，开始本期的旅程吧~

可见，作业帮的主要用户可分为学生、家长及老师，其中以学生群体为主。

我们可以很清楚地看到，作业帮作为一个K12阶段相对成功的在线教育产品，依托于人工智能技术的发展，为广大的学生、家长和老师带来了便利。

#而对于家长而言，作业帮的拍照搜题帮助他们缓解了自身文化程度不高无法辅导孩子的无力感，同时帮助工作忙的家长节省了时间，也替经济条件有限的家长省了钱。

#而对教师用户而言，作业帮也为他们价值和利益最大化提供了一个平台。

#对作业帮而言，拍照搜题的提出，是迎合AI时代对教育的一种创新，同时为计算机视觉技术的落地提供了良好的落地契机，为传统教育的改革带来了新的方向。

算法、技术可以有千千万万种，用户可能遍布天涯海角，但作为一个产品，尤其是工具类的产品，如果本身核心功能不够出众，或在后续的完善中偏离了核心功能轨道，只有死路一条。而从人工智能发展的角度来看，算法准确率的提升和优化是一个不均衡的过程。

比如，起步的时候，可能随便加大训练数据数量或者是调整学习参数或训练的方式，算法提升的效果就很明显，因为说到底，所谓的人工智能，还是利用了计算机超强的存储及快速暴力求解的能力。

但随着不断地推进，面对的数据越来越复杂、用户场景越来越多、需求越来越丰富，算法还想提升，哪怕那么一个百分点，都是十分困难的，这也是所有人工智能类产品在迭代进程中都会面临的问题。

但是我们从作业帮拍照搜题的识别越来越准确，用户体验也越来越好，可以看到作业帮一直在坚持后台算法的迭代和优化，这种对初衷的坚持是算法之外更可贵的产品精神。

从中可见，在拍照的过程中，做出了两个比较明显的限制。

第一个是横屏拍照，保持题目处于图片的特定区域，其目的在于减少后续识别算法处理的难度。其次是对拍摄灯光的要求，因为当光线较暗时，图片不够清晰，则后期的文字识别会出问题，不利于最终的识别准确率。

这是用户体验和算法准确性之间的一种权衡，更人性化的产品设计提倡，尽量减少对用户的要求，增加用户使用的自由性。

然而对于人工智能算法类的产品设计而言，其准确率的获得往往需基于一定的前提，一旦打破这些限制，算法识别的效果可能就会十分差劲，则会带给用户更糟糕的影响。

因此，这可能是因为系统基于OCR和深度学习的方法，主要对文字切割进行处理，但是对图像特征的处理比较欠缺，所以检索效果较差。

则上述问题的解决，可通过多种技术方案融合，应对不同用户场景需求的特定任务处理，增强算法应用的鲁棒性，减少算法失灵的情况，这应当也是未来人工智能产品落地的一个重要关注点。

最后，还有一个小问题，有时拍摄上传数学类的题目，返回的结果中可能还包含物理、化学、英语等结果，我们将这类错误姑且称之为跨学科错误。

这也是可以理解的，因为算法更关注于对拍摄题目的文字识别，并在之后以文字特征的相近性作为主要指标，进行搜索结果返回。如此，只要题目描述和题库文本更相似就会作为结果返回，却忽略题目类别的考虑。

关于这个问题的解决，或许可以考虑，在识别的过程中，增加类别标签，如拍摄题目上传之后，可以通过用户设定题目类标签。比如：属于语文、数学、英语等，则上传之后在特定的范围检索，这一方面可以提高算法检索的效率，另一方面也可以减少跨学科返回的错误。

改进算法，实现对书面与手写体的精准识别也显得至关重要。