近日,德本咨询、eNet研究院以及《互联网周刊》共同评选并发布了2022数据标注公司排行,我们惊喜地发现冰山荣誉登榜。冰山作为仅成立两年多的数据标注公司,能够与各大友商共同登上榜单,我们感到十分荣幸。
冰山致力于为AI领域客户提供高质量、低成本、多语言、多行业的一站式AI数据服务,尤其在小语种和自动驾驶领域提供先进的供应链管理和技术解决方案,因此深受多家客户好评,发展速度迅猛,此前冰山曾获得中关村高新技术企业、中国国际互联网+、北京优创团队、启迪之星十大新星等荣誉,获得启迪之星投资。
以下为文章内容,转载自互联网周刊,点击查看原文。
人工智能大道的 ” 基石 “
人工智能的目标指向了对人思维过程的复刻,它希望将人的智能脱离肉体的限制,延伸到机器上,使得机器能够像人类一样面对变化的外部环境,综合做出判断和行为反应。在这项探索的初始阶段,我们已经看到包括机器人、语言识别、图像识别、自然语言处理等在内的各分领域分级别的研究成果。
在大众传播和科幻想象中,人工智能往往以一种 ” 酷炫 ” 的形式作为最终的结果呈现,而探究人工智能何以形成的机制则会发现,它不似人想象的那样轻松和神秘。
数据标注就是目前机器实现智能化一个必不可少的过程,它指的是在采集数据后,通过分类、分割、关键点线标注、画框、追踪等处理方式,对文本、图片、语音、视频等原素材进行标记注释,将多源异构的数据转化成可识别的 AI 训练数据,从而成为机器学习的基础材料。
这个过程并不如同想象中那样简便和迅速,反而显得有点 ” 笨拙 “,机器的学习并不像人那样具备主动的记忆、认知、理解能力,它更像是一种计算,在大量相似数据标注为一件物品后,经过比对,它才能 ” 认识 ” 到物品的属性。
例如在图像的数据标注中,一张图片包含的实体会逐一分割开来,进行分类和检测,再进行关键点和线段的标记;在语音数据标注中,一段发音就被切割成了韵律、音素、词性以及更复杂的附属的年龄、性别等属性;在视频数据标注中,由于内容是动态的,还要进行打点和追踪,才能提取可使用的数据。
数据标注的视角里,机器就像人的婴儿时期,接受到的都是零散的、分隔的信息,暂时还理解不了其中的 ” 意 “,而机器不具备主动汲取的能力,其成长速度远远弱于婴孩。
由此就可以理解,为什么在目前日常生活中得到应用的人工智能有时因为理解不了人类的指令被戏称为 ” 人工智障 “,人类的语言、图像、行为在长期的发展中已经具备了十分复杂的涵义,一个细节的不同就可能导致完全不同的意义,目前的机器学习量和覆盖范围还达不到高级智能的水平。
数据标注的创新,人工智能的进步
在我们的生活中,人工智能的应用面越来越广,智能交通、智能家居、智慧医疗……但无一例外,智慧场景要取得进展,就要保证人工智能判断的准确度。无人驾驶要精准判断道路周边环境,才能实现最为重要的安全行驶;智能音箱要对人的指令做出正确反应,就要提升对语音的理解分析能力;智慧医疗影像要实现为医务人员分担工作压力,也要做到正确辨识患者疾病部位,等等。
而人工智能要取得进步,追溯起来,就需要从数据标注这一步开始,加强创新、改善质量。
事实上,数据标注并不完全是一个不需要知识储备就能完成的劳动密集型产业,一些基础的像是对应指定位置、打点等虽然需要大量人力,也无需太多专业素质,但随着行业发展,就需要进一步解决数据数量大、要素复杂、专业领域数据标注等问题。
首先是专业领域的数据标注问题,要提升人工智能的质量,扩展人工智能的领域,在走过基础的智能反应阶段后,像医疗等专业学科内容的标注,也逐渐需要进行完善。因此,随着人对数据的需求越来越深入,必然要求更多的专业性人才辅助完成数据标注工作。
其次,机器学习要变得更准确,需要大量标注好的数据作为 ” 原材料 “,此时完全依靠人力工作对生产成本和效率都会形成挑战。为了提升数据标注效率,将人力资源投入到更具挑战性的工作中去,如数据堂、Magic Data 等企业已经开发了相关的集成自动化标注工具、人机协同数据处理平台,以半自动化的数据标注工具创新加快人工智能开发进程,优化运营效率。
同时,要让机器的 ” 理解 ” 能力更强,与人的互动更顺畅,同一段文字、一张图片、一段语音和视频,其数据标注的层次一定是越详细越有助于机器学习,而为了数据规律能被机器识别,还需要建立清晰的标注规范。
人工智能走过粗放式的发展阶段,未来将需要更多高质量、精细化、专业化的数据,而这都要求数据标注行业实现进一步的研发与创新。
走向强人工智能
虽然人工智能的目标和人的智力指向的是相同的目标,但目前的研究水平,机器对智能的模仿是 ” 拼接 ” 而成的,是对人的视觉、听觉、触觉等感官的模仿,这些是较为基础的能力,它的最终目标是对人的意识的模仿甚至超越。
但在机制上,对于机器而言,信息是以字符串形式存在的,对于人类而言,信息则是事物。因此,不管人工智能在表现上能达到多大程度的与人类反应相似,它的有限性仍然比我们想象得更强。
人工智能的目标也是希望机器能建立起认知系统,从而帮助人类社会实现更大的集体利益,要走向这样的强人工智能,需要庞大的数据量,极强的计算能力,模拟人类各感官的传感器,对人类大脑的工作机制实现更深度的突破等等。
从数据这一角度来说,它是人类行为、意识外化的集合和数字化表征,足够充分的数据量和运算能力有助于为机器提供关键信息,越精确的数据越能有效推动机器的智能化,为其实现 ” 自主 ” 决策打下基础。
强人工智能可能是人类社会最具挑战性的事业,它意味着人类彻底的自我探索与实现外部利用,同时也是时代的发展趋势,要实现这一伟大创新,需要数据、计算、联通、传感等各环节的开创性探索。