数据决定人工智能前景，Testin 云测助力产业落地的未来

数据决定人工智能前景，Testin 云测助力产业落地的未来互联网+

36氪 2019-12-12 10:01

分享到：

导读

虽然早在2017年，“AI元年”的噱头就已经打响，但直到近期，业界才终于承认，各项技术纷纷实现落地的2019年，才是名副其实的“AI元年”。

虽然早在2017年，“AI元年”的噱头就已经打响，但直到近期，业界才终于承认，各项技术纷纷实现落地的2019年，才是名副其实的“AI元年”。在“互联网”成为传统产业的今天，基于各项AI技术实现的无人驾驶、智慧家居、新零售等新概念争先恐后出现，而物流、制造业等传统产业也没有落后于时代潮流，纷纷寻求借助AI进行产业升级，拥抱智能化，而在势不可挡的智能化大潮前，始终藏在幕后构建技术地基、协助技术实现落地支撑的数据标注服务，在其中扮演了关键性的重要角色，是AI行业里真正的“隐形关键”。

在过去，数据标注行业很少出现在人们的视野中，但业内却有着相同的共识：没有好的数据，AI就没有未来。

这句话并不夸张。目前为止，我们所看到的人工智能，已经跳脱出枯燥单一的计算，转化为以深度神经网络为主的新智能体系，而深度神经网络对于数据有很强的依赖性，所以，凭借对体量庞大的结构化和半结构化数据进行高效率的深度分析，挖掘隐性知识，AI系统才能将海量、复杂、多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息，借此进行机器的自主学习。而不够精准却足量的数据，则会让AI的识别学习系统产生混乱和误差。在谷歌发布的CNN报告中，就提到一个严重的问题：自动驾驶车辆的识别系统难以分辨黑色人种和同为灵长类的大猩猩，所以相比白种人、黄种人，黑色人种的辨别率会低10%，——如果采用更多的、经过精密标注过的数据，这样的误差可以很大程度的缓解。

其实，在自动驾驶领域，精准海量的数据标注，价值不仅仅体现在识别上，在逐渐成为汽车标配的辅助驾驶方面，数据标注也有很强的存在感。在辅助驾驶过程中，有一个关键功能叫做驾驶员疲劳检测，通过视觉识别的方式监测驾驶员的状态，识别是否分神，是否在打电话，是否在打瞌睡，而在辅助驾驶的过程中，驾驶员也极有可能出现注意力不集中的情况。在更细致精密的数据标注介入后，识别系统被赋予了一系列能力，比如疲劳监测系统、危险动作监测系统等，在用户享受便利的同时，能使得公路驾驶更加安全，解决了这样的问题，自动驾驶和辅助驾驶才得以广泛推广和应用。

在高科技产业的实际落地中，数据的重要性有目共睹，而在助力传统产业智能化方面，数据标注也有着广阔的赋能前景。一个非常容易被感知到的变化是，我们在致电银行、通信运营商，或者接到他们的服务电话时，会发现很多坐席人员变成了AI语音助手，能够精准识别天南海北的方言提出的疑问，这要归功于数据标注在方言识别上的突破，使得坐席人员可以从简单的问题中或通知性沟通中解放出来，将精力专注于服务更棘手的特殊问题，不仅提高了话务人员的工作效率，也减轻了机械性人工的投入。

“不仅是要服务高新技术产业，扶持和赋能传统产业的智能化升级，也是我们的使命，通过高纯净度的数据标注服务，无论是高科技产业，还是传统产业，都能获得智慧升级的机会。”Testin云测旗下AI数据服务（数据标注采集）品牌——云测数据总经理贾宇航这样说道。

创新和技术改造传统数据标注

虽然不如科技公司光鲜亮丽赚足眼球，数据标注行业一直巧居幕后默默无闻。根据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示，近几年，数据标注与审核行业快速发展，2018年市场规模已达到52.55亿元，而在这样的增量市场中，大批看到了企业需求的从业者疯狂涌入，使得整个行业出现良莠不齐的情况，数据粗放、混乱、复用的情况屡见不鲜，在贾宇航看来，这样的数据导入到机器学习中，结果是得不偿失的。

“AI发展和数据标注产业是一个鸡生蛋，蛋生鸡的逻辑，如果数据不够纯净，就像人吃了坏掉的食物，只会产生病状，不能起到吸收利用的作用。用到机器学习中，就会破坏AI的数据学习体系，产生大的误差，而误差产生后，后续的自主学习又会产生偏离，形成恶性循环。”

面对这样的问题，云测数据做出了一系列的应对措施。

为了满足不同场景的特殊需求，云测数据搭建了自己的场景实验室，为各种细分场景模拟无噪的专属数据。在数据标注行业，特定场景的数据在普通的场景下始终是可遇不可求的，比如马路上的摔倒场景，如果真的调取某一个特定道路摄像头的资料，符合“路人摔倒”要求的画面也许在1000分钟里都难以捕捉到一次，更不能满足各种角度、各个时段、不同年龄、着装、性别的学习要求。面对这种指向明确的需求，云测数据会搭建特定的场景棚，邀请各种“演员”，模拟不同的形态进行采集；为了采集不同的情绪在面部五官上的表现，云测数据甚至还在横店建立了一个数据场景实验室，专门邀请横店具有面部表情表现力的群众演员，为企业录制精准的情绪，以满足需要识别情绪的场景。

完成数据收集后，标注的过程依然存在挑战。在更多的数据标注企业中，依然在沿用传统的标注工具，“小米加步枪”式地进行数据标注，而云测数据团队研发的标注平台，率先实现了全品类支持，同时满足AI数据的三个维度：图像、文本和音频。在实际生产使用的过程中，针对一些特殊的标注，例如自动驾驶中的3D模型，由于文件大、渲染速度慢，导致标注效率很低，而这套自研的标注工具中包含的渲染引擎，就能保证整个过程的流畅和快捷。凭借这样工程化的研发改造，在面对客户的定制化的需求时，云测数据保证了自身的能力触达和及时响应，从而提高了服务能力和效率。在保证准确性的同时，降低了人为因素可能导致的误差，确保了降本提效。

在数据标注行业，复制一份数据是非常简单的，也能节省大量的人力成本，在业内成了大家心知肚明的“潜规则”。作为头部选手的云测数据，核心的原则，就是保证数据隐私性和安全性,而首先要做到的，是数据绝不复用。出于强烈的自我规范意识，云测数据对客户定制的数据交付后不留底，全部清删；第二就是保证数据隐私性。与所有数据采集的用户都签订数据授权协议，包括欧盟GDPR协议也做支持，确保AI企业用于训练的数据合法合规；第三，建立相关的数据保障机制，如从防火墙的设置、内部信息系统的管护、各个终端也做了不联网、USB接口封死等管理，从源头上保证了客户的数据安全。

“从整体看来，AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发，一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆，只有以这种负责的态度来服务客户，我们的行业才能‘良币驱除劣币’，真正让人工智能成为新一轮技术革命，改变整个社会和人类进程”。Testin云测CMO张鹏飞说道。

告别“血汗工厂”，培新+晋升让人工更“智能”

即便运用了各种技术手段，增加标注行业的技术含量和安全性，但由于行业过于低调，外界对这个行业依然存在误解，认为数据标注是“AI产业的富士康”，与AI“去人工化”的本质相违背。事实上，在云测数据的各个标注基地，近千人的标注团队并非人们固有印象中的“血汗工厂”。云测数据十分注重对标注人员的专业性培训，也致力于用自研的标注工具这样的技术手段，减轻“人”在数据标注中的重复劳动力。

从技术层面来说，云测数据自研的数据标注平台会根据实际使用中的反馈，以每周甚至更快的频率进行更新，以契合标注平台更人性化的使用。基于云测数据在过去的几年里进行的海量技术更新，并结合更多的落地场景，数据标注工作的技术含量也在不断提升。

从管理角度来看，过去数据标注业经常会面对“血汗工厂”的误解，有暗无天日、机械重复的固有印象。但实际上，云测数据的标注基地采取八小时工作制，也会提供用餐补助，让员工吃上安全丰盛的工作餐。此外，标注人员在云测数据也会享受到完善的晋升机制，从标注员到审核人员、项目助理、项目经理，云测数据提供了一条明确的职业上升路线，致力于协助标注人员进行职业规划和职业发展。至于近千人的用工规模，贾宇航认为，这和AI的本质也并不违背：

“AI就是要去人工化，这句话太片面，它其实也在创造更多的就业岗位。就像工业革命到来以后，很多手工作坊消失了，但我们也看到，更多的人工投入到了工业革命所创造出的其他行业中，AI的出现，同样也是扩大了人类的生产力。我相信其实人工智能的确会替代很多重复性劳动，但我不认为人的工作会变少，数据标注只是像工业革命一样，创造了更多的就业机会，同时也在推动行业的技术升级。”

在云测数据看来，将技术升级引进数据标注的过程，不仅仅是在解放重复生产力，对行业的推动也是巨大的，在云测数据内部，有着“一横一纵”的说法，一横，指的是有越来越多的行业会引入人工智能，而云测数据将在驾驶、家居、零售、金融和智慧城市等更多领域持续发力；一纵，指的是深挖行业趋势，结合领域相关的知识，提高AI数据精度、效率。

在未来，云测数据希望沿着人工智能的发展动线，通过AI数据服务的支撑，推动不同产业积极拥抱智能化，助力各行各业的发展。而在这样的趋势中，紧密链接产业链上下游的云测数据已经做好了准备，在潜在的爆发机会中，云测数据蓄势待发，为一场行业变革积累着可观的势能。

数据人工智能 Testin 云测

分享到：

1.TMT观察网遵循行业规范，任何转载的稿件都会明确标注作者和来源；
2.TMT观察网的原创文章，请转载时务必注明文章作者和"来源：TMT观察网"，不尊重原创的行为TMT观察网或将追究责任；
3.作者投稿可能会经TMT观察网编辑修改或补充。