华高莱斯丨产业观察:人工智能的背后

 常见问题     |      2020-01-22 22:25

数据工厂,是AI产业体系里最末端的毛细血管,其中大部分“数据工厂”从事着劳动密集型的低附加值工作。

数据标注是一个成本敏感行业。市面上大部分数据标注需求较简单,诸如普通图像的拉框、声音的转录、文本的简单标注等,这些是人工智能起步的基础数据。对于还未能通过AI盈利的大部分企业来说,不愿也不必在数据标注环节支付高价格。为了降低成本,AI公司通常将数据标注需求拆分给多个团队。这一过程基本通过招投标的方式来进行,客户主要考察团队过往经验、完成订单的效率和单价。另外部分人工智能公司过分压低预算,把项目外包给一些不靠谱的团队,这些团队又会把任务层层转包,不仅无法保证质量和交期,最终接手项目的团队所获利润十分微薄。

同时,数据标注工作量很大。根据研究公司Cognilytica的报告,在大多数人工智能和机器学习项目中,数据准备和工程任务占据了80%以上的时间。数据标注员用最原始的办法,一张图接一张图地手动标记,但对于电脑接触较少的人也可经过几天培训后快速上手,每天上班七八个小时,完成千余张图片的标注。对成本的敏感,对人力的量而非质的需求,使许多数据标注公司聚集在人口密度较高省份的三、四线城市。

北京和贵阳,是数据标注世界里的两座“双子星”城市。2017年,仅北京中关村大数据产业规模就超过700亿元;贵阳的大数据产业及其关联产业规模总量超过1500亿元。北京可为周边提供强需求,聚集了大量人工智能公司,带动河家政服务北、河南、山东、山西等地区劳动力丰富且环绕中心一线城市的市县,以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求,例如作为人口大省的河南,聚集了数百家数据标注公司。

而贵州作为国务院钦定的大数据中心,贵安新区的大数据库灾备中心机房内,实现了国家与贵州灾备中心数据的同步传输和异地备份。贵州近年来着力发展“大数据战略”,建设了相对完整的数据服务产业生态。根据中国国家信息中心发布的《中国大数据发展报告》,2017年贵州的大数据发展政策环境指数居全国第一,截至目前,大数据产业对当地经济增长的拉动超过20个百分点。

贵州百鸟河数字小镇,通过发展“互联网+大数据应用”助力脱贫攻坚,2016年成为全国仅有的两个企业信息化建设示范基地之一。2017年5月,贵州省大数据管理局授予其“贵州省数字经济示范小镇”称号。

搭建信息基础设施,是数字小镇发展的基石:为满足入驻企业基本用网需求,数字小镇核心区双回路10G光纤已接入、4G通信基站和无线WiFi已全覆盖。

组建专家委员会,成立发展智库:专家委员会是数字小镇发展建设的重要推手和战略支点。目前,已组成了以中国工程院院士倪光南、清华大学、联想控股、北京软件协会、百度、TCL等专家和企业领袖为成员的专家委员会,为小镇发展出谋划策。

与大数据领军企业合作,提供数据服务:目前小镇引进大数据企业75家,与国内BAT、360等进行深度合作,例如百度大数据百鸟河基地以大数据的清洗、加工、标注为主业务,直接带动1000人以上就业。并引入其他数据标注企业,如HTC王雪红董事长领投创立的梦动科技团队,带动就业规模超千人,工作者有职高学生、聋哑人、新生代农民工等。其中近一半是附近一家扶贫高职“盛华职业学院”的学生,他们来这里进行数据标注的实习,这些学生的家乡属于贫困家政服务帮扶地区,网络闭塞,但他们经过几天培训就能上手,以产教融合的模式帮扶学生家庭脱贫。而聋哑人标注员虽然接受速度慢,但对视觉信号敏锐,因此数据标注也成为了聋哑人工作的新选择,京东众智平台上“静公会”也全部由听障人士组成。

从全球范围来看,印度及非洲等劳动力成本低的地区也逐渐成为新兴的数据标注中心。美国学校的科研项目较为依赖Am-Turk,Am-Turk上印度工作人员的数量仅次于美国人,人工比较廉价且懂英文的优势,使印度成为一个新兴的数据标注中心。印度已涌现的一批数据标注公司如Infolks、iMerit和Playment等客户覆盖全球,并且在加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆等地建立数据标注工厂,打造了多个全球AI数据标注村。

而非洲的数据标注工厂更多地与扶贫联系在一起。汤森路透基金2018年采取行动,通过人工智能图像标注为2万名难民提供收入机会。总部位于旧金山的公司Samasource是一家混合营利性/非营利性社会企业,客户包括谷歌、微软、Salesforce和雅虎等。这家公司主要在非洲布局来推动消除贫困,其在肯尼亚首都内罗毕以及乌干达的坎帕拉和古卢建立了数据工厂,内罗毕工厂的1000多名员工中约75%都来自办公室周围的贫民窟。Samasource目标雇佣人群多为单日收入在2美元以下或从事危险非正规工作的人,而它可以提供每天约9美元的工资,为当地人的生活带来了巨大的提升。

而我们也应看到,由于进入门槛过低,7、8万的启动资金,就可以在小城镇组起一个“工作室”,因此这些公司又面临着低价竞争的恶性循环。但现实的问题是,现在三四五线城市的小型标注团队由于人力素质问题,又只能承接简单的标注,无法实现差异化竞争。

当前AI行业处于起步阶段,数据与算法交替磨合前进,需求在不断变化。对于数据标注的需求也是周期性的,并非源源不断。现有的数据标注业务主要集中在安防和自动驾驶领域,2017年以前自动驾驶企业对数据量的要求非常大,路况信息庞杂,采集到路况图片后,需要人工对路牌、障碍物、交通信号标志等多种信息进行标注。但2017年后,数据标注行业就很少接到车牌标注的订单,因为标注量已经足够多,算法需要时间去慢慢消化,并落实应用。

目前能被建模量化的数据只占真实世界中的极少一部分。根据麦肯锡2017年4月发布的一份报告显示,到2025年,AI应用的总市场可能达到1270亿美元。而未来新需求随着AI深入更多垂直行业,将更加细分,需要的是专业的数据标注,但是能够承担专业领域标注任务的团队较少。由于较高的人才技术壁垒,这些公司多分布在一二线城市,如上海、杭州、成都、贵阳、北京、天津等地。

细分领域例如外文语音数据标注,代表公司如北京的泛函科技,可承接全世界30+类语言语音及图像文件的标注和清洗工作。而视频标注如宁波霓螺,可进行图像视频扫描与识别,通过建立视频内NILO标签标注点可自动跟踪物体的运动轨迹。

更高阶的是将专业性较强的传统细分行业进行AI化改造,当前较为热门的领域有图像的医疗影像识别及文本的专业语句标注等。

数据标注公司Awakening Vector的创始人Peter Yang说:“医疗业务需要非常细致的数据来让人工智能学会如何做出区别,例如在CT扫描中区别肿瘤和眼球。”它需要在大量不同的照片中,通过数据来指出照片中的肿瘤是什么样子,这就需要人工的来点击并标注图片。这种数据集标注工作基本无法众包,都是交给医生来完成的。

2017 年,Google AI 公布了一项突破性研究成果:通过机器学习技术,AI 能够从病人的视网膜眼底照片中自动诊断出潜在的病变情况,来提前发现糖尿病性视网膜病变,进行及时的治疗和预防,让患者保住视力。Google 与印度和美国的眼科医生合作,创建了含有 12 万张图像的开发数据集,由54 名医生从这些视网膜眼底照片素材中标记出超过 88 万个确诊症状。

算法性能(黑色曲线)和八位眼科医生(彩色圆点)在由9963个图像组成的验证集上判断病变,即判断是否存在可

而法律领域的法意科技、LawGeex,靠自己的法律专业团队从事做自然语言理解的数据标记和系统训练,进行数据标注的员工至少为大三及以上的法律水平,因此对于人力素质要求高且成本高昂。

AI在行业落地时,屡遭困难,家政公司很大一个原因在于传统行业与AI之间的隔阂仍然明显。这些公司很多仍然不清楚自己真正的需求是什么,有能力做到深度、定制化服务的团队并不多。这些专业化的公司有来自于传统行业背景或是AI行业的前端团队,可就行业改造需求进行深入沟通,明确采集数据的种类及标注的维度。这类众包或普通数据标注公司无法提供的定制服务,使他们产生更高的溢价空间。