数据采集和标注是什么意思

人工智能主要以有监督学习的模型训练方式为主 , 对于数据有着强依赖性需求 。


数据采集是指采集图像、文本、语音、视频等数据,这些数据以原始数据为主,数据未经处理 。


数据标注是对未处理的初级数据, 包括语音、图片、文本、视频等进行加工处理, 并转换为机器可识别信息的过程 。原始数据一般通过数据采集获得, 随后的数据标注相当于对数据进行加工, 然后输送到人工智能算法和模型里完成调用 。


数据采集和标注是什么意思

文章插图
一张经过数据标注后的图片


【数据采集和标注是什么意思】简单来说,数据标注就是数据标注员借助标注工具,对图像、文本、语音、视频等数据进行拉框、描点、转写等操作,产出满足AI机器学习的标注数据集的过程 。
数据采集:是通过线上线下的方式,完成多场景下的数据收集,包括文本采集、语音采集、图像视频采集及问卷调研等,当然不同类型的数据采集需要用到不同的采集工具,比如大部分照片和视频采集使用手机即可,语音采集数加加有专属的采集APP 。一定要按照要求的采集工具进行数据采集,否则数据将是无效数据 。数据标注:是对文本、语音、图像、视频等众多类别数据 , 进行多类型的筛选、标点、分类、提取服务,如人脸拉框、车辆标注、语音转写、视频打签等 。我用过数加加众包平台,上面的任务都非常轻松且不乏趣味 。周末逛街逛超市时随手一拍,平日等公交地铁时做做手势,甚至在家躺床上休息时录段语音,都可以完成任务