关灯
开启左侧

[淘客推广] 新闻天下何为数据标注数据清洗_12022/8/30 12:31:37

[复制链接]
xiangweilai 发表于 2022-8-30 12:31:38 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
数据清洗(D )– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据标注公司的最新消息可以到我们平台网站了解一下,也可以咨询客服人员进行详细的解答!http://syzh-ai.com/
数据清洗的主要包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺空值、丢弃数据变量。 一般来说在人工智能行业数据清洗主要是 将采集过来的语音、图片、视频、文本等数据挑选出来重复的、混乱的等等一些不符合项目要求的数据并把它给过滤掉,并使剩余部分数据达到符合项目需求的数据从而减少接下来标注工作中了出现用的标注工作量。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据(如上图所示)。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。 数据清理一般针对具体的项目,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。 1解决不完整数据( 即值缺失)的方法 大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、比较大值、比较小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。 2错误值的检测及解决方法 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。 3重复记录的检测及消除方法 数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并清除)。合并清除是消重的基本方法。 4不一致性( 数据源内部及数据源之间)的检测及解决方法 从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为类
 
高级模式
B Color Image Link Quote Code Smilies

本版积分规则


0关注

0粉丝

35419帖子

热门图文
热门帖子
排行榜
作者专栏

关注我们:微信订阅号

官方微信

APP下载

全国服务Q Q:

956130084

中国·湖北

Email:956130084@qq.com

Copyright   ©2015-2022  站长技术交流论坛|互联网技术交流平台Powered by©Discuz!技术支持:得知网络  

鄂公网安备 42018502006730号

  ( 鄂ICP备15006301号-5 )