但在几个不同的记录中重复出现。例如两个人有相同的护照号码;
重复——某些对象被描述两次,例如,数据库中有两个完全相同的用户;
矛盾 - 关于一个对象的数据在不同地方有所不同,例如,一个人的姓氏有时写成 Balashev,有时写成 Balashov;
不正确的链接 - 一条记录中特征之间的链接被破坏,例如,名字和姓氏混淆了。
標識錯誤。在一个特征的级别上,可能存在更多错误 - 以下是一些主要类型:
缺少价值 -某些单元格保持为空 - 例如,一个人没有姓名,或者没有电话号码,而是一组零;
不正确的值 -单元格中包含信息,但不符合格式 - 例如,年龄 20 而不是 20;
拼写错误 -单词写错了,例如“Sanktpeterburg”写成了“Sankt Petersburg”;
多义性—— 不同特征中相同的含义被不同地称呼——例如“护士”和“护士姐姐”;
异常值 -属性中的信息不可能是真实的 - 例如,在世的人的年龄为 271 岁,日期为 3 月 34 日;
词语颠倒——具有同一含义的单词在不同位置具有不同的顺序——例如,“建筑材料”和“建筑材料”;
值的嵌套 -一个特征包含多个值 - 例如城市“彼尔姆、奔萨”。
反映某些设备读数的数据还包 电话号码库 含噪音 - 干扰,例如音轨上的沙沙声或视频上的条纹。如果信息是从不同的来源收集的,则可能会出现不同类型的数据的问题:在一个地方日期写为 4 月 7 日,而在另一个地方写为 07.04。
如果样本中仍然存在错误,模型可能会误解它们并在之后产生错误的答案。假设她确实将“圣彼得堡”视为一个独立的城市,与圣彼得堡无关。或者记住三月有34天。
成为一名数据分析师,获得抢手的专业技能
阅读更多
成为一名数据分析师,获得抢手的专业技能
数据清理的工作原理
用于分析或模型训练的数据是巨大的样本。手动从数十万个值中删除“垃圾”非常困难,有时甚至是不可能的,因此大多数情况下该过程都是自动化的。
我们先从技术角度来谈一下什么叫“清晰的数据”。清洁主要有三种方法。