去除器

清除标注错误的数据

发布时间:2022/5/15 15:46:00   
北京看白癜风哪间医院最好 http://disease.39.net/yldt/bjzkbdfyy/index.html

机器训练有输入X和输出标注Y组成,但有时你发现一些标注是错误的,那这时是否要修正呢。

准备工作:

错了就要纠正。

训练集中错误:

来看个例子,如图还是猫脸分类器,其中有猫和狗的图片,我们发现倒数第二张白狗的图片被错误标注成了猫,这也许是工作人员疏忽导致,白狗的图片很多标记成了猫,那是否要修正呢?

如果这种错误发生在训练集,算法对训练集中的随机误差会有很好的鲁棒性,如果这些错误是分布随机的,那么你可以不进行修正;通常训练集都会很大,如果不是集中类的错误,对算法的效果影响不大。

开发集和测试集处理:

如果是开发集和测试集,你可以使用误差分析的方法,看看是否值得花时间去纠正。

如图在表格中增加标注错误的列,对于个例子中有标注错误导致的就打勾,最后做统计,如占了6%,这时再进行分析。

如果训练集误差是10%,那标注错误导致的误差占了0.6%,其他的导致了9.4%,那这时你就该集中精力解决其他所导致的错误,标注错误占比并不大。

假如你解决完其他错误,发现还有2%的误差,那这0.6%的误差就导致了30%错误,其他占1.4%,这时你就有必要花时间去纠正这些错误标签。

还有就是训练集目的是让你在两个分类器A和B中选择最优的,如果这时两个误差是2.1%和1.9%,其中因为标注错误占了0.6%,你就不能准确的评估两个分类器的优劣。

标注错误处理原则:

在做标注错误修正时有几个原则需要注意下:

一是测试集和开发集要做同样的修正,因为之前我们说过开发集和测试集要来自同样的分布,这两个数据集相对于训练集又比较小。

二是你要分析因为标注导致的错误,同时也要分析正确的处理,因为有可能你的网络会碰巧把数据识别正确,当然一般不建议这么做,因为比较困难,正确的数据相对误差数据会很多。

第三是训练集的数据和开发集的数据所处的分布,可以不那么相同,因为训练集一般很大,会有很好的鲁棒性。

小结:

错误标注的数据,要进行分析处理。

预览时标签不可点收录于话题#个上一篇下一篇
转载请注明:http://www.aideyishus.com/lkyy/286.html
------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章