文档名:基于自监督的主动标签清洗
摘要:主动标签清洗利用主动学习来进行标签噪声处理,以降低人工标注成本.现有的主动标签清洗方法仍然存在人工额外标注成本较高的问题,即挑选出的可疑样本中正确样本所占比例较高.为了缓解这一问题,提出了一种基于核心集的自监督主动标签清洗方法.首先利用自监督任务进行表征学习,随后将数据映射到特征空间中,并利用贪婪的K-Center集合覆盖方法挑选出可疑样本,最后根据不确定性筛选出标签噪声样本进行重标注.并同时考虑到了样本的代表性与不确定性,能够有效降低可疑样本中正确样本的比例.在含有不同比例标签噪声的公开数据集上的实验结果表明,在各迭代轮次中明显地降低了人工额外标注成本,同时也在一定程度上缓解了冷启动问题.此外,还通过消融实验证明了方法中自监督核心集采样模块和不确定性预测模块的有效性.
Abstract:Activelabelcleaningutilizestheactivelearningmethodforlabelnoiseprocessingtolowerthecostofmanualannotation.However,theexistingactivelabelcleaningmethodsstillsufferfromhighcostofextramanualannotation,particularlyduetoahighproportionofcorrectlylabeledsamplesamongtheselectedsuspiciousones.Toaddressthisproblem,aself-supervisedactivelabelcleaningmethodbasedoncore-setwasproposed.Firstly,self-supervisedtaskswereemployedforrepresentationlearningofallsamples,followedbymappingthesamplestoafuturespace.SuspicioussampleswerethenidentifiedusingagreedyK-Centersetcoveringmethod,andlabelnoisesampleswereselectedforre-labelingbasedonuncertainty.Byconsideringboththerepresentativenessanduncertaintyofsamples,thismethodcouldeffectivelylowertheproportionofcorrectsamplesinsuspiciousones.Experimentalresultsonpublicdatasetswithvaryingproportionsoflabelnoisedemonstratedthattheproposedmethodcouldsignificantlyreducethecostofextramanualannotationineachiteration,whilealsomitigatingthecoldstartproblemtosomeextent.Additionally,theeffectivenessoftheself-supervisedcore-setsamplingmoduleandtheuncertaintypredictionmoduleinthismethodwerevalidatedthroughablationexperiments.
作者:林晓 张秋阳 郑晓妹 杨启哲 Author:LINXiao ZHANGQiuyang ZHENGXiaomei YANGQizhe
作者单位:上海师范大学信息与机电工程学院,上海200234;上海师范大学上海智能教育大数据工程技术研究中心,上海200234;上海市中小学在线教育研究基地,上海200234上海师范大学信息与机电工程学院,上海200234上海师范大学信息与机电工程学院,上海200234;上海师范大学上海智能教育大数据工程技术研究中心,上海200234
刊名:图学学报 ISTICPKU
Journal:JournalofGraphics
年,卷(期):2024, 45(3)
分类号:TP391
关键词:主动学习 自监督学习 标签噪声 标签清洗 人工额外标注成本
Keywords:activelearning self-supervisedlearning labelnoise labelcleaning costofextramanualannotation
机标分类号:TP3TP183U266
在线出版日期:2024年6月19日
基金项目:基于自监督的主动标签清洗[
期刊论文] 图学学报--2024, 45(3)林晓 张秋阳 郑晓妹 杨启哲主动标签清洗利用主动学习来进行标签噪声处理,以降低人工标注成本.现有的主动标签清洗方法仍然存在人工额外标注成本较高的问题,即挑选出的可疑样本中正确样本所占比例较高.为了缓解这一问题,提出了一种基于核心集的自...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于自监督的主动标签清洗 Self-supervised active label cleaning
基于自监督的主动标签清洗.pdf
- 文件大小:
- 3.01 MB
- 下载次数:
- 60
-
高速下载
|
|