文档名:面向ELAN软件的手语汉语平行语料库构建
手语汉语平行语料库建立的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化.手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息.本文提出使用基于向量空间的余弦相似性算法实现了手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库的质量.
作者:吴蕊珠 李晗静 吕会华
作者单位:北京联合大学北京市信息服务工程重点实验室,北京100101北京联合大学特殊教育学院,北京100075
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:手语汉语 平行语料库 多媒体标注软件 相似度计算 余弦相似性算法
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 786.49 KB
- 下载次数:
- 60
-
高速下载
|
|