报告题目:开放域实体识别及其类别层次化
报告日期及时间:2015年11月11日(周三)下午16:00
报告地点: B403
报告人: 秦兵教授
报告人单位:哈尔滨工业大学
报告人简介:秦兵,哈尔滨工业大学计算机学院教授、博士生导师。哈尔滨工业大学社会计算与信息检索中心副主任。中文信息学会信息检索专委会委员、社会媒体信处理专委会委员。多年来一直从事自然语言处理研。主要研究方向:自然语言处理、文本挖掘、情感分析等。曾在多伦多大学进行短期工作交流,在顶级国际会议ACL、COLING、EMNLP、IEEE TKDE、IEEE TASLP等国内外重要期刊及会议上发表论文60余篇,参加SemEval2014中的Twitter情感分类任务,在45支国际参赛队伍中取得第2名。担任多个会议领域主席以及多个期刊和会议的审稿人。主持多项国家自然科学基金以及国家科技部863项目。同时和多家互联网企业开展合作,多项研究成果进入企业产品。获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省技术发明二等奖。
报告摘要:开放域实体识别及其类别获取是知识库构建中的基础。由于传统命名实体的类别有限,不能完全满足自然语言处理领域其他任务的需求。开放域实体识别及其类别获取可以更灵活的处理自然语言处理中的实际任务。因此本报告主要围绕研究开放域命名实体的识别及类别获取展开,首先通过双语语料自动构建开放域实体识别语料,提高开放域实体识别的性能。开放域实体类型获取可以从多个信息源中挖掘并筛选出置信度高的类型,层次化构建是根据实体类型,利用词的分布表示,学习从下位词到上位词的分段映射矩阵,进而构建大规模实体间的上下位关系。开放域命名实体的识别和类别获取可以为信息抽取、 信息检索、开放域问答、机器翻译等任务提供支持。
邀请人: 钱铁云副教授