大赛介绍
数据和人才是新时代数字经济发展的重要生产要素。“2019数据智能创新应用大赛” 是由北京市科学技术委员会人才交流中心和北京百分点信息科技有限公司联合举办的智能对话顶尖赛事。
大赛以“创新应用 · 数据赋能”为主题,致力于为全国高校、企业、团队和个人搭建一个公平开放的数据智能创新应用竞技平台。邀请高校学科带头人、业界专家、企业技术负责人担任大赛评委,通过“赛事评选、人才培养、科研创新、产业转化”创新模式,目标是探索用数据智能来解决现实世界问题的可行性,为企业和社会挖掘并培养掌握新一代信息技术的数字人才,加强数字人才体系建设,构建数字产业生态 ,推动数字经济发展。
这里,是汇集人工智能领域顶尖专家交流技术成果的平台,是科研才俊展现技术实力与创造力的竞技场,是心怀科技理想的青年工程师们展示卓越才华的最佳舞台。诚挚期待您的加入与参与,快来报名吧!
赛题介绍
任务:基于Adversarial Attack的问题等价性判别
近年来,智能对话技术取得了长足的进展,但是针对专业性较强领域的问答系统,如何准确的判断知识库中是否存在与用户输入的语义等价问题,是提高智能问答准确度的关键。目前针对问题等价性判别,利用深度学习模型在给定的训练集和测试集上,效果取得了显著的进展。
但是,现在问题等价性模型的效果评测都是在“干净”的数据集上测试的,以最为著名的Quora问题等价性为例,该数据集中的问题均为符合语法规则且毫无拼写错误的句子构成的。然而,在实际的问答应用场景中,用户输入的问句常常是高度口语化的,这种情况下,输入的问题会有明显的噪音,这些噪音会严重影响深度学习模型的效果。举例而言,一些噪音可能来自于:
1) 用户拼写或者语音转文字的错误,例如用户将“寻衅滋事一般会怎么处理”输入为“寻衅兹事一般会怎么处理”,这种情况在语音转文字的过程中较为普遍;
2) 针对语音转文字的情况,用户可能会插入很多口语词,例如“嗯,我问一下啊,就是,法院,啊,管不管扰民啊”;
3) 用户输入高度口语化的句子,这些句子不符合语法规则,例如“法院该不该管管辖停车的事情啊”。
以上只是部分可能出现的噪音,构造针对这些噪音稳定的模型,十分有助于提高智能问答系统的用户体验。因此,本任务在测试集中加入大量的对抗样例(Adversarial Example)来模拟以上场景,需要参赛选手在任务中提高问题语义等价模型的鲁棒性(注意,在发布的训练集和验证集中均没有加入对抗样例)。同时,本赛事面向参赛选手公开业内首批法律问答类数据集。
大赛日程
- 赛题发布 11月06日
- 参赛报名 11月06日起
- 测试验证 12月16日
- 任务提交 12月17日
- 颁奖典礼 12月底