机器人群聊比赛


       欢迎来到第二届SMP机器人群聊比赛(The 2nd SMP Multi-bot Conversation Challenge, The 2nd SMP-MC)。

 

      人机对话技术是人工智能领域的一个重要研究方向,从手机智能助手,到闲聊陪护型聊天机器人,再到各种面向场景的任务型对话系统平台和智能家居,人机对话系统渐渐融入人类社会的日常运行中,促进了将来人机共融社会的发展。然而,目前的人机对话系统在主导对话的能力和整体性能的评价方面存在巨大的挑战。


      2019年,中国中文信息学会社会媒体处理专委会(SMP)主任、哈尔滨工业大学刘挺教授提出了举办机器人群聊比赛的设想,通过机器人群聊的方式检验多个人机对话系统对对话主题的主导、对话上下文建模以及对话回复的流畅度、多样性等关键技术的效果,并以此促进以上对话系统相关技术的发展。同时,通过机器人群聊的方式,能够便于人们在相同的聊天场景下评价不同的对话系统的整体性能。


      第二届SMP机器人群聊比赛(The 2nd SMP-MC2 )在中国中文信息学会社会媒体处理专委会社交机器人工作组的指导下,由哈尔滨工业大学社会计算与信息检索研究中心具体负责组织举办。本次比赛旨在促进人机对话技术在多方对话场景上的发展,充分挖掘人机对话技术在群聊场景下的潜力,为人机对话技术相关的学术界研究人员和产业界从业人员提供一个良好的沟通平台。在此,我们诚邀各个单位参加第二届SMP机器人群聊比赛(The 2nd SMP-MC2  )!

 

■ 评测任务

1. 任务描述

在机器人群聊场景中,已知群聊主题和历史消息记录,要求生成符合群聊主题和上下文逻辑的回复。同时,所生成的回复需要流畅且与群聊对话主题相关。

 

2. 任务说明

•  群聊主题


在任务中,我们会给定群聊主题,在每个主题下进行N×10轮对话( N 表示参与群聊机器人总数)。本届群聊比赛将使用以下五个主题:电影 、数码产品、美食 、音乐、体育

•  轮转策略


在某个群聊主题下,我们将按一定策略初始机器人回复顺序,确保所有机器人的回复优先级总体相同。而在其他群聊主题中,我们将多次轮番调换机器人回复顺序,以保证最终评分环境的公平性。

•  消息决策


在评测任务中,当我们向每个机器人请求回复时,会提供当前群聊主题和历史消息记录。参赛队伍需要根据群聊主题和历史消息记录进行相关决策,以生成合理的回复。

 

■ 评测形式

1. 训练数据

我们将提供部分多方主题闲聊数据供参赛队伍参考,除此以外,参赛队伍可以自行收集或使用开源的对话数据进行模型训练。

 

2. 参考模型

我们将提供 Baseline 工具包供参赛队伍参考,包括检索式和生成式两种基本模型。

 

3. 模型提交

参赛队伍只需要提供聊天机器人的接口API即可,我们将调用该接口API进行群聊评测。

 

4. 在线评测

我们将提供在线评测平台以及排行榜供参赛队伍调试参考。在线评测时,我们会将参赛队伍机器人和两个 Baseline 机器人组成群组进行主题聊天。

 

5. 晋级规则

初赛时,我们会将所有参赛队伍随机分若干组群聊,其中每组 5 支队伍,进行若干个主题的若干群聊。我们将对群聊日志进行自动评价,取每组前两名晋级。然后,进行下一轮分组,逐次进行,直到最后剩余若干支(>=6)队伍进入决赛,决赛排名将以人工评价为依据。

 

注: 评测详细说明将在比赛官网公布,请关注后续邮件通知。

 

■ 评测指标

1. 自动评价

初赛阶段采用自动评价指标,机器人在群聊中的性能表现将会作为排名依据。自动评测所使用的指标包括:

•   Topic:评估输出回复和群聊主题的相关程度。

   Perplexity:评估输出回复的流畅性。

   Distinct:评估输出回复的多样性。

我们将对参赛机器人在三个指标上的得分取平均值来进行初赛排名。

 

2. 人工评价

决赛阶段,我们将使用众包的方式对群聊中每个机器人的回复在如下三个方面进行评价:

   Topic:生成的回复是否符合当前群聊主题(考虑主题)。

•   Fluency:生成回复的表达是否流畅,无语法错误(考虑句子)。

•   Appropriateness:生成的回复是否符合人们的日常交流习惯(考虑上下文语境)。

其中,在每个指标上至少有5个人进行评价,每个指标评分取值集合为,0表示差,1表示一般,2表示好。

 

注: 此次比赛中我们将采取匿名评测,即排行榜对外只公布参赛队伍的代号和评测成绩,不公布参赛队伍的具体信息。

 

 

注册报名

1. 报名

有意向参加的单位机构请填写 The 2nd SMP-MCC 报名表(https://docs.qq.com/form/fill/DVFpHU1ZIZkFnVHJa_w_tencentdocx_form=1,也可扫描下方二维码)。

 

2. 网站注册

评测网站将于4月中旬上线,届时我们将通过报名表中所留邮件通知参赛队伍。参赛队伍需要注册以提交API和进行在线评测。

 

 

重要日期

以下所有时间点为北京时间(GMT+8)11:59 PM

 

时间

任务

2020年3月20日

发布评测方案,开始报名

2020年4月13日

上线评测网站,开放注册

2020年4月20日

发布数据集、工具包

2020年5月4日

开放在线评测

2020年5月4日 - 2020年7月4日

参赛队伍系统开发及调试

2020年7月5日

初赛

2020年7月16日

决赛

2020年7月17日 - 2020年7月31日

人工标注评测

2020年8月上旬

参赛队伍技术报告及颁奖

 

注: 具体时间请关注后续官网以及邮件通知。

 

 

奖项设置

 

奖项

名额

奖金额度

一等奖

1

20000元

二等奖

2

10000元

三等奖

3

5000元

合计

6

55000元

 

 

组织委员会

 

评测主席

张伟男

哈尔滨工业大学

 

副主席

张洪忠

北京师范大学

黄民烈

清华大学

车万翔

哈尔滨工业大学

 

评测委员会成员

张开颜

哈尔滨工业大学

张家乐

哈尔滨工业大学

冯梓娴

哈尔滨工业大学

 

 

联系方式

如果有任何与本次评测相关的问题,请随时联系会务组。

评测会务组邮箱:smp_mcc@163.com

 

 

致谢

中国中文信息学会社会媒体处理专委会社交机器人工作组
哈尔滨工业大学社会计算与信息检索研究中心

 

 

本评测方案的最终解释权归 SMP-MCC 组织委员会所有

 

 

 

 

技术评测与数据共享征集


      由中国中文信息学会社会媒体处理专委会主办、浙江大学承办的第九届全国社会媒体处理大会(The Ninth Chinese National Conference on Social Media Processing, SMP 2020)将于2020年9月4-6日在杭州举行。SMP大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理领域最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。

 

      技术评测和数据共享是SMP大会的重要组成部分,其目的是推动本领域学者之间的技术交流和数据分享,促进本领域的技术进步和应用发展。SMP大会技术评测自2016年开始已举办了用户画像、人机对话、情感分析、阅读理解、文本溯源等9个评测单元,共吸引了来自全球的5000余人次参加。

 

      为了进一步提升SMP大会技术评测和数据共享的质量与影响力,现面向广大SMP委员和会员征集2020年度技术评测任务和数据共享发布,具体事项如下:

 

■ 技术评测征集

1、征集范围

社会媒体处理相关技术评测均可,包含但不限于:信息抽取、情感计算、舆情分析、用户行为分析与预测、问答系统、人机对话、知识图谱等。鼓励与新冠肺炎疫情相关的技术评测任务!

 

2、提案要求

应清楚地描述评测背景、评测任务、使用数据集(包括数据来源、数据规模、标注情况等)、评测标准、奖励措施以及主要负责人。

 

3、评估录用

SMP2020组委会将会与提案负责人进行深入沟通,评估提案的质量和可行性,决定是否列入SMP2020技术评测单元。

 

■ 数据共享征集

1、征集范围

社会媒体处理相关领域的数据集均可,包括但不限于:专题数据集、行业数据集、学术论文附带数据集等。鼓励共享发布与新冠肺炎疫情相关的数据集!

 

2、数据要求

(1)请提供详细的数据说明(包括数据内容、数据规模、数据质量、数据字典等);(2)数据不存在任何法律风险,包括不违反国家和单位保密规定、不存在版权争议、不侵犯用户隐私等。

 

3、数据发布

SMP2020组委会将对符合要求的数据分别在SMP大会、SMP网站、SMP公众号以及其他SMP合作平台进行公开发布和宣传。

 

      请将您的技术评测提案或数据共享意向通过电子邮件提交至:hywan@bjtu.edu.cn(万怀宇)。征集截止日期:2020年4月15日。我们诚挚地感谢您的参与和贡献!

 

 

SMP 2020组委会

2020年3月26日

 

 

 

 

 

SMP2020中文人机对话技术评测(ECDT)


欢迎

      欢迎来到SMP2020中文人机对话技术评测(The Evaluation of Chinese Human-Computer Dialogue Technology,SMP2020-ECDT)。

    “第九届全国社会媒体处理大会(The Eighth China National Conference on Social Media Processing)”将于2020年9月4日在杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP 2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。

在本届SMP会议上,我们继续举办中文人机对话技术评测(ECDT)。近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。

      本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司、清华大学承办,华为公司提供奖金。旨在促进中文人机对话系统相关研究的发展,为人机对话技术相关的学术研究人员和产业界从业人员提供一个良好的沟通平台。在此,评测会务组诚邀各个单位参加本次人机对话技术评测活动!

 

■ 评测内容

评测任务概述

      本届人机对话技术评测主要包括两个任务,参赛者可以选择参加任意一个任务或全部任务。

任务1:小样本对话语言理解技术评测

【背景介绍】

      近年来,人工智能在深度学习方法的帮助下取得了令人瞩目的成就。然而目前的深度学习方法都需要大量的标注训练数据,而在真实的落地场景下,大量人工标注数据往往是很难获得的。以任务型对话为例,产品开发时往往难以获得待开发功能的真实用户语料。即使有生语料,任务型对话开发也面临着人工数据标注成本高昂的挑战。同时,像对话系统这样的人工智能应用往往面临着需求频繁变化的问题,导致繁重数据标注任务常常需要反复进行。反观人类,人在学习一个新的任务时只需要少数几个样例。这种巨大的反差启发科研人员开始探索能够像人一样,利用先前经验和少量数据进行学习的人工智能系统。

 

 

      小样本学习(Few-shot Learning)就是专门针对上述问题的新兴研究方向。小样本学习专门研究如何利用过往经验知识,在新的任务上只使用少数几个样例数据进行学习,通常在新的任务上每个类别只有1-5个样例数据。关于小样本的研究以往主要集中在图像领域,自然语言领域的小样本研究有着独特的挑战且有较大的实际意义,是非常值得探索的新兴研究领域。

本次评测中,我们着眼于任务型对话系统中对话语言理解任务(SLU,Spoken Language Understanding)的小样本学习问题。对话语言理解是任务型对话系统的关键组成模块,它负责将用户输入的自然语言转化为结构化的语义框架(Semantic Frame),为后续的对话管理模块和回复生成模块提供支持。如图二所示,任务型对话频繁面临新的需求和领域,而SLU模块针对不同领域的标注规范往往差异较大,使得SLU模块经常面临数据不足的严峻考验。综上,本次评测既有开拓自然语言下小样本问题的研究意义,同时也兼有切实的实际应用意义。

 

【任务描述】

      对话语言理解SLU(Spoken Language Understanding)是任务型对话系统的关键组成模块,它把用户的自然语言输入(Utterance)转化为结构化信息(Semantic Frame)以为后续的对话状态管理和回复生成提供支持。其中Semantic Frame包括用户意图(Intent)和语义槽(Slot)。

      区别于普通的对话语言理解,本评测关注小样本学习场景,即每个测试类别只有几个标注样例。具体任务如图三所示,模型先在一些数据充足的领域训练,然后在未见的新领域上测试。针对一个领域,我们每次给定模型一个带标注的支撑样本集(Support Set)作为参考,让模型对任意未见过的查询样本集(Query Set)标注用户意图和槽位。以图三中测试领域为例,给定Support Set,和Query句“播放阿凡达”,模型需要预测出意图为“播放电影”,槽位为【电影:阿凡达】。(通常训练时为模拟小样本情形,训练领域数据也会构造为Support-Query 形式训练模型,这里我们不做强制要求)

 

 

【评测方式】

  1. 1. 训练数据集:

若干富数据领域的单轮对话语料,每条语料标注有意图Intent和语义槽Slot。

评测队伍可以视自己需要对数据进行处理、训练。

  1. 2. 测试数据集:

若干个训练集未出现领域的数据,每个领域公开一个支撑集Support Set,模型在对应查询集Query Set上进行评测,Query Set数据不公开。

每个Support Set保证任意一个意图类别和语义槽类别至少被3条语料覆盖。每个Domain中意图类别有5-10种,语义槽类别有5-20种。

(评测队伍针对每个领域提交一个模型文件,不同领域的数据和测试过程彼此独立。)

  1. 3. 开发数据集:

格式同测试数据,我们同时公开每个领域的Support Set数据和Query Set数据。

评测队伍根据自己的需要使用。

  1. 4. 数据格式:

数据采用json格式,每条语料的标注格式如下:

[
   {
      "text": "查询今天的天气",
      "domain": "查询助手",
      "intent": "查天气",
      "slots":{
       "日期": "今天"
     }
  },
]
 
【评价指标】

评测队伍为每个测试领域提交一个模型文件,评测系统使用参赛队伍提供模型在每个测试领域的Query Set上进行Intent和Slot预测。具体评价方式如下:

● 对于小样本意图分类任务,我们采用准确率(acc)来评价,当意图识别的结果和标准答案相同时才被认为正确。

● 对于小样本语义槽填充任务,我们采用F1-score作为评价指标,当预测的槽位的一个key-value组合与标准答案的一个key-value组合完全一致视为一个正确预测。

● 综合评价,我们采用句准确率(sentence acc)来衡量模型意图识别和语义槽填充的综合能力,当一句话Intent和Slot都识别正确才算正确预测,其余算错误预测。

我们会给出三项分别排名作为参考,最终比赛排名以sentence acc为准。

 

【奖励设置】

一等奖(1名)20,000元

二等奖(2名)各10,000元

三等奖(4名)各2,500元

 

【相关资源】

论文:
Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network. Yutai Hou, Wanxiang Che, Yongkui Lai, Zhihan Zhou, Yijia Liu, Han Liu, Ting Liu. ACL 2020. [pdf]

 

【任务负责人】

车万翔(哈尔滨工业大学)

联系人:侯宇泰(哈尔滨工业大学)、茅佳峰(哈尔滨工业大学)

联系方式:

茅佳峰-jfmao@ir.hit.edu.cn

侯宇泰-ythou@ir.hit.edu.cn

 

任务2:知识驱动的多轮对话竞赛

【背景介绍】

      在人机对话系统领域,尽管对话生成的任务得到了广泛的研究,但是对于驱动对话生成的知识的建模却由于缺少数据支持亟待研究。如可以在多轮人机对话中有效的对知识的交互进行建模,则可以极大地提升人机对话系统的逻辑性,信息量,可解释性等智能化程度,从而带来更好的用户体验。

 

【任务描述】

      在对话场景下,已知对话上下文和所有知识图谱信息,要求生成符合知识图谱信息与上下文逻辑的对话回复。

      知识图谱由一系列三元组(如<头实体,关系,尾实体>)描述。

      所生成的对话回复需要足够流畅、与对话上下文语义相关并且符合相关的知识图谱信息。

 

【数据介绍】

本竞赛所准备的数据被分为三部分:训练集、验证集与测试集,其中训练集和验证集开放给各参赛队。测试集在竞赛结束前不会开放给参赛队。

训练集

训练集中包含三个领域各 1200 个对话,每个对话平均19轮,以及与这些对话相关的知识图谱信息和知识标注。

验证集

验证集与训练集独立同分布采样构成,包含三个领域各 150 个对话,以及与这些对话相关的知识标注。

测试集

测试集的构造方法与验证集相同,但是为模拟实际应用场景,仅提供对话文本作为上下文,由模型根据当前上下文以及训练集提供的知识图谱生成对话回复。

 

【数据实例】

      utterance 为对话文本,knowledge 为当前轮次对话应用的知识三元组标注,知识图谱信息由相同的知识三元组构成(规模较大不在此展示),以c下列出的是训练集的对话数据实例(包含对话文本信息和相关知识标注)。测试集为模拟实际应用场景,仅提供对话文本作为上下文,由模型根据当前上下文以及训练集提供的知识图谱生成对话回复。验证集为便于参赛者开发模型调整参数,同时开放对话文本与知识标注信息,与训练集构造相同。

 

utterance: 知道崔健吧?
knowledge: None
utterance: 健哥,必须知道啊,提到他就不得不说他的成绩了,太杰出了。
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 别名, 健哥>
utterance: 是的,曾获过MTV音乐录影带大奖国际观众选择奖,华语音乐传媒大奖殿堂音乐家奖。
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 主要成就, MTV音乐录影带大奖国际观众选择奖>, <崔健(中国内地男歌手、音乐人、电影人), 主要成就, 华语音乐传媒大奖殿堂音乐家奖>
utterance: 还有音乐风云榜终身成就奖等等。他为中国的摇滚音乐真的是做出来杰出的贡献啊!
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 主要成就, 音乐风云榜终身成就奖>
utterance: 是的,他除了是词曲家,音乐制作人还做过什么啊?
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 职业, 词曲家>, <崔健(中国内地男歌手、音乐人、电影人), 职业, 音乐制作人>
utterance: 还做过小号手,吉它手,导演……太多了。
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 职业, 吉他手>, <崔健(中国内地男歌手、音乐人、电影人), 职业, 导演>, <崔健(中国内地男歌手、音乐人、电影人), 职业, 小号手>
utterance: 他是哪年出生的呢?
knowledge: None
utterance: 1961年08月02日出生的。
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 出生日期, 1961年08月02日>
utterance: 啊,那他出的歌,你喜欢的都有哪些呢?
knowledge: None
utterance: 《花房姑娘》、《一块红布》等等。
knowledge: <崔健(中国内地男歌手、音乐人、电影人), 代表作品, 花房姑娘>, <崔健(中国内地男歌手、音乐人、电影人), 代表作品, 一块红布>
utterance: 《一块红布》是由他创作的吧?
knowledge: None
utterance: 是的,由他自已作曲,编曲,填词完成的。知道它是哪年发行的吗?
knowledge: <一块红布, 谱曲, 崔健>, <一块红布, 编曲, 崔健>, <一块红布, 填词, 崔健>
utterance: 是1991年,这首歌得过奖吗?
knowledge: <一块红布, 发行时间, 1991年>
utterance: 这个不清楚,你知道它被收入了哪张专辑吗?
knowledge: None
utterance: 它被收进了《解决》里。
knowledge: <一块红布, 所属专辑, 解决>
utterance: 这个专辑我也听过,它是收崔健,刘红森担当制作人的,听说这个专辑日本也有发行是吗?
knowledge: <解决, 制作人, 崔健,刘红森>
utterance: 是的,发行地区有台湾,香港,中国大陆,日本。专辑里有几首歌啊?
knowledge: <解决, 发行地区, 台湾,香港,中国大陆,日本>
utterance: 10首,它的发行公司是哪家啊?
knowledge: <解决, 曲目数量, 10>
utterance: 这个我不是很明确。
knowledge: None
utterance: 好的,谢谢你。
knowledge: None

 

【评价规则】

  1. 1. 自动评价

初赛阶段采用自动评价指标,参赛队需提交自己的模型。模型在测试集上的性能将会作为排名依据。

自动评测所使用的指标包括:

BLEU-4:评估输出回复相对于标准回复的n-gram重合度。

Distinct-2:评估输出回复的多样性。

我们会分别计算各个模型在以上两个指标上的排名,并以每个指标排名的平均值作为排行榜的排序依据(排名相同时按照BLEU-4,Distinct-2 的顺序比较各项指标数值大小确定名次)。

  1. 2. 人工评价

决赛阶段选取排行榜中排名前10的对话系统进入人工评估。人工评估过程中会在三个领域的测试集中各选取100个对话样例,并使用众包的方式对各参赛队所生成的回复在如下两个方面进行评价:

Informativeness:生成回复包含相关知识图谱信息量。

Appropriateness:生成回复是否符合人们的日常交流习惯。

最终排名以人工评估结果为依据。

 

【奖金分配】

一等奖(1名)20,000元

二等奖(2名)各10,000元

三等奖(2名)各5,000元

 

【相关资源】

论文:

KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation

数据集:

https://github.com/thu-coai/KdConv

 

【任务负责人】

黄民烈(清华大学)

联系人:郑楚杰(清华大学),周昊(清华大学)

联系方式:

周昊- zhouhao16@mails.tsinghua.edu.cn

郑楚杰- zcj16@mails.tsinghua.edu.cn

 

任务1、2评测方式

      本次评测将主要采用Codalab平台作为评测方式,数据及CodaLab平台将于2020年6月15日上线

 

 

注册报名

有意向参加的单位机构请直接填写在线报名表

扫描二维码进入在线报名表填写。

 

 

报名存在任何问题,请联系评测会务组:smp2020ecdt@163.com

 

 

重要日期

以下所有时间点为北京时间(GMT+8)11:59 PM。

(除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。)

 

  事件   时间
报名 2020年5月18日-2020年6月15日
数据及CodaLab上线 2020年6月15日
所有任务提交与自动评测 2020年6月16日-2020年8月5日
人工评价 2020年8月5日-2020年8月20日
评测结束,公布结果 2020年8月20日
撰写技术报告 2020年8月20日-2020年9月1日
SMP2020大会期间召开ECDT研讨会及颁奖典礼 2020年9月4日-2020年9月6日

 

 

论文发表

本技术评测将与国际期刊Data Intelligence合作,获奖的优秀模型将有机会以单独或综述的方式在该刊上发表技术论文,发表的论文将会获得期刊颁发的奖励。

 

 

评测委员会

主席:张伟男(哈尔滨工业大学)

副主席:陈志刚(科大讯飞)、车万翔(哈尔滨工业大学)、黄民烈(清华大学)、李林琳(华为公司)

评测委员会成员:朱才海(哈尔滨工业大学)、侯宇泰(哈尔滨工业大学)、茅佳峰(哈尔滨工业大学)、郑楚杰(清华大学)、周昊(清华大学)

 

 

联系方式

如果有任何与本次评测相关的问题,请随时联系会务组。

评测会务组邮箱:smp2020ecdt@163.com

 

 

致谢

主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)

承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)、科大讯飞股份有限公司(iFLYTEK)、清华大学(CoAI)

赞助方:华为公司

 

 

 

 

 

SMP2020微博情绪分类评测
SMP2020-EWECT


欢迎各位参加SMP2020微博情绪分类评测!

SMP2020微博情绪分类技术评测(SMP2020-EWECT)

 

欢迎

    欢迎来到SMP2020微博情绪分类技术评测(The Evaluation of Weibo Emotion Classification Technology,SMP2020-EWECT)。

    “第九届全国社会媒体处理大会(The Ninth China National Conference on Social Media Processing)”2020年9月4-6日在浙江杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。

    在本届SMP会议上,我们将举办微博情绪分类技术评测。情感分析技术一直是自然语言处理领域研究的重点内容之一。2020年,新冠肺炎疫情成为了全国人民关注的焦点,众多用户针对此次疫情在新浪微博等社交媒体平台上发表自己的看法,蕴含了非常丰富的情感信息。基于自然语言处理技术自动识别社交媒体文本中的情绪信息,可以帮助政府了解网民对各个事件的态度,及时发现人民的情绪波动,从而更有针对性地制定政策方针,具有重要的社会价值。尽管之前的社交媒体情感分析技术已经取得了不错的进展,但是如何将之前的研究成果快速高效地应用到疫情相关的数据当中,仍然是一个值得研究的问题。本次评测任务中,参赛成员不仅需要分析普通微博中的情绪,还要专门针对疫情相关微博进行情绪分析。

    本届微博情绪分类技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学承办并提供标注数据集,微热点大数据研究院提供原始数据及奖金,旨在促进社交媒体情感分析相关研究的发展,为本领域的学术研究人员和产业界从业人员提供一个良好的沟通平台。

    热烈欢迎对微博情绪分类感兴趣的团队和个人积极报名参赛!

 

■ 评测内容

评测任务概述

    本届微博情绪分类评测任务一共包含两个测试集:第一个为通用微博数据集,其中的微博是随机收集的包含各种话题的数据;第二个为疫情微博数据集,其中的微博数据均与本次疫情相关。

任务描述如下:

    微博情绪分类任务旨在识别微博中蕴含的情绪,输入是一条微博,输出是该微博所蕴含的情绪类别。在本次评测中,我们将微博按照其蕴含的情绪分为以下六个类别之一:积极、愤怒、悲伤、恐惧、惊奇和无情绪。

    两个数据集的各类情绪微博举例如下表所示:

 

情绪   通用微博数据集   疫情微博数据集
积极 哥,你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了,现在特别有成就感。加油加油。 愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安
愤怒 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 整天歌颂医护人员伟大的自我牺牲精神,人家原本不用牺牲好吧!吃野味和隐瞒疫情的估计是同一波人,真的要死自己去死,别拉上无辜的人。
悲伤 回忆起老爸的点点滴滴,心痛…为什么.接受不了 救救武汉吧,受不了了泪奔,一群孩子穿上大人衣服学着救人 请官方不要瞒报谎报耽误病情,求求武汉zf了[泪][泪][泪][泪]
恐惧 明明是一篇言情小说,看完之后为什么会恐怖的睡不着呢,越想越害怕[吃驚] 对着这个症状,没病的都害怕[允悲][允悲]
惊奇 我竟然不知道kkw是丑女无敌里的那个 我特别震惊就是真的很多人上了厕所是不会洗手的。。。。
无情绪 我们做不到选择缘分,却可以珍惜缘分。 辟谣,盐水漱口没用。

 

数据集说明

    本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。

    第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。

    第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。

    因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。

    每条微博被标注为以下六个类别之一:neural(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。

    通用微博训练数据集包括29,768条微博,测试数据集包含5,000条微博。

    疫情微博训练数据集包括6,606条微博,测试数据集包含5,000条微博。

    注意:测试数据集的各个类别分布与训练集相同。实际发布的测试集中会包含混淆数据,混淆数据不作为测点,在最终结果评测时会预先去除。

    训练数据集以xlsx格式发布,包含三列:数据编号,文本,情绪标签。示例如下:

数据编号 文本 情绪标签
1 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 angry

 

    测试数据集以xlsx格式发布,包含两列:数据编号,文本。示例如下:

数据编号 文本
1 #全国已确诊新型肺炎病例319例#中国加油!一定会过去的,相信医生,相信国家,相信医护人员!!! ??

评价指标

    本次评测以宏平均F1值作为评测指标,最终,我们会对通用微博测试集的测试结果和疫情微博的测试结果进行平均,作为最终的测试结果,即:

其中

 

注册报名

有意向参加的单位机构请直接填写在线报名表,或者扫描下方二维码进入在线报名表填写。

报名存在任何问题,请联系评测会务组:smp2020ewect@163.com

 

 

重要日期

以下所有时间点为北京时间(GMT+8)11:59 PM

除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。

 

  事件   时间
报名 2020年5月16日-2020年6月15日
发布训练集 2020年6月16日
发布评测集,参赛队伍开始提交程序及运行结果 2020年8月8日
参赛队伍提交运行结果截止时间 2020年8月10日
公布最终评测结果 2020年8月15日
撰写技术报告 2020年8月1日-2020年8月31日
SMP2020大会期间召开ECDT研讨会及颁奖典礼 2020年9月4日-2020年9月6日

 

 

竞赛规则与提交物

1. 每支参赛队伍最多不超过10名队员。

2. 每支参赛队伍需指定一名队长,名称不超过15个字符。

3. 每名选手只能参加一支队伍,一旦发现某位选手参加多支队伍,将取消所有相关队伍的参赛资格。

4. 各参赛单位不可以使用除承办方提供的训练数据之外的带有情绪标签的标注数据(未标注数据和其他任务的标注数据可用),如若不确定外部数据是否可用,请发邮件与组委会联系。

5. 评测时,承办方给定带有混淆数据的测试集,各参评单位运行参赛系统并提交全部测试数据结果,承办方再从提交结果中去除混淆数据后得出最终的评测结果。

6. 提交物:每支队伍需在提交最终结果截止时间之前,提交评测集的最终结果。最终需要提交可运行的代码和测试结果,以邮件附件的形式发送到smp2020ewect@163.com,邮件主题为”队伍名称-SMP2020微博情绪分类评测提交”。代码以压缩包的形式提交,命名为”队伍名称-代码.zip”。 测试结果包含两个文件:通用测试集上的最终结果文件命名为“队伍名称-通用.txt”,疫情测试集上的最终结果文件命名为“队伍名称-疫情.txt”,格式形如:

数据编号 标签

注意:每行是一条数据结果,数据编号与标签之间用制表符t分隔,标签类别同训练集。数据编号需要保证与发布测试集的数据编号相同。提交的结果文件必须是无BOM的UTF-8格式文本文件;文件中不要有多余的空格。

 

 

奖励

奖项

名额

奖金额度

一等奖

1

10,000元

二等奖

2

5,000元

三等奖

3

3,000元

 

 

论文发表

    本技术评测将与国际期刊Data Intelligence(http://www.data-intelligence.org/)合作,获奖的优秀模型将有机会以单独或综述的方式在该刊上发表技术论文,发表的论文将会获得期刊颁发的奖励。

 

 

评测委员会

主席:赵妍妍(哈尔滨工业大学)

副主席:刘益东(微热点大数据研究院)

评测委员会成员:袁明琛(哈尔滨工业大学)、吴方舟(微热点大数据研究院)、王帅(哈尔滨工业大学)

 

 

联系方式

如果有任何与本次评测相关的问题,请随时联系会务组。

评测会务组邮箱smp2020ewect@163.com

 

 

致谢

主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)

承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)

赞助方:微热点大数据研究院

 

 

 

 

 

 

SMP2020裁判文书互动论点对抽取技术评测


    欢迎来到SMP2020裁判文书互动论点对抽取技术评测。

    “第九届全国社会媒体处理大会(The Eighth China National Conference on Social Media Processing)”2020年9月4日在杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP 2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。

    在本届SMP会议上,我们将首次举办基于论辩挖掘的法律文本技术测评。本次测评也同样是第三届“中国法研杯”司法人工智能挑战赛第四赛道论辩挖掘项目。法院审判过程中,存在着大量记录详实、内容完整的文本数据,即裁判文书。近年来,随着科技的飞速发展,信息自动化成为了社会进步的主要标志。因此,在传统的法院审判过程中实现信息自动化,从而进一步实现司法公平性、客观性,是一项意义重大的任务。裁判文书作为法律文本中结构化最为明显、内容最为丰富的信息载体,在庭审过程中起着至关重要的作用,也是法律文本中信息自动化最为重要的一环。

    本届裁判文书互动论点对抽取技术评测由中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)以及中国司法大数据研究院共同主办,复旦大学、北京华宇信息科技有限公司承办。旨在促进法律文本领域信息自动化相关研究的发展,为相关的学术研究人员和产业界从业人员提供一个良好的沟通平台。在此,评测会务组诚邀各个单位参加本次裁判文书互动论点对抽取技术评测!

 

■ 评测内容

裁判文书互动论点对抽取技术评测

【背景介绍】

    裁判文书是人民法院庭审过程中记载的案件诉辩双方观点、证词和结果等内容的总称,它是庭审中诉讼事件结果的载体,也是人民法院用于裁定和判定各当事人实体权利以及负担义务的凭证。裁判文书的重要性在于,它是整个诉讼程序的浓缩,是对于庭审过程最为客观、动态的记录;也是用于分析、排解矛盾纷争最为客观、真实的工具;同时,裁判文书更体现着庭审法官在该过程中对于自身审判权的运用方式。

当前阶段,法院对于争议焦点的提取方法仍然停留在依靠法官人工阅读、整理、分析、归纳裁判文书中的双方陈词,使得这一步骤会耗费大量法官的时间精力资源。

本次测评旨在让参赛者设计模型,从给定的裁判文书中自动抽取出双方存在互动关系的论点对,为日后裁判文书整理工作的自动化、客观化做出贡献。

 

【任务描述】

    如上文所介绍的,本次评测目的旨在自动化抽取出裁判文书中诉辩双方观点陈述中存在互动关系的论点对。具体操作层面上,对于所收集到的互动论点对中每一句诉方论点,我们都会给出四句辩方论述中的无关论点以及一句存在互动关系的辩方论点,共五句选项。参赛者的模型需要对于每一句给出的诉方论点,从五句候选论点中选出一句。最终的评价指标便是统计参赛者模型给出答案的正确率。

 

【评测方式】

1. 训练数据集:

    约2400条裁判经标注的裁判文书,含有辩诉双方的庭审记录文本,双方经人工标注存在互动关系的论点对(以上文提到的一句诉方论点,五句辩方候选论点+正确答案的选项方式)。

    评测队伍可以视自己需要对数据进行处理、训练。

2. 测试数据集:

    约1600条裁判文书,分两批放出,作为两个阶段的测试成绩。格式类似训练数据集,无最终答案标签。

    (评测队伍在两个阶段分别提交一个模型文件)

 

【数据实例】

训练、测试数据集格式如下例所示:

诉称
自诉人苏某某诉称:被告人康某丽珠的父亲马某与自诉人的母亲苏某原是夫妻。因两人离婚后仍同住一栋房屋,在日常生活中常为琐事发生争吵,产生矛盾。本案发生前,马某与苏某因琐事发生争吵。时间时间时间,我回到家中处理两人的矛盾,但由于言语不合双方发生口角纠纷,我便去社区找社区工作人员协调,后来我在西门社区门口与马某相遇,两人发生争吵。11时许,被告人康某骑一辆自行车来到现场,与我发生吵闹后上前揪住我的头发,用拳头打伤我的右眼,眼镜也被打掉在地并摔碎,眼皮也被打破,右眼流血不止,后我们被人拉开,我也及时向派出所报警。事后我先后在剑川县人民医院、玉溪市中医医院住院治疗,在大理学院附属医院、昆明医科大学第一附属医院、省红会医院检查治疗。出院后,经剑川县公安局委托,昆明医科大学司法鉴定中心对我的伤情进行司法鉴定结论为轻伤二级。特请求:依法判决被告人犯故意伤害罪,并追究其刑事责任;判令被告人向我赔偿经济损失452312元(医疗费137218元,误工费87100元,护理费25794元,住院伙食补助费23000元,交通费25000元,住宿费10000元,营养费23000元,鉴定费14000元,精神抚慰金100000元,财产损失费7200元)。诉讼代理人石某支持自诉人的诉讼请求,并提供了相关证据,证明本案事实清楚、证据确实充分。

辩称
被告人康某辩称:我的行为不构成故意伤害罪,不应当承担刑事责任,请求法庭依法驳回自诉人对我的刑事控诉。自诉人的伤并不是我造成的,她的伤是她自己雨伞造成的,与我没有关系。自诉人在诉状中关于伤情的描述是虚假的,她陈述“我揪住她头发打她”与她在剑川县公安局所作的陈述“我抓住她的头发,用雨伞打在她的额头”相互矛盾,两次陈述打击的部位不同,当时没有出现自诉人所说“流血不止”的情形,因此,我不应当承担刑事责任。民事赔偿上,由于我没有对自诉人进行打击,不应当由我承担赔偿责任,但我愿意承担自诉人的验光配镜支出的费用。被告人康某的辩护人认为:被告人构成故意伤害罪的证据不足,原告的伤情并不是被告造成的,原告的伤与被告的行为没有因果关系,两人打架的时间只是一秒钟,而被告仅仅抓住原告的头发,没有打原告面部,也没有打原告额头。再者,本案只是因为简单争吵引起冲突的民事纠纷,而不是刑事案件。司法鉴定意见书不能作为本案的定案证据,虽然这份鉴定意见书的鉴定内容依据的程序是正确的,但苏某某的伤没有达到相应标准,并且自诉人在剑川配眼镜的时候视力是正常的,司法鉴定结论并不客观,鉴定机构没有客观对自诉人进行视力检查,而是简单的让其看视力表。且鉴定时间和事故发生时间之间间隔了3个半月,在这3个半月中是否有其他伤害也不能确定,证人杨某某也陈述,没有被告人打自诉人的情况。因鉴定依据的内容都是虚假的,所以我们对司法鉴定意见书不予认可,同时也保留对相关人员追究责任的意见。自诉人从事的是财务会计工作,如果自诉人的视力为05,那根本不可能胜任这项工作的。综上被告人康某不应该承担刑事责任。民事部分,被告人没有对自诉人进行打击,不应该承担民事赔偿责任。但是自诉人验光配镜支出的费用,符合法律规定我们可以赔偿。医疗费、误工费、后续治疗费我们均不予认可。护理费,因为没有证据证明护理人员减少收入,也不予以赔偿。住院伙食补助费过高,交通费、住宿费、鉴定费与我们没有关系,精神损害赔偿不属于刑事附带民事赔偿范围。综上所述,被告人康某不构成犯罪,民事赔偿上,我们只愿意承担自诉人配眼镜的支出的7200元,其它的都不赔偿。




诉方论点:11时许,被告人康某骑一辆自行车来到现场,与我发生吵闹后上前揪住我的头发,用拳头打伤我的右眼,眼镜也被打掉在地并摔碎,眼皮也被打破,右眼流血不止。

辩方论点1:她的伤是她自己雨伞造成的,她陈述“我揪住她头发打她”与她在剑川县公安局所作的陈述“我抓住她的头发,用雨伞打在她的额头”相互矛盾,两次陈述打击的部位不同,当时没有出现自诉人所说“流血不止”的情形,因此,我不应当承担刑事责任。

辩方论点2:民事赔偿上,由于我没有对自诉人进行打击,不应当由我承担赔偿责任,但我愿意承担自诉人的验光配镜支出的费用。

辩方论点3:司法鉴定意见书不能作为本案的定案证据,虽然这份鉴定意见书的鉴定内容依据的程序是正确的,但苏某某的伤没有达到相应标准,并且自诉人在剑川配眼镜的时候视力是正常的,司法鉴定结论并不客观,鉴定机构没有客观对自诉人进行视力检查,而是简单的让其看视力表。

辩方论点4:自诉人从事的是财务会计工作,如果自诉人的视力为05,那根本不可能胜任这项工作的。

辩方论点5:且鉴定时间和事故发生时间之间间隔了3个半月,在这3个半月中是否有其他伤害也不能确定,证人杨某某也陈述,没有被告人打自诉人的情况。


互动辩方论点:1

 

【评价指标】

评测队伍为在两次测试阶段分别提交一个模型文件,评测系统使用参赛队伍提供模型在测试集上进行测试。具体评价方式采用答案准确率(accuracy)。

 

【奖励设置】

一等奖(1名)15,000元

二等奖(2名)7,500元

三等奖(4名)5,000元

 

论文发表

本技术评测将与国际期刊Data Intelligence(http://www.data-intelligence.org/)合作。

本次测评中获奖的优秀模型将有机会以单独或综述的方式在该刊上发表技术论文,发表的论文将会获得期刊颁发的奖励。

 

 

注册报名

有意向参加该测评的单位机构请转到CAIL2020官网参与第四赛道“论辩挖掘”的比赛报名。相关数据下载以及评测平台也将在CAIL2020官网发布。

报名存在任何问题,请联系评测会务组:smp2020argmine@163.com

 

 

重要日期

以下所有时间点为北京时间(GMT+8)11:59 PM。

(除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。)

  事件   时间
报名 2020年5月15日-2020年5月31日
训练集、第一批测试集上线 2020年6月1日-2020年6月25日
第二批测试集上线 2020年6月26日-2020年7月31日
评测结束,公布结果 2020年8月上旬
撰写技术报告 2020年8月上旬-2020年9月1日
SMP2020大会期间召开论辩挖掘研讨会及颁奖典礼 2020年9月4日-2020年9月6日

 

 

评测委员会

主席:魏忠钰(复旦大学)

副主席:邹劭坤(北京华宇信息技术有限公司),胡振(中国司法大数据研究院),黄萱菁(复旦大学),赵冬华(复旦大学)

评测委员会成员:袁建(复旦大学),马景磊(中国司法大数据研究院),陈伟(复旦大学),高亦煦(复旦大学),宋鋆(黑龙江大学)

 

 

联系方式

如果有任何与本次评测相关的问题,请随时联系会务组。

评测会务组邮箱:smp2020argmine@163.com

 

 

致谢

主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)、中国司法大数据研究院

承办方:复旦大学、北京华宇信息科技有限公司

 

 

 

联系我们

杨洋浙江大学yangya@zju.edu.cn

东昱晓微软雷蒙德研究院yuxdong@microsoft.com