从CLUENER2020数据集修改而来,去掉了书名(book)、游戏(game)、电影(movie)、景点(scene),增加了时间(time)标注,最终保留了8589条训练数据,1091条验证数据。
对于时间的标注并没有信心,质量可能参差不齐
地址(ADDR): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。
公司(COMP): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。
政府(GOV): 包括中央行政机关和地方行政机关两级。 中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。
姓名(NAME): 一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。
组织机构(ORG): 篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。
职位(POS): 古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。
时间(TIME): **年,**月,**日,**期间,**节日等。
以train.json为例,数据分为三列:id & text & label,其中id列表述文本序号,text列代表文本,label列代表文本中出现的所有包含在7个类别中的实体。
例如:
{
"id": 1,
"text": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为,对目前国内商业银行而言,",
"label": [[0, 4, "COMP"], [9, 12, "NAME"]]
}
其中,COMP,NAME代表实体类别,[0, 4, "COMP"]中,第一位0表示起始位置,第二位4表示结束位置的下一位,表示在文本中[0:4]的实体类型为COMP,本例中即为"浙商银行"