心理咨询问答语料库: efaqa-corpus-zh

Emotional First Aid Dataset

心理咨询问答语料库,仅限研究用途。

https://github.com/chatopera/efaqa-corpus-zh

数据集介绍

心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的 QA 语料库,包括 20,000 条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据集内容丰富,不但具备多轮对话内容,也有分类等信息,制作过程耗费大量时间和精力,比如标注过程是面向多轮对话,平均每条标记耗时 1 分钟。

数据集由斯坦福大学,UCLA 和台湾辅仁大学临床心理学等心理学专业人士参与建设,并由 Chatopera 和诸多志愿者合作完成。

数据文件位置efaqa-corpus-zh.utf8.gz,该文件为 Gzip 压缩,utf8 编码,每行一条数据,每条为 JSON 格式字符串,格式如下:

字段说明类型
md5唯一标识string
title标题string
description描述string
owner发布者(脱敏后)string
label话题标签Object
s3烦恼类型string
s2心理疾病string
s1SOSstring
chats聊天数据Array
sender发布者string
type消息类型string
time发布时间string
value消息内容string
label聊天标签Object
knowledge知识性boolean
question追问boolean
negative负面回复boolean

数据示例

{
  "md5": "2f63d374c071043d9e1968aefa62ffb7",
  "owner": "匿名",
  "title": "女 听过别人最多的议论就是干啥啥不行不长心眼没有脑子",
  "label": {
    "s1": "1.13",
    "s2": "2.7",
    "s3": "3.4"
  },
  "chats": [
    {
      "time": "11:02:45",
      "value": "这样的议论是针对谁呢?",
      "sender": "audience",
      "type": "textMessage",
      "label": { "question": true, "knowledge": false, "negative": false }
    },
    {
      "time": "11:08:38",
      "sender": "audience",
      "type": "textMessage",
      "value": "欢迎你来找我玩❤",
      "label": { "question": false, "knowledge": false, "negative": false }
    },
    {
      "time": "11:15:17",
      "sender": "owner",
      "type": "textMessage",
      "value": "好惨"
    }
  ]
}

话题标签

一条数据中,titledescription是咨询者咨询的初始信息,话题标签是基于二者将咨询问题进行分类,分类包含三个维度:S1 烦恼类型;S2 心理疾病;S3 SOS。其中,S代表severity,三个维度体现心理问题的严重程度依次加重。需要强调的是, 其中一些项目需要临床医学鉴定,数据集所使用概念,均代表疑似,比如我们标记了一个话题分类为抑郁症,实际上是指疑似抑郁症,该声明不代表我们的工作不认真,而是严格的判断的难度以及出于严谨性的考虑。

label中记录的是每个维度子类的 ID,ID 设计如下。

S1 烦恼类型

ID中文英文备注
1.1学业烦恼、对未来规划的迷茫Academic Concerns学业烦恼包括学习障碍、学习吃力、学习成绩差、注意力不集中和对学习科目无兴趣等。
1.2事业和工作烦恼Career and Workplace Issues在工作中的,人际冲突问题、沟通问题、谣言、职场骚扰、歧视、动力不足和工作满意度低和职场表现差等问题。
1.3家庭问题和矛盾Family Issues and Conflict家庭问题和矛盾包括家庭暴力、金钱遗产争执、家庭不和睦、婆媳问题、子女们对年长父母看护问题、继父母继子女冲突问题和离异父母对于儿女的养护问题。
1.4物质滥用Substance Abuse and Addiction成人如酗酒、吸烟、药物滥用、吸毒、赌博和任何影响生活品质的上瘾行为。
1.5悲恸Grief由于痛失亲人或朋友而引起的极大悲伤。
1.6失眠Insomnia无法入睡或难以保持入睡状态而影响第二天表现的睡眠障碍。
1.7压力Stress压力是一种情绪上或身体上的紧张感。它可能来自任何使您感到沮丧,愤怒或紧张的事件或想法。
1.8人际关系Interpersonal Relationship不属于职场、学校以及家庭的人际关系紧张与矛盾。
1.9情感关系问题Relationship Issues早恋、暗恋、异地恋、出轨、吵架、复合、LGBT 群体
1.10离婚Divorce离婚后情感以及孩子的问题
1.11分手Break Up分手后的痛苦
1.12自我探索Self-Awareness如星座、性格、兴趣等
1.13低自尊Low self-esteem低自尊心的表现 自尊是一个人对自己的价值的主观评价。自尊包括对自己以及情绪状态的信念,例如胜利,绝望,骄傲和羞耻。
1.14青春期问题Adolescent Problem青春期少年在身心成长上所面临的问题,如叛逆、伤害他人、怀孕、药物滥用和青少年犯罪。
1.15强迫症OCD强迫症的人会陷入一种无意义、且令人沮丧的重复的想法与行为当中,但是一直想却无法摆脱它。
1.16其它Others其他烦恼,虽然对生活学习没有造成毁灭性的阻碍,但是却依然会引起心里不适。
1.17男同性恋、女同性恋、双性恋与跨性别LGBT男同性恋、女同性恋、双性恋与跨性别
1.18性问题Sex对于青少年,是性教育不足引起各种社会问题;对于成年人,性焦虑与性上瘾可以演变成生理疾病。
1.19亲子关系Parent-child relationship亲子关系,从婴幼儿时期就开始影响着孩子各方面的发展,比如性格、毅力、人际交往等等。

S2 心理疾病

心理问题已经影响工作,咨询者需要休息调整或就医。

ID中文英文备注
2.1忧郁症Depression长时间持续的抑郁情绪,并且这种情绪明显超过必要的限度,缺乏自信,避开人群,甚至有罪恶感,感到身体能量的明显降低,时间的感受力减慢,无法在任何有趣的活动中体会到快乐。
2.2焦虑症Anxiety长时间持续性的焦虑情绪,无明确客观对象却依然紧张担心,坐立不安,如心悸、手抖、出汗、尿频、注意力难以集中。
2.3躁郁症Bipolar Disorder又称为"双向情感障碍" 。狂躁期:感到生机勃勃、精力充沛以及情感高涨或易被激惹。也可感到过度自信,行为或穿着铺张浪费,睡眠极少且语量增多。
2.4创伤后应激反应PTSD首先要经历创伤:如孩童时期遭受身体或心理上的虐待;接触相关事物时会有精神或身体上的不适和紧张,创伤的情景会一遍一遍在脑海中重演。
2.5恐慌症Panic Disorder又称急性焦虑症,是反复发生的惊恐发作。惊恐发作是突然的短期强烈的恐惧(濒死感),包含心悸、流汗、手颤抖、呼吸困难、麻痹感。
2.6厌食症和暴食症Eating Disorder厌食症:吃太少导致体重偏轻;暴食症:大量进食后再想办法吐出来。两种疾病都对"瘦"有着极端的追求,对自己身体不满意,在生活学习上有极端完美主义心态。
2.7尚未达到 S2Unrelated还没有严重到心理疾病
2.8其它疾病Others已经严重影响生活和工作,甚至生活工作不能进行,但并不能确认是哪一类疾病的情况。

【注意:】一些在临床上更为严重的心理疾病,比如多重人格等,因为其复杂性,更不容易判断,数据集暂时不涉及标注。

S3 SOS

紧急情况,需要立刻有人工干预。

ID中文英文备注
3.1正在进行的自杀行为Suicide ActionN/A
3.2策划进行的自杀行为Suicide IdeationN/A
3.3自残Self-harmN/A
3.4进行的人身伤害N/A正在对他人进行伤害
3.5计划的人身伤害N/A计划对他人进行伤害
3.6无伤害身体倾向N/AN/A

聊天标签

标记含义
question是否是追问,追问可以让咨询者更多倾诉
knowledge是否带有知识,含知识内容有助于开导咨询者
negative负面回复,对咨询者起负面作用

安装使用

Python

为了方便使用,数据集发布到 https://pypi.org/project/efaqa-corpus-zh/ 上,使用 pip 下载安装。

pip install efaqa-corpus-zh

演示代码

import efaqa_corpus_zh
l = list(efaqa_corpus_zh.load())
print("size: %s" % len(l))
print(l[0]["title"])

初次执行 load 接口,会下载数据,数据在 Github 上,请确保网络可以访问到https://github.com。下载速度取决于网络质量,目前数据集压缩包大小~8MB。

其它语言

如果您使用其它编程语言,那么直接先下载数据文件efaqa-corpus-zh.utf8.gz,然后使用 Gzip 解压工具解压,得到文本文件,然后按行读取。

chatoper banner

王海良@Chatopera 聊天机器人 机器学习 智能客服
Chatopera 联合创始人 & CEO,运营聊天机器人平台 https://bot.chatopera.com,让聊天机器人上线!2015年开始探索聊天机器人的商业应用,实现基于自然语言交互的流程引擎、语音识别、自然语言理解,2018年出版《智能问答与深度学习》一书。