AI与心理健康:ChatGPT会取代心理治疗师吗?|每周心理学研究vol.9
随着各个机构陆续推出自己的大语言模型,有一种担忧的声音也随之产生,AI是否会替代我们的工作?如果会,那么最快被取缔的行业会是什么?
这种声音自然也出现在了心理行业,特别是在心理咨询领域。毕竟和客户的互动,对客户资料的归档、查找和分析,这些看起来都是AI擅长的领域。
从最近的形势来看,类似的担忧似乎有所放缓。
一方面,很多人实际上手使用后发现AI并不能直接帮我们完成大部分的任务,很多时候还是需要人为介入调整;
另一方面,最初的新鲜劲过了之后,传说中的AGI(通用人工智能)并没有如期而至,在广大网友的「调戏」之下,即便强如最新的GPT-4模型也依然会有「人工智障」的一面。
不过,AI的开发目的从一开始就不是「对抗人类」。如果抱着「不能被替代」的心态来对待AI,可能会因此错过AI带来的各种「福利」。充分利用AI的优势,提升工作效率解放人类的劳动力,让人类可以聚焦到更重要的任务上,或许是AI高速发展下一种不错的「共存之道」。
01
提高诊断准确性
事实上,近几年已经有不少人在推进AI在心理健康领域的运用研究。一个比较典型的运用方式,就是利用AI诊断心理健康问题。
传统的诊断方法,特别是涉及自我报告问卷,通常需要冗长而复杂的评估步骤。这些过程可能会让患者望而却步,从而耽误诊断治疗。同时,因为这些评估经常需要专业人员人工分析,费时且易出错。
针对这个问题,Tutun等人在2023年开展的一项研究中,开发了一种整合了AI的决策支持系统,用以提高患者的参与率和完成速度,优化诊断过程。
该系统能将传统的冗长问卷精简为28个有针对性的问题,并能在没有人工干预的情况下,通过分析参与者对问题的回答和其他历史数据,以89%的准确率识别和分类患者的心理健康障碍。
研究人员指出,通过该系统的辅助,能帮助心理健康专业人员进行更准确的精神障碍诊断,并减少因误诊、过度诊断和不必要治疗而带来的医疗资源浪费。
除了用于精简诊断工具,AI在分析复杂数据、协助诊断各类认知功能障碍或神经发育障碍上,也有不错的表现。
比如Agbavor和Liang在2022年就发现,可以通过采用GPT-3从自发性言语样本中捕捉语言语义的方式,准确区分阿尔茨海默病患者和健康对照组两类人群,同时也能从语言数据中成功推断出样本的认知测试评分。
还有Xue等人于今年开展的一项新研究中,开发了一种AI模型,通过整合人口统计数据、病史、药物使用情况、神经心理评估和神经影像学数据等信息,可以准确识别十种不同的痴呆症病因,实现差异性痴呆症诊断。
在100个随机选择的病例测试中,与传统神经科医生评估相比,AI支持下的评估诊断准确性提高了26.25% ,显示出AI在增强临床决策和减少痴呆症早期误诊方面的潜力。
另外,加州大学旧金山分校的研究人员也利用AI分析青少年的脑部MRI扫描,识别出了患有注意力缺陷多动障碍(ADHD)与未患此病个体之间白质纤维束的关键差异,为ADHD的精确诊断提供了一个潜在的客观生物标志。
02
辅助心理治疗
当然,一说起聊天机器人,很多人更关心的可能还是它能否真的代替人聊天。
相信很多人现在都已经在客服机器人身上体验过和AI聊天的感觉了。得益于人们对客服机器人的相对容忍(或者说毫无办法),除了耽误时间和引起人们的无能狂怒,大家似乎不太担心AI会在客服岗位上带来什么特别的影响。但类似的聊天机器人如果放在心理治疗领域,可能就要更谨慎一些,毕竟客户对于聊天机器人的共情和情绪调节能力会有更高的要求。
不过好消息是,有一些研究表明,聊天机器人确实能在心理治疗过程中对客户带来直接的好处。
Li等人在2023年开展了一项元分析,评估了AI工具在心理健康干预中的有效性。他们分析了12个数据库中截至2023年5月26日之前发表的实验研究数据,并最终将15项随机对照试验被纳入元分析。
结果发现,虽然在对客户整体心理健康的改善上不太明显,但至少在减缓抑郁和痛苦方面,聊天机器人有非常好的效果,而且这些效果在移动或即时消息平台上最为显著。
研究特别指出了几个影响聊天机器人效果的关键因素:
1. 交互方式:多模态的语言模型,尤其是使用语音交互的机器人,会比纯文本交互更为有效,因为他们能提供更丰富、更与真人相似的互动体验。
2. 目标人群:聊天机器人的干预对临床或亚临床人群以及老年人群会更有效,也就是说AI对话对已有心理健康问题的人群特别有帮助。
3. 用户体验:用户能感受到的交互质量越好、AI的持续沟通能力越强,就越能带来更好的体验。
今年5月OpenAI发布了最新的GPT-4o模型,展现了强大的语音交互能力和对用户语气语调变化的捕捉能力。结合上述研究结果来看,我们应该有理由相信在不久的将来能看到效果更好的聊天机器人产品。
不过就像前面提到的,我们考虑AI的应用场景时应该不局限在开发一个「替代」治疗师的聊天机器人。AI工具本身也可以提高治疗师的治疗效果,比如帮助治疗师复盘分析心理治疗过程,为后续的培训提升寻找方向。
Xiao等人在2015年的一项研究中就测试了能否利用AI来评估治疗师在治疗过程中的共情能力。结果发现,利用受训AI检测心理治疗对话文本,AI能识别出与共情程度高低相关的独特语言模式,并能达到和真人评价接近的评估效果,反映出AI在理解共情交流方面的能力。
类似的,Miner等人在2022年开展的一项研究也发现,利用AI可以自动分析识别心理治疗过程中的成功之处或者存在的遗漏和不足。
上述的心理治疗评估,在过去只能依靠人工来完成,耗时耗力。但在AI的加持下人们能在短时间内分析更多的治疗记录和数据,得到更加实时、精确的反馈,并以此优化治疗师的培训效果。
03
潜在缺点
当然,目前AI在实际应用中仍不完美。一个典型问题就是AI生成内容时可能会产生「幻觉」,瞎编乱造。比如最近很多网友就发现,各家大模型似乎都没办法准确回答「9.8和9.11哪个数大」这个问题。像OpenAI等公司也会特别在自家大语言模型产品介绍中强调这点,提醒用户仔细核对AI提供的答案。
AI算法不成熟这件事固然是缺点,但某种程度上讲还比较显性,通过结果审查多少还能识别出来。但更让人担心的是那些隐形的风险,比如人类在编程过程中可能带入的偏见或误判。
Obermeyer等人在2019年的一篇研究就提到了一个例子。一些医疗机构有时会运用预测算法来识别并帮助那些有医疗需求的患者。
但在一些系统中,由于算法误将医疗费用作为患者健康程度的指标,从而忽视了一些本该接受治疗,但经济上处于不利地位的人——因为低收入人群本身医疗支出相对更低,结果被系统误判为这类人群更加健康不需要花钱看病,因此也进一步降低了他们获得医疗护理的可能性。
研究数据显示,通过纠正算法中的偏见,可以将识别为需要额外医疗护理的群体比例从 17.7% 提高到 46.5% 。可见这种偏差会带来多大的影响。
从这个角度来看,在心理AI工具的开发过程中纳入心理学家,似乎就成了一件必要的事,毕竟AI工具的开发者并不一定总能意识到心理治疗过程中存在的各种问题。
将专业人员的能力和AI技术相融合,而不是一味考虑谁取代谁,也许是现阶段更合理的选择。这样我们可以在受益于科技发展的同时,仍能保留人类独有的优势。
-The End-