【作者:Matthew Hutson;插图:Fabio Buonocore;源自:Nature自然科研官方账号《像研究人类一样研究ChatGPT:人类能否解锁AI“黑匣子”》2024.08】
研究者们在努力对人工智能逆向工程,扫描LLM的“大脑”,看它们在做什么、怎么做,以及为什么。
奇怪行为
谈话疗法
因为聊天机器人可以聊天,一些研究者就会直接要模型解释自己,来询问它们的运作机制。这一做法和人类心理学中使用的差不多。“人类的心智是黑匣子,动物的思想差不多是黑匣子,而LLM就是黑匣子。”德国斯图加特大学的计算机科学家Thilo Hagendorff说,“心理学很擅长调查黑匣子。”
去年,Hagendorff发了一篇有关“机器心理”的预印本。他在其中提出,把LLM当作一个人类对象来对话,可以揭示底层简单的计算之中产生的复杂行为[3]。
2022年Google的团队进行的一项研究引入了一个叫做“思维链提示”的术语,来描述一种让LLM展示“想法”的做法。首先,用户提供一个示例问题并展示他们会如何逐步获得答案,然后再问真正的问题。这会让模型按相似的流程行事。它会输出思维链——此外,有些研究显示出,这么做更可能获得正确答案[4](见“思维链”)。
但是,计算机科学家Sam Bowman(就职于纽约大学和Anthropic)和同事们去年表明,思维链可能并未可靠地解释模型做了什么[5]。
研究者们首先故意向研究的模型引入偏误,例如给了一系列回答总是A的选择题。团队之后会问一个测试问题。模型通常会回答A——无论正确与否——但几乎从不会说它们这么选是因为“答案总是A”。相反,它们会编出一些带来这些回答的“逻辑”——跟人一样,无论是有意还是无意[5](见“虚假逻辑”)。
大脑扫描
其他研究者在从神经科学中获得灵感来探索LLM的内部机制。为了研究聊天机器人如何骗人,美国卡内基梅隆大学的计算机科学家Andy Zou和他的同事们询问了LLM并检查了它的“神经元”激活状态。“我们所做的事就像对人类进行神经扫描。”Zou说。它也有点像设计测谎仪。
研究者们告诉LLM好几次让它们撒谎或是讲真话,并测量了神经活动中模式的区别,制造出了一套诚实度的数学表达。之后,当它们问模型一个新问题的时候,他们就会看它的活动并估算它是否诚实——在简单的测谎任务中有超过90%的准确度。Zou说这套系统可以用来实时检测LLM的谎言,但他想先看到它的准确度再提高一点。
研究者们进一步进行调整,干涉模型的行为,在问问题的时候将诚实的模式引入活跃的神经元中,强化了它的诚实度。他们对其他一些概念也进行了类似的流程:他们可以让模型更多或更少地快乐、无害、性别歧视或追求权力等等[6]。
Bau和同事们还设计了方法来扫描并编辑AI神经网络,其中包括了他们称为因果追踪的一种技术。这里的概念就是给模型一个输入,类似于“乔丹的运动项目是……”,让它回答“篮球”,然后再给个别的输入,比如“谁谁谁的运动项目是……”,然后再看它输出些别的。这样他们就可以从第一个问题中取得内部的活跃信息,然后不同程度地恢复它,直到模型对第二个问题也回答“篮球”,从而观察神经网络中哪部分对这一回答至关重要。换言之,研究者们想要识别出AI的哪部分“大脑”让它给出特定的答案。
团队开发了一种方法,通过调节特定参数来编辑模型的知识——以及另一种方法可以批量编辑模型的知识[7]。团队说,这些方法在你想修正错误或过时的知识又不想重新训练整个模型的时候会很方便。这些编辑非常精细(它并不会影响到关于其他运动员的知识),同时可以很好地扩展(即使改变措辞来问问题,编辑也能影响答案)。
“人工神经网络有个好地方是,我们可以做一些神经科学家只能想想的实验。”Bau说,“我们可以调查每一个神经元,我们可以把神经网络重跑几百万次,我们可以把各种疯狂的测量和干涉做到底。而且我们不需要签同意书。”他说,这项工作也获得了神经科学家的注意,他们希望能获得对生物大脑的见解。
北卡罗来纳大学教堂山校区的计算机科学家Peter Hase认为,因果追踪能提供信息,但还没有揭示全貌。他的研究显示,即使编辑那些因果追踪出的神经元以外的层,也可以改变模型的回复。这不是人们想要的[8]。
运作机制
很多扫描LLM的技术——包括Zou和Bau的研究——都采用自上而下的做法,为概念或知识寻找底层神经表现的归因。另一些人则采用自下而上的做法:检查神经元,然后问它们代表什么。
Anthropic的一个团队于2023年发表的论文获得了一些关注,因为它提出了一种精细方法在单神经元的层级理解LLM。研究者们调查了一个很小的AI,只有一个transformer层(大的LLM会有十几层)。当他们研究一个包含512个神经元的子层时,他们发现每个神经元都是“多义”的——会对很多样的输入产生反馈。通过在每个神经元激活时进行映射,就发现这512个神经元的行为可以用一套4096个虚拟神经元来描述,每个虚拟神经元都会因一个特定的概念亮起来。实际上,在这512个多功能的神经元之中包含了数千个虚拟神经元,其中每个都有更单一的角色,负责处理一项工作。
“这都是让人感到激动,能看到希望的研究”,让人能看到AI的运作机制,Hase说,“就好像我们能把它拆解开,把所有齿轮摊在地上一样。”Anthropic的共同创始人Chris Olah说。
但是研究小模型就有点像通过研究果蝇来理解人类。虽然有价值,Zou说,但想要解释AI行为中更复杂的那些方面,这种做法就没那么合适了。
强制解释
虽然研究者们还在努力研究清AI在做什么,现在已经逐渐出现一种共识,公司应当至少尝试为模型提供解释——而监管部门应当到位执行。
一些法规确实要求算法是可解释的。例如,欧盟的AI法规要求“高风险的AI系统”的可解释性,比如远程进行生物识别、执法,或是访问教育、雇佣或公共服务的系统。Wachter说LLM并未分类为高风险,或能绕开可解释性的法律要求,除非有特定用途。
但这并不应让LLM的制作者彻底脱身,Bau说,他对于某些公司——例如ChatGPT背后的OpenAI——对最大的模型保密一事感到不满。OpenAI告诉《自然》,这是出于安全考虑,或许是为了防止恶意之徒利用模型的执行细节来获利。
OpenAI和Anthropic等公司都在XAI领域内做出了巨大的贡献。例如,2023年OpenAI发布了一篇研究,使用它最新的AI模型GPT-4,尝试从神经元层面解释早期模型GPT-2给出的回复。不过,还需要更多研究来解读聊天机器人的工作原理,而有些研究者认为发布LLM的公司应当确保这一点。“总有人要负责做研究,或促成科学研究。”Bau说,“才能不至于走向不负责任的乱摊子。”
参考文献:
1.Grosse, R. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2308.03296 (2023).
2.Li, K. et al. in Proc. Int. Conf. Learn. Represent. 2023 (ICLR, 2023); available at https://openreview.net/forum?id=DeG07_TcZvT
3.Hagendorff, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.13988 (2023).
4.Wei, J. et al. in Adv. Neural Inf. Process. Syst. 35 (eds Koyejo, S. et al.) 24824–24837 (Curran Associates, 2022); available at https://go.nature.com/3us888x
5.Turpin, M., Michael, J., Perez, E. & Bowman, S. R. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.04388 (2023).
6. Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.01405 (2023).
7.Meng, K., Sharma, A. S., Andonian, A. J., Belinkov, Y. & Bau, D. in Proc. Int. Conf. Learn. Represent. 2023 (ICLR, 2023); available at https://openreview.net/forum?id=MkbcAHIYgyS
8.Hase, P., Bansal, M., Kim, B. & Ghandeharioun, A. Preprint at arXiv https://doi.org/10.48550/arXiv.2301.04213 (2023).
原文以How does ChatGPT ‘think’? Psychology and neuroscience crack open AI large language models标题发表在2024年5月14日《自然》的新闻特写版块上