网站首页    信息智能    像研究人类一样研究ChatGPT
  • 关税边缘化

    经济发展水平越高,国内税制越完善、税基越大,越不依赖关税,更依赖更开放的国内和国际贸易体系。这些国家普遍拥有较为完善的税收制度和税收征管体系,依赖更加稳定和可持续的国内税源,如所得税、增值税、消费税等,关税作为财政收入筹集工具的地位日益边缘化。

    1 ¥ 0.00
  • 定价一项技能

    技能的互补性(即一项技能可以与多少种不同高价值技能结合使用)决定了一项技能的经济价值。技能价值取决于技能背景,并与不同类型技能结合使用,价值最高。如AI技能溢价为 21%,高于技能平均溢价。金融法律领域比市场营销技能的溢价高,市场营销比行政技能溢价高

    5 ¥ 0.00
  • VC与高利贷

    ​​​​​​​“没有对赌条款,募资报告根本过不了”。中国VC基金超过七成的钱来自政府引导基金和国有资本。考核周期通常是3年投资期加2年退出期。5年内没有退出路径,负责人要承担责任。基金管理人拿到LP的钱,硬性退出指标中必须考虑上市与并购、创业者承诺回购。

    1 ¥ 0.00
  • 卡特彼勒代理商制度

    卡特彼勒的发展路径中有一个显著优势:代理商制度。康明斯动力系统的一名代理商说:“卡特代理商是成就辉煌的核心所在。可以与他们产品竞争,但却无法匹敌卡特彼勒所拥有根基坚实的代理商。他们提供零配件和售后服务甚至业界的任何人力,而且他们相当忠诚。”

    33 ¥ 0.00
  • 大宗商品投资的杭州帮

    研究是0分与100分的区别。如果研究没有体系,逻辑不成闭环,很难持续发展。杭州帮在基差领域开辟了新天地。对基差的理解,使其将期货与现货的结合发展壮大。在黑色产业链与化工产业链的很多商品基差,基本上由浙江系公司决定。掌握基差规律,就获得市场定价权

    43 ¥ 0.00
  •  “资本之王”黑石

    自1985年成立,两位连杠杆并购都没真正做过的创始人,如今凭借1.1万亿美元的管理规模,让黑石足以跨界比肩世界顶级的主权财富基金。黑石的业务虽多但却有着科学的分类和管理,并且随着大环境的变化而实时调整。2024年,黑石仍在对其业务进行归类和整合。

    508 ¥ 0.00
  • ESG披露标准启示

    目前主流披露标准主要分为两大类:第一类为综合性的披露标准,以GRI、SASB等为代表。第二类为聚焦气候变化、水资源等领域的披露标准,以TCFD、CDP等为代表。第二类标准适用于不同的领域,很难横向比较。GRI标准是全球使用最为广泛的披露标准,引用占比超过90%。

    144 ¥ 0.00
  • 中国钾盐缺口

    中国有56%的耕地需要“补钾”,总体上越往东南越严重,闽、湘、鄂、粤、海南以及江淮地区土壤钾含量都十分稀少,高效钾含量只有新疆、关中农业区的二分之一甚至四分之一。2023年,中国钾盐缺口68%,需进口1000多万吨,而由于钾的高度垄断,进口选项非常有限。

    164 ¥ 0.00
  • 三井物产的情报网

    微软的情报系统对企业经营的贡献率大约是17%左右,而三井这种贸易财团则是以信息为最终的经济效益,其情报就是整个公司的命脉。作为民间研究机构,从研究的深度、广度和企业接受程度来看,比政府研究机构更有效率。其成果被日本企业界认为是经济变化的风向标。

    443 ¥ 0.00
  • 为什么盒装奶是950毫升?

    国内的一些牛奶包装沿用了美国的可折叠屋顶式纸盒设计,用的模具一样,那标注的容量也跟别人一样,取近似值950毫升。制造商在保持包装大小和价格不变的情况下,稍微减少产品的体积。这可以帮助公司在生产成本上升时控制开支,而不会显著提高零售价格。

    166 ¥ 0.00
  • 麦肯锡:AI赢家仅6%

    能收获AI价值,赢家们关键在于采取了一套更彻底、更系统的战略:将AI深度融入业务战略;更注重变革管理和组织重构;同时在高层推动、资源投入与规模化落地实施中展现出更强的决心与执行力。许多企业,尤其是中小型企业,尚未实现AI与工作流的全面融合。

    0 ¥ 0.00
  • 数据中心重塑能源格局

    数据中心市场前所未有的高强度、空间集中的增长正在重塑能源格局,加剧了公用和非公用电力供应商的压力。数据中心电力需求的预期激增可能导致基础设施瓶颈,阻碍行业增长和技术进步。电力供应商必须重新思考商业模式,以确保可靠且可扩展的能源供应。

    0 ¥ 0.00
  • 产业链逆流

    尽管存在较大争议,但中国产业链转移风险不可低估。1、多个国家可共同承接中国低端产业链,降低中国在国际市场上的竞争力。2,中国高端制造业产业链加速回流,将对中国技术转型升级造成负面冲击。3、产业链转移具有难以逆转性与具有先慢后快的非线性特征。

    2 ¥ 0.00
  • AI冲击职业技能

    数据显示自ChatGPT发布后八个月,越是结构化、重复性高的任务,越容易被AI取代。AI带来的冲击是技能的错配,即“技能摩擦”。此外,它会催生一批全新高技能岗位。新岗位需要更高层次的创意、批判性思维,以及对AI工具的专业运用能力。与AI协同将决定未来的竞争格局

    0 ¥ 0.00
  • 全球化的影子世界

    全球化“影子世界”源于具体痛点:高昂的跨境支付手续费、效率低下的末端派送、碎片化的海外营销渠道,复杂的异国用工合规。同时地缘政治迷雾与人工智能,又添更多变量:工具型服务正在被生态系统取代、物流公司深度介入客户供应链、支付平台成为金融基础设施……

    35 ¥ 0.00
  • AI隐形战场:存储器与封装

    传统“存储墙”成为算力瓶颈,高带宽存储器(HBM)与先进封装技术成为突破关键。HBM较传统GDDR6提升5倍;而台积电CoWoS、英特尔EMIB等先进封装技术,整合CPU、GPU、NPU等为“超级芯片”。这两项技术共同构成AI算力革命的“隐形战场”:技术路线竞争,产业链话语权争夺。

    33 ¥ 0.00
  • 线控改变汽车底盘

    线控技术是智能汽车的“地基”。线控,指通过电信号将转向、制动、加速等关键动作直接交由电子控制单元ECU处理,再由执行器完成操作。没有线控,就没有真正意义上的智能底盘、难以实现L3及以上级别的自动驾驶。它是汽车从“机械机器”向“智能终端”跃迁的门槛。

    20 ¥ 0.00
  • 民企退场通道

    在破产法庭见到的,不是冰冷法条,而是被债务压垮的家庭。90%民企老板用房产证为企业担保、银行要求连带保证、停业可能构成“拒不支付劳动报酬罪”。需要一个合法退场通道:个人破产制度能覆盖中小企业主、银行不再强制要求个人担保、社会对失败者少些污名化。

    25 ¥ 0.00
  • 全球文科倒闭潮

    文科衰退,是个全球性的问题。经合组织报告显示,过去10年人文学科的入学人数都在下降。在这股浪潮中,有的大学是迫于财政压力削减人文学科,有的则是出于对“教育优势”进行结构性的优化,也就是把跟不上时代的文科专业淘汰掉,去拥抱更具竞争优势的STEM学科。

    146 ¥ 0.00
  • 2024年最失败的八大技术

    麻省理工科技评论的年度科技失败案例盘点,记录了过去一年中的失误、骗局与灾难。有些失败带着荒诞色彩,如谷歌“觉醒AI”生成黑人纳粹图像而将公司推上舆论风口浪尖。另一些则更加严重,如CrowdStrike的一次计算机错误,导致数千名达美航空乘客被迫滞留机场,引发法律诉讼。

    95 ¥ 0.00

【作者:Matthew Hutson;插图:Fabio Buonocore;源自:Nature自然科研官方账号《像研究人类一样研究ChatGPT:人类能否解锁AI“黑匣子”》2024.08】

 

研究者们在努力对人工智能逆向工程,扫描LLM的“大脑”,看它们在做什么、怎么做,以及为什么。

 

 

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F3011f3ccj00shqqft004ed200ol00qsg00if00k2.jpg&thumbnail=660x2147483647&quality=80&type=jpg

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F7dd9bdd4j00shqqft0034d200nr00j1g00if00er.jpg&thumbnail=660x2147483647&quality=80&type=jpg

 

奇怪行为

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F79dc5430j00shqqfu002ud200oc00hgg00if00d7.jpg&thumbnail=660x2147483647&quality=80&type=jpg

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F08e475a3j00shqqfv0071d200p700s0g00it00kw.jpg&thumbnail=660x2147483647&quality=80&type=jpg

 

谈话疗法

 

因为聊天机器人可以聊天,一些研究者就会直接要模型解释自己,来询问它们的运作机制。这一做法和人类心理学中使用的差不多。“人类的心智是黑匣子,动物的思想差不多是黑匣子,而LLM就是黑匣子。”德国斯图加特大学的计算机科学家Thilo Hagendorff说,“心理学很擅长调查黑匣子。”

去年,Hagendorff发了一篇有关“机器心理”的预印本。他在其中提出,把LLM当作一个人类对象来对话,可以揭示底层简单的计算之中产生的复杂行为[3]。

2022年Google的团队进行的一项研究引入了一个叫做“思维链提示”的术语,来描述一种让LLM展示“想法”的做法。首先,用户提供一个示例问题并展示他们会如何逐步获得答案,然后再问真正的问题。这会让模型按相似的流程行事。它会输出思维链——此外,有些研究显示出,这么做更可能获得正确答案[4](见“思维链”)。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F9d389419j00shqqfw003id200nd00r0g00it00lq.jpg&thumbnail=660x2147483647&quality=80&type=jpg

但是,计算机科学家Sam Bowman(就职于纽约大学和Anthropic)和同事们去年表明,思维链可能并未可靠地解释模型做了什么[5]。

研究者们首先故意向研究的模型引入偏误,例如给了一系列回答总是A的选择题。团队之后会问一个测试问题。模型通常会回答A——无论正确与否——但几乎从不会说它们这么选是因为“答案总是A”。相反,它们会编出一些带来这些回答的“逻辑”——跟人一样,无论是有意还是无意[5](见“虚假逻辑”)。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F32797de7j00shqqfx0029d200ng00nsg00it00j2.jpg&thumbnail=660x2147483647&quality=80&type=jpg

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0805%2F2b2489b0j00shqqfy003id200n600mjg00if00hw.jpg&thumbnail=660x2147483647&quality=80&type=jpg

 

大脑扫描

 

其他研究者在从神经科学中获得灵感来探索LLM的内部机制。为了研究聊天机器人如何骗人,美国卡内基梅隆大学的计算机科学家Andy Zou和他的同事们询问了LLM并检查了它的“神经元”激活状态。“我们所做的事就像对人类进行神经扫描。”Zou说。它也有点像设计测谎仪。

研究者们告诉LLM好几次让它们撒谎或是讲真话,并测量了神经活动中模式的区别,制造出了一套诚实度的数学表达。之后,当它们问模型一个新问题的时候,他们就会看它的活动并估算它是否诚实——在简单的测谎任务中有超过90%的准确度。Zou说这套系统可以用来实时检测LLM的谎言,但他想先看到它的准确度再提高一点。

研究者们进一步进行调整,干涉模型的行为,在问问题的时候将诚实的模式引入活跃的神经元中,强化了它的诚实度。他们对其他一些概念也进行了类似的流程:他们可以让模型更多或更少地快乐、无害、性别歧视或追求权力等等[6]。

Bau和同事们还设计了方法来扫描并编辑AI神经网络,其中包括了他们称为因果追踪的一种技术。这里的概念就是给模型一个输入,类似于“乔丹的运动项目是……”,让它回答“篮球”,然后再给个别的输入,比如“谁谁谁的运动项目是……”,然后再看它输出些别的。这样他们就可以从第一个问题中取得内部的活跃信息,然后不同程度地恢复它,直到模型对第二个问题也回答“篮球”,从而观察神经网络中哪部分对这一回答至关重要。换言之,研究者们想要识别出AI的哪部分“大脑”让它给出特定的答案。

团队开发了一种方法,通过调节特定参数来编辑模型的知识——以及另一种方法可以批量编辑模型的知识[7]。团队说,这些方法在你想修正错误或过时的知识又不想重新训练整个模型的时候会很方便。这些编辑非常精细(它并不会影响到关于其他运动员的知识),同时可以很好地扩展(即使改变措辞来问问题,编辑也能影响答案)。

人工神经网络有个好地方是,我们可以做一些神经科学家只能想想的实验。”Bau说,“我们可以调查每一个神经元,我们可以把神经网络重跑几百万次,我们可以把各种疯狂的测量和干涉做到底。而且我们不需要签同意书。”他说,这项工作也获得了神经科学家的注意,他们希望能获得对生物大脑的见解。

北卡罗来纳大学教堂山校区的计算机科学家Peter Hase认为,因果追踪能提供信息,但还没有揭示全貌。他的研究显示,即使编辑那些因果追踪出的神经元以外的层,也可以改变模型的回复。这不是人们想要的[8]。

 

运作机制

 

很多扫描LLM的技术——包括Zou和Bau的研究——都采用自上而下的做法,为概念或知识寻找底层神经表现的归因。另一些人则采用自下而上的做法:检查神经元,然后问它们代表什么。

Anthropic的一个团队于2023年发表的论文获得了一些关注,因为它提出了一种精细方法在单神经元的层级理解LLM。研究者们调查了一个很小的AI,只有一个transformer层(大的LLM会有十几层)。当他们研究一个包含512个神经元的子层时,他们发现每个神经元都是“多义”的——会对很多样的输入产生反馈。通过在每个神经元激活时进行映射,就发现这512个神经元的行为可以用一套4096个虚拟神经元来描述,每个虚拟神经元都会因一个特定的概念亮起来。实际上,在这512个多功能的神经元之中包含了数千个虚拟神经元,其中每个都有更单一的角色,负责处理一项工作。

这都是让人感到激动,能看到希望的研究”,让人能看到AI的运作机制,Hase说,“就好像我们能把它拆解开,把所有齿轮摊在地上一样。”Anthropic的共同创始人Chris Olah说。

但是研究小模型就有点像通过研究果蝇来理解人类。虽然有价值,Zou说,但想要解释AI行为中更复杂的那些方面,这种做法就没那么合适了。

 

强制解释

 

虽然研究者们还在努力研究清AI在做什么,现在已经逐渐出现一种共识,公司应当至少尝试为模型提供解释——而监管部门应当到位执行。

一些法规确实要求算法是可解释的。例如,欧盟的AI法规要求“高风险的AI系统”的可解释性,比如远程进行生物识别、执法,或是访问教育、雇佣或公共服务的系统。Wachter说LLM并未分类为高风险,或能绕开可解释性的法律要求,除非有特定用途。

但这并不应让LLM的制作者彻底脱身,Bau说,他对于某些公司——例如ChatGPT背后的OpenAI——对最大的模型保密一事感到不满。OpenAI告诉《自然》,这是出于安全考虑,或许是为了防止恶意之徒利用模型的执行细节来获利。

OpenAI和Anthropic等公司都在XAI领域内做出了巨大的贡献。例如,2023年OpenAI发布了一篇研究,使用它最新的AI模型GPT-4,尝试从神经元层面解释早期模型GPT-2给出的回复。不过,还需要更多研究来解读聊天机器人的工作原理,而有些研究者认为发布LLM的公司应当确保这一点。“总有人要负责做研究,或促成科学研究。”Bau说,“才能不至于走向不负责任的乱摊子。”

 

参考文献:

1.Grosse, R. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2308.03296 (2023).

2.Li, K. et al. in Proc. Int. Conf. Learn. Represent. 2023 (ICLR, 2023); available at https://openreview.net/forum?id=DeG07_TcZvT

3.Hagendorff, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2303.13988 (2023).

4.Wei, J. et al. in Adv. Neural Inf. Process. Syst. 35 (eds Koyejo, S. et al.) 24824–24837 (Curran Associates, 2022); available at https://go.nature.com/3us888x

5.Turpin, M., Michael, J., Perez, E. & Bowman, S. R. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.04388 (2023).

6. Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.01405 (2023).

7.Meng, K., Sharma, A. S., Andonian, A. J., Belinkov, Y. & Bau, D. in Proc. Int. Conf. Learn. Represent. 2023 (ICLR, 2023); available at https://openreview.net/forum?id=MkbcAHIYgyS

8.Hase, P., Bansal, M., Kim, B. & Ghandeharioun, A. Preprint at arXiv https://doi.org/10.48550/arXiv.2301.04213 (2023).

原文以How does ChatGPT ‘think’? Psychology and neuroscience crack open AI large language models标题发表在2024年5月14日《自然》的新闻特写版块上

 

2024-08-15
一篇有关“机器心理”的预印本。他在其中提出,把LLM当作一个人类对象来对话,可以揭示底层简单的计算之中产生的复杂行为。Google的研究引入“思维链提示”,来描述一种让LLM展示“想法”的做法,会让模型按相似的流程行事。它会输出思维链,这么做更可能获得正确答案

像研究人类一样研究ChatGPT

image