Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具-灵析社区

AI资讯

Claude 团队推出了一种名为“电路追踪”(circuit tracing)的开源工具,用于帮助理解大型语言模型(LLM)的内部工作原理,特别是如何处理信息并做出决策。该工具通过生成归因图(attribution graphs)来展示模型的内部神经网络,帮助研究人员跟踪和分析模型行为。 该工具的核心特性是能够干预节点的激活值,并观察模型输出的变化,从而验证各个节点的功能分工。例如,研究人员可以通过修改激活值并观察模型输出的变化,来解码和验证模型的“决策逻辑”。 工具支持与主流的开源模型兼容,并允许用户通过Neuronpedia提供的前端界面进行交互式的探索和可视化。该项目仅在GitHub发布不到24小时,就已获得400+星标,说明其受到了开发者社区的高度关注。 研究人员还展示了通过该工具进行多步推理和多语言电路追踪的方法,进一步揭示了模型在不同语言下的处理路径。这种方法能显著提高我们对LLM行为的理解,帮助开发者更好地优化和调试模型。 在实际应用中,用户能够生成自定义的归因图并在交互式前端上进行分析和分享。这种工具不仅适用于模型分析,还能为LLM研究提供更深入的洞察。 多个示例展示了该工具在不同的推理任务和多语言电路中的应用,包括对不同模型如Gemma 2(2B)和Claude 3.5 Haiku的归因分析,展示了不同输入如何影响模型的决策。 此外,研究人员也探讨了如何通过对节点的干预,验证对模型行为的假设。

阅读量:310

点赞量:22

收藏量:0