OpenAI 开源 Transformer Debugger

admin 轻心小站 关注 LV.19 运营
发表于站长交流版块 新鲜事

OpenAI 超级对齐负责人 Jan Leike 宣布,推出了一个该公司内部使用的分析 Transformer 内部结构的工具 -- Transformer Debugger (TDB) 。它结合了自

OpenAI 超级对齐负责人 Jan Leike 宣布,推出了一个该公司内部使用的分析 Transformer 内部结构的工具 -- Transformer Debugger (TDB) 。它结合了自动可解释性和稀疏自动编码器,无需编写代码即可快速探索模型。

Image

目前,该项目仓库已在 MIT 协议下开放。Jan Leike 表示,TDB 目前仍然是一个处于早期阶段的研究工具,他们希望通过开源的方式让更多人使用,并在此基础上加以改进。

根据介绍,Transformer Debugger 是 OpenAI 的 Superalignment 团队开发的一款工具,旨在支持对小语言模型的特定行为进行研究。

TDB 可以在编写代码之前进行快速探索,能够干预前向传递并查看它对特定行为的影响。它可以用来回答诸如 "为什么模型会输出 token A 而不是 token B" 或 "为什么 attention head H 会关注 token T" 之类的问题。它通过识别对行为有贡献的特定组件(neurons、attention heads、autoencoder latents),显示自动生成的关于导致这些组件激活最强烈的原因的解释,以及追踪组件之间的连接以帮助发现联系。

本次开源发布的内容包括:

  • Neuron viewer:一个 React 应用程序,托管 TDB 以及包含有关各个模型组件(MLP neurons、attention heads and autoencoder latents for both)信息的页面。

  • Activation server:对主题模型进行推理,为 TDB 提供数据的后端服务器。它还从公共 Azure 存储桶读取数据并提供数据。

  • Models:一个用于 GPT-2 模型及其自动编码器的简单推理库,带有用于捕获激活的 hook。

  • Collated activation datasets:MLP neurons、attention heads 和 autoencoder latents 的顶级激活数据集示例。

此外, OpenAI 方面还放出了几个概述 TDB 能力的视频,并展示了如何使用它来研究论文 “Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small”。

文章说明:

本文原创发布于探乎站长论坛,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,探乎站长论坛平台仅提供信息存储空间服务。

评论列表 评论
发布评论

评论: OpenAI 开源 Transformer Debugger

粉丝

0

关注

0

收藏

0

已有0次打赏