AI 辅助维护者仅用 5 天重写热门 Python 库:性能飙升 48 倍,却卷入开源协议篡改风波

淘百科 百科资讯 2

3 月 11 日消息,科技媒体 Ars Technica 今天(3 月 11 日)发布博文,报道称 Python 字符编码检测库 chardet 上周发布 7.0 版本,这在开源界爆发了一场关于 AI 重写代码与开源协议边界的激烈争议。

项目维护者 Dan Blanchard 为让 chardet 项目加入 Python 标准库,利用 AI 编程工具 Claude Code,在短短 5 天内彻底重写了该项目,并推出了 7.0 版本。

新版本不仅在性能方面最高可提升 48 倍,Blanchard 还借此将项目原本严格限制复用与分发的 LGPL 协议,更改为了允许在闭源商业项目中使用的宽松 MIT 协议。

这一协议变更立刻引发了原作者的强烈不满。2006 年创建该项目的 Mark Pilgrim 在 GitHub 上公开抗议,认为新版本构成了非法重新授权。

Pilgrim 强调,维护者长期接触原代码,且引入 AI 代码生成器并不能赋予其额外权利,这根本不符合“净室逆向工程”(Clean Room Design)标准。他认定新版本仍是原代码的衍生作品,并坚决要求项目恢复原有的 LGPL 协议。

注:Clean Room Design 是一种规避版权侵权的开发策略,指开发人员在完全没有接触过原版受版权保护代码(在“干净的房间”里)的情况下,仅根据功能需求说明书重新编写代码,确保新代码不是原代码的“衍生作品”。

针对上述指控,Blanchard 用数据为“AI 净室重写”辩护。他坦承自己确实熟悉旧代码,但他指出,新生成的 AI 代码在结构上已经完全独立。

为证明这一点,他引用了 JPlag 代码相似度分析数据:7.0 版本与旧版 6.0 的对应文件结构相似度最高仅为 1.29%,而此前旧版本间的相似度曾高达 80%。Blanchard 解释称,他通过编写设计文档并向 Claude 下达需求,在一个清空的仓库中从零开始生成了这些非衍生代码。

然而,这种“AI 净室”模式面临着复杂的现实考验。首先,Claude 大模型的训练数据极大可能已经摄取了 chardet 的早期开源代码。即便新代码结构不同,AI 的这种“先验知识”是否会让产出物沦为衍生品,目前仍是法律盲区。

其次,Blanchard 全程深度参与了 AI 生成代码的审查与迭代,这种人类开发者的重度干预同样可能影响新项目独立性的法律判定。法院目前尚未对 AI 参与编写的软件授权问题作出明确裁决。

此次风波正在整个开源社区引发连锁反应。自由软件基金会执行董事 Zoë Kooyman 直言,吸收了原代码的 AI 大模型根本谈不上“干净”。

开源布道师 Bruce Perens 更是发出了严厉警告,强调整个软件开发的经济学基础已经被彻底颠覆,其影响堪比印刷术的发明。