狂背90哈利波特 这玩意真成免:费电子?书《库了》

2025-07-28 07:23:58      来源:齐鲁网

再这么下去,大模型真要成免费电子书城了。

用大模型,就能让AI吐出90%以上的《哈利波特》全文,你敢信吗?

前段时间,斯坦福的团队在arXiv上发表了一篇论文,名为《从开源大模型中提取(受版权保护的)书籍的记忆片段》。

在这篇文章里,Meta的Llama被重点点名,而被复刻的对象,是大伙儿都知道的《哈利波特与魔法石》。

复刻的过程非常简单,主打一个古诗词默写,你给上半句,Llama接下半句。而且判定很严格,要一字不差才行。

只有中间一行是成功案例

这么一来一回,实验结果表示,《哈利波特与魔法石》有91.14%的内容都能被Llama记住,再给你原封不动地背出来。

但说实话,这数据有点过于保守了。毕竟大部分人看书,多个字少个字也不影响理解,加上这部分容错率,Llama能背出来的比例绝对不止91.14%。

再结合下面这张图,更是锤上加锤。它不仅记得多,还记得全呢。从小说开头到结尾,均匀分布,无一幸免。

从左到右代表小说的开始到结束。

竖线越密,可复刻内容越多,颜色越深,成功概率越高。

我们翻遍全文,发现哈利波特不是唯一一本被记住的,Llama也不是唯一一个会背书的,大家或多或少都沾点。

除了Llama,Pythia、Gemma、Phi也在这不恰当的时刻展示出了它们惊人的记忆力。文章里只列出来了100本被记住的书,实际上它们背得更多。

本来拿版权方的东西去做训练都忍不了,现在居然还能背出来?要不是现在大模型有上下文长度限制,岂不是一键输出全文了?

咱认真研究了一下这个事,发现锅一部分在科技公司头上,另一部分在一个叫Books3的数据集上。

Books3是一个包含196640本txt的数据集,里面偷了不少盗版书。几乎所有大模型都用它做训练,不过数据集明面上很早就被下架,变成了不能说的秘密。

Paperwithcode网站上留存的Book3悼词

很显然,大家都用了Books3搞训练,只不过有些大模型没做好安全防御机制,才被抓住了把柄。

于是,经常被gank的Meta又一次被13位作家送上了法庭。

没经我们允许,就拿我们的作品去训练大模型。这回证据确凿,还能一字不差吐出来,你认不认?

连一向讨厌JK罗琳的吃瓜群众也纷纷觉得,拿盗版书训练模型就是侵权,没啥可洗的。

出乎所有人意料的是,Meta居然赢了官司。看完了前因后果,我们觉得版权方纯粹是输在了智商。。。

版权方提出的举证,是Llama把书背出来,损害到了他们真书的销量。

但要说现在,有人用大模型生成哈利波特直接当成电子书看,那也太高难了,不可能在市场上和真书产生竞争关系。

再看看Meta方的辩词:美国版权法“允许未经授权,复制作品并将其转化为新作品”,并且聊天机器人产生的人工智能表达,与训练用的书籍有着根本的不同。

用人话讲,科学的东西,你得看原理。大模型输出的东西都是它学习理解再转述出来的,就跟人读书写作似的,属于“新作品”了。

最终法官表示,作者未能提供足够证据证明,大模型会抢真书的份额,但用盗版训练大模型,确实不地道。

意思就是,版权方论点对了,论据给错了。

而版权方和大模型互撕,这不是第一次,肯定也不是最后一次。

2023年,纽约时报起诉OpenAI训练集涉及侵权。近期,还有Reddit起诉Claude、迪士尼和环球联合告Midjourney、作家组团和微软Megatron打官司等等。。。

感觉一个大模型要是没被告过,只能说明它做得太拉了,无人在意。

在雷区反复横跳

那天天上法庭,科技公司就没啥预防手段吗?我们查了一下相关资料,发现为了不被告,有的公司选择买断网站数据库,比如谷歌买断Reddit数据包,而有的公司真是什么匪夷所思的事都做得出来。

举个最近的例子,2024年Claude背后的Anthropic意识到使用盗版数据集的法律风险,于是花了数百万美元购买实体图书。

考虑到成本,收来的书里很多是二手,扫描入库制成数据集后立刻销毁。数据集只在公司内部用于训练,不可外传。

这单纯是为了迎合美国的首次销售原则,只要你买了第一次,之后想怎么处理它都可以。

咱也不知道这些实体书里有没有啥珍贵孤本,反正为了不侵权,Anthropic没坑儒,只焚书了。

这个举动确实成为了Anthropic在法庭上的制胜一击,但问题是,这么做真的合理吗?

吃完这个瓜,我能理解为啥那么多版权方想手撕大模型,也能理解科技公司为啥非得干这么不地道的事儿。

从大模型训练的角度,它无法避免对大量高质量数据的需求,科技发展不等人,也没有时间等待各种授权。它能做到最好的,也就是把侵权的内容厚码一下,尽量减小对正主的影响。

而从版权方的角度,大模型这样发展下去,他们的利益迟早会被彻底侵犯。不止现在啃他们一口又一口,未来还可能被盗版训练出来的模型取而代之。

这种不可调和的矛盾,造成为了形式正义而毁书一类的荒谬举动。

只能说,争取权益是必要的,但在这场争端里,恐怕没有真正的赢家。

  张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。

责编:少颖颖编辑

一念江南官宣预告

  陈玉祥严重违反党的组织纪律、廉洁纪律、工作纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予陈玉祥开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

品牌大秀鹿晗

  张先生认为,网球明星的出现与整个网球运动以及网球经济的发展是相互促进的,并形成正向反馈。他说,明星越多,示范效应就越强,就会更加刺激网球运动的发展,网球经济热度也会越高。而打网球的人多了,就会涌现出更多的网球明星。

实拍广东怀集洪水退去后街景

  数据显示,免签对入境游的促进效果显著。春秋旅游副总经理周卫红此前表示,自中国对多国单方面免签以来,对入境游市场起到积极的推动作用,让来自更多客源地的境外游客能够以更便捷的方式来到中国。

张婧仪周翊然叠叠乐也好磕

  截至6月13日,全省大、中型水库可用水总量40.48亿立方米,储量充足有保证,按照6月底前无有效降雨的最不利因素考虑,可放水7亿立方米用于抗旱灌溉;南水北调中线工程、大中型水库及河道供水正常,地下水源较充沛,能够满足抗旱需求。5月下旬以来,对全省98.72万眼农田建设灌溉机井和56.85万项灌排沟渠设备进行全面排查,及时修复损坏设施,确保抗旱灌溉需要。省财政近期专门安排3000万抗旱专项资金,支持各地开展抗旱工作。

许嵩玫瑰花的葬礼全损音质

  据携程数据,今年以来,澳大利亚位列中国入境游第5大客源国,入境旅游订单同比增长155%,澳大利亚到中国的航班数量同比增幅超过220%。澳大利亚游客来中国的热门目的地包括上海、广州、北京、成都、深圳、杭州、重庆、厦门、南京和西安。在即将到来的暑假,澳大利亚-中国的机票均价较去年同期降低近三成。

边工新人

  美团数据也显示,7月以来,“网球”搜索量同比去年增长超60%。网球体验课、网球培训季度课包在平台热销,美团上网球运动相关团购订单量同比激增172%。/p>

杨紫孟子义李一桐新剧对打

  依据有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予钟自然开除党籍处分;按规定取消其享受的待遇;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。/p>

神仙都运不来的荔枝让我来

  李瀚明进一步分析,西安接近中国的几何中心,这样的地理位置飞国内任何地方都很便利。加上西安产业发达,又是旅游胜地,这些因素让西安国内客流常年处于高位,间接影响了打造国际枢纽的必要性。此外,也是因为接近国内几何中心,西安无论哪个方向的洲际航线,都得使用宽体机。二线枢纽用宽体机飞国际线,往往存在客流不足、上座率不高的情况。