OpenAI 推出网络爬虫 GPTBot，引发网站抵御潮：信息被爬走就很可能意味着永远无法删除

大数据文摘受权转载自AI前线

(资料图片)

编译 | 核子可乐、Tina

不爬取你的页面数据，哪来几十亿美元的运营收入？

OpenAI 在没有正式宣布的情况下，于本周发布了一项网站爬虫规范。

网络爬虫通常用于扫描网站内容以训练其大型语言模型 (LLM)，OpenAI 在一篇新的博客文章中表示：“使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型”，特别是 GPT-4 和潜在的 GPT-5。

在此之前，OpenAI 刚提交了“GPT-5”商标申请。三周之后，该公司推出了新的爬虫以及使用规范。OpenAI 在博文中表示，内容发布者和网站所有者可以据此拒绝为其提供素材。

网站需要加强防御

目前还不清楚 OpenAI 的爬虫在网上潜伏了多久，尽管有些人怀疑 OpenAI 可能已经有一个机器人在数月或数年时间里一直在秘密收集每个人的在线数据。现在该公司宣布了一种阻止 GPTBot 的方法，最新发布的技术文档描述了如何通过用户代理令牌和字符串来识别 OpenAI 的网络爬虫 GPTBot。在发送至服务器进行网页请求的 HTTP 标头中，OpenAI 公司的软件会明确使用这些令牌与字符串。

因此，内容发布者可以在自己 Web 服务器的 robots.txt 文件中添加新条目，告知爬虫可以做什么、不能做什么。当然，这是假设 GPTBot 会老老实实遵守机器人排除协议，毕竟也有不少机器人会对规则熟视无睹。例如，以下 robts.txt 键 / 值对就会指示 GPTBot 远离 root 目录和网站上的其他全部内容。

User-agent:GPTBotDisallow: /

对此，搜索引擎优化顾问 Prasad Dhumal 本周在 Twitter 上写道：“最后，在吸收了所有受版权保护的内容来构建他们的专有产品之后，OpenAI 为你提供了一种方法来防止你的内容被用来进一步改进他们的产品。”

另外，值得注意的是，一旦被大模型爬虫爬取，也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集 Common Crawl，常被用于训练 OpenAI 的 ChatGPT、谷歌的 Bard 或 Meta 的 LLaMA ，专家表示，如果你的数据或内容被爬取进去，那意味着它永久成为了该训练集的一部分。但 CommonCrawl 等服务确实允许类似的 robots.txt ，但网站所有者需要在数据被收集之前实施这些更改。

然而，OpenAI 坚称开放网站数据收集入口，能够帮助该公司提高 AI 模型的实际质量，而且爬取的内容也不会涉及敏感信息。这话似乎可信，毕竟 OpenAI 和微软最近已经因此而官司缠身。

这家机器学习超级实验室在文档中指出，“使用 GPTBot 用户代理爬取的网页，可能会被用于改进未来模型，且付费专区、已知涉及个人身份信息（PII）或包含违反我们政策的文本来源均会被过滤删除。”

文档还提到，“允许 GPTBot 访问您的网站，可以帮助 AI 模型更加准确并提高其总体功能性与安全性。”

这人人为我、我为人人的口号一讲，似乎帮 OpenAI 节约时间和成本，使其模型能力更强、风险更低是件利他又利己的大好事。

可即便 OpenAI 承诺了自己在利用公共互联网数据训练大语言模型，仍有不少组织在努力限制自家信息通过网络被自动访问。毕竟 AI 软件厂商最喜欢借助网络上的各种信息为己所为，并借此建立起价值百万甚至数十亿美元的商业体系。所以部分企业已经采取行动，如果盈利一方不愿意拿出点分红，那他们就干脆关闭访问权限。

例如，Reddit 最近就修改了 API 条款，想更好地通过用户免费发布的内容获利。Twitter 日前也起诉了四家身份不明的实体，拒绝抓取其网站数据用于 AI 训练的行为。

一些网站已经在加强对 GPTBot 的防御，比如外媒 The Verge 就已经添加了 robots.txt 标志，以阻止 OpenAI 模型抓取内容以添加到其大模型中。substack 博主 Casey Newton 也向他的读者询问是否应该阻止 OpenAI 收集他的内容。科幻杂志 Clarkesworld 的编辑 Neil Clarke 在 Twitter 上宣布将屏蔽 GPTBot。

建立合法路径才是正途！

OpenAI 没有立即回应，此次为什么要发布关于 GPTBot 的详细信息。但最近已经有多次针对该公司的诉讼，指控其未经客户许可而擅自使用可公开访问的数据 / 违反网站规定的许可条款。看来这两件事之间应该存在联系。

除了隐私诉讼之外，OpenAI、微软和微软子公司 GitHub 去年 11 月还因涉嫌利用受许可证保护的源代码训练 OpenAI 的 Codex 模型，并因在 GitHub Copilot 代码辅助服务中照搬这些代码而面临起诉。另有多位作家在上个月提起类似诉讼，指控 OpenAI 在未经许可的情况下利用他们的作品训练 ChatGPT。

谷歌、DeepMind 及其母公司 Alphabet 也未能幸免，同样因类似理由沦为被告。

考虑到爬取公共数据并借此训练 AI 模型所带来的法律不确定性，OpenAI 的竞争对手谷歌上个月提议重新设计爬虫协议的运作方式，尽量消弭愈演愈烈的数据归属权纠纷。

专为医疗保健行业提供 AI 助手的 Hyro 公司联合创始人兼 CEO Israel Krush 在采访中表示，目前网络爬虫的运作方式主要存在两个核心问题。

“首先就是默认发布者同意，对方如果不希望自己的网站成为爬取对象、信息被用于模型微调，只能主动选择拒绝。这个过程跟搜索引擎的运作方式存在很大区别，搜索引擎在爬取时只会引导用户访问内容发布网站的内容摘要。”

“而在 OpenAI 和 AI 助手这边，内容本体成为产品的直接组成部分，这样问题的性质就完全不同了。发布者必须主动拒绝才能免受爬取也着实引起了巨大的不满。”

Krush 表示，将爬取到的内容集成至他人产品中、甚至受到篡改，则可能引发另一个潜在问题。“第二个问题是，OpenAI 在声明中称将排除「以使用个人身份信息（PII）闻名的相关网站」，这样的表述有点令人费解。”

“以新闻出版商为例：他们的内容中肯定会存在某些身份识别信息。另外，即使那些似乎跟个人身份信息关系不大的网站，也或多或少涉及相关内容。而任何包含个人身份信息的内容都需要经过适当编辑。”

Krush 认为，模型的合规性问题和负责任立场需要匹配更强有力的保障措施，并强调他自己的公司就只会在获得明确许可时才爬取数据，且保证一切个人信息都得到妥善处理。

他总结道，“OpenAI 不该只关注那些被标记为包含个人身份信息的网站，而应当假设所有网站都可能涉及个人隐私，特别是各内容发布平台。他们应当采取积极主动的措施，确保爬取的信息不违反合规性要求。”

关键词：

OpenAI 推出网络爬虫 GPTBot，引发网站抵御潮：信息被爬走就很可能意味着永远无法删除	2023年暑期档总票房破170亿《消失的她》《八角笼中》《封神第一部》稳居前三
在珠海市痤疮医院	《耐火电缆设计与采购手册》首发暨赠阅仪式在南京隆重举行
透景生命：目前公司已经应用多种方法学研发完成了猴痘病毒核酸检测试剂盒，并已取得欧盟CE准入资质	名臣健康（002919）8月14日主力资金净买入1566.62万元
【视频】跟着武子赫老师学初级考点：哪些情况不能享受带薪年休假	复试通知短信
本周有机会回补今日缺口	鲍文晒合照：马努、鲍文、邓肯、海军上将、帕克、迪奥
文曲星丛书官方_文曲星系列丛书答案	最高法：危害国家一级保护野生植物一株以上即构成危害国家重点保护植物罪
研究发现每天饮用含糖饮料的女性患肝癌风险可能更高	2023年全球“药王”之争，当悬念开始出现
TVB下半年有望扭亏为盈受内地剧集合作及电商直播业务增长拉动	TA：看似曼联转会基本由滕哈赫主导，但大多数时候还是共同决定
4代iPhone SE曝光：发布时间未知配置未知	5年期农发行债中标结果出炉（08-14）
公安部交管局推出优化机动车登记服务新措施	国窖1573宣布提价
黄金T+N2价格今天多少一克（2023年8月14日）	自动开关小区垃圾桶变聪明了
“鸠占鹊巢”的共享按摩椅应从候车厅退场	谭仔国际(02217.HK)：控股股东Toridoll日本首季业务溢利同比增83.2%
韩国又现恐吓电邮称将在光复节炸首尔市政府大楼	兵团文化供给稳步提质增效
扬州北区市民公园 “上新”啦特色建筑让人眼前一亮	北京科技大学安徽录取分数线北京科技大学安徽招生人数多少
美国哥伦布公园旁出命案，一华人雨夜被割颈	216期暗皇快乐8预测奖号：重号+连码分析
轸宿是什么意思（轸宿）	电脑声音小扬声器开到最大都很小（电脑声音小）
北京高院：未经配偶同意婚内炒股亏损属于重大过错	2名中国男子在柬埔寨绑架同胞勒索100万美元，柬警方开枪击伤嫌疑人解救被绑男子
群众纠纷无小事立足当“夏”护平安	学习卡丨绿水青山就是金山银山
最高法明确破坏森林资源犯罪的定罪量刑标准	亚马逊股价大涨背后：头部基金二季度上演“买买买”
海南法院举行生态环境修复海洋增殖放流法治宣传活动九十七万尾鱼苗被投放入海	包头：筑牢暑期安全防线
特斯拉又降价了！涉及这些车型！十多个汽车品牌已卷入下半年降价潮	华大智造：二季度净利润环比增长135% 专注核心业务，注入发展活力
龙湖连续两月偿还逾 80 亿公司债，年内待还金额 1.19 亿	路边临时停车可以停多久，马路边可以停车的标线
江西打造食品制造大省让江西特色美食走向全国乃至世界	打通校园到职场最后一公里,多措并举搭建就业“桥梁”
太兴集团上半年扭亏为盈录得股东应占溢利4300万至4700万港元	重大项目建设有力有序推进
鲢鱼身怎么做好吃?	实探西岭金矿：预计潜在经济价值超2000亿元未来择机注入山东黄金
亚太全线大跌！A50跳水！A股这一板块逆市大涨	独霸全球”的美国贸易政策，何时休？\|宏观看点
港股午评：指数震荡走低恒生科技指数跌3.09% 汽车、内地房地产、内险股等低迷	东莞国际设计周2023最新消息
2023顺德soulpop音乐节各票种有什么区别?	2023沈阳法库飞行展会门票多少钱一张？
汝州：打下深水井 “解渴”还“解忧”	赛意信息：张成康累计质押股数为1510万股，占其所持股份比例为28.42%
宣告死亡要哪些条件	翔楼新材：公司严格遵守《创业板上市公司规范运作》等相关法律法规，审慎使用募集资金，并未购买信托产品
r标志是什么车什么价位（R标志是什么车？）	cg原画可以用什么画？原画网课推荐！
2023年内蒙古养老金认证时间内蒙古养老金资格认证怎么操作？	最高法：贯彻从“治罪”到“治理”理念促进森林生态有效修复
汽车仪表出现小扳手代表什么（新捷达保养小扳手怎么清除？）	小米6wps连接没了
中国第13次北冰洋科学考察首个海域作业任务全部完成	中免集团携手洲际酒店集团实现高端会员礼遇双向互通
食品标签涉及疾病治疗功能，长春市一公司被罚款5000元	画画工资一个月多少？怎么知道观众是否注意到作品中的细节？
食品标签涉及疾病治疗功能，长春市一公司被罚款5000元	凯尔特人老板：将全力以赴在波士顿申办2026年全明星赛
石塘镇强化“三保障”守护万家灯火	做注射隆鼻术，塑造自然挺翘的鼻型
利德曼筹码连续6期集中	武汉三环线上的“守望人”
福州三江口片区即将进入地铁“四线并行”时代	重庆4个区县出现暴雨，8条中小河流出现涨水过程
今日沪锌期货价格查询（2023年8月14日）	铁汉建设参与的联合体中标烟台国际节能环保科技园绿色建筑2.3期工程施工总承包项目
太公传承如何修练功法太公传承修炼思路一览	墨香、花形、琴音……来尼山感受中华传统文化美学之魂｜青年导演创作扶持计划（第二季）
原价399元：HIFIMAN TWS500降噪耳机139元抄底（260元券）	湖北一村庄无人机运橙子好壮观感受科技助农的魅力
泰国三王子归国，与二王子同框出镜，跪拜拉玛四世，五官一言难尽	《巨齿鲨2：深渊》全球票房破2.56亿美金，曝“巧夺直升机斗猎龙”正片片段
家电转型升级上半年家电行业企业利润同比增长20.2%	世卫列新冠病毒变异株EG.5为“需要留意的”变异株
收获半程冠军！武汉车谷江大女足4：0杭州银行女足	卓创资讯：8月11日融资买入3009.07万元，融资融券余额6740.74万元
运动会十项全能 #奔腾T90 冠军之选带你玩出不同的产品体验	奥卡姆剃刀的“谎言”
小镇与秋的协奏曲	BAW创富休旅好帮手 8AT自动档8月12日成都上市！
楚天科技：8月11日融资买入274.31万元，融资融券余额1.36亿元	常州还会有新能源补贴吗?
今日10时杭州亚运会21个项目门票同时开售	“小包裹”有大发展
特斯拉Model Y降价：长续航版下探至30万以内	美国数据表现不一影响贵金属

OpenAI 推出网络爬虫 GPTBot，引发网站抵御潮：信息被爬走就很可能意味着永远无法删除

相关阅读

精彩推送

每日推荐

宁德时代提升境外发债额度至30亿美元

要闻

资讯新闻