(相关资料图)
IT之家 8 月 8 日消息,OpenAI 旗下 GPT 模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI 最近推出了一个新功能,让网站可以阻止其网络爬虫(web crawler)从其网站上抓取数据训练 GPT 模型。
据IT之家了解,网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练 GPT 模型。
OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,“使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。”
但是,这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。
互联网为大型语言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的训练数据,为 AI 训练获取数据已经变得越来越有争议。一些网站,包括 Reddit 和 Twitter,已经采取措施打击 AI 公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。
关键词:
OpenAI现允许网站阻止其网络爬虫抓取数据
2023-08-08如东22个重大产业项目集中开工 计划总投资133.7亿元
2023-08-08全市435处临水临崖道路隐患完成整改
2023-08-08《DOTA2》现在A掉多个装备将受到严重惩罚
2023-08-08罗牛山:融资净买入284.06万元,融资余额4.31亿元(08-07)
2023-08-08消防救援人员连续奋战 涿州一线排涝
2023-08-08央行连续9个月增持黄金 A股短暂休整不改上行趋势
2023-08-08俄罗斯法院冻结高盛在俄Detskiy Mir公司的股份
2023-08-08官方:AC米兰签下16岁波兰中场斯科奇拉斯,双方签约至2026年
2023-08-08CBOT大豆日内跌超3.00%,现报1293.00美分/蒲式耳。
2023-08-07OpenAI现允许网站阻止其网络爬虫抓取数据
2023-08-08如东22个重大产业项目集中开工 计划总投资133.7亿元
2023-08-08全市435处临水临崖道路隐患完成整改
2023-08-08《DOTA2》现在A掉多个装备将受到严重惩罚
2023-08-08罗牛山:融资净买入284.06万元,融资余额4.31亿元(08-07)
2023-08-08消防救援人员连续奋战 涿州一线排涝
2023-08-08央行连续9个月增持黄金 A股短暂休整不改上行趋势
2023-08-08俄罗斯法院冻结高盛在俄Detskiy Mir公司的股份
2023-08-08官方:AC米兰签下16岁波兰中场斯科奇拉斯,双方签约至2026年
2023-08-08CBOT大豆日内跌超3.00%,现报1293.00美分/蒲式耳。
2023-08-07Copyright 2015-2032 华西超市网版权所有 备案号:京ICP备2022016840号-35 联系邮箱: 920 891 263@qq.com