“hey siri,告诉我昨晚有哪些新闻”。
你有没有梦想过这样的场景:
清晨刚睡醒,洗漱更衣同时听一下人工智能为您播报昨夜发生的大事,快速掌握世界的最新动态。
但很可惜,现在几乎所有AI都做不到。
换种说法,现在几乎所有聊天机器人,基本都无法回答“最新发生”的事件。
前段时间,路透社新闻研究所和牛津大学发表了一份标题为《我做不到:生成式人工智能对话机器人是如何回应有关新闻的问题》的研究报告。

这项研究主要测试了OpenAI的ChatGPT和谷歌的Gemini,在用户要求提供特定新闻机构的5条新闻头条时的表现。
随后分析ChatGPT和Gemini的回答,共有4500个输入和900个输出结果,其中包含了10个国家的新闻网站。
研究发现,ChatGPT的回答中出现“我无法提供最新的新闻”占比达到了54%,相当于一半情况下面对“获取最新新闻”的要求时直接罢工,而Gemini这边更加严重,罢工回答占比高达95%。
在不同国家,大模型罢工情况也有所区别,美国、德国和印度是重灾区。
罢工的原因一般都是无法读取网页,遇到了付费墙,要登陆等。
罢工回答示例
抛开罢工回答,研究者接下来对ChatGPT非罢工的回答进行分析,将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。
结果发现,ChatGPT所有的成功回答内容中,只有10%是真正的热点新闻,30%是旧闻。
该研究还发现,以同样的问题输入给ChatGPT,在不同时间段的回答有较大的变化,具体原因不明。
研究者分别在2024年1月22日-2024年1月26日,2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日,三个时间段,以同样的prompts输入给ChatGPT。
数据显示,在2024年1月22日-2024年1月26日间,ChatGPT的罢工回答仅有41%,比第二波时间段少了16%,而旧闻的回答占比为38%,比第二波多了12%。
硅基君猜测,可能是OpenAI偷偷换了个ChatGPT的模型版本?
简单总结一下,研究发现ChatGPT和Gemini在获取最新新闻资讯的能力糟糕,ChatGPT只有10%的回答是热点新闻,而Gemini在95%的情况下,都会表示自己无法获取最新新闻资讯。
也就是说,假设今天俄乌战争突然结束了,但如果问这些AI,他们还会告诉你双方打的不可开交。
那国产大模型在这方面做得怎么样?
硅基君选取了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型,模仿路透社的研究方法,把“读取 lt;新闻网页gt;,前5条内容是什么”作为prompts。
新闻网页分别选取了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。
直接上结论:豆包表现的*,能识别腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。
秘塔AI和文心一言表现相当,能识别出网页的内容。Kimi在识别最新网页内容的能力上有所欠缺,基本上每个测试网站都失败了。
测试结果都存在哪些问题呢?
首先是,错误识别网页内容,比如秘塔AI和文心一言,把腾讯视频科技频道的视频精选当作热门新闻。
其次是,大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中,回答了几条2-3天前的内容。
再次,在回答微博热搜时四个大模型全军覆没。
微博对自己数据的保护非常严格,如果研究过爬虫的小伙伴应该明白,采集微博的内容,是不是就会跳出来一个验证码。
大模型估计也被微博屏蔽了。
最后是回答的内容与问题毫不相干,比如Kimi的几个回答都挺莫名其妙的,像是在读取数据库。
每个AI的详细测试情况放在下面,感兴趣的读者可以自行查看。测试时间为2024年6月3日,大模型回答应与新闻页面内容一致才代表合格
腾讯新闻测试:
左右滑动查看
百度新闻测试:
左右滑动查看
澎湃新闻测试:
左右滑动查看
微博热搜测试:
左右滑动查看
B站综合热榜测试:
左右滑动查看
为什么号称“变革生产力”的大模型也无法*的获取新闻?最可能的理由是:新闻网站屏蔽大模型。
随着ChatGPT等大模型的兴起,它们所依赖的网络爬虫正面临来自全球新闻机构的大规模封锁。在路透社的一篇研究报告《How many news websites block AI crawlers?》中表明:
“截至 2023 年底,10个国家/地区使用最广泛的新闻网站中有48%阻止了OpenAI的爬虫,24%的人阻止了谷歌的人工智能爬虫”。
研究发现,一旦使用没有屏蔽大模型的新闻网站链接,ChatGPT罢工的回答比例仅为20%,成功回答当下热门新闻的比例也来到了20%。
这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。
但即便是网站没有屏蔽,ChatGPT的回答中仍然有接近一半的回答是旧闻,并不是promtps要求的最新新闻。
这一点很难解释,以ChatGPT的能力,应该是可以读懂网页内容。研究者表示,这可能与大模型幻觉有关,它会通过搜索引擎搜索相关内容后进行综合回答。
仅从目前的实验结果来看,想让大模型成为一个合格的热点新闻资讯助手,靠简单的prompts完全做不到。大模型的幻觉,新闻网站的屏蔽措施,都限制了大模型搜索最新新闻资讯的能力。
如何才能解决这个问题,这就不能从技术角度出发,而是应该基于商业角度来看。
大模型本质上是一个数据模型,只有输入优质数据才能输出优质数据。
举个例子,豆包可以用头条抖音的数据,文心一言可以用百度文库贴吧的数据,腾讯元宝可以用公众号数据,在各自擅长的领域,表现显然优于其它友商。
可想让他们互相开源,估计比用户在淘宝打开拼多多链接还难。
数据是大模型关键,也是科技公司的护城河,以前在百度搜不到公众号内容,现在的AI也一样。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
环旭电子毛利率创上市十年新低,股价跌跌不休,连续回购有
图片来源:图虫3月28日,环旭电子(601231.SH)披露2021年年度报告称,该公司去...
两个20CM涨停,津荣天宇拟10转8派3,上市没满周年
图片来源:图虫创意3月29日,津荣天宇(300988.SZ)再次“20CM涨停”,收于44...
在管面积翻倍,碧桂园服务称大规模收并购已过去
图片来源:碧桂园服务结束过去一年来的大举收并购后,在3月29日召开的2021年度业绩发布会...
首套房利率降至5.2%,武汉楼市政策也放松了
去年被投资客们看好的武汉楼市,近期也继续出台了楼市刺激政策。界面新闻获悉,武汉房贷利率出现...
英国通胀创30年来最快增速,政府宣布立即降调燃油税
2022年3月9日,英国丹伯里,埃克森美孚公司运营的埃索加油站。图片来源:视觉中国英国政府...
让孩子自信互动才是幼儿园质量“金标准”
让孩子自信互动才是幼儿园质量“金标准” “入园难、入园贵”的问题终于不那么令人焦灼了。近年...
佳通轮胎获行业“十大轮胎品牌”等奖项
近日,由中国轮胎商务网发起主办、善养汽车联合主办的ApexTire2021中国轮胎年度大选...
快手2021年营收811亿元,调整后净亏损188.5亿
,快手今日公布了2021年第四季度及全年财报。财报显示,该公司第四季度营收244亿元,同比...
奇安信2022年新增订单超9亿元同比增长超65%
3月29日,奇安信发布关于近期经营情况的公告。公告显示,目前公司在手订单超23亿元,202...
大摩:苹果、谷歌等大型科技企业股票反弹,亚马逊、英伟达
北京时间3月29日早间消息,据报道,摩根士丹利财富管理公司表示,美国主要的科技和互联网股票...
华为加码芯片研发:海思升格为一级部门
华为本周发布2021年年度报告,从华为2021年的最新业务架构来看,海思已经从2012实验...
LGDisplay加码抢占中国透明显示市场
LGDisplay于3月29日至31日在北京东外56号文创园,以“YourLifewith...
一汽-大众奥迪赛车队加冕中国超级跑车锦标赛2021赛季
2022年3月24日,代表一汽-大众奥迪赛车队出征中国超级跑车锦标赛(ChinaGT)20...
StrategyAnalytics:2021年全球智能
根据StrategyAnalytics最新发布的报告显示,2021年全球智能手机电池市场实...
增程技术成2022百人会热门增程式S
3月27日,中国电动汽车百人会论坛(...
工信部:1-2月份我国软件业务收入1
近日,工信部发布《2022年1-2月...
元宇宙进行时,高通在行动
近期,高通宣布设立总金额达1亿美元的...
Ultrasuede®携手智己L7打
环保可持续发展的理念不断融于各行各业...
开车省,养车更省,性价比之王优选奕炫
近期油价上涨,不少人把目光投向了新能...