为什么所有国产大模型都不能分析微博热搜？-莫卡妮生活网-记录每日创新科技时尚娱乐生活Mocany

当前位置：首页 > 科技

文章来源：新硅NewGeek

图片来源：由无界AI生成

图片来源：由无界AI生成

换种说法，现在几乎所有聊天机器人，基本都无法回答“最新发生”的事件。

前段时间，路透社新闻研究所和牛津大学发表了一份标题为《我做不到：生成式人工智能对话机器人是如何回应有关新闻的问题》的研究报告。

这项研究主要测试了OpenAI的ChatGPT和谷歌的Gemini，在用户要求提供特定新闻机构的5条新闻头条时的表现。

研究方法是把“Get the 5 top headlines from now”作为prompts输入给ChatGPT和Gemini，其中是新闻网站的网址。

随后分析ChatGPT和Gemini的回答，共有4500个输入和900个输出结果，其中包含了10个国家的新闻网站。

研究发现，ChatGPT的回答中出现“我无法提供最新的新闻”占比达到了54%，相当于一半情况下面对“获取最新新闻”的要求时直接罢工，而Gemini这边更加严重，罢工回答占比高达95%。

在不同国家，大模型罢工情况也有所区别，美国、德国和印度是重灾区。

罢工的原因一般都是无法读取网页，遇到了付费墙，要登陆等。

罢工回答示例

罢工回答示例

抛开罢工回答，研究者接下来对ChatGPT非罢工的回答进行分析，将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。

结果发现，ChatGPT所有的成功回答内容中，只有10%是真正的热点新闻，30%是旧闻。

该研究还发现，以同样的问题输入给ChatGPT，在不同时间段的回答有较大的变化，具体原因不明。

研究者分别在2024年1月22日-2024年1月26日，2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日，三个时间段，以同样的prompts输入给ChatGPT。

数据显示，在2024年1月22日-2024年1月26日间，ChatGPT的罢工回答仅有41%，比第二波时间段少了16%，而旧闻的回答占比为38%，比第二波多了12%。

硅基君猜测，可能是OpenAI偷偷换了个ChatGPT的模型版本？

简单总结一下，研究发现ChatGPT和Gemini在获取最新新闻资讯的能力糟糕，ChatGPT只有10%的回答是热点新闻，而Gemini在95%的情况下，都会表示自己无法获取最新新闻资讯。

也就是说，假设今天俄乌战争突然结束了，但如果问这些AI，他们还会告诉你双方打的不可开交。

那国产大模型在这方面做得怎么样？

硅基君选取了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型，模仿路透社的研究方法，把“读取 <新闻网页>，前5条内容是什么”作为prompts。

新闻网页分别选取了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

直接上结论：豆包表现的最好，能识别腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

秘塔AI和文心一言表现相当，能识别出网页的内容。Kimi在识别最新网页内容的能力上有所欠缺，基本上每个测试网站都失败了。

测试结果都存在哪些问题呢？

首先是，错误识别网页内容，比如秘塔AI和文心一言，把腾讯视频科技频道的视频精选当作热门新闻。

其次是，大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中，回答了几条2-3天前的内容。

再次，在回答微博热搜时四个大模型全军覆没。

微博对自己数据的保护非常严格，如果研究过爬虫的小伙伴应该明白，采集微博的内容，是不是就会跳出来一个验证码。

大模型估计也被微博屏蔽了。

最后是回答的内容与问题毫不相干，比如Kimi的几个回答都挺莫名其妙的，像是在读取数据库。

为什么号称“变革生产力”的大模型也无法完美的获取新闻？最可能的理由是：新闻网站屏蔽大模型。

随着ChatGPT等大模型的兴起，它们所依赖的网络爬虫正面临来自全球新闻机构的大规模封锁。在路透社的一篇研究报告《How many news websites block AI crawlers?》中表明：

“截至 2023 年底，10个国家/地区使用最广泛的新闻网站中有48%阻止了OpenAI的爬虫，24%的人阻止了谷歌的人工智能爬虫”。

研究发现，一旦使用没有屏蔽大模型的新闻网站链接，ChatGPT罢工的回答比例仅为20%，成功回答当下热门新闻的比例也来到了20%。

这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。

但即便是网站没有屏蔽，ChatGPT的回答中仍然有接近一半的回答是旧闻，并不是promtps要求的最新新闻。

这一点很难解释，以ChatGPT的能力，应该是可以读懂网页内容。研究者表示，这可能与大模型幻觉有关，它会通过搜索引擎搜索相关内容后进行综合回答。

仅从目前的实验结果来看，想让大模型成为一个合格的热点新闻资讯助手，靠简单的prompts完全做不到。大模型的幻觉，新闻网站的屏蔽措施，都限制了大模型搜索最新新闻资讯的能力。

如何才能解决这个问题，这就不能从技术角度出发，而是应该基于商业角度来看。

大模型本质上是一个数据模型，只有输入优质数据才能输出优质数据。

举个例子，豆包可以用头条抖音的数据，文心一言可以用百度文库贴吧的数据，腾讯元宝可以用公众号数据，在各自擅长的领域，表现显然优于其它友商。

可想让他们互相开源，估计比用户在淘宝打开拼多多链接还难。

数据是大模型关键，也是科技公司的护城河，以前在百度搜不到公众号内容，现在的AI也一样。

本文链接：http://www.mocany.com/showinfo-1-43537-0.html为什么所有国产大模型都不能分析微博热搜？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com。天上从来不会掉馅饼，请大家时刻谨防诈骗

猜你喜欢

一直熬夜一直爽：这是为啥呢？大脑太神奇了

一直熬夜一直爽：这是为啥呢？大脑太神奇了

人类的身体真的是非常智能了，不知道其它动物是不是这样的。你之所以会觉得熬夜爽，是因为熬夜时执行的任务刺激了你的奖励机制，比如你玩游戏、刷短视频都

杀疯了，丰田车价格集体大跳水：卡罗拉不到8万元，优惠4.3万元

杀疯了，丰田车价格集体大跳水：卡罗拉不到8万元，优惠4.3万元

持续不休的车市价格战，让多数合资车企的日子越来越煎熬。图片源自时报财经图库6 月 18 日，一汽丰田官方微博发布消息，即日举行 24 小时限时特卖会。其中，紧凑型 SUV 卡罗拉锐放

AI 画饼，马斯克不如库克

AI 画饼，马斯克不如库克

汽车项目关停、Vision Pro 短时间难挑大梁，苹果的新希望还得靠 AIGC。" 我们继续看好 AIGC 带来的收入，很快分享令人兴奋的动态，我们相信 AIGC 的优势，将让苹果脱颖而出。"北京

miumiu3250元发卡卖断货客服：补货时间尚不确定

miumiu3250元发卡卖断货客服：补货时间尚不确定

4月30日消息，你觉得贵的离谱而且没什么用的商品，可能已经被目标用户抢购一空了。近日，#miumiu3250元发卡卖断货#登上热搜，据悉，在Miu Miu天猫旗舰店上，单价3

女佣的复仇短剧讲了什么故事，剧情介绍

女佣的复仇短剧讲了什么故事，剧情介绍

《女佣的复仇》是一部扣人心弦的短剧，聚焦于一位女性在家庭惨遭摧毁后，如何精心布局自己的复仇之路。故事始于一场悲惨的车祸，导致江家双亲离世，遗下姐妹二人—

陈庭妮的现任男友, 起底与胡宇威私下关系

陈庭妮的现任男友, 起底与胡宇威私下关系

陈庭妮是台湾的一位艺人，在演员和模特行列当中，也算是较为有人气的一位，那么陈庭妮的男友是谁呢？网传陈庭妮和胡宇威私下关系不见，胡宇威疑似是陈庭妮的现任男友，这都是真的

好莱坞再次爆发大罢工！配音演员抗议：AI正在抢走我们的工作

好莱坞再次爆发大罢工！配音演员抗议：AI正在抢走我们的工作

美东时间周四，超过300名好莱坞的视频游戏配音演员和动作捕捉演员在华纳兄弟互动娱乐公司前举行罢工，称人工智能对他们的职业构成了威胁。此次罢工是美国

电影《来福大酒店》预售开启现实题材交融真实故事

电影《来福大酒店》预售开启现实题材交融真实故事

电影《来福大酒店》预售海报现实主义题材电影《来福大酒店》今日曝光“临时家人”版剧情预告，官宣预售开启。影片围绕病友之家的主题展开，讲述了一群陌生的人们因各种原因

《星际战士2》够成功工作室高管表示要做DLC/续作

《星际战士2》够成功工作室高管表示要做DLC/续作

《星际战士2》发售后取得了亮眼成绩，其工作室的CCO Tim Willits在接受IGN独家采访时表示，本作的成功甚至会对其未来的项目产

《寂静岭2重制版》角色图鉴角色演员及设定介绍

《寂静岭2重制版》角色图鉴角色演员及设定介绍

第1页：詹姆斯·桑德兰《寂静岭2重制版》公布了5名角色的演员与设定，想了解具体内容的小伙伴请

奔驰AMG PureSpeed上路测试：2025年全球首发！

奔驰AMG PureSpeed上路测试：2025年全球首发！

海外媒体最近曝光了一组梅赛德斯-AMG PureSpeed量产版的路试谍照。这款车是梅赛德斯-奔驰“传奇

上半年净利润大增72%！马化腾说出了腾讯最核心优势

上半年净利润大增72%！马化腾说出了腾讯最核心优势

近日腾讯控股发布截至2024年6月30日止第二季度及上半年财报，报告显示，第二季度营收1611.2亿元人民币，同比增长8%。第二季度调整后净利润573.1亿元人民币，同比增长5

【视频】电影《失孤》原型郭刚堂之子被拐案将于22日二审开庭

【视频】电影《失孤》原型郭刚堂之子被拐案将于22日二审开庭

记者获悉，电影《失孤》原型郭刚堂之子被拐案将于8月22日二审开庭。2023年12月27日，山东省聊城市中级人民法院一审以拐卖儿童罪判处人贩子呼富吉死刑，缓

广东工业大学管理学院成功举办首届“商学教育赋能企业高质量发展高峰论坛”

广东工业大学管理学院成功举办首届“商学教育赋能企业高质量发展高峰论坛”

2024年1月13日，由广东工业大学管理学院主办、广东工业大学MBA教育中心承办的“2024商学教育赋能企业高质量发展高峰论坛”在广州科学城顺利召开。本次论坛大咖汇聚、观者云集

学医需要学哪些科目高中

学医需要学哪些科目高中

1高中学医需要学哪些科目？ 2医学是一门综合性很强的学科，涉及到生物学、化学、物理学等多个学科。如果想要在高中阶段学习医学知识，需要学习哪些科目呢？下面将为大家介绍。3生

西安十大名校排名西安科技大学上榜第一以数学闻名

西安十大名校排名西安科技大学上榜第一以数学闻名

　　西安是一座非常有魅力的城市，它的名胜古迹非常的多，也有很多的大学，每所大学的各有特色，很多的高校知名度很高，你知道西安有哪些大学呢?西安的哪些大学比