当前所在位置:首页 > 联华证券

Gemini上线第一天被质疑“造假”,谷歌这样回应

7678

2024-05-15 【 字体:

和人类玩儿猜谜游戏,快速准确地识别视频中的动作并猜出电影来源,根据画面中的电吉他播放相应的音乐,不仅能识别手写物理题还能给出解题步骤……Google大模型Gemini上线时一段震撼业界的演示视频如今被质疑造假。

有人质疑,这段视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成。根据 YouTube 上的视频描述,可以发现 Google 有一个重要的免责声明:“为了演示的目的,他们已经减少延迟,为了简洁,Gemini 的输出也缩短了。” 这意味着Gemini真实的响应时间要比视频中长。

第一财经记者留意到,Google官方后续发布了一篇名为《How it’s Made: Interacting with Gemini through multimodal prompting》的博客文章,列举了视频中演示的过程,可以看到的是,Gemini实现多模态交互需要经过多次提示和调试,并不仅仅是缩短了时间,而且Gemini所有的这些交互是通过提示词问出来的。也就是说,官方视频演示是使用了原始镜头中的静止图像帧,然后编写了文本提示,让 Gemini 进行回应。

例如,在官方演示视频中,一只手在镜头前做出变幻手势。Gemini 很快回应:“我知道你在做什么。你在玩石头、剪刀、布!”看起来,AI能够马上直接看懂人类的手势游戏。

但博客中这样描述了背后实现的过程: 当“喂”给AI一张伸出手掌做出“布”的手势图时,Gemini的回答是:“这是一个人的右手,并且手指分开”。当它看到一张比划“剪刀”的手势图时,Gemini回答自己看到了一只伸出两个手指的手,通常是数字2的常用符号。当比划“石头”握紧拳头,Gemini认为是有人在敲门。最后,当“石头剪刀布”三张手势图放在一起,并且提示它“这是一个游戏后”,Gemini才终于答对。

再如,在逻辑推理相关的视频演示中,人类把画有太阳、土星和地球的图片展示给 Gemini,并问道:“这是正确的顺序吗? Gemini马上纠正:“不,正确顺序是太阳、地球、土星。”

而实际上,这一视频背后的实现过程中,人类需要给出提示词:“考虑到与太阳的距离,这个顺序对吗?并解释你的理由。”此后,Gemini 才给出了正确回答 。

但面对“造假”质疑,Google予以否认。记者留意到,Google DeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯(Oriol Vinyals)发文表示:“该视频展示了使用Gemini构建的多模态用户体验,视频中使用Gemini Ultra的所有用户提示和输出都是真实的,为了简洁起见缩短了时间。”他还透露Google将在 12 月 13 日开放Gemini Pro的访问权限,届时开发者可以尝试类似的实践。

除了视频质疑之外,也有用户在使用中发现,在一些情况下,Gemini并没有正确反映真实的情况,例如,有用户测试后发现,对于2023年奥斯卡获奖者,Gemini Pro错误地表示最佳男主角是布兰登·格里森(Brendan Gleeson),而不是真正的得主布兰登·弗雷泽 (Brendan Fraser)。而当被要求给出6个字母的法语单词时,Gemini Pro给出了错误答案。

此外,Google援引的MMLU测试表格显示,在Gemini Ultra 90.0%的分数下面标有CoT@32,也就是“使用了思维链提示技巧、尝试32次选最好样本”;而GPT4 86.4%分数下却是5-shot。测试还显示Gemini Ultra对于GPT4只有几个百分点的微弱优势,但GPT4的发布时间早于Gemini半年以上。

在使用行业标准5-shot MMLU的情况下,HuggingFace技术主管Philipp Schmid根据技术报告中的数据重新分析并得出结论:假设使用5-shot,Gemini的得分实为83.7%,而非90.0%;GPT4则取得86.4%的得分。

对于视频造假质疑,一位AI行业从业者对第一财经记者表示,尽管官方声称是为了简洁展现而缩短了时间,但从官方后续的博客描述来看,此前的演示视频确实存在一定的误导性,会让外界误认为Gemini的响应和交互速度、准确性如视频所演示的那样,但其实它并未展示出全部的真实。

也有投资人表示,这或许也反映出新一波AI浪潮之下Google的焦虑。此前凭借AlphaGo在围棋领域的表现,Google在全球掀起了一波AI浪潮。但这一轮AI新浪潮的风头却被OpenAI的ChatGPT抢走,Google需要一款现象级AI产品来证明自己在人工智能领域的实力。毕竟产品的真正实力不能只看宣传片,更重要的还是在实际应用中的比试,届时用户将“用脚投票”。

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

刘佳

关键字

GoogleGeminiAI演示视频

相关阅读 记录托举智能时代的力量,商汤入选第一财经《2023数字中国年度案例》

这背后,是商汤成立9年来在AI领域的坚定投入和扎实运营。

2023-12-19 20:32 AI技术如何帮助药物研发?上海启动这个大赛

上海发起2023(首届)上海国际计算生物学创新大赛——药物筛选AI算法“凌越”挑战赛,于 12月15日正式上线。

2023-12-15 17:14 AI板块迎密集催化期,反弹行情如火如荼,哪些方向值得重点关注?

二级市场上,AI概念持续反弹,近5日Wind人工智能指数涨6.56%。

2023-12-12 19:01 教育板块冲高,AI赋能下行业应用有望加快落地

机构指出,Pika 1.0和Gemini为代表的AI多模态模型不断突破,或推动大模型在教育、办公等领域的应用加快落地并打开商业化空间。

2023-12-12 10:32 专业、理性、耐心,启明创投叶冠泰的科技投资方法论

在早期锁定优质公司并非一件易事。叶冠泰认为,产品能否做出来,和产品未来的市场空间,决定了一家企业是否值得被投资。

2023-12-12 09:54 一财最热 点击关闭

阅读全文
相关推荐

股票正规配资 ,上海市“两会”刚闭幕,陈吉宁赴浦东调研并开展现场办公,抓贯彻抓开局抓落实

股票正规配资 ,上海市“两会”刚闭幕,陈吉宁赴浦东调研并开展现场办公,抓贯彻抓开局抓落实
股票正规配资 ,上海市“两会”刚闭幕,陈吉宁赴浦东调研并开展现场办公,抓贯彻抓...

主次节奏:617一句话看懂黄金Gold

主次节奏:617一句话看懂黄金Gold
图文所示:24小时节奏预期一句话看懂黄金Gold:黄金偏强,短线客观为震荡,今日...

白银多头酝酿“爆炸性”行情!白银最新技术分析:若攻克这两个阻力 银价料飙升近6%

白银多头酝酿“爆炸性”行情!白银最新技术分析:若攻克这两个阻力 银价料飙升近6%
周三(5月18日)亚市盘中,现货白银略微走低,现报21.55美元/盎司附近。知名...

现在提起 #隐藏式门把手# ,大家想到的第一个优势可能就是能降风阻,

现在提起 #隐藏式门把手# ,大家想到的第一个优势可能就是能降风阻,
现在提起 #隐藏式门把手# ,大家想到的第一个优势可能就是能降风阻,增续航,但到...

vivo不讲武德,从3699跌至2391元,旗舰双芯+144Hz+120W+5000mAh

vivo不讲武德,从3699跌至2391元,旗舰双芯+144Hz+120W+5000mAh
曾几何时,vivo的手机在众多网友心中那可是有“高价低配”的标签,简直被黑得体无...

四线贯通的广东城际,为何被称为湾区“大号地铁”?丨珠三角观察

四线贯通的广东城际,为何被称为湾区“大号地铁”?丨珠三角观察
“四线”串五城,东西向横跨粤港澳大湾区的“大号地铁”来了。(官宣!广东城际5月2...

在北京街看“慈善+非遗”,真情“粽”会如约而至

在北京街看“慈善+非遗”,真情“粽”会如约而至
5日,在北京街党工委、办事处的指导下,北京街社工服务站联合北京街人大工委、街公卫...

专注“小而美”的产品故事 玉树创业青年聊北京见闻

专注“小而美”的产品故事 玉树创业青年聊北京见闻
中新网北京5月29日电 题:专注“小而美”的产品故事 玉树创业青年聊北京见闻作者...

比亚迪最新公告:1-6月新能源汽车销量同比增长2846%

比亚迪最新公告:1-6月新能源汽车销量同比增长2846%
比亚迪公告,6月新能源汽车销量34.17万辆,去年同期25.30万辆;1-6月新...

港股概念追踪 上海累计开放测试道路总里程突破2000公里 自驾产业链成长空间广阔(附概念股)

港股概念追踪 上海累计开放测试道路总里程突破2000公里   自驾产业链成长空间广阔(附概念股)
记者从浦东新区第二批自动驾驶开放测试道路新闻通气会上获悉,金桥经济技术开发区全域...