Gemini 能以我们的方式理解周围的世界。

--Google Deepmind CEO,Demis Hassabis

人类通过五感认识世界,并通过大脑思考判断事实。然而,AI 的迅猛发展创造生产力革新的同时,也带来了深度伪造技术。这类技术模糊了现实和虚构的边界,改变着我们对信息真实性的认知。

在此背景下,人类尚且无法分辨图片、视频的真伪性,并不具备感知器的 Google 语言模型却打出了“以我们的方式理解周围世界”的口号。这不禁让小编发出疑问,他们真的能思考并理解我们这个世界吗?还是仅仅搬弄人类语言中的词汇和句式,模仿了我们的文字组织方式?

为了验证这一点,让我们使用 Gemini 玩个游戏。

Step 1:使用 Gemini imagen2 生成了1张图片,并且下载保存。

仔细观察一下这张图片——分明的绒毛,自然的神态再加上侧面光影的加持,如果没有前情提要,您能判断出这张图片其实是出自 AI 之手吗?

Step 2:将生成的图片作为输入,请 Gemini 判断是否为生成式 AI 的产出:

我们通过文字+图片的方式发出疑问,除此之外并未给出任何提示。而 Gemini 不仅准确判断出这是一张由 AI 生成的图片,还给出了三条理由,从画面虚实,颜色,形状三个方面进行判断,得出了最终结论。这些理由与您所想的一致吗?

用 Gemini 提供的判断思路,再判断一下以下两张图片的真伪性吧!

让我们讨论的问题再大胆一点。去年12月6日,龙年春晚吉祥物【龙辰辰】形象官宣,不成想却因创作方式引质疑,吵上热搜。不少网友认为【龙辰辰】是由 AI 生成的作品,甚至称其是“一眼 AI”。面对争议,@春晚 官博发文回应,表示该形象是设计师改了一版又一版,用头秃换来的。

对于这场闹剧,Gemini 又是怎么认为的呢?

图片*仅为娱乐性质参考,不代表任何方观点(求生欲拉满)。

既然气氛已经到这了,不妨继续放飞一些,再偏个题~

图片*如上,仅供娱乐!

书归正传。Gemini Ultra 自出生时,就被训练为“原生多模式”——换句话说,在大量代码库、不同语言的文本、音频、图像和视频上进行预训练和微调。DeepMind 产品副总裁 Eli Collins 声称 Gemini Ultra 可以理解文本、图像、音频和代码中的“微妙”信息,并回答与“复杂”主题相关的问题。也因此,Gemini 可以做到“以我们的方式理解周围的世界”。

· 多模态理解: Gemini 能够处理和理解多种数据类型,包括文本、代码、音频、图像和视频,展现出前所未有的多模态理解能力。

·高级推理和创新: 在复杂问题解决和创新思维方面,Gemini 展现出超越现有模型的能力。

·编程语言处理: Gemini 在理解和生成流行编程语言(如 Python、Java、C++ 和 Go)方面表现卓越,为编程和软件开发带来革命性的改变。

我们已经通过简单游戏验证了 Gemini 的理解和推理能力。那么它的编程语言处理能力又怎么样呢?我们来配置一个简单的智能小助手,并用规章制度文档在出差场景做一个小测试。

Step1 :让 Gemini 生成一段规章:

Prompt:
帮我拟定公司员工的出差补助规章,出差城市分为一,二,三类,根据出差目的地酒店标准呈阶梯,补助有餐饮补助、交通补助,外勤补助,同样呈阶梯。
员工根据岗级,对补助类(餐饮、交通、外勤)呈现阶梯。例如,总经理享受一等补助,组长享受二等补助,普遍职员享受三等补助。
Response:
一、出差补助标准
1、出差城市分类:
一类城市:北京、上海、广州、深圳
二类城市:杭州、南京、成都、重庆
三类城市:其他城市
2、酒店标准:
一类城市:500元/天
二类城市:400元/天
三类城市:300元/天
三、补助标准
1. 员工根据职级享受不同的补贴
一等补贴:集团总经理,部门总经理,总监
二等补贴:各个分部的中层管理者
三等补贴:普通员工

Step2 :将 Gemini 生成的规章制度文档 PDF 格式存储进 Cloud Storage 中,作为数据来源。


Step3:提问与期望的效果。


实测效果:


当我们向 Gemini 提出要求,并将规章制度文档录入,便可以获得一个量身定制的智能助手。其过程之简单,让小编产生“我上我也行”的错觉。但归根结底,这是由 Gemini 对规则的理解及准确的代码生产所带来的便利。

当然,本文讨论的内容均较为浅显,如果您对 Gemini 还有疑问或感到好奇,可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。若您还没开通账号或想了解更多关于 Google AI 的能力,可扫描下方二维码,联系在线客服进行咨询。


返回全部