12月13日,Gemini Pro 将对开发人员和企业客户开通试用,大家可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。


上周四凌晨, Google CEO 桑达尔・皮查伊和 Deepmind CEO 戴密斯·哈萨比斯在 Google 官网联名发文,官宣了最新多模态大模型 Gemini 1.0(双子星)版本正式上线。此消息一出,瞬间激起千层浪。人们震惊于科技巨人反击之剑快而有力的同时,也产生了诸多疑问——Gemini 是否真拥有超过人类的语言理解能力、是否真比 ChatGPT-4 好用等等。在舆论发酵一周后,Google 终于将揭开谜底。


什么是 Gemini 1.0?


Gemini 1.0 是 Google 筹备了一年之久的 GPT4 真正竞品,也是目前 Google 能拿出手的功能最为强悍、适配最为灵活的大模型,包括三种不同套件,分别是 Gemini Ultra, Gemini Pro 和 Gemini Nano。


  • Gemini Ultra:规模最大、能力最强,用于处理高度复杂的任务;

  • Gemini Pro:在各种任务上扩展的最佳模型;

  • Gemini Nano:用于端侧(on-device)任务的最高效模型。


目前, Google 的类 ChatGPT 应用 Bard 已经升级到了 Gemini Pro 版本,实现了更为高级的推理、规划、理解等能力,同时继续保持免费。而 Pixel 8 Pro 则将是第一款运行 Gemini Nano 的智能手机。




Pixel 8 Pro 在录音机应用中使用 Gemini Nano 来总结会议音频,即使没有网络连接也可以实现。


为什么 Gemini 会如此受关注?


Gemini 在设计时原生地支持多模态,从一开始便在不同模态上进行了预训练,然后利用额外的多模态数据进行微调以提升有效性。因此,Gemini 能够无缝地理解和推理各种输入,远远优于现有多模态模型,并且它的能力在几乎每个领域都是最强的。


复杂推理能力


Gemini 1.0 具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini 1.0 通过阅读、过滤和理解信息具有了从数十万份文件中提取 insights 的超凡能力,这有助于科学、金融等诸多领域以超快的速度取得新突破。


同时理解文字、图像、音频以及更多模态的信息


经过训练,Gemini 1.0 可以同时识别和理解文本、图像、音频等,因此它能够更全面地理解输入中信息的细节,也能回答与复杂主题相关的问题。因此,它特别擅长对数学和物理等复杂学科的问题进行推理。


如下图所示,一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。




高级编码


Gemini 可以理解、解释和生成流行编程语言(如 Python、Java、C++、Go)的高质量代码,具备强大的跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。


Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(谷歌内部数据集),该数据集使用作者生成的源代码而不是基于网络的信息。


Gemini 还可以用作更高级编码系统的引擎。两年前,谷歌推出了 AlphaCode,这是第一个在编程竞赛中达到竞争性水平的人工智能代码生成系统。


使用 Gemini 的专门版本,谷歌创建了更先进的代码生成系统 AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。




经过与原始 AlphaCode 在相同平台上进行评估,AlphaCode 2 展现出巨大的改进,解决的问题数量几乎是原来的两倍。




开发者如何使用 Gemini?


Gemini Nano


Android 开发人员可以通过 AICore 使用 Gemini Nano 进行构建。Android AICore 是 Android 14 中的一项新系统服务,可处理模型管理、运行时、安全功能等,简化用户将 AI 融入应用程序的工作。



AICore 通过 Gemini Nano 实现低秩适应 (LoRA) 微调。这个强大的概念使应用程序的开发人员能够根据自己的训练数据创建小型 LoRA 适配器。LoRA 适配器由 AICore 加载,从而产生针对应用程序自身用例进行微调的大型语言模型。


Gemini Ultra


Gemini Ultra 模型目前正处于信任和安全检查阶段,包括由可信赖的外部各方组成的红队(red team),并使用微调和人类反馈强化学习(RLHF)进一步完善模型。在这个过程中, Google 会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra,供其进行早期实验和反馈,然后在明年初向开发人员和企业客户推出。


Gemini Pro


作为本次发布的主角之一,Gemini Pro 是目前用户能够接触到的最高等级且相对完整的版本。目前,谷歌旗下的聊天机器人 Bard 已经集成 Gemini Pro 的微调版本,在170多个国家和地区提供英语服务。针对开发者,Gemini Pro 将于美国时间12月13日开始提供 API(应用程序接口),开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 获取 Gemini Pro 入口。


Google 表示,未来将努力扩展 Gemini 的功能,包括在规划和记忆方面的进步,以及增加上下文窗口以处理更多信息,从而做出更好的响应。


返回全部