谷歌发布最强AI大模型——真正多模态，30项性能得分超GPT-4

谷歌AI大模型Gemini发布

美国硅谷时间12月6日上午，谷歌CEO正式宣布，“大杀器”Gemini 1.0，正式上线。Gemini官网：https://deepmind.google/technologies/gemini/#introduction

Google Gemini可以直接理解和解释图像，高效地驱动数据和分析。例如，从一个视频中提取特征，生成一个摘要，并回答后续的文本问题。Gemini基于图像就可以马上进行理解。但如果是非原生多模态结构模型上，就需要先借助OCR（光学字符识别技术）先“认出来”图里是什么——转成文本，再放到语言模型中进行语义理解。

端到端的理解，信息不会在转录中丢失，Gemini的应用实例演示显得尤为丝滑。

多模态大模型

创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。在面对更具概念性和复杂推理的情况下，会出表现不佳。谷歌Gemini强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。

Gemini三个版本：

Gemini展现了其文本、图像、视频、音频和代码的五大能力，一口气推出了大中小三个版本，从云上到手机、平板都可以跑。

Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务
Gemini Pro：可扩展至各种任务的Gemini模型
Gemini Nano：适用于端侧设备的高效Gemini版本（1.8B/3.25B）

在性能上，Gemini相当强悍。从自然图像、音频和视频理解到数学推理，在大型语言模型 (LLM) 研发中使用的32个学术基准上，Gemini Ultra的性能在30项上都超过了当前最先进的模型。并且在MMLU基准上达到人类专家水平。