微信公众号

谷歌发布最强AI大模型——真正多模态,30项性能得分超GPT-4

谷歌AI大模型Gemini发布

美国硅谷时间12月6日上午,谷歌CEO正式宣布,“大杀器”Gemini 1.0,正式上线。Gemini官网https://deepmind.google/technologies/gemini/#introduction

  • Google Gemini可以直接理解和解释图像,高效地驱动数据和分析。例如,从一个视频中提取特征,生成一个摘要,并回答后续的文本问题。Gemini基于图像就可以马上进行理解。但如果是非原生多模态结构模型上,就需要先借助OCR(光学字符识别技术)先“认出来”图里是什么——转成文本,再放到语言模型中进行语义理解。

端到端的理解,信息不会在转录中丢失,Gemini的应用实例演示显得尤为丝滑。

多模态大模型

创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。在面对更具概念性和复杂推理的情况下,会出表现不佳。 谷歌Gemini强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。

Gemini三个版本:

Gemini展现了其文本、图像、视频、音频和代码的五大能力,一口气推出了大中小三个版本,从云上到手机、平板都可以跑。

  • Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务
  • Gemini Pro:可扩展至各种任务的Gemini模型
  • Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B)

在性能上,Gemini相当强悍。从自然图像、音频和视频理解到数学推理,在大型语言模型 (LLM) 研发中使用的32个学术基准上,Gemini Ultra的性能在30项上都超过了当前最先进的模型。并且在MMLU基准上达到人类专家水平。

VPN异地组网——解决虚拟网卡无法启动的问题 Linux——Samba文件共享服务配置
微信公众号