12月7日,谷歌在发布会上宣布,推出目前规模最大、功能最强大的人工智能模型Gemini,谷歌表示自己依然是全世界最伟大的公司之一,称Gemini在一系列测试中表现,均优于OpenAI的GPT-4模型,特别是在多模态的视频、语音任务上,Gemini测试表现优于各领域的专业人类!
昨日,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)和研发负责人戴密斯·哈萨比斯(Demis Hassabis),作为谷歌大模型团队的代表,正式推出大模型Gemini!
哈萨比斯这个名字非常熟悉,正是DeepMind的CEO,此前领导团队一手研发出AlphaGo,击败了人类棋手李世石和柯洁,将以神经网络为代表的深度学习进一步推向高潮!
长期以来,谷歌被视作是全球科技创新的领导者,但是自从微软发布GPT模型后,特别是ChatGPT的诞生,让谷歌有些措不及防,DeepMind现和谷歌大脑已经完成整合。
去年ChatGPT发布后不到两周,谷歌就急匆匆拿出Bard,但是在演示中出错,导致谷歌股价一夜蒸发超千亿美元,后续谷歌也给Anthropic注资,推出Claude 2来应对ChatGPT。
在谷歌内部,Gemini则一直被寄予了是超越ChatGPT的厚望,谷歌“深度思维”的艾力·柯林斯表示,Gemini是该公司最大、能力最强的模型,但也是最通用的多模态大模型。
Gemini可以用来处理视频、音频和文本等多个形式的信息,在演示中可以看到,当人类画出一个鸭子,Gemini快速识别出来,再加上波浪线后,Gemini也能实时理解这个鸭子在游泳。
哈萨比斯推出Gemini 1.0,共分为三个不同参数的版本,分别是Gemini Nano、Pro和Ultra,其中最小的版本Nano,让人想起苹果停产的ipod产品线,这个版本正是为移动端专门设计的,可以在智能手机上本地运行。
而Pro版本已经能够打败OpenAI的GPT3.5,Ultra更是当今最强多模态大模型,对标GPT-4,能够全方面碾压现有的AI大模型,在MMLU(大规模多任务语言理解)中能够超越90%的人类专家,也是目前准确率最高的大模型!
哈萨比斯强调,Gemini Ultra优于GPT-4主要在于对视频和音频的理解和交互能力,OpenAI采取的是GPT+DALL·E+Whisper的方式构建多模态,而Gemini则是从一开始就注重于多模态混合,预计Gemini Nano将首发在Pixel 8 Pro,Gemini Pro将在12月13日面向相企业级用户和开发者们开放Gemini API接口。
好吧,机器人时代还有50年?