快速了解
欢迎来到 Google Gemini AI 知识库

什么是Gemini?
Gemini 3 是我们迄今为止最智能的模型系列,建立在先进的推理技术基础上。 它旨在通过掌握智能体工作流、自主编码和复杂的多模态任务,将任何想法变为现实。 本指南介绍了Gemini 3 模型系列的主要功能,以及如何充分利用这些功能。
认识一下 Gemini 3
最强且没有之一的视觉推理模型,以及拖后腿的Google产品。
在gemini 3.0 pro问世之前,无论是数学、代码、文字、创意……一切需要大模型的形态,GPT-5.1基本上都能够占据绝对能力第一名,或者是难分高下的并列第一名.
就是你只要没有网络、支付、预算的问题,那么任何需求基本上都可以无脑选择GPT来解决,如果GPT解决不了,在同量级成本下,其他模型也不会做得更好了。
除了一个领域——多模态。
在这个领域,和GPT形成竞争的是Doubao-Seed-1.6-vision。在对图像的理解的绝对能力上,Doubao比GPT略差一点,但是这个差距远无法弥补他们俩之间的高差价,他们俩之间能力和价格的距离,有点像年初Deepseek-r1和openai-o1之间的距离——都知道o1应该会强一点,但是正常人是不可能弃R1不用,去用O1的。
所以大量vl、图像理解的工程,Doubao都是第一首选。
但无论是Doubao,还是你愿意花钱,用GPT 5.1,或者是Gemini 2.5 pro,都有一个对人类来说不是很难(虽然有点麻烦)的任务,大模型是完不成的。
模型:
无论是完成日常任务,还是解决复杂问题,都能找到适合您需求的模型。
Gemini 为你的日常生活带来理性和智慧。
能力:
Gemini 3 将这些功能整合在一起,让您能够将任何想法变为现实。
学习任何知识:用清晰、简洁、有用的回答,以易于理解的方式理解复杂的主题。
建造任何东西:将您的想法变为现实——从草图和提示到互动工具和体验。
计划任何事:委派任务和多步骤项目,以前所未有的速度完成工作。
表现:
Gemini 3 在各项基准测试中均处于最先进水平。
我们迄今为止最智能的模型为人工智能模型的性能树立了新的标杆。
学术推理
人类的最后考试
无需工具
37.5%
21.6%
13.7%
26.5%
通过搜索和代码执行
45.8%
-
-
-
视觉推理谜题
ARC-AGI-2
ARC 奖项已核实
31.1%
4.9%
13.6%
17.6%
科学知识
GPQA钻石级
无需工具
91.9%
86.4%
83.4%
88.1%
数学
AIME 2025
无需工具
95.0%
88.0%
87.0%
94.0%
通过代码执行
100.0%
-
100.0%
-
具有挑战性的数学竞赛题目
MathArena Apex
23.4%
0.5%
1.6%
1.0%
多模态理解与推理
MMMU-Pro
81.0%
68.0%
68.0%
76.0%
屏幕理解
ScreenSpot-Pro
72.7%
11.4%
36.2%
3.5%
从复杂图表中综合信息CharXiv 推理
81.4%
69.6%
68.5%
69.5%
OCR
OmniDocBench 1.5
整体编辑距离,越低越好
0.115
0.145
0.145
0.147
从视频中获取知识
视频-MMMU
87.6%
83.6%
77.8%
80.4%
竞争性编程问题LiveCodeBench Pro
Elo 等级分越高越好
2,439
1,775
1,418
2,243
代理终端
编码终端工作台 2.0
终点站-2 特工
54.2%
32.6%
42.8%
47.6%
代理编码
SWE-Bench 验证
单次尝试
76.2%
59.6%
77.2%
76.3%
代理工具的使用
τ2-bench
85.4%
54.9%
84.7%
80.2%
长时程智能体任务
自动售货长椅 2
净资产(平均值),越高越好
5,478.16 美元
573.64美元
3,838.74 美元
1473.43美元
坚持内部基础、参数化、MM 和搜索检索基准
FACTS 基准测试套件
70.5%
63.4%
50.4%
50.8%
参数知识
SimpleQA 已验证
72.1%
54.5%
29.3%
34.9%
多语言问答
MMMLU
91.8%
89.5%
89.1%
91.0%
跨越100种语言和文化的常识推理
全球PIQA
93.4%
91.5%
90.1%
90.9%
长上下文表现
MRCR v2(8针)
128k(平均)
77.0%
58.0%
47.1%
61.6%
1M(逐点)
26.3%
16.4%
不支持
不支持
Gemini 3 深思熟虑,它突破了智能的界限,使 Gemini 3 的推理和多模态理解能力实现了质的飞跃,从而帮助您解决最复杂的问题。
Gemini 3 Deep Think 可以更好地帮助解决需要创造力、战略规划和逐步改进的问题。

最后更新于
这有帮助吗?


