快速了解

欢迎来到 Google Gemini AI 知识库

什么是Gemini?

Gemini 3 是我们迄今为止最智能的模型系列,建立在先进的推理技术基础上。 它旨在通过掌握智能体工作流、自主编码和复杂的多模态任务,将任何想法变为现实。 本指南介绍了Gemini 3 模型系列的主要功能,以及如何充分利用这些功能。

认识一下 Gemini 3

最强且没有之一的视觉推理模型,以及拖后腿的Google产品。

在gemini 3.0 pro问世之前,无论是数学、代码、文字、创意……一切需要大模型的形态,GPT-5.1基本上都能够占据绝对能力第一名,或者是难分高下的并列第一名.

就是你只要没有网络、支付、预算的问题,那么任何需求基本上都可以无脑选择GPT来解决,如果GPT解决不了,在同量级成本下,其他模型也不会做得更好了。

除了一个领域——多模态。

在这个领域,和GPT形成竞争的是Doubao-Seed-1.6-vision。在对图像的理解的绝对能力上,Doubao比GPT略差一点,但是这个差距远无法弥补他们俩之间的高差价,他们俩之间能力和价格的距离,有点像年初Deepseek-r1和openai-o1之间的距离——都知道o1应该会强一点,但是正常人是不可能弃R1不用,去用O1的。

所以大量vl、图像理解的工程,Doubao都是第一首选。

但无论是Doubao,还是你愿意花钱,用GPT 5.1,或者是Gemini 2.5 pro,都有一个对人类来说不是很难(虽然有点麻烦)的任务,大模型是完不成的。

模型:

无论是完成日常任务,还是解决复杂问题,都能找到适合您需求的模型。

Gemini 为你的日常生活带来理性和智慧。

Cover

3 Pro

最适合处理复杂任务,并将创意概念变为现实。

Cover

2.5 Flash

最适合快速完成日常任务

Cover

2.5 Flash-Lite

最适合大批量、高性价比的任务

能力:

Gemini 3 将这些功能整合在一起,让您能够将任何想法变为现实。

  1. 学习任何知识:用清晰、简洁、有用的回答,以易于理解的方式理解复杂的主题。

  2. 建造任何东西:将您的想法变为现实——从草图和提示到互动工具和体验。

  3. 计划任何事:委派任务和多步骤项目,以前所未有的速度完成工作。

表现:

Gemini 3 在各项基准测试中均处于最先进水平。

我们迄今为止最智能的模型为人工智能模型的性能树立了新的标杆。

基准
Gemini 3 Pro
Gemini 2.5 Pro
Claude Sonnet 4.5
GPT-5.1

学术推理

人类的最后考试

无需工具

37.5%

21.6%

13.7%

26.5%

通过搜索和代码执行

45.8%

-

-

-

视觉推理谜题

ARC-AGI-2

ARC 奖项已核实

31.1%

4.9%

13.6%

17.6%

科学知识

GPQA钻石级

无需工具

91.9%

86.4%

83.4%

88.1%

数学

AIME 2025

无需工具

95.0%

88.0%

87.0%

94.0%

通过代码执行

100.0%

-

100.0%

-

具有挑战性的数学竞赛题目

MathArena Apex

23.4%

0.5%

1.6%

1.0%

多模态理解与推理

MMMU-Pro

81.0%

68.0%

68.0%

76.0%

屏幕理解

ScreenSpot-Pro

72.7%

11.4%

36.2%

3.5%

从复杂图表中综合信息CharXiv 推理

81.4%

69.6%

68.5%

69.5%

OCR

OmniDocBench 1.5

整体编辑距离,越低越好

0.115

0.145

0.145

0.147

从视频中获取知识

视频-MMMU

87.6%

83.6%

77.8%

80.4%

竞争性编程问题LiveCodeBench Pro

Elo 等级分越高越好

2,439

1,775

1,418

2,243

代理终端

编码终端工作台 2.0

终点站-2 特工

54.2%

32.6%

42.8%

47.6%

代理编码

SWE-Bench 验证

单次尝试

76.2%

59.6%

77.2%

76.3%

代理工具的使用

τ2-bench

85.4%

54.9%

84.7%

80.2%

长时程智能体任务

自动售货长椅 2

净资产(平均值),越高越好

5,478.16 美元

573.64美元

3,838.74 美元

1473.43美元

坚持内部基础、参数化、MM 和搜索检索基准

FACTS 基准测试套件

70.5%

63.4%

50.4%

50.8%

参数知识

SimpleQA 已验证

72.1%

54.5%

29.3%

34.9%

多语言问答

MMMLU

91.8%

89.5%

89.1%

91.0%

跨越100种语言和文化的常识推理

全球PIQA

93.4%

91.5%

90.1%

90.9%

长上下文表现

MRCR v2(8针)

128k(平均)

77.0%

58.0%

47.1%

61.6%

1M(逐点)

26.3%

16.4%

不支持

不支持

Gemini 3 深思熟虑,它突破了智能的界限,使 Gemini 3 的推理和多模态理解能力实现了质的飞跃,从而帮助您解决最复杂的问题。

Gemini 3 Deep Think 可以更好地帮助解决需要创造力、战略规划和逐步改进的问题。

最后更新于

这有帮助吗?