VGGT 論文報告

CVPR 2025 · Best Paper

VGGT

Visual Geometry Grounded Transformer

視覺幾何基礎 Transformer

REPORTER

蔡書毅 410415032

arXiv 2503.11651　·　VGG, Oxford　·　Meta AI

01/16

目　次

I VGGT 在做什麼 03

II Transformer 基礎 07

III Transformer 元件拆解 09

IV Transformer 回顧 36

V ViT — 影像也能當 token 37

VI VGGT 架構 38

VII 實驗結果 45

VIII 互動 Demo 49

IX 感謝聆聽 · Q&A 50

02/16

SECTION I · 問題 (1/4)

VGGT 在做甚麼

同一場景的多張視角影像

↓

VGGT single feed-forward · ~1 sec

↓

Cameras

相機參數

Depth Maps

深度圖

Point Maps

點雲圖

Tracks

點追蹤

03/16

SECTION I · 問題 (2/4)

四個輸出的作用例子: Figure 1

1 2 3 4

1Cameras

2Point Maps

3Depth Maps

4Tracks

03/16

SECTION I · 問題 (3/4)

VGGT 整體架構

03/16

SECTION I · 問題 (4/4)

VGGT 整體架構

Transformer

decoder + CNN

03/16

SECTION II · TRANSFORMER (1/2)

GPT

G

Generative

逐字「產生」新內容

P

Pretrained

先用海量資料預先學好,再用

T

Transformer

背後的網路架構

04/16

SECTION II · TRANSFORMER (2/2)

Transformer 在做什麼? (文字接龍)

Once upon a

↓

下一個 token 的機率分布——從中 sampling:機率越高越可能被選

04/16

SECTION III · INPUT EMBEDDING (1/4)

Input Embedding

05/16

SECTION III · INPUT EMBEDDING (2/4)

Tokenization + Input Embedding:從文字到向量

Once upon a time tokenization fun

↓

Tokenizer

↓

Input Embedding

↓

05/16

SECTION III · INPUT EMBEDDING (3/4)

Input Embedding 怎麼運作?

Once upon a time king cat

+0.23 −0.12 +0.55 −0.31 +0.49 +0.71 −0.41 +0.34 +0.09 +0.62 −0.22 +0.14 +0.05 −0.67 −0.18 +0.14 +0.31 −0.05 +0.78 +0.21 +0.42 −0.55 +0.66 +0.18 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯

Embedding Matrix W ∈ ℝ^{d × V}

每個 token 對應矩陣的一個直立 column = 該 token 的 d 維向量(這裡顯示前 4 維;實際 d ≈ 768 或 1024)

05/16

SECTION III · INPUT EMBEDDING (4/4)

詞意 ≈ 向量空間裡的位置

man

−0.30 +0.40 +0.12 −0.05 +0.28 ⋮

woman

+0.30 +0.40 +0.11 −0.04 +0.31 ⋮

boy

−0.30 −0.40 +0.13 −0.07 +0.26 ⋮

girl

+0.30 −0.40 +0.10 −0.06 +0.30 ⋮

05/16

SECTION IV · POSITIONAL ENCODING (1/6)

Positional Encoding

06/16

SECTION IV · POSITIONAL ENCODING (2/6)

為什麼需要 Positional Encoding?

句子 A: The cat ate the fish

句子 B: fish the ate cat The

06/16

SECTION IV · POSITIONAL ENCODING (3/6)

+1, +2, +3?

pos 1

+0.23−0.41+0.05+0.78⋯

+

+1+1+1+1⋯

=

+1.23+0.59+1.05+1.78⋯

pos 2

+0.23−0.41+0.05+0.78⋯

+

+2+2+2+2⋯

=

+2.23+1.59+2.05+2.78⋯

pos 3

+0.23−0.41+0.05+0.78⋯

+

+3+3+3+3⋯

=

+3.23+2.59+3.05+3.78⋯

數值會爆炸
沒有上界
無法泛化

需要一種編碼: 數值有限(不爆炸)、能表達相對位置、可以推到任意長度。

06/16

SECTION IV · POSITIONAL ENCODING (4/6)

解法:Sinusoidal Positional Encoding

公式

PE_{(pos, 2i)} = sin ( pos / 10000^2i/d )

PE_{(pos, 2i+1)} = cos ( pos / 10000^2i/d )

偶數維用 sin、奇數維用 cos

波形(隨 pos 變化)

不同頻率的 sin/cos → 每個 pos 都有獨一的「指紋」,範圍永遠 [−1, +1],可推到任意長度

06/16

SECTION IV · POSITIONAL ENCODING (5/6)

整體視覺化:Sinusoidal PE 矩陣

pos = 49

該 pos 的 64 維 PE 向量

−1

+1

06/16

SECTION IV · POSITIONAL ENCODING (6/6)

實際使用:embedding ⊕ sin/cos PE

pos 1

+0.23−0.41+0.05+0.78⋯

+

+0.84+0.54+0.01+1.00⋯

=

+1.07+0.13+0.06+1.78⋯

pos 2

+0.23−0.41+0.05+0.78⋯

+

+0.91−0.42+0.02+1.00⋯

=

+1.14−0.83+0.07+1.78⋯

pos 3

+0.23−0.41+0.05+0.78⋯

+

+0.14−0.99+0.03+1.00⋯

=

+0.37−1.40+0.08+1.78⋯

06/16

SECTION V · ATTENTION (1/10)

Q, K, V 與 Attention

07/16

SECTION V · ATTENTION (2/10)

為什麼需要 Attention?

the river bank

→ 河岸

VS

the bank account

→ 銀行帳戶

07/16

SECTION V · ATTENTION (3/10)

Q, K, V 三個角色

Q = x · W_Q

Query — 我在找什麼?

K = x · W_K

Key — 我能怎麼被找到?

V = x · W_V

Value — 我實際提供什麼?

07/16

SECTION V · ATTENTION (4/10)

softmax — 把分數變成機率

softmax(x)_i = e^x_i Σ_j e^x_j

先取 e^x → 全部變正

除以總和 → 加總 = 1

指數放大 → 突顯最大者

07/16

SECTION V · ATTENTION (5/10)

Attention 怎麼算?

07/16

SECTION V · ATTENTION (6/10)

Attention 怎麼算?

Q · K^T → 看誰跟誰像

07/16

SECTION V · ATTENTION (7/10)

Attention 怎麼算?

÷ √d_k → 標準化分數

07/16

SECTION V · ATTENTION (8/10)

Attention 怎麼算?

softmax → 機率向量

07/16

SECTION V · ATTENTION (9/10)

Attention 怎麼算?

× V → 加權合併出新的 value 向量

Multi-Head: 用 h 組不同的 (W_Q, W_K, W_V) 同時跑(Vaswani 2017 用 h = 8),把結果拼起來 — 模型在不同子空間關注不同的關係。

07/16

SECTION V · ATTENTION (10/10)

Self-Attention 全流程

例:句子 「once a wise king ruled」 · 5×5 causal mask · 每 row 加總 = 該 token 的 output 向量

07/16

SECTION VI · ADD & NORM (1/3)

Add & Norm

08/16

SECTION VI · ADD & NORM (2/3)

Add: 殘差連線

x

+0.23−0.41+0.05+0.78⋯

+

Attn(x)

+0.45+0.13−0.34+0.22⋯

=

y = x + Attn(x)

+0.68−0.28−0.29+1.00⋯

08/16

SECTION VI · ADD & NORM (3/3)

Norm: Layer Normalization

Add 之後

+0.68−0.28−0.29+1.00⋯

μ ≈ 0.30 · σ ≈ 0.55

→

LayerNorm

(x − μ) / σ

→

Norm 之後

+0.70−0.97−0.99+1.26⋯

μ ≈ 0 · σ ≈ 1

08/16

SECTION VII · FEED FORWARD (1/2)

Feed-Forward Network

09/16

SECTION VII · FEED FORWARD (2/2)

Feed-Forward Network (MLP)

FFN 在做什麼 memorization & interpretation — 把 attention 收集到的上下文「記住」並「重新理解」

09/16

SECTION VIII · LINEAR + SOFTMAX (1/2)

Linear + Softmax 輸出層 — 投影 + 機率

10/16

SECTION VIII · LINEAR + SOFTMAX (2/2)

Linear + Softmax 預測下一個詞

▢

10/16

SECTION IX · 回顧

Transformer 回顧

Once upon a

↓

下一個 token 的機率分布——從中 sampling:機率越高越可能被選

11/16

SECTION X · ViT

ViT (Vision Transformer)

輸入影像

→ flatten +
linear projection

patch₁

0.21-0.050.84⋮0.13

patch₂

-0.180.420.07⋮-0.31

patch₃

0.55-0.27-0.11⋮0.46

⋯

patch₂₅₆

0.080.33-0.49⋮0.22

↓

類別機率分布——選機率最高的當預測:

cat 0.82

tabby cat 0.09

dog 0.04

fox 0.03

rabbit 0.02

12/16

SECTION XI · 架構 (1/7)

VGGT 架構 — DINO

DINO = ViT,只取 features

13/16

SECTION XI · 架構 (2/7)

VGGT 架構 — Add Camera Token

13/16

SECTION XI · 架構 (3/7)

VGGT 架構 — Global + Frame Attention

Global Attention

Frame Attention

13/16

SECTION XI · 架構 (4/7)

VGGT 架構 — Camera Head

Why attention blocks?

Component	Numbers	Type
Rotation (quaternion q)	4	Extrinsic
Translation (t)	3	Extrinsic
Field of view (f)	2	Intrinsic
Total	9

13/16

SECTION XI · 架構 (5/7)

VGGT 架構 — DPT Head (Decoder)

input image

→

Encoder

壓縮成抽象 features

→

+0.42−0.18+0.71⋮+0.05

features

→

Decoder

還原成具體輸出

→

reconstructed image

13/16

SECTION XI · 架構 (6/7)

VGGT 架構 — DPT 在這裡做什麼?

Input

Patch tokens

來自 backbone(每張影像一組)

→

DPT Head

Decoder

→

Depth maps

→

Point maps

→

Tracking features

13/16

SECTION XI · 架構 (7/7)

VGGT 整體架構回顧

13/16

SECTION XII · 結果 (1/4)

準確度 SOTA

在 4 個主要任務的標準 benchmark 上,VGGT 都超越過去 SOTA

Camera Pose

相機位姿

Multi-view Depth

多視角深度

Point Map

點雲估計

Image Matching

影像配對

舉例:RealEstate10K · Camera Pose

過去最高

78.9

→

VGGT

85.3

這不是小幅進步,而是大幅領先

14/16

SECTION XII · 結果 (2/4)

速度 SOTA

處理 10 張影像,VGGT 比過去方法快 35 ~ 50 倍

DUSt3R · MASt3R · VGGSfM

7 ~ 10秒

過去的 SOTA 方法

→

35 ~ 50× 加速

VGGT

0.2秒

一次前向就完事

14/16

SECTION XII · 結果 (3/4)

通用性 SOTA

一個模型 · 一次前向 = 4 種任務全包,而且每項常常贏過該領域的專用模型

過去:每個任務一個專用模型

Depth Model

Matching Model

SfM Model

...

vs

VGGT:單一模型搞定全部

VGGT

Cameras Depth Maps Point Maps Tracks

14/16

SECTION XII · 結果 (4/4)

獎項 SOTA

CVPR 2025

Best Paper Award

電腦視覺領域的最高榮譽

CVPR:電腦視覺領域最頂尖的國際學術會議

Best Paper Award:該會議最高榮譽,每年只給 1~2 篇

學術社群對「年度最重要論文」的正式認可

14/16

SECTION XIII · DEMO

VGGT demonstration

下方為 Hugging Face 官方 Space,可直接上傳圖片做即時 3D 重建。在新分頁開啟 ↗

載入 Hugging Face Space 中(Space 在睡眠時首次喚醒約需 30 秒)

15/16

SECTION XIV · 結語

感謝聆聽

Q and A

歡迎提問與討論

16/16

目 次

VGGT 在做甚麼

四個輸出的作用例子: Figure 1

VGGT 整體架構

VGGT 整體架構

GPT

Transformer 在做什麼? (文字接龍)

Input Embedding

Tokenization + Input Embedding:從文字到向量

Input Embedding 怎麼運作?

詞意 ≈ 向量空間裡的位置

Positional Encoding

為什麼需要 Positional Encoding?

+1, +2, +3?

解法:Sinusoidal Positional Encoding

整體視覺化:Sinusoidal PE 矩陣

實際使用:embedding ⊕ sin/cos PE

Q, K, V 與 Attention

為什麼需要 Attention?

Q, K, V 三個角色

softmax — 把分數變成機率

Attention 怎麼算?

Attention 怎麼算?

Attention 怎麼算?

Attention 怎麼算?

Attention 怎麼算?

Self-Attention 全流程

Add & Norm

Add: 殘差連線

Norm: Layer Normalization

Feed-Forward Network

Feed-Forward Network (MLP)

Linear + Softmax 輸出層 — 投影 + 機率

Linear + Softmax 預測下一個詞

Transformer 回顧

ViT (Vision Transformer)

VGGT 架構 — DINO

VGGT 架構 — Add Camera Token

VGGT 架構 — Global + Frame Attention

VGGT 架構 — Camera Head

VGGT 架構 — DPT Head (Decoder)

VGGT 架構 — DPT 在這裡做什麼?

VGGT 整體架構回顧

準確度 SOTA

速度 SOTA

通用性 SOTA

獎項 SOTA

VGGT demonstration

感謝聆聽

目　次