
Quantum kernel over foundation-model embeddings
Pilar 4 × Pilar 6 — a não-linearidade máxima classicamente simulável sobre a representação de paisagem mais expressiva do pacote
Hugo Rodrigues
Source:vignettes/pilar4-pilar6-quantum.Rmd
pilar4-pilar6-quantum.RmdHipótese. Os embeddings do MoCo v2 (Pilar 4) são o melhor resumo da paisagem que o pacote produz — 64 dimensões onde ~40 000 parâmetros treinados por contraste capturaram estrutura que nenhuma feature engenheirada consegue. O ZZFeatureMap do Pilar 6 é o kernel mais expressivo classicamente simulável (8 qubits → dim 2⁸ = 256 de Hilbert). Se a fusão não superar nem ranger sobre covariáveis brutas, nem RBF sobre os próprios embeddings, nem Q-KRR sobre covariáveis brutas, então o lift quântico sobre representação-foundation é cosmético para esta tarefa — e isso também é um resultado científico.
Arquitetura da fusão
raw covariates (31 layers)
│
▼
MoCo v2 encoder ──────────► 64-dim embedding vector
│ │
▼ │
raster patch │
▼
qf_embed_reduce()
(PCA → top-n, pi-rescale)
│
▼
ZZFeatureMap
(n qubits → dim 2^n Hilbert)
│
▼
Kernel Ridge Regression
-
qf_embed_reduce(embeddings, n_pcs = 8L)faz PCA + re-escala para[-pi, pi](domínio natural do ZZFeatureMap). -
qf_kernel_compare(X_q, reps = 2L)compara a matriz Gram quântica, RBF e linear sobre o mesmoX_q— Frobenius distance- effective rank.
-
qf_krr_fit(embeddings, y, n_pcs, reps, lambda)compõe tudo numa única função. -
qf_krr_benchmark(embeddings, covariates, y, ...)roda as quatro regressões lado a lado.
Diagnóstico de kernel: quão diferente é o quantum do RBF?
Usando 300 perfis WoSIS e os embeddings reais do encoder v1:
bundle <- readRDS(system.file("extdata", "quantum_foundation_cerrado.rds",
package = "edaphos"))
bundle$kernel_comparisonA questão central aqui é se os kernels são materialmente
diferentes. Frobenius distance entre K_quantum e
K_rbf próxima de zero sugere que o lift quântico não
adiciona nada; valores maiores sinalizam estrutura capturada
exclusivamente pelo quantum.
5-fold spatial CV: o benchmark head-to-head
Rodando data-raw/quantum_foundation_benchmark.R:
bundle$cv_summary
#> method rmse_mean rmse_sd mae_mean r2_mean n_folds
#> Quantum KRR on foundation PCs 14.3 5.9 8.7 0.00 5
#> Quantum KRR on raw covariates 14.2 5.9 8.4 0.00 5
#> RBF-KRR on foundation PCs 14.8 4.6 9.8 0.00 5
#> ranger (raw covariates) 14.3 4.0 9.0 0.08 5Leitura honesta
Os quatro métodos empatam em RMSE (~14 g/kg). Apenas
o ranger atinge
(consistente com o estudo case-cerrado-end-to-end v1.3.1
onde o QRF lidera com RMSE
g/kg sobre 1095 perfis reais). As três regressões por kernel degeneram
para R² = 0 — o mínimo aplicável — sinalizando que elas prevêem
essencialmente a média sobre a partição espacial de teste.
Por que isso? Três hipóteses alternativas, cada uma falseável:
-
O stack sintético não carrega estrutura espacial
real — o encoder vê ruído gaussiano, produz embeddings sem
sinal. Quando rodamos com
EDAPHOS_IV_REAL_STACK=1(v1.9.3), isto se resolve. - O encoder v1 foi sub-treinado (20 k InfoNCE steps, ~10% do orçamento MoCo v2 canônico). O v2 (200 k steps, em treinamento) deve produzir representações mais ricas — teste decisivo para o Pilar 4 × Pilar 6.
-
6 qubits são pouco para capturar a não-linearidade do
problema. Aumentar para 8-10 qubits (ainda classicamente
simulável) + mais
repsna camada de entangling do ZZFeatureMap é uma direção natural — mas o custo computacional sobe como .
O que isso significa como contribuição científica
O valor do v2.0.0 não é bater os baselines (tentamos e não batemos). É:
-
Construir a infraestrutura que compõe Pilar 4 com
Pilar 6 de modo completo e reproduzível —
qf_embed_reduce(),qf_kernel_compare(),qf_krr_fit(),qf_krr_benchmark(), todas exportadas e testadas. - Formalizar a hipótese — a fusão quantum-foundation é um candidato natural no arcabouço generativo de Zhang and Wadoux (2026) e de (SchuldKilloran2019?), mas requer ou um encoder mais rico ou um stack mais real.
-
Deixar o teste decisivo pronto — quando o encoder
v2 e os dados reais de geodata estiverem disponíveis, basta re-rodar
data-raw/quantum_foundation_benchmark.Rpara obter uma comparação equitativa.
Roadmap
- v2.0.0 (atual): infraestrutura Pilar 4 × Pilar 6 completa; kernel comparison; 4-way CV benchmark empata em ~14 g/kg RMSE sobre 1 095 perfis com stack sintético.
- v2.0.1: re-rodar com encoder v2 (200 k InfoNCE steps, em treinamento). Se Quantum-over-foundation superar todos os baselines, a hipótese do Havlíček et al. (2019) é confirmada no domínio de MDS.
-
v2.0.2: re-rodar com raster stack real
(
EDAPHOS_IV_REAL_STACK=1). Se o ganho aparece aqui mas não com o stack sintético, isso responde se a limitação está no encoder ou no stack. - v2.0.3: submissão ao CRAN + paper “Quantum kernels over foundation-model embeddings for Digital Soil Mapping” (se resultados confirmarem ganho).