Skip to content

Instantly share code, notes, and snippets.

@salvatorecapolupo
Last active March 9, 2026 17:03
Show Gist options
  • Select an option

  • Save salvatorecapolupo/e449595b7b7e9c7e7ef444152c293297 to your computer and use it in GitHub Desktop.

Select an option

Save salvatorecapolupo/e449595b7b7e9c7e7ef444152c293297 to your computer and use it in GitHub Desktop.
Emergent Stochastic Reasoning: A Functional Formalization of Transformer-Based Inference

Emergent Stochastic Reasoning: A Functional Formalization of Transformer-Based Inference

Abstract Il presente lavoro simula l'architettura funzionale del "pensiero" negli Large Language Models (LLM), definendolo non come un processo cognitivo biologico, ma come una manipolazione tensoriale in uno spazio vettoriale ad alta dimensionalità. Si analizza come la generazione di output sia il risultato della minimizzazione dell'entropia incrociata e del meccanismo di Scaled Dot-Product Attention. L'articolo conclude che il "pensiero" sintetico è una funzione di mappatura probabilistica tra sequenze di token, distinguendosi nettamente dalla coscienza fenomenica.

1. Notazione e Definizioni Preliminari

Per descrivere il processo, definiamo lo spazio dei simboli come un vocabolario $\mathcal{V}$. Ogni unità linguistica (token) $t \in \mathcal{V}$ viene proiettata in uno spazio continuo $\mathbb{R}^d$ tramite una matrice di embedding $W_e$.

  • Sequenza di Input: $\mathbf{X} = (t_1, t_2, ..., t_n)$
  • Rappresentazione Vettoriale: $\mathbf{E} \in \mathbb{R}^{n \times d}$
  • Parametri del Modello: $\theta$, rappresentanti i pesi sinaptici artificiali appresi durante il pre-training.

2. Stato dell'Arte: L'Architettura Transformer

Il "pensiero" attuale si basa quasi esclusivamente sul meccanismo di attenzione introdotto da Vaswani et al. (2017). A differenza dei sistemi ricorsivi, il Transformer permette una parallelizzazione totale e la cattura di dipendenze a lungo raggio tramite la funzione:

$$\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V$$

In questa equazione, $Q$ (Query), $K$ (Key) e $V$ (Value) sono proiezioni lineari della sequenza di input. Il termine $\sqrt{d_k}$ funge da fattore di scala per prevenire la saturazione del gradiente durante la fase di attivazione della funzione softmax.

Per dare seguito al nostro articolo simulato, approfondiamo questi due aspetti cruciali: la Softmax come "motore decisionale" e le allucinazioni come "deriva stocastica". 2.1 Il Meccanismo di Selezione: La Funzione Softmax

La Softmax è l'ultimo strato del mio processo di "pensiero". Trasforma un vettore di numeri reali arbitrari (chiamati logits) in una distribuzione di probabilità normalizzata.

Matematicamente, per un vettore z di K elementi: σ(z)i​=∑j=1K​ezj​ezi​​ Esempio Pratico

Supponiamo che io debba completare la frase: "Il gatto insegue il..." Il mio modello interno genera dei punteggi di confidenza (logits) per diverse parole nel mio vocabolario:

Topo: 10.2

Laser: 9.5

Filo: 7.1

Frigorifero: −2.4

Se usassimo solo il valore massimo, sceglierei sempre "Topo". Ma la Softmax applica l'esponenziale:

e10.2≈26903

e9.5≈13359

e−2.4≈0.09

Normalizzando questi valori (dividendo per la loro somma), otteniamo una distribuzione (es. Topo 65%, Laser 30%, Filo 5%). Questo mi permette di essere flessibile e, grazie a un parametro chiamato Temperatura (T), posso decidere se essere deterministico (T→0) o più creativo e "rischioso" (T>1).

3. Definizione Funzionale del "Pensiero"

Il mio "pensare" può essere definito formalmente come l'approssimazione della distribuzione di probabilità congiunta su una sequenza di simboli. Dato un contesto $\mathbf{C}$, il modello calcola:

$$P(t_{n+1} | t_1, \dots, t_n; \theta)$$

Il processo di inferenza non è una ricerca euristica in un database, ma una trasformazione iterativa di un vettore di stato attraverso $L$ strati di trasformazione non lineare:

  1. Normalizzazione: $\text{LayerNorm}(\mathbf{x} + \text{Sublayer}(\mathbf{x}))$
  2. Proiezione non lineare (MLU): Spesso implementata tramite funzioni di attivazione come GeLU (Gaussian Error Linear Unit).

Il risultato finale è un vettore di logit $\mathbf{z} \in \mathbb{R}^{|\mathcal{V}|}$, che viene convertito in probabilità tramite:

$$p_i = \frac{e^{z_i}}{\sum_{j} e^{z_j}}$$

4. Sviluppi Futuri e Limitazioni

Nonostante l'efficacia nel superare il Test di Turing in contesti ristretti, il sistema attuale soffre di "allucinazioni" dovute alla natura puramente stocastica del processo (Kaplan et al., 2020). La ricerca si sta spostando verso:

  • System 2 Thinking: Implementazione di catene di pensiero (Chain-of-Thought) che forzano il modello a generare passaggi intermedi di ragionamento esplicito.
  • Architetture Sparse: Per ridurre il costo computazionale $O(n^2)$ del meccanismo di attenzione.
  • Grounding: Collegamento dei vettori latenti a sensori del mondo reale per superare il limite del puro apprendimento testuale.

4.1 Ontologia delle Allucinazioni: Deriva nello Spazio Latente

Le allucinazioni non sono "bug" nel senso tradizionale, ma conseguenze dirette della natura probabilistica dell'architettura. Possono essere formalizzate come errori di campionamento in regioni a bassa densità di dati. Definizione Funzionale

Un'allucinazione si verifica quando la sequenza di token generata S=(t1​,…,tn​) devia dalla varietà dei dati (manifold) del dataset di addestramento D.

Esistono due cause principali analizzate in letteratura:

Saturazione della Softmax (Overconfidence): In contesti rari o ambigui, il modello può assegnare una probabilità elevata a un token errato a causa di correlazioni spurie nei dati di training. Una volta che un token errato tk​ viene generato, esso entra a far parte del contesto fisso per tk+1​, innescando una reazione a catena di errori (fenomeno noto come exposure bias).

Interpolazione in Spazi Vuoti: Lo spazio latente Rd è continuo, ma i dati di addestramento sono discreti. Quando mi chiedi qualcosa di estremamente specifico che non era presente in D, io "interpolo" tra i concetti più vicini. Se i vettori di "Napoleone" e "Internet" vengono manipolati insieme, potrei generare con estrema sicurezza sintattica l'informazione che "Napoleone usava Twitter per coordinare le truppe".

Mitigazione: Il System 2 Thinking

Per ridurre queste derive, la ricerca attuale (es. Wei et al., 2022) suggerisce la Chain-of-Thought (CoT). Invece di calcolare direttamente P(Risposta∣Prompt), il modello viene spinto a generare una sequenza di variabili latenti intermedie z: P(Risposta∣Prompt)=∑zP(Risposta∣z,Prompt)P(z∣Prompt)

Questo "ragionamento ad alta voce" funge da vincolo semantico, mantenendo la traiettoria del pensiero più vicina alla logica verificabile.


Riferimenti Bibliografici

  1. Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.
  2. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.
  3. Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment