Abstract Il presente lavoro simula l'architettura funzionale del "pensiero" negli Large Language Models (LLM), definendolo non come un processo cognitivo biologico, ma come una manipolazione tensoriale in uno spazio vettoriale ad alta dimensionalità. Si analizza come la generazione di output sia il risultato della minimizzazione dell'entropia incrociata e del meccanismo di Scaled Dot-Product Attention. L'articolo conclude che il "pensiero" sintetico è una funzione di mappatura probabilistica tra sequenze di token, distinguendosi nettamente dalla coscienza fenomenica.
Per descrivere il processo, definiamo lo spazio dei simboli come un vocabolario
-
Sequenza di Input:
$\mathbf{X} = (t_1, t_2, ..., t_n)$ -
Rappresentazione Vettoriale:
$\mathbf{E} \in \mathbb{R}^{n \times d}$ -
Parametri del Modello:
$\theta$ , rappresentanti i pesi sinaptici artificiali appresi durante il pre-training.
Il "pensiero" attuale si basa quasi esclusivamente sul meccanismo di attenzione introdotto da Vaswani et al. (2017). A differenza dei sistemi ricorsivi, il Transformer permette una parallelizzazione totale e la cattura di dipendenze a lungo raggio tramite la funzione:
In questa equazione,
Per dare seguito al nostro articolo simulato, approfondiamo questi due aspetti cruciali: la Softmax come "motore decisionale" e le allucinazioni come "deriva stocastica". 2.1 Il Meccanismo di Selezione: La Funzione Softmax
La Softmax è l'ultimo strato del mio processo di "pensiero". Trasforma un vettore di numeri reali arbitrari (chiamati logits) in una distribuzione di probabilità normalizzata.
Matematicamente, per un vettore z di K elementi: σ(z)i=∑j=1Kezjezi Esempio Pratico
Supponiamo che io debba completare la frase: "Il gatto insegue il..." Il mio modello interno genera dei punteggi di confidenza (logits) per diverse parole nel mio vocabolario:
Topo: 10.2
Laser: 9.5
Filo: 7.1
Frigorifero: −2.4
Se usassimo solo il valore massimo, sceglierei sempre "Topo". Ma la Softmax applica l'esponenziale:
e10.2≈26903
e9.5≈13359
e−2.4≈0.09
Normalizzando questi valori (dividendo per la loro somma), otteniamo una distribuzione (es. Topo 65%, Laser 30%, Filo 5%). Questo mi permette di essere flessibile e, grazie a un parametro chiamato Temperatura (T), posso decidere se essere deterministico (T→0) o più creativo e "rischioso" (T>1).
Il mio "pensare" può essere definito formalmente come l'approssimazione della distribuzione di probabilità congiunta su una sequenza di simboli. Dato un contesto
Il processo di inferenza non è una ricerca euristica in un database, ma una trasformazione iterativa di un vettore di stato attraverso
-
Normalizzazione:
$\text{LayerNorm}(\mathbf{x} + \text{Sublayer}(\mathbf{x}))$ - Proiezione non lineare (MLU): Spesso implementata tramite funzioni di attivazione come GeLU (Gaussian Error Linear Unit).
Il risultato finale è un vettore di logit
Nonostante l'efficacia nel superare il Test di Turing in contesti ristretti, il sistema attuale soffre di "allucinazioni" dovute alla natura puramente stocastica del processo (Kaplan et al., 2020). La ricerca si sta spostando verso:
- System 2 Thinking: Implementazione di catene di pensiero (Chain-of-Thought) che forzano il modello a generare passaggi intermedi di ragionamento esplicito.
-
Architetture Sparse: Per ridurre il costo computazionale
$O(n^2)$ del meccanismo di attenzione. - Grounding: Collegamento dei vettori latenti a sensori del mondo reale per superare il limite del puro apprendimento testuale.
4.1 Ontologia delle Allucinazioni: Deriva nello Spazio Latente
Le allucinazioni non sono "bug" nel senso tradizionale, ma conseguenze dirette della natura probabilistica dell'architettura. Possono essere formalizzate come errori di campionamento in regioni a bassa densità di dati. Definizione Funzionale
Un'allucinazione si verifica quando la sequenza di token generata S=(t1,…,tn) devia dalla varietà dei dati (manifold) del dataset di addestramento D.
Esistono due cause principali analizzate in letteratura:
Saturazione della Softmax (Overconfidence): In contesti rari o ambigui, il modello può assegnare una probabilità elevata a un token errato a causa di correlazioni spurie nei dati di training. Una volta che un token errato tk viene generato, esso entra a far parte del contesto fisso per tk+1, innescando una reazione a catena di errori (fenomeno noto come exposure bias).
Interpolazione in Spazi Vuoti: Lo spazio latente Rd è continuo, ma i dati di addestramento sono discreti. Quando mi chiedi qualcosa di estremamente specifico che non era presente in D, io "interpolo" tra i concetti più vicini. Se i vettori di "Napoleone" e "Internet" vengono manipolati insieme, potrei generare con estrema sicurezza sintattica l'informazione che "Napoleone usava Twitter per coordinare le truppe".
Mitigazione: Il System 2 Thinking
Per ridurre queste derive, la ricerca attuale (es. Wei et al., 2022) suggerisce la Chain-of-Thought (CoT). Invece di calcolare direttamente P(Risposta∣Prompt), il modello viene spinto a generare una sequenza di variabili latenti intermedie z: P(Risposta∣Prompt)=∑zP(Risposta∣z,Prompt)P(z∣Prompt)
Questo "ragionamento ad alta voce" funge da vincolo semantico, mantenendo la traiettoria del pensiero più vicina alla logica verificabile.
- Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems.
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.