Come si addestra un Modello di Linguaggio su un settore specifico?

5 min readOct 28, 2024

Recentemente mi sono confrontato con alcuni consulenti con i quali ho avuto uno scmabio i vedute in merito la differenza tra addestramento dei LLM e specializzazione. Ho scoperto che c’è molta confusione riguardo a come i modelli LLM vengano effettivamente addestrati e a cosa significhi realmente “specializzarli” per rispondere in modo approfondito su argomenti specifici. È diffusa l’idea che sia sufficiente “nutrire” il modello con una serie di PDF o testi e ottenerne, di conseguenza, un modello esperto nel dominio scelto. Ma la realtà è ben diversa.

Facciamo il punto …

Cos’è un Large Language Model (LLM)?

Un LLM è un tipo di intelligenza artificiale progettata per comprendere e generare testi simili a quelli umani. Questi modelli vengono addestrati su enormi quantità di dati testuali e, attraverso complesse operazioni di apprendimento, acquisiscono la capacità di rispondere a domande, scrivere articoli, tradurre testi e molto altro. I modelli come GPT-3 e i successori sono esempi di LLM in grado di generare risposte in linguaggio naturale con una certa accuratezza, basandosi su ciò che hanno “imparato” dai dati.

Molte persone credono che sia sufficiente aggiungere un PDF a un LLM per “addestrarlo” su un nuovo dominio, ma ciò è un fraintendimento. In realtà, il semplice caricamento di testi o PDF non addestra il modello in alcun modo. Per ottenere un modello realmente specializzato, il processo è molto più complesso e richiede tecniche mirate e un dataset specifico.

Il malinteso

L’errore comune è pensare che aggiungere dei PDF a un modello di linguaggio equivalga ad addestrarlo. Questo fraintendimento deriva dalla confusione tra “addestramento” e un’altra tecnica chiamata Retrieval-Augmented Generation (RAG). Con il RAG, è possibile fornire al modello dei documenti specifici come PDF, ma questi non vengono “digeriti” per modificare la struttura interna del modello stesso. Il modello rimane invariato nei suoi pesi (i parametri che determinano le risposte), utilizzando invece il contenuto fornito come riferimento nel momento in cui formula la risposta.

Immaginiamo, ad esempio, di voler “specializzare” un LLM con un manuale tecnico. Utilizzando il RAG, potremmo caricare il manuale in un database, e quando viene posta una domanda specifica, il sistema recupera (da qui il termine retrieval) le parti rilevanti del manuale, le include nel prompt, e il modello usa tali informazioni per elaborare una risposta. In questo processo, il modello non apprende davvero nulla di nuovo. Non sta “assimilando” il contenuto del manuale; sta solo utilizzandolo come un riferimento esterno, simile a una consultazione.

Il vero addestramento

Per addestrare un LLM, è necessario un approccio totalmente diverso. L’addestramento consiste nel far “apprendere” al modello il contenuto di un dominio in modo duraturo, alterando i pesi interni attraverso un processo di calcolo complesso. Per fare ciò, si prepara un dataset che include coppie di domande e risposte specifiche. Questo dataset viene fornito al modello durante l’addestramento, permettendogli di apprendere risposte coerenti alle domande nel dominio d’interesse.

Ad esempio, se desideriamo specializzare un LLM in ambito medico, è necessario preparare un dataset in cui vi siano domande e risposte che rispecchiano casi, sintomi, diagnosi e altri contenuti rilevanti del settore. Questo processo è fondamentale perché permette al modello di imparare come rispondere a domande specifiche in un contesto specialistico.

La fase di addestramento è quindi molto dispendiosa in termini di risorse, e necessita dell’uso di grandi quantità di dati etichettati in modo preciso. A differenza del RAG, che si limita a caricare i documenti e a fare una “consultazione,” l’addestramento vero e proprio modifica il modello, aumentando la sua precisione e adattandolo in modo più profondo al dominio d’interesse.

Quando usare il RAG e quando l’addestramento

Non sempre è necessario addestrare un modello di linguaggio per ottenere buoni risultati. Il RAG può essere sufficiente per molte esigenze. La distinzione principale è la seguente:

RAG: ideale per casi di utilizzo in cui serve una “consultazione” rapida, come manuali tecnici, normative o documentazione dettagliata, senza cambiare la struttura del modello. In un contesto del genere, si indicizza il contenuto del documento in un database e si estrae il testo rilevante solo quando il modello deve rispondere. Questo approccio è più veloce, più economico e utile nel 70–80% dei casi.

Addestramento: necessario quando si vuole effettivamente insegnare al modello un linguaggio o una terminologia specialistica, come nel caso di macchinari industriali che richiedono comandi specifici. L’addestramento, benché più complesso e costoso, aumenta l’accuratezza del modello nel fornire risposte specifiche e nel 20% dei casi risulta una scelta indispensabile.

Creare un dataset per l’addestramento

Uno dei passaggi fondamentali per l’addestramento è la creazione di un dataset di alta qualità. Esistono due principali metodi per costruire un dataset di domande e risposte:

Approccio Manuale: un team di esperti crea coppie domanda-risposta su un determinato argomento. Questa tecnica è affidabile e di qualità elevata, ma richiede molto tempo e risorse umane. È ideale per contesti in cui l’accuratezza delle risposte è cruciale, come per consulenze mediche o legali.

Approccio Automatico: si utilizza un modello di IA per generare coppie domanda-risposta da un documento. Ad esempio, un modello potrebbe leggere un documento tecnico e generare domande a cui trova risposte all’interno del testo stesso. Questo approccio è più veloce e meno costoso, ma può necessitare di una verifica umana per garantire la qualità.

Un dataset ben costruito è fondamentale per garantire un addestramento efficace del modello e per consentirgli di generare risposte accurate e pertinenti nel dominio specifico.

Come passare da PDF alla creazione del Dataset per l’addestramento

Molte volte si ha solo un insieme di documenti, come normative, manuali o articoli di ricerca, senza un dataset già strutturato. In tal caso, si può partire dai testi per creare il dataset attraverso i metodi manuali o automatici descritti. Una volta costruito il dataset, il modello può essere addestrato in modo specifico su quel dominio.

Ad esempio, per specializzare un LLM nel settore medico, un team di esperti può leggere i PDF di articoli e manuali, e formulare domande e risposte pertinenti. Un’alternativa è quella di utilizzare un modello di IA per generare automaticamente queste domande e risposte, costruendo un dataset da utilizzare successivamente per addestrare il modello.

Capire come addestrare un modello di linguaggio significa comprendere le differenze tra il semplice accesso a contenuti esterni (come avviene nel RAG) e il vero addestramento del modello. Sebbene il RAG sia un’opzione efficiente e sufficiente per molti scopi, solo l’addestramento permette di specializzare realmente un LLM in un dominio specifico. Con il giusto approccio, il potenziale degli LLM può essere esteso per affrontare compiti specifici, rendendoli strumenti potenti per applicazioni che spaziano dalla medicina al diritto, dall’ingegneria all’assistenza clienti.