Deepfake audio: la telefonata che non ti aspetti
Immagina di ricevere una chiamata.
La voce è inconfondibile, è quella di un tuo superiore, di un amico fidato, forse di un politico di primo piano.
Ti chiede qualcosa di urgente.
Forse un bonifico.
Forse informazioni riservate.
La voce è identica, il tono è quello giusto, persino le piccole inflessioni e le pause sono al loro posto.
Poi scopri che non era lui.
Non è un film. Non è fantascienza.
È quello che è successo, in Italia, nel febbraio 2025, quando una banda di truffatori ha clonato la voce del Ministro della Difesa Guido Crosetto riuscendo a convincere alcuni tra i più influenti imprenditori italiani, tra cui Massimo Moratti, Giorgio Armani, Patrizio Bertelli (Prada), Diego Della Valle e altri, ad effettuare bonifici su conti esteri.
Almeno un imprenditore ha trasferito un milione di euro, convinto di finanziare il riscatto di presunti giornalisti italiani rapiti in Medio Oriente.
La storia era falsa. La voce era falsa. Il denaro era reale.
Benvenuti nell’era dei deepfake.
Che cos’è un deepfake (spiegato senza tecnicismi)
La parola “deepfake” nasce dalla fusione di due termini inglesi: deep learning (una tecnica di intelligenza artificiale) e fake (falso).
Fino al 2017 questa parola non esisteva nemmeno.
Oggi è entrata nel lessico quotidiano, e le ragioni sono tutt’altro che rassicuranti.
In termini semplici, un deepfake è un contenuto audio, video o entrambi, creato o modificato da un’intelligenza artificiale per far sembrare che una persona abbia detto o fatto qualcosa che in realtà non ha mai detto o fatto.
Esistono tre grandi categorie:
- Deepfake video: il volto di una persona viene sovrapposto digitalmente a quello di un’altra in un filmato.
La tecnologia analizza migliaia di immagini del bersaglio e impara a riprodurne le espressioni, i movimenti, i dettagli del viso in modo convincente. - Deepfake audio (voice cloning): l’intelligenza artificiale analizza campioni della voce di una persona, secondo il report The Artificial Imposter di McAfee, bastano pochi secondi per ottenere un clone con l’85% di accuratezza che genera nuove registrazioni in cui quella persona sembra pronunciare qualsiasi cosa i truffatori desiderino.
- Deepfake multimediali: la combinazione di entrambi, come nel caso della videoconferenza fraudolenta che nel febbraio 2024 ha convinto un dipendente della società di ingegneria Arup di Hong Kong a trasferire 25 milioni di dollari dopo aver “visto” il suo CFO e altri colleghi su una videochiamata Zoom.
Erano tutti deepfake in tempo reale.
I numeri che fanno paura: il deepfake è diventato un’industria
Fino a qualche anno fa, creare un deepfake convincente richiedeva competenze avanzate, hardware potente e molto tempo.
Oggi, grazie alla democratizzazione dell’intelligenza artificiale, chiunque può farlo in pochi minuti, con strumenti gratuiti o quasi.
Questo ha prodotto un’esplosione di casi. I dati parlano chiaro:
Secondo la società di cybersecurity Deepstrike, i deepfake rilevati online sono passati da circa 500.000 nel 2023 a circa 8 milioni stimati nel 2025, con una crescita annua vicina al 900% (fonte: *Fortune*, dicembre 2025).
Le truffe aziendali legate ai deepfake sono aumentate del 3.000% nel 2023 rispetto all’anno precedente, e il voice cloning è cresciuto del 680% nell’arco di un solo anno, secondo il *Pindrop Voice Intelligence & Security Report 2025*.
Le perdite finanziarie globali attribuibili a frodi che usano deepfake hanno superato i 200 milioni di dollari solo nel primo trimestre del 2025, secondo i dati di diverse società di sicurezza tra cui Keepnet Labs.
Secondo il report del Deloitte Center for Financial Services, le perdite globali da frodi potenziate dall’AI passeranno da 12,3 miliardi di dollari nel 2023 a 40 miliardi entro il 2027.
Un dato forse ancora più preoccupante, citato da uno studio iProov del 2025 è che solo lo 0,1% dei partecipanti al test è riuscito a identificare correttamente tutti i contenuti falsi e reali mostrati.
Il 70% delle persone dichiara di non essere in grado di distinguere una voce clonata da quella autentica.
E il costo di tutto ciò? Bastano meno di due euro per creare un deepfake
Il caso Crosetto: quando l’Italia si sveglia (tardi)
La truffa del “falso Crosetto” del febbraio 2025 merita un approfondimento perché rappresenta un punto di svolta nel dibattito italiano sulla sicurezza informatica e sull’uso criminale dell’intelligenza artificiale.
I truffatori hanno costruito un’infrastruttura di attacco su più livelli.
Prima hanno raccolto campioni audio della voce del Ministro della Difesa attingendo a ore di interviste pubbliche, discorsi parlamentari, apparizioni televisive, materiale abbondante e accessibile a chiunque.
Poi hanno clonato la voce con strumenti di AI e costruito uno scenario credibile.
Contattavano i collaboratori degli imprenditori presentandosi come membri dello staff ministeriale, usavano numeri con prefisso romano e tecniche di caller ID spoofing per far sembrare legittima la provenienza della chiamata.
Solo in un secondo momento entrava in scena il “Ministro”, con la sua voce artificiale ma convincente, a fare la richiesta urgente.
La storia inventata dei giornalisti italiani in ostaggio, da liberare con fondi che sarebbero stati rimborsati dalla Banca d’Italia era costruita su dettagli plausibili e su quel senso di urgenza e riservatezza che caratterizza le truffe di ingegneria sociale da sempre.
Solo che stavolta, ad alimentare quella credibilità, c’era un’intelligenza artificiale.
La Procura di Milano ha aperto un’indagine per truffa, sostituzione di persona e associazione a delinquere.
Le indagini sono ancora in corso. Il denaro, trasferito su conti esteri non tracciabili, è probabilmente perso.
Il caso ha avuto un’eco normativa importante.
E’ in iter parlamentare una proposta di legge del Partito Democratico che punta a vietare la creazione e diffusione di contenuti manipolati con AI durante campagne elettorali.
E nel 2025 il Codice penale si è già arricchito dell’articolo 612-quater, che punisce la diffusione illecita di contenuti AI-generati senza consenso con pene da uno a tre anni.
Come funziona il voice cloning
Per capire perché questi attacchi funzionano, vale la pena capire, almeno a grandi linee, il meccanismo dietro la clonazione vocale.
I moderni strumenti di voice cloning si basano su reti neurali addestrate su enormi quantità di audio umano.
Una volta addestrate, queste reti sono in grado di analizzare un campione vocale e “imparare” le caratteristiche uniche di quella voce: il timbro, l’intonazione, il ritmo, le pause, persino i tic verbali.
Il risultato è un modello che può generare nuovi enunciati con quella voce, partendo da un testo qualsiasi.
La parte più inquietante è la soglia d’ingresso, ricercatori e aziende di sicurezza come McAfee e Pindrop documentano che bastano tre-cinque secondi di audio per ottenere un clone con un’accuratezza dell’85%. Basta un video su YouTube, una diretta social, un podcast e hai tutto il necessario per creare il tutto.
Gli strumenti più sofisticati permettono anche il real-time voice changing, ovvero la modifica della voce in tempo reale durante una telefonata o una videochiamata.
È quello che rende questi attacchi così difficili da smascherare.
Non c’è una registrazione pre-costruita, ma una conversazione apparentemente spontanea, con risposte coerenti, pause naturali, emozioni credibili.
Come riconoscere un deepfake. Ecco i segnali da cercare
La buona notizia è che, pur essendo la tecnologia molto avanzata, i deepfake lasciano ancora alcune tracce.
La cattiva notizia è che diventano sempre più difficili da rilevare, e che le ultime generazioni di modelli stanno colmando anche i difetti più evidenti.
Per i video
- Attenzione ai bordi del volto.
Spesso l’AI ha difficoltà a gestire capelli mossi, orecchini, occhiali o barba.
Cerca bordi innaturalmente netti o sfumature anomale intorno alla testa.
- Osserva gli occhi.
Il battito delle ciglia, la direzione dello sguardo e la coerenza del riflesso della luce negli occhi sono ancora spesso rivelatori.
Gli occhi troppo fissi o il battito irregolare sono segnali da non ignorare.
- Controlla la sincronizzazione labiale.
Nei deepfake di qualità inferiore il movimento delle labbra non coincide perfettamente con le parole.
Riascolta la parte audio con gli occhi chiusi e poi rivedi le immagini.
- Guarda le mani e il collo.
L’AI dedica molta attenzione al volto ma tende a trascurare le dita (a volte in numero sbagliato) e la zona del collo, dove il passaggio tra pelle “vera” e pelle “sintetica” può risultare innaturale.
- Fai attenzione all’illuminazione.
Le ombre sul volto spesso non corrispondono a quelle dell’ambiente circostante.
Per l’audio
Una voce clonata può sembrare perfetta a una prima ascolto superficiale, ma a un ascolto attento può rivelare alcuni difetti.
La mancanza di respiro naturale, tono leggermente meccanico o “pulito” in modo innaturale, assenza di quei piccoli rumori di fondo (la saliva, i suoni ambientali) che caratterizzano le voci reali.
Il contenuto è spesso il segnale più forte.
Qualsiasi richiesta insolita, urgente, che impone segretezza e che riguarda denaro o informazioni sensibili deve far scattare un allarme immediato, indipendentemente dalla voce che la fa.
I settori più a rischio: chi deve stare più attento
Le aziende (di qualsiasi dimensione)
Il CEO fraud basato su deepfake non è più appannaggio delle grandi multinazionali.
La disponibilità di strumenti a basso costo ha abbassato la soglia d’ingresso al crimine.
Le PMI sono anzi spesso bersagli più facili perché hanno meno procedure di verifica interna.
Il pattern tipico di attacco è questo, i criminali identificano un’azienda target, raccolgono informazioni pubbliche su CEO e direttore finanziario (LinkedIn, sito web, comunicati stampa), creano un clone vocale o video del CEO, e contattano il CFO o chi gestisce i pagamenti con una richiesta urgente e riservata.
Secondo una survey del 2025 citata da Adaptive Security, il 62% delle organizzazioni intervistate ha affrontato un tentativo di attacco deepfake nell’ultimo anno.
I privati cittadini
Le truffe ai privati sono diverse ma ugualmente devastanti.
Le più comuni riguardano la “truffa del nipote in pericolo”.
Viene clonata la voce di un familiare (figlio, nipote) che chiede denaro urgente per un’emergenza.
Sharon Brightwell di Dover, ha inviato 15.000 dollari in contanti a un corriere credendo che sua figlia fosse in arresto, il tutto dopo una telefonata con la voce AI-generata della figlia stessa.
Altro esempio sono le truffe di investimento
Video di presunti vip (in Italia sono circolati deepfake di Giorgia Meloni, Elon Musk e Enrico Mentana) che promuovono investimenti miracolosi.
Oppure il deepfake a scopi estorsivi, contenuti intimi falsi usati per ricattare la vittima.
Il settore pubblico e le istituzioni
Questo è il fronte più preoccupante dal punto di vista sistemico.
Un deepfake di un politico che annuncia una legge inesistente può muovere i mercati.
Il deepfake di un ministro della difesa può innescare crisi diplomatiche.
Le elezioni sono terreno fertilissimo per campagne di disinformazione basate su audio e video manipolati.
Come difendersi: le strategie che funzionano davvero
Per le aziende
Stabilire un protocollo di verifica su più canali.
Qualsiasi richiesta di trasferimento di denaro o di informazioni sensibili, anche se arriva con la voce del CEO, deve essere verificata attraverso un secondo canale indipendente (ad esempio, una telefonata a un numero già in rubrica, non a quello da cui è arrivata la richiesta).
Questo singolo accorgimento avrebbe probabilmente evitato la maggior parte dei casi documentati.
Introdurre parole d’ordine interne.
Una parola o frase segreta, concordata in anticipo tra dipendenti chiave, può essere richiesta in caso di dubbio. I truffatori non la conosceranno.
Formare il personale in modo specifico sui deepfake.
La formazione tradizionale sulla cybersecurity non copre adeguatamente questa minaccia. Servono esercitazioni pratiche, esempi reali, e soprattutto la consapevolezza che la voce e il volto non sono più elementi di autenticazione affidabili.
Autorizzazione multi-persona per pagamenti significativi.
Nessuna transazione oltre una certa soglia dovrebbe poter essere autorizzata da una sola persona, anche in caso di richiesta urgente da parte del vertice aziendale.
Adottare strumenti di rilevamento AI.
Esistono soluzioni software come Pindrop o Hiya che analizzano le caratteristiche acustiche delle voci in tempo reale per identificare possibili clonazioni.
Non sono infallibili, ma aggiungono un livello di protezione utile.
Per i privati cittadini
Non agire mai sotto pressione.
L’urgenza è la principale leva psicologica usata nelle truffe deepfake.
Se qualcuno ti chiede di fare qualcosa immediatamente, in modo riservato, senza possibilità di verificare, fermati.
Riattacca e chiama direttamente la persona su un numero che conosci.
Stabilire una “parola di sicurezza” in famiglia.
Soprattutto per le famiglie con anziani, concordare una frase segreta da usare in caso di chiamate d’emergenza può salvaguardare da truffe come quella della “voce del nipote”.
Verificare le fonti prima di condividere.
Prima di credere o diffondere un video o un audio di una persona pubblica che dice qualcosa di sorprendente, cerca conferme su fonti giornalistiche affidabili.
Segnalare alle autorità.
In Italia, le truffe informatiche vanno denunciate alla Polizia Postale (portale: commissariatodips.it). La denuncia tempestiva è utile sia per le indagini sia per eventuali recuperi.
Il quadro normativo: cosa dice l’Europa (e l’Italia)
Sul piano normativo, l’Europa si è mossa con l’AI Act, che introduce obblighi di trasparenza per i contenuti generati artificialmente e regole più stringenti per gli usi ad alto rischio.
Chi produce contenuti deepfake è obbligato a dichiararli come tali.
In Italia, come accennato, il 2025 ha visto l’introduzione dell’articolo 612-quater nel Codice penale, che punisce la diffusione non consensuale di contenuti AI-generati con pene da uno a tre anni di reclusione.
È ancora in discussione alla Camera una proposta di legge specifica per i deepfake in campagna elettorale.
Sul fronte della cybersecurity aziendale, la Direttiva NIS2, in vigore dal gennaio 2026 per i soggetti essenziali e importanti, introduce obblighi di notifica degli incidenti significativi e prevede sanzioni che possono arrivare a 10 milioni di euro o al 2% del fatturato mondiale.
Il paradosso del 2026: tecnologia contro tecnologia
C’è un aspetto quasi filosofico in tutto questo che vale la pena sottolineare.
Gli strumenti per creare deepfake convincenti sono gli stessi che vengono usati per rilevarli.
Aziende come Pindrop, Hiya, Microsoft (con il suo Azure AI Content Safety) e Google stanno sviluppando sistemi di rilevamento basati su AI e i truffatori stanno affinando le loro tecniche per aggirarli.
È una corsa agli armamenti. E, almeno per ora, chi attacca ha un vantaggio: la creatività del crimine è spesso più agile della risposta della sicurezza.
Ma c’è un elemento che la tecnologia non può replicare completamente: il senso critico umano.
La consapevolezza che la voce e il volto non sono più prova sufficiente di identità, la cultura del dubbio di fronte a richieste urgenti e insolite, la volontà di “perdere” un minuto per verificare prima di agire, sono oggi, gli strumenti di difesa più potenti che abbiamo.
Conclusioni: fidarsi sì, ma verificare sempre
Viviamo in un momento storico in cui la realtà può essere imitata con un livello di fedeltà sempre più difficile da smascherare.
I deepfake non sono una minaccia futura, sono una minaccia presente, con vittime reali e danni economici documentati.
La risposta non è il panico, né la paranoia ma la consapevolezza e sapere che questa tecnologia esiste capendo come funziona è già il primo passo per non caderne vittima.
Come definito dal Garante della Privacy italiano i deepfake: sono “foto, filmati e audio creati grazie a software di intelligenza artificiale che, partendo da contenuti reali, riescono a ricreare, in modo estremamente realistico, le caratteristiche e i movimenti di un volto o di un corpo e a imitare fedelmente una determinata voce.”
Il punto chiave è in quelle ultime parole: partendo da contenuti reali.
Tutto ciò che pubblichiamo di noi stessi ( le foto, i video, le clip audio) può potenzialmente diventare materia prima per chi vuole usare la nostra identità contro di noi o contro gli altri.
Non si tratta di smettere di usare i social media o di vivere nel terrore.
Si tratta di sviluppare la stessa sana diffidenza che già applichiamo alle email di phishing o alle telefonate di “istituti bancari” sospetti e di aggiornarla e adeguarla a una minaccia che, per la prima volta nella storia, può sembrare da parte di qualcuno che conosciamo.
Verificare prima di agire. Sempre.
Fonti e riferimenti
– ICT Security Magazine, *Deepfake vocali: il caso Crosetto svela la nuova frontiera del cyber-crimine in Italia*, gennaio 2026 — ictsecuritymagazine.com
– Fortune, *2026 will be the year you get fooled by a deepfake, researcher says*, dicembre 2025 — fortune.com
– Keepnet Labs, *Deepfake Statistics & Trends 2026* — keepnetlabs.com
– Brightside AI, *Deepfake CEO Fraud: $50M Voice Cloning Threat*, ottobre 2025 — brside.com
– Deloitte Center for Financial Services, report sulle perdite da frodi AI-enabled
– Pindrop, *Voice Intelligence & Security Report 2025*
– McAfee, *The Artificial Imposter* (report sul voice cloning)
– Regula, *Deepfake Trends 2024*
– American Bar Association, *The Rise of the AI-Cloned Voice Scam*, settembre 2025 — americanbar.org
– Garante della Privacy italiano, vademecum sui deepfake
– Cybersecurity 360, *Truffa del falso Crosetto: cosa sappiamo dei deepfake vocali*, febbraio 2025
– Il Sole 24 Ore, *Deepfake e politica, come sono le regole in Italia e in Europa*, febbraio 2026
– Adaptive Security, *Deepfake Scams*, novembre 2025 — adaptivesecurity.com
– Federprivacy, *La truffa del falso Ministro Crosetto*, febbraio 2025
Forse potrebbe interessarti anche: Shadow AI: quando l’intelligenza artificiale entra in azienda senza permesso
Per essere pienamente in linea con la nuova legge, sì, lo ammetto: per scrivere questo articolo mi sono avvalso dell’aiuto dell’intelligenza artificiale.
Grazie al suo supporto ho potuto concentrarmi sui contenuti, lasciando all’IA il ruolo di revisore attento, correttore di refusi e ottimizzatore SEO, senza intaccare la mia voce e il mio stile. Un collaboratore affidabile che, se utilizzato in modo etico, può davvero dare una mano e migliorare la produttività di chiunque.
