Guide

Come funziona l’AI per il riconoscimento immagini



Indirizzo copiato

Il riconoscimento delle immagini digitali è una delle applicazioni più note dell’intelligenza artificiale. Dalla teoria alla pratica, ecco come funzionano i classificatori convoluzionali e il pooling, con le possibili applicazioni aziendali 

Pubblicato il 16 giu 2025

Pablo Cerini

Giornalista



Reti neurali convoluzionali

Il riconoscimento delle immagini è una delle applicazioni di intelligenza artificiale maggiormente conosciute considerando i numerosi campi di applicazione possibili.
Il livello di precisione raggiunto è dovuto ai progressi esponenziali compiuti negli ultimi anni nella ricerca sulle reti neurali. La tecnologia di cui parliamo, infatti, è basata sulle reti convoluzionali, che sono un tipo di rete neuronale con caratteristiche specifiche per le applicazioni di computer vision.
Una rete neurale è un modello di apprendimento che prende decisioni in modo simile al cervello umano, utilizzando processi che imitano i neuroni biologici. Ogni rete neurale è composta da strati di nodi (neuroni artificiali), a cui sono associati dei pesi e dei valori di soglia: la modifica di questi valori da parte di un algoritmo di apprendimento guida la rete nel trasformare una richiesta di informazioni (spazio di input) in una predizione statistica. La particolarità delle reti convolutive è di comprendere nei propri layer dei livelli ingegnerizzati per processare immagini, ossia classificatori convoluzionali e livelli di pooling.

Il classificatore convoluzionale

Il classificatore convoluzionale è il nodo neuronale che ha il compito di riconoscere le caratteristiche di un’immagine e di classificarle. Le caratteristiche sono le cosiddette feature, che il classificatore individua ed etichetta.
Se prendiamo, ad esempio, la foto di un cane, il classificatore convoluzionale si occupa di identificare le feature che permettono alla nostra mente di capire che l’immagine si riferisce a quell’animale (la coda, gli occhi, le zampe, ecc.) e assegna loro una proprietà semantica.
Per isolare queste feature dal resto dell’immagine, il classificatore convoluzionale utilizza delle collezioni di filtri (kernel) che applica in modo iterativo all’immagine fino a che non ottiene delle corrispondenze altamente probabili dal punto di vista statistico.
Possiamo immaginare il kernel come una matrice di pixel, che viene posta in relazione con diverse aree dell’immagine da classificare: a seconda del risultato di questa sovrapposizione, l’algoritmo decide se l’area di quell’immagine può corrispondere a un’etichetta oppure no. Da qui il termine convoluzionale, che in analisi matematica consiste proprio nella sovrapposizione di aree di due funzioni diverse per ottenere un segnale.
Il classificatore convoluzionale è composto da due macro algoritmi: Base e Head. Nell’immagine di esempio sotto riportata, il training a livello Base è quello che si occupa di estrarre elementi statisticamente interessanti dell’immagine, come la coda e gli occhi, mentre il componente Head è quello che li etichetta con le informazioni necessarie per raggiungere una classificazione.

Reti neurali convoluzionali

Il livello Base è quello più costoso in termini di tempi e potenza di calcolo necessari, per cui spesso si usa un livello Base addestrato in precedenza, a cui si collega un livello Head da addestrare completamente.
Una volta che il livello Head è riuscito ad etichettare un numero sufficiente di elementi, potrà iniziare a tentare una classificazione dell’immagine in base alle corrispondenze statistiche che gli sono note. Un livello Head poco evoluto potrebbe fare confusione tra un cane e un gatto, un livello Head maggiormente addestrato potrebbe capire che l’immagine si riferisce a un cane ma non capirne la razza, un livello Head addestrato per un numero sufficiente di epoche potrebbe arrivare ad identificare con precisione anche la razza Husky.

L’importanza del pooling

Un limite delle prime versioni di questo algoritmo di addestramento era la ridotta capacità di gestire le aree poco significative dell’immagine, il cui interferire con il kernel di estrazione poteva avere effetti di disturbo tali da compromettere completamente la classificazione. 
Sempre nella nostra foto di esempio, possiamo infatti notare la presenza di importanti zone dell’immagine che non contribuiscono in alcun modo al riconoscimento della natura del soggetto, ma che introducono solo rumore di disturbo. 

Reti neurali convoluzionali

Minimizzare questo rumore è il compito del livello di Pooling che, attraverso delle funzioni matematiche, si occupa di assegnare pesi diversi alle feature estratte dall’iterazione del kernel, assegnando alle feature con un’etichetta statisticamente significativa pesi maggiori rispetto alle estrazioni costituite per lo più da rumore. Queste ultime, ricevendo pesi di importanza minore, vengono scartate dal livello Head durante la fase classificazione finale, che si può così concentrare solo sulle feature significative. Questa operazione di assegnamento di pesi viene anche definita condensazione, perché porta in risalto le feature rilevanti dell’immagine.

Portare le reti convoluzionali in azienda

La tecnologia del riconoscimento di immagini interessa uno scenario di applicazioni interessanti in ambito aziendale: anti contraffazione, tracciabilità logistica, classificazione documentale, training, automazione della produzione.

La buona notizia è che gli ambienti di sviluppo che governano questi modelli di apprendimento sono estremamente accessibili: alcuni dei migliori software di riconoscimento immagini sono sviluppati con librerie come Keras o Tensorflow, che possono essere fruite in linguaggio Python.

Un po’ meno accessibili sono le risorse hardware necessarie a sostenerne i complessi calcoli. Per far fronte a questo ostacolo, è possibile ricorrere all’impiego di modelli Pre-trained oppure sviluppare degli agenti dedicati a compiti ben definiti. Quasi tutti i grandi LLM, come Open AI, Claude o Gemini, espongono infatti delle API per mezzo delle quali è possibile integrare le capacità di modelli già addestrati nei propri agent, che possono così specializzarsi nell’identificare solo la particolare categoria di immagini rilevante per i processi aziendali.

Speciale Digital Awards e CIOsumm.it

Tutti
Update
Keynote
Round table
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Approfondimenti
La sinergia tra CIO e CISO trasforma la cybersecurity in un obiettivo di business strategico
Approfondimenti 
Etica dell’innovazione tecnologica per i CIO: prima chiedersi perché. Poi definire cosa e come
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo
Video
Digital360Awards e CIOsumm.it, i momenti salienti
Approfondimenti
La sinergia tra CIO e CISO trasforma la cybersecurity in un obiettivo di business strategico
Approfondimenti 
Etica dell’innovazione tecnologica per i CIO: prima chiedersi perché. Poi definire cosa e come
Eventi
Digital360 Awards e CIOsumm.IT, ecco i progetti vincitori
Tavola rotonda
Evoluzione del CIO: da centro di costo a motore strategico del business
Tavola rotonda
Business Process Augmentation: dall’RPA alla GenAI… il dato e tratto
Approfondimenti
Sistemi digitali potenziati: l’intelligenza dei chatbot è nelle mani dei CIO
Tavola rotonda
Intelligenza collaborativa e AI: sfide e opportunità per i CIO nell’era dello Human to Machine (H2M) 
Approfondimenti
Open Source: collaborazione e innovazione nel caos apparente del software libero 
Metodologie
BANI: che cos’è e come l’AI può aiutare i CIO a gestire la felicità (e l’infelicità) dei talenti
Prospettive
AI in un mondo complesso. Tra ordine e disordine, le aziende iniziano a capire la giusta via
Approfondimenti
Intelligenza Umana vs Intelligenza Artificiale insieme. Non invece
Eventi
Digital360 Awards e CIOsumm.IT, al via l’evento conclusivo

Articoli correlati

Articolo 1 di 5