La computer vision, nota anche come vision AI o AI vision, è un'applicazione specializzata dell'intelligenza artificiale (AI) che mira ad analizzare e comprendere i dati visivi. Si tratta, ad esempio, di video, foto, immagini satellitari o scansioni. Simile alla visione umana, la computer vision dà alle macchine la capacità di catturare informazioni visive, interpretarle e reagire di conseguenza.
La computer vision (anche: vision AI, AI vision) non è solo il riconoscimento delle immagini. È un'area dell'IA che consente ai computer e ai sistemi di estrarre informazioni significative dai dati visivi. Questa tecnologia consente ai sistemi di intraprendere azioni o formulare raccomandazioni. La computer vision va quindi oltre la semplice elaborazione delle immagini, tenendo conto delle informazioni contestuali e reagendo in modo intelligente ai cambiamenti dell'ambiente. Grazie agli algoritmi e all'apprendimento automatico, si riconoscono modelli e caratteristiche, si identificano gli oggetti e si seguono i movimenti.
La computer vision può essere utilizzata in molti settori, tra cui l'assistenza sanitaria, i veicoli autonomi e la sorveglianza della sicurezza. Nella robotica, ad esempio, la computer vision consente ai robot di percepire visivamente l'ambiente circostante, identificare gli oggetti e prendere decisioni in base a questo. In questo modo i robot possono eseguire compiti autonomi, come ad esempio
L'obiettivo della computer vision è quello di utilizzare modelli di apprendimento automatico per creare sistemi digitali in grado di elaborare e analizzare i dati visivi allo stesso modo degli esseri umani, o addirittura in modo più rapido ed efficiente.
Il processo inizia con l'acquisizione di immagini e video, che vengono pre-elaborati da algoritmi. I dati vengono quindi analizzati mediante l'apprendimento automatico, utilizzando modelli precedentemente addestrati in grado di riconoscere caratteristiche e modelli specifici. Questi modelli si basano su grandi serie di dati, che consentono loro di diventare sempre più precisi con l'addestramento.
Una tecnica avanzata è il deep learning, che utilizza le reti neurali convoluzionali (CNN). Queste reti sono composte da diversi strati che riconoscono caratteristiche specifiche di un'immagine. Le caratteristiche più semplici, come i bordi, vengono riconosciute per prime, seguite da modelli più complessi. In questo modo il sistema è in grado di comprendere sempre meglio gli oggetti e le scene.
Infine, le informazioni estratte vengono utilizzate per attivare azioni o formulare raccomandazioni. Grazie ai progressi dell'hardware e della potenza di calcolo, la computer vision può già lavorare in tempo quasi reale e gestire compiti complessi. Il cloud e l'edge computing hanno ulteriormente aumentato le prestazioni della computer vision.