Caratteristica (apprendimento automatico)
Nel campo dell'apprendimento automatico, una caratteristica (nota anche con il rispettivo termine inglese feature) è una proprietà individuale e misurabile di un fenomeno osservato.[1] La scelta di caratteristiche discriminanti, ad alto contenuto informativo e indipendenti fra loro è un passo cruciale per ottenere un efficiente algoritmo di riconoscimento di pattern, classificazione e regressione. Il valore di una feature viene solitamente reso in forma numerica; esistono tuttavia delle eccezioni, come nel riconoscimento sintattico di pattern (syntactic pattern recognition), in cui vengono considerate caratteristiche strutturali come stringhe e grafi. Il concetto di "caratteristica" è correlato a quello di variabile esplicativa usato in tecniche statistiche come la regressione lineare.
L'insieme—inizialmente grezzo—delle caratteristiche potrebbe essere ridondante e troppo vasto per essere gestito efficientemente. Di conseguenza, un tipico passo preliminare in molte applicazioni dell'apprendimento automatico consiste nella selezione delle caratteristiche, nell'estrazione di caratteristiche o, più in generale, nella riduzione della dimensionalità del cosiddetto input space ("spazio di ingresso").
Vettore delle caratteristiche
modificaUn insieme di caratteristiche numeriche può essere descritto, per convenienza, tramite un vettore di caratteristiche. Un esempio di utilizzo del vettore delle caratteristiche è l'algoritmo del percettrone, in cui si moltiplica tale vettore per il vettore dei pesi , decidendo la classe di appartenenza in base al risultato di tale prodotto scalare.[2]
Altri metodi di classificazione che fanno uso del vettore delle caratteristiche possono essere il k-nearest neighbors e vari algoritmi nel campo delle reti neurali artificiali, classificazione statistica e teoria bayesiana.
Esempi
modificaSeguono degli esempi pratici di caratteristiche in alcune applicazioni dell'apprendimento automatico:
- Nel riconoscimento ottico dei caratteri, una caratteristica può consistere nel numero di pixel neri di un istogramma lungo una direzione verticale o orizzontale, il numero di buchi interni, eccetera.
- Nel riconoscimento vocale, caratteristiche per la rilevazione del fonema possono includere il rapporto segnale/rumore, la lunghezza del suono, filtri adattati, e altro ancora.
- Negli algoritmi per la rilevazione dello spam, una caratteristica può consistere nella presenza o assenza di determinati pattern nell'intestazione (header) dell'e-mail, il linguaggio utilizzato, la frequenza di specifici termini, la correttezza grammaticale del testo, eccetera.
- Lo stesso termine "caratteristica" (o feature) è inoltre utilizzato con significato pressoché analogo nel campo della visione artificiale.
Note
modifica- ^ (EN) Bishop, Christopher, Pattern recognition and machine learning, Berlin, Springer, 2006, ISBN 0-387-31073-8.
- ^ (EN) Avrim Blum, The Perceptron Algorithm (PDF), su cs.cmu.edu, Università Carnegie Mellon - Dipartimento di informatica, 25 gennaio 2010. URL consultato il 2 febbraio 2017 (archiviato il 29 dicembre 2016).