Unsupervised Learning , types of Unsupervised Leaning

L'apprendimento non supervisionato (unsupervised learning) è un metodo di machine learning che lavora su dati privi di etichette o categorie predefinite, quindi senza una guida esplicita sui risultati desiderati. L'obiettivo principale è scoprire pattern nascosti, strutture o relazioni tra i dati in modo autonomo. Tra le sue applicazioni ci sono il clustering (raggruppamento di dati simili), la riduzione della dimensionalità, l'individuazione di anomalie e la ricerca di associazioni tra le caratteristiche presenti nei dati. Gli algoritmi più comuni includono K-Means, DBSCAN, e il clustering gerarchico, e sono utilizzati in contesti come segmentazione di mercato, analisi comportamentale e compressione dati.

Il clustering è una tecnica di apprendimento non supervisionato che organizza i dati in gruppi chiamati cluster, dove gli elementi all'interno di uno stesso cluster sono più simili tra loro rispetto a quelli di altri gruppi. Serve a scoprire strutture o pattern naturali nei dati senza conoscere a priori quali gruppi esistano. È utilizzato per raggruppare dati complessi e multidimensionali in modo che i punti dati in ogni cluster condividano caratteristiche simili, facilitando l'analisi e la comprensione dei dati.

Gli algoritmi di clustering più comuni includono:

K-means, che divide i dati in un numero predefinito di cluster basandosi sulla distanza da centroidi.
DBSCAN, che identifica cluster basati sulla densità dei punti e gestisce bene outlier e forme arbitrarie.
Clustering gerarchico, che costruisce una gerarchia di cluster a più livelli.

Il clustering trova applicazioni in marketing per segmentare clienti, in analisi finanziaria, sistemi di raccomandazione, e biologia per classificare dati complessi, aiutando a scoprire pattern nascosti e semplificare grandi insiemi di dati.

Association :

Certamente! In questo caso, "association" si riferisce a un concetto fondamentale nel campo del Machine Learning e del Data Mining, noto come Regole di Associazione (Association Rules).

È un concetto completamente diverso da quello della programmazione orientata agli oggetti, ma altrettanto importante.

Definizione Semplice

L'Association Rule Learning è una tecnica di machine learning non supervisionata utilizzata per scoprire relazioni interessanti e nascoste tra grandi insiemi di dati. L'obiettivo è trovare pattern del tipo: "Se accade X, allora è probabile che accada anche Y".

L'esempio classico è il Market Basket Analysis (Analisi del Carrello della Spesa).

L'Esempio Canonico: "Il Pannolino e la Birra"

Una delle storie più famose nel data mining è quella di un'analisi che scoprì che i clienti che compravano pannolini avevano un'alta probabilità di comprare anche birra. Questa è un'associazione!

Se (Pannolini) Allora (Birra)

Questa regola permette al supermercato di:

Posizionare i prodotti strategicamente (per aumentare le vendite incrociate).
Pianificare campagne di marketing mirate.
Creare offerte sconti bundle.

Terminologia Chiave e Metrica (L'Algoritmo Apriori)

L'algoritmo più famoso per trovare queste regole è Apriori. Funziona in due step principali:

Trova tutti gli itemset (insiemi di elementi) che compaiono frequentemente insieme.
Genera le regole di associazione da questi itemset frequenti.

Per misurare l'importanza di una regola, usiamo tre metriche fondamentali:

Supporto (Support)
- Cos'è: La frequenza con cui un insieme di elementi (es. {Pannolino, Birra}) appare in tutte le transazioni.
- A cosa serve: Misura quanto è comune quella combinazione. Un supporto basso significa che l'evento è raro.
- Formula: Support(X → Y) = (Numero di transazioni che contengono sia X che Y) / (Numero totale di transazioni)
Confidenza (Confidence)
- Cos'è: La probabilità che, se una transazione contiene X, contenga anche Y. Misura l'affidabilità della regola.
- A cosa serve: Risponde alla domanda "Se compro un pannolino, quanto è probabile che compri anche una birra?".
- Formula: Confidence(X → Y) = Support(X → Y) / Support(X)
Lift (Sollevamento)
- Cos'è: Misura quanto è più forte la relazione tra X e Y rispetto a quanto ci si aspetterebbe se fossero indipendenti. È la metrica più importante per la forza dell'associazione.
- Interpretazione:
  - Lift = 1: X e Y sono indipendenti. Non c'è alcuna associazione.
  - Lift > 1: Esiste una relazione positiva. Più è alto, più forte è l'associazione. (Es., se Lift = 3, comprare X rende l'acquisto di Y 3 volte più probabile).
  - Lift < 1: Esiste una relazione negativa (se compri X, è meno probabile che tu compri Y).

Come Funziona l'Algoritmo (Passo-Passo)

Immaginiamo un database di transazioni di un mini-market:

Transazione

Prodotti

{Latte, Pane, Burro}

{Latte, Pane}

{Latte, Birra}

{Latte, Pane, Birra, Uova}

{Pane, Birra, Uova}

Obiettivo: Trovare regole forti, ad esempio {Pane} → {Birra}.

Calcolo del Supporto:
- Supporto di {Pane, Birra}: appare nelle transazioni 4 e 5 -> 2 / 5 = 0.4 (o 40%).
Calcolo della Confidenza:
- Confidenza della regola {Pane} → {Birra}: Support(Pane, Birra) / Support(Pane)
- Supporto(Pane): appare nelle transazioni 1, 2, 4, 5 -> 4 / 5 = 0.8
- Quindi: Confidenza = 0.4 / 0.8 = 0.5 (o 50%). Significa che il 50% delle volte che qualcuno compra il pane, compra anche la birra.
Calcolo del Lift:
- Lift della regola {Pane} → {Birra}: Support(Pane, Birra) / [Support(Pane) * Support(Birra)]
- Supporto(Birra): appare nelle transazioni 3, 4, 5 -> 3 / 5 = 0.6
- Quindi: Lift = 0.4 / (0.8 * 0.6) = 0.4 / 0.48 ≈ 0.83
- Un lift < 1 indica che in realtà comprare il pane rende leggermente meno probabile l'acquisto della birra in questo piccolo dataset. Non è una buona regola.

Applicazioni Pratiche

E-commerce: "Clienti che hanno acquistato X hanno acquistato anche Y" (Amazon è un maestro in questo).
Medicina: Trovare associazioni tra sintomi e malattie, o tra farmaci ed effetti collaterali.
Content Recommendation: Netflix e Spotify usano tecniche simili per raccomandare film e musica ("Utenti a cui è piaciuta la canzone X hanno ascoltato anche Y").
Analisi del Clickstream: Scoprire pattern di navigazione degli utenti su un sito web.

PreviousSupervised Learning NextDeep Learning

Last updated 1 month ago