Unsupervised Learning , types of Unsupervised Leaning
L'apprendimento non supervisionato (unsupervised learning) è un metodo di machine learning che lavora su dati privi di etichette o categorie predefinite, quindi senza una guida esplicita sui risultati desiderati. L'obiettivo principale è scoprire pattern nascosti, strutture o relazioni tra i dati in modo autonomo. Tra le sue applicazioni ci sono il clustering (raggruppamento di dati simili), la riduzione della dimensionalità, l'individuazione di anomalie e la ricerca di associazioni tra le caratteristiche presenti nei dati. Gli algoritmi più comuni includono K-Means, DBSCAN, e il clustering gerarchico, e sono utilizzati in contesti come segmentazione di mercato, analisi comportamentale e compressione dati.


Il clustering è una tecnica di apprendimento non supervisionato che organizza i dati in gruppi chiamati cluster, dove gli elementi all'interno di uno stesso cluster sono più simili tra loro rispetto a quelli di altri gruppi. Serve a scoprire strutture o pattern naturali nei dati senza conoscere a priori quali gruppi esistano. È utilizzato per raggruppare dati complessi e multidimensionali in modo che i punti dati in ogni cluster condividano caratteristiche simili, facilitando l'analisi e la comprensione dei dati.
Gli algoritmi di clustering più comuni includono:
K-means, che divide i dati in un numero predefinito di cluster basandosi sulla distanza da centroidi.
DBSCAN, che identifica cluster basati sulla densità dei punti e gestisce bene outlier e forme arbitrarie.
Clustering gerarchico, che costruisce una gerarchia di cluster a più livelli.
Il clustering trova applicazioni in marketing per segmentare clienti, in analisi finanziaria, sistemi di raccomandazione, e biologia per classificare dati complessi, aiutando a scoprire pattern nascosti e semplificare grandi insiemi di dati.

Association :
Certamente! In questo caso, "association" si riferisce a un concetto fondamentale nel campo del Machine Learning e del Data Mining, noto come Regole di Associazione (Association Rules).
È un concetto completamente diverso da quello della programmazione orientata agli oggetti, ma altrettanto importante.
Definizione Semplice
L'Association Rule Learning è una tecnica di machine learning non supervisionata utilizzata per scoprire relazioni interessanti e nascoste tra grandi insiemi di dati. L'obiettivo è trovare pattern del tipo: "Se accade X, allora è probabile che accada anche Y".
L'esempio classico è il Market Basket Analysis (Analisi del Carrello della Spesa).
L'Esempio Canonico: "Il Pannolino e la Birra"
Una delle storie più famose nel data mining è quella di un'analisi che scoprì che i clienti che compravano pannolini avevano un'alta probabilità di comprare anche birra. Questa è un'associazione!
Se (Pannolini) Allora (Birra)
Questa regola permette al supermercato di:
Posizionare i prodotti strategicamente (per aumentare le vendite incrociate).
Pianificare campagne di marketing mirate.
Creare offerte sconti bundle.
Terminologia Chiave e Metrica (L'Algoritmo Apriori)
L'algoritmo più famoso per trovare queste regole è Apriori. Funziona in due step principali:
Trova tutti gli itemset (insiemi di elementi) che compaiono frequentemente insieme.
Genera le regole di associazione da questi itemset frequenti.
Per misurare l'importanza di una regola, usiamo tre metriche fondamentali:
Supporto (Support)
Cos'è: La frequenza con cui un insieme di elementi (es. {Pannolino, Birra}) appare in tutte le transazioni.
A cosa serve: Misura quanto è comune quella combinazione. Un supporto basso significa che l'evento è raro.
Formula:
Support(X → Y) = (Numero di transazioni che contengono sia X che Y) / (Numero totale di transazioni)
Confidenza (Confidence)
Cos'è: La probabilità che, se una transazione contiene X, contenga anche Y. Misura l'affidabilità della regola.
A cosa serve: Risponde alla domanda "Se compro un pannolino, quanto è probabile che compri anche una birra?".
Formula:
Confidence(X → Y) = Support(X → Y) / Support(X)
Lift (Sollevamento)
Cos'è: Misura quanto è più forte la relazione tra X e Y rispetto a quanto ci si aspetterebbe se fossero indipendenti. È la metrica più importante per la forza dell'associazione.
Interpretazione:
Lift = 1: X e Y sono indipendenti. Non c'è alcuna associazione.
Lift > 1: Esiste una relazione positiva. Più è alto, più forte è l'associazione. (Es., se Lift = 3, comprare X rende l'acquisto di Y 3 volte più probabile).
Lift < 1: Esiste una relazione negativa (se compri X, è meno probabile che tu compri Y).
Come Funziona l'Algoritmo (Passo-Passo)
Immaginiamo un database di transazioni di un mini-market:
1
{Latte, Pane, Burro}
2
{Latte, Pane}
3
{Latte, Birra}
4
{Latte, Pane, Birra, Uova}
5
{Pane, Birra, Uova}
Obiettivo: Trovare regole forti, ad esempio {Pane} → {Birra}
.
Calcolo del Supporto:
Supporto di {Pane, Birra}: appare nelle transazioni 4 e 5 ->
2 / 5 = 0.4
(o 40%).
Calcolo della Confidenza:
Confidenza della regola
{Pane} → {Birra}
:Support(Pane, Birra) / Support(Pane)
Supporto(Pane): appare nelle transazioni 1, 2, 4, 5 ->
4 / 5 = 0.8
Quindi:
Confidenza = 0.4 / 0.8 = 0.5
(o 50%). Significa che il 50% delle volte che qualcuno compra il pane, compra anche la birra.
Calcolo del Lift:
Lift della regola
{Pane} → {Birra}
:Support(Pane, Birra) / [Support(Pane) * Support(Birra)]
Supporto(Birra): appare nelle transazioni 3, 4, 5 ->
3 / 5 = 0.6
Quindi:
Lift = 0.4 / (0.8 * 0.6) = 0.4 / 0.48 ≈ 0.83
Un lift < 1 indica che in realtà comprare il pane rende leggermente meno probabile l'acquisto della birra in questo piccolo dataset. Non è una buona regola.
Applicazioni Pratiche
E-commerce: "Clienti che hanno acquistato X hanno acquistato anche Y" (Amazon è un maestro in questo).
Medicina: Trovare associazioni tra sintomi e malattie, o tra farmaci ed effetti collaterali.
Content Recommendation: Netflix e Spotify usano tecniche simili per raccomandare film e musica ("Utenti a cui è piaciuta la canzone X hanno ascoltato anche Y").
Analisi del Clickstream: Scoprire pattern di navigazione degli utenti su un sito web.


Last updated