Unsupervised Learning , types of Unsupervised Leaning

L'apprendimento non supervisionato (unsupervised learning) è un metodo di machine learning che lavora su dati privi di etichette o categorie predefinite, quindi senza una guida esplicita sui risultati desiderati. L'obiettivo principale è scoprire pattern nascosti, strutture o relazioni tra i dati in modo autonomo. Tra le sue applicazioni ci sono il clustering (raggruppamento di dati simili), la riduzione della dimensionalità, l'individuazione di anomalie e la ricerca di associazioni tra le caratteristiche presenti nei dati. Gli algoritmi più comuni includono K-Means, DBSCAN, e il clustering gerarchico, e sono utilizzati in contesti come segmentazione di mercato, analisi comportamentale e compressione dati.

Il clustering è una tecnica di apprendimento non supervisionato che organizza i dati in gruppi chiamati cluster, dove gli elementi all'interno di uno stesso cluster sono più simili tra loro rispetto a quelli di altri gruppi. Serve a scoprire strutture o pattern naturali nei dati senza conoscere a priori quali gruppi esistano. È utilizzato per raggruppare dati complessi e multidimensionali in modo che i punti dati in ogni cluster condividano caratteristiche simili, facilitando l'analisi e la comprensione dei dati.

Gli algoritmi di clustering più comuni includono:

  • K-means, che divide i dati in un numero predefinito di cluster basandosi sulla distanza da centroidi.

  • DBSCAN, che identifica cluster basati sulla densità dei punti e gestisce bene outlier e forme arbitrarie.

  • Clustering gerarchico, che costruisce una gerarchia di cluster a più livelli.

Il clustering trova applicazioni in marketing per segmentare clienti, in analisi finanziaria, sistemi di raccomandazione, e biologia per classificare dati complessi, aiutando a scoprire pattern nascosti e semplificare grandi insiemi di dati.

Association :

Certamente! In questo caso, "association" si riferisce a un concetto fondamentale nel campo del Machine Learning e del Data Mining, noto come Regole di Associazione (Association Rules).

È un concetto completamente diverso da quello della programmazione orientata agli oggetti, ma altrettanto importante.

Definizione Semplice

L'Association Rule Learning è una tecnica di machine learning non supervisionata utilizzata per scoprire relazioni interessanti e nascoste tra grandi insiemi di dati. L'obiettivo è trovare pattern del tipo: "Se accade X, allora è probabile che accada anche Y".

L'esempio classico è il Market Basket Analysis (Analisi del Carrello della Spesa).


L'Esempio Canonico: "Il Pannolino e la Birra"

Una delle storie più famose nel data mining è quella di un'analisi che scoprì che i clienti che compravano pannolini avevano un'alta probabilità di comprare anche birra. Questa è un'associazione!

  • Se (Pannolini) Allora (Birra)

Questa regola permette al supermercato di:

  • Posizionare i prodotti strategicamente (per aumentare le vendite incrociate).

  • Pianificare campagne di marketing mirate.

  • Creare offerte sconti bundle.


Terminologia Chiave e Metrica (L'Algoritmo Apriori)

L'algoritmo più famoso per trovare queste regole è Apriori. Funziona in due step principali:

  1. Trova tutti gli itemset (insiemi di elementi) che compaiono frequentemente insieme.

  2. Genera le regole di associazione da questi itemset frequenti.

Per misurare l'importanza di una regola, usiamo tre metriche fondamentali:

  1. Supporto (Support)

    • Cos'è: La frequenza con cui un insieme di elementi (es. {Pannolino, Birra}) appare in tutte le transazioni.

    • A cosa serve: Misura quanto è comune quella combinazione. Un supporto basso significa che l'evento è raro.

    • Formula: Support(X → Y) = (Numero di transazioni che contengono sia X che Y) / (Numero totale di transazioni)

  2. Confidenza (Confidence)

    • Cos'è: La probabilità che, se una transazione contiene X, contenga anche Y. Misura l'affidabilità della regola.

    • A cosa serve: Risponde alla domanda "Se compro un pannolino, quanto è probabile che compri anche una birra?".

    • Formula: Confidence(X → Y) = Support(X → Y) / Support(X)

  3. Lift (Sollevamento)

    • Cos'è: Misura quanto è più forte la relazione tra X e Y rispetto a quanto ci si aspetterebbe se fossero indipendenti. È la metrica più importante per la forza dell'associazione.

    • Interpretazione:

      • Lift = 1: X e Y sono indipendenti. Non c'è alcuna associazione.

      • Lift > 1: Esiste una relazione positiva. Più è alto, più forte è l'associazione. (Es., se Lift = 3, comprare X rende l'acquisto di Y 3 volte più probabile).

      • Lift < 1: Esiste una relazione negativa (se compri X, è meno probabile che tu compri Y).


Come Funziona l'Algoritmo (Passo-Passo)

Immaginiamo un database di transazioni di un mini-market:

Transazione
Prodotti

1

{Latte, Pane, Burro}

2

{Latte, Pane}

3

{Latte, Birra}

4

{Latte, Pane, Birra, Uova}

5

{Pane, Birra, Uova}

Obiettivo: Trovare regole forti, ad esempio {Pane} → {Birra}.

  1. Calcolo del Supporto:

    • Supporto di {Pane, Birra}: appare nelle transazioni 4 e 5 -> 2 / 5 = 0.4 (o 40%).

  2. Calcolo della Confidenza:

    • Confidenza della regola {Pane} → {Birra}: Support(Pane, Birra) / Support(Pane)

    • Supporto(Pane): appare nelle transazioni 1, 2, 4, 5 -> 4 / 5 = 0.8

    • Quindi: Confidenza = 0.4 / 0.8 = 0.5 (o 50%). Significa che il 50% delle volte che qualcuno compra il pane, compra anche la birra.

  3. Calcolo del Lift:

    • Lift della regola {Pane} → {Birra}: Support(Pane, Birra) / [Support(Pane) * Support(Birra)]

    • Supporto(Birra): appare nelle transazioni 3, 4, 5 -> 3 / 5 = 0.6

    • Quindi: Lift = 0.4 / (0.8 * 0.6) = 0.4 / 0.48 ≈ 0.83

    • Un lift < 1 indica che in realtà comprare il pane rende leggermente meno probabile l'acquisto della birra in questo piccolo dataset. Non è una buona regola.


Applicazioni Pratiche

  • E-commerce: "Clienti che hanno acquistato X hanno acquistato anche Y" (Amazon è un maestro in questo).

  • Medicina: Trovare associazioni tra sintomi e malattie, o tra farmaci ed effetti collaterali.

  • Content Recommendation: Netflix e Spotify usano tecniche simili per raccomandare film e musica ("Utenti a cui è piaciuta la canzone X hanno ascoltato anche Y").

  • Analisi del Clickstream: Scoprire pattern di navigazione degli utenti su un sito web.


Last updated