QNA > Q > Qual È Il Modo Migliore Per Visualizzare Dati Altamente Dimensionali?

Qual è il modo migliore per visualizzare dati altamente dimensionali?

Non credo ci sia un modo universalmente migliore. Dipende dai dati. Se usate [math]\texttt{ggplot2}[/math] ci sono strutture per il subsetting così come per mappare colori, forme, dimensioni, trasparenza sulle variabili.

In genere consiglierei alle persone di evitare di usare un metodo di plot esotico e, invece, chiedersi prima se ci sono davvero 12 dimensioni di interazioni interessanti, o se è possibile ridurre utilmente la dimensionalità, sia tracciando meno dimensioni alla volta (ad esempio, R's default 2-way interaction plot)

main-qimg-45753200d0269dec1177eca82e4fd95e.webp main-qimg-a481ba1006990f3ab788cde6c5a59403


o sottraendo, dividendo, sottoponendo, proiettando e/o cambiando base (es. PCA). Per esempio, le trame delle sfaccettature in ggplot possono essere usate quando il sottoinsieme A è sia coerente che notevolmente diverso dal sottoinsieme B (anch'esso coerente con se stesso).

Non sono nemmeno d'accordo che le persone non possano capire le alte dimensioni. Ecco la mia risposta a Come si può visualizzare qualcosa che ha più di 3 dimensioni? Il trucco principale che uso è pensare a ℤⁿ come un grafico con 2n vertici per nodo. (Quindi pensate ad un solo angolo di un cubo: ha 3 linee che escono da esso. Un solo angolo di un quadrato: ha 2 linee che escono da esso). Ci sono "più vicini" così come più direzioni in cui andare nello spazio high-D.


Ci sono diversi modi di immaginare il >3D.

  • Uno è lo "slicing" (pensare solo ad un sottoinsieme tridimensionale mantenendo costante il resto dei parametri).
main-qimg-5c2c2266420df5816ce8e72bd4dccc94.webp



main-qimg-9ea4cbb1b0c8171538259e9aee963a28.webp


  • Un altro è per proiezione (l'"ombra" di un oggetto a più alta dimensione su 3-D. Tony Robbin dà l'esempio di "Come appare l'ombra di una sedia [3-D] sul pavimento [2-D]?").
main-qimg-ba7d59b21e7d64044d39c466ad1e95cf.webp


  • Si può fare uso di variazioni grafiche come punti' forma, colore (o ottenere 3 dimensioni dal colore con es. Lab), o tempo.
main-qimg-e4bbeac552ff7fb9c6f30dd9eb661763

  • Questa non è una visualizzazione utile, ma si può banalmente confutare chi dice "Le persone non trattano in più di tre dimensioni" facendo notare che ogni pixel sullo schermo è un dato che può variare - quindi anche leggendo questo messaggio si sta guardando uno spazio ad alta dimensione. (E la risposta appropriata a "Come vedi lo spazio a 4 dimensioni?" è "Come vedi lo spazio a 3 dimensioni?").
  • Il mio preferito è pensare ai fogli di calcolo Excel. (qui mostro il codice R per generare un cubo a 4 dimensioni [0,1]×[0,1]×[0,1]×[0,1], i cui angoli hanno questo aspetto:

    0 0 0 0
    1 0 0 0
    0 1 0 0
    1 1 0 0
    0 0 1 0
    1 0 1 0
    0 1 1 0
    1 1 0
    0 0 0 1
    1 0 0 1
    0 1 0 1
    1 1 0 1
    0 0 1 1
    1 0 1 1
    0 1 1 1
    1 1 1 1

Se si lavora con fogli di calcolo con molte colonne si lavora con dati ad altadati dimensionali. A volte avete bisogno di invocare una tabella Pivot dove guardate solo (colonna 4 == 9) o qualcosa del genere. Questo è il sottoinsieme a bassa dimensione che tiene costante la colonna 4.


Controlla Bill Thurston e gli isomorfismi: dimensioni superiori per spiegazioni più lunghe.

---------------------------

Per quanto riguarda la citazione di Hinton'non ero d'accordo quando l'ho sentita e lo sono ancora. Non è così che io visualizzo le 4+ dimensioni e non credo che sia così anche per gli altri. Per una cosa le relazioni di vicinato si addensano (pensate alla proiezione di un grafico di cubi a più alte dimensioni.


main-qimg-a6f8164cf62154ec7ba7a7f9042e8d5f.webp


Il numero di bordi per vertice aumenterà in dimensioni più alte, anche se aumenta il numero di vertici. Quindi il tuo "3-D che agita le mani" avrebbe fondamentalmente wormholes ovunque se la dimensionalità è abbastanza grande. Per dirla con le parole di Hinton, in una drogheria (o biblioteca) a 10 dimensioni, più cose potrebbero essere vicine tra loro. Questo è il motivo per cui la topologia a bassa D è più interessante di quella ad alta D: è difficile che un nodo rimanga annodato quando può scivolare attraverso dimensioni "extra".


Tengo anche in mente la relazione tra sfere e cubi come due tipi di forme di base in uno spazio ad alta D: la maggior parte della massa di un cubo è nei suoi molti angoli appuntiti.

tl,dr: Pensa alle colonne in un foglio Excel. Ogni colonna è una variabile. Quando i valori in 5 delle colonne rimangono gli stessi (ordinati) e la sesta colonna cambia, stai guardando la variazione nella sesta dimensione.

Inoltre: require(ggplot2); data(msleep); qplot(data=msleep, x=sleep_rem/sleep_total, y = log(awake/bodywt), colour = order, size = log(brainwt)) + facet_wrap(~ vore)

main-qimg-43475ab547927504e9a5a932c238ee35.webp

Detto questo, se non riesci a capire quali sono le dimensioni sensate da visualizzare, come combinarle o arricciarle, ecc, ci sono alcuni metodi esotici per tracciare ad esempio 50 dimensioni come le facce di Chernoff. Possono essere abbastanza divertenti per il pubblico ma non necessariamente illuminanti: FMS Symphony - Bicoastal Datafest

Di Cyler Cariello

Cosa significa essere una 'Karen'? :: Come tratta Apple gli acquisti in-app effettuati da bambini senza il permesso o la conoscenza dei genitori nell'App Store?
Link utili