Visualització de dades. Part (I): història i context

Amb aquest primer article, obrim una sèrie en la qual desglossarem tant la definició com els criteris d’ús, les millors pràctiques i, fins i tot, la història i la posada en context d’una de les parts més demanades en els darrers temps dins de l’àrea de l’analítica de dades: la visualització de dades o, si utilitzem el seu nom en anglès, que ja ha estat adoptat tecnològicament, la data visualization.

Podríem resumir i simplificar, en excés, la seva definició amb aquella dita tan repetida d’“una imatge val més que mil paraules” i és que, realment, quan parlem de representar dades oferint a les persones usuàries que hi interactuen ella una forma ràpida, veraç i de retenció fàcil per obtenir informació sobre aquestes persones, aquesta mena d’imatges i la forma de representar-les ordenadament es converteixen en un llenguatge propi que hem d’adoptar: és, podríem dir, l’idioma de les dades. Quan els volums d’informació que hem de representar creixen i arriben, fins i tot, a les també molt esmentades dades massives, o big data, la visualització de dades es converteix en una disciplina indispensable.

La visualització de dades (data visualization) es converteix en una disciplina indispensable

Perquè en tinguem una definició una mica més formal, podem dir que la visualització de dades és un camp d’estudi interdisciplinari l’objecte del qual és la representació de les dades en un format gràfic. Si parlem des d’un punt de vista acadèmic, podem dir que es tracta d’una manera de mapar la realitat de les dades originals sobre elements gràfics de representació visual (punts, barres, segments, etcètera), de manera que la persona usuària pot detectar, en aquestes dades originals, variacions, patrons, etcètera, a través de la correlació dels atributs de les visualitzacions amb aquestes mateixes dades.

neix ja fa molt de temps; de fet, és al segle XVIII on fa els seus primers passos.

Gràfic de pastís del <em>Breviari estadístic</em> (1801), que mostra les proporcions de l’Imperi turc
Gràfic de pastís del Breviari estadístic (1801),
que mostra les proporcions de l’Imperi turc localitzat
a l’Àsia, Europa i l’Àfrica abans del 1789.

Però, encara que sigui una disciplina “de moda” i molt demanada professionalment en l’actualitat, i tot i que ja tingui una nombrosa sèrie de publicacions i continguts educatius per donar suport a aquesta demanda, el cert és que la visualització de dades neix ja fa molt de temps; de fet, és al segle XVIII on fa els seus primers passos.

I és que es considera William Playfair (1759-1824) com l’introductor dels gràfics en estadística (encara que hi ha hagut aportacions fins i tot anteriors a aquesta). Aquest enginyer i economista polític escocès, que ja llavors opinava que l’ús de gràfics era molt més explicatiu que unes simples taules, és considerat l’inventor del polígon de freqüències, del diagrama de barres i del gràfic de pastís.

Gràfica, en sèrie de temps, de la balança comercial de Dinamarca i Noruega, publicat en l’<em>Atles comercial i polític</em> de Playfair (1786).
Gràfica, en sèrie de temps, de la balança comercial de Dinamarca
 i Noruega, publicat en l’Atles comercial i polític de Playfair (1786).

I si avancem una mica en la història, malgrat que hi ha diverses fites que van marcar un abans i un després en la disciplina de la visualització de dades, ens hi trobem la que és considerada com “la Gioconda” de la representació de dades. L’any 1869, a l’edat de 80 anys, Charles Minard va elaborar la “Carta figurativa de les successives pèrdues d’homes de l’armada francesa en la campanya a Rússia de Napoleó el 1812”, en la qual es representen les penúries de l’exèrcit per prendre Moscou.

Ens trobem la que és considerada com “la Gioconda” de la representació de dades

Carta figurativa de les successives pèrdues d’homes de l’armada francesa en la campanya a Rússia de Napoleó el 1812
Carta figurativa de les successives pèrdues d’homes de l’armada francesa en la campanya a Rússia de Napoleó el 1812

En el gràfic s’hi representa el nombre de tropes en funció de la data, la localització geogràfica i, fins i tot, la temperatura. S’hi pot observar l’autèntica sagnia d’un exèrcit que va emprendre la seva marxa al juny amb prop de 420.000 homes i arriba a la capital russa només amb 100.000, com es pot observar a la primera banda marró. La tornada, representada per la banda negra inferior, mostra que únicament 10.000 soldats van aconseguir tornar a França, d’un exèrcit minvat pels combats, però més encara pels rigors del clima representats en el gràfic que hi ha al peu.

És una joia que, encara avui dia, desperta l’interès de les persones que ens apropem al món de l’analítica (va caure a les meves mans gràcies a un il·lustrat participant d’un dels meus cursos) i que, posteriorment, 30 anys més tard, va passar a ser anomenat diagrama de Sankey, quan l’homònim capità irlandès va utilitzar una tècnica similar per representar el flux d’eficiència energètica d’una màquina de vapor. Avui dia aquest tipus de gràfic es continua utilitzant per a la representació multidimensional.

Les persones en qui hagi pogut despertar un interès similar al que em va despertar a mi aquesta representació, també poden trobar interessants les roses de Nightingale (1858) o el mapa del còlera de Snow (1855).

El cervell humà processa la informació visual molt millor que la textual

Més enllà de les qüestions històriques i les anècdotes que hi van associades, el cert és que el cervell humà processa la informació visual molt millor que la textual, perquè el fet d’utilitzar gràfics i altres elements de disseny simplifica la interpretació de tendències i el processament de dades estadístiques. En qualsevol cas, no totes les representacions tenen la mateixa utilitat ni es poden dirigir a representar les mateixes mesures. Així, el seu ús i les bones pràctiques gairebé formen un llenguatge propi en el qual ens hem d’instruir si volem que les nostres analítiques mostrin la informació pretesa d’una forma simple, accessible i fàcilment comprensible.

I, si parlem d’aquest llenguatge, quins en són els elements o variables principals? Hi ha múltiples classificacions, però, si ho simplifiquem, podem diferenciar els elements gràfics fent ús del color, la forma o la mida.

De fet, el cartògraf francès Jacques Bertin (és obligat comentar la importància de la cartografia en el que avui és la visualització de dades) marcava set variables visuals principals: posició, forma, orientació, color, valor, textura i mida.

Cartografia

Aquestes variables visuals, juntament amb una disposició correcta dins d’una visualització superior (el que actualment s’anomena quadre de comandament o dashboard), formaran part de la sèrie d’articles sobre visualització de dades en els quals ens aproximarem, des d’un punt de vista pràctic i actualitzat, a què és la visualització de dades i a com utilitzar aquest llenguatge en el nostre dia a dia com a analistes de dades.

Compartir: