Gestió i preservació de grans volums de dades

Producció i gestió a llarg termini de grans volums d’informació

La gestió de grans volums d’informació (estructurada o desestructurada), en diferents suports i provinent de múltiples fonts ha estat una constant per a les administracions públiques: una necessitat que ve de lluny, ben coneguda pels professionals dels arxius i de la gestió documental.

Estem experimentant, tanmateix, una acceleració considerable en les capacitats de captura, gestió i explotació de les dades generades per part de qualsevol organització, tant en l’àmbit tecnològic com organitzatiu. La definició de processos i procediments orientats a la dada, capaços de capturar informació estructurada a les seves partícules més concretes, és una realitat creixent per a les administracions públiques, que ofereix interessants potencialitats en la interacció amb aquests grans volums d’informació. Paradoxalment, aquesta potencialitat fa més present que mai la coneguda metàfora del navegar o ofegar-se en oceans de dades.

La interacció dels ciutadans amb les nostres administracions públiques, o el mateix dia a dia de la tramitació administrativa orientada a la dada —com la plantejada en el disseny de Gestiona—, així com la gestió dels serveis i el patrimoni públics són una font constant i primària de dades en brut, disponibles per al seu processament i explotació.

Ara bé, aquestes potencialitats comporten necessitats específiques que permetin a les organitzacions la gestió de volums de dades (i documents) en situació de creixement exponencial, i que aquests es generin amb la millor qualitat possible: les dades s’haurien de capturar ben estructurades, organitzades i contextualitzades.

A més, si posem el focus en l’eix de la llarga durada, ens trobem amb reptes específics derivats de la conservació i preservació a llarg termini d’aquests grans volums d’informació, de la seva contextualització i relació amb processos i procediments documentats, i de la seva representació en suports documentals generats per les organitzacions.

Ens trobem amb reptes específics derivats de la conservació i preservació a llarg termini d’aquests grans volums d’informació

Depuració i pertinència de les dades

Aquests grans volums de dades, perquè es puguin explotar i preservar correctament, han d’assegurar en el seu conjunt una sèrie de característiques ben conegudes per qualsevol especialista en el seu processament:

  • Context: les dades en brut, fora de context i dissociades dels processos que les van generar perden gran part de la seva capacitat informativa.
  • Correcció i uniformitat: les dades han de presentar formats correctes i coherents amb l’estructura en la qual es troben, així com representar-se de manera normalitzada en les seves representacions individuals.
  • Integritat: els conjunts de dades per tractar han de mantenir la integritat, i cal evitar-hi l’existència de llacunes, inconsistències o fragmentació tant en les representacions tant individuals com estructurals.

Depenent de les fonts consultades, en qualsevol treball d’anàlisi i explotació de dades —i de nou, incloem aquí els treballs previs a la conservació i preservació a llarg termini d’aquestes dades— se sol esmentar un interval d’esforç d’entre el 65% i el 80% de processament previ i tasques de depuració, contextualització i correcció de les dades per tractar.

Treballs recents (com el que ens presentava recentment Pilar Campos al CNADE 2022) aborden directament les tècniques necessàries per, des de l’àmbit dels professionals de la gestió documental i l’arxivament, dur a terme tasques de correcció i depuració.

Només així, assegurant la pertinència i disponibilitat de les dades, serà possible dur a terme una correcta explotació i reutilització, que permeti tant prendre decisions informades i conseqüents com aprofundir en l’eficiència d’unes administracions públiques cada vegada més capaces de centrar els seus recursos on tinguin més impacte en el servei a la ciutadania.

Així, les plataformes d’Administració Electrònica han de ser capaces d’oferir eines centrades a respondre a aquestes necessitats. Capturar i generar dades són característiques inherents a qualsevol aplicador, però no n’hi ha prou amb capturar dades en brut: hem de disposar d’armes i eines que facilitin i redueixin les habituals, però necessàries, tasques de contextualització, correcció i depuració.

En aquest context, estarem en disposició de reduir aquest elevat percentatge de l’esforç del processament previ de les dades obtingudes traslladant-lo a tasques que realment aportin valor a la seva anàlisi i explotació, i que fins i tot agilitin tant els temps requerits per a la seva disposició i representació com la reutilització en aplicadors integrats.

Disposició de reduir aquest elevat percentatge de l’esforç del processament previ de les dades obtingudes traslladant-lo a tasques que realment aportin valor a la seva anàlisi i explotació

Des d’aquesta perspectiva, quines eines tenim al nostre abast per treballar en la creació de dades de més qualitat des del disseny del mateix sistema que els genera? I quin paper hi tenim, els especialistes en gestió documental, arxivament i gestió de la informació?

Normalització, organització i context: competències de l’àmbit arxivístic

Més enllà de la mateixa experiència en la definició d’estructures i esquemes de metadades, el paper tradicional i coneixement concret dels professionals de l’arxivament i la gestió documental —si bé és cert que l’objecte d’aquests treballs estava plasmat en diferents suports no necessàriament electrònics— té incidència directa en la gestió, descripció, recuperació i processament a llarg termini d’elevats volums d’informació.

Diagrama gestió de dades

Les doctrines arxivístiques han aprofundit en la creació d’instruments i eines definides, precisament, amb aquests objectius. Sabem que aquest coneixement nascut en paper ja feia anys que s’anava traslladant a suport purament electrònic. I sabem, també, que és perfectament traslladable a l’àmbit de la gestió de les dades, estructuració de les dades, generació i processament de conjunts de dades, etcètera.

A més, és natural al nostre àmbit professional el coneixement profund dels objectes que generaran i recolliran la majoria de les dades produïts a qualsevol plataforma d’administració electrònica, producte de la tramitació administrativa. Les professionals de l’arxivament coneixen bé la relació i interacció entre les parts mínimes que componen els actius d’informació —les dades— i els documents que disposaran, representaran i, en darrer terme, mantindran els seus valors informatius intactes.

Aquest coneixement i tècniques tenen una aplicabilitat directa en el disseny de Gestiona pel que fa a la relació dels models de dades, els processaments i procediments que els contextualitzen, i els expedients i documents en què es representen.

La classificació i descripció normalitzada són tècniques que s’adeqüen tant al processament de documents com de dades i estructures de dades, que s’uneixen a l’experiència en la generació d’ontologies, diccionaris de dades i altres recursos referencials.

Els professionals de l’arxivament disposen, a més, del convenciment i les pautes de treball adequades, que tant han d’aportar en l’àmbit de la gestió de dades. Criteris de normalització i d’organització; ordenació i descripció com a eines davant de potencials desbordaments de captura i processament d’informació; contextualització des del disseny com a garantia de conservació i pertinència.

Aquest plantejament no implica —no podria ser de cap altra manera— erigir l’arxivament com a responsable únic respecte a la gestió i el processament de dades. Quan parlem de treballar amb dades, del seu disseny i de la definició de les interaccions dades-sistemes-documents, els professionals de la gestió documental tenen valuoses capacitats, competències i experiències, però no és un treball que s’hagi d’abordar de manera aïllada. Caldrà treballar braç a braç amb professionals de les Tecnologies de la Informació, amb científics de dades i, en un context d’administració pública electrònica, amb especialistes jurídics, on cada perfil sigui capaç d’aportar facetes valuoses de coneixement i experiència. Només així podran abordar-se els reptes inherents a aquest tipus de projectes.

Solucions metodològiques i solucions tecnològiques

En qualsevol cas, les eines tècniques i les plataformes d’administració electrònica han d’estar a l’altura de les exigències i necessitats plantejades per la correcta governança de les dades, i dels perfils encarregats de la seva captura i processament.

Cal disposar d’eines que facilitin la generació ordenada i contextualitzada de models de dades, i dels seus productes de conjunts de dades de la millor qualitat orientades, com es plantejava més amunt, a reduir les càrregues de treball derivades de la depuració de dades. Eines que permetin, en definitiva, utilitzar i portar a la pràctica des del disseny aquest coneixement i bones pràctiques existents en el nostre àmbit professional, i aplicar-los directament als processaments i procediments definits a la plataforma.

Per a la generació de dades de la millor qualitat, és vital disposar d’eines orientades al disseny d’estructures de dades que permetin:

  • Definir i establir de manera senzilla normes i regles de captura de dades específiques per a cada tipologia documental, i fins i tot per a cada dada individual, incloent-hi formats, validacions i límits (per exemple, camps Referència Cadastral o corresponents a un número de compte bancari, que disposen de les seves pròpies lògiques de validació).
  • Establir pautes de normalització de base per a determinades tipologies de dades, incloent-hi la selecció entre valors predeterminats o captures automatitzades en funció de la naturalesa de la dada.
  • Sistematitzar la relació entre processos, dades i documents, permetent la relació de categories i sistemes de classificació i facilitant així la contextualització dels models de dades definides a la plataforma.
  • Respondre a necessitats concretes derivades de la coexistència de diferents llengües oficials, oferint opcions de processament unitari independentment de l’idioma de captura utilitzat.

La combinació de pautes, coneixements i tècniques existents en l’àmbit d’arxivament amb eines tecnològiques enfocades en aquest àmbit tindrà com a resultat natural la generació d’estructures de dades preparades, des del seu mateix disseny, per a la producció de conjunts de dades pertinents, depurats, contextualitzats i més pròxims a la seva utilització, reutilització i explotació.

Compartir: