SOCIETAT CATALANA DE MATEMÀTIQUES

2. Informe de la SCM i proposta per a la branca catalana
Preàmbul: el projecte mundial DML

La recerca en matemàtiques es caracteritza enfront de la de les ciències experimentals per la seva dependència de la bibliografia erudita ja publicada. Aquest caràcter acumulatiu és un tret molt marcat: els resultats són vàlids sempre més, i els estudis del Science Citation Index mostren que els articles en revistes matemàtiques són citats durant una mitjana de temps molt alta, i que les citacions a treballs de més de deu anys d’antiguitat són habituals en totes les noves publicacions.

Com a conseqüència d’aquest caràcter acumulatiu, la Unió Matemàtica Internacional (IMU) va engegar recentment el projecte Biblioteca matemàtica digital (DML, Digital Mathematical Library), que pretén els objectius següents:

— digitalitzar tota la bibliografia matemàtica del món;
— extreure’n informació addicional (metadades: paraules clau…) de manera manual o automàtica;
— conservar-la per a la posteritat;
— posar-la a la Xarxa per a la seva consulta universal i gratuïta (o almenys molt econòmica) en els formats més pràctics.

L’IMU no pretén ni pot portar a cap aquesta tasca directament. L’objectiu del projecte DML és promoure projectes de digitalització a escala més petita, i treballar per la compatibilitat i l’accessibilitat dels seus fruits.

El que es proposa en aquest document és un d’aquests projectes per a digitalitzar la bibliografia matemàtica catalana i inserir-la en aquesta biblioteca matemàtica mundial, amb la col·laboració dels centres de digitalització més avançats de la Unió Europea.


Digitalitzacions en marxa

Projectes a Europa

—Projecte EMANI: hi col·laboren Springer-Verlag, la biblioteca de la Universitat de Göttingen, Cellule MathDoc i ELibM. Springer ha pagat per la digitalització d’algunes revistes seves (Mathematische Annalen…). La biblioteca de la Universitat de Göttingen (dipòsit de matemàtiques i altres àrees científiques a Alemanya) també ha digitalitzat molts fons propis i està molt avançada en temes de generació de metadades, arxivament… (responsable: Thomas Fischer). La digitalització de Springer l’ha fet una empresa ubicada a Bulgària (Lefkowitz and co., aviat Balkandata). Molt avançat tècnicament.
— Projecte NUMDAM: el projecte francès de digitalització de la seva documentació matemàtica, portat sobretot des de la Universitat de Grenoble. S’han digitalitzat, o es completaran el 2003, les principals revistes franceses (Publications Mathématiques, de l’Institut d’Alts Estudis Científics; Annuaire Scientifique, de l’Escola Normal Superior; Bulletin de la Societé Mathématique de France…), excepte Comptes Rendus per problemes legals i de coordinació. Molt avançat tècnicament.

Pel que fa al finançament i als temes de propietat intel·lectual, tant EMANI com NUMDAM es basen en l’acceptació pels editors de les revistes d’un sistema moving wall (l’accés a cada article és només per a subscriptors durant els primers cinc o deu anys, i esdevé públic un cop arriba a aquesta antiguitat).

La branca nord-americana de la DML va arrencar el 2002. Està finançada per la Fundació Nacional de Ciència i té com a objectiu la planificació, i proposa formats, estàndards i pràctiques per als projectes de digitalització en marxa (JSTOR, la biblioteca de la Universitat de Cornell…). Té vocació internacional, i compta amb nombrosos col·laboradors europeus del més alt nivell.


La proposta de projecte europeu DML-EU

És una proposta de projecte que cal presentar a la Unió Europea, dins del 6FP (Framework Program), perquè sigui la branca europea de la DML, que es duria a terme del 2003 al 2007.

El coordinador és R. Jeltsch (Institut Federal Suís de Tecnologia, de Zuric, expresident de la Societat Europea de Matemàtiques).

El projecte té la finalitat doble de facilitar la investigació científica i preservar el patrimoni històric.

Objectius

— Col·laborar amb els projectes europeus de digitalització matemàtica en marxa, per assegurar-ne la compatibilitat mútua i amb la resta de la DML i facilitar la participació dels publicadors comercials.
— Desenvolupar estàndards, catàlegs de millors pràctiques, i, sobretot, eines informàtiques per a la digitalització de la bibliografia matemàtica amb recuperació del text mitjançant el reconeixement òptic de caràcters (OCR), i per a la generació de metadades de manera automàtica a partir de paraules clau dels documents, les bases de dades de les revistes Zentralblatt i MathSciNet, i els enllaços a les referències bibliogràfiques citades reconegudes per OCR…

Mètodes

— Fixació d’estàndards i millors pràctiques per a l’escaneig en els primers mesos del projecte (fins a l’estiu del 2003).
— Creació d’un registre central de documentació digitalitzada a la biblioteca de la Universitat de Göttingen, seguint el model dels microfilms (aquest registre central serà el catàleg mundial de les matemàtiques).
— Desenvolupament d’un conjunt d’eines informàtiques per al reconeixement de text dels documents escanejats (OCR), amb el reconeixement de la bibliografia, la generació automàtica de metadades a partir de les revistes Zentralblatt i MathSciNet, la creació a partir dels TIFF escanejats de documents en format PDF, DVF, etc., que continguin la imatge del document però que reconeguin el text (només les fórmules són imatges), més les metadades i els enllaços, i l’arxivament unificat i d’accés estàndard universal.
— Digitalització d’una revista (unes vint mil pàgines) de cada membre del projecte, a fi de provar aquestes eines en diferents revistes i idiomes. Aquests membres es comprometen a engegar projectes nacionals/locals de digitalització de la seva bibliografia matemàtica, almenys de les parts més interessants actualment per a la recerca.

Cada membre tindrà dret a ser usuari-alfa i col·laborador amb els desenvolupadors d’una de les eines informàtiques (el repartiment s’ha de negociar).

La Unió Europea no finançarà la digitalització de la bibliografia matemàtica europea. Aquesta tasca es deixa als estats membres.

Administració

Les parts signants del projecte seran stakeholders significatius de tot Europa: biblioteques, universitats, acadèmies de ciències…


La biblioteca digital catalana de matemàtiques

S’ha ofert a la Societat Catalana de Matemàtiques formar, amb la Reial Societat Matemàtica Espanyola i la Societat Portuguesa de Matemàtiques, un consorci ibèric, que podrà participar com a soci del nivell més alt en el projecte DML-EU, tindrà accés a les eines informàtiques del projecte des de la fase de desenvolupament i podrà digitalitzar vint mil pàgines a càrrec del projecte, a canvi de promoure la digitalització de la bibliografia matemàtica en el seu àmbit geogràfic, amb finançament local i segons les especificacions del projecte DML-EU.

La participació consorciada i plurinacional és aconsellable per a ser membres de nivell màxim del projecte, malgrat el nostre endarreriment en la digitalització de la bibliografia matemàtica respecte als projectes europeus abans esmentats.

Les accions que s’han d’emprendre són:

Copyright: cal que les revistes matemàtiques catalanes autoritzin la digitalització dels seus fons i que permetin accedir-hi a través d’Internet lliurement, o almenys amb un sistema de moving wall (els articles passen al domini públic al cap d’uns quants anys d’aparèixer).
Digitalització d’aquests fons de bibliografia matemàtica. Es pot fer aquí o contractar una empresa especialitzada en bibliografia matemàtica. Aquest tema dependrà del pressupost disponible per al projecte i està en estudi amb el Consorci de Biblioteques Universitàries de Catalunya (CBUC) i el Centre de Supercomputació de Catalunya.
Arxivament d’aquests recursos digitalitzats, de manera accessible i durable. A més, ha de ser factible per a les grans universitats catalanes i per al CBUC, perquè entre tots suporten ja un volum de dades per web més gran que el que generarà aquest projecte.

Pel seu caràcter de preservació i accés a la informació, s’està buscant una gran biblioteca / institució de documentació que signi la sol·licitud de projecte europeu en nom del consorci ibèric.

Donada la digitalització inexorable de tota la informació escrita, l’adopció d’aquest projecte a Catalunya és interessant independentment de la marxa del projecte europeu DML-EU, ja que permetrà portar a cap aquesta digitalització amb una relació òptima entre cost i valoració científica de la nostra bibliografia matemàtica.


Aspectes tècnics: digitalització, arxivament, drets d’autor

Per a la digitalització es proposa seguir els estàndards recomanats pel projecte DML nord-americà (Rehmann et al.), amb uns retocs proposats pel projecte DML-EU (presentació d’Ulf Rehmann a la reunió de Berlingen). Aquestes propostes es poden resumir en els punts següents:

— Primer nivell de digitalització: escaneig de la documentació en un format de qualitat, de domini públic i arxivada perpètuament a les biblioteques.
— Segon nivell de digitalització: reconeixement per OCR del text, creació de fitxers d’accés públic i pràctic amb aquest text inserit com a camp, més metadades específiques de les matemàtiques afegida, com ara enllaços a les referències bibliogràfiques citades, a les bases de les revistes Zentralblatt i MathSciNet

L’arxivament i l’accés han deixat de ser un problema gràcies al progrés de la tecnologia de la informació. El volum actual de dades de la biblioteca matemàtica mundial s’estima en 10.000 Gb, i el que generarà a Internet pot ser suportat per la xarxa existent actualment a Catalunya. No es preveu que el creixement de la biblioteca excedeixi el progrés de les xarxes informàtiques en el futur proper.

Els drets d’autor i la sostenibilitat econòmica del projecte estan lligats, ja que els primers pertanyen a les cases editorials, que a canvi asseguren la difusió de la bibliografia científica. El model econòmic de l’edició de textos científics està canviant radicalment, amb un protagonisme creixent de les universitats i dels mateixos científics gràcies a la simplificació de les tasques d’edició. Totes les revistes matemàtiques catalanes que hom proposa digitalitzar són editades per universitats i altres institucions públiques que seran grans beneficiàries de la gratuïtat i la universalitat d’aquest projecte. L’abaratiment constant de la tecnologia de la informació també fa viable el manteniment de la biblioteca matemàtica mundial per les biblioteques públiques i les universitats en el futur previsible.

Twitter