Administració

corpus

Projecte pilot de corpus de la llengua de signes catalana (LSC)

 

Benvinguts! Aquesta és la pàgina web del projecte pilot de corpus de la llengua de signes catalana (LSC). Aquest projecte pilot té una durada inicial d’un any i servirà per establir les bases del futur projecte del corpus de la LSC.

 Un corpus és una col·lecció representativa d’exemples d’una llengua en format llegible per una màquina, que s’utilitza per a estudiar el tipus i la freqüència d’unitats lingüístiques. A més, constitueix una representació àmplia de la llengua i de les seves varietats geogràfiques, de registres i generacionals. Quant als corpus en llengua de signes, es caracteritzen per ser col·leccions de vídeos anotats que contenen material escrit alineat amb les dades principals en llengua de signes. També constitueixen una mostra representativa de la llengua en qüestió.

 

El benefici principal que aquests tipus de corpus presenten és preservar la llengua de signes com a part important del patrimoni social i lingüístic d’una societat. És important destacar que la iniciativa que presentem aquí compta amb el valuós precedent de projectes semblants d’elaboració de corpus d’altres llengües de signes europees que es troben davant de mancances comparables. Així, als Països Baixos, al Regne Unit, a Austràlia, a Alemanya, a Irlanda i a Itàlia, ja s’han constituït projectes de corpus per a les respectives llengües de signes del país i es troben en fase de construcció, anotació i finalització, segons el cas. L’experiència acumulada en aquests projectes, a la qual tenim accés per les col·laboracions existents amb alguns dels seus responsables, ens permetrà d’avançar encara amb més solidesa i eficiència en la constitució del corpus de la LSC sobre la base de criteris fiables.

L’any 2007, l’IEC, la Federació de Persones Sordes de Catalunya, la Universitat Pompeu Fabra, la Fundació Barcelona Media i Linguamón van prendre la iniciativa de col·laborar de cara a crear un corpus de referència de la LSC. En aquell moment, però, la falta de finançament no va permetre dur endavant el projecte. L’any 2012 l’Institut d’Estudis Catalans va oferir la possibilitat d’iniciar un primer projecte de constitució de corpus amb una fase preparatòria i una prova pilot. Això ha estat possible gràcies al suport del Departament de Política Lingüística de la Generalitat de Catalunya i a una subvenció de l’Obra Social “La Caixa”. 

 

Els objectius principals d’aquest projecte de constitució de corpus són els següents. En primer lloc, documentar l’estat actual de la LSC mitjançant una mostra àmplia i representativa de diferents tipus de discurs signat. En segon lloc, fer una anotació bàsica i descriptiva i posar en línia part del corpus com a material accessible que pot ser utilitzat amb finalitats de recerca, educatives o de consulta per part d’usuaris. En tercer lloc, oferir una eina útil per a la recerca tant teòrica, ja que es comptarà amb un conjunt de dades anotades que permetran fer descripcions i anàlisis per conèixer millor la gramàtica i el lèxic de la LSC, com aplicada, ja que servirà com a punt de referència en la creació de diccionaris i bases de dades o en els programaris de traducció automàtica. Aquest corpus serà una contribució important que aportarà les bases per a l’estandardització de la llengua de signes, tant des d’un punt de vista lingüístic, com de cara a l’establiment d’uns criteris metodològics compartits, tot fixant unes convencions d’anotació.

Aquest projecte pilot consta de dues fases, la preparatòria i la d’execució. Durant l’etapa preparatòria, es determinaran els materials d’elicitació necessaris, s’especificaran els perfils lingüístics de signants que cal enregistrar per tal que el corpus sigui representatiu, tot tenint en compte aspectes com ara l’edat, el sexe, la distribució geogràfica, l’escolarització, etc., i es farà un treball de camp per determinar els punts de recollida de dades, a través d’associacions i contactes personals dins la Comunitat Sorda. També es determinaran els criteris d’anotació inicial del corpus, així com els requisits tècnics per a la constitució del corpus definitiu, com per exemple el servidor, el programari de codificació, la interfície web, etc. A més s’elaborarà un pla de difusió i informació del projecte de corpus durant el seu període d’execució. Finalment, s’elaborarà un protocol ètic de cara a la recollida, el processament, l’emmagatzematge i la distribució de les dades enregistrades.

El procés d’execució de la prova pilot es divideix en tres fases. En la primera, per a la recollida de les dades es determinarà la ciutat o poble de Catalunya on es faran els primers enregistraments. Se seleccionaran els sis signants nadius i l’entrevistador sord utilitzarà materials d’elicitació i guiarà els temes de conversa. La segona fase consisteix en l’anotació del discurs signat i en la transcripció al català oral dels enregistraments. Després d’un període d’entrenament, es procedirà a l’anotació detallada, on es provaran dues eines amb aquesta utilitat, l’ELAN i l’iLex. Es farà la traducció al català escrit i es farà la corresponent revisió de l’anotació i de la transcripció. La tercera fase consisteix en l’avaluació, tant de la fase de recollida de dades i dels materials i les tècniques d’elicitació, com de la fase d’anotació.

L’equip del projecte pilot de corpus de la LSC el componen un equip directiu i un equip tècnic. L’equip directiu està format pel director, en Josep Quer; la coordinadora, la Gemma Barberà i l’expert sord, en Santiago Frigola. L’equip tècnic està format pels experts sords anotadors, un intèrpret i un expert en eines d’anotació. Els signants sords proporcionaran les dades signades.