diumenge, 7 de juny del 2015

Anàlisi lexicomètric: metodologia seguida


Un anàlisi lexicomètric ens permet extreure dades d'un o més corpus de texts amb diferents eines o paràmetres com la freqüència d’ús de les paraules, les concordances (d'una sola o vàries paraules juntes) o les expressions regulars.

Per a fer aquest anàlisi seguim les directrius del nostre professor, en Joan Campàs, i utilitzem lAntConc, un software freeware, o el que és el mateix, un programa que ens podem descarregar gratuïtament des de la web del seu creador i desenvolupador, en Laurence Anthony. En aquesta pàgina podem trobar diferents softwares de l’AntConc amb tutorials que ens van bé per a entendre millor el seu funcionament, així com altres aplicacions i eines diferents. La versió que he utilitzat, adequada al meu ordinador personal i tenint en compte les actualitzacions, és  la de Macintosh OS X 10.7-10.10 (3.4.3).

Un cop instal.lat el programa és seguir les instruccions i tenir molt present que el corpus dels texts a analitzar han d'estar en extensió .txt o .html, així com vigilar en quina codificació es guarda el text. Aquest ha estat el meu principal problema, quan vaig esbrinar que havia de desar els texts (amb extensió .txt) en codificació Unicode UTF-8, la resta va ser senzill gràcies a les diferents indicacions aportades per en Joan o trobades a internet a on sempre hi ha gent disposada a penjar tutorials de qualsevol tema, com aquest.

Word List
Un cop adjuntat el corpus, el principal és saber totes les paraules que hi ha dins d'ell per a poder començar el nostre anàlisi lexicomètric. Un anàlisi que sempre dependrà d'aquelles paraules que ens interessin a nosaltres, per tant, abans hem de filtrar totes aquelles que fan "soroll", és a dir, que són molt assídues en el nostre vocabulari, però ens alteren l'ordre de paraules i no ens interessen en absolut.
Les paraules que eliminem a partir del filtre "stopwords" són: preposicions, articles, pronoms, conjuncions, adverbis, les formes verbals del verb 'ser' i 'estar', cardinals, ordinals.... i totes aquelles altres paraules que, a partir d'un primer anàlisi, no volem que apareguin i les incloem nosaltres mateixos en la llista de filtratge.
Així mateix, al introduir la llista de "stopwords", també hi podem indicar l'opció de "treat all data as lowercase" de manera que el programa no discrimini segons majúscules o minúscules. Amb aquesta opció totes les paraules tindran la mateixa consideració.


Concordance
Amb aquesta eina podem analitzar tots els contexts, i la seva intencionalitat, a on apareix una paraula concreta i ho podem fer amb diferents paràmetres:
    - indicant quina paraula concreta volem analitzar i amb “start” ens sorgeixen els diferents contexts del corpus de la paraula indicada, i aquesta ens queda centrada i remarcada en color blau:
 -  però, si el que volem és analitzar unes pautes més concretes, podem fer-ho a partir de “sort” i dient quantes paraules volem analitzar a la dreta o esquerra. Amb aquesta opció, la nostra paraula principal segueix en blau i la resta són remarcades en diferents colors :
Amb aquests dos exemples, però, veiem que si bé l'anàlisi troba 165 concordances per a la paraula 'dones', segons quina opció utilitzem l'ordre de classificació variarà. Aquesta variació és deguda a que, amb la 2ª opció, la segona paraula, la que segueix a 'dones', 'es ordenada per ordre alfabètic. En canvi, amb la 1ª opció l'ordre que es segueix és en l'ordre en que està dins el corpus analitzat. 

No obstant, hem de tenir sempre molt present que segons quin paràmetre escollim, el resultat se'ns pot alterar o variar. Així, per exemple, al cercar la paraula 'dona' en singular:
    - quan ho he fet per "words" m'ha cercat  tots aquells contexts a on apareix la paraula simple, 
   - i, en canvi, segons  regex”, que cerca els contexts de la paraula com expressió regular, m'ha capgirat l'anàlisi al incloure derivats del verb 'donar', com dona-t o dona-r, pel que he comprovat que és molt més fiable per a l'anàlisi el paràmetre de "word" si volem analitzar "dona" en referència al subjecte.
Així mateix m'ha passat amb la paraula 'mujer' al incloure dins el mateix anàlisi, fet amb "regex", mujer i mujer-es.


Concordance Plot 
Amb aquesta eina el programa ens mostra les concordances de paraules individuals, com 'dones', o un grup de paraules, com 'dones i homes', d'una manera més gràfica a partir d'un codi de barres i a on se'ns indica en quina posició apareixen dins del corpus.

Collocates
Ens permet saber quines són aquelles altres paraules, i amb quina freqüència, apareixen al costat de la nostra paraula analitzada. Ara bé, nosaltres li hem d'indicar un mínim i un màxim, a la dreta o l'esquerra. 

Clusters/N-Grams
Amb aquestes dues eines podem fer cerques més concretes al permetre'ns:
   - amb el Clusters, una llista ordenada d'agrupacions al voltant de la paraula que analitzem,
   - i, dins del Cluster, amb N-Grams crear grups de paraules d'una mida determinada.
Amb els mateixos paràmetres i paraula a cercar, els resultats són diferents amb aquestes dues eines.

I, un cop vist com funciona el software AntConc, en la meva propera entrada faré el meu anàlisi lexicomètric. He volgut fer-ho així, en dues entrades diferents, per dues raons:
  1. perquè al comparar dos blogs diferents, la llargària de l'anàlisi hagués estat considerable,
  2. perquè barrejar l'explicació de com funciona l'AntConc i fer l'anàlisi dels dos blogs hagués estat ferragós.

Cap comentari:

Publica un comentari a l'entrada