vineri, 4 februarie 2011

Culturomica sau răsfoitul cărţilor pe neve

Titlul postării de azi nu se referă, oricât ar părea de ciudat, la obiectele pasiunii cartoforilor, ci la cărţile de citit, acelea care se pot găsi în rafturile bibliotecilor acolo unde mai există aşa ceva. În anii din urmă, odată cu extinderea spectaculoasă a internetului, unii cititori pasionaţi au avut impresia că au să-l apuce în curând pe Dumnezeu de picior şi au să capete acces online la toate cărţile din lume. Un fel de vis al lui Pico de la Mirandola tradus în limbajul bibliomanilor. Speranţele au crescut odată cu anunţarea proiectului firmei Google de a digitiza şi de a pune la dispoziţia celor interesaţi întregul corpus tipărit al omenirii, cunoscut de pe acum sub numele de Google Books. După cum ştim acum, acest proiect ambiţios şi, după unii, foarte generos, s-a lovit de dificultăţile legate de copyright, căci mulţi editori şi autori au dat în judecată compania americană, considerându-se lezaţi în drepturile lor de autor.


Ideea de a ocoli stufărişul legal şi de a face totuşi ceva cu volumele digitizate de Google a avut-o Erez Liberman Aiden, un doctorand în genomică la Universitatea Harvard, care a propus utilizarea cărţilor pentru a construi o gigantică bază de date în care să se poată face căutări şi, desigur, studii statistice, fără a avea acces direct la textul lucrărilor şi fără a viola astfel legea. De aici ideea de neve de la care plecasem. Google a fost de acord cu ideea şi a dat lumina verde pentru realizarea bazei de date, o aşa-numită n-gramă, adică o cartografiere a contextului şi frecvenţei de apariţie a cuvintelor în texte. În acest moment ea conţine 2 trilioane de cuvinte provenite din 15 milioane de cărţi, ceea ce reprezintă circa 12% din totalul cărţilor apărute de la Gutenberg încoace. Software-ul şi analiza au fost realizate de o echipă interdisciplinară de informaticieni şi lingvişti (din cei din urmă e suficient să-l pomenesc pe celebrul Steven Pinker).

Primele rezultate ale cercetărilor întreprinse au fost surprinzătoare. S-a constatat, de pildă, că în cărţile investigate există, după expresia lui Pinker, o mare cantitate de „materie lexicală întunecată“, adică cuvinte care nu figurează în dicţionarele publicate (a se observa analogia cu termenul folosit în genetică pentru materialul cromozomial care nu codifică în aparenţă niciun aminoacid). Dacă e să iau un exemplu din limba engleză, cercetătorii au observat că nici măcar cuvinte în aparenţă banale, precum „deletable“ nu se regăsesc în niciun dicţionar. N-gramele au fost folosite şi ca barometru al unor fenomene culturale. S-au studiat pe baza frecvenţei de ocurenţă, termenii „Charles Darwin“ şi „Sigmund Freud“, iar rezultatul a fost că Freud pierde teren, iar Darwin, dimpotrivă, avansează în preferinţele autorilor şi a ajuns chiar să-l depăşească pe cel dintâi în 2005. Aceste studii culturale bazate pe date statistice au fost demunite „culturomică“ de Aiden şi colaboratorii lui. Analogia cu termenul „genomică“ e evidentă.

Baza de date e departe de a fi completă şi deocamdată e disponibilă pentru un număr restrâns se limbi de circulaţie internaţională. Pe pagina de web http://www.culturomics.org/ găsim însăşi jucăria şi ne putem amuza cu ea. Eu am studiat evoluţia frecvenţei termenilor „nigger“, „negro“ şi „black“ în engleză (etichete cu potenţial exploziv pentru adepţii corectitudinii politice). Rezultatele sunt cele aşteptate: „nigger“ nu s-a bucurat niciodată de o prea mare popularitate în cărţi, fiind probabil considerat prea ofensiv, iar „negro“, după ce a cunoscut o perioadă de glorie între 1960 şi 1980, a început să decadă în deceniile din urmă în favoarea lui „black“. Asemenea analize culturomice sunt, desigur, imperfecte şi criticabile din punct de vedere lingvistic, iar cine e interesat poate citi o listă destul de consistentă de critici chiar pe pagina proiectului. Orice s-ar zice însă, studiile statistice au un viitor interesant în lingvistică. Cine e interesat poate citi una din cele mai interesante apariţii în domeniu, cartea lui Joan Bybee Frequency of Use and the Organization of Language.

Ce concluzii am putea trage pentru limba română? Destul de simplu, niciuna, pentru că limba noastră, nefiind una de largă răspândire, nu face obiectul proiectului culturomic. Putem desigur să intuim unele concluzii legate de materia lexicală întunecată. Bunăoară ediţiile DEX din anii 1990 nu înregistrează cuvântul „dischetă“ şi asta într-o perioadă care a reprezentat epoca de glorie a dispozitivului, iar vorba era pe buzele celui mai dinamic segment al societăţii, utilizatorii de calculatoare. În paranteză fie spus, la Institutul de Lingvistică al Academiei se lucra (se mai lucrează încă?) pe bază de fişe de carton, iar calculatorul era ca şi inexistent ca instrument de lucru. Noroc că „dischetă“ a apărut în ediţiile mai noi, că tot a ieşit din uz obiectul. Vom avea un arhaism mai mult, alături de „giubea“ sau „capuchehaie“

PS Textul de azi mi-a fost inspirat de articolul lui John Bohannon din numărul pe decembrie 2010 al revistei Science. Ilustraţia utilizată este luată din corpul articolului.

12 comentarii:

Yuki spunea...

interesant noul device, dar bun doar ca jucarica. Pe de o parte sunt de acord ca o analiza a frecventei cuvintelor poate spune ceva despre o perioada; pe de alta parte...cititorul din mine se razvrateste cand cartile sunt 'despuiate' pana la nivel de virgula si striga: blasfemie!! :)

Micawber spunea...

@ Yuki

Aceste 'jucarii', in masura in care se perfectioneaza si se dezvolta instrumente eficiente de dezambiguizare, ne pot spune multe nu doar despre evolutia unor configuratii culturale, ci si despre anumite trasaturi ale limbajului.

Studiile cantitative (mai precis, cele de frecventa a ocurentei in discurs) constituie azi baza explicarii unor fenomene cunoscute de multa vreme (inca de la Scoala de la Praga, trecand prin Jakobson si Greenberg), cum ar fi asa-zisul caracter marcat al unuia din termenii unei opozitii. Cartea lui Bybee la care ma refeream in postare e o lucrare foarte interesanta in sensul asta. Cat despre 'cititorii din noi', nu pot vorbi in numele altora, dar cel din mine e mai putin sensibil si nu se supara daca textele sunt luate nitel la puricat, dimpotriva.

Yuki spunea...

sa luam un exemplu tampit si absoult inventat, dar perfect valabil: sa zicem ca jucarica are la dispozitie 50%-sau si mai bine 90% din cartile disponibile. Si ne apucam cu ea sa cautam cuvantul 'batista'. Ce-o sa descoperim? Pai probabil ca acest cuvant a fost foarte folosit prin secolele 18,19, 20 si aproape a disparut din vocabular in secolul 21. Perfect adevarta, in secolul 21 toata lumea foloseste servetele de hartie care sunt mai igenice.
Dar cat intels nu se pierde doar prin aceasta analiza care nu imi spune nimic despre utilizarea batiseti, semnificatia unei batiste cu monograma, sau parfumul unui batiste uitate pe o banca in parc.

Analizand cuvinte, adevarat, aflam multe, dar cumva le deposedam si de intels :)

Micawber spunea...

@ Yuki

Dupa cum ziceam, lucrurile sunt perfectibile. De pilda, daca baza de date-text este 'tagged', adica daca fiecarui element i se poate atasa o eticheta care sa cuprinda informatii morfo-sintactice si lexicale (asemenator lemei de dictionar), cautarile au mai mult sens. De asemenea, multe din problemele pe care le ridicati se pot rezolva daca exista posibilitatea de a efectua cautari in vecinatati de n cuvinte distanta de termenul-tinta, adica pe baza de colocatii. In felul asta putem distinge de pilda intre "batista" de sters la nas sau "Batista", care poate fi numele dictatorului care l-a precedat pe Fidel Castro in Cuba sau intre "broasca" de la usa si "broasca" din lac. In fine, subiectul e deosebit de complicat si exista o ramura intreaba a lingvisticii (asa-siza lingvistica computationala) care se ocupa de asemenea maruntisuri. Nu cred ca deposedam cuvintele de inteles, mai degraba facem un efort suplimentar de a-l descrie cu metode stiinfitice, un obiectiv cu totul respectabil.

marul spunea...

ideea era sa ne spui ce-ai mai citit , nu ce-ai mai ... tastat .

Micawber spunea...

@ marul

Nu stiu de unde ati dedus dvs. care era 'ideea', dar cert e ca pentru a scrie postarea trebuia sa citesc artocolul din Science, ceea ce am si facut :)

In ceea ce va priveste, exista desigur si optiunea de a nu mai intra la mine pe blog si de a cauta doar acele bloguri care - desigur - isi tin promisiunea.

PisicaConsternata spunea...

sau -- de pilda -- cand wittgenstein spunea .. despre ce nu se poate vorbi(i) trebuie sa se taca --ceaikovski afirma ca..
la randul sau a fost inspirat de victor hugo atunci cand a "compus" pt ca ..
el a inteles cam asa :

despre ce nu se poate vorbi(i) este imposibil sa se taca ..
cam asa ii intelegem pe "artisti" ..
adica -- pe cei care folosesc tonul .. hartia .. acuarela .. etc
PA !
vaai.. ce definitii plate si seci ne ofera stiinta ! ma rog !

Micawber spunea...

@ PisicaConsternata

Ca sa va scot din dilema, in contextul dvs. se scrie "vorbi", cu un singur i.

Cat despre definitiile "plate si seci" oferite de stiinta, sa nu uitam ca daca nu era stiinta asta blamabila nu aveam azi calculator sau internet ca sa facem comentarii.

eva spunea...

,,De cand izbucnise peste tot, in toate domeniile, aceasta nepotolita sete de innoire, aceasta neostoita pofta de actiune, aceasta furie a experimentului, aceasta epidemie a comertului in stil mare, a transporturilor si stiintelor in stil mare! La ce bun toata multimea de strazi noi insailate acum peste tot, si toate podurile noi? La ce bun? Ce folos sa se poata ajunge intr-o saptamana pana la Lyon? (…) Sau sa treci Atlanticul, sa gonesti intr-o luna pana in America - de parca nu s-ar fi descurcat oamenii secole intregi si fara acest continent. Ce sa caute un om civilizat in jungla indienilor sau la negri?'' Giusseppe Baldini în 1753, din romanul ,,Parfumul'' de Suskind( preluat de pe Tiuk)

,,Înnoirile'' culturale sunt mereu cu dus şi cu întors. Mie mi-a atras atenţia ce scrii tu despre neliniştea editorilor de cărţi. Au de ce să se neliniştească, zău.

NapoleonDinParte spunea...

Micawber :

zau asa .. stiinta nu e blamabila !
dar oamenii de stiinta care ii trateaza pe aialati oameni ca pe niste obiecte .. cifre.. litere .. cratime.. virgule .. etc
au si ei o definitzie "in sine" !

pt ca :

atunci cand zic "batista" .. de expl. ma gandesc poate la un nas lovit din care curge sange .
ma gandesc la boala .. sau la muci .
ma gandesc la emotii .. sau la lacrimi .. de fericire /sau de tristetze .. la tristetze .. etc .. nu neaparat la un dictator mort ...

dar cand zic havana .. ma gandesc poate la un trabuc si la un dictator .. sau poate doar la un penis .. depinde de "context"

PA!

da ! daca stiintza atata intentioneaza doar intermedierea comenturilor e super :)))))))))))))

Micawber spunea...

@ Eva

Acum un an eram mai putin tentat sa cred ca ne asteapta niste 'innoiri' din astea cat de curand. Nu am de unde sa stiu cat de nelinistiti sunt editorii, dar probabil ar avea motive sa fie. E insa treaba lor si e una din ultimele mele griji.

Micawber spunea...

@ NapoleonDinParte

Un fel de dragoste pentru tradare, ura fata de tradatori, daca pricep bine. Dar nu-s sigur ca inteleg ceva din comentariul dvs.