Ce și Cum?

Aici avem un experiment care s-ar putea dovedi util: Transformarea unui text folosind Machine Learning. Nu te speria! Textul e scurt și nici nu contează că nu ești de formație tehnică. Poți citi în continuare. Nu vei pica într-o nebuloasă. Deși mintea mea e "matematică", mă descurc binișor și cu limba română. Pot expune un concept tehnic, fără să fac uz de noțiuni extraterestre.

Problema

De curând, m-am trezit că trebuie să convertesc multe texte în varianta corectă și modernă. Sunt fără diacritice sau datează de dinaintea lui DOOM2. Aș putea să le transform manual, însă presupune să le citesc integral și nu-i nimic interesant în ele. Și-apoi, volumul e foarte mare.

Șiii... Evrika!

Am găsit pe Internet soluții care spun că fac asta. Însă, pe cât de repede am țâșnit fericit ca Arhimede din apă, pe atât de repede m-am scufundat la loc. Aplicațiile astea se descurcă, însă nu așa cum doresc eu. E ca la detergent. "Scoate cele mai frecvente 99 de pete!" Mirobolant! Dar cămașa mea, după nunta la cort, mustește de pete din intervalul 100-137.

Aplicațiile înlocuiesc cu precizie doar cuvintele care au o singură formă validă - cea cu diacritice. În cazul cuvintelor unde există ambiguități, ele sunt înlocuite cu varianta cea mai des întâlnită. E ușor să presupun că ele folosesc doar un vocabular dintr-o bază de date + metoda statistică. Superficial!

Există totuși o aplicație care se distinge prin ineditul conceptului și prin precizie mai bună. Din păcate, e nefinisată. Transformă chiar și cuvinte care nu există în formă cu diacritice. Iar când face confuzii, e incapabilă să ofere sugestii. Este o soluție pur matematică și nu cunoaște deloc limba română.

În concluzie

Am realizat propria aplicație. O puteți folosi și voi gratuit. Nu am muncit pe brânci și nici nu m-am apucat să studiez morfologia. Strategia mea în chestiunea diacriticelor e surprinzător de simplă. Punerea în operă, a însemnat doar un antrenament al minții, așa... ca o partidă de GO. A durat numai un weekend-lumină, împreună cu prietenii Jakobs și Skittles.

Abordarea mea

Desigur, e "outside the box". E lipsit de sens să folosesc o bază de date. Transformarea brută, bazată pe un vocabular predefinit, e imprecisă. Abordarea corectă este analiza. Și cum nicio analiză nu poate face abstracție de context, Diacritice.info studiază contextul. Este o aplicație de Machine Learning ce învață să deducă contextul în care apare cuvântul. Se autoinstruiește citind zilnic cel puțin trei cărți și noutățile din câteva publicații online. Eu nu intervin cu nimic. Își definește singură regulile... doar citind continuu în limba română. Simplu!

De ce așa?

Primul impuls al unui programator, este să automatizeze în modul cel mai direct cu putință. Să afle repede unde se pun semnele diacritice. Pare logic, nu-i așa? Ei bine, nu! E greșit să încerc să determin unde se pun niște semne. Importantă este identificarea cuvântului potrivit contextului. Pentru Diacritice.info, casă este un cuvânt de sine stătător, nicidecum nu-i casa cu un semn deasupra. Transformați acest text banal La mine-n casa toarce mata. In casa din lunca e frumoasa mea. In casa de langa, e o alta frumoasa, da' i-a lui Gheorghita. și veți descoperi cum toarce mâța, cum casa și frumoasa sunt potrivite în context, iar vecinul Gheorghita și-a primit și codița și căciulița.

Precizia aplicației

Deși net superioară celorlalte aplicații, precizia nu a atins încă nivelul pe care-l doresc (vezi curba învățării). Mai face confuzii și nu se descurcă perfect cu numele proprii. Ca nivel academic - dacă pot să spun așa - Diacritice.info se apropie de gimnaziu. Dar pentru că se mișcă supersonic, nu are vacanțe și nici pauze în curtea școlii, estimez că în 2022 se va înscrie la Master. Precizia crește continuu, pe măsură ce analizează tot mai multe cărți din toate domeniile. Condiția este să primească materiale scrise corect. Dacă nu sunt atent, și-i dau să citească vreo lucrare de bac de la Liceul Agricol, i-am stricat tot "Feng Shui-ul".

Lipsuri

Oricât de mult ar învăța, în acest moment, nu cred că aplicația va putea rezolva întotdeauna cu precizie anumite cazuri. Mă refer la ambiguitățile generate de câteva cuvinte care au foarte multe forme în variantă cu diacritice. De exemplu: fata, fața, față, fată, fâța, fâță, fătă, făta. Mă voi mai gândi la asta. Orice hibă are cel puțin o soluție. Oricum, va rămâne deschisă problema onomatopeelor. Computerul nu reușește să intuiască ce vrei tu să spui cu Bâldâbâc, bâzzz, vâjjj!.

Contribuția ta

Diacritice.info învață și prin interacțiunea cu utilizatorul. Opinia ta conteaza! Poți contribui la dezvoltare foarte ușor. Ori de câte ori faci o corecție sau apeși(evaluare), ajuți aplicația să se dezvolte. Desigur, e bine ca textul introdus să aibă un sens. Dacă introduci doar o înșiruire de cuvinte fără noimă sau te gândești să diacritizezi Ca sa vezi! Bufnita de la 2 e tot de garda.... astea nu prea sunt de folos. De asemenea, primesc bucuros criticile sau observațiile tale pe Email.

Ce urmează?

Păi... Nimic deosebit! Aplicația e ca la un pension de fete, în recluziune. Nu face altceva decât să învețe. Are de citit din toate domeniile: beletristică, istorie, filozofie, geografie, arte, religie, științe etc. Acum aștept să văd rezultatele, să-i crească precizia. Și mă rog la zeița Higia, să nu i se scurtcircuiteze neuronii la lucrările lui Stephen Hawking. Hai... Să avem cu toții o zi frumoasă!

Actualizat:
10-Iunie-2021, Joi 22:18:23

Diacritice. INFO

Textele introduse pentru conversie nu sunt salvate sub nicio formă. Utilizez doar module cookie strict necesare pentru funcționarea aplicației. Informațiile tale nu sunt stocate. Politica de confidențialitate este simplă: Nu colectez și nu distribui informații personale. Continuând să utilizezi acest site, ești de acord cu felul în care folosesc cookie-urile.

Precizia Curba învățării

curba invatarii
Momentul actual
Actualizat: 10-Iunie-2021, Joi 22:18:23

Se observă că în debut, precizia a crescut rapid. Creșterea va continua, însă ritmul ei va scădea pe măsură ce precizia se apropie de maxim. Volumul de lectură necesar va deveni tot mai mare pentru fiecare procent în plus.

Trupa TAXI
Karma, zenu' și feng shuiu'
Dicționar ortografic, ortoepic și morfologic al limbii române, ediția a II-a revăzută și adăugităAcademia Română, Institutul de Lingvistică
emptycaretup
spinner