Projekto tikslas: Parengti ne mažiau kaip 10 mln. žodžių nuasmeninimo tekstyną, kuriame būtų sužymėtos BDAR aktualios įvardintos esybės (angl. named entities), atspindinčios bendrą asmeninę informaciją apie realaus pasaulio asmenis, tokiu būdu sudarant galimybes tekstyną naudoti automatizuotam duomenų anonimizavimui/ užkodavimui pagal BDAR reikalavimus ir mašininio arba giliojo mokymo technologijų sprendimų apmokymui.
Projektu sprendžiamos problemos: Nacionalinės kalbos tekstynas su anotuota ir nuasmeninta jautria informacija yra svarbus dėl kelių priežasčių, apimančių lingvistinius, edukacinius, kultūrinius, technologinius ir politikos formavimo aspektus. Todėl projekto metu bus sprendžiamos šios problemos, kas bendrąja prasme prisideda prie šalies socialinio-ekonominio ir kultūrinio vystymosi:
1) Nėra lietuvių kalbos tekstyno, kuriame būtų įtraukta Bendrojo duomenų apsaugos reglamento (toliau – BDAR) ribojama informacija ir atitinkamai suanotuota pagal esybes;
2) Nėra sukurtos metodikos, kuri maskuotų BDAR ribojamą informaciją, pakeičiant ją atsitiktine tos pačios rūšies informacija. Šių problemų sprendimas yra svarbus dėl šių priežasčių:
- a) Lingvistiniai tyrimai ir nacionalinės kalbos išsaugojimas, kas sudaro galimybes kalbą dokumentuoti įvairiuose kontekstuose, ją viešinti, tyrinėti tarmes, kalbos
specifiškumą ir išsaugoti jos tapatumą;
- b) Technologinė ir inovacinė plėtra, apimanti sritis, kuriose diegiami natūraliosios kalbos apdorojimo algoritmai ir kuriami dirbtinio intelekto modeliai leidžiantys vystyti kalbos ir teksto technologijas tokias, kaip mašininis vertimas, pokalbių robotai, šnekos atpažinimas ir pan.;
- c) Ekonominė vertė, kuri kuriama atliekant rinkos tyrimus ir planuojant verslo plėtrą, gerinant komunikaciją su vartotojais, tobulinant rinkodaros strategijas, gerinant pasitikėjimą per skaidrumą ir pan. Taip pat ir įvairūs komerciniai sprendimai, kurie kuria vertę naudojant duomenų (teksto ir šnekamosios kalbos) pagrindu apmokytus dirbtinio intelekto metodus;
- d) Moksliniai tyrimai, apimantys sukurto tekstyno naudojimą įvairiose srityje, kaip pavyzdžiui, juridinė lingvistika, viešoji lingvistika, psichologinė lingvistika. Atitinkamai mokslininkai gali analizuoti tekstus, kurti modelius naudojant tekstyną, formuluoti įvairias hipotezes ir skelbti tyrimų įžvalgas;
- e) Politikos formavimas yra neatsiejamas nuo informacijos sklaidos ir dokumentacijos, todėl jautrios informacijos maskavimas yra būtinas viešinant aktualią informaciją;
- f) Edukaciniai ištekliai ir mokymo programos, kurias skaitmenizuojant yra svarbu nuasmeninti jautrią informaciją;
- g) Daug jautrios informacijos turinčių duomenų skaitmeninimas ir jų pagrindu dirbtinio intelekto modelių kūrimas, kuris yra ypač būdingas specifiniuose sektoriuose tokiuose, kaip medicina, teismų praktika, verslo sprendimai ir pan.
Šiuo metu egzistuojantys didžiausi vienkalbiai lietuvių kalbos tekstynai yra:
- Dabartinės lietuvių kalbos tekstynas (anotavimo nėra, 140,9 mln. žodžių)
- CORPUS.VDU.LT (anotavimas morfologinis, 208,4 mln. žodžių)
- MATAS (anotavimas morfologinis, 1,6 mln. žodžių)
- ALKSNIS 2.0 (anotavimas sintaksinis, 2355 sakiniai)
- ALKSNIS 3.0 (anotavimas sintaksinis, 3643 sakiniai)
- DELFI tekstynas (anotavimas morfologinis, 70 mln. žodžių)
Šiuose tekstynuose duomenų maskavimas pagal BDAR nuostatas nėra įtrauktas, kas taip pat pagrindžia tyrimo aktualumą ir suformuluotų problemų sprendimą. Įsigaliojęs BDAR riboja tekstyno kūrimą, kai jame įtraukiami asmeniniai duomenys ar bet kokia jautri informacija, bei jo taikymą įvairiose srityse dėl tokių reikalavimų kaip duomenų nuasmeninimas, informuoto sutikimo gavimas, aukštų saugumo reikalavimų, skaidrumo ir atskaitomybės ir pan. Šie reikalavimai apsaugos asmens privatumą, tačiau tai didina tekstyno kūrimo sudėtingumą, kainą, išteklių poreikį ir įveda daug ribojimų. Kaip alternatyva, pats BDAR rekomenduoja asmeninių duomenų anonimizavimą, kas bendrąja prasme yra sudėtingas uždavinys, nes asmenys dažnai gali būti identifikuoti per netiesioginius identifikatorius ar kontekstinę informaciją. Tuo pačiu turi būti užtikrinamas teksto vientisumas ir rišlumas, kas ypač aktualu lietuvių kalbai dėl jos specifiškumo. Todėl atitinkamai būtina integruoti papildomas apsaugos priemones ir informacijos apdorojimą, kad būtų galima tekstynu naudotis ir juo dalintis viešai. Būtent į tai bus projekto metu atsižvelgiama, sprendžiant antrąją problemą, kuomet bus maskuojami atitinkamos esybės, atsižvelgiant į BDAR, ir specialiųjų kategorijų duomenys išlaikant pradiniams duomenims būdingą kontekstą ir savybes, kaip originalus tekstas. Moksliniai tyrimai šioje srityje yra vis dar vystomi ir iš anksto nėra aišku, kuris metodas leis pasiekti reikalaujamus validavimo kriterijus. Esybių identifikavimui taikyti metodai yra įvardytų esybių atpažinimas (angl. named-entity recognition), reguliariosios išraiškos (angl. regular expressions), žodynu-pagrįsti (angl. dictionary-based), taisyklėmis-pagrįsti (angl. rule-based) ir kiti (ne)prižiūrimojo mokymosi algoritmai. Šių esybių maskavimui bus naudojama metodika, pakeičiant tos pačios rūšies informaciją atsitiktine informacija. Čia taip pat nėra iš anksto žinoma, kokį randomizavimo metodą panaudoti siekiant tenkinti apsibrėžtus validavimo kriterijus. Taikytų metodų pavyzdžiai yra iškraipytų duomenų įterpimas (angl. noise addition), perstatymas (angl. permutation) ar diferencinis privatumas (angl. differential privacy). Taip pat labai svarbu atlikti ir kontekstinę informacijos analizę, siekiant įvertinti teksto vientisumą ir rišlumą. Kiek mums žinoma, lietuvių kalbai tokia metodika, kuri atsižvelgtų į BDAR reikalavimus, nėra sukurta. Galimybė integruoti lietuvių-anglų-lietuvių kalbų mašininį vertimą nėra svarstoma dėl žinomų automatizuoto vertimo netikslumų, kuomet nebeatspindima kontekstinė informacija, prarandamas rišlumas ar prasmė, blogai išverčiami terminai. Reikšminga paminėti tai, kad projekte numatytų problemų sprendimas nepažeis HP, t. y. projekte nėra numatyta tokių veiksmų, kurie turėtų neigiamą poveikį darniam vystymuisi, atsižvelgiant į SESV 11 straipsnį, Jungtinių Tautų darnaus vystymosi tikslus, Jungtinių Tautų bendrosios klimato kaitos konvencijos Paryžiaus susitarimą, įskaitant reikšmingos žalos nedarymo principą, kaip jis suprantamas pagal 2020 m. birželio 18 d. Europos Parlamento ir Tarybos reglamentą (ES) 2020/852 dėl sistemos tvariam investavimui palengvinti sukūrimo, kuriuo iš dalies keičiamas Reglamentas (ES) 2019/2088; projektas neturi neigiamo poveikio lygių galimybių ir nediskriminavimo HP, įskaitant prieinamumo visiems reikalavimą, atsižvelgiama į Jungtinių Tautų neįgaliųjų teisių konvenciją; projekto veiklomis siekiama inovatyvių (kūrybiškų) rezultatų (bus naudojami inovatyvūs metodai, o projekto rezultatai leis kurti inovacijas kalbos technologijų ir dirbtinio intelekto srityse).
Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis.