latinica

Корпусна лингвистика и Корпус савременог српског језика

С обзиром на то да се лингвистичка истраживања данас све чешће заснивају на корпусу, Друштво младих лингвиста је за своје чланове организовало семинар посвећен основама корпусне лингвистике. На овом семинару чланови су такође могли да се упознају и са Корпусом савременог српског језика, који се израђује на Математичком факултету Универзитета у Београду. Радионица је одржана 24. маја 2014. године у Научном клубу Центра за промоцију науке и текла је овако:

11.00 – 12.30 др Маја Миличевић: Корпусна лингвистика као метод у истраживањима језика

Савремена истраживања језика обавезно се раде на корпусу. Шта је, у ствари, корпус? То је, најпростије речено, грађа. У ширем смислу, под корпусом се подразумева било каква збирка текстова сакупљена по одређеном критеријуму, а у ужем смислу – та збирка текстова је у електронском формату и машински читљива и самим тим циљано претражива. Бржа, лакша и прецизнија претрага могућа је због тога што текстови садрже додатне информације, и то ванлингвистичке, у виду аутора текста, времена настанка текста, жанра којем текст припада, али и лингвистичке, будући да су корпуси углавном лематизовани (тј. за сваку реч је наведен њен основни облик - лема) и све више морфолошки и синтаксички анотирани (тј. за сваку реч су наведене морфолошке категорије и синтаксичке позиције).
Корпусна истраживања су, заправо, истраживања језичких појава која се темеље на подацима добијених из електронских корпуса, у којима су забележене употребе тих појава. Оваква истраживања нису нова: до половине XX века прикупљање података из одабраног корпуса у виду штампаних издања и бележење релевантних примера била је најчешћа метода. Међутим, генеративизам је корпусе одгурнуо у страну, критикујући њихову ограниченост (у односу на језичку бесконачност) и приказивање перформансе (што је само мали део језичке компетенције). Срећом, појава рачунара довела је до тога да корпуси поново добију на цени. Још шездесетих година почео је да се развија Браунов корпус, који је постао узор каснијим корпусима. Осамдесетих година почињу да се израђују вишемилионски корпуси, пре свега за потребе лексикографије. Почетком деведесетих настаје Британски национални корпус, један од најзначајнијих корпуса. Данас постоје корпуси за велики број језика, који се мере милионима и чак милијардама речи.
Различити корпуси су доступни корисницима у различитом облику и под различитим условима. Најчешће се корпусима приступа путем веб интерфејса и приступ је углавном слободан или уз бесплатну регистрацију. Поједини корпуси су доступни у виду изворних текстова; такви корпуси су драгоцени јер се могу претраживати и анализирати помоћу алата (AntCon, NoSketch Engine, Sketch Engine, Corpus Workbench).
Корпуси се могу употребити у различите истраживачке сврхе: за добијање примера употребе неке речи или конструкције, зарад пребројавања језичких података (у првом реду учесталости употребе језичких јединица), у циљу сазнавања односа конкуретних облика (нпр. инфитив vs. да + презент), ради увида које речи чине колокације, итд. Начин употребе корпуса зависиће од конкретног истраживачког питања, али и од могућности које корпус пружа.

12.30 – 13.00 Пауза

13.00 – 14.30 Др Маја Миличевић: Врсте и процене карактеристика корпуса

Корпуси се могу поделити по различитим критеријумима. Према критеријуму језика корпуси могу бити једнојезични и вишејезични. Треба имати на уму да се овде под језиком подразумевају и варијетети унутар једног језика. Наменски гледано, могу се издвојити општи и специјализовани корпуси. Општи (референтни) корпуси теже да представе читав језик, у свим његовим облицима/варијететима/стиловима. Специјализовани корпуси се ограничавају на одређени варијетет или на одређене говорнике (дијалекатски, преводни, дечји, ученички и сл. корпуси). С обзиром на временску димензију, корпуси могу бити синхронијски и дијахронијски, а с обзиром на медијум у којем су настали текстови из корпуса – говорни, писани и мултимодални (и говорни и писани). Уколико се корпус након што се израда заврши више не мења, у питању је статички корпус, а уколико се корпус стално или повремено допуњује новим текстовима – динамички.
Како корпус заправо представља узорак целокупне језичке популације, главно питање је како постићи репрезентативност и балансираност. Репрезентативност значи да корпус треба да буде реплика језика у малом, а балансираност се тиче мере у којој су заступљени различити типови текстова. Дакле, корпус треба да буде састављен од различитих жанрова (говорни/писани, формални/неформални итд.), а заступљеност жанрова у корпусу треба да буде једнака заступљености жанрова у језичкој употреби.
Што се величине корпуса тиче, треба се руководити принципом „што више, то боље“. Општи корпуси броје најмање 100 милиона речи, али специјализовани имају много мање.
Корпуси сем самих текстова садрже и информације о тим текстовима. Те информације могу бити ванлингвистичке (жанр, аутор, време настанка, језик...) и лингвистичке (врста речи, морфолошке категорије, синтаксичке функције...). Процес лингвистичког обележавања текста назива се анотација. Она може бити морфолошка, синтаксичка, семантичка, дискурсна. Најчешћа је морфолошка анотација, под којом се подразумева лематизација (одређивање основног облика речи – леме), тагирање (обележавање врсте речи) и морфосинтаксичка дескрипција (обележавање граматичких/морфолошких категорија – рода, броја, падежа...). Анотирани  корпус много олакшава лингвистичка истраживања, јер се путем регуларних израза или језика за претрагу корпуса брзо добијају подаци. Резултати претраге се добијају у виду конкорданци (приказа кључне речи у контексту), фреквенцијских листи, колокацијских листи...

14.30 – 15.30 Пауза

15.30 – 17.00 Др Милош Утвић: Корпус савременог српског језика

Идеја о Корпусу савременог српског језика постоји још од осамдесетих година 20. века, када је започето сакупљање текстова и њихова дигитализација, али је тек пре десетак година у оквиру Групе за језичке технологије Математичког факултета конструисана и објављена прва верзија. Та верзија није садржавала библиографске податке о текстовима, нити је била лингвистички анотирана, већ је, просто, била колекција неанотираних текстова, па је названа Неетикетирани корпус српског језика (НЕТК). Додуше, корпус се могао претраживати помоћу регуларних израза, а као резултат добијале су се конкорданце, што је било значајно за истраживања будући да је корпус још тада био велики – бројао је 22, 2 милиона корпусних речи. НЕТК је касније допуњен библиографским информацијама о корпусним текстовима и тако је настао СрпКор2003. Даљим уношењем текстова створена је текућа верзија СрпКор-а, СрпКор2013, која садржи 4889 углавном писаних текстова. Највише текстова је из новина (66%), затим следе административни (19%), књижевно-уметнички (7%), научни и научнопопуларни текстови (4%). Иако СрпКор претендује да буде општи корпус, још увек није достигао пожељну балансираност текстова, пошто је удео новинских текстова велики. Већина текстова (87%) објављена је после 2000. године, што ће рећи да је у питању синхронијски корпус. СрпКор2013 броји више од 122 милиона корпусних речи и претражив је помоћу CQP (Corpus Query Processor), будући да је библиографски и морфолошки анотиран. Библиографска анотација, поред уобичајеног библиографског описа (наслов, аутор, година издања и сл.), садржи и информације о функционалном стилу којем припада текст, као и информације о томе да ли је текст написан на српском језику или је превод са неког страног језика. Под морфолошком анотацијом се у оквиру овог корпуса подразумева лематизација и приписивање врсте речи. Иако непотпуна, оваква анотација омогућава да се корпус претражује помоћу широке лепезе упита (нпр. [pos = "V" &  pos = "N"] – узастопце глагол и именица, [pos = "A" &  lemma = ".*ski"] – придеви који се завршавају на –ски и сл.), што раније није било могуће. На овај начин, финијом претрагом, која даје прецизније податке, СрпКор је омогућио да се стекне бољи увид у функционисање српског језика. Корпус је доступан свима уз претходну бесплатну регистрацију на следећој адреси: http://www.korpus.matf.bg.ac.rsДа би се креирао налог помоћу којег се приступа корпусу, потребно је послати мејл на Ова адреса ел. поште је заштићена од спамботова. Омогућите JavaScript да бисте је видели.

Након излагања чланови Друштва су претраживали корпус на основу унапред припремљених задатака. Циљ ових задатака је био да се чланови опробају у претрази СрпКор-а како би увидели његове могућности и тако стекли слику о евентуалним будућим лингвистичким истраживањима базираним на корпусу.

Powered by Bullraider.com