Ұлттық корпус бізге не береді?
Тіліміз бай. Оған дау жоқ. Алайда ғалымдар сол бай тілдің әр сөзін, сөйлемін жинап бір қор құрып, оны қазақ тілін ғылым тіліне айналдыруға пайдалана алмасақ, тіліміздің қолданылуы кеміп, суалған теңіздей бірте-бірте нәрінен айырып, жоғалтып алуымыз мүмкін екенін айтады. Бір сөзбен айтқанда, адам өміріне, ғылымға, техникаға, бәрі-бәріне қатысты қандай сөз бар соның бәрі хатталып, шотталып, ІТ платформаға енгізіліп цифрландырылған электронды қор жүйесінде тұруға тиіс. Мұны жұрт «ұлттық корпус» деп атап жүр. Ұлттық корпус жасауда біз әлі табалдырықта тұрмыз. Ал анау дамыған ағылшындар 524 миллион, тіпті көршіміз Ресей 990 миллион сөзқолданысын хаттап қойыпты.
Ең алдымен Корпус дегеніміз не? Корпус – мəтіндерді электронды түрде жинауға негізделген ақпараттық-анықтамалық жүйе.
Жалпы мәтіндерді электронды түрде жинақтау тәжірибесі 1960 жылдан бастау алады. Ең алғашқы Браун корпусы У.Фрэнсистің жетекшілігімен жүзеге асырылып, оған 1 млн. сөзқолданыстан тұратын әдеби мәтіндер енгізілген.
Компьютер мүмкіндігі өсіп, үлкен көлемді мәтіндермен жұмыс істеу қолжетімді болуына байланысты 1980 жылдары әлем лингвистері үлкенірек корпустар құруға талпына бастады.
Ұлыбританияда мұндай жобалар Бирмингем университетіндегі ағылшын Банкі (Bank of English) және Британ ұлттық корпусы (British National Corpus, BNC) болды. КСРО-да - А.П. Ершовтың бастамасымен құрылған орыс тілінің машиналық қоры.
Бүгінгі күні әлемнің бірқатар тілдерінде (американдық ағылшын, британ, француз, чех, орыс және т.б.) өздерінің ұлттық корпустары бар, олар бір-бірінен мәтіндерді ғылыми өңдеудегі толықтығы мен ғылыми деңгейі арқылы ерекшеленеді.
Мақсатты межеге жету үшін біз Ұлттық жоба бойынша жыл сайын қазақ тілі ұлттық корпусының мәтіндік базасының көлемін ең кем дегенде 10 млн. сөзге арттырып отыратын боламыз. Бұл мақсат «Ұлттық рухани жаңғыру» Ұлттық жобасында» да қарастырылған.
Жалпы, Ұлттық корпустар тілді ана тілі немесе шет тілі ретінде үйрету үшін де маңызды. Әлемде оқулықтар мен оқу бағдарламалары корпусқа бағытталған. Кез келген шетелдік азамат, мектеп оқушысы, мұғалім, журналист, редактор және жазушы корпусты қолдана отырып бейтаныс сөзді немесе грамматикалық форманы қолдану ерекшеліктерін тез және тиімді тексере алады.
Қажетті сөздіктер корпус базасына негізделіп құрастырылатын болады. Корпус базасы үнемі үздіксіз жетілдіріліп, толықтырылып отырады.
Сонымен Ұлттық корпус – бұл қазақ тілінің бір жүйеге кіріктірілген тілдік материалдарының базасы ғана емес, сондай-ақ виртуалды кеңістікте мемлекеттік тілдің семантикалық кеңістігін кеңейту, ақпараттық таралу ауқымын кеңейту, тілдік ресурстарға жаппай қол жеткізу тетігі. Ұлттық корпусты кәсібі бойынша қажеттілігі бар немесе тілдің құрылымы туралы білгісі келетін жұртшылық пайдалана алады.
Корпус тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет, ақпаратты іздеу, ауқымды материалдарды талдау, өңдеу, статистикалық мәліметтерді алу оңтайланады, қажетті сөздіктерді корпус базасы негізінде құрастыруға болады.
Жалпы, әлемдік тәжірибеде тілдің ұлттық корпусы түрлі тақырыптағы кіші корпустардан тұрады. Олар: газеттік, тарихи, поэтикалық, синтаксистік, мультимедиялық және де басқа тілдің ұлттық кіші корпустары бар.
Мысалы А.Байтұрсынұлы атындағы Тіл білімі институты Қазақ тілі ұлттық корпусын алғаш жасауда тілдің бес стилін қамтыған болатын. Ал 2021 жылы Ш.Шаяхметов атындағы «Тіл қазына» ғылыми-практикалық орталығы публицистикалық мәтіндердің кіші корпусы бойынша жұмыс жүргізді.
Публицистикалық мәтіндер корпусына «Егемен Қазақстан», «Ана тілі», «Қазақ әдебиеті», «Түркістан», «Заң» газеттерінде жарияланған мақалалардың электронды көшірмелері енгізілді.
Алдағы уақытта публицистикалық стильдің басқа да ішкі жанрларын қамту, сондай-ақ басылым кезеңдері бойынша ұлғайту және дереккөздердің атаулары бойынша кеңейту көзделуде.
Тегінде, ұлттық корпусты қалыптастыру барысында мәтінге 12-20 параметрлік метабелгілер (мәтін авторы, мәтін тақырыбы, мәтін стилі, жанр, мәтін түрі, хронотоп, дереккөз, басылым мерзімі және т.б.) жасалды.
Былтыр корпустың «Qazcorpora.kz» сайты іске қосылды.
Қазақстан Республикасы Білім және ғылым министрлігі Тіл саясаты комитетінің тапсырысымен жүзеге асырылып жатқан аталмыш жобаны әзірлеуге Ш.Шаяхметов атындағы «Тіл-Қазына» ҰҒПО, А. Байтұрсынов атындағы Тіл білімі институты, Қазақ ұлттық университеті Әл-Фараби атындағы ҚазҰУ, Л.Н. Гумилев атындағы Еуразиялық ұлттық университеті; Назарбаев Университеті, Қазақ ұлттық қыздар педагогикалық университеті, Қ.Жұбанов атындағы Ақтөбе өңірлік университеті, Баишев университеті, «Minialgo» ЖШС, «Qazkitap баспасы» ЖШС атсалысты.
Ұлттық корпусты қалыптастыруға еліміздегі ғылыми институтар мен орталықтар, жоғары оқу орындары атсалысқанымен олардың сайттарын интеграциялау арқылы жасалған корпусты жүйелеп, бір арнаға құйылуы, іздеген кезде бір жерден таба алатындай ортақ сайтқа жинақталуы мәселесі қолға алынды.
Тіл тек қарым қатынас құралы ғана емес, ол – ғылым. Яғни, сол тілді құрайтын әр сөзді, сөздің қолданысты түгендеп, оның қайда, қалай, қай салалаларда, қандай жиілікте қолданылатынына дейін анықтап, ІТ платформаға жинақтап, енгізіп отырғанда ғана корпустың тиімділігі артады. Қазақты қазақ етіп тұрған оның тілі десек, сол тілдегі әр сөз ұлттың байлығы. Ал оны жинақтап корпусқа енгізу – қазақ тілін ғылым тіліне, ІТ платформалар мен техника тіліне айналдырудың, әлемдік сұраныстағы тіл деңгейіне көтерудің басты қадамы.
Әділбек Қаба,
ҚР Білім және ғылым министрлігі
Тіл саясаты комитетінің төрағасы