С навлизането на ново поколение технологии, българският език е застрашен от отмиране в дигиталната епоха.

Това показва изследване на водещи европейски експерти в сферата на езиковите технологии, съобщават от Българската академия на науките.

Изследването е проведено от Европейската мрежа за върхови постижения META-NET, в която членуват 60 изследователски центъра от 34 страни, сред които е и Институтът за български език „Проф. Любомир Андрейчин".

Изследването на водещи европейски експерти в сферата на езиковите технологии показва, че повечето европейски езици са заплашени от дигитална смърт. Според проучването шансът на много от европейските езици да оцелеят в дигиталната епоха не е голям.

Изследователите са направили оценка на състоянието на езиковите технологии за 30 от близо 80-те езика, които се говорят в Европа. Експертите са достигнали до извода, че езиковите технологии за 21 от 30-те изследвани езика или „са недоразвити", или са „слабо развити".

Проучването е проведено от над 200 експерти и е обобщено в Бели книги за различните езици (30 на брой), които са публикувани от META-NET (печатни издания и онлайн) и включват обзор и оценка на състоянието на наличните езикови технологии за всеки език в четири различни категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси.
В поне една от тези категории 21 от 30-те езика (т. е. 70%) получават най-ниската оценка (т. е. за тях липсват езикови технологии или съществуващите технологии са недоразвити).

За българският език категорията със слаба оценка е автоматичният превод.

Няколко езика, сред които исландски, латвийски, литовски и малтийски, получават най-ниска оценка и в четирите категории. Състоянието на наличните езикови ресурси и технологии не е оценено като „отлично" за нито един език. Ресурсите за английски получават висока оценка, след това се нареждат холандски, френски, немски, италиански и испански език, които са оценени като „средно развити".

Технологиите и ресурсите за езици като баски, български, каталански, гръцки, унгарски и полски са категоризирани като „фрагментарно развити", което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.

Това означава, че в момента българският език (получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси) не е застрашен, но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.

„Резултатите от проведения от нас анализ са силно обезпокоителни. По-голямата част от европейските езици не разполагат с достатъчно количество адекватни ресурси, които да гарантират оцеляването им в епохата на развити технологии, а при някои езици дори нуждата от такива ресурси не е била осъзната. Поради тази причина и бъдещето на много от европейските езици е неясно", казва проф. Ханс Уцкорайт - координатор на инициативата META-NET, научен директор на Германския център за проучване на изкуствения интелект (DFKI) и един от авторите и редакторите на изследването.

Друг от редакторите - Георг Рем (DFKI), добавя: „Наблюдаваме драстично разминаване в равнището на състоянието и достъпа до езиковите технологии за различните европейски езици и за различните технологични области. Пропастта между т. нар. „големи" и „малки" езици продължава да се разширява. Трябва да положим усилия, за да осигурим адекватна технологична подкрепа за всички по-малки езици, за които липсват нужните ресурси и технологии. В противен случай те за застрашени от дигитална смърт."

На 26 септември Съветът на Европа отбелязва Европейския ден на езиците, на който се чества езиковото многообразие и се подчертава значението на развитието на богатите езикови и културни ресурси, с които разполага нашият континент. Задачата на META-NET е ясно да очертае предизвикателствата и възможностите, които очакват езиковото ни наследство в информационната епоха.