
Претставена првата дигитална платформа за транскрипција на говор на македонски јазик – „Буки“
Универзитетот „Св. Кирил и Методиј“ – Скопје попладнево официјално ја пушти во употреба новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик – „Буки“, која овозможува унапредено користење на официјалниот јазик при креирање текстови во дигитална форма.
Препорачано
Платформата овозможува пренос на усно изговорена мисла на македонски јазик во пишан текст кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. „Буки“ може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн.
Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел одактивностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, и во соработка со проф. д-р Никола Стиков, професор по биомедицински инженеринг на Политехничката школа при Универзитетот во Монтреал.
Ректорката на УКИМ, проф. д-р Биљана Ангелова, на презентацијата истакна дека создавањето на платформата е „патриотски придонес“ на Универзитетот и на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс).
-Овој модел може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), но и на лица со хендикеп, а се надеваме дека овој модел ќе најде примена и во многу дигитални алатки кои го прават нашиот живот полесен. Во моментов ја презентираме првата верзија на моделот, но тимот кој го изработи моделот е детерминиран да се изработи и втора подобрена верзија, како и верзија за транскрипција на дијалектите на македонскиот јазик, која ќе придонесе за научноистражувачката работа на УКИМ, но и ќе ги зачува дијалектите за наредните генерации, рече Ангелова.
Посочи дека се планира и изработка на подобрен кориснички интерфејс и решавање на одржливоста на платформата за транскрипција на македонскиот говор.
Платформата ја претстави Порјазовски кој на презентацијата учествуваше онлајн. Како што рече, се работи за адаптирани верзии на веќе постојните Wav2vec2 и Виспер (Whisper), со тоа што ги тренирале со наши ресури на македонски јазик.
Со цел да се провери работата на „Буки“ во споредба со јавно достапните Виспер (Whisper) од OpenAI компанијата и MMS од Мета (Фејсбук) ги тестирале на разни видови аудио – читан текст, дијалекти итн. и се покажало дека моделот што го креирале е подобар и со помал процент грешки при транскрибирањето на македонскиот говор.
Идејата за проектот била на проф. Никола Стиков кој на презентацијата рече дека таа најпрво била од лични мотиви, а потоа и заради исклучителната важност да се зачува македонскиот јазик и наследство.
-Илјадници часови снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарани и индексирани. Моделот „Буки“ е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата, потенцираше Стиков.