АСТАНА, 18 мая — Sputnik. Автоматическое распознавание речи - это технология преобразования человеческой речи в текст по примеру голосовых помощников Siri и Alexa, виртуальных ассистентов и систем диктовки.
Корреспонденты Sputnik Казахстан встретились с директором Института умных систем и искусственного интеллекта Назарбаев Университета (NU ISSAI) Хусейном Атакан Варолом, чтобы узнать, как работает система и для чего она нужна.
"Мы разработали технологию, которая распознает речь десяти тюркских языков — казахского, азербайджанского, башкирского, киргизского, саха, татарского, турецкого, уйгурского, узбекского и чувашского. Также работая над проектом, мы заметили, что в Казахстане люди часто переключаются между языками, то есть часто используют английские и русские слова, и поэтому мы расширили нашу работу. В дополнение к ним (к десяти тюркским языкам – Sputnik) система также распознает английскую и русскую речь", - рассказал профессор NU Хусейн Атакан Варол, директор-основатель ISSAI.
По словам профессора, в Казахстане существует большая потребность в подобных технологиях.
"Нам поступает много запросов от научных кругов, представителей стартапов, промышленности и финансовых технологий. Поэтому мы и создали корпус казахской речи. Кроме того, отмечу - сейчас мы живем в цифровом мире, и в этом мире нам нужно общаться с компьютерами, смартфонами и другими умными устройствами, используя естественный язык. Это требует от нас разработки алгоритмов распознавания речи, в которых компьютеры слышат и понимают речь. И сейчас эти технологии очень развиты для таких языков, как английский, японский, китайский, русский. Однако они еще не так сильно развиты для малоресурсных языков, и поэтому эти языки не могли быть полностью представлены в цифровом мире", - пояснил Варол.
Кроме того, система распознает диалекты казахского.
"Эта модель может понимать диалекты, потому что, когда мы собирали данные, особенно по казахскому языку, мы собирали данные со всех регионов Казахстана. Например, в западном Казахстане люди говорят очень быстро, и мы собрали данные из западного Казахстана, в южном Казахстане люди используют больше слов из узбекского языка, и мы также собрали много данных из южного Казахстана. Наша модель для казахского языка может распознавать все диалекты республики", - отметил профессор.
Технологию распознавания языка можно использовать во всех сферах жизни, продолжил Варол.
"Представьте, что вы звоните в банк и начинаете взаимодействовать с ботом, и этот бот должен понимать ваш язык. Если вы говорите по-английски, это очень просто, потому что существуют модели распознавания речи для английского языка. Но этих ботов раньше не существовало на казахском языке, и поэтому вы не могли говорить с ботами такого типа и другими цифровыми агентами на казахском языке, сейчас же это можно сделать", - добавил профессор.
По его словам, это стартовая площадка для других разработчиков, так как исходные данные и коды можно найти на сайте NU ISSAI, а затем создать собственный проект.