Команда ученых из Стэнфорда утверждает, что протестировала новый интерфейс мозг-компьютер (BCI), который может декодировать речь со скоростью до 62 слов в минуту, улучшив предыдущий рекорд в 3,4 раза.
Это было бы огромным шагом к преобразованию речи в реальном времени со скоростью естественного человеческого разговора.
Как подробно описано в статье, которая еще не прошла рецензирование, команда ученых из Стэнфорда обнаружила, что им достаточно проанализировать активность мозга в относительно небольшой области коры головного мозга, чтобы преобразовать ее в связную речь с помощью алгоритма машинного обучения.
Цель состояла в том, чтобы вернуть голос тем, кто больше не может говорить из-за Бокового Амиотрофического Склероза (БАС) или инсульта. В то время как решения на основе клавиатуры позволили людям с параличом в определенной степени снова общаться, речевой интерфейс на основе мозга мог бы значительно ускорить декодирование.
«Здесь мы продемонстрировали речевой BCI, который может декодировать неограниченные предложения из большого словарного запаса со скоростью 62 слова в минуту, впервые BCI намного превысил скорость общения, которую альтернативные технологии могут обеспечить людям с параличом, например, отслеживание глаз», – пишут исследователи.
В ходе эксперимента команда записала нейронную активность пациента с БАС, который может двигать ртом, но испытывает трудности с формированием слов, из двух небольших областей своего мозга.
Используя рекуррентный декодер нейронной сети, который может предсказывать текст, исследователи затем превратили эти сигналы в слова — и на удивление быстрыми темпами.
Они обнаружили, что анализ этих орофациальных движений и связанной с ними нервной активности был “вероятно, достаточно сильным, чтобы поддерживать речевой ИМК, несмотря на паралич и узкий охват поверхности коры”, говорится в статье.
Но система не была идеальной. Частота ошибок декодера рекуррентной нейронной сети исследователей по-прежнему составляла около 20 процентов.
«Наша демонстрация является доказательством концепции, согласно которой расшифровка попыток произнесения речи с помощью внутрикорковых записей является многообещающим подходом, но это еще не полная, клинически жизнеспособная система», – признались исследователи в своей статье.
Чтобы уменьшить уровень ошибок своей системы, ученые предлагают исследовать больше областей мозга, одновременно оптимизируя алгоритм.
Источник новости bioRxiv
Просмотров: 2