npj Flexible Electronics:一種基于機器學習的柔性可穿戴無聲語音識別系統可實現全天候、自然、實時交互
近日,華中科技大學柔性電子制造團隊與蘇州大學機器人與微系統研究中心團隊合作,在《Nature》合作期刊《npj Flexible Electronics》上發表題為“All-weather,natural silent speech recognition via machine-learning-assisted tattoo-like electronics”的研究論文。
無聲語音可作為失語患者的交流渠道,使人-機/人-人交互在各種干擾下都能保持正常。本文開發了一種新穎的無聲語音識別交互策略,以實現全天候、柔性可穿戴的自然互動。該策略無需像手語一樣學習使用專門技能,但能在復雜多變的全天候交互環境中準確地傳遞高容量的無聲語音信息。在該無聲語音識別系統中,貼附在面部的電子紋身可以記錄各種無聲語音的高質量生物數據,通過耳掛式可穿戴數據處理與藍牙模塊實時無線傳輸信號,而部署在云端服務器通過機器學習算法準確識別無聲語音信息,并通過手機終端實現意圖顯示和語音交互。
一系列的實驗表明,無聲語音識別系統(SSRS)可以憑借電學偏向性設計的電子紋身,順應人臉的大變形(~45%),并且僅僅通過使用小樣本機器學習就能識別涵蓋日常詞匯的110個單詞,平均準確率高達92.64%。我們成功地將SSRS應用于全天候的日常生活中,包括日常問候、跑步、用餐、在嘈雜噪音中操縱工業機器人、在黑暗中進行表達等,在未來應用中顯示出極大的適用性,有望實現失語癥患者的自然交流以及各種特殊場景下的無聲人機交互等。
柔性電子制造團隊的王攸華和蘇州大學機器人微系統研究團隊湯添益、徐印為本文的共同第一作者,華中科技大學黃永安教授、蘇州大學劉會聰教授和張虹淼副教授為本文的共同通訊作者。參與該論文的還有浙江大學李光教授、華中科技大學博士生白云昭、碩士生尹浪。
圖文導讀
圖1 (a) 全天候、自然的SSRS示意圖,包括四通道的紋身電子、無線DAQ模塊、基于云端的機器學習算法和終端顯示,具有各種場景下的適應性,(b) 無聲語音識別系統的佩戴照片
(c) 系統流程圖,(d) 110個日常單詞混淆矩陣。
圖2 電子紋身的表征。(a) 電子紋身和凝膠式電極貼在受試者臉上時的可佩戴性對比,(b)電極貼附不同尺度的皮膚紋理,(c) 被拉長30%后的皮膚-電極界面,(d)(e) 紋身狀電極在水平和垂直方向上的應變分布,(f)?電極的電阻率隨應變的變化,(g)(h) 電子紋身的長時間性能測量。
圖3 無聲語音識別算法的流程圖與評估。(a) 訓練階段(左)在現識別(右),(b) 110個單詞識別結果的混淆矩陣,(c) 不同分類器的預測性能,(d) 多通道的識別準確率。
圖4 全天候的SSRS演示。(a) 日常生活中的五個典型場景;(b) 可穿戴的自然交流;(c) 動態條件下的全天候使用;(d) 大變形條件下的全天候使用;(e) 噪聲環境下的適應性;(f) 黑暗環境下的適應性
問候場景模擬?
本文由作者投稿。
文章評論(0)