清華大學團隊研發出新穎唇語解讀系統

光明日報北京3月25日電人說話時嘴唇動作跟語音同步,可以通過識別唇動來進行語言交流。 對於聲帶、喉舌損傷的失聲人群,唇語是一種不佔用雙手的、日常無障礙交流的有效方式。 但唇語對講話者友好,對解讀唇語的聽眾來說卻並不輕鬆。 為降低唇語解讀難度,現有技術手段常採用磁場、視覺圖像、超聲波等方法。 以最流行的非接觸式視覺圖像方法為例,儘管其唇語識別準確率較高,但依然容易受到面部角度、光強、頭動和遮擋等因素的干擾。 特別是在新冠肺炎疫情期間,佩戴口罩給基於視覺的唇動解讀帶來全新挑戰。 通過直接捕捉面部肌肉細微動作解讀唇語技術具有重要的科學研究價值與廣闊的應用前景。

    近日,清華大學機械工程系智慧與生物機械團隊與中科院北京納米能源與系統研究所團隊合作,研發出了一種新穎的唇語解讀系統。 相關研究成果在線發表在《自然· 通訊》期刊上。

該系統包含低成本、自供電的柔性摩擦電感測器和基於原型學習的深度學習模型。 感測器將唇部肌肉運動產生的電信號傳輸到解碼系統,翻譯成可溝通的語言。 該研究測試分析了感測器的機械與電氣性能,採集並提取了選定元音、單詞、短語、無聲語音和發聲語音的唇動信號特徵。 通過比較同步採集的唇動和聲音信號,證明瞭無論是否發聲,嘴唇運動信號都具有一致性。 進一步分析了語速與唇動模式等不同參數對信號特徵的影響規律。 提出了一種基於原型學習的空洞迴圈神經網路模型,用於唇動信號的識別,在20個分類(100樣本/類)情況下,測試準確率達到94.5%。 

值得注意的是,上述自供電感測器由柔性聚合物薄膜與柔性電極組成,可提高人體佩戴的舒適性。 研究團隊利用該系統進行了多種場景應用展示,如解鎖大門的身份識別、移動模型車的方向控制、唇動/語音的實時轉換等,展示了該系統在唇動識別領域的可行性和應用潛力。 

面向失聲人群日常無障礙溝通需求,該工作為特殊場景下唇語翻譯應用開拓了創新的研究方向。 此外,該工作在機器人控制、個人身份驗證、人機介面、殘疾輔助、無聲語音、情報、反恐任務實施、康復、生物醫學工程和虛擬實境等諸多領域中都具有較大的潛在應用價值。

團隊相關負責人表示,儘管該工作已展示了該技術的有效性和應用前景,但仍然面臨系統可靠性、穩定性等問題。 研究團隊相信,隨著研究的深入,該技術有望切實為失聲人群服務,提供無障礙語言交流的科技手段。

來源:央視網

Comments are closed.