Browsing by Author "Wang, Hung-Ren"

Now showing 1 - 1 of 1

會議語音辨識之上下文語言模型 Reranking 研究
(2023) 王泓壬; Wang, Hung-Ren
ASR N-Best Reranking是自動語音識別(ASR)系統中用於提高轉錄輸出準確性的一種技術。在ASR系統中，系統為輸入音頻片段生成多個後選假設，稱為N-Best列表。而BERT (Bidirectional Encoder Representations from Transformers)是一種先進的語言模型，在文本分類、命名實體識別和問題解答等各種自然語言處理(NLP)任務中表現出卓越的性能。由於BERT能夠捕捉上下文信息並生成高品質的輸入文本表示，因此被用於ASR N-Best Reranking。為了更進一步增強BERT模型的預測，我們探索了增強語意信息與訓練目標，大致分為四部分: (1)將文本文法優劣信息融入到模型中的有效方法;(2)間接將整個N-Best列表信息融入到模型中的有效方法;(3)探討分類、排序及多任務訓練目標於模型訓練的可行性;(4)強化模型提取的文本信息。大型生成式語言模型(LLMs)已經證明了其在各種語言相關任務中的卓越泛化能力。本研究我們評估利用LLMs如ChatGPT於ASR N-Best Reranking任務的可行性。我們在AMI會議語料庫進行一系列的實驗，實驗結果顯示在降低單詞錯誤率(WER %)，提出的方法有其有效性，與基本ASR系統比較最多可達到1.37%的絕對WER (%)下降。