學位論文
Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890
Browse
8 results
Search Results
Item 具有自動點雲預處理的即時點雲動作辨識系統(2024) 賴彥廷; Lai, Yen-Ting本論文討論了點雲動作辨識系統的自動化預處理。 點雲動作辨識的優點是受到光照和視角變化的影響較小,因為它關注的是物體的三維位置而不是單純像素值。即使在複雜和黑暗的環境中,也能實現強大的識別性能。此外,點雲動作辨識在機器人、虛擬實境、自動駕駛、人機互動、遊戲開發等領域也有廣泛的應用。例如,理解人類行為對於機器人技術中更好的互動和協作至關重要,而在虛擬實境中,它可以捕捉和再現用戶動作以增強真實感和互動性。為了建立運行穩定的點雲動作識別系統,通常需要過濾掉背景和不相關的點,從而獲得乾淨且對齊的點雲數據。在過去的多數方法中,點雲過濾和動作識別通常是分開執行的,很少有系統一起運行。在本文中,我們提出了一種方法,使用戶能夠直接從 Microsoft Azure Kinect DK 取得點雲資料並執行全面的自動化預處理。這將能產生沒有背景點的更乾淨的點雲數據,適合用於動作辨識。 我們的方法利用 PSTNet 進行點雲動作識別,並在透過自動預處理獲得的資料集(包括 12 個動作類別)上訓練模型。最後,我們開發了一種結合自動點雲預處理的即時點雲動作辨識系統。Item 基於半監督式骨架動作辨識模型之圖資料增強方法(2023) 黃弘智; Huang, Hung-Chih近年來,基於骨架資訊之骨架動作辨識在圖卷積架構的導入下獲得顯著的效能提升。不同於傳統RGB影像動作辨識,骨架動作辨識的輸入資料為人體的關節點資訊,這種輸入資料的特點為不易受到現實中的背景雜訊影響,進而取得更有效率及精確性的動作辨識結果。然而,製作人體關節點的資料需要大量人力資源,這導致在現實應用環境中缺少標註樣本資料進行訓練。另外,採用預訓練好的模型亦需要花費相當的時間成本進行參數調整,成為應用的一個瓶頸。為此,本研究中我們提出多種骨架動作資料的資料強化方法以解決少量標註資料的問題,並結合半監督學習策略有效利用未標註樣本,進而提高骨架動作辨識模型在少量標註資料環境下的辨識能力。我們提出的資料強化方法能在低成本的額外運算下,有效提高資料的多樣性,使模型可以提取更多不同的特徵資訊。在半監督學習策略中,我們採用兩種強度不同的資料增強方法作為輸入,透過計算經不同強化方法產生的辨識結果之相似度作為損失函數以強化模型對於辨識結果的一致性,並期望模型可以學習更多關於辨識決策的有效資訊。此外,我們還透過調整非標註資料加入網路訓練的時間點,在確保準確率的同時,也顯著地降低了模型訓練所需時間。實驗結果顯示,我們提出的架構在NTU RGB+D大型資料集的低資料環境實驗中,達到了84.16%的準確率,相較於原始方法的77.5%的準確率,提升了6.66%;研究結果表明我們所提出之方法在少量標註資料的情況下可以有效提升模型之辨識準確率及泛化能力,為解決實際應用中資料稀缺和降低模型的調整成本問題中提供一個有效的解決方案。Item 基於深度學習之即時異常操作程序監控系統(2022) 李作庭; Li, Tso-Ting本論文提出一任務監控系統,以確保人員操作程序與標準作業程序一致,避免意外或操作不當的情況發生,包含:影像目標偵測模組、手部動作辨識模組、用於穩定辨識結果之濾波器、以及程序比對演算法。作法係使用 SlowFast 動作辨識演算法,根據影像的取樣頻率,將輸入拆分為slow pathway 以及fast pathway,前者用於取得空間特徵,後者則增強對於時間特徵上之提取,使得模型可以取得更多時空間之資訊,進而實現精細動作的辨識,解決傳統動作辨識演算法只專注在單一取樣頻率進行空間特徵提取,不利於應用在連續動作辨識的限制。為了將該系統有效地實踐在實際應用場景,本論文亦使用YOLOv4偵測目標影像,濾除非目標事件之場景,當目標影像收集足夠的影像數量時,啟用SlowFast進行人員操作目標物之動作辨識,再使用一改良的濾波器用以降低辨識結果不穩定之情形,建立手部與施作工件等目標物件之相依動作行為之動作庫(action base)。隨後,利用一預先建立之標準作業程序動作庫,包含了操作物件以及相對應的動作,利用一比對演算法進行任務行為之檢測,判別人員操作程序流程是否符合規範。為驗證系統之性能,本論文將所提出之任務監控系統以一小型工作坊人機協作進行即時判斷,監督操作員的操作程序是否符合正確規範。Item 基於改良式時序動作提名生成網路之即時動作偵測(2022) 陳怡君; Chen, Yi-Chun大多數的動作辨識(Action Recognition)方法在應用於連續動作辨識時,會有不穩定的預測,這是因為該些方法大都利用只有單一動作的短視頻(Short Video Clip)去訓練,如果輸入是連續讀入的即時影像時,由於無法取樣到動作開始與結束的幀,造成輸入模型的影像序列與訓練資訊大相逕庭,造成辨識的錯誤。為解決上述問題,本論文提出一即時動作偵測(Online Action Detection)方法,在串流影像當中找出動作的開始與結束,作法是先以Inflated 3D ConvNet (I3D)提取出RGB及Optical Flow影像的特徵,再利用Boundary Sensitive Network (BSN)中的Temporal Evaluation Module (TEM)模組,來找出動作開始、動作結束的機率。此外,本文改良了傳統BSN,使其從離線運行轉變成可以即時運行來找出開始與結束的機率,以得到目標動作較有可能發生的區間。在動作開始後,本文應用動態取樣方法來獲得有效樣本並送入I3D以進行動作識別。實驗結果顯示,所提出的方法可以更好地處理各種連續時間的目標動作影片,提高串流影片中動作辨識的準確度。Item 應用於人體骨架動作辨識的結合快慢網路與注意力自適性圖卷積架構(2022) 蔡旻諺; TSAI, Min-Yan本論文探討了圖像動作辨識與骨架動作辨識任務,近年來骨架動作辨識任務被快速的發展,發展出藉由圖卷積神經網路結合鄰接矩陣表達人體結構的方式,尤其注重於在圖卷積神經網路中的跨距離連結能力,並學習不同型態的骨架資訊在大型數據集達到更高的準確率。我們認為比起學習多樣的資料型態,注重動作的解析同樣重要,因此引入圖像動作辨識的雙流方法,使用高頻率與低頻率分別解析單一型態的骨架序列,從而提取不同的靜態與動態動作資訊。同時兩流分別作為兩種對於關節點的連結策略,分別注重間格性時間與相鄰時間的連結,並在不同層中穿插靜態與動態特徵的融合層。我們所提出的架構在大型數據集NTU RGB+D 中的單資料評估為95.9%的準確率,多資料評估為96.8%的準確率。實驗結果證實了,我們所提出的方法達到更好的結果。Item 以快慢雙流圖卷積神經網路架構實現骨架動作辨識(2021) 周柏永; Chou, Po-Yung本論文討論骨架動作辨識任務,此任務在過去的論文中較少討論到時間特徵的學習,大多研究如何學習到更好的空間特徵,而就過去在動作辨識任務中的經驗,時間維度對於動作辨識任務的影響是巨大的,因此我們聚焦在時間維度對此任務之影響,為此提出了一個雙流網路架構來融合不同時間尺度的輸入,以此方法來提取靜態與動態特徵,接著我們進一步針對圖卷積內部的鄰接矩陣作改良,將其設計為可以針對不同時間時間區段學習,進而學習到更精準的骨架相關性,從實驗結果可以得知,混和不同時間尺度特徵可以有效增加準確率,在NTU RGB+D能夠到達94.8%的準確率,經過改良鄰接矩陣後更是能到達95.2%的準確率,由此可以驗證,時間尺度上的特徵對於骨架動作辨識任務是相當重要的。Item 用於精細動作辨識的雙頭預測網路(2021) 陳維均; Chen, Wei-Jyun近年深度學習發展迅速,不僅2D影像辨識,現在3D動作辨識也受到關注。動作辨識的研究從3D CNN開始,便在許多數據集得到不錯的效果。但大部分的動作辨識網路,在細部動作的辨識上都有改進的空間,原因是細部動作整體來說和一般的動作差異不大,可能只是在一小段時間內發生的差異,因此十分不好判斷。這個情況在籃球比賽十分常見,籃球比賽中常常有各種肢體碰撞,但是這些肢體碰撞並不一定會造成犯規,要辨識這些犯規就勢必得加強細部動作的偵測。由於現在並沒有相關的資料集讓我們做相關的研究,因此我們自己蒐集資料,建立一個籃球犯規的資料集。在本論文中,我們提出了一種提昇細部動作辨識的網路套用在現有的網路上,包括3D-Resnet50[1]、(2+1)D-Resnet50[2]、I3D-50[3]。實驗結果顯示加入這個網路後,在各種模型的準確度上都獲得3~7%的提升。Item 以深度學習為基礎之多人即時動作辨識系統(2020) 蔡仁凱; Tsai, Jen-Kai隨著人工智慧領域快速的發展,人類動作辨識技術在近年來獲得極大關注,應用也非常廣泛,例如在長照中心對受照護者提供即時活動偵測,在工廠環境及公共環境中提供異常行為之偵測等,都能藉由動作辨識的結果實現提醒、警示、紀錄等智慧監控之功能,預防意外的發生,也解決人力資源短缺的問題。因此,如何利用穩健的動作辨識達到即時智慧監控的目的,實為一重要議題。本文提出一套以深度學習為基礎之多人即時動作辨識系統,以達到智慧型監控的目的,並應用於長照環境中。本系統結合YOLOv3與Deep SORT演算法,能從影片中同時偵測多個人物,並進行追蹤。在人物面對鏡頭時,還能透過FaceNet架構辨識人物身份姓名。對於遠距離人物而言,我們開發一套zoom in方法,根據人物框選的大小自動使用高解析度畫面以獲得更好的辨識效果。為了提升系統的穩健性,在將畫面輸入I3D前,我們會先模糊人物以外區域,減少背景帶來的影響。最後,利用非最大值抑制方法,降低因多個滑動視窗所造成的不穩定情形。實驗結果顯示,本文所提出的方法能夠實現一套即時多人之動作辨識系統。