學位論文

Permanent URI for this collectionhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/73890

Browse

Search Results

Now showing 1 - 10 of 10
  • Item
    基於圖像串接和深度學習的改良生咖啡豆分類方法
    (2024) 温鑫; Wen, Xin
    為了解決生咖啡豆在影像辨識上的分類困難並提升精確度,這篇論文提出了一種通過串接不同的影像增強技術來融合不同的特徵提取演算法,以提高對生咖啡豆的辨識準確率。為了從原始影像中獲得各種關鍵特徵,我們選用了自適應閾值、位元平面分割、黑帽運算、Canny邊緣偵測、灰階、直方圖等化、Laplacian濾波、頂帽運算與非銳化濾鏡九種常見的影像增強方法。我們提出先在原本九種影像增強算法中挑選出與基準真相相關性較高的方法,並且僅將原始影像的RGB影像平面替換成相關性較高的影像處理方法,藉著多種特徵提升模型辨識度。在這項研究中,我們使用MobileViT進行實驗,最後選擇相關性較高的處理方式作為特徵融合的素材,經過影像串接產生的影像資料集作為新的輸入重新訓練。我們將不進行任何影像增強的分類方法視為基準。在二分法中,位元平面分割、直方圖等化和非銳化濾鏡的組合達到了96.9%的準確率,相對於原始方法提高了約5.5%。如果使用去除背景的相同資料集,相同的組合可以達到了97.0%的準確率;當我們選擇三分法進行實驗時,同樣都是由位元平面分割、直方圖等化和非銳化濾鏡的組合,分別達到了96.8%以及97.4%的準確率,較原始方法提升6.7%與4.9%。最後我們使用MobileNetV3驗證研究結果,在二分法的情況下,相同的影像增強組合分別在未去除背景與去除背景的影像可以獲得最高的99.12%與99.21%的準確率,相較原始方法有0.39%與0.44%的提升;如果以三分法再次進行實驗,與原始方法比較,大約分別有0.92%以及0.79%的提升,取得了98.73%與99.25%的準確率。
  • Item
    基於臉部及語音特徵之輕量化深度學習情感辨識系統
    (2024) 呂健維; Lu, Chien-Wei
    因應近年來高齡化導致老人照護人力缺乏,本研究提出了一種可被應用於陪伴型機器人(Zenbo Junior II)上的整合臉部表情和語音的情感識別輕量化模型。近年來對於人類的情感識別技術大多使用基於卷積神經網路(Convolutional Neural Network, CNN)的方式來實現,並得到了優秀的成果,然而,這些先進的技術都沒有考慮計算成本的問題,導致這些技術在計算能力有限的設備上無法運行(例如,陪伴型機器人)。因此,本研究將輕量化的GhostNet模型,應用於臉部情感識別的模型,並將輕量化的一維卷積神經網路(One Dimensional Convolutional Neural Network, 1D-CNN)作為語音情感識別模型,再利用幾何平均數的方式將兩個模態預測的結果整合。所提出的模型,在RAVDESS和CREMA-D兩個數據集上分別取得了97.56%及82.33%的準確率,在確保了高準確率的情況下,本研究將參數量壓縮到了0.92M,浮點運算次數減少至0.77G,比起目前已知的先進技術要少了數十倍。最後,將本研究的模型實際部署在Zenbo Junior II中,並透過模型與硬體的運算強度作比較,得知本研究的模型能夠更加順利的在該硬體中運行,且臉部及語音情感識別模型的推理時間分別只有1500毫秒及12毫秒。
  • Item
    用於陪伴型機器人之輕量化深度學習音樂情緒辨識模型
    (2024) 林彥榕; Lin, Yen-Jung
    為了應對現今社會高齡化,導致老人缺乏陪伴導致的孤獨問題,本研究提出用於陪伴型機器人Zenbo Junior II的音樂情緒辨識模型來解決老人孤獨導致的情緒問題。在音樂情緒辨識這個研究領域中,雖然也有很多人已經在進行這項研究,但是這些研究中沒有能用於Zenbo Junior II的輕量化架構。本研究提出的方法是使用一維卷機神經網路(1D-Convolutional Neural Network, 1D-CNN)替換掉常用的2D-CNN並且使用閘門循環單元(Gated Recurrent Unit, GRU)使模型能更好的考慮音頻特徵的連續性。在訓練完模型後儲存並應用於Zenbo Junior II上,先將另一研究的情緒對應成4種情緒後播放音樂調適情緒。本研究提出之模型在PMEmo數據集上Valence和Arousal分別為0.04和0.038與其他模型相比效能最好。並且參數量僅有0.721M浮點運算次數僅有9.303M,遠小於其他相比較之模型。運算強度最靠近Zenbo Junior II之最佳工作點,且模型辨識音樂所需推理時間僅需229毫秒,可以即時辨識出音樂的情緒。這些表明本研究成功提出一個輕量化且效能優異,並且可以在Zenbo Junior II上運行的模型。
  • Item
    改良深度學習的人形機器人於高動態雜訊之視覺定位
    (2024) 隋嘉銘; Sue, Chia-Ming
    一些基於相機或其他技術的視覺 SLAM 方法已經被提出。 光學感測器來導航和了解其環境。例如, ORB-SLAM 是一個完 整的 SLAM 系統,包括視覺里程計、追蹤和定位 ORB-SLAM 僅 依賴使用單目視攝影機進行特徵偵測,但在與人形機器人一起工 作時,會出現嚴重的問題晃動模糊問題。深度學習已被證明對於穩健且即時的單眼影像重新定位是有 效的。視覺定位的深度學習是基於卷積神經網路來學習 6-DoF 姿 勢。 它對於複雜的照明和運動條件更加穩健。然而,深度學習的 問題是視覺定位方法的一個缺點是它們需要大量的資料集和對這 些資料集的準確標記。本文也提出了標記視覺定位資料和自動辨識的方法用於訓練 視覺定位的資料集。我們的標籤為基於 2D 平面( x 軸、 y 軸、 方向)的姿勢。最後,就結果而言可見,深度學習方法確實可以 解決運動模糊的問題。比較與我們以往的系統相比,視覺定位方 法減少了最大誤差率 31.73% ,平均錯誤率減少了 55.18% 。
  • Item
    基於Transformer物件關聯模型應用於籃球賽事分析
    (2024) 陳柏諺; Chen, Po-Yen
    在籃球賽事分析中,準確識別持球者和判斷得分時機對於確定得分者是關鍵挑戰。傳統的分析方法,比如物件重疊度和相對距離測量,往往在識別持球和進球時刻面臨較高的誤判風險。為了解決這一問題,我們對本團隊先前提出的Transformer-based Object Relationship Finder(ORF)架構的輸入特徵進行了改進,重點關注了幾個關鍵因素:與球密切相關的球員、球員的姿勢,以及不同的物件類型。這一策略顯著提高了架構在識別複雜動作和搶球情況下的準確度,使得持球者的識別準確率從原來的80.79%提升至86.18%,有效地展示了精準特徵選擇的重要性。此外,我們還利用Transformer-based Object Relationship Finder架構來識別進球時機,並結合最後接觸球的持球者信息,從而有效地判斷得分者,相較於傳統方法我們將得分者準確率從63.89%提高到了87.50%,這一成績突顯了Transformer-based Object Relationship Finder在籃球分析中的強大效能和廣泛應用前景。最後,我們開發了一款整合了這些技術的應用工具。這不僅讓教練和分析師能更全面地理解比賽情況,還為未來的籃球研究和技術開發提供了堅實的基礎。
  • Item
    基於 SwinTransformer 及深度學習網路之高光譜影像融合
    (2023) 李沃晏; Li, Wo-Yen
    高光譜影像(Hyperspectral Image)以及多光譜影像(Multispectral Image)融合常被用來解決高光譜影像問題,旨在融合低解析度高光譜影像(LRHSI)以及高解析度多光譜影像(HRMSI),是目前最常見的方法之一,通常高光譜影像的空間解析度較低,且直接取得高解析度之高光譜影像具有高昂的成本,而透過融合獲取高解析度高光譜影像是一種經濟實惠的方法。在影像處理領域融合方法是一種關鍵技術,因為高解析高光譜影像很好的促進了遠程材料辨識及分類任務,從而在衛星遙感領域獲得很大的關注。在衛星遙感領域很少有人嘗試使用Transformer,而Transformer在很多高級視覺任務中表現出驚人的成果,在本文中,我們提出了處理HSI/MSI融合任務的網路模型,基於SwinTansformer以及深度卷積網路(DCNN)之融合網路,稱為SwinDFN,SwinDFN由兩個部分組成:1)傳統卷積神經網路對HSI以及MSI影像初步融合,其中引入了Depthwise卷積技術來更有效地結合 HSI 和 MSI 之間的光譜響應函數以及對網路參數量做壓縮,2)具有殘差結構的SwinTansformer特徵提取模塊,來對影像特徵做增強,所提出之方法實現了基於規模較小的網路達到較好的HSI/MSI融合性能。
  • Item
    人形機器人騎乘電動機車時之視覺里程計
    (2023) 孫煜翔; Sun, Yu-Hsiang
    none
  • Item
    基於非監督式跨領域深度學習之單張影像雜訊去除
    (2022) 蔡洪弦; Tsai, Hong-Xian
    數位多媒體資料於我們的日常生活中已無所不在,尤其以影像及視訊資料為大宗,例如:隨時隨地皆有無法計數之影像資料來自各類行動裝置及無所不在之路邊監視器。這些龐大之影像資訊可能帶來日常生活中大量的應用。然而,影像資料之來源非常廣泛且品質難以控制。影像品質過低可能會使其相關應用之效能大打折扣,甚至毫無用途。因此,數位影像品質回復或強化已為一重要之研究議題。近年基於深度學習技術的快速發展,已有許多基於深度學習網路之影像品質回復技術問世。然而,目前架構大多基於端對端之監督式學習且利用人工合成之訓練影像資料集。其主要問題為以人造訓練資料所訓練之網路未必適合於真實世界之影像品質下降問題,且真實低品質影像及其高品質版本配對之資料集卻難以取得。因此,最近基於跨領域 (cross-domain) 之深度學習已被研究來解決可能之領域間隔閡的問題。本論文提出研究基於跨領域深度學習之影像品質回復技術,並嘗試解決目前方法潛在的可能問題,例如:(1)有限的一般化特性:可能使得現有方法難以適用於不同種類的影像;(2)領域偏移問題:對於無成對訓練資料之非監督式學習,可能會因不容易學到好的影像特徵表示法及因為低品質影像之影像雜訊變異過大的關係導致領域偏移;及(3)不明確之領域邊界:當訓練影像之雜訊變異過大及影像內容過於複雜且無成對訓練資料時,低品質及高品質影像間的領域界線不明,使得不易達成良好之跨領域學習。為了解決上述問題及考慮其實際應用,本論文提出一基於跨領域非監督式深度學習之影像雜訊去除網路架構。我們的目標為根據輸入之雜訊影像資料集學習影像特徵表示法,並使得此表示法能貼近乾淨影像之特徵表示法,以期達到更佳的影像品質回復。本論文提出利用雙向生成對抗網路將非成對之訓練影像分別做雙向之影像轉換 (雜訊轉換成乾淨影像及乾淨轉換成雜訊影像),並使用多項影像空間域及影像頻率域之損失函數以訓練一影像雜訊去除 (或噪聲去除) 深度學習網路。在實驗階段,我們使用了多個知名影像資料集 (CBSD68、SIDD及NIH-, AAPM- and Mayo Clinic-sponsored Low Dose CT Grand Challenge) 來訓練及測試所提出的深度學習模型。實驗結果已證實所提出的方法優於傳統基於非深度學習及近年具代表性之基於深度學習方法且適合用於解決實際問題。
  • Item
    蜂巢式網路用戶與V2X通訊共存異質性網路之功率控制與資源分配演算法
    (2021) 高漢棋; Gao, Han-Chi
    在現今資訊暴漲的時代,無線網路是由許多的物聯網和通訊裝置所組合起來,而對於基地台原本所服務的蜂巢式網路用戶來說,因為基地台所需要服務的用戶不斷的增加,導致了基地台之間嚴重的互相干擾,為此我們通過提出一個下行鏈路干擾緩解方案,在確保了蜂巢式網路用戶的前提下,也保障了系統內的其他次級用戶不受到干擾,本文中以V2X通訊代表次級用戶。本論文建立了一個有多個多輸入單輸出(MISO)小區的環境,並在其中設置了數台採用C-V2X通訊的無人車,並使用人工智慧中的強化式學習模型Deep Q-learing 結合波束成形技術,提出了一種功率調整與波束成形演算法,每個基地台都代表一個代理(Agent),並擁有獨立的神經網路,能夠根據基地台目前的環境做出適當的決策,我們的研究結果表明此演算法能夠有效保障蜂巢式網路用戶的權益(Utility),並透過波束成形技術避開無人車,從而達到降低干擾並提升系統效能的目的。
  • Item
    具影像特徵之LSTM深度遞迴類神經網路之日射量預測
    (2019) 周建華; Jhou, Jian-Hua
    由於日照強度會因為雲層厚度、空氣霾害等問題而受到影響,進而造成太陽光電發電量的不穩定,所以能夠準確的預測日射量是件重要的事情。在本論文中使用具長短期記憶(LSTM)的遞迴類神經網路(RNN)進行日射量的預測。首先建置一日射量紀錄系統,及天空影像採集系統,這兩種系統將記錄每天的日射量及天空影像變化,並儲存於MySQL資料庫。在天空影像方面,利用影像處理方法萃取出天空影像的特徵值,之後將影像特徵值與日射量做為LSTM遞迴類神經網路(LSTM-RNN) 輸入 ,以進行預測。最後,本文以領前五分鐘至六十分鐘進行日射量預測,並進行許多方法比較,以驗證本文所提方法的預測效能。