Search Results

Now showing 1 - 10 of 22
  • Item
    基於深度學習發展自動車道置中控制應用於多車交通情況之自主駕駛
    (2021) 黃美琳; Huang, Mei-Lin
    近年來,自駕車已展現出在道路安全方面帶來重大改進的潛力。同時,許多基於人工智慧的自動駕駛技術被提出,用於從人類數據中學習駕駛任務。然而,針對複雜交通情況下的無人車,要達到人類水平的可靠性和安全反應是一項挑戰。 本文提出了一種自動車道對中系統的深度學習系統,該系統能夠處理多車互動場景。為了避免學習良好駕駛策略的障礙,尤其是在現有端到端方法中使用有限的專家駕駛數據的情況下,我們的系統將自動駕駛控制分為速度和轉向規劃器。此外,為了應對由於高度動態的交通場景和道路用戶交互而造成的複雜性,本論文使用強化學習架構來訓練這兩個規劃器,即使從其真實環境中收集到的數據有限,也可以有效地改善自動駕駛策略。本研究主要目標為,開發的自動車道居中系統可以通過練習新收集的數據和更新駕駛技術表示來模仿駕駛員的行為,從而提高其性能。為此,本研究使用CarSim車輛模擬軟體以及Python進行協同模擬,用於從人類駕駛員模型中學習複雜的駕駛技能的過程。實驗結果驗證了該方法在多車輛交通場景中的良好性能。實驗表明,在具有不同車輛和路況的不同軌道上,車道置中控制具有穩定而準確的性能。
  • Item
    應用於自動化生產及分揀之物件姿態估測系統
    (2020) 陳薪鴻; Chen, Hsin-Hung
    近幾年來,產業為了提升生產效率,大量使用自動化生產設備取代人力,透過電腦視覺與機器運動控制的整合搭配,已大幅增加自動化生產的效率。受惠於GPU計算平台的普及,不論機器學習或是深度學習技術紛紛出現於各種應用場景之中,以往使用電腦視覺方法不能或是難以解決的問題,透過引進深度學習都有出色的表現。本文主要研究內容可分為三部分:第一部分利用輝達(Nvidia)所提出之基於深度學習單攝影機物件姿態估測演算法(Deep Object Pose Estimation, DOPE),其中包含產生物件的立體模型,再匯入Unreal Engine遊戲引擎並搭配輝達深度學習資料集合成器(Nvidia Deep learning Dataset Synthesizer, NDDS)套件,產生訓練數據,用來對神經網路進行權重訓練,完成後即可用來對物件姿態進行估測;第二部分使用加拿大Kinova公司所生產之Jaco 2四軸機械手臂並透過機器人作業系統(Robot Operating System, ROS)完成物件夾取功能;第三部分運用PyQt設計一圖形使用者介面(Graphical User Interface, GUI)整合前兩部分,讓使用者透過單一介面即可獲得物件估測和手臂執行資訊,也可透過其進行參數調整。模擬於生產線上應用,用以輔助加工與分類之程序,達成自動化生產製造之目的。
  • Item
    以深度學習為基礎之多人即時動作辨識系統
    (2020) 蔡仁凱; Tsai, Jen-Kai
    隨著人工智慧領域快速的發展,人類動作辨識技術在近年來獲得極大關注,應用也非常廣泛,例如在長照中心對受照護者提供即時活動偵測,在工廠環境及公共環境中提供異常行為之偵測等,都能藉由動作辨識的結果實現提醒、警示、紀錄等智慧監控之功能,預防意外的發生,也解決人力資源短缺的問題。因此,如何利用穩健的動作辨識達到即時智慧監控的目的,實為一重要議題。本文提出一套以深度學習為基礎之多人即時動作辨識系統,以達到智慧型監控的目的,並應用於長照環境中。本系統結合YOLOv3與Deep SORT演算法,能從影片中同時偵測多個人物,並進行追蹤。在人物面對鏡頭時,還能透過FaceNet架構辨識人物身份姓名。對於遠距離人物而言,我們開發一套zoom in方法,根據人物框選的大小自動使用高解析度畫面以獲得更好的辨識效果。為了提升系統的穩健性,在將畫面輸入I3D前,我們會先模糊人物以外區域,減少背景帶來的影響。最後,利用非最大值抑制方法,降低因多個滑動視窗所造成的不穩定情形。實驗結果顯示,本文所提出的方法能夠實現一套即時多人之動作辨識系統。
  • Item
    基於光學相干斷層掃描血管造影視網膜圖像的視覺預測多流網路
    (2021) 謝承璋; Hsieh, Cheng-Chang
    視網膜前膜(Epiretinal Membrane,ERM)是一種慢性眼疾,肇因於視網膜的表面出現微細缺口,導致黃斑部增生一層纖維薄膜而影響視力。黃斑前膜手術為最典型治療方法,惟部分患者在手術後的視力恢復效果不佳,重要的因素之一是缺乏執行內限界膜(Inner Limiting Membrane,ILM)剝離時機的判斷,而此診斷障礙乃因為缺乏判斷黃斑前膜是否影響視力的標準,而導致醫生無法做出診斷,並於早期進行內限界膜剝離手術以提升術後的視力恢復。為了解決這個問題,本論文提出多種多流(multi-stream)神經網路,透過光學共輒斷層掃描(optical coherence tomography,OCT)、非侵入性光學共輒斷層血管掃描 (optical coherence tomography angiography,OCTA)、眼底螢光血管攝影(fundus fluorescence angiography,FFA)進行視力預測。我們收集454位患者上述三種影像並標記其視力資訊以訓練我們提出的多流神經網路,並以不同的影像輸入測試網路的效能。實驗結果顯示透過FFA全層、淺層、深層等三種影像在黃斑前膜患者的視力診斷中達到90.19%的準確性。最後,我們利用梯度權重類別活化映射(gradient-weighted class activation map,Grad-CAM) 可視化視力在OCT、 OCTA和FFA之間的特徵,幫助醫生進行診斷。
  • Item
    基於深度學習之即時異常操作程序監控系統
    (2022) 李作庭; Li, Tso-Ting
    本論文提出一任務監控系統,以確保人員操作程序與標準作業程序一致,避免意外或操作不當的情況發生,包含:影像目標偵測模組、手部動作辨識模組、用於穩定辨識結果之濾波器、以及程序比對演算法。作法係使用 SlowFast 動作辨識演算法,根據影像的取樣頻率,將輸入拆分為slow pathway 以及fast pathway,前者用於取得空間特徵,後者則增強對於時間特徵上之提取,使得模型可以取得更多時空間之資訊,進而實現精細動作的辨識,解決傳統動作辨識演算法只專注在單一取樣頻率進行空間特徵提取,不利於應用在連續動作辨識的限制。為了將該系統有效地實踐在實際應用場景,本論文亦使用YOLOv4偵測目標影像,濾除非目標事件之場景,當目標影像收集足夠的影像數量時,啟用SlowFast進行人員操作目標物之動作辨識,再使用一改良的濾波器用以降低辨識結果不穩定之情形,建立手部與施作工件等目標物件之相依動作行為之動作庫(action base)。隨後,利用一預先建立之標準作業程序動作庫,包含了操作物件以及相對應的動作,利用一比對演算法進行任務行為之檢測,判別人員操作程序流程是否符合規範。為驗證系統之性能,本論文將所提出之任務監控系統以一小型工作坊人機協作進行即時判斷,監督操作員的操作程序是否符合正確規範。
  • Item
    基於深度強化學習之移動大型重物
    (2020) 許哲菡; Hanjaya Mandala
    none
  • Item
    以深度學習拆解與辨識中文書法字之筆畫
    (2018) 吳彥德; Wu, Yen-Te
    本論文針對中文書法字領域中較少人關注的部分─筆畫,以往對於文字方面的研究大多是文字辨識,例如:光學字元識別(Optical Character Recognition,OCR),主要在於”辨識”出文字。本論文透過筆畫來理解文字並進行拆解、辨識以及重現,遂提出了基於深度學習之筆畫拆解與辨識及即時書寫系統,驗證平台是透過網路攝影機讀取文字影像再用並列式手臂(Delta Robot)做即時的書寫。基於深度學習之筆畫辨識系統採用近幾年急速發展的深度學習來進行物件辨識,深度學習已經在影像識別方面證明其強對大的能力,藉由大量數據集學習對應物件而產生理想的網路模型,以此模型辨識想尋找的物件。所以本論文採用深度學習並改良部分神經網路架構,以得到較好的筆畫辨識結果。本系統參考並沿用YOLO(You only look once)在即時(Real-time)偵測與定位上的優良檢測速度以及準確度,在得出辨識與定位結果後,利用辨識與定位出的物件資訊做進一步的物件分割,再採用影像前處理濾除干擾以及提取骨架,得到每個筆畫物件的座標點,最後交由並列式手臂進行書寫以及文字的重構。此外,由於訓練神經網路需要大量的運算,因此有關神經網路的執行以及訓練都使用GPU進行平行運算來加速。本論文將文字筆畫作為物件並使用深度學習進行辨識與定位,此方式能同時得到筆畫種類以及座標,並且基於YOLO網路架構針對筆畫辨識進行架構改良,進一步提升辨識、定位準確率,同時保持原有的辨識速度。
  • Item
    基於非監督式生成對抗網路及對比學習之水下影像品質回復
    (2023) 宋奕泓; Sung, Yi-Hung
    近年來水下環境之相關應用的重要性與日俱增,比如:水下資源探勘及水下環境監控。這些應用往往需要由水下無人載具來擷取水下數位影像資料以供後續之資料分析及其相關應用 (例如:水下物件偵測及水下影像分類等相關應用)。然而水下影像品質受到許多環境因素影響而造成影像退化,包括光線折射、反射等等,如此可能使得基於水下影像之相關應用無法得到良好的效果。近年來,隨著深度學習技術蓬勃發展,研究者提出許多基於深度學習的模型來改善水下影像的品質。目前現有方法中,以具備成對影像資料之監督式深度學習模型為主。成對影像學習雖然能以較輕量模型得到好的影像品質回復效果,但礙於現實難以取得成對的原始水下影像及其還原之陸上影像,因此模型訓練上受到許多限制。為了解決這個限制,許多研究以人工合成之影像來建立成對之訓練影像資料集。然而,人工合成之訓練影像資料集未必能反映真實的水下影像特性。為了解決此問題,最近已有研究提出使用生成對抗網路及非成對影像資料來進行深度學習網路訓練。本論文提出一基於非成對影像資料及生成對抗網路之深度學習模型,來處理水下影像回復的問題。本論文提出基於非成對訓練影像資料集及利用生成對抗網路架構訓練一影像領域轉換生成器將輸入之水下影像轉換為對應之陸上影像 (回復之水下影像),其中我們利用對比學習及多樣損失函數來進行網路訓練。實驗結果已證實我們的方法可得到較佳的回復影像品質且優於 (或近似) 現有基於成對/非成對訓練資料之基於深度學習之水下影像回復網路。
  • Item
    結合Unreal Engine 4與生成式對抗網路之車牌影像合成系統
    (2021) 陳欣儀; Chen, Hsin-Yi
    車牌辨識已經是一門成熟的技術,廣泛被應用於停車場之車輛管理、道路收費系統、道路交通監測等領域。隨著深度學習的蓬勃發展,現已有許多能夠出色完成車牌辨識之網路,然而在訓練中不可或缺之車牌資料,於資料之獲取及準備階段相當耗費時間跟人力資源,甚至根據地區或狀況上的差異,需要之車牌資料會有字母、字型、角度、環境等不同的組合,若符合欲研究條件之車牌資料不足,也會有需要重新拍攝合適之車牌資料並重新進行標注的可能。因此本論文提出了一種車牌資料的合成方法,結合3D圖像軟體Unreal Engine 4以及CycleGAN,嘗試在不使用任何真實車牌影像輔助之條件下製作出可使用於車牌辨識訓練之合成車牌資料,以減少車牌辨識之相關研究用於資料收集及標記整理之時間與人力成本並強化車牌辨識效果。合成出來之車牌影像於視覺上與真實車牌相似,並且被證明能有效地提升作為辨識網路之YOLOv4之準確度。以3179張之真實車牌影像所訓練出來之YOLOv4為比較基準,我們所提出之合成方法所製作出的車牌影像能將原本97.00%之mAP提升至98.04%。
  • Item
    自動樂譜辨識與打擊樂機器人系統
    (2020) 黃朝慶; HUANG, Chao-Ching
    光學樂譜辨識系統是一套針對樂譜影像進行影像辨識的系統,在樂譜影像中,音符是用以記錄音階和節拍的資訊,在過去許多的研究和實驗當中,針對高解析度的樂譜辨識系統已經達到成熟的階段。然而,基於相機影像的樂譜辨識會受到環境光線、角度和模糊的影響,故仍有進一步研究的必要,我們初次嘗試將深度學習架構應用在基於相機影像的樂譜辨識系統。首先,我們使用線偵測演算法在即時攝影畫面中自動偵測樂譜影像,並找出樂譜當中的五線譜範圍,因為我們只專注於五線譜當中的音符資訊,為了完成這個任務,我們使用霍夫線偵測演算法並取得每一行五線譜的範圍。接下來,為偵測、切割及辨識每一個音符,我們將每一行獨立的五線譜送至基於Darknet53網路之YOLO v3的檢測模型當中,目前可以辨識六類的音符分類名稱分別為全音符、二分音符、四分音符、八分音符、四分休止符和二分休止符,再者,將YOLO v3所偵測到的音符根據樂譜中的位置進行排序,並送至卷積神經網路用以辨識音階,現階段我們可以辨識C3到F4共十一類的音階,最後我們透過RS232連接Delta機械手臂進行樂器的演奏。在光學樂譜辨識的發展中,我使用霍夫線偵測樂譜中每行的五線譜範圍,如此我們可以避免歌詞或圖案的雜訊,減少辨識的錯誤。不僅如此,透過自動化五線譜偵測所取得的樂譜影像使用深度學習的架構進行辨識,並在介面上顯示音階和節拍,至終,我們使用機械手臂進行演奏。