Browsing by Author "李奕璇"

Now showing 1 - 4 of 4

中文閱讀能力適性診斷評量編製研究
(國立臺灣師範大學教育心理學系, 2021-12-??) 李奕璇; 周業太; 宋曜廷; Yi-Hsuan Lee, Yeh-Tai Chou, Yao-Ting Sung
本研究建置了一套可同時評測整體閱讀理解能力，並診斷出字詞辨識、表層文意理解、文意統整、推論理解、分析評鑑之閱讀細項技能程度的中文閱讀能力適性診斷評量系統。此系統的適用對象為二至十二年級學生，為相關領域第一套可橫跨多個學習階段的中文閱讀測驗。本測驗透過現代測驗理論技術估算試題難度與學生能力參數，另藉由題庫建置、常模建置等作法，利用電腦化適性測驗的型式施測，可快速且精確地定位學生的閱讀能力程度，並長期追蹤能力變化情形。分析結果指出本測驗具備良好的重測信度、效標關聯效度、條件化信度、與IRT效度，顯示本測驗具有優秀的品質，可有效且穩定地評量學生的中文閱讀能力。
國民中學學生基本學力測驗寫作測驗信度與效度分析研究
(中國測驗學會, 2013-03-01) 王德蕙; 李奕璇; 曾芬蘭; 宋曜廷
「國民中學學生基本學力測驗」自2007年正式加考寫作測驗以來，外界對於寫作測驗的評分者一致性，以及每次只考一個題目是否足以評量到考生的寫作能力，始終非常的關心。加上國中基測屬於高風險測驗，考生人數眾多，影響極鉅，以及國內外在寫作測驗信效度研究上的不足，因此實有必要進行寫作測驗信效度之研究。本研究之研究目的有二：首先為探討「國民中學學生基本學力測驗寫作測驗」（簡稱「國中基測寫作測驗」）的信度，以類推性理論為主，輔以評分者一致率與評分者間相關等數據，作為驗證信度的依據；其次，蒐集命題設計、評分流程、寫作分數與其他效標的關聯等各種效度證據，以驗證寫作測驗之效度。期望透過本研究結果，一方面能提供測驗實務界關於高風險考試中如何監控與提升寫作測驗信度與效度的作法，另一方面可以讓社會相關人士了解「國中基測寫作測驗」的信度、效度之實徵證據。而研究結果也顯示「國中基測寫作測驗」確實具有良好之信度與效度。
摘要能力量尺之建置及摘要自動化批改系統之建置與效能評估
(2021) 李奕璇; Lee, Yi-Hsuan
國內近年來在十二年國民基本教育課程綱要（簡稱12年國教課綱）的推動下，更加重視素養的養成。當中受到最多關注的便是閱讀理解這項跨領域素養，隨之而起的則是關於閱讀教學、閱讀策略的討論。許多教師嘗試將閱讀理解的概念融入於教學中，亦時常要求學生進行各種閱讀任務（task），其中撰寫摘要被視為最能代表讀者是否獲知閱讀文本內容的方法，亦常被用作閱讀理解的檢核。然而，在實務上摘要評分工具的研發卻相當缺乏，且具有標準不一、測驗結果無法相互比較等問題。有鑑於此，本研究擬建構一套可應用於廣泛對象的摘要評分規準，調查學生的摘要能力發展，並透過試題反應理論（item response theory, IRT）建構摘要能力量尺，提供參照標準，使教師可有效地掌握學生的程度。更重要的是，為呼應閱讀教學之需求，本研究擬探討自動化摘要批改應用於讀後評量的可行性。本文依研究主體劃分為二，研究一的重點為，透過收集實徵資料，瞭解學生的摘要能力發展情形，並研發摘要評分規準，使教師在評估學生的摘要能力時有所依歸。而在研究過程中，專家批改摘要的結果，亦為研究二自動摘要評分的檢驗效標。研究一精選四份不同難度的文章作為測驗文本，要求受試者在進行閱讀後，透過撰寫摘要，重述文章的重要意涵。研究一的受試對象包含二至九年級學生，共2,003名。考量學生就讀年級的差異，受試者所閱讀的文章由研究者依難度進行指派，每位學生撰寫一至兩篇摘要，總計收集2,591篇摘要。所有摘要皆依本研究所建置的評分規準，透過四大向度（完整度、關鍵訊息、濃縮整合、以及遣詞用字）進行批改，綜合評估學生的摘要能力。批改者皆為本研究所招募的資深教師（本文稱專家批改者）。經由斯皮爾曼等級相關（Spearman’s rank correlation）分析每篇文本的兩個初閱分數，可發現評分者間具有高度的給分一致性，評分者間相關至少達 .85以上，評分品質穩定。除此之外，由於研究中的部分學生針對不同測驗文本，同時撰寫兩篇摘要，故所有測驗文本的批改結果可藉由共同人的設計進行等化，再藉由IRT分析，連結所有年級的能力表現，量尺化學生的摘要能力發展結果。分析結果顯示，與學生的摘要原始得分具有相同的趨勢，各年級學生的平均能力值皆隨年級遞增。相關結果不僅代表教師評分的有效性以外，亦可透過各年級的平均能力值建構摘要能力量尺，提供摘要能力定位的參考標準。而研究二著重自動化摘要批改模型的建立以及其效能之探討。本文利用機器學習（machine learning），以段落向量、潛在語意分析（Latent Semantic Analysis, LSA）、變換器之雙向編碼器表示（Bidirectional Encoder Representations from Transformers, BERT）等三種技術，結合密度尖峰分群法（density peaks clustering），生成電腦摘要。再依本研究建構的自動摘要評分模組，透過將學生摘要與電腦摘要相互比較的方式，評估學生摘要品質。為貼近教學實務需求，本研究之評分模組係依研究一之評分規準建置而成。擷取評分規準中屬於閱讀理解範疇的三大向度（完整度、關鍵訊息、濃縮整合），分別以學生摘要中納含主題的數量比率、學生摘要中關鍵詞彙的數量比率、和學生摘要與電腦摘要的語意相似性，等三個層面表徵學生摘要在完整度、關鍵訊息、濃縮整合的表現情形。在效能檢核上，本文分為兩個層面進行探討。第一部分為自動摘要生成的效果，本研究分別利用「召回率導向摘要評估」（Recall-Oriented Understudy for Gisting Evaluation, ROUGE）、概念詞重覆率、主題涵蓋率，檢核三項電腦技術所節錄的自動摘要是否足以代表原始本文。其結果發現，段落向量與LSA的自動摘要品質良好，且兩者效能在伯仲之間，BERT的成效則相對較差。而在本文的另一個探討重點，摘要自動評分的效能上，本研究藉由專家人工評分的結果與三個評分模型各別評估的摘要品質結果，進行相關性分析與準確率統計，比較三者之間哪一個模型與專家評分的相關性或是準確率最高，便代表其效能最好。經由斯皮爾曼等級相關分析顯示，三個評分模型在總分的相關係數介於 .61至 .68之間，接近高相關，在個別向度的相關上也至少有 .46以上的水準，且所有的相關係數皆達顯著水準，代表不管是哪一個評分模組的自動評分結果皆與專家評分的趨勢相近，具有良好的代表性。在準確率統計方面，三者的成效亦相當優良，鄰近準確率至少皆達8成以上，三者差異不大。而在穩定性上，則以LSA的表現最好。另一方面，本文亦導入專家評分者所整理的節錄式（extractive）摘要，同樣透過三個面向的評分模組，評估學生摘要品質並進行準確率統計。透過此方式，不僅可以得知哪一個模型的效能較好，更能進一步瞭解三個自動摘要評分模型的效能有多好。而相關結果顯示，縱使將電腦摘要替換為專家摘要作為比較基準，其自動評分的準確率並無明顯的差異，表示本研究所採用的電腦自動摘要技術良好，效能與專家摘要相近。相較於現有摘要能力評量，本文研究最大的優勢為，透過研究一蒐集跨學習階段的學生摘要，確立評分規準的有效性以外，更將學生的摘要能力表現建構於同一量尺之上，可供長期追蹤學生的摘要發展情形之用。此外，亦突破傳統做法，結合書籍難度，準確評估學生摘要能力。另一方面，在研究二的部分，以往資訊技術研發的重點大多聚焦於如何有效地生成電腦化摘要，鮮有針對中文自動摘要批改的研究。少數以電腦自動化摘要批改為號召的系統，又多僅以語意相似性評估摘要品質，忽略了摘要能力其他成分的重要性。而本文將自動化摘要技術附加電腦評分模組進行整合，可呼應摘要實務教學所重視的完整性、關鍵訊息、濃縮整合等層面的細項摘要技能；而藉由與專家人工批改結果進行跨域連結、比較，本研究進一步探究不同模型應用於自動化摘要批改的效能，此作法可望為相關領域的研發提供寶貴的實徵證據。
班級大小與學習成就、學業自我概念、和班級氣氛的關連：成就排比模型的檢驗
(2009-09-01) 李奕璇; 宋曜廷
班教學經常被視為改善教學品質、促進學業成就的重要策略之一，許多歐美研究文獻發現小班制對學生的學習成就具有正面的影響。另一方面，亞洲國家有關班級規模之研究卻呈現不同的結果，未支持小班制能提升學生成績的主張。宋曜廷等人（2009）更發現，台灣地區有班級越大，學生學習成就越好的現象，他們並提出「成就排比模型」來解釋相關現象。為進一步檢驗「成就排比模型」，本研究除再次調查班級規模與學生成就之關連外，並探討班級人數的多寡是否也會影響班級氣氛與學業自我概念，以及四者間的關係為何。本研究以1729位九年級學生為樣本，調查學生所知覺到的班級氣氛及學業自我概念，並追蹤該群學生參加97年國民中學學生基本學力測驗的成績，作為評估學業成就的依據。利用多階層線性模式分析資料，結果發現：台灣地區的國中階段存有班級規模越大，學生學習成就越好之現象。且發現大班學生因具有高學業成就，在英文、數學、社會等學科的學業自我概念也顯著優於小班學生；但小班的班級氣氛則優於大班，特別是師生互動與同儕互動等面向。此研究結果，大部分支持「成就排比模型」的預測。