近二三十年來,數位科技的進步大大促進了各種不同知識學門在研究上的可能性....
課程說明
Course Description
近二三十年來,數位科技的進步大大促進了各種不同知識學門在研究上的可能性。由於電腦比對、計算能力可以快速地處理大量資料,使得之前很多光靠人力難以進行的研究議題 ,可以藉著電腦來完成。在這一波新的數位工具風潮中,台灣人文學科的跟進並沒有比較慢,但在研究工具的開發上則比較遲緩,直到近十年,所謂的數位人文才越來越興盛。本課程的目的,在於讓沒有從事數位人文學習的修課同學有初步的體驗,了解文字、數字、表格和圖表之間的轉換;另外一個重點則在於,利用Google Earth來進行資料整理。前面的一個重點,在於文本分析;後面的一個重點,則在於簡單地理資訊系統(Geographical Information System, GIS)的使用。修習完本課程的同學,可以建立自己的全文檢索、進行初步的文本分析,並將分析結果轉換成數字與圖表,以視覺化分析結果。Google Earth的使用,則可以將空間的思考帶入人文學的學習中,立體化文字資料與空間的關係,並且可以和田野調查與圖片(包括舊照片與舊地圖)結合。
藉由數位工具進行人文學的探勘,我們可以快速地掌握一本書、或幾本書的大致外貌;也可以將由這樣的初步的處理,再進一步把相關的文獻快速地檢索出來,進行更細緻的閱讀。
In the past two to three decades, the advancement of digital technology has significantly enhanced the possibilities for various knowledge disciplines in research. Due to the rapid processing capabilities of computers for data matching and computation, many research topics that were previously challenging to handle solely with human effort can now be completed with the aid of computers. In this new wave of digital tool trends, Taiwan's humanities disciplines have been keeping up, but the development of research tools has been relatively slow. It was only in the past decade that the so-called digital humanities began to flourish.
The purpose of this course is to provide students who have not been exposed to digital humanities with an initial experience and understanding of the conversion between texts, numbers, tables, and charts. Another focus is on using Google Earth for data organization. The first part emphasizes text analysis, while the second part focuses on the use of Geographical Information Systems (GIS) for basic geographic information. Upon completing this course, students will be able to create their own full-text searches, conduct basic text analysis, and transform analysis results into numerical and graphical formats for visualization. The use of Google Earth will introduce spatial thinking into the study of humanities, allowing the visualization of the relationship between textual data and space, and its combination with field surveys and images (including old photographs and maps).
Through the exploration of humanities using digital tools, we can quickly grasp the general appearance of a book or several books. We can also use this preliminary processing to rapidly retrieve relevant literature for more detailed readings.
指定用書
Text Books
♠ | 本課程所使用的數位工具/程式可以在下列網站取得: |
♠ | Freeplane: |
https://www.freeplane.org/wiki/index.php/Home | |
♠ | Notepad++: |
https://notepad-plus-plus.org/zh/ | |
♠ | AntConc: |
http://www.laurenceanthony.net/software.html | |
♠ | Corpro庫博中文語料庫-分析工具: |
http://dh.lis.ntu.edu.tw/resource.html | |
♠ | MSExcel (校園授權軟體) |
♠ | Google Earth: |
https://www.google.com/earth/download/gep/agree.html | |
♠ | Excel2Earth: |
https://ceiba.ntu.edu.tw/course/51f7ca/download.html |
參考書籍
References
♠ | 本課程的輔助教學錄影,可以在Youtube透過搜尋檢得。 |
https://reurl.cc/RzrDx |
教學方式
Teaching Method
♠ | 本課程在電腦教室進行,基本上每個單元,會以教師說明、示範,然後同學實做的順序進行。 |
教學進度
Syllabus
♠ | Week1 (3/7) 課程介紹 〡也會介紹一些其它人文學科常用到的數位工具,具體地讓修課同學了解數位人文的可能性。 |
♠
| Week2 (3/14) Freeplane 心智圖軟體:示範、說明與實做 〡心智圖裏面蘊涵了分析、綜合的兩種研究方式,也幫助我們對於所要分析、論述的課題,可以有一種全景式的掌握。Freeplane除了做樹狀式的展開,也可以重新綜彙分支,進行總結;再繼續展開。對於研究議題的腦力激盪、議題整理都很有幫助。 〡在這一節課程裏,同學將被要求一個多功能的心智圖,能夠呈現出資料的結構、分析綜合的關係、內部以及外部的超連結,並能夠利用心智圖進行類似報告。 【標記語言(一):認識網頁的真相】 〡標記語言,是目前處理數位資料幾種最常用的方式之一。本節課程的目的,一方面讓同學對網頁的超文本格式(HyperText Markup Language, HTML)有一基本的認識,一方面也藉由實做,讓同學了解網頁連結的機制。 〡在這一節課程裏,同學將被要求一個資料來裏,做出五個互相連結的網頁。 |
♠
| Week3 (3/21) NotePad++:說明與示範 〡Notepad++是一款非常受歡迎的文字編輯軟體,我們將利用它來學會 1.如何利用Notepad++來輚換中文檔案的內碼, 2.如何建立自己的全文檢索, 3.利用Markdown表示法來格式化文字, 4.進行「規則運算式」(Regular Expression)的複雜檢索, 5.利用「規則運算式」的取代功能來清理資料。 〡概念:迴避字元(escape character)。 |
♠
| Week4 (3/28) NotePad++:實做 〡在這一節課程裏,同學將被要求完成說明示範時所教授的各種功能,以具備清理數位文本的能力,以便進行進一步的文本分析。 〡並且進一步利用Excel來統計分析處理過後的資料。 |
♠
| Week5 (4/11) 〡資料比對是文史工作者必須常常面對的問題、從事的工作,也與我們種種對文本的判斷有所關聯。而電腦的特長正在於快速的資料比對,全文檢索就是一個很好的例子。在這兩週的課程中,我們將利用Notepad++處理資料,然後利用CText.org來統計、分析資料,並將統計分析的結果視覺化為圖表或網絡關係。視覺化不但會影響到我們的研究視角,也是教學上的利器,更是文史科系與其它學科進行交流最好的橋樑。而如何藉由處理資料、分析資料、統計資料,完成從文字到數字、表格與圖表的轉換,正是本次工作坊要完成的目標。 〡概念:N-Gram、文本異同比較。 【講義】 |
♠ | Week6 (4/18) CText.org線上平台與數位分析工具(二) 〡這個禮拜我們將實做CText.org平台的數位工具。 |
♠
| Week7 (5/2) CBDB說明與示範 〡CBDB (China Biographical Database 中國歷代人物傳記資料庫)由美國哈佛大學費正清中國研究中心、台灣中央研究院歷史語言研究所及北京大學中國古代史研究中心三個單位合作開發。目前收有約35萬筆的人物資料,主要集中在唐到清的人物。藉由這個資料庫,可以進行集體傳記學、地理空間、社會網絡等不同型態的研究。從本週開始,連續三週,我們一方面要藉著CBDB了解關聯式資料庫的原理,一方面也要熟悉CBDB的基本操作,以便在自己的研究中,可以利用它。 |
♠
| Week8 (5/9) CBDB實做練習 〡本週我們利用幾個題目來熟悉CBDB的操作。 |
♠ | Week9 (5/16) CBDB實做測試 〡本週將由同學展現利用同學實做幾個測試的題目,來驗收大家對於CBDB的熟悉程度。並同有一個研究題目的測試,亦即設計一個適合利用CBDB來進行研究的題目。 〡研究題鉬設計:請想出一個適合利用CBDB來進行研究的題目;並說明這個題目是什麼,以及如何利用CBDB來進行研究。並描述可能的研究成果。 |
♠ | Week10 (5/23) 〡本節將請台灣大學闕河嘉老師介紹她利用文本分析所做出來的研究例,以讓同學了解文本分析在現今社會可能的研究對象。 〡同學將被要求,完成一分瀏覽網頁後,所設想出來的研究題目。 |
♠ | Week11 (5/30) 〡本節將請台灣大學闕河嘉老師介紹她的團隊研發出來的語料庫分析工具─Corpro庫博。目前媒體喜歡解析各大國領袖重要談話的即時語頻分析,即是利用類似工具所做出來的結果。庫博則具有很多為台灣客製化的功能,比起AntConc更適合在台灣的同學使用。 〡同學將被要求利用Corpro來完成上週所設想出來的研究題目,以做為期末報告的主要內容之一。 |
♠ | Week12 (6/6) 〡標記語言對於人文學科,不管是語言內容的分析、結構的觀察,乃至於田野調查資料的整理都是最常用的手段。之前我們介紹了處理網頁呈現的超文本標記語言HTML,這節我們則將檢視做為網路資料庫最常見的可擴展標記語言(eXensible Markup Language, XML)中的一種西方人文學科標準 TEI (Text Encoding Initiative)。我們將請到長期主持法鼓山中華電子佛典 CBETA 標記的洪振洲老師來為我們講解 TEI 。 |
♠ | Week13 (6/13) 標記語言(二):TEI/XML的實做與MARKUS 〡在這一節課,我們將藉由oXygen Editor的編輯軟體來實做一個TEI檔案。並且利用用荷蘭萊頓大學所開發的MARKUS來進行半自動的文本標記。 〡同學將被要求,完成一個TEI標記檔案。 |
♠ | Week14 (6/20) 【期末發表會】 〡本次發表會將以同學所想到的文本分析計畫為主。若同學能夠再這個過程中,利用本學期所學到的其它技能來增加內容的豐富性,將在分數上,給予較優異的考量。 |
| |
| |