11301 人文社會學群 中國文學系

本體研究與文史研究

祝平次 教授

中國文學系
國立清華大學中國文學系教授
美國哈佛大學東亞語言文化  
【網站】http://tinyurl.com/pingtzuchu
【信箱】ptchu@mx.nthu.edu.tw
【專長】宋明理學、儒家倫理學、數位人文

News

最新公告

2024-09-23 【 2024未來科技獎名單 】揭曉本校共有14件關鍵指標技術獲獎。恭喜馬席彬教授、曾繁根教授、金雅琴教授 ! 恭喜各位老師 !!
2024-09-18 白先勇清華文學講座4〡文化的記憶與重建 〡台灣篇❤️倒數計時上架中 !
2024-09-18 WE open We share !
2024-09-13 庖丁解牛擴散與相變化,材料系朝和大師帶你乘著理論飛向應用!
2024-09-12 恭喜潘詠庭教授榮獲國科會113年度吳大猷先生紀念獎
2024-09-06 【本日熱燒頭條】黃倉秀教授材料熱力學1.2課程完整版講義上傳囉!!! 謝謝倉秀老師❤️
2024-09-03 資工系周百祥教授作業系統(全英文授課)講義新鮮發行中!
2024-09-02 白先勇清華文學講座 5〡文學 X 電影二重奏❤️課程大綱!
2024-08-15 【創意小學堂– 動畫懶人包立馬打造您的動畫魂!】
2024-08-14 【11202 開放式課程工讀招募】沒有穩定的工作、只有穩定的能力,誠摯地歡迎您加入我們的行列!!
2024-08-14 2024.3/27中技社:AI在服務領域應用研討會(線上與實體同步)敬邀您的熱情參與!
2024-08-14 2020-2023 年度熱門課程 : 資工系周志遠教授簡介
2024-08-14 【魅力專欄】鄉民最愛迷因網站梗圖倉庫-用鄉民梗激發您的學習力 !
2024-08-14 10920趙啟超教授離散數學版書上架通知 !!
2024-08-14 2024年9月-11月開放式課程工讀招募至8/23(五)12:00截止,工讀履歷隨到隨審,謝謝!

Syllabus

課程大綱

課程說明
 Course Description

優越的文史學科研究,常常需要植基於對於文本資料的掌握。以前的文史研究者對於文本的掌握,
 常常依賴超人的記憶力,以及卡片檢索系統。但這樣的情形,由於教育培養的方式差異,今天的文史學者很少接受上面兩者的訓練,導致對於資料掌握的情形並不理想。這種情況更因為文史研究能力需要長時期的培育,因而更形嚴重。但由於數位資訊技術的發遠,利用數位技術來彌補現今學者缺乏傳統訓練,成為人文學界必須嚴肅面對的問題。本課程的設計,有兩個重點。第一個重點,在於學習如何利史丹福大學所開發的Protégé(http://protege.stanford.edu/)數位工具把文本變成知識庫(knowledge base);第二個重點,則在第一個重點的基礎上,利用文本分析工具(庫博與AntConc),來進行文本分析。每位修習課程的同學,需在最後一週,在「本體知識工作坊上呈現自己一學期實做的成果,並完成一篇依據自己所擇取的研究文本的學期研究報告。報告的成果,必需與課堂上學習的研究方法相關。
以下再對兩個課程重點詳加說明。
知識庫的結構(ontology),在台灣譯為「知識本體」,原為西方哲學中的「存有論」,討論物的存在
 以及物與物之間的關係;後來被資訊學者轉用到知識庫的建立上。而建立知識庫的一大目的,則在於讓電腦可以自動判讀資料,以及在電腦與電腦之間進行資料分享。(Semantic Web)簡單來講,具體來講,就是讓電腦可以跨越資料的內容,例如不只是把「洋裝」當做「洋裝」,而可以進一步以不同的方式將「洋裝」連繫到「衣服」、「女性」;抽象來講,知識本體就是讓電腦可以認識「世界」或「世界」的某個特別的部分的架構。而所謂的「認識」,和人類的語言的運用有密不可分的關係,因而知識本體也和讓電腦能自動判讀語意有關係,最著名的例子之一,就是美國普林斯頓大學發展出來的WordNet。中文的詞彙,也有一些嘗試,如中研院語言學中文詞彙網路。本課程的目的,並不在於學習建立一個抽象的知識本體,而在於為現成的文本編造一個知識本體。藉由建立知識本體的過程,將文本後面所隱含的世界突顯出來。並藉由這個過程,加強對於文本的掌握。亦即,我們要藉由建立知識本體的軟體來突顯資料的結構。例如,在《論語》裏,我們可以質問下列的問題:有那些弟子問過孔子話;有那些弟子被孔子評論過;有那些弟子是孔子主動跟他講話?當我們這樣結構化《論語》裏的文本以後,我們很容易就可以利用同樣的問題去質問其它的文本,從而比較在先秦文本問答體的一些相關問題。當然,我們也容易可以去問,什麼樣的「器物」以什麼樣的分類出現在一個文本裏,然後比較在不同文本裏所呈現的「器物」世界的不同。然後,可以進一步思考結構化資料與我們研究的關係,期待在這樣的操作下,對於一些經典議題可以有新的發掘方式。
以下再對兩個課程重點詳加說明。
知識庫的結構(ontology),在台灣譯為「知識本體」,原為西方哲學中的「存有論」,討論物的存在
 以及物與物之間的關係;後來被資訊學者轉用到知識庫的建立上。而建立知識庫的一大目的,則在於讓電腦可以自動判讀資料,以及在電腦與電腦之間進行資料分享。(Semantic Web)簡單來講,具體來講,就是讓電腦可以跨越資料的內容,例如不只是把「洋裝」當做「洋裝」,而可以進一步以不同的方式將「洋裝」連繫到「衣服」、「女性」;抽象來講,知識本體就是讓電腦可以認識「世界」或「世界」的某個特別的部分的架構。而所謂的「認識」,和人類的語言的運用有密不可分的關係,因而知識本體也和讓電腦能自動判讀語意有關係,最著名的例子之一,就是美國普林斯頓大學發展出來的WordNet。中文的詞彙,也有一些嘗試,如中研院語言學中文詞彙網路。本課程的目的,並不在於學習建立一個抽象的知識本體,而在於為現成的文本編造一個知識本體。藉由建立知識本體的過程,將文本後面所隱含的世界突顯出來。並藉由這個過程,加強對於文本的掌握。亦即,我們要藉由建立知識本體的軟體來突顯資料的結構。例如,在《論語》裏,我們可以質問下列的問題:有那些弟子問過孔子話;有那些弟子被孔子評論過;有那些弟子是孔子主動跟他講話?當我們這樣結構化《論語》裏的文本以後,我們很容易就可以利用同樣的問題去質問其它的文本,從而比較在先秦文本問答體的一些相關問題。當然,我們也容易可以去問,什麼樣的「器物」以什麼樣的分類出現在一個文本裏,然後比較在不同文本裏所呈現的「器物」世界的不同。然後,可以進一步思考結構化資料與我們研究的關係,期待在這樣的操作下,對於一些經典議題可以有新的發掘方式。
文本分析的重點,則著重在利用一些軟體,進行關鍵詞分析、n-gram分析、正則表示式的使用
 等等,並將分析的結果利用MS Excel轉為圖表、圖象的報告。
修習本課程結束後,同學將對於資料/知識結構、資料庫以及文本分析,以及資料的形式轉換可以
 有基礎的掌握,並運用於自己的研究上。對於文本資料的理解深度與整體性的掌握,因為藉著比較具體可視的方性進行,應該會加強很多。在課程的實做中,同學也可以從中學會如何與別人進行協同研究。
本課程的重點在於從實做中學習,沒有時間進行每週作業、不願意跟同學互動的同學,
 請勿修習本課程。
  
 

進行方式

本課程以實做與討論為重點。每一週,同學必須進行課後的實際操作與成果記錄
 反省,然後把成果記錄拿到課堂上討論。
學期中段以後,會安排每次上課由一到兩組同學報告。
最後兩個禮拜則是安排在人社院進行實際成果的報告。

 

 

Keyword

關鍵字

  • 本體研究與文史研究
  • Ontology structure and literature and history research

Chapters on OCW

Teachers

祝平次 教授

Social Share

Links

Details