從e考據到AI考據:談歷史學生的出路
我大學本科是讀歷史的,讀書的時候看前人的著作時常常感嘆他們那個時候沒有電腦、沒有網絡、沒有史料數據庫,找資料是多麼艱難。
進入資訊時代後,做歷史研究確實是遠比前輩容易得多。台灣歷史學家黃一農教授2005年曾提出所謂「e考據」,即利用電子化後的史料來做考據,其好處是數量龐大(據說目前已經有70億字的電子清代史料)和容易搜索關鍵字。這種說法在現今歷史學生看來毫不稀奇,甚至可說是如同吃飯喝水一般平常,但在那個時候確是創舉。
但是,為什麼現在很多歷史學生往往還是做不出什麼有價值的工作?很多人寫的東西反而還是在抄上個世紀學者做的東西?
在我眼中,「e考據」對於很有底子的學生來說是無比鋒利的利器,對於看書不多的學生卻只是一把聊勝於無的鈍刀。我是遊戲愛好者,打個比喻就是 RPG 遊戲裡力量不足卻去裝備重型武器,能發揮的攻擊力可能只是三四十%。
為什麼這樣說?其原因在於如何「搜索」。對於歷史研究來說,研究者搜索的不是搜索引擎,而通常是那些史料庫(比如我常常看的明清實錄資料庫)。但是這些資料庫無一例外都是只會提供簡單搜索。所謂簡單搜索,即是根據關鍵字,簡單地搜索出完全對應的史料部分。
這樣的搜索能找出的東西可說是歷史研究中「低垂的果實」,不用想就知道早就被人摘過了。比如説我在史料中要找關於和尚的資料,只搜索「和尚」是遠遠不夠,可能還要搜一下「僧」、「禿」、「禿驢」之類,更別說古代通假字、異體字極多了。具體的物像至少還有跡可循,如果研究抽象一些的東西,甚至可以連關鍵字都想像不出來。(比如尋找某段時期出現的某種思想傾向之類)
歷史學是用史料說話的學科。可以說,找對了關鍵字已經成功了一半了。當用關鍵字找到了可用的資料,最後整理、寫作的階段不過是舉手之勞罷了。
但是搜索系統可以做到我輸入一個關鍵字,就連同義或相近意思的詞都一起搜,甚至連含糊、比喻式的表達也搜索到嗎?(尤其是某些文字獄發達的時期可能很多)
在以前,這種絕對是連在夢中都不能實現的神跡,但是現在 AI 大語言模型的出現可以說是一絲曙光。AI 可以短時間便讀遍數百萬字、甚至數千萬字的東西,然後逐字逐句來分析其中是否有研究者想找的東西,而不是簡單的搜索。
但是使用 AI 模型遠比簡單搜索的門檻要高(即使只是使用而非研發)。AI 模型(如大語言模型)通常需要用戶具備一定的技術知識才能有效使用。例如,可能需要了解如何構造提示詞(prompt)、調整參數或理解模型的輸出邏輯。
許多 AI 模型也並非直接嵌入史料庫中,可能需要通過API、編程接口或其他工具調用。例如對於過百萬字的史料,便需要將長文本先分割為多個小塊(chunks),通過API輸入模型,最後整合結果。這對非技術背景的研究者已是一大障礙,更別說RAG、Fine-tuning等進階方法了。
很多歷史系學生上學時都喜歡只上自己感興趣的歷史系課,而對編程技術一竅不通,使他們難以有效利用 AI 大模型這一新時代的利器(這裏是說用AI考據史料,不是直接用AI寫論文,後者是作弊)。
喬布斯曾說:Everyone Should Learn to Code。雖然他未預見 AI 大模型時代,但這句話在當今還是無比正確的,對於歷史系學生更是至理名言。
另一方面,跨領域學習真的是不可能嗎?我卻認為,最難的反而是開始下定決心要學習那一瞬間。前文提到的黃一農教授是我學習歷史時的一個偶像,他便是跨領域、轉換跑道的翹楚。他原是藤校物理學博士、頂尖天文學家(據他說,他曾經是世界上研究宇宙物質前十幾的學者,未曾學過一天的科班歷史課),卻一下子跑去研究歷史,之後又研究紅學,均在這些領域達到了頂尖的水平。難怪他可以輕鬆擺脫傳統考據的藩籬,大膽提出e考據了。
黃一農教授曾說過一個「大樹理論」:每一個成熟的領域(歷史、物理、數學這些)就是一個大樹,每棵樹都已經生長得非常高大,你是大樹底下的一顆小苗,看不到上面的陽光。你要在那裏發展,可以,但是你要花非常大的力量。如果你能在這些大樹之間長出新的樹,樹雖小,但上面有自己的陽光,可以吸收旁邊大樹的養分,也可以茁壯成長。學生要敢跨界、走出熟悉的環境,去面對挑戰。如果你敢做,這就是你的機會。