數(shù)據(jù)時(shí)代的詩詞之問
提起大數(shù)據(jù),人們腦海中往往會浮現(xiàn)出自然科學(xué)、社會科學(xué)、商業(yè)經(jīng)濟(jì)等領(lǐng)域應(yīng)用海量數(shù)據(jù)和復(fù)雜算法的場景,而不太會將其與凝聚著文學(xué)之美的古典詩詞聯(lián)系起來。仿佛詩詞之美可以被感受、允許被討論,但不能被計(jì)算。然而,無論是在學(xué)術(shù)研究中,還是出于閱讀好奇,我們常會碰到這樣的問題:
古代各朝有多少詩人?多少女詩人?唐人和宋人哪個更愛寫格律詩?宋詞有多少詞牌?哪個詞牌最受詞人歡迎?《唐詩三百首》中誰的詩最多?李白與杜甫誰的影響大?唐人七律第一,該頒給崔顥的《黃鶴樓》還是杜甫的《登高》?周邦彥和姜夔誰的音樂水平更高?李白“一生好入名山游”,蘇軾“身行萬里半天下”,他們到底走了多少地方……
這些問題,有的需要統(tǒng)計(jì)數(shù)據(jù)來作答,有的看似屬于藝術(shù)判斷,實(shí)際也需要科學(xué)邏輯和數(shù)學(xué)思維來支撐,有的問題目的不在數(shù)量多寡而在具體內(nèi)容。信息時(shí)代的數(shù)據(jù)思維,給我們認(rèn)知古典詩詞新辟了一扇窗。數(shù)據(jù)可以是量化的數(shù)值,也可以是非量化的信息。無論哪種數(shù)據(jù),都有各自的價(jià)值和使用場景。
詩詞中的量化數(shù)據(jù)及其作用
傳統(tǒng)意義上的數(shù)據(jù),指“有根據(jù)的數(shù)字”,比如靠樣本統(tǒng)計(jì)獲得的量化數(shù)據(jù)。一個時(shí)代或者一個地區(qū)的存詩總量、作家人數(shù),或者一位作家的經(jīng)行地方、創(chuàng)作的某體數(shù)量,或者一個選本的選人數(shù)量、作品數(shù)量,一個詞牌的使用次數(shù)、使用人數(shù),一首詩詞在歷代選本中的入選次數(shù)、被歷代作家唱和的次數(shù)等,都屬于量化數(shù)據(jù)。
量化數(shù)據(jù)可以在樣本范圍內(nèi)準(zhǔn)確描述研究對象的基本格局。以著名選本《唐詩三百首》為例,蘅塘退士從兩千多位唐代詩人的五萬多首唐詩中,精選出77家的312首詩分體編成。各體選詩數(shù)量為:五古32首、七古28首、五律80首、七律53首、五絕29首、七絕51首、樂府39首。從占比看,古體詩和格律詩的比例近乎一比二。其中五古選詩最多的是中唐詩人韋應(yīng)物(7首),七古選詩最多的是杜甫和李頎(各5首),五律選詩最多的是杜甫(10首),王維和孟浩然次之(各9首),七律選詩最多的是杜甫(13首),李商隱次之(10首),五絕選詩最多的是王維(5首),七絕選詩最多的是杜牧和李商隱(各7首)。而李白入選的作品大多在樂府(12首)。從選人看,入選率最高的前四位是:杜甫39首、李白29首、王維29首、李商隱24首??梢娛⑻圃娙俗钍芡瞥纭6鸥Σ粌H是入選率最高的詩人,也是入選作品覆蓋七種詩體的全能型詩人。而在唐代存詩量最多的詩人白居易僅6首作品入選。
這些數(shù)據(jù),既能體現(xiàn)作家的創(chuàng)作特點(diǎn)和時(shí)代地位,也能反映選家的審美偏好和詩體觀念。有的選本流傳廣遠(yuǎn),甚至能夠影響一代讀者的詩詞審美。如果將統(tǒng)計(jì)樣本橫向擴(kuò)大到其他選本,可考察歷代選本的選詩標(biāo)準(zhǔn)和變化特點(diǎn);如果縱向聚焦某位詩人或相關(guān)詩作,還可考察詩人在不同時(shí)代的影響力和名篇的穩(wěn)定性。
▲《唐詩三百首》書影。
量化數(shù)據(jù)還能為難以公斷的某些學(xué)術(shù)判斷提供思路和科學(xué)支撐。以文學(xué)經(jīng)典研究為例,“唐人七律第一”是個自古聚訟的話題,“李杜優(yōu)劣論”也歷史悠久。誠然,藝術(shù)審美是一種個性化、主觀化的體驗(yàn),很難為審美尋求一份標(biāo)準(zhǔn),也不必建立這樣的標(biāo)準(zhǔn)。但在學(xué)術(shù)研究中,可以通過“影響力研究”為經(jīng)典作家和經(jīng)典作品尋求一種評價(jià)方式。衡量一部影視作品的影響力,可以考察其獲獎級別、評分情況、重播次數(shù)、相關(guān)活動等。衡量一首詩詞的影響力,也可以通過一系列“指標(biāo)”來分析,比如選本對于詩詞的流傳影響深遠(yuǎn),評點(diǎn)也能體現(xiàn)詩詞在專業(yè)領(lǐng)域的關(guān)注度,語文教材常常塑造著青少年的詩詞印象,文學(xué)史則在很大程度上定位了作品的級別。指標(biāo)有了,再選取一些合適的樣本對指標(biāo)量化,并結(jié)合計(jì)量科學(xué)的特點(diǎn)和文學(xué)研究的實(shí)際,對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算,就可以在比較客觀的前提下得出相對理性的結(jié)果。數(shù)十年前,王兆鵬教授等專家學(xué)者的《尋找經(jīng)典——唐詩百首名篇的定量分析》《影響的追尋:宋詞名篇的定量分析》《唐詩排行榜》《宋詞排行榜》等論著,就是基于影響力分析的計(jì)量研究成果。
例如在《唐詩排行榜》中,位列榜首的作品是崔顥《黃鶴樓》,這多少有點(diǎn)令人驚訝。再考察其各項(xiàng)指標(biāo),會發(fā)現(xiàn)這首詩在列入統(tǒng)計(jì)樣本的33種古代選本中入選率最高,被歷代詩論家品評的頻次也最高,當(dāng)代文學(xué)史更是無一漏收??梢哉f,是古今詩選家、詩論家以及文學(xué)史的編撰者共同的認(rèn)可,將這首詩送至榜首。數(shù)據(jù)背后的信息,還能啟發(fā)我們考察不同時(shí)期詩選家和詩論家對同一首詩歌的關(guān)注度,從而用歷史性、階段性的眼光來看待經(jīng)典的形成過程。這種通過設(shè)定指標(biāo)來量化分析研究對象的思維和做法,比主觀好惡的感受更加科學(xué)、公允。
▲《唐詩排行榜》書影。
詩詞中的屬性數(shù)據(jù)及其價(jià)值
進(jìn)入信息時(shí)代,“數(shù)據(jù)”的內(nèi)涵也在擴(kuò)大,而不僅指代“數(shù)字”。就詩詞而言,還包括反映詩詞某類屬性的文本或信息,稱之為屬性數(shù)據(jù)。一首詩詞的作者、標(biāo)題、詩體、詞體、題材、意象、時(shí)間、空間,一個作家的姓名、字號、郡望、籍貫、出生地、生卒年、家庭成員、朋友同僚、社會身份,甚至一首格律詩的韻字、對仗,一闋詞的詞牌、詞格,都是詩詞的屬性數(shù)據(jù)。
屬性數(shù)據(jù)可為量化數(shù)據(jù)提供計(jì)量基礎(chǔ)。前文所述各類統(tǒng)計(jì)數(shù)值,如某種詩體的數(shù)量、某地作家的數(shù)量、某個詞牌的使用次數(shù)等,都基于相關(guān)屬性的先行標(biāo)注。屬性數(shù)據(jù)更大的價(jià)值在于,可以支撐主題豐富的學(xué)習(xí)或研究,拓寬詩詞認(rèn)知的邊界。
以空間屬性為例,詩詞中存在各種各樣的地名,包括詩詞文本中的行政地名、景觀地名、意象地名,以及作品的創(chuàng)作地、流傳地,還有作家的籍貫地、出生地、任職地、行經(jīng)地、謫居地、埋葬地等。比如杜甫《聞官軍收河南河北》一詩,標(biāo)題中的“河南”“河北”、詩句中的“劍外”“薊北”“巴峽”“巫峽”“襄陽”“洛陽”、原詩自注“余家園在東京”中的“東京”等地名,加上這首詩的寫作地點(diǎn)“四川省綿陽市三臺縣”,這些地名指示的地理位置,攜帶的歷史信息,是理解這首作品詩意和作者情感的關(guān)鍵。
詩詞中的地名信息,有的比較顯而易見,有的需要深度挖掘,有的涉及到懸而未決的學(xué)術(shù)問題。但長期以來,文學(xué)研究中空間觀念相對單薄,導(dǎo)致作家年譜的編撰和作品的編年箋注工作,大多重視時(shí)序的編排,比較忽略地點(diǎn)的落實(shí)。在文學(xué)審美中,地名也常被當(dāng)作專有名詞對待,而沒有釋放出蘊(yùn)含的能量,發(fā)揮應(yīng)有的作用。這與歷史研究中的時(shí)空一體觀,很不相稱?;谶@種狀況,近年來王兆鵬教授主持的“唐宋文學(xué)編年地圖”,將空間屬性提高到和時(shí)間屬性同等重要的地位,大量挖掘并標(biāo)記作家及作品中的各類空間屬性數(shù)據(jù),并融合歷史地理數(shù)據(jù),運(yùn)用GIS技術(shù)繪制了唐宋詩人的軌跡地圖,實(shí)現(xiàn)了年譜的地圖化、作品的空間化。
▲“唐宋文學(xué)編年地圖”之“蘇軾行跡圖”。
一串串地名,將蘇軾從出生、科舉、仕宦、貶謫到去世的人生連接成線,將他的詩詞文賦、書畫創(chuàng)作、平生交游、宦海沉浮,在地圖上劃出一條獨(dú)特的東坡印跡。通過這條印跡,讀者不僅可以瀏覽蘇軾一生所有編年作品、大事小事,也能清楚指出“黃州惠州儋州”,更會對蘇軾“身行萬里半天下”、“九死南荒吾不恨”、“一蓑煙雨任平生”的詩句詞句,產(chǎn)生別樣體會。關(guān)注詩詞中的空間信息和地名數(shù)據(jù),可幫助讀者充分了解作家、解讀作品,讀出背后的信息、情感、美感。
詩詞中的地名隱藏著許多歷史地理信息,了解這些信息既能輔助詩歌編年系地,還可鍛煉讀者嚴(yán)謹(jǐn)?shù)目茖W(xué)思維和問題意識。例如,詩詞中的古今地名問題。以李白《陪宋中丞武昌夜飲懷古》為例,標(biāo)題中的“武昌”是個歷史地名,想知道其確切所指,要查閱地理文獻(xiàn)中“武昌”的地名演變。根據(jù)唐代李吉甫《元和郡縣圖志》和清代顧祖禹《讀史方輿紀(jì)要》等文獻(xiàn)可知,盛唐時(shí)期的“武昌”,仍指三國時(shí)期孫權(quán)改鄂縣立武昌郡之“古武昌”,即今天湖北省鄂州市地區(qū)。而被今天武漢三鎮(zhèn)之“武昌”所用,始于中唐元和年間設(shè)立“武昌軍”。李白筆下的“武昌”,只能是今天湖北省鄂州市,而不是武漢市。那么盛唐詩人如何指稱武漢呢?答案是“江夏”或者“夏口”。李白《江夏送友人》,王維《送康太守》中的“鐃吹發(fā)夏口”,所指皆武漢。中唐以后,武昌地名兩用,如詩人劉長卿的詩句“上下武昌城,長江竟何有”。宋人為作區(qū)分,有時(shí)仍以“夏口”古地名指稱上游的“武昌”,如蘇軾《赤壁賦》中“西望夏口,東望武昌”。關(guān)注詩詞中的古今地名,可以拓展思維。
除了地名數(shù)據(jù),詩詞中的意象、物象、天象、氣象、語典、事典、格律、音韻等數(shù)據(jù),每一類都有獨(dú)特內(nèi)涵和意蘊(yùn),都可衍生出相關(guān)話題或研究。數(shù)據(jù)創(chuàng)新可以激發(fā)思維創(chuàng)新,這正是屬性數(shù)據(jù)的巨大魅力。
詩詞中的大數(shù)據(jù)
人們常用大容量、多類型、獲取速度快、真實(shí)性、非結(jié)構(gòu)化等特點(diǎn)來描述大數(shù)據(jù)。但這些特點(diǎn)并不適用于所有領(lǐng)域,各個領(lǐng)域?qū)Α按蟆钡亩x并不相同。
詩詞中的大數(shù)據(jù),首先反映在數(shù)據(jù)的體量或容量上。以搜韻網(wǎng)所收古典詩詞為例,目前已收錄先秦以來古典詩詞107萬余首,如果完善明清兩朝的作品,數(shù)量當(dāng)突破兩百萬。僅從目前一百多萬詩詞作品中,就可提取出時(shí)間數(shù)據(jù)58萬多條、地名數(shù)據(jù)近80萬條、植物數(shù)據(jù)近40萬條、官職數(shù)據(jù)約35萬條、景觀數(shù)據(jù)54萬條、人物數(shù)據(jù)117萬條,合計(jì)約四百萬,這還不包括句例數(shù)據(jù)、詞匯數(shù)據(jù)和字?jǐn)?shù)據(jù)。盡管這些數(shù)據(jù)的體量與互聯(lián)網(wǎng)經(jīng)濟(jì)領(lǐng)域動輒以“太字節(jié)”(240)計(jì)量的數(shù)據(jù)不可同日而語,但早已超出人的閱讀極限和腦力手工的邊界。
除了表面的“大容量”,詩詞中的大數(shù)據(jù),更體現(xiàn)在“大價(jià)值”上。詩詞中的數(shù)據(jù)價(jià)值,一方面來自數(shù)據(jù)本身,包括數(shù)據(jù)精度高、粒度細(xì)。從前文所述類型豐富指稱具體的地名數(shù)據(jù)可見一斑。再舉對仗數(shù)據(jù)為例。由于律詩要求中間兩聯(lián)對仗,所以包含大量對仗詞匯。計(jì)算機(jī)從39.3萬首律詩和1.5萬首排律中,可以獲取單字、雙字和三字對仗詞匯約265萬對。從這些數(shù)據(jù)中篩選出頻率高的對仗詞匯,并根據(jù)對仗的遞推特點(diǎn),可以從任何一個對仗詞匯開始,逐級逐詞呈現(xiàn)出一張縱橫衍伸的對語鏈。下圖是以“清風(fēng)”為詞根的對語鏈?zhǔn)疽狻_@樣的對語鏈,既能輔助古典詩詞創(chuàng)作者參考古人詩句選取對仗詞匯,也能輔助語言學(xué)者的相關(guān)研究。
▲搜韻網(wǎng)對語鏈。
詩詞中的數(shù)據(jù)價(jià)值,另一方面來自于數(shù)據(jù)的交換、整合和分析。以唐宋詩人生平數(shù)據(jù)為例,其數(shù)據(jù)精度高、粒度小,但體量不算大,屬于小而精的數(shù)據(jù)。但當(dāng)這小數(shù)據(jù)與其他數(shù)據(jù)整合時(shí)卻能產(chǎn)生大價(jià)值。比如與作品數(shù)據(jù)整合,能清晰呈現(xiàn)作家人生經(jīng)歷和文學(xué)創(chuàng)作的關(guān)系;與歷史地理數(shù)據(jù)整合,能將作家的一生行蹤在地圖上加以呈現(xiàn);與古代山川驛路等交通數(shù)據(jù)整合,則有雙向的效果,既能為古代交通線路的考察提供重要信息,又能更加細(xì)化作家行跡路線;當(dāng)作家的個人行跡數(shù)據(jù)在縱向上日益修訂而完善,在橫向上突破唐宋不斷積累形成古今詩人行跡數(shù)據(jù),疊加這些行跡還可折射不同時(shí)期中心文化城市的變遷現(xiàn)象。
▲唐宋各時(shí)期328位文人移動軌跡圖。(圖片來源:應(yīng)申等《基于唐宋文人足跡集聚性分析的中心文化城市變遷》,《地球信息科學(xué)學(xué)報(bào)》,2020年第5期)
無論是量化數(shù)據(jù),還是屬性數(shù)據(jù),數(shù)據(jù)的本質(zhì)都是信息。當(dāng)用數(shù)據(jù)思維認(rèn)知古典詩詞,會發(fā)現(xiàn)數(shù)據(jù)存在之廣、傳達(dá)信息之多,遠(yuǎn)超想象。培養(yǎng)詩詞閱讀和詩詞研究時(shí)的數(shù)據(jù)思維,鍛煉數(shù)據(jù)敏感度,會讀出更多的詩詞風(fēng)景。
作者簡介:
邵大為,中南民族大學(xué)文學(xué)與新聞傳播學(xué)院青年教師、數(shù)字人文資源研究中心主任助理、黃鶴樓文化顧問。主要研究領(lǐng)域?yàn)楣糯膶W(xué)、文學(xué)景觀、數(shù)字人文。主持教育部人文社科青年項(xiàng)目《宋代方志中的文學(xué)景觀研究與數(shù)據(jù)庫建設(shè)》。在《中國社會科學(xué)》《光明日報(bào)》《中南民族大學(xué)學(xué)報(bào)》《江漢論壇》等報(bào)刊發(fā)表論文多篇。
來源:“道中華”微信公眾號
作者:邵大為
編輯:劉雅
流程·制作:韓東峻
訂閱下載:2025年《中國民族》雜志訂閱單