中国文献信息资源与检索利用·摘要
北京大学信息管理系教授 李国新
《中国文献信息资源与检索利用》是北京大学信息管理系本科生主干基础课和全校性通选课的最新版教材。该教材是北京大学教材建设项目的成果之一,2004年8月由北京大学出版社出版印刷版,全书27万字。2005年1月,北京大学出版社又出版了该课程的课堂讲授录像光盘。教材内容分为如下6章:
第一章:概说
第二章:辞书资源与汉语字词的查考
第三章:古籍资源与基本古籍的查考
第四章:近代以来的图书资源与查考
第五章:报刊资源与论文资料的查考
第六章:时事信息资源与事实、数据、法规的查考
其中与文渊阁《四库全书》电子版有关的内容,主要是第三章。该章的第二节为“基本古籍的全文检索系统”,其中重点介绍了“四库电子版”的基本特点
、基本功能;该章的第三节为“古籍流传与古籍版本”,在讲述古籍目录时,利用了“四库电子版”中的《四库全书总目》、《四库全书简明目录》;该章的第
四节为“古籍丛书与类书”,在阐述类书的结构与特点、介绍代表性类书时,利用了“四库电子版”中的类书资源。
一、第3章第2节:基本古籍的全文检索系统——《四库全书》
《四库全书》是中国古代规模最大的丛书。清乾隆三十七年(1772年)初拉开编纂的序幕,到乾隆四十六年(1781年),第一份《四库全书》缮写告竣,贮藏于紫禁城内文渊阁,是为文渊阁《四库全书》。此后至乾隆四十九年,又分抄了第二、三、四份《四库全书》,分藏于盛京(沈阳)文溯阁、圆明园文源阁、承德避暑山庄文津阁,是为“北四阁《四库全书》”。乾隆四十七年(1782年)七月,乾隆皇帝谕令“兹《四库全书》允宜广布流传,以光文治。如扬州大观堂之文汇阁、镇江金山寺之文宗阁、杭州圣因寺行宫之文澜阁,皆有藏书之所,著交四库馆再缮写全书三分,安置各该处,俾江浙士子得以就近观摩誊录,用昭我国家藏书之美富,教思无穷之盛轨。”至乾隆五十二年(1787年)缮写完成,是为“南三阁《四库全书》”
。
上述7部《四库全书》,扬州文汇阁和镇江文宗阁所藏,于19世纪中叶毁于战火,圆明园文源阁所藏,1860年毁于英法联军入侵北京时。杭州文澜阁所藏,前有损毁,后经补抄,今藏于浙江省图书馆。紫禁城文渊阁所藏,解放前夕被运到台湾,今藏台湾故宫博物院。盛京文溯阁所藏,先藏于辽宁省图书馆,后移藏于甘肃省图书馆。承德避暑山庄所藏,后移藏于北京图书馆(现国家图书馆)。综此,至今存世的《四库全书》原本共4部。
《四库全书》收录的典籍数量,随缮写时间的不同略有区别。文渊阁本收书3457种;文津阁本收书3503种,79337卷,36304册;《四库全书总目》著录3461种,79309卷。所收图书,按经、史、子、集4部分类编排。
《四库全书》的入选典籍经过了严格的选择,“有益于世道人心”被作为最高的遴选标准。从总体上看,虽然对典籍的“舔改抽挖”现象不时可见,所谓“俚浅讹谬”的内容已被严密防范,但它仍然汇聚了先秦至清代乾隆年间以前中国最重要的传世典籍,是中国传统学术文化总结时期形成的最能体现传统文化概貌的巨著。
由于《四库全书》的重要性,也由于其传本的稀少,从20世纪初开始,影印《四库全书》的呼声便不时出现。1982年,台湾商务印书馆正式启动了影印文渊阁《四库全书》全本的工程。至1986年,影印工作完成。1987年,上海古籍出版社以台湾影印本为底本再次缩印,至1988年完成。这两个影印本是目前国内外通行的《四库全书》印刷全本。
《四库全书》规模巨大,查考不便。为了解决这一问题,20世纪初以来,人们便开始为其编制检索工具。20世纪90年代末,电子版的《四库全书》开始出现,其中最具代表性的是上海人民出版社和香港迪志文化出版公司联合推出的文渊阁《四库全书》电子版。
该电子版分为“原文及标题检索版”(简称“标题版”)和“原文及全文检索版”(简称“全文版”)两种版本。全文版的主体是《四库全书》全文文本数据和原文图像数据。它所具有的功能主要是:
(1)基本检索。包括全文检索、分类检索、书名检索、著者检索4种方式。其中,分类检索按照《四库全书》的分类体系逐级递进。递进层次为:部→类→属→书→卷(或篇目)→原文。
书名检索和著者检索均支持模糊检索,即命中对象是包含了检索词的任意一致。如在“书名检索”界面下使用检索词“茶”,可以检出所有书名中包含了“茶”的典籍;在“著者检索”界面下使用检索词“宋子”,可以检出所有著者名(包括姓名、字、号)中包含了“宋”与“子”或“宋子”的典籍。这一功能为以不精确的书名或作者名作为检索词查考提供了方便。
全文检索以原文或注释中的任意字词、字符串作为检索词。同时可以作两方面的选择限定:一是对“正文文字”或“注释文字”进行选择限定;二是对“检索范围”(分类、书名、著者)进行选择限定。如查考有关“蹴鞠(音cu ju)”的资料,是否对检索作出限定,检索的结果大不一样。选择限定功能有效地缩小了检索范围,是提高检索效率的重要手段。
(2)高级检索。这是两个检索条件的逻辑组配检索,逻辑关系包括“与”、“或”、“非”。比如要查考有关“沙尘”或“扬沙”的历史记载,分别用逻辑“与”和逻辑“或”组合这两个检索词,检出的结果不一样。
不论是全文检索还是高级检索,检索词的输入都设计了“辅助输入”功能和“汉字关联”功能。
“辅助输入”是一种按检索词的部首、拼音、笔画选择检索词的方法。这种方法为疑难文字的输入扫除了障碍。
“汉字关联”是指对汉字由于异体、通假、繁简、正讹、中日、新旧、古今、形近等现象所导致的不同的形体的汇聚。在开启“汉字关联”功能的状态下,当输入的检索词有上述关系时,系统的检索将自动覆盖所有的字形正体和别体。这一功能,可以有效地避免因字形不一所造成的漏检,从而提高检索的准确性。
(3)全文文本与全文图像的切换。一般来说,古籍的“保真”与“整理”存在着矛盾。保真拒绝整理,整理难以保真。但保真的古籍与整理的古籍各有适用对象,因此,理想的状态应是“保真原则”与“整理原则”的结合。在印刷版阶段,保真通过影印实现,整理则可以排印。在电子版阶段,为了实现检索功能,必须将图像文本转换为字符文本,因此,目前多数电子版古籍都采用原文输入的方法,相当于印刷版阶段的“排印”。若此,检索功能虽然建立起来了,但保真功能却无法实现。从理论上说,计算机环境下的电子古籍不必过多考虑存贮空间的问题,不必过多考虑印刷版阶段成书以后的部头规模问题,扫描技术又为保真提供了实现手段,因此,“保真”与“整理”的矛盾在电子版古籍身上应该得到较好地解决。
文渊阁《四库全书》电子版在这方面作出了有益的尝试。它采用扫描技术输入原文,通过OCR技术自动进行原文图像的编码字符转换,从而使它既保留了完全保真的图像数据,又形成了可以实现检索的文本数据。两个文本可以进行切换,以便于比勘对照。
提供原文图像,满足了古籍研究中版本鉴别、文物鉴赏、书史研究、文字校勘、原件对照等特殊需要。更重要的意义在于,文本版与图像版的结合,凸显了数字化古籍可以兼顾“文物存贮”和“资料应用”两种功能的优势,使古籍整理“保真”和“整理”相结合的原则在电子版阶段真正变成了实现。
(4)辅助工具和研究支持功能。 文渊阁《四库全书》电子版加载了一些对研究工作具有支持功能的辅助工具。包括:
·资料管理员;
·单字字义查询;
·写字板;
·古今纪年换算;
·干支/公元年换算;
·八卦·六十四卦表。
同时,还有几项支持研究的重要功能:
·实时标点断句。利用标点工具,可以对显示页面的文字添加标点。
·实时字义查考。利用联机字典,可以在浏览阅读过程中随时对疑难文字进行查考。
·实时添加笔记。利用添加笔记功能,可以在原文中想作笔记的地方添加笔记,并保存到辅助工具“资料管理员”中备查。
在现有的电子版古籍全文检索系统中,文渊阁《四库全书》电子版是有代表性的一种,比较典型地体现了到目前为止我国古籍资源数字化开发与建设的水平。它的主要技术优势是:采用国际标准ISO/IEC 10646中、日、韩汉字大字符集文字平台,不仅提高了古籍用字的满足程度,而且实现了跨平台展现内容,使中国古籍能够超越语言限制,在不同的视窗平台上运行,解决了中国古籍资源的全球共享问题。开发出了古籍专用OCR识别系统、辅助校对系统,实现了在适当人工干预下古籍原文的自动高速输入,并自动由数字图像转换为数字文本,基本解决了古籍资源数字化过程中的瓶颈问题——原文输入。同时,为电子版古籍完美体现“保真”与“整理”相结合的原则提供了技术保证。在满足利用者实际需求方面,文渊阁《四库全书》电子版也具有一些优势。它不仅具有强大的检索功能,而且具有显示原文图像的功能,还捆绑了一些辅助工具,开发了一些研究支持功能,所有这些,不仅使古籍检索的思路和方法发生了变革,而且会带来古籍研究思路和方法的变革。
二、第3章第3节:古籍流传与古籍版本——《四库全书总目》与《四库全书简明目录》
《四库全书总目》是清代乾隆年间编修《四库全书》的连带产品。全书200卷。参与其书编纂的有300多人,全书记载的典籍总数为10254种。其中收入《四库全书》的3461种,另有“附存目”(简称“存目”)图书6793种。全书按经史子集4部分类编排,共分为4部44类66子目(比较复杂的类下细分子目)。部有“大序”(又称“总序”),类有“小序”,子目或书目后间有“按语”,每书有提要。在编纂体例上,是典型的中国传统的分类目录形式。
《四库全书总目》的“大序”、“小序”、“按语”用来概述典籍的源流递变。具体说,各部之首的大序,“撮述其源流正变,以挈纲领”;各类之首的小序,“叙述其分并改隶,以析条目”;如果“义有未尽,例有未该”,则于子目或书目后间附按语,“以明通变之由”。这些内容,对于通过典籍之源流递变了解学术之发展沿革,通过典籍之分并改隶了解学术之兴衰整合,具有重要的价值,其本身就是一部中国传统学术的发展史,是中国传统目录“辨章学术、考境源流”精神的集中体现。
《四库全书总目》的主体内容是典籍的提要。按照提要的撰写体例,每一书下,首先“各注某家藏本,以不没所自。其坊刻之书不可专题一家者,则注曰通行本”。提要的正文,“先列作者之爵里,以论世知人;次考本书之得失,权众说之异同;以及文字增删、篇帙分合,皆详为定辨,巨细不遗;而人品学术之醇疵,国纪朝章之法戒,亦未尝不各昭彰瘅,用著惩戒。”图1是《四库全书总目》中《干禄字书》的提要。
清代乾嘉时期是中国传统学术文化的最后一个总结时期。《四库全书总目》是学术文化总结时期形成的总结性书目,它几乎囊括了清代乾隆年间以前流传下来的最重要的中国古籍,而且把刘向、刘歆父子《七略》所开创的有中国特色的传统目录推向了顶峰。查考图书典籍在古代的流传递变,《四库全书总目》是最后也是最重要的一道关卡。一般来说,《四库全书总目》著录的图书,今天绝大多数都是现存的。
《四库全书总目》“多至万余卷,卷帙甚繁,将其抄刻成书,翻阅已颇为不易”,因此,在编纂工作刚刚开始时,乾隆皇帝又下达了同时编纂《四库全书简明目录》的指令,并明确要求《简明目录》“只载某书若干卷,注某朝某人撰”。乾隆四十七年,《简明目录》编成,和《总目》一繁一简,同时流行。
和《四库全书总目》相比,《四库全书简明目录》最突出的特点就是“简明”。具体说,“简明”的表现有二:一是“不录存目”;二是“删节提要”。例如,同样是《干禄字书》的提要,《简明目录》简化为图2的样式。由于“不录存目”,《简明目录》收录的图书和《四库全书》是一致的,从这个意义上说,《简明目录》可以称作是《四库全书》的总目录。
《汉书·艺文志》、《隋书·经籍志》和《四库全书总目》构成了查考清代乾隆年间以前中国古籍的具有“划分阶段”意义的三道重要关卡。《四库全书总目》通行的印刷版本是中华书局影印本。1997年,中华书局出版了经过标点断句的《四库全书总目》整理本。《四库全书简明目录》通行的印刷版本是中华书局排印本。在文渊阁《四库全书》电子版中,加载了《总目》和《简明目录》,所以,《总目》和《简明目录》事实上已经有了电子版。
三、第3章第4节:古籍丛书与类书
类书是采辑古籍中的片段或整篇资料,按类别或韵目加以编排,以供寻检、征引古代文献之用的工具书。简单地说,类书是中国古代形成的具有资料类编性质的参考工具书,是最具世界影响的中国传统文献资源之一。
类书原本是为了供人们临事查检而编纂的一种特殊的资料型图书。“临事”之“事”,在过去主要是诗文取材、居家日用、幼童启蒙等,另外一个重要的用途,就是直接服务于学人士子应付科举考试。在今天,类书的功用已经发生了变化,人们主要是利用它“资料汇编”的性质,查考某些参考资料或资料线索。具体说,类书在今天的主要作用是:
第一,系统收集参考资料;
第二,查考语词和典故出处;
第三,校勘考证古籍,辑录古籍佚文。
中国古代类书资源的总数量,主要根据历代艺文志、经籍志的记载估计,一般认为在六七百种左右。现存的古代类书,一说有200多种,一说有500多种。清代编修《四库全书》时,正式收入该丛书的类书有65部,列入“存目”的有217部。不过,《四库全书》把所有的像《古今同姓名录》一类姓氏书都归入了类书,原因是这类书“别无可附,旧皆入之类书,亦今仍其例”。显然,当时就已经意识到了把姓氏书归入类书并不妥当。所以,《四库全书》及其“存目”中所说的类书,并不完全是严格意义上的类书。
由于类书主要出现在中国古代,采用了分类编排体系,且一般规模较大,所以今天一般人利用类书面临着原书难觅、查找不便的困难。文渊阁《四库全书》电子版的出现,从根本上改变了这种局面。由于《四库全书》正式收录的类书有60多部,基本包括了中国古代出现全部重要类书,而且可以实现多途径、多角度的全文检索,所以,这些类书事实上都已经有了电子版,原书难觅和由于类书检索体系不完备而造成的查考不便的问题基本上已不复存在。
本节在介绍类书的结构、特点和功用以及代表性类书时利用的文渊阁《四库全书》电子版所包含的类书有:
·《艺文类聚》
·《北堂书钞》
·《小学绀珠》
·《初学记》
·《太平御览》
·《事物纪原》
·《佩文韵府》
·《骈字类编》
不要把文渊阁《四库全书》电子版所包含的类书仅仅看作是印刷版类书载体形式的变化。事实上,由于电子版强大的检索功能,它还带来了检索方法的变化和资料获得的方便、准确。在这方面,《佩文韵府》和《骈字类编》具有典型性。
《佩文韵府》,清张廷玉等编,全书106卷,拾遗106卷(收入《四库全书》时,因“篇页繁重,编为四百四十卷”)。清康熙五十年(公元1711年)成书。关于该书的编纂体例,《四库全书总目》的概括是:“每字皆先标音训。所隶之事,凡阴氏、凌氏书(按:阴氏书指宋阴时夫《韵府群玉》,凌氏书指明凌稚隆《五车韵瑞》)已采录者,谓之‘韵藻’,列于前;两家所未采者,别标‘增’字,列于后。皆以两字、三字、四字相从,而又各以经史子集为次。其一语而诸书互见者,则先引最初之书,而其余以次注于下。又别以‘事对’、‘摘句’附于其末。”也就是说,《佩文韵府》首先是按照平水韵的106韵部汇集、排列单字。在每一单字下面,一般有5项内容:(1)简释该单字的音义。(2)列出由该单字所组成的“韵藻”。所谓韵藻,就是以该单字为词尾的语词。上文所谓“皆以两字、三字、四字相从”,即指此而言。(3)罗列古代典籍中包含了韵藻词的诗文典故“用例”。这些“用例”,一般按经史子集为次,而且都注明出处。(4)列举“对语”。所谓对语,是指那些对仗的词语。(5)辑录“摘句”。所谓摘句,是指以立目单字为韵脚的诗句。
分析一下本例可以看到,利用《佩文韵府》查考诗文典故的出处,实际上是通过“韵藻”查考“用例”。因为在原书中,“用例”是通过“韵藻”区分汇集起来的,所以,“韵藻”就可以作为检索“用例”的入口;因为“用例”就是一些包含了韵藻词的诗文典故语句,而且一般都注明出处,所以,查到了“用例”,也就查到了诗文典故的出处。
问题是,《佩文韵府》原书中的韵藻词是按尾字的平水韵顺序排列的,今天一般人并不熟悉平水韵,这样,直接查考原书,无异于失去了有序的检索途径。不过,在文渊阁《四库全书》电子版全文检索系统中,这一问题得以解决。解决的办法是:将原书中齐韵尾的“韵藻词”转化为脱离韵尾的“关键词”。这样,当需要查考一个诗文典故的出处时,完全可以不再理会“韵”的问题,只需要分析一下其中有哪些词可能成为今天意义上的“关键词”,由此入手,便可尝试利用全文检索功能从《佩文韵府》中去查考。
比如,要查考“甘膏滴滴是精诚”一句诗的出处,首先分析有可能被列为“韵藻”的语词是“甘膏”和“精诚”,或者说,在“甘膏”和“精诚”这两个可能的“韵藻词”下,有
可能把诗句“甘膏滴滴是精诚”作为“用例”。这样,这两个词就可以作为检索的入口,即今天意义上的“关键词”。利用文渊阁《四库全书》电子版的《佩文韵府》查考的过程和结果如图3。
清代《佩文韵府》问世以后,张廷玉等人又创造性地编纂了一种内容性质和《佩文韵府》近似,形式却迥然有别的类书——《骈字类编》。
所谓“骈字”,是指双音节词。《骈字类编》的立目语词,不是像《佩文韵府》“韵藻词”那样的齐韵尾的二字词或多字词,而是首字相同的双音词。所谓“类编”,是说所有的双音词都按首字的意义分类归并集中。
“骈字”是《骈字类编》类聚资料的基本单位。全书作为立目语词的骈字共有10万多条。每一骈字下类聚的资料,简单地说就是包含了该骈字的诗文语句。根据该书的《凡例》,“所摘经史事实,点醒标题二字,其前后文可以删削者从简,以避太繁;其语势不可止者,则用整段。”“其每条下所引经史子集杂文诗赋,则仍书之前后,而以赋与诗次于杂文之末,以有韵者相从其类。”图4是该书“天地门·天类·天禀”条的实例。
与《佩文韵府》相比,《骈字类编》的引征更为确切。《四库全书总目》评价说:“引书必著其篇名,引诗文必著其原题,或一题而数首者,必著其为第几首,体例更为精密”。
今天利用文渊阁《四库全书》电子版对《骈字类编》进行全文检索时,同样不需要考虑原书“骈字”所属的类别,只要在需要检索的语句中选定可能成为骈字的双音词,就可以进行检索。
《佩文韵府》和《骈字类编》这两部类书与一般类书的不同之处在于,它们是由单字组成尾字或首字相同的立目语词,这些语词就相当于今天意义上的“关键词”;在这类语词下汇集的资料,就是包含了立目语词的诗文典故语句。因此,这种类书就可以通过语词而不是纯粹的分类,查考包含了该语词的诗文典故出处。《四库全书总目》说利用这种类书查考诗文典故出处,“随举一字,应手可检。较他类书门目纷繁,每考一事,往往可彼可此,猝不得其部分者,其披寻之难易,固迥不侔矣”。然而,由于原书对立目词语的归并集中不是按韵部,就是按类别,对于今天一般的人来说,不论是确定立目词语的韵部还是类别,都存在较大的困难。而不能确定立目语词的韵部和类别,原书的检索查考便无从谈起。文渊阁《四库全书》电子版所具有的多途径、多角度的全文检索功能,使检索可以彻底脱离韵部和类别的制约,从而大大提升了这两部大规模的用于查考古代诗词文句出处的类书的实用价值。