系统公告

2015-09-17中国家谱数字化资源的开发与建设

来源:华夏谱志联盟 作者:毛建军

    家谱是中华民族悠久历史文化的重要组成部分。家谱又称族谱、宗谱、家乘、家牒、世谱、房谱等,是记载本宗族世系和事迹的历史图籍。家谱数字化就是采用计算机技术,将常见的文字或图形符号转化为能被计算机识别的数字符号,从而制成家谱书目数据库和家谱全文数据库,用以揭示家谱中所蕴涵的极其丰富的信息资源,从而达到保护和利用家谱的目的。对家谱数字资源的分布做调查分析,既有利于指导下一步的家谱数字化工作,促进家谱数字资源的整合,又有利于社会各界充分利用家谱数字资源,挖掘家谱资源的文献信息。

 

    一、家谱书目数据库的开发与建设

 

    家谱书目数据库是指在统一的机读目录格式下,按照相应的标准和规范加工而成,并最终以计算机网络系统形式向用户提供相关家谱数据资源检索的大型目录数据库。我国的家谱形式十分丰富,除了大量的古代家谱,新编家谱也层出不穷。由于家谱的编撰都是由各个家族组织实施,因此我国家谱的收藏也十分分散。这种状况严重阻碍了对家谱文献信息的充分挖掘,因此,长期以来,编撰家谱书目成为广大家谱工作者的重要工作。与传统的纸质书目相比,家谱书目数据库可充分开发家谱书目著录的信息资源。家谱书目数据库的建立,为实现网络化服务和文献资源共享提供了条件。

 

    家谱书目数据库的编撰开始于上世纪90年代,随着计算机技术的发展以及机读编目实践的成熟,国内家谱书目数据库的建设也逐步展开。参与家谱书目数据库建设的单位主要为国内大型公共图书馆。由于大型公共图书馆具有技术、人才和资源优势,因此这些数据库普遍具有数据量大、检索效率高的特点。

 

    上海图书馆“家谱书目查询”数据库是目前数据量最大的家谱书目数据库,数据量达17041条。上海图书馆是国内外收藏中国家谱(原件)数量最多的单位,共收藏有约17000种、110000余册中国家谱。上海图书馆十分重视家谱数字化的建设,2000年《上海图书馆馆藏家谱提要》出版,上图馆藏家谱机读目录数据库的建设开始实质性启动。“家谱书目查询”已列入上图“数字图书馆计划”,其目标是建立网上的馆藏家谱机读目录数据库、网上的全国家谱联合目录数据库、网上的馆藏家谱全文数据库、网上的家谱人名信息数据库,使上海图书馆成为中国家谱的资源中心、研究中心以及海内外同胞寻根问祖的首选站点。①“家谱书目查询”系统采用Web界面,在浏览器中检索界面自上而下分为三个功能区,即导航区、检索区和结果显示区。其中,导航区用于切换检索方式和显示帮助信息,检索区用于输入检索提问式,结果显示区用于显示检索结果。数据库具有题名、姓氏、居地、堂号、著者、名人和丛书等7个可检索字段,其中题名和丛书两个字段支持全文检索。②

 

    中国国家图书馆“地方志家谱书目数据库”是国内较早进行家谱数字化建设的单位,收藏中国家谱数量仅次于上海图书馆。中国国家图书馆于1990年专门成立了“地方志与家谱文献中心”,目前家谱收藏数量已达3086种。中国国家图书馆收藏家谱覆盖面广、家谱姓氏多且十分重视家谱的版本质量。2002年国家图书馆正式启动地方志家谱数字化项目,其目标是要建设一个包括全文影像库、全文文本库、书目库索引、关联检索和全文影像浏览的地方志家谱数据库。目前“地方志家谱书目数据库”可以提供网络浏览或检索服务,可实现关键词检索、简单检索、多字段检索、多库检索和高级检索等5种方法,读者可以根据个人的爱好、检索策略等选择不同的检索手段。

 

    台湾地区现藏中国家谱约14986种,多数收藏在台北“国家图书馆”。“台湾地区家谱联合目录数据库”由台北“国家图书馆”联合台湾中央研究院、台北市文献会、国立中央图书馆台湾分馆、故宫博物院以及国史馆台湾文献馆等11家文献单位联合开发。台北国家图书馆于2002年开始筹建“台湾地区家谱联合目录”,由各相关单位提供馆藏家谱数据。各相关单位按照国际标准的Metadata格式输入书目数据,从而使该数据库具有进一步扩充的功能。目前数据库已经可以提供检索服务,读者可按照书名、编著者、收藏者、出版者、主题检索等多方位检索台湾地区的家谱收藏情况。

 

    数据量1600条。可按姓氏、地域、责任者、始祖、始迁祖、名人、收藏地检索,也可按照拼音音序检索。安徽图书馆“族谱查询”数据量470条,100个姓氏,浏览检索。浙江图书馆“《浙江家谱总目提要》数据库”繁体检索。福建省图书馆“福建联合家谱”,数据量2851条,浏览检索。广东省立中山图书馆“广东海南家谱联合目录”,数据量2432条,可按书刊名、著者、主题、出版社、索书号、分类号、区域、家庭名称检索。四川省图书馆“馆藏家谱族谱查询”,227条,可按书名、责任者、记录号检索。

 

    另外,部分家谱收藏较多的市县图书馆也对馆藏家谱资源进行了计算机编目并提供网络检索服务。如无锡图书馆的“馆藏家谱目录”、严济慈图书馆的“金华地区家谱联合目录”、泉州市图书馆的“馆藏家谱数据库”等。

 

二、家谱全文数据库的开发与建设

 

    家谱全文数字化就是以家谱的内容为揭示对象,对家谱资源的全文进行数字化处理以便为读者提供全文阅读、全文检索或智能分析服务。根据全文数字化的技术处理情况,可以将其分为图像版、文字版、图文版。尽管家谱全文数据库可以为研究者提供便捷、准确的家谱文献资源,但要实现家谱的全文数字化,从中文信息处理的角度上讲存在许多特殊性和技术难点。北京中易郑码新技术有限公司包铮先生在谈到家谱数字化的特殊性与技术难点时认为:家谱数据量巨大、家谱涉及生僻字和异体字多、不能拆开扫描以及家谱中的世系图、世系表的排版格式特殊需要特殊的中文平台系统是造成家谱全文数据库开发缓慢的主要原因。③因此,国内外家谱全文数据库的开发和建设还比较滞后,目前仅见部分公共图书馆和少数数字化企业开发有家谱全文数据库。

 

    1.公共图书馆开发的家谱全文

 

    数据库公共图书馆是家谱收藏的主体,馆藏家谱资源十分丰富,在资源开发上占有绝对优势。大型公共图书馆具有系统性、服务性的特点。系统性主要突出表现在家谱书目建设和全文影像同步进行的特色上。服务性表现在开发资源的检索、版本比较、编辑、繁简转换、版权保护等特色上。

 

    以国家图书馆为例,国家图书馆的数字家谱项目于2002年正式启动。该项目除了要建成一个反映国家图书馆家谱收藏的书目数据库外,其最终目标还包括一个家谱全文影像库和全文文本库,从而向海内外读者提供便捷的检索和阅读服务。各省市公共图书馆在强调系统性、服务性特点的同时,更突出地方文献服务于地方经济建设的特点,在数字化开发时将极具地域特色的族谱、家谱提供网络共享服务。例如山西省图书馆为满足海内外同胞的寻根需求,开发了“山西家谱”数据库,计划将馆藏的山西家谱部分陆续进行数字化处理,目前已有90余部PDF格式的山西家谱被上传,读者可下载AcrobatReader阅读软件阅览。除了国家和省市公共图书馆参与数字家谱的开发与建设之外,各地市县也积极地参与数字化家谱的开发。数字家谱资源的开发需要投入大量的资金,技术要求也比较高,因此,一些经济较发达地区的市县率先对馆藏家谱资源进行了数字化。这方面以江苏省和浙江省的市县图书馆较为突出。如常熟图书馆的“古籍家谱”、上虞图书馆的“上虞家谱”,均可阅读图像版全文。

 

    2.“中国谱牒库”数据光盘

 

    “中国谱牒库”是一项利用数字技术,对中国蕴藏丰富的历史文化资源———历代族谱、家谱、年谱进行数字化处理的宏伟工程。为了更好地开发利用家谱的文献资源,北京大学中国基本古籍库工作委员会与北京爱如生数字化技术研究中心联袂编辑研制了“中国谱牒库”。北京爱如生数字化技术研究中心是国内专业从事古籍数字化产品开发的技术公司。其开发的“中国基本古籍光盘库”共收录自先秦至民国历代典籍1万余种、计16万余卷,是全世界目前最大的中文数字出版物,也是中国有史以来最大的历代典籍总汇。“中国谱牒库”共精选民国以前具有代表性的历代族谱1000余种,家谱6000余种,年谱1000种,合计8000余种,每种均提供全文数据和原版图像,并配备专用的检索系统和功能软件。“中国谱牒库”分为下载型和研究型两种光盘,采取分辑出版,逐步推进的策略,计划5年内全部完成,目前推出的是年谱辑。④

 

    3.大型数字化古籍中家谱资源的开发

 

    大型数字化古籍多由出版社和数字化公司开发。目前致力于古籍文献数字化事业的规模较大的公司主要有北京书同文数字化技术有限公司和北京国学时代文化传播有限公司。北京书同文数字化有限公司开发的大型数字化古籍主要有《四库全书》、《四部丛刊》、《历代石刻史料汇编》、《永乐大典》等;北京国学时代文化传播有限公司开发的大型数字化古籍主要有“国学宝典”、“中国历代基本典籍库”、“历代经典文库”等。尽管这些数字化企业并没有专业地开发出家谱资源库,但在其开发的大型数字化古籍中也有部分家谱资源,如北京书同文数字化有限公司《四库全书》、《四部丛刊》和北京国学时代文化传播有限公司的“国学宝典”中的“史部”类中就有近百部的家谱文献。另外,一些数字图书馆开发的大型数字化古籍如“北京大学古文献资源库”中也有一些数字家谱。

 

三、存在问题与思考

 

    家谱数字资源的建设已经取得了相当大的成绩,但还存在一些值得思考的问题。一是部分部门或单位在数字家谱资源开发上,还存在着保守的思想观念。21世纪是数字时代,其显著标志就是信息传播的数字化,对数字技术视而不见或者采取排斥的态度是不科学的做法。二是家谱种类开发不平衡。由于存在开发理念上的误区,部分开发单位对新家谱资源建设十分重视,而对旧家谱的数字化建设比较忽视。诚然,新家谱在为地方经济服务上具有非常重要的意义,但旧家谱对宣传地方历史文化也是不容忽视的。三是数据库形式单一,缺乏检索工具。从目前已开发的家谱数据库来看,主要是图像扫描格式和字符格式。更重要的是大多数数据库缺少无缝链接软件,没有人名、地名、名词数据库,因此给读者造成检索上的困难,这很不利于家谱文献信息的开掘。





                       

 【点击“华夏宗谱网”返回到“家谱常识”】