摘要:元数据技术是数字图书馆系统的核心, 通过它可以对文献资源实施有效的组织与管理, 为此提出了以都柏林核心集为基础的元数据设计方法。为了提高各图书馆信息系统之间的互操作性, 采用可扩展标记语言 (XML) 作为元数据交换语言, 建立了一套元数据文献检索系统, 并阐述了系统的特色、架构、功能及使用方式。
关键词:数字图书馆; 元数据; 可扩展标记语言; 信息属性;
Research on Document Indexing System Based on Metadata
WANG Rui CHEN Shu ZENG Bin
Abstract:
Metadata technology is the core of the digital library system, which can effectively organize and manage the literature resources. A metadata design method based on Dublin Core set is proposed. In order to improve the interoperability between the library information systems, a set of metadata retrieval system has been established using extensible markup language (XML) as the metadata exchange language. Furthermore, the system characteristics, structure, function and use are illustrated.
Keyword:
digital library; metadata; extensible markup language; information property;
1 课题研究的意义
以目前的检索技术而言, 提供查询的方法主要有全文检索或主题词检索。全文检索可以不必对数据做描述, 但检索效能较差, 对于无文字的影像、声音或视频数据而言, 全文检索技术也无法派上用场[1]。所以人工描述元数据, 建立主题词化的书目数据, 对于数字图书馆而言是绝对必要的工作。
为此, 海军工程大学开展了“资源组织与检索规范”的项目计划。该计划的研究目标涵盖在数字图书馆建设中, 有关于信息组织与检索各个层面的重要议题, 包括数据储存与管理系统的设计、用户信息需求及查询数据的方式、各系统间集成等。通过深入研究许多描述文献资料的元数据格式标准, 项目组认为元数据格式的考虑重点应为符合馆藏文献特性、提供使用者必要的检索点、未来与其他数字图书馆数据交换上的共通性以及编目著录质量等。
元数据的制定需从了解用户需求及信息属性入手, 同时也需考虑信息系统之间的互操作性, 所以相关标准的采用非常重要[2,3], 如国际上已形成的格式:Dublin Core (Dublin Metadata Core Element Set, http://purl.oclc/dc) 、EAD (Encoding Archival Description, http://lcweb.loc.gov/ead/) 、FGDC (Federal Geographic Data Committee, http://www.fgdc.gov/) 、GILS (Government Information Locator Service, http://www.access.gpo.gov/su_docs/gils/index.html) 、TEI (Text Encoding Initiative Headers, http://www.uic.edu/orgs/tei/) , 以及元数据的交换语言, 如SGML、XML、HTML等。由于XML语言是因特网极力推广的语言, 为此本文介绍一套XML/元数据通用检索系统的特色、架构、功能及使用方式。
2 元数据的意义与功能
2.1 元数据的意义
所谓元数据, 在信息组织界最普遍的解释是“data about data”, 意指有关数据的数据, 即数据的描述性信息, 如图书馆的MARC (Machine-readable cataloging, http://www.nlc-bnc.ca/marc/emarc.htm) 记录, 即为一种元数据。但有学者认为这种解释忽略了元数据最重要的概念, 即其结构性, 认为应将元数据定义为“structure data about data”, 此结构二字, 使得采用元数据做组织信息的方式和全文索引有所区别[4]。对数据做描述以建立索引的做法并非才开始, 但元数据一词却是在网络信息出现后才普遍被使用, 且多指网络资源等电子信息的描述。
2.2 元数据的功能
元数据的功能主要有[5]:找到信息的地址 (location) 、搜索信息 (discovery) 、记录信息 (documentation) 、评估信息 (evaluation) 、选择信息 (selection) 、其他。
类似的观点还认为元数据主要用来:第一, 概述资料的内涵;第二, 让用户查到该数据;第三, 让用户决定该数据是否是他所要的;第四, 避免用户存取该数据 (如禁止儿童使用某类数据) ;第五, 让用户检索、复制数据;第六, 指示应如何解译该数据 (例如说明数据的格式、编码、加密的情况) ;第七, 用来决定可检索哪一个数据 (若数据可多种格式存在) ;第八, 说明数据使用的合法情况;第九, 说明数据的历史, 如说明其原始数据为何, 及其他的改变;第十, 说明资料的联络人, 如拥有者;第十一, 指示该数据与其他资源的关系;第十二, 控制数据的管理。
但就数据库系统而言, 元数据则直指数据库管理系统的架构 (schema) , 且其对元数据的讨论偏重在如何通过元数据的使用以达到多数据库系统的互通等问题。有文献认为传统的元数据被定义为有关信息源的静态观点, 此观点通常由元数据应从如何让使用者搜索及存取信息源的角度来思考。但是现在, 因整个广域网中信息源需要互联, 故而传统元数据的范围与角色也随之改变。他们认为, 现在的元数据应满足3项需求:第一, 促使系统互通, 而不只是仅仅提供摘要性信息;第二, 当越来越多的信息被数字化时, 元数据模块应能让计算机连接信息源并自动获取元数据;第三, 元数据管理系统应能定期核对原始信息源, 以确保元数据信息的正确性[6]。
Van Hooland认为与数据库有关的元数据有3类:一是协助或限制检索的元数据;二是作为分享与互通使用的元数据;三是表达数据特性及作为索引数据的元数据。同时更进一步地将元数据分为3种层次, 每一层中所包含的信息如下:数据库层次的元数据、数据项层次的元数据、数据值层次的元数据。
2.3 元数据相关标准分析
如果将元数据的3种层次再进一步解释, 我们也可以说元数据的设计必须考虑语义、结构、语法三方面的问题。
此外, 分布式信息的集成检索虽不是元数据的直接内涵, 但在网络环境中是一个重要的课题, 而且相关标准的设计和元数据密切相关, 现分别说明如下。
2.3.1 语义问题
元数据的语义内涵根据数据的特性及用户的需求而定, 它探讨的问题包括应该描述数据的那些属性?属性的名称如何命名?描述该属性时所根据的信息来源为何?以及该属性内容是否应根据索引点或权威文件来描述?AACR2 (Anglo-American cataloguing Rules SecondEdition, http://www.libraries.psu.edu/iasweb/personal/jca/aacr/) 、Dublin Core、AAT (Art and Architecture Thesaurus, http://shiva.pub.getty.edu/aat_browser/) 、LCSH (Library of Congress Subject Heading, http://lcweb.loc.gov/cds/lcsh.html) 、LCNA (Library of Congress Name Authority File) 等属于此类标准。
2.3.2 结构问题
它决定了数据在描述属性后, 接下来的问题是建立属性的结构。属性的结构呈现属性之间的关系, 使得属性的描述清晰易懂且便于程序的编写。MARC、DTD (Document Type Definition) 、RDF (Resource Description Framework, http://www.w3.org/RDF/) 等所关心的即是这个层次的问题。
2.3.3 语法问题
要使元数据具备互操作性, 可以在不同系统之间交换, 则包装元数据的语法是非常重要的部分。正如ISO 2709在不同的图书馆自动化系统之间互通互联, HTML使得WWW文献能在不同系统间交换, 而SGML、XML是电子图书馆、博物馆、档案馆系统用来标识其元数据及全文数据的标准语言。
2.3.4 集成检索问题
即使每个系统都根据相同的元数据描述数据, 但各系统的索引模式与检索指令仍会不同, 因此使用者往往必须学习不同系统的检索接口及指令以查寻不同的系统。当数据库很少时, 这样的学习还可忍受, 若数据库很多时, 太多检索指令及接口的学习会浪费读者大量的时间。更何况在电子图书馆、博物馆、档案馆领域中, 不同学科领域或信息类型往往使用不同的元数据[7]。因此, 分布式信息的集成检索在网络环境中是一个非常重要的课题。Z39.50、STARTS (The Stanford Protocol Proposal for Internet Retrieval and Search) 等即属此类的标准。
3 元数据交换格式的设计
海军工程大学图书馆元数据交换格式以都柏林核心集 (Dublin Core) 的15个基本字段为主要架构, 但为了描述馆藏文献丰富的属性并更精确描述馆藏文献的语意, 我们按照馆藏文献类型特色, 在相关字段下搭配元素修饰符 (element qualifier) 的使用, 不仅可以扩大其应用的范围, 同时也具有国际通用性, 以下简称中文扩展Dublin Core (CEDC) 。
Dublin Core起源于美国, 1995年由OCLC (Online Computer Library Center) 与美国国家高速计算机应用中心 (National Center for Supercomputer Applications, NCSA) 在美国俄亥俄州的Dublin共同召开了一个元数据研讨会 (OCLC/NCSA元数据Workshop) , 提出为网络资源提供目录数据的议题, 以便支持跨领域的资源搜索。都柏林核心集 (Dublin Core, 简称DC) 元数据是一种专为网络上电子资源所设计的目录数据格式, 原为网络资源的著作者设计, 目的为辅助跨领域网络资源的搜索, 但却引起博物馆界、图书馆界、政府机关与商业团体的广泛响应。因此, DC工作小组邀请各界学者专家, 探讨如何在DC核心集上发展跨学界的国际共识。DC的优势是简单易用, 若能推广成为标准, 具备跨领域的语义共通性后, 就能进行跨领域的信息交换。此外, DC具有可扩展性, 能够记录架构并描述较为复杂的语义。目前, DC (语义—资源的描述) 、RDF (架构) 、XML (语法) 三者相互结合, 但又各自独立, 彼此互补。
DC是一种元数据格式, 基于国际的共识, 定义了它在因特网环境中描述资源的基本信息。由于DC的目的是要让资源的创造者或出版者自行建立资源的解释性数据, 格式简单易用为其一大特点。都柏林核心集的格式虽然简单, 但为了符合使用者的不同需要, 仍然维持了相当大的扩展性及易修改性。DC的15个域名如下:题名 (Title) 、创作者 (Creator) 、主题 (Subject) 、简述 (Description) 、出版者 (Publisher) 、贡献者 (Contributor) 、日期 (Date) 、类型 (Type) 、数据格式 (Format) 、辨识数据 (Identifier) 、来源 (Source) 、语言 (Language) 、关联 (Relation) 、时空覆盖范围 (Coverage) 、权限范围 (Rights) 等。
简易DC (Simple Dublin Core or Unqualified Dublin Core) 是没有用到修饰符的DC解释性字段集合, 即字段是以15个DC解释性数据字段来表达属性, 没有定义著录架构、修饰语值或是其他的处理信息。DC修饰语 (Qualified Dublin Core) 的解释性数据则定义了著录架构、控制词汇或是表示解释性数据的域值。DC修饰语应用了其他信息, 以提高解释性数据的精确度。例如, 日期可以进而细分为最后修改日期、出版日期, 并以特定的著录方式著录, 以免产生模棱两可的解释。主题字段可以从某个特定的控制词汇列表来著录。
目前CEDC可处理的数据类型包括:文书、地图和海图、图像/照片数据、器物、书画、文献。除采用DC制定的修饰语外, 也可根据各典藏单位的需求自行定义相关修饰语, 使用者可自行选择DC15个字段与修饰语, 并根据自己的需求调整字段顺序, 在遵循国际标准外, 同时提供弹性以符合用户的需求。
为让使用者更易于著录CEDC, 我们制作了CEDC著录手册, 根据15个字段及其修饰语做语义上的说明, 并提供相关范例, 让一般用户可以自行选择弹性运用。
4 XML/元数据系统设计
XML具有SGML的特性, 又不似SGML那么复杂;XML便于在网络上传输, 又提供HTML所没有的弹性及精确性, 所以它已成为网络及数据库积极支持的语言。因此, 元数据检索系统也决定采用这种语言作为数据库间交换数据的主要依据。但是除了语法外, 如前所述, 尚有语义的问题。由于目前已发展出来的元数据格式相当多, 同时, 为了能表达各类型各主题数据的属性, 尚未发展元数据格式的领域可能还会发展出该领域的元数据格式, 所以一个有弹性的元数据检索系统, 不能只是针对一种元数据格式来开发, 而应该能让使用单位自己决定要用哪一种格式。所以, 开发一个XML/元数据的通用性系统正好可以满足这种需求, 这也是我们系统最主要的特色。详细设计方法及架构说明如下。
4.1 系统特色与架构
该系统可以用来建立数字博物馆、数字图书馆、数字档案馆或任何主题数据的数据库。它具有利用DTD建立数据库、编辑元数据、编辑标准文件 (或索引字典) 、查询 (含Window接口及Web接口) 及导入导出XML记录等功能。此系统的特色主要有:第一, 系统schema依据输入的DTD决定。第二, 系统允许使用多种不同的DTD。第三, 多种不同格式数据能够同时被检索。第四, 允许使用者依据schema调整内定的字段格式与使用条件。第五, 具有可扩展接口让用户自定义超链接、索引、检索及显示字段。第六, 能根据所属的DTD格式进行数据导入与导出。第七, 系统能判定导入的数据是否符合指定的DTD格式, 以及执行重复核查。第八, 系统能处理字段式结构、多媒体结构或全文。第九, 系统包含访问控制、操作日志等系统管理功能。第十, 提供Web查询功能, 可让一般用户透过WWW查询数据库。系统的架构如图1所示。
4.2 系统开发工具及目前已开发出来的功能
系统所使用的开发工具为Visual Studio 2012, Web Searching所用的程序语言为ASP.NET, 后台数据库管理系统为Oracle及SQLserver。目前系统已开发出以下功能。
4.2.1 加载DTD及建立数据库
只需要加载任何一种XML DTD, 即会建立对应的数据库, 并产生编目界面。
4.2.2 定义数据库的架构 (schema)
由于DTD不具备资料格式、特殊处理转换、输入长度、所属标准条目、索引种类等字段定义, 虽然在导入DTD时, 系统会依照该DTD自动产生, 但仍需要人工检测和定义。
4.2.3 元数据编目功能
选择所要编目的数据库后, 可以新增、修改或删除某条记录。当编辑某一条记录时, 能依据数据库的预定义模式, 针对某一字段提供复制、删除、插入子字段、代码、访问控制与链接多媒体文档等功能, 并可直接调出查询界面, 让使用者能快速检查所需维护的记录。
4.2.4 索引字典建立及标准控制功能
建立索引字典或标准文件的流程与一般编目数据相同, 系统会自动依据数据库的架构模式执行标准控制。
4.2.5 数字化数据的管理与描述
可对单条多媒体文档进行简略编目, 若有大批多媒体文档需同时输入, 也可以采取批量导入的功能, 以节省人工操作成本。
4.2.6 一般查询功能
可以选择一个以上或所有的数据库执行, 提供精确或模糊查询、同音查询及布尔逻辑运算等查询功能。
4.2.7 标准条目参照查询功能
同一般查询功能。
4.2.8 导入XML记录
可通过XML进行数据交换, 只要系统存有该XML DTD, 即可接受该DTD的XML文档, 档案内可存一条或一条以上的记录, 但不接受一个XML文档内有不同DTD格式的记录。为避免数据重复, 也可事先设置导入的判断条件, 针对一个以上的字段, 进行核查的操作。
图1 系统架构图
4.2.9 导出XML记录
可以选择系统流水号或依指定的日期来导出XML档案, 以供外界存取。除了可以在导出时设定相关参数外, 也提供事先设置需要导出或不导出字段的功能。此外, 也可通过查询功能来达到此目的。
4.2.10 用户权限控制
提供用户管理功能来设置用户的基本数据及其操作权限。登录系统时需输入用户名与密码, 完成确认时, 系统会记录此用户允许使用的权限。
4.2.11 消息管理
指定各错误提示消息的说明内容、图标与按钮种类, 主要目的是提供系统在不需重新编译的情况下, 能够随时依用户实际需要修改显示的消息内容, 以避免部分消息用语含糊或术语不够专业造成使用者误解。
4.2.12 Web查询功能
提供与系统内部相同的检索功能。
5 结语
元数据技术是数字图书馆系统的核心, 而XML是目前元数据最普遍采用的语言。元数据的格式相当多, 如EAD、GILS、FGDC、MARC、CIMI、TEI、DC等, 尚有很多格式是根据上述这些格式设计的;此外, 一个机构的数据类型可能有很多种, 也可能会采用多种元数据格式, 这都是数字图书馆与传统图书馆不同之处。因此, 设计元数据管理系统时, 不能只针对一种格式, 而应该以XML为核心, 兼容各种元数据格式, 这也是本系统的开发理念。
参考文献
[1]孙锐, 杨新涯, 廖维.构建在元数据仓储上的文献资产管理[J].图书馆论坛, 2017 (5) :1-7.
[2]丁梅.元数据对网络信息获取的影响研究[J].情报科学, 2017 (1) :96-100.
[3]武琳, 黄颖茹.开放政府数据平台元数据标准研究进展[J].图书馆学研究, 2017 (6) :14-21.
[4]Bainbridge D, Hinze A, Cunningham S J, et al.Lowcost semantic enhancement to digital library metadata and indexing:Simple yet effective strategies[C]//2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL) .[S.l]:IEEE, 2016:93-102.
[5]Gregory L, Williams S.On being a hub:some details behind providing metadata for the Digital Public Library of America[J].D-Lib Magazine, 2014 (8) :23-30.
[6]Han M J K.Establishing sustainable and scalable workflows for cataloging and metadata services[J].Library Management, 2016 (6) :308-316.
[7]刘越男, 杨建梁.面向电子文件保存的统一元数据模型的构建[J].中国图书馆学报, 2017 (2) :66-79.