首页 > 理工 > 计算机

网络信息分类系统的词汇控制

【关键词:计算机网络】 
所谓词汇控制,是指根据信息资源标引和检索的需要,对自然语言中的词汇进行选择、规范并揭示其相关性的过程。自然语言作为一种人际交流和思维的工具,其词汇具有使用灵活、表达性强等特点,但相对检索要求来说,含义不够精确,缺乏明确的结构,词汇量也过大。因此,必须根据检索系统要求,对词汇进行选择和处理。适度的词汇控制对于建立一个高效的信息组织和检索系统是十分必要的。

分类系统对词汇的控制主要包括:同义控制、词义控制和词间关系控制三个方面[1],本文主要围绕这三个方面进行讨论研究。

1 传统分类法词汇控制

传统分类法的构成原理中,词汇控制是一个重要的方面。

1.1 同义控制

即对字面形式不同、涵义相同的词进行控制,使一个概念只用一个语词表达,目的是克服自然语言中的一义多词现象。

分类法对词汇的同义控制主要体现在类名的选择上。类名即类目的名称,规定着类目的含义和内容范围。当遇到一义多词情况时,传统分类法的选词原则一般是:采用能准确反映其含义且比较通行的科学名词,而不选择其俗称、旧称、不能准确表达全称原义的简称、不通行的译名或近义词等[2]。如有必要,也可将这些落选的同义词、近义词用括号加注于类名后,或设置交替类目、用代参照。

1.2 词义控制

即对同形异义词和语义含糊的词进行控制,使得词义明确,一个词语只表示一个概念,克服自然语言中的一词多义现象。

传统分类法主要通过类目注释来对词义进行控制。类目注释有多种类型,包括内容注释、关系注释、编列方法注释、分类方法注释、沿革注释等。一般在类目内容注释中作词义控制,对类目的涵义加以说明,或对类目的内容范围加以区分,指示某类包含与不包含的内容。如中图法第四版类目“TB47工业设计”的注释:“工业设计是工程技术与美学艺术相结合的新学科”。

1.3 词间关系控制

指揭示词汇之间的各种联系使其成为一个语义相关的系统,目的是用以满足扩检、缩检、改变检索方向等的需要。词汇之间的联系,主要包括等同、等级、相关三种基本类型。

由于传统分类法以分类标记作为概念标识,将系统展开的类目体系作为主要检索途径,因此,词间关系控制成为其词汇控制的中心。分类系统主要采用系统方式展开,通过层层划分,构成其具有隶属、并列关系的秩序井然的概念等级体系。将主题之间从属、并列、相关等联系加以系统展示,同时将类目之间的参照作为揭示类目之间横向联系的一种补充手段。类目参照一般用于内容联系具有揭示价值、但在分类体系中被分散了的类目之间,通常采用互逆的方式在相关门类下注明。

2 网络分类系统词汇控制现状

以下从同义控制、词义控制及词间关系控制三个方面来对网络分类系统词汇控制的现状与传统分类法进行对比分析。

2.1 同义控制

在类目名称上,传统分类法的类名力求科学、准确、规范,而网络分类法在类名选择上更注意面向各类网络用户,力求通俗易懂、时新,类名也更为简练。因此,导致类名不规范的现象在各网络分类系统尤其是在其三级及以下类目中普遍存在,成为词汇控制中一个突出的问题[3]。如雅虎中国的一个三级类目名“亲子”,搜狐的一个三级类目名“拓展”。

至于落选的同义词,一般不建立用代参照或设置交替类目,但可作为入口词。如在提供类目索引的雅虎中国中,在检索框中输入“脚踏车”,检索结果会将你指引向“自行车”[4]。

2.2 词义控制

网络分类系统中,也普遍存在类名用语模糊导致难以判断其外延的现象。传统分类法中的词义控制手段如含义注释和范围注释也很少采用,一般只在一级大类下有选择地列举重点或热点下位类来帮助明确其类名含义。如Yahoo!中,在一级大类“Business & Economy”下列出部分一级类“B2B,Finance,Shopping,Jobs”[5];在Open Directory中,一级大类“Business”下列出部分二级类“Jobs,Real Estate,Investinn”[6]。

2.3 词间关系控制

与传统分类法一样,等级式类目体系也是网络分类法进行词间关系控制的主要手段。传统分类法基本上是采用线性形式揭示类目之间联系的,这是文献组织的需要和传统检索环境的特点所决定的。计算机的使用,特别是超文本技术的使用改变了这一状况。超文本技术的特点是,可以通过节点之间的链接,以非线性的方式充分揭示和表达信息之间的联系。这一特点极大地改进了网络分类法中类目之间各种关系的揭示,尤其是多维关系的揭示。这是超文本技术的强项,也是传统分类法中的一个薄弱环节。目前,网络分类体系中对多维关系的揭示比较充分,一般均通过链接的方式,在相应类下重复反映。但如在处理过程中缺乏一致性及对应用范围的适度控制,也会造成类目关系的混乱。此外,单一的重复反映并不能简单代替相关关系的揭示[7]。

在从属、并列关系的揭示上,网络分类系统目前也存在一些问题,如类目归属存在着不合理现象,同位类排列不能揭示类间关系等。

3 网络分类系统词汇控制改进策略

网络分类目录是因特网上用户常用的两种信息检索工具之一,对网上海量的混杂无序的信息起着重要的导航作用。网络分类系统词汇控制的根本目的是提高检索效率,因此,笔者认为网络分类系统的所有词汇控制改进策略都应以提高检索效率为前提。

3.1 继续保持自然语言的主体检索语言地位

目前,在大多数信息存储与检索系统中,自然语言和人工受控语言处于并存状态,相互取长补短。随着Internet的普及发展,信息检索最终用户日趋壮大,自然语言检索呈现迅速发展趋势。如前所述,网络分类检索系统中词汇控制具有与传统分类系统不同的特点,自然语言在系统中完全占据了主体地位。从根本上看,这是由自然语言检索的特点和网络用户的检索需求特点所决定的。

传统分类法的编制主要针对印刷型文献的特点用以编制分类目录和组织分类排架,而网络信息分类体系旨在为网上信息提供指引,建立与目标信息的快速有效的链接。网络信息分类体系面向的是广大网络用户而不是图书情报专业人员。与原来的专业检索人员相比,网络用户的范围十分广泛,他们的教育程度、知识结构、专业技术、兴趣爱好各不相同,对同一事物、同一概念的理解也不尽相同。因此,为了增加网络分类体系对一般用户的易用性,现有的网络分类体系都尽量采用自然语言,而避免学术性、专业性过强的词汇,从而向大众提供易于掌握、使用的分类查询系统。

自然语言由于其与生俱来的词义模糊、词间关系不清等特性造成不少的漏检和误检,与人工语言相比,检索效率较低。但从用户角度来说,自然语言具有独特的优越性,如自然语言时新性强,一旦网页中出现某个新概念词语,即可直接使用这一新词作为检索入口,而不必要转换成另一规范词用于检索。而且自然语言检索方便,它解除了受控语言的种种限制,不需要复杂的检索规则,使用者能够较快适应、易用性突出。

当然,要想获得满意的检索效果,对自然语言的适度控制是不可缺少的,这包括建立机内关键词词典、类主题词典和后控制词表等。有理由相信随着相关技术的日益提高,自然语言的优越性将越来越显著,网络分类检索系统也将日臻完善,获得人们的普遍欢迎。

综上所述,为了促进网络分类系统的广泛使用,自然语言在其中作为主体检索语言的地位需要继续保持下去。

3.2 适度借鉴传统分类法和主题法的词汇控制手段

传统分类法主要通过其层层展开的严密的类目体系来进行词汇控制。其系统的类目体系使得系统地掌握和利用一个学科或专业范围的知识和信息很方便,对于从学科或专业出发的泛指性检索能达到较高的检全率,而且能方便地进行扩检和缩检。传统主题法系统,一般以词汇为单元进行控制,主要通过参照系统和各种辅助索引来展示词间关系,在主题词的选择、词义控制方面比分类法更为严格。主题法的特点是以主题为中心集中信息资源,能准确、专指地标引和揭示各种主题内容,检索的直接性、通用性好,适合于进行专指性检索,而且可通过灵活组配方式进行多途径检索,达到较好的使用效果。

现有网络分类法由于应用超文本技术揭示词间关系,采用多重列类的方法,从不同的属性、角度设置类目,从而提供从多个方面揭示信息资源的方法,增加了检索入口,方便用户从不同角度查找。这是其在检索上相对于传统分类法和主题法检索系统最大的优势。但从目前检索实践来说,其检索效率远不及后者,究其原因,词汇控制是其中一个很重要的因素。因此,要改善网络分类系统的检索效率,借鉴传统分类法和主题法成熟的词汇控制手段是一个可行的办法[8]。

首先,在类目体系设计上,网络分类体系普遍存在着类目设置缺乏规律性、类目归属不合理、同位类排列混乱、横向关系揭示不一致等问题,而这些问题在传统分类法中都相应地有很成熟的技术或约定俗成的做法可借鉴。

其次,在类名选择上可借鉴传统主题法词汇选择的原则和方法或直接选用其主题词。类目名称不规范是目前各种网络分类系统的一大通病。作为面向最终用户的检索系统来说,采用广大网民所喜闻乐见的称谓是无可厚非的,但对于类目命名还是要进行适当的规范化处理。现有的网络分类系统大多属于等级式主题分类法系统,以主题充当类目。因此,借鉴传统主题法词汇选择的原则和方法或直接选用其主题词不失为改善词汇控制的一个捷径。

另外,在词义控制上,可采取传统分类法和主题法所常用的手段,包括加限义词、增设含义注释和范围注释等,以进一步明确类目的内涵和外延。这有助于用户在查询系统时快速、准确选择类目,增强系统的用户友好性,从而达到改善检索效果的目的。

3.3 建立一致的词汇控制机制

许多国内外知名的综合性门户网站如Yahoo、Excite、Infoseek、搜狐、网易等都研制有自己的网络分类检索工具,提供分类浏览式查询。这些各具特色的网络分类体系给网上信息检索带来了极大的便利。这些分类体系的大类设置与划分、类名的表述与外延、类目的排列等各不相同,检索性能也有较大的差异。而用户在查询网络信息时通常会使用多种分类检索工具,这就造成了用户理解和使用的困难,更不利于网上信息资源的共建和共享。

传统分类法也曾是多种多样的,但目前在国际上占主导地位的只有DDC、UDC和LCC,在我国则是《中图法》和《科图法》。综合性的分类法趋向统一是信息资源共享趋势的结果。互联网上信息资源的最大特点之一就是它的共享性。知识组织体系的相对统一将为基于网络的资源共享提供便利。因此,编制适应网上信息组织和检索的统一分类体系已成为迫切需要解决的问题。建立一致的词汇控制机制是统一分类体系的非常重要的一环,对于推动网络分类法的进一步发展具有重要的意义。

建立一致的网络信息分类体系词汇控制机制,应该由图书情报专业人员参与,以现有的传统分类体系主题法词汇控制机制为基础,吸收已有的网络分类体系的词汇控制经验和成果,遵循面向网络信息资源、面向网络技术环境、面向网络用户的原则。其词汇控制机制主要包括同义控制、词义控制、词间关系控制方面的原理、原则、方法和技术等,此外,还包括词量控制、词组选择和使用的控制、专指度的控制等方面的内容。

最后,在词汇控制机制一致的基础上,构建相对统一的网络信息分类法。所谓相对统一,是指在统一网络分类体系基本原理包括词汇控制机制的基础上,保留并改进现有的多样的网络分类体系,允许多种有特色有实力的分类体系共存发展。因为不同的网络分类体系在类目体系和资源选择上往往都有自己的特点,在满足不同用户需求或检索特定资源时有其独到之处[7]。此外,多样性必然导致网络分类体系之间的竞争,为了争取用户,开发者不得不针对用户的需求实时地改进,这就使得整个网络分类体系的性能得到自然的提升,从而推动网络分类法逐步走向成熟和完善[9]。

【参考文献】

1 马张华.信息组织(第二版)[M].北京:清华大学出版社,2003.14-15.

2 张琪玉.情报语言学基础(第二版)[M].武汉:武汉大学出版社,1997.44-47.

3 黄如花.网络信息组织:模式与评价[M].北京:北京图书馆出版社,2003.89-91.

4 http://cn.yahoo.com,2004-10-11.

5 http://www.yaboo.com,2004-10-11.

6   http://dmoz.org/,2004-10-11.

7 刘颖.试论网络信息分类的现状与未来——构建统一的网络信息分类法[J].晋图学刊,2003,(1):21-23.

8 周宁,黄晓梅,等.信息组织[M].武汉:武汉大学出版社,2001.74-77.

9 杜安平.网络分类体系基本原理研究[J].图书馆学研究,2004,(4):60-62.
更多 >>
热门分类
推荐文章