自动标引

来自术语
跳转至: 导航搜索

    对文献赋予检索标识的过程、技术和方法。

属性[编辑]

英文名 automatic indexing 中文名 自动标引
应用领域 计算机行业

自动标引[编辑]

检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。

自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。

自动标引系统[编辑]

一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。

代表方法[编辑]

根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位。

1958年,Luhn提出基于绝对频率加权法的自动标引方法 ; P.B.Baxendale提出从论题句和介词短语中自动提取关键词。

1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法。

1960年,Maron & Kuhns提出基于相关概率的赋词标引方法

1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题

1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词

1973年,Salton等提出基于词区分值的自动标引方法

1975年,Salton等将VSM模型用于自动标引中1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统

1985年,Devadason提出基于深层结构标引方法

1990年,Deerwester & Dumais等提出潜在语义分析标引法

1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法

1995年,Cohen提出N-Gram分析法的自动标引方法

1997年,简立峰提出基于PAT树的关键词提取方法

1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法 ;Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究

2001年,Anjewierden & Kabel提出基于本体的自动标引方法

2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法;Hulth利用Bagging算法进行了基于集成学习关键词抽取

2004年,李素建提出基于最大熵模型的关键词提取方法

2006年,张阔提出基于支持向量机自动标引模型

2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法



链接[编辑]

Wikipedia https://en.wikipedia.org/wiki/automatic_indexing
Zhishi.me http://zhishi.me/baidubaike/resource/自动标引
http://zhishi.me/hudongbaike/resource/自动标引
http://zhishi.me/zhwiki/resource/自动标引