文本分类

来自术语
跳转至: 导航搜索

    又称篇章分类(text categorization )。基于给定的分类体系和方法,自动判别文本内容的类别并给文本赋以类别标识的过程、技术和方法。

属性[编辑]

类别 处理方式 方法 朴素贝叶斯
定义 基于分类体系的自动分类 英文名 text classification
中文名 文本分类

定义[编辑]

基于分类体系的自动分类

基于资讯过滤和用户兴趣(Profiles)的自动分类

所谓分类体系就是针对词的统计来分类

关键字分类,现在的全文检索

词的正确切分不易分辨(白痴造句法)

学习人类对文本分类的知识和策略

从人对文本和类别之间相关性判断来学习文件用字和标记类别之间的关联

过程[编辑]

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:

(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;

(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;

(3) 统计:词频统计,项(单词、概念)与分类的相关概率;

(4) 特征抽取:从文档中抽取出反映文档主题的特征;

(5)分类器:分类器的训练;

(6) 评价:分类器的测试结果分析。

方法[编辑]

文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。

开源软件[编辑]

TMSVM:完整的基于Libsvm与Liblinear的文本分类系统,直接输入训练样本,并配置相应参数,即可进行模型及预测。

参考文献[编辑]

1 F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf)

2 Aas K., Eikvil L.. Text Categorisation: A Survey. TechnicalReport. Norwegian Computing Center, Oslo, Norway,1999.

3 M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf)

4 Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf)

5 苏金树、张博锋、徐 昕,基于机器学习文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf)

6 基于统计学习理论支持向量机算法研究

7 瓦普尼克(著),张学工(译),统计学习理论的本质 清华大学出版社 2004.6

8 SVMlight

9 SVMTorch



链接[编辑]

Wikipedia https://en.wikipedia.org/wiki/text_classification
Zhishi.me http://zhishi.me/baidubaike/resource/文本分类
http://zhishi.me/hudongbaike/resource/文本分类