文本自动分类是数据挖掘和信息检索的核心技术,也是研究热点。在实际的应用中,时常会出现文本数据量很大,但是对人们有用的信息仅占一小部分,这种莱类样本数量明显少于其他类样本数量的数据就是不平衡数据集。不平衡数据集可以分类为少数类和多数类。
传统方法对少数类的识别率比较低,如何有效地提高少数类的分类性能成为了模式识别和机器学习必须解决的问题。
就提高不平衡数据集的少数类文本的分类性能问题,从数据层面处理角度对数据进行了重抽样。采用随机抽样的办法来提高分类器在不平衡擞据集的泛化性能。关键词:文本自动分类9不平衡数据集;少数类哪如蝉(,。033000):.-.,—..,80..—.船.:;;引言随着全球信息科技的快速发展,促使了功能完善的计算机、数据收集系统和存储设备的产生。
用这些设备可收集海量的数据供人们进行数据分析、事务管理和信在游戏PK息检索的活动。但是数字信息的泛滥为信息资源的管理带来了巨大的压力。目前的数字信息资源由图片、视频、声音、文字等多媒体资源组成,文本信息在数字信息资源占用很大的比例,所以,对文本信息的分类处理就成了必须要解决的问题。总体来说,国内外对文本分类信息技术的研究有了不短的时间,对文本分类信息技术也有了较为完善的发展。值得重视的是,文本分类技术的不平衡数据集的问题普遍存在。随着信息检索、机器学习的成熟,不平衡数据集的技术问题就成了新的研究问题。
不平衡数据集的技术问题,就是类样本的数量可能存在数量级的差距,这个问题是导致分类效果不理想的重要因素。在数据不平衡的情况下,分类器较容易被多数类淹没而忽略了少数类。
根据不平衡数据集问题和其自身的特点,怎样在不影响文本整体分类性能的基础上,提高少数类文本的分类效果,就成了解决不平衡数据集的基本要求。2数据不平衡问题在进行文本分类的研究中,一般都是假设文本数量是平本文收稿日期:2009—12—10衡的,即不同类本样的文本数量大致一样。但是,在现实实践中对文本数据进行处理的时候,通常会发现某一种类本样或几种类本样数量较少,但是这类的类本样又十分重要,这就是所谓的不平衡数据集问题。不平衡数据集的分类问题广泛存在于生活和生产当中。例如在检测非法网页时,非法网页数量大大小于正常网页的数量,即非法网页属少数类。
把正常网页误判为非法网页,需要投入额外的人力和物力来进行检测;把非法网页误分为正常网页。不良影响和经济损失远远大于上一种情况。使用传统的分类方法对这样的文本来进行分类,少数类文本的识别效果相当的不理想。从上述网页分类实例我们可以看出,对于这种文本数据分布不平衡的情况,提高少数类文本的分类效果对于文本系统是至关重要的。一旦分类不当,就会给人们造成难以估量的损失。所以,提高少数类的分类精度成为了研究的重点。
目前,处理不平衡数据集的分类一般采用基于数据层的分类和对已有分类器进行改进。基于数据层的分类方法主要是改变不平衡数据的分布,降低各个类本样文本数量的不平衡程度;基于分类器进行改进的方法是根据数据集的特点,把传统的分类器进行一定的改进,达到较好的分类效率。改进的分类器往往只能针对特定的数据集,适用性比较小,和对数据集进行操作做比较,分类器的改进需要花费较大的成一21—电脑编程技巧与维护本。
选用基于数据层的方法对不平衡的数据进行分类。主要目的在于:通过这种数据的处理,减轻数据集的不平衡程度,提高少数类的分类效果。基于数据层的分类主要作用是处理数据集,一般选用数据抽样的方法。3不平衡数据集文本分类的问题不平衡数据集的文本分类技术的研究是模式识别界的一个相当有挑战性的研究课题,少数类的分类技术的提高更是关注的焦点。在此提出一种分层抽样和过抽样结合的方法对训练用的文本集进行处理。进行分类之前,为了减少少数类的分类效果。对同一类的文本进行改进的抽样,增大了学习域,提高了分类器对少数类的分类效果。3.1系统的组成对不平衡数据集的文本分类系统研究的步骤分为两部分,训练过程和测试过程。训练过程:对训练集进行了抽样,形成比较平衡的文本集合,根据新生成的训练文本进行了特征选择,生产文本向量,并构建分类的模型。最后进行训练分类器的阶段。测试过程:测试文本集向量化后,使用生成的新分类器对向量化的文本集进行分类,并对分类的结果做出评估。从系统来看,文本分类的过程主要包含了以下几个重点。3.1.1训练集处理训练文本集的不平衡性,肯定会对分类的结果产生影响,因此首先要对训练的文本集进行预先处理,然后再使用处理过的文本集训练分类器。主要是采用数据抽样的方法来提高分类器在不平衡数据集上的泛化效果,产生多个新的少数类文本,使少数类文本和多数类文本数量基本一致,形成文本集大体的平衡。3.1.2文本向量化在系统中,分类器一般处理向量化的文本。先对文本进行分词及词性的标注,依据分词字典来对初始字串进行切分,找到最佳的切分点形成切分集,并对最佳切分点的词串进行标注,然后通过词频及语义的相似度来计算,以相互信息作为基础。把文本向量化。3.1.3特征提取系统通过从大规模的语料库学习,把训练的文本进行词条的切分,依据词频分布来提取能够代表文本类的特征项集和相应权值生成的向量表,得出类别的特征,在后续的步骤内对测试的结果进行分类。类别特征指的是一些短语和词组,这些短语和词组的选择主要是以对语义重要度及词频所决定的。
分类模型集:就是把类别训练集采用及算法的学习算法进行处理,获得的分类模型。3.1.4文本分类分类模块中,输入已向量化的分类模型集合文本信息,并对训练的测试文本集进行分类,得出文本集中每一个文本的所属类别。
需要注意的是,文本的存在兼类是正常的现象,就是一篇文章可以属于类别体系的多个类别,但由于文本训练的语料每一个文本仅被标注了一个类别,怕影响到对分类一22一效果进行评价的合理性,此系统把使用的分类器设计成了单项分类器,就是文本只能被制定一个类别。3.1.5分类评价算法测试分类评价对分类的效果进行评价,并给出反馈的信息供进行学习,从而不断地修正分类特征,提高分类特征的性能。分类评价计算分类结果的准确率数据和分类测试结果的统计图,把分类的结果反馈给用户,用户对分类的结果进行确认或修改,进一步地提高分类的效果。文本分类中,中文文本的特殊性和分类过程,决定了文本分类的特征提取及文本分类中分类器的构造成为重要的步骤。3.2技术难点文本分类的技术即使发展很快,但在实际的应用中,还存在或多或少的技术难点,主要有以下几部分:(1)和英文文本有所不同。中文文本在进行分析的一个重要前提条件就是对中文文本的分词处理,同时这也是进行中文信息处理的一个难题。(2)文本实例中有些类本样的文本很多,另一些类本样相对较少。在这样的情况下,用户往往需要其中很少出现但是很重要的文本,出现这种文本数据的不平衡时,少数类问题的分类效率不是特别的好。(3)中文文本的特点使得文本的分类成我玩传奇了一个复杂的技术问题。4影响分类系统性能的因素4.1类别体系的设置类别体系一般在被认为设定时,会出现一些交叉的现象,就是各类的文本之间重叠的较多。
区分重叠的特征在不同环境的不同语义对有着高级思维和抽象能力的人类大脑来说比较的容易,但对于计算机这种只能对语义做出浅薄理解(计算机只能区分具体的词性差别不能区分语义的差别)的机器来讲,区分高级抽象的事务就会表现的十分困难。如在北京历史的发展和地理位置这篇文章中,文章主要介绍了北京的历史发展进程,人和自然界的关系。通过一般的人工分类,很容易把这篇文章归纳到历史类中。但由于文章中多次出现农业类别的特征词汇,例如“农耕”、“农产品”、“游牧”、“自然环境”等,所以系统在进行分类的时候,就会把这篇文章归纳为农业类。因此可以看到,对于特征不明显的文章,即便系统选用的分类算法性能再怎么先进,计算机也很难进行正确的识别。所以,结合目前计算机的技术水平。
为了提高分类性能得到比较好的确认,在设置类别体系的时候,应该尽量使类别间的差异变大,尽可能地避免类别的交叉现象,保证较高的分类效果和性能。4.2训练集的平衡程度从上述的分类实验数据可以看到,随着训练集平衡程度的增加,分类系统的性能也得到很大的提高。主要是因为训练集的规模越大,获得的文本特征就会越全面,构成向量的模型也会越多,这可以很好地反映某类文本的特征。如果训(下转到29页)软件开发与设计,女Ⅱ果点击了提交按钮(!)=”你提交的内容不完整,请检查核对后重新提交.:,如果已经通过输入检查=”=71;=(,);=;=0;职工表里面的记录顺序号(=]),防止用户用后退按钮重复提交0;,自定义函数,用于保存对当前对象,的测评意见-..++;肝次将测评另外一个对象.(”:.”);,防止用户刷新页面错误提交=”请不要返回前面的页面重复进行提交!”:=”.=2=7[“。;=(,);膻询同部门的处级领导干部(!(¨..))["”-0;,用来表示结果集传奇装备的第几行从0开始计)[””=(,..,””);取出一个测评对象一-”=(,”,””);,测评对象的顺序号=;,表示结果集里面共有多少行=.”+;表示第几个测评对象(>)意味着选取的对象已经测评完毕.(”:.”);删转到测评中转页面5结语完成了对网络测评系统的需求分析、概要设计、详细设计和编码实现(包括数据库概念结构设计、逻辑结构设计和物理结构设计),基本含盖了软件开发的全过程。通过这个项目的开发实践,既加深了自己对软件工程的进一步认识,也积累了一点开发数据库程序的经验。参考文献1王石,杨英娜.精通+应用开发.北京:人民邮电出版社,2006.2施伯乐,丁宝康,汪卫.数据库系统教程.第2版,北京:高等教育出版社,2003.3陈光军,潘明寒.网站建设与管理.北京:北京邮电大学出版社,2005.作者简介徐波。男,三峡大学电气信息学院硕士研究生,计算机应用技术专业。
上接第22页)练集的规模比较小。
文本特征不能很好地对文本类别样进行分析,那么会影响到系统分类性能的工作。如果训练集数据过于庞大,会带来训练时间的增长,存储空间耗费过大的问题,所以在训练文本集中,尽量采用各个文本类别中文本数量基本相差不大的数据来进行文本集的训练,或者对小类文本集进行抽样和扩充,达到基本的平衡,从而提高分类的效率。5结语信息技术高速发展的今天,文本分类技术还会与语音识别、图像识别相融合,例如基于字幕的视频检索、视频分类等等。这就进一步地要求文本分类技术和文本处理、提高分类效果等方面技术的相互结合,这些方面都需要进一步的研究和探讨。参考文献11陆玉昌,普明宇,李凡.向量空间法中词条权重函数的分析和构造.计算机研究与发展,2002,39(10):1205—1210.2周茜,赵明生.中文文本分类中的特征选择研究1.中文信息学报,2004,18(4):18—24.3张启蕊,张凌,董守斌,等.训练集类别分布对文本分类的影响.清华大学学报,2005,45(1):1803—1806.4李正欣,赵林度.基于的非均衡数据集分类器.系统工程,2008,25(6):玩家认为不错的117—120.5徐燕,李锦涛.基于区分类别能力的高性能特征选取方法阴.软件学报,2008,6(19):82—89.作者简介白风凤,女(1976一)。硕士,山西省吕梁高等学校计算机系讲师,研究方向:计算机应用。
一29—基于不平衡数据集的文本分类技术研究作者:白凤凤,作者单位:山西省吕梁高等专科学校计算机系,离石,033000刊名:电脑编程技巧与维护英文刊名:年,卷(期):2010(6)参考文献(5条)1.徐燕;李锦涛基于区分类别能力的高性能特征选取方法[期刊论文]-软件学报2008(06)2.李正欣;赵林度基于的非均衡数据集分类器[期刊论文]-系统工程2008(06)3.张启蕊;张凌;董守斌训练集类别分布对文本分类的影响[期刊论文]-清华大学学报2005(01)4.周茜;赵明生中文文本分类中的特征选择研究[期刊论文]-中文信息学报2004(04)5.陆玉昌;普明宇;李凡向量空间法中词条权重函数的分析和构造[期刊论文]-计算机研究与发展2002(10)。
上一篇:基于Web的开放实验教学管理系统的设计与实现
下一篇:口译工作应注意的几个问题
Email: cz95@cz95.com ; 联系客服:15822478812