仅在里边定义连接字串,在使用的时候在创建对象,使用完对象就关闭
Config.asp:
Quote
<%
Dim Def_Sample
Def_Path=server.MapPath("data.mdb")
Def_Sample="DBQ="+Def_Path+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};" '连接字串
%>
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。
后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚,有太多所谓“只可意会,不能言传”的东西在里面。人类的判断大多依据经验以及直觉,因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。
这便是统计学习方法的基本思想。统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。
训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。这些训练集包括sogou文本分类分类测试数据、中文文本分类分类语料库,包含Arts、Literature等类别的语料文本、可用于聚类的英文文本数据集、网易分类文本分类文本数据、tc-corpus-train(语料库训练集,适用于文本分类分类中的训练)、2002年中文网页分类训练集CCT2002-v1.1等。
现如今,统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础(相比之下,知识工程方法中专家的主观因素居多),存在明确的评价标准,以及实际表现良好。
统计分类算法 将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。常用的分类算法为:决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等。
在这里只挑几个最具代表性的算法侃一侃。Rocchio算法 Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。
基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这 个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。
稍微改进一点的Rocchio算法不仅考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。
一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。不过Rocchio产生的分类器很直观,很容易被人类理解,算法也简单,还是有一定的利用价值的,常常被用来做科研中比较不同算法优劣的基线系统(Base Line)。
朴素贝叶斯算法 贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。
而每个词属于该类别的概率又在一定程度上 可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。
朴素贝叶斯算法的公式并不是只有一个。首先对于每一个样本中的元素要计算先验概率。
其次要计算一个样本对于每个分类的概率,概率最大的分类将被采纳。所以 其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1) P(w|C)=元素w在分类为C的样本中出现次数/数据整理后的样本中元素的总数(式2) 这其中就蕴含着朴素贝叶斯算法最大的两个缺陷。
首先,P(d| Ci)之所以能展开成(式1)的连乘积形式,就是假设一篇文章中的各个词之间是彼此独立的,其中一个词的出现丝毫不受另一个词的影响(回忆一下概率论中变 量彼此独立的概念就可以知道),但这显然不对,即使不是语言学专家的我们也知道,词语之间有明显的所谓“共现”关系,在不同主题的文章中,可能共现的次数 或频率有变化,但彼此间绝对谈不上独立。其二,使用某个词在某个类别训练文档中出现的次数来估计P(wi|Ci)时,只在训练样本数量非常多的情况下才比较准确(考虑扔硬币的问题,得通过大量观 察才能基本得出正反面出现的概率都是二分之一的结论,观察次数太少时很可能得到错误的答案),而需要大量样本的要求不仅给前期人工分类的工作带来更高要求 (从而成本上升),在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。
但是稍有常识的技术人员都会了解,数据挖掘中占用大量时间的部分是数据整理。在数据整理阶段,可以根据词汇的情况生成字典,删除冗余没有意义的。
在word中,以word2010为例来介绍七种文本选取的方法,以便提升工作效率。
1、第一种选择字或词组的方法。
通常是通过拖动鼠标来实现单词和单词的选择,另外,基于单词的强大关联功能,还可以通过将光标移动到短语的中间然后双击鼠标来选择短语,如下图所示。
2、第二种是选择单行和段落的方法。
可以将光标移动到行的左端,当箭头处于箭头状态时单击鼠标,然后是文本行选中,如果双击鼠标,则可以选择段落文本,相比较拖动鼠标来选择单行文本这种方法要快得多。
3、第三种是选择整篇。
只需要将光标移动到文档的左侧,显示光标时,可以通过三击左键来选择整篇文章,除此之外还可以用“Ctrl+A”来实现选择整篇。
4、第四种是跨页选择文本。
如果要选择的文本不在一页上,用手动发票的方式来选择是非常不方便的,这时可以用先停止光标,然后选择文本,然后向下滚动选择在文本末尾,按住shift并单击此处的方法。
或是在选择文本前按住光标,按F8,然后在所选文本末尾单击鼠标,可以通过调整鼠标位置灵活选择文本,之后,按Esc键结束。
5、第五种是选择区域文本的方法。
如果选择的划如下图所示的区域内的文字,用鼠标拖动就无法实现,这时可将光标移动到选区开头,按住Alt键将矩形区域拉出到右下方,将选择区域中的文本,更改颜色以查看选择效果。
6、第六种是选择相似文本的方法。
这一方法主要是针对标题类的文本选择,可先选中某一级的标题,再选择并点击“选择格式相似的文本”,就可以看到同一级的标题都被选中了。
7、第七种是间隔选择文本的方法。
如果要在同一文本中选择不同区域的文本,先选择一部分文本,然后按住Ctrl键,再将其它部分加入,若对某一部分不想选择了,也可以将光标移动到此部分,后点击左键即可取消该此部分。
赵琦(黑龙江省总工会,黑龙江 哈尔滨 150000) 摘要:文书档案是社会发展的主要记录载体,从古至今,人们对档案工作一直都非常重视。
在社会不断发展中,文书档案管理方法不断完善,这也意味着文书档案的管理不断细分,因此在文书档案管理中需要对档案进行严格分类,以此提高文书档案工作效率。本文阐述了文书档案工作中最常见的三类分类方法,主要分为:年度分类法、组织机构分类法和问题分类法。
关键词:文书档案;分类方法;年度分类法;组织机构;问题分类法 文书档案是记载了社会发展中各种现实事物发生的整体过程,通过对历史客观记录来衡量某一时期领导人供给,同时是反应某一时期各个基层、部门建设和科技成果开发的主要措施。伴随着社会发展中,人们对文书档案认识的不断增加,文书档案分类是与档案整体工作的基本出发点和根本目的,是保持文件之间历史联系发生各种矛盾的过程中能够充分的考虑和保管,利用相应的方便来实现档案管理效率。
在文书档案工作中,分类是通过将文件按照不同的形式和形成机关等因素分开,避免出现不同机关文件的混杂,造成档案管理工作的混乱。1 年度分类法 就是根据形成和处理文件的年度,是通过将全宗内的所有文书档案按照时间为标准进行逐步区分,通过形成年限逐次排开。
运用年度分类法,要求根据文件的准确日期将文书档案进行归纳,并且注明其形成的实践,这是确保分类质量和效率的关键,同时也是在当前实际工作中能够合理完善档案分类工作的有效措施,其在分类的过程中需要注意一下几个方面:一是在实际社会活动中,不仅有通用的公历年度,其中也有一些特殊行业和部门是按照工作性质和工作特点的需要来对档案在应用中采用过去农历方式进行编制的,这就造成档案在分类中容易混淆的问题,因此在分类的过程中需要对这种情况严加分析,避免出现文档分类的混乱。二是某些文件上有几种日期,如起草日期、签署日期、批准日期、会议通过日期、发布日期和收文日期等,这些日期有时还不属于同一年度。
在这种情况下,要根据文件的具体情况确定一个最能说明文件时间特点的日期。通常的做法是:内部文件和一般发文以文件的写成日期为根据;来往文件中收文以收到日期为根据;法律、法令和条例等法规文件以批准日期或公布、生效日期为根据;指示、命令等指令性文件以文件签署日期即落款日期为根据;计划、总结、预算、决算、统计报表等以内容所针对的时限为根据;跨年度处理的专门案卷、来往文书等可放入关系最密切的年度或最后结案的年度。
期刊文章分类查询,尽在期刊图书馆 三是一些文件由于某种原因没有标注或找不到日期,对此需要根据文件的具体情况,采取适宜的办法考证和判定文件的准确或近似的日期,并将其妥善归类。在文书档案的管理工作中,对分类要求日益增加。
文书档案在管理中一般都是通过以每份文件为一件,文件正本与定稿为一件,正文与附件为一件,元件与复制件为一件,转发文件与被转发文件。四是在年度分类的过程中一般都是通过将一份文件结合实践特征来进行整理,这是通过成文时间、签发时间、批复时间、通过实践和公布时间等,不过在目前的分类管理中一般应用醉倒的是文件的签发时间。
以文件签发时间来判定文件的所属年度是当前对各个单位和企业进行总结的主要方法,同时也是按照新方法取消其中内容的主要手段。2 组织机构分类法 就是根据文书处理阶段形成和处理文件的承办单位进行分类。
它以立档单位内部的组织机构为标准,按不同的机构分别设置类目。采用组织机构分类方法应具备一定的条件:第一,立档单位每年设立的内部组织机构应当基本稳定。
内部组织机构经常调整变化的立档单位,不宜采用这种方法。第二,立档单位设立的各个内部组织机构应当能够反映该单位的职能分工情况,并且每个组织机构具有较稳定的基本工作任务或职责,其工作活动的内容及过程应同该机构承担的相关职能保持一致。
第三,立档单位的文件上应有各组织机构在形成及承办文件时留下的标记,如收文章、发文号等。组织机构分类法的类别设置,一般是以立档单位内第一层组织机构分类,需要时也可以分到第二层组织机构,往往有一个机构就设一个类。
如果一个单位的机构包括办公室、人事部、财会部、组织部、宣传部等,采用组织机构分类法就可将档案分为办公室类、人事部类、财会部类、组织部类、宣传部类等。各类的排列次序一般按习惯或正式文件的规定,把领导机构、综合机构排在前面。
3 问题分类法 就是按照文件内容所反映的问题或“事由”将文书档案划分成各个类别。它以文件的内容为标准,按文件所涉及的问题(事由)分类。
如一个全宗内的档案可以按人事、计划、生产、销售等类别分类,销售类内的档案还可以按广告宣传、推销、运输、售后服务等进一步分类。这种分类方法要求问题的概括应当准确并且范围明确,各个同级类目应当互相排斥,并按文件的主要内容进行归类。
因此,相对而言,这种分类方法要求档案人员具有较高的业务水平。为确保每份文件都能正确归类,使用问题分类法时应注意以下。
用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记 基於分类体系的自动分类 基於资讯过滤和用户兴趣(Profiles)的自动分类 基於分类体系的自动分类 所谓分类体系就是针对词的统计来分类 关键字分类,现在的全文检索 词的正确切分不易分辨(白痴造句法) 基於资讯过滤和用户兴趣的自动分类 学习人类对文本分类的知识和策略 从人对文本和类别之间相关性判断来学习文件用字和标记类别之间的关联 请参考: n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf) n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf) n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf) n 苏金树、张博锋、徐 昕,基于机器学习的文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf) n 基于统计学习理论的支持向量机算法研究 。
文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:
(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3) 统计:词频统计,项(单词、概念)与分类的相关概率;
(4) 特征抽取:从文档中抽取出反映文档主题的特征;
(5)分类器:分类器的训练;
(6) 评价:分类器的测试结果分析。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:3.444秒