特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。
当选择到了目标特征之后,再用来训练最终的模型;3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。
从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机器学习的朋友重视。
说明方法 常见的说明方法 常见的说明方法有举事例、分类别、列数据、作比较、画图表、下定义、作诠释、打比方、摹状貌、引资料等10种。
写说明文要根据说明对象的特点及写作目的,选用最佳方法。下面分别加以说明。
(1)举例子。举出实际事例来说明事物,使所要说明的事物具体化,以便读者理解,这种说明方法叫举例法。
如: 一般人总以为,年龄稍大,记忆能力就一定要差,其实不然,请看实验结果:国际语言学会曾对9至18岁的青年与35岁以上的成年人学习世界语作过一个比较,发现前者就不如后者的记忆力好。这是因为成年人的知识、经验比较丰富,容易在已有的知识基础上,建立广泛的联系。
这种联系,心理学上称为“联想”。人的记忆就是以联想为基础的,知识经验越丰富,越容易建立联想,记忆力就会相应提高。
马克思五十多岁时开始学俄文,六个月后,他就能津津有味地阅读著名诗人与作家普希金、果戈里和谢德林等人的原文著作了。这是由于语言知识丰富,能够通晓很多现代和古代的语言的缘故。
这段文章要说明的是:年龄稍大,记忆力不一定就差。为了说明这一点,作者先提供了实验结果,又分析了原因。
到此为止,未尝不可,但不够具体,也缺乏说服力,于是,又举出了一个实例:马克思在五十多岁的时候,只用六个月时间便精通了俄语。这样一来,内容具体了,说服力增强了。
说明文中的举事例的说明方法和议论文中的例证法,都可以起到使内容具体、加强说服力的作用。但二者又有区别。
议论文中的事例,是用来证明观点的,说明文的事例,是用来介绍知识的。 运用举事例的说明方法说明事物或事理,一要注意例子的代表性,二要注意例子的适量性。
(2)分类别。将被说明的对象,按照一定的标准划分成不同的类别,一类一类地加以说明,这种说明方法,叫分类别。
分类别是将复杂的事物说清楚的重要方法。 运用分类别方法要注意分类的标准,一次分类只能用同一个标准,以免产生重叠交叉的现象。
例如:“图书馆的藏书有中国的、古典的、外国的、科技的、文学的、现代的以及政治经济方面的等。”这里用了不只一个标准,所以表达不清。
正确的说法应该是: 图书馆的藏书,按国别分,有中国的、外国的;按时代分,有古典的、现代的;按性质分,有科技的、文学的以及政治经济方面的等。 这样,每次分类只用一个标准,就眉目清楚了。
有的事物的特征、本质需要分成几点或几个方面来说,也属于分类别。 注意,运用分类别方法,所列举的种类不能有遗漏。
(3)列数据。为了使所要说明的事物具体化,还可以采用列数据的方法,以便读者理解。
需要注意的是,引用的数字,一定要准确无误,不准确的数字绝对不能用,即使是估计的数字,也要有可靠的根据,并力求近似。 (4)作比较。
说明某些抽象的或者是人们比较陌生的事物,可以用具体的或者大家已经熟悉的事物和它比较,使读者通过比较得到具体而鲜明的印象。事物的特征也往往在比较中显现出来。
在作比较的时候,可以是同类相比,也可以是异类相比,可以对事物进行“横比”,也可以对事物进行“纵比”。 (5)画图表。
为了把复杂的事物说清楚,还可以采用图表法,来弥补单用文字表达的缺欠,对有些事物解说更直接、更具体。 (6)下定义。
用简明的语言对某一概念的本质特征作规定性的说明叫下定义。下定义能准确揭示事物的本质,是科技说明文常用的方法。
下定义的时候,可以根据说明的目的需要,从不同的角度考虑。有的着重说明特性,如关于“人”的定义;有的着重说明作用,如关于“肥料”的定义;有的既说明特性又说明作用,如关于“统筹方法”和“应用科学”的定义。
①人是能制造工具并使用工具进行劳动的高级动物。 ②肥料是能供给养分使植物生长的物质。
③统筹方法,是一种安排工作进程的数学方法。 ④工程技术的科学叫做应用科学,它是应用自然科学的基础理论来解决生产实践中出现的问题的学问。
无论从什么角度考虑,无论采用什么方式,只要是下定义,就必须揭示事物的本质,只有这样的定义才是科学的。比如,有人说:“人是两足直立的动物。”
这个定义就是不科学的,因为它没能揭示事物的本质。“人是能制造工具并使用工具进行劳动的高级动物。”
这才是科学的定义,因为它揭示了人的本质。 (7)作诠释。
从一个侧面,就事物的某一个特点做些解释,这种方法叫诠释法。 定义法和诠释法常采用“某某是什么”的语言形式。
形式相同,如何区分呢?一般来说,“是”字两边的话能够互换,就是定义;如果不能互换,就是诠释。 例如,“人是能制造工具并使用工具进行劳动的高级动物”这句话,改成“能制造工具并使用工具进行劳动的高级动物是人”,意思不变。
“雪是在云中形成的一种固态降水物”这句话,如果改为“云中形成的固态降水物是雪”就不成。由此可以辨别,前一句是定义说明,后一句是诠释说明。
(8)打比方。利用两种不同事物之间的相似之处作比较,以突出事物的性状特点,增强说明的形象性和生动性的说明方法叫做打比方。
说明文中的打比方的说明方法,同修辞格上的比喻是一致的。不同的是,比喻。
在AutoCAD中,选择对象的方法很多。例如,可以通过单击对象逐个拾取,也可利用矩形窗口或交叉窗口选择;可以选择最近创建的对象、前面的选择集或图形中的所有对象,也可以向选择集中添加对象或从中删除对象。
过滤选择
在命令行提示下输入FILTER命令,将打开“对象选择过滤器”对话框。可以以对象的类型(如直线、圆及圆弧等)、图层、颜色、线型或线宽等特性作为条件,过滤选择符合设定条件的对象。此时必须考虑图形中对象的这些特性是否设置为随层。
快速选择
在AutoCAD中,当需要选择具有某些共同特性的对象时,可利用“快速选择”对话框,根据对象的图层、线型、颜色、图案填充等特性和类型,创建选择集。单击“菜单浏览器”按钮,在弹出的菜单中选择“工具”|“快速选择”命令,或在“功能区”选项板中选择“常用”选项卡,在“实用程序”面板中单击“快速选择”按钮,都可打开“快速选择”对话框。
以下为你检索了一些国内顶级刊物的相关文章。
希望对你有用。[1]姚旭,王晓丹,张玉玺,权文. 特征选择方法综述[J]. 控制与决策,2012,02:161-166+192.[2]单丽莉,刘秉权,孙承杰. 文本分类中特征选择方法的比较与改进[J]. 哈尔滨工业大学学报,2011,S1:319-324.[3]武建华,宋擒豹,沈均毅,谢建文. 基于关联规则的特征选择算法[J]. 模式识别与人工智能,2009,02:256-262.[4]张丽新,王家廞,赵雁南,杨泽红. 基于Relief的组合式特征选择[J]. 复旦学报(自然科学版),2004,05:893-898.[5]赵明渊,唐勇,傅翀,周明天. 基于带特征染色体遗传算法的支持向量机特征选择和参数优化[J]. 控制与决策,2010,08:1133-1138。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:3.532秒