用CNN卷积的情况,这里面有几个关键点:
一个是文本跟图片不一样,图片有长宽,然后还有深度(RGB)。对应到文本上,假设文章总共N个词,每个词嵌入维度K维,那么输入是N *
K的,N可以理解为高度,K作为长度,深度为1。那么卷积的时候的特征抽取器(filter)高度h一般设置多大呢?
一般可以从3开始,表示捕获住trigram特征。
更多的是使用几种不同的filter(比如有高度各为2,3,5的)。 特征抽取器(filter)的长度一般设置为词向量的维度,这样保证每个filter抽取出来一个N-h+1个特征点,而不是一个平面(想想为什么)。
最重要的,在文本上work的pooling层一般是max-pooling,对每个filter应用整个序列上的max-pooling得到一个特征点(也有用k-max-pooling得到k个点),组合多个filter就能得到一系列特征,最后一个全连接层做分类。
这里为什么是max-pooling而不是min-pooling呢?一般来说,pooling后我们引入非线性是用Relu,relu对于小于0的直接就不激活了。
然后我们对比图像的深度,文本一般深度只有一个,如何增加深度以及为什么增加呢?
一般我们的词向量都是先预训练出来的,然后在一个特定任务上使用,梯度会回传回来进一步finetune,如果语料不是特别大,这个finetune过程只会对部分词进行更新,有些词就一直不动,这样在测试阶段,出现那些没finetune到的词就会有所偏差。我们可以同时使用两份词向量(相当于通道数为2,深度加深为2),一份finetune一份静态地不更新,来缓解前面提到的问题。
二)
对于RNN做文本分类,相当于把每个词作为一个时间节点,把词向量作为每个单元的输入特征,一般会组合前向以及后向来构成双向特征,计算后每个单元有个状态特征以及输出特征,文本分类一般组合每一个单元的输出特征求个平均喂给全连接层来做分类。
求平均这个操作可以替换为更通用的注意力机制,复杂度更高点,效果更好。
复杂点的模型会分层来做,句子界别的rnn然后attention,最后文档级别在前一层的基础上再rnn+attention,效果据说能更进一步提升。
数学基础
如果你能够顺畅地读懂深度学习论文中的数学公式,可以独立地推导新方法,则表明你已经具备了必要的数学基础。
掌握数学分析、线性代数、概率论和凸优化四门数学课程包含的数学知识,熟知机器学习的基本理论和方法,是入门深度学习技术的前提。因为无论是理解深度网络中各个层的运算和梯度推导,还是进行问题的形式化或是推导损失函数,都离不开扎实的数学与机器学习基础。
数学分析
在工科专业所开设的高等数学课程中,主要学习的内容为微积分。对于一般的深度学习研究和应用来说,需要重点温习函数与极限、导数(特别是复合函数求导)、微分、积分、幂级数展开、微分方程等基础知识。在深度学习的优化过程中,求解函数的一阶导数是最为基础的工作。当提到微分中值定理、Taylor公式和拉格朗日乘子的时候,你不应该只是感到与它们似曾相识。
线性代数
深度学习中的运算常常被表示成向量和矩阵运算。线性代数正是这样一门以向量和矩阵作为研究对象的数学分支。需要重点温习的包括向量、线性空间、线性方程组、矩阵、矩阵运算及其性质、向量微积分。当提到Jacobian矩阵和Hessian矩阵的时候,你需要知道确切的数学形式;当给出一个矩阵形式的损失函数时,你可以很轻松的求解梯度。
概率论
概率论是研究随机现象数量规律的数学分支,随机变量在深度学习中有很多应用,无论是随机梯度下降、参数初始化方法(如Xavier),还是Dropout正则化算法,都离不开概率论的理论支撑。除了掌握随机现象的基本概念(如随机试验、样本空间、概率、条件概率等)、随机变量及其分布之外,还需要对大数定律及中心极限定理、参数估计、假设检验等内容有所了解,进一步还可以深入学习一点随机过程、马尔可夫随机链的内容。
凸优化
结合以上三门基础的数学课程,凸优化可以说是一门应用课程。但对于深度学习而言,由于常用的深度学习优化方法往往只利用了一阶的梯度信息进行随机梯度下降,因而从业者事实上并不需要多少“高深”的凸优化知识。理解凸集、凸函数、凸优化的基本概念,掌握对偶问题的一般概念,掌握常见的无约束优化方法如梯度下降方法、随机梯度下降方法、Newton方法,了解一点等式约束优化和不等式约束优化方法,即可满足理解深度学习中优化方法的理论要求。
机器学习
归根结底,深度学习只是机器学习方法的一种,而统计机器学习则是机器学习领域事实上的方法论。以监督学习为例,需要你掌握线性模型的回归与分类、支持向量机与核方法、随机森林方法等具有代表性的机器学习技术,并了解模型选择与模型推理、模型正则化技术、模型集成、Bootstrap方法、概率图模型等。深入一步的话,还需要了解半监督学习、无监督学习和强化学习等专门技术。
第一章 数据库基础知识本章以概念为主,主要是了解数据库的基本概念,数据库技术的发展,数据模型,重点是关系型数据。
第一节:信息,数据与数据处理一、信息与数据:1、信息:是现实世界事物的存在方式或运动状态的反映。或认为,信息是一种已经被加工为特定形式的数据。
信息的主要特征是:信息的传递需要物质载体,信息的获取和传递要消费能量;信息可以感知;信息可以存储、压缩、加工、传递、共享、扩散、再生和增值2、数据:数据是信息的载体和具体表现形式,信息不随着数据形式的变化而变化。数据有文字、数字、图形、声音等表现形式。
3、数据与信息的关系:一般情况下将数据与信息作为一个概念而不加区分。二、数据处理与数据管理技术:1、数据处理:数据处理是对各种形式的数据进行收集、存储、加工和传输等活动的总称。
2、数据管理:数据收集、分类、组织、编码、存储、检索、传输和维护等环节是数据处理的基本操作,称为数据管理。数据管理是数据处理的核心问题。
3、数据库技术所研究的问题不是如何科学的进行数据管理。4、数据管理技术的三个阶段:人工管理,文件管理和数据库系统。
第二节:数据库技术的发展一、数据库的发展:数据库的发展经历了三个阶段:1、层次型和网状型: 代表产品是1969年IBM公司研制的层次模型数据库管理系统IMS。2、关系型数据型库: 目前大部分数据库采用的是关系型数据库。
1970年IBM公司的研究员E.F.Codd提出了关系模型。其代表产品为sysem R和Inges。
3、第三代数据库将为更加丰富的数据模型和更强大的数据管理功能为特征,以提供传统数据库系统难以支持的新应用。它必须支持面向对象,具有开放性,能够在多个平台上使用。
二、数据库技术的发展趋势:1、面向对象的方法和技术对数据库发展的影响:数据库研究人员借鉴和吸收了面向对旬的方法和技术,提出了面向对象数据模型。2、数据库技术与多学科技术的有机组合:3、面向专门应用领域的数据库技术三、数据库系统的组成:数据库系统(DBS)是一个采用数据库技术,具有管理数据库功能,由硬件、软件、数据库及各类人员组成的计算机系统。
1、数据库(DB):数据库是以一定的组织方式存放于计算机外存储器中相互关联的数据集合,它是数据库系统的核心和管理对象,其数据是集成的、共享的以及冗余最小的。2、数据库管理系统(DBMS):数据库管理系统是维护和管理数据库的软件,是数据库与用户之间的界面。
作为数据库的核心软件,提供建立、操作、维护数据库的命令和方法。3、应用程序:对数据库中数据进行各种处理的程序,由用户编写。
4、计算机软件:5、计算机硬件:包括CPU、内存、磁盘等。要求有足够大的内存来存放操作系统、数据库管理系统的核心模块以及数据库缓冲;足够大的磁盘能够直接存取和备份数据;比较主的通道能力;支持联网,实现数据共享。
6、各类人员。四、数据库系统的特点:1、数据共享:2、面向全组织的数据结构化:数据不再从属于一个特定应用,而是按照某种模型组织成为一个结构化的整。
它描述数据要身的特性,也描述数据与数据之间的种种联系。3、数据独立性:4、可控数据冗余度:5、统一数据控制功能:数据安全性控制:指采取一定的安全保密措施确保数据库中的数据不被非法用户存取而造成数据的泄密和破坏;数据完整性控制:是指数据的正确性、有效性与相容性。
并发控制:多个用户对数据进行存取时,采取必要的措施进行数据保护;数据恢复:系统能进行应急处理,把数据恢复到正确状态。第三节:数据模型一、数据组织:关系型数据库中的数据层次如下:1、数据项(field):又称字段,用于描述实体的一个属性,是数据库的基本单位。
一般用属性名作项名;2、记录(Record):又称为结点,由若干个数据项组成,用于描述一个对象;3、文件(File):由若干个记录组成;4、数据库(Data Base):由逻辑相关的文件组成。二、数据模型:数据的组织形式称为数据模型,它决定 数据(主要是结点)之间联系的表达方式。
主要包括层次型、网状型、关系型和面向对象型四种。层次型和网状型是早期的数据模型,又称为格式化数据系统数模型。
以上四种模型决定了四种类型的数据库:层次数据库系统,网状数据库系统,关系型数据库系统以及面向对象数据库系统。目前微机上使用的主要是关系型数据库。
1、层次型:是以记录为结点的有向树;图如教材P7图1--22、网状型:树的集合,它的表示能力以及精巧怀强于层次型,但独立性下降。3、关系型:在关系型中,数据被组织成若干张二维表,每张表称为一个关系。
一张表格中的一列称为一个“属性”,相当于记录中的一个数据项(或称为字段),属性的取值范围称为域。表格中的一行称为一个“元组”,相当于记录值。
可用一个或若干个属性集合的值标识这些元组,称为“关键字”。每一行对应的属性值叫做一个分量。
表格的框架相当于记录型,一个表格数据相当于一个同质文件。所有关系由关系的框架和若干元组构成,或者说关系是一张二维表。
关系型。
作为一个真正的IT人员,我们不仅要懂得高级语言的编程使用,更要懂得电脑基础的知识。这是我们成为杰出的IT人员的基石,只有踏上这些基础知识我们才能走的更高。
首先我们要懂得电脑是如何工作的?电脑的工作原理就是开和关两种状态,这是由其中的部件只有开和关这两种状态最稳定决定的。
而我们用0和1去表示他们,电脑将0和1进行了充分的组合,也就是部件的串联,造就了丰富多变各种各样的事物,也就是我们看电脑功能的强大。
可以通过0和1进行编码输入计算机,也可以通过解码将其还原成原来的事物。这就是电脑工作最基本的原理。
0和1编码也就是我们说的二进制Binary,二进制的出现正是伴随着计算机的诞生而出现的,计算机的一切工作计算都是由二进制编码完成的。就像十进制Decimal正是专门为我们人类使用方便而产生的。另外还有十六进制Hexadecimal,由于人类研究二进制比较复杂,才引出了十六进制去方便研究二进制。
而这些简单的二进制是如何和世界转变的呢?这里又引出了ASCII码,BCD码,国标码等这些都是帮助计算机实现其功能的必需品。
这些东西都是电脑正常工作的必备条件,只有我们把这些东西,弄明白了我们才能在计算机方面走的更高更远。
IT 人员必学的基础知识(二)——进制相互转化
二进制是计算机处理数据的工具。单位有位(bit),字节(Byte),千字兆(KB),兆字节(MB),千兆字节(GB)。
相互转换关系:1B=8bit,1KB=1024B,1MB=1024KB,1GB=1024MB。
二进制,八进制,十进制,十六进制之间的转换图:
其中二进制可以作为这几种之间相互转化的基础,通过二进制很多可以变得很简单:
IT人员必学基础知识(三)——编码理解
上篇说的二进制等之间的转换,而要完成这些转换,需要人为的定制一些规则,这就是第一篇提到的ASCII码,BCD码和国标码。
1、ASCII码,即美国标准信息交换码(American Standard Code for Information Interchanger), 包括了32个通用字符,10个十进制数码,52个英文大小写字母和34个专用符号。这是没有拓展的,最常用的。图:
2、BCD(Binary-Coded Decimal)码,又称为“二-十进制编码”专门解决用二进制数表示十进制数的问题。BCD制编码的方法有很多,通常有8421码,5421码等等。
例:13可以写作8421码0001 0011
3、国标码(GB2312),主要是编码汉字的,有两个7位二进制编码表示,即每个编码需要占两个字节,是针对中国一些信息编制的一些编码。
IT人员必学基础知识(四)——补充总结
这是计算机计算十进制运算时的大致过程,它将几种进制和几种编码运用到了极致。这就是计算机运用简单的事物早就不简单的事情。计算机中任何一个过程都需要运用到这些知识,另外还有原码,反码,补码等等。
在计算机内,定点数有3种表示法:原码、反码和补码。原码(true form)就是二进制定点表示法,即最高位为符号位,“0”表示正,“1”表示负,其余位表示数值的大小。
反码表示法规定:正数的反码与其原码相同;负数的反码是对其原码逐位取反,但符号位除外。补码(two's complement)表示法规定:正数的补码与其原码相同;负数的补码是在其反码的末位加1。
不知不觉中9周的《软件技术基础》 这门课课已经结束了,虽然时间有点短, 但这九个星期的学习中我却受益匪浅, 不仅让我系统的了解了许多计算机软件相关的基础知识和一些常用的系统软件, 还让我有了更科学的方法去分析一些软件方面的问题,这对于我今后的学习和工作都是有很大帮助的。 下面来谈谈我对学习这门课的一点点心得。 首先,我们认识到了计算机对现在社会、生活的影响之重,我们要想灵活的应对以后生活中的各种问题,拥有一个好的计算机技术必不可少的,而要想真的学好计算机技术,我们首先就得对计算机的操作、工作原理和规则等有一个清晰的认识。 如今仅仅掌握计算机语言并不能有效地使用计算机,我们必须掌握数据结构和算法方面的知识才能应对众多复杂的应用课题。刚开始学习数据结构时感觉它很抽象,而且感觉它没多大用处,后来发现不然,我们学习的是一些方法、思维,只有学会了这些我们才能解决一些非数值运算的程序设计方面的问题。 以前我们用过数据库比如Access,但我们只是很基础的应用它们,并不懂它的创建和工作原理,自从学习了这门课,我才初步了解了数据处理和数据管理方面的一些知识,并学到了
SQL语言的一些基础知识,这对我以后更深层次的学习计算机技术打下了一个基础。
虽然这门课程已经结束,我们学到的也是很基础的一部分,但它对我们影响很深,让我们以后学习更简单了。当然我仍会继续学习各种关于计算机技术方面的知识,让自己有一个过硬的技术,去应对各方面的问题
群论定义:在数学和抽象代数中,群论研究名为群的代数结构。群在抽象代数中具有基本的重要地位:许多代数结构,包括环、域和模等可以看作是在群的基础上添加新的运算和公理而形成的。群的概念在数学的许多分支都有出现,而且群论的研究方法也对抽象代数的其它分支有重要影响。群论的重要性还体现在物理学和化学的研究中,因为许多不同的物理结构,如晶体结构和氢原子结构可以用群论方法来进行建模。于是群论和相关的群表示论在物理学和化学中有大量的应用。
群论涉及范围较广,需要基础知识也较多,比如:集合相关知识,几何学,拓扑学,数学分析,代数学,概率论,运筹学,应用统计学等。
因此,如果要学最好选择一个方向进行研究,不然需要知识太多反而不利于研究学习。
介绍几本书:CDMA 2000技术 电子设计原理和技巧 无线射频识别技术RFID理论与应用 通信技术概论 ( 学无止境,尤其通信) 基础知识那就得从《通信原理》开始看了,还有几本书就是1.信号与系统 2.通信网概论 3. 高频电子线路 4.电子技术基础教程 5.数字通信原理 6. 单片机原理及应用 7. 移动通信(第二版) 8. 光纤通信 9. 现代交换技术 10. 微波通信技术
再者就是计算机类:1.c程序设计 2.汇编语言 3. java或c++其中一个 4. ps或cad 5. 计算机网络 6. protel dxp
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.643秒