一、“大数据”时代的数据挖掘的应用与方法数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的,目前数据挖掘技术在企业市场营销中得到了比较普遍的应用。
它包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。审计部门的数据挖掘以往偏重于对大金额数据的分析,来确实是否存在问题,以及问题在数据中的表现,而随着绩效审计的兴起,审计部门也需要通过数据来对被审计单位的各类行为做出审计评价,这些也都需要数据的支撑。
数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。
1. 数据概化。数据库中通常存放着大量的细节数据, 通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。
数据概化可应用于审计数据分析中的描述式挖掘, 审计人员可从不同的粒度和不同的角度描述数据集, 从而了解某类数据的概貌。大量研究证实, 与正常的财务报告相比, 虚假财务报告常具有某种结构上的特征。
审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘, 通过使用属性概化、属性相关分析等数据概化技术将详细的财务数据在较高层次上表达出来, 以得到财务报告的一般属性特征描述, 从而为审计人员判断虚假财务报告提供依据。2.统计分析。
它是基于模型的方法, 包括回归分析、因子分析和判别分析等, 用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型, 或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析, 根据分析的预测值和审计值进行比较, 都能帮助审计人员从中发现审计疑点, 从而将其列为审计重点。
3. 聚类分析。聚类分析是把一组个体按照相似性归成若干类别, 目的是使得同一类别的个体之间的距离尽可能地小, 而不同类别的个体间的距离尽可能地大, 该方法可为不同的信息用户提供不同类别的信息集。
如审计人员可运用该方法识别密集和稀疏的区域, 从而发现被审计数据的分布模式, 以及数据属性间的关系, 以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化, 一般来说, 真实的财务报表中主要项目的数据变动具有一定的规律性, 如果其变动表现异常, 表明数据中的异常点可能隐藏了重要的信息, 反映了被审计报表项目数据可能存在虚假成分。
4. 关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式, 其目的是挖掘隐藏在数据间的相互关系。
利用关联分析, 审计人员可通过对被审计数据库中的数据利用关联规则进行挖掘分析, 找出被审计数据库中不同数据项之间的联系, 从而发现存在异常联系的数据项, 在此基础上通过进一步分析, 发现审计疑点。 二、应对“大数据”时代,审计分析应做出的调整从以上分析过程中,我们不难看出“大数据”时代的数据存贮、处理、分析以及挖掘的各个方面虽然与传统方式相比,在技术层面上有了较大的改变,但是在基本的原理方面并没有显著的改变,原有的审计分析模式没有必要因为“大数据”时代的来临而急于做出相应的改变。
然而“大数据”时代在给审计分析带来机遇的同时,还是给我们带给了相当大的冲击,对此我们有必要引起相当的重视,并在日后的信息化建设过程做出相应的调整。1、数据的存贮与处理。
大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。
基于块和文件的存储系统的架构设计需要进行调整以适应这些新的要求。审计部门在选择相应的存贮系统的时候,要对非结构化数据有足够的重视,做好采集的相关准备。
同时随着采集数据的单位和年份越来越多,数据量必然是会有大规模的增长。即使是海量数据存储系统也一定要有相应等级的扩展能力。
存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。同时,为了提高数据的处理能力,解决I/O的瓶颈问题,可以考虑各种模式的固态存储设备,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储都是可以考虑使用的设备。
2、非结构化的数据处理。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。
语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。3、可视化的分析。
数据分析的使用者有数据分析专家,同时还有普通用户,但是他们二者对于数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。“一个平台、两个中心”建设,是审计署目前信息化建设的重要内容。
通过数据中心的建设,可以在相当程度上解决数据存。
大数据分析是通过对大规模、多样化的数据进行科学化采集和分析,从而挖掘出其中隐藏价值的过程。大数据时代的到来,给现代企业审计提出了新的要求和新的挑战。如何在信息时代更有效地进行企业审计是审计机关需要面对和解决的问题。
一、大数据分析是创新企业审计技术方法的必然要求
“审计工作,就是让数据说话”。传统的企业审计是事后审计,在事后对企业的会计报表、账簿和凭证等财务资料进行抽查核实,是让财务数据说话的事后审计。大数据时代是实时审计,实时采集企业的业务数据,并与企业外部的银行、工商、税务、物流、其他企业业务数据等进行综合分析与挖掘,实时判断企业生产经营情况,甚至基于当前状态对企业未来发展进行短期预判,是让业务数据说话的实时审计。现阶段,我们正处在由传统审计向大数据审计的转化过程中,但仍处于以财务审计为主、外部数据核查为辅的大数据初级阶段。
要在一个行业中应用大数据技术,不能一蹴而就,前期探索阶段需要以技术和工具为主,从分析工具及分析思路出发挖掘价值;后期则以数据为主,从数据本身出发挖掘价值。在当前的企业审计实践中,大数据应用较为原始,主要体现在数据分析理念的应用上。即通过采集企业某业务流程的全部数据,结合外部信息系统或记录台账,对该业务的流程进行全面多维度对比分析。通过贯彻大数据“样本=总体”、“相关>因果”的理念,数据分析不再拘泥于抽样调查,也不仅仅局限于业务流程本身,而是以全体业务数据关联外部数据,从业务本身及相关流程进行分析挖掘。大数据审计思维对企业的业务数据分析共分为以下6个步骤:
第一步是对业务或问题进行了解。要了解企业业务的性质、业务流程、关键节点、管控可能存在的薄弱环节和漏洞,从各个角度理解企业业务并初步提出可能存在的问题,这是分析思路和分析模型的出发点。
第二步是对数据进行了解。要了解该业务会产生什么数据、数据存储位置、存储形式和结构、不同阶段业务活动在数据中如何体现、数据库的设计结构和数据字典以及更新策略如何设计等。除本业务外,还需了解该业务的外部活动,互动的外部活动产生的数据存储位置、存储形式等,这是对数据进行分析的基础工作。
第三步是准备数据。若进入真正的大数据时代,此步骤会因数据太大无法移动而被舍弃,但现阶段还不能跳过。准备数据即先采集目标业务信息系统的所有数据,并根据第二步对数据的了解对所收集数据进行整理、重组,在可行的前提下,进行丢弃数据中的冗余、噪声,对明显的错误进行纠错等清洗操作,这是用于分析的数据原材料。
第四步是正式对数据进行分析,以第一步提出的问题为目标,采取合适的分析方法,建立相应的分析模型,对第三步准备好的数据进行分析和挖掘,找出其中所需的结果。分析方法和模型不是越复杂越好,在能达成目标的前提下,越简单的分析模型越有效。
第五步是形成观点或结论,把分析出的数据结果加以解读,以数据分析动态或数据分析报告的模式,用可视化、通俗语言的方式来表达整个分析步骤及结果,包括此次数据分析的目标、分析思路和方法、分析结果,并提出建议关注的重点和延伸方向。
第六步是实证使用,将第五步形成的分析结果用于审计实践,来帮助指引审计方向、推进实际工作。同时,实证使用也是对前期分析思路正确与否、完善与否的重要验证。若在实际操作时发现分析结果与实际情况出入较大,则可以反馈至数据分析组,帮助数据分析团队完善对业务和数据的理解及分析方法的思考,调整分析模型,必要时重新调整挖掘方向。
一、“大数据”时代的数据挖掘的应用与方法数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的,目前数据挖掘技术在企业市场营销中得到了比较普遍的应用。
它包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。审计部门的数据挖掘以往偏重于对大金额数据的分析,来确实是否存在问题,以及问题在数据中的表现,而随着绩效审计的兴起,审计部门也需要通过数据来对被审计单位的各类行为做出审计评价,这些也都需要数据的支撑。
数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。
1. 数据概化。数据库中通常存放着大量的细节数据, 通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。
数据概化可应用于审计数据分析中的描述式挖掘, 审计人员可从不同的粒度和不同的角度描述数据集, 从而了解某类数据的概貌。大量研究证实, 与正常的财务报告相比, 虚假财务报告常具有某种结构上的特征。
审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘, 通过使用属性概化、属性相关分析等数据概化技术将详细的财务数据在较高层次上表达出来, 以得到财务报告的一般属性特征描述, 从而为审计人员判断虚假财务报告提供依据。2.统计分析。
它是基于模型的方法, 包括回归分析、因子分析和判别分析等, 用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型, 或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析, 根据分析的预测值和审计值进行比较, 都能帮助审计人员从中发现审计疑点, 从而将其列为审计重点。
3. 聚类分析。聚类分析是把一组个体按照相似性归成若干类别, 目的是使得同一类别的个体之间的距离尽可能地小, 而不同类别的个体间的距离尽可能地大, 该方法可为不同的信息用户提供不同类别的信息集。
如审计人员可运用该方法识别密集和稀疏的区域, 从而发现被审计数据的分布模式, 以及数据属性间的关系, 以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化, 一般来说, 真实的财务报表中主要项目的数据变动具有一定的规律性, 如果其变动表现异常, 表明数据中的异常点可能隐藏了重要的信息, 反映了被审计报表项目数据可能存在虚假成分。
4. 关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式, 其目的是挖掘隐藏在数据间的相互关系。
利用关联分析, 审计人员可通过对被审计数据库中的数据利用关联规则进行挖掘分析, 找出被审计数据库中不同数据项之间的联系, 从而发现存在异常联系的数据项, 在此基础上通过进一步分析, 发现审计疑点。 二、应对“大数据”时代,审计分析应做出的调整从以上分析过程中,我们不难看出“大数据”时代的数据存贮、处理、分析以及挖掘的各个方面虽然与传统方式相比,在技术层面上有了较大的改变,但是在基本的原理方面并没有显著的改变,原有的审计分析模式没有必要因为“大数据”时代的来临而急于做出相应的改变。
然而“大数据”时代在给审计分析带来机遇的同时,还是给我们带给了相当大的冲击,对此我们有必要引起相当的重视,并在日后的信息化建设过程做出相应的调整。1、数据的存贮与处理。
大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。
基于块和文件的存储系统的架构设计需要进行调整以适应这些新的要求。审计部门在选择相应的存贮系统的时候,要对非结构化数据有足够的重视,做好采集的相关准备。
同时随着采集数据的单位和年份越来越多,数据量必然是会有大规模的增长。即使是海量数据存储系统也一定要有相应等级的扩展能力。
存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。同时,为了提高数据的处理能力,解决I/O的瓶颈问题,可以考虑各种模式的固态存储设备,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储都是可以考虑使用的设备。
2、非结构化的数据处理。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。
语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。3、可视化的分析。
数据分析的使用者有数据分析专家,同时还有普通用户,但是他们二者对于数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。“一个平台、两个中心”建设,是审计署目前信息化建设的重要内容。
通过数据中心的建设,可以在相当程度上解决数据存。
审计的一般方法,按照审计工作的顺序和会计业务处理程序的关系,有顺查法和逆查法之分。
(一)顺查法。又叫正查法,它是按照会计业务处理程序进行分类审查的一种方法,即按照所有原始凭证的发生时间顺序进行检查,逐一核对。
(二)逆查法。又叫倒查法,它是按照会计业务处理的相反程序既在检查过程中逆着记账程序进行检查的方法。
审计方法按照审查经济业务资料的规模大小和收集审计证据的范围的大小不同,又有详查法和抽样法之分。(一)详查法。
又称详细审计,是指被审计单位一定时期内的全部会计资料(包括凭证、账簿和报表)进行详细的审核检查,以判断评价被审单位经济活动的合法性、真实性和效益性的一种审计方法。(二)抽样法。
又称抽样审计,是指从被审计单位一定时期内的会计资料(包括凭证、账簿和报表)按照一定的方法抽出其中的一部分进行审查,借以推断总体有无错误和舞弊的一种方法,进而判断评价被审单位经济活动的合法性、真实性的效益性的一种审计方法。
一、创新大数据审计思路。在大数据环境的审计工作要牢固树立起三种思想:一是数据先行思想。随着信息技术的日益发展与广泛应用,被审计单位的经营、管理和核算模式正在由传统的会计核算、经营管理系统的构成要素转向高效、复杂的信息系统。审计人员所面临的原始资料,不再只是手工凭证、账簿和报表,而是具有高度概括性、模糊性、关联性的海量电子数据。这就需要审计人员牢固树立以数据为核心,数据分析先行、数据分行与现场核查相结合相融合的思想方法,才能在新形势下有效推动实现审计监督全覆盖。二是紧跟信息流向思想。在大数据背景下,要充分利用信息化的手段,关注资金的走向、物资的走向、业务的走向,从中发现疑点,深挖严查。三是多维度数据关联分析思想。强化政府财政预算数据和预算执行单位数据的关联分析、财政数据与宏观经济数据的关联分析、财务数据与部门业务数据的关联分析、不同领域和专业间的横向关联分析、财政金融企业社保等相互间的关联分析。只有通过多方数据的关联分析、整合各种信息资源,才能真正实现审计模式的创新;只有通过数据的关联分析, 才能实现数据的立体化、多维度挖掘,提升数据分析的质量、实现数据的有效利用。
二、开拓大数据审计视野。目前的政府审计,主要是对政府各部门及其他公共机构财务报告的真实性、公允性,运用公共资源的经济性、效益性、效果性,以及提供公共服务的质量进行审计;对公共性、财政性资金的收支结果及其直接支配者的监督。随着全覆盖审计要求“全面审计,突出重点”向纵深推进,以及建构审计“免疫系统”已成客观需要。因此,对于海量数据不仅需要审计的“平面扫瞄”,更要“立体透视”,不仅对所有的财政财务收支情况执行进行检查,还要对形成其行为的各个环节、或所涉及的过程进行检查,对制定、执行的相关公共政策的运行机制进行评估,对制定、执行公共政策的主要负责人的履职绩效进行监督等。通过多维度数据分析,从体制、机制、制度性的层面揭示问题,预警经济社会发展中的突出矛盾和风险,推动深化改革和制度创新,维护国家经济安全和服务可持续发展。
三、改进大数据审计模式。利用大数据审计信息平台系统,开展多维度数据分析,通过大数据提升审计效益效率。一是完善数字化审计制度机制。从数据的报送、归集、分类、分析、应用、保密、存储与读取等全链条各方面进行建章立制,既确保大数据的开发利用有序有效,也保证大数据运用的健康安全,确保大数据环境下的数字化审计顺利推进。二是组建专业数据攻关组。在大数据环境下,审计组织管理方式要注重整合审计力量,在全局、甚至审计系统范围内抽调业务骨干成立审前调研组、数据攻关组、审计核查组,探索“集中分析、发现疑点、分散核查、系统研究”的审计模式,提高审计的质量和效率。三是充分挖掘利用大数据。从关联数据中发现所蕴含的规律和特点,挖掘出审计线索,使审计资源效能最大化;通过对海量数据进行多维度、多层次分析,尝试建立各类数据分析模型和方法体系,为全覆盖、常态化的延续审计打下坚实基础;通过建立被审计单位违规行为库,为构建审计数据分析模型和审计方法体系提供审计实务的支撑。四是推动大数据分析的更广泛应用。一方面,鼓励、督促审计人员直接利用平台数据分析功能开展分析,改变以往直接使用数据库工具分析数据的惯性思维,逐步建立起规范的数据权限控制、数据安全管理、审计行为控制等“大数据”环境下的审计工作机制和行为习惯;另一方面,培养审计人员平台应用的兴趣和信心,将审计人员平台应用中发现的问题进行分类,评估其紧急程度,按轻重缓急及时解决,避免对审计时间产生不良影响,使审计人员产生不满情绪和畏难情绪。
总的分两种:
1 列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2 作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
《中国注册会计师审计准则第1301号——审计证据》,将审计技术方法定义和规定为以下八个方面。
(一)检查记录或文件。
检查记录或文件是指注册会计师对被审计单位内部或外部生成的,以纸质、电子或其他介质形式存在的记录或文件进行审查。
检查记录或文件包括注册会计师对会计记录和其他书面文件可靠程度的审阅与复核。审阅是为了发现有无不正常现象而批判性地阅读书面资料的审计技术,其目的在于确认书面文件是否真实、合法;复核是确认各种书面文件之间钩稽关系的审计技术,通过书面文件之间的对照检查,确认双方对交易或事项的记录是否一致、计算是否正确。
(二)检查有形资产。
检查有形资产是指注册会计师对资产实物进行审查。运用这种方法的目的在于确定被审计单位实物形态的资产是否真实存在并且与账面数量相符,查明有无短缺、毁损及其他舞弊行为。它主要适用于存货和现金的检查,也适用于有价证券、应收票据和固定资产等。监盘是其常用的操作技术。
(三)观察。
观察是指注册会计师察看相关人员正在从事的活动或执行的程序。注册会计师按照审计具体目标的要求,前往被审计单位的工作现场,察看业务活动的方法、程序及实施情况,以掌握整个业务活动或执行程序的实际情况,获取审计证据。
(四)询问。
询问是指注册会计师以书面或口头方式,向被审计单位内部或外部的知情人员获取财务信息和非财务信息,并对答复进行评价的过程。
(五)函证。
函证是指注册会计师为了获取影响财务报表或相关披露认定的项目的信息,通过直接来自第三方对有关信息和现存状况的声明,获取和评价审计证据的过程。实施函证的目的是证实影响财务报表或相关披露认定的账户余额或其他信息,从外部独立来源来获取强有力的审计证据。
(六)重新计算。
重新计算是指注册会计师以人工方式或使用计算机辅助审计技术,对记录或文件中的数据计算准确性进行核对。注册会计师往往需要对文件或记录中的数字大量地实施重新计算,以验证其是否正确,获取必要的审计证据。
(七)重新执行。
重新执行是指注册会计师以人工方式或使用计算机辅助审计技术,重新独立执行作为被审计单位内部控制组成部分的程序或控制。实施重新执行可以验证被审计单位内部控制的有效性,获取内部控制是否有效的审计证据。
(八)分析程序。
分析程序是指注册会计师通过研究不同财务数据之间以及财务数据与非财务数据之间的内在关系,对财务信息作出评价。分析程序还包括调查识别出的、与其他相关信息不一致或与预期数据严重偏离的波动和关系
对于审计部门来说,要利用好大数据,实际上就是利用好信息采集的工具,通过对网上海量信息进行帅选,找到有价值的资料,数据。我以Knowlesys系统为典型例子说明问题。
其信息采集主要应用到以下方面:
产生您的潜在客户列表
从您的竞争对手中收集产品价格信息
抓取新闻文章
建立您自己的产品目录
整合房地产信息
收集上市公司的财务状况和数据
这样的系统,具有以下的好处
1简单:您不需要使用任何的软件。只需要告诉我们您需求的是什么和您的目标网站是什么,然后就能直接获取数据库。
2弹性:您能从任何的网站上获取任何数据,特别是动态网站上的数据。
3快捷:一般您在付款后的24--72小时内就能获得所需要的数据。对于大量的数据,我们能在一周或两周内完成。
4精确:抽取结果的每一列都是您所需要的,不多也不少。我们会按照您的要求对数据进行过滤和校验。
5低廉的价格:您只需要为您的所需数据付款而无需购买贵的机器和软件,无需学习如何使用软件,无需把您宝贵的时间用来运行软件。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.975秒