首页 > 信息中心
信息中心

【SNAI课堂】警惕“大数据”--全日制《大数据风险治理》课程侧记

发布时间:2020-08-12

 (撰稿/摄影:王梦婷,刘荣光)大数据这一词在现今早已不是罕见词,它应用在各行各业,跟我们的生活息息相关。在作为大数据跟会计专业的探究生,我对“大数据”一词既熟悉又陌生,虽然能够在日常研龚生活中耳熟能详,但是大数据似乎还是有些抽象。幸运的是,这个学期在王文烨老师的带领下,我们又进一步地认识了大数据。《大数据风险治理》这门课程让我们又望至“大数据”新的一面。

    本次突如其来的“疫情”大考期间,大数据也发挥了重要作用,为疫情防控任务做出了粗大的贡献。大数据跟国家疫情治理的深度融合,使得疫情追踪、医疗资源配置、辅助医疗救治和科学决策等多方面效率都得至了有效提落,这也是我们国家为何能在此次疫情中快速做出反应,控制疫情的重要缘故。然而,大数据同时也表现出必定的“副作用”,比如公民隐私被泄露,很多 来自疫情重灾区的回乡人员,身份信息和所乘坐车次信息被泄露,导致他们面临外界的舆论压力。古语有云:“水能载舟,焉能覆舟。”我们在大力推崇大数据的优越之处的同时,我们也应该冷静下来,思考下伴随大数据而来的风险。知己知彼,方能百战不殆。

一、大数据至底是什么

如今人人都在说大数据,那么大数据至底是什么?又具有什么样的特性?维基百科中将大数据定义为“一种难以用传统数据处理应用程序进行处理的大或又杂的数据集”。大数据的特征可以总结为“6V”,第一,数据量(Volume)大。比如我们在淘宝中的每一次导找,都会被收集和记录,企业再根据我们的导找来描绘出用户的肖像,从而精准定位目标客户,推送出客户感兴趣的产品。我国人口众多,形成的数据量自然也很庞大。第二,速度(Velocity)快。速度快包括两方面,流入和流出。从流入的角度来说,每天都有不断流入的动态数据。特殊是在网络时代,我们会留下很多 “痕迹”,这些都是累计的数据。由于流入速度快,自然流出——也就是数据处理的速度也要快。由于数据也存在折旧,如果没有及时对数据进行处理,时间久了,很多数据也会失效。第三,种类(Variety)繁多。数据的种类包括多种多样,有文蓖辎图像、音频、视频等等,有结构化的、半结构化和非结构化的。第四,正确性(Veracity)。正确性指的是大数据往往是用户在互联网留下的最真实的痕迹,能够对事物进行一个较为正确的判断。但是大数据中,也存在一些“脏”的数据,因此需要进行数据清洗,才能够做出越发精准的决策。以上四个特点都是大数据的基本特征,除此之外,大数据还具有可视化(Visibility)和价值性(Value)的特征。可视化是指数据可以用一种越发生动和可以懂得的方式展示出来,目前市面上已经有很多大数据可视化的工具。价值性康调大数据的意义,它的价值无法用金钱来衡量,合理利用大数据能够为人类创造价值。有了大数据,其他的相关应用也是如虎添翼,比如云计算、人工智能和商业智能等等。

二、大数据的风险

“欲思其利,必虑其害,欲思其成,必虑其败。”大数据给我们带来好处的同时,同时也需要我们付出必定的代价。大数据的风险主要体现在以下五个方面:

安全——数据盗窃作为一种新型犯罪,越来越多的人受至其侵害。类似案件的频发,让我们不得不重视其所带来的问题。在过去发生的六起最具破坏性的数据失窃中,有五起(eBay,JP Morgan Chase, Adobe, Target and Everote)都是在近两年发生的。企业拥有的数据越庞大,越简单成为数据盗窃的目标。

隐私——大数据同时会带来隐撕肮露的问题。在大数据算法面前,我们每天的行为都会处于被监视的状态,隐撕肮露、信息裸奔等恐怕会成为抑制大数据发展的一大缘故。

成蓖戟—大数据能够创造经济利益流入,但也会造成经济利益流出。从数据收集,数据存储、数据加工、数据分析至最终影响决策,这一全过程都需要耗费成蓖辏比如BAT(Baidu, Alibaba, Tencent)三大互联网公司每年都要花费巨额资金用于数据方面。成本分为显性成本和隐性成蓖辏显性成本包括存储数据的设施购置成蓖辎治理和分析数据的软件成本和人力资源等;隐形成本比如无效率的数据集成导致的人力物力的浪费、将数据在云和基础设施中传输送耗费的网络费用、低质量的数据和不成熟的员工导致的资源浪费等等。

错误分析——大数据虽然能够帮助决策,但是没有正确利用好数据也会造成错误的分析,最终影响决策。大数据是不断处于累积的过程,在信息不是特殊全面的时候或是信息利用不充分的时候,也会造成信息偏见。

不良数据——基础不牢,地动山摇。利用大数据还有一个顾虑就是数据的质量。众所周知,在网络上,存在很多虚假的信息。在庞大的数据集中,很难保证所有信息的质量。那么在决策中,如果基于错误的或不相关的信息,很可能会造成严重的后果。

三、如何对大数据进行风险管控

那么,面对这些风险,我们应该如何进行管控呢?

在数据安全方面,企业应当聚焦于对基础设施的完善和维护。对系统查漏补缺,实施“补丁治理”,对所有可能造成数据安全问题的漏洞都不可掉以轻心。网络应用往往是数据安全问题的根源,应当谨慎选择应用。在网页导找的过程中,对内容也应该选择性的过滤,过滤掉那些有侵害性和携带病毒的内容。内容过滤在软件和硬件中都极为重要。此外,企业应当制定严格完备的政策,规范化治理。比如在访问企业电脑或者网络的时候,应当要进行验证。WiFi方面,也应当将内外分开,限制外来人员接入公司内网,建立防火墙机制,减少数据安全隐患。

在隐私方面,可以采用“反识别”或“匿名化”的方法。由于为了探究或教育等需求,有的时候企业会公开一些数据。为了爱护公民隐私,会将数据匿名化,让人很难将某一个数据追踪至个人。但是大数据时代,将碎片化的信息拼凑起来,很可能就能推测出当事人。因此,在数据发布的时候,应当对数据进行处理,删除敏感信息。仅仅将当事人的姓名或其他身份信息删除是不够的,有时还需要用至其他一些“反识别”方法,比如有意将一些不影响探究结果的要素进行改动,将范围扩大。就想在本次疫情期间,政府部门要疫情情形对外公布,对于确诊病例,最多可以精确至一个小区,或一栋楼。但是不能说出具体是哪一户人家。这样即使周围群众有所怀疑,也不会对当事人产生很大的影响,同时还不影响疫情防控。

在成本控制方面,大数据虽然有自己的独特性,但同样也具备软件工程所共有的特性,也就是成本很难精确计算。软件工程不像实体工程,能够精确至每一平方米,每一块砖的成蓖辏软件工程最终实施终止的总成本和最初的成本预算很可能有天壤之别,高额的开发成本也是很多小企业难以做大数据工程的重要缘故,在课堂上,王老师也说这可能会是垄断的一个重要友膀,会造成康者愈康,弱者愈弱。完管软件工程成本估算存在必定的难度,但是仍有其存在的必要性。控制成本首先应当对资源进行合理规划,这涉及至物力、人力、财务和信息资源的分配。然后,对项目成本进行猜测,猜测的方法包括参数猜测、ITK方法、基于代理猜测等等。再建立预算,实施成本控制。

在错误分析方面,应当注意区别数据之间的关联性和因果性。关联性和因果性并不等同。一类数据变动会对另一类数据变动,仅仅证明二者具有必定的关联性,但是是不是有直接的因果关系还有待商榷。比如谷歌在网页中插入汽车广告,表面上,人们望至了广告,然后才去买车,广告对销售起至了成效。但是实际上,只有想买车的人,才会在谷歌里导找相应的信息,谷歌再根据导找记录推送汽车相关的广告,最后才买车,而那些没有买车的欲望的人没有去导找也就望不至广告,就不会买车。所以未必是因为望至广告才买车,而是想买车才望的广告。在数据分析的过程中,仅仅采用数据分析工具而缺少人为判断同样不可取。如果分析人员本身缺少足够经验和判断力,很难酥瘤靠某一个模型就能够做出好的分析。

在不良数据方面,应当在分析之前,对数据进行清洗,寻出那些不正确、缺失或不一致的数据,对该类数据进行修又或丢弃,提高数据质量,保证分析成效。

在今天,“大智移云物区”频频成为炙热之词,人们对这些技术抱有很大的期盼。但是,我们在大力发展高新技术的同时,依然应当谨慎对待,不能操之过急,毕竟在人类社会,技术发展是一方面,道德伦理和思想进步又是另一方面。克隆人技术至今仍由于违背伦理道德而不被大家提倡,倘若大数据时代,人的隐私不能保证,恐怕这也会为人们所抗拒。

一学期的课程很快终止,王文烨老师深入浅出,循循善诱,他传递我们知识的同时,也让我们冷静下来去思考大数据裹挟而来的风险。《大数据风险治理》这门课程是终止了,但是我们跟大数据的缘分还刚开始,未来我们会有很多机会去拥抱它,相信这门课程会让我们在为大数据狂欢时多一份冷静。



微信
  • 威尼斯城娱乐官方平台
    微信二维码
  • 财政部
    微信二维码
  • 威尼斯城娱乐官方平台
    手机网站
XML 地图 | Sitemap 地图