
大数据是云计算平台PAAS层中一个复杂的通用应用。那么大数据是怎么一步一步融入云计算的呢?
一开始大数据并不大,在二十年前,对于人们来说,信息的来源无非就是看看报纸、看看书。报纸内容一周加起来也没多少,如果你在一个小城市,一个图书馆的书加起来也没几个书架。后来随着信息化时代的到来,信息才慢慢的多了起来。
就数据本身来说,是没多大用处的。必须经过梳理和清洗,从中提取出信息。然后从信息中总结规律。成为知识。知识改变命运。有的人将知识应用到实践中去。最后成功了,这就成了智慧。所以数据的应用分数据、信息、知识、智慧这四个步骤。这是很多商家都想要的。商家收集数据后,基于这些数据做下决策,改善产品。例如让用户看视频的时候旁边弹出广告,正好是他想买的东西。或者是让用户听音乐的时候,另外推荐一些他非常想听的其他音乐等等。
数据的处理分为几个步骤。完成了才能成为我们最后需要的智慧。
第一个步骤是数据的收集
数据收集有2个方式。第一个是抓取,比如搜索引擎。另一个方式是推送,比如智能手环。可以将你每天跑步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。
第二个步骤是数据的传输和存储。
第三个步骤是数据的处理和分析。
存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。
第四个步骤就是对于数据的检索和挖掘
检索就是搜索。比如搜索引擎。搜索引擎都是将分析后的数据放入搜索引擎,从而人们想寻找信息的时候,一搜就有了。挖掘就是信息中挖掘出相互的关系。比如你搜索股票,发现某支股票最近涨的特别好,于是你就去买了,但是该公司高管刚好发布了公告,对公司的股票十分不利。于是第2天股票就跌了。所以通过各种算法挖掘数据中的关系,形成知识库,十分重要。
当数据量很小的时候,上面的内容很少的几台机器就能解决。慢慢的当数据量越来越大,最牛的服务器都解决不了问题的时候,就需要聚合多台机器的力量,大家齐心协力一起把这个事搞定,比如数据的收集,需要多台机器组成网络爬虫系统,每台机器下载一部分,同时工作,才能在有限的时间内,将海量的网页下载完毕。数据的传输存储及处理分析就需要用到分布式系统,将大量的数据分成小份,并行处理。
说到这里,大家想起云计算了吧。当想要干这些活的时候,需要好多好多的机器一块做,真的是想什么时候要,想要多少就要多少。例如大数据分析公司的财务情况,可能一周分析一次,如果要把这一百台机器或者一千台机器都在那放着,一周用一次对吧,非常浪费。那能不能需要计算的时候,把这一千台机器拿出来,然后不算的时候,这一千台机器可以去干别的事情。谁能做这个事儿呢?只有云计算,可以为大数据的运算提供资源层的灵活性。而云计算也会部署大数据放到它的PaaS平台上,作为一个非常重要的通用应用。因为大数据平台能够使得多台机器一起干一个事儿,这个东西不是一般人能开发出来的,也不是一般人玩得转的,怎么也得雇个几十上百号人才能把这个玩起来,所以说就像数据库一样,其实还是需要有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的解决方案了,一个小公司我需要大数据平台的时候,不需要采购一千台机器,只要到公有云上一点,这一千台机器都出来了,并且上面已经部署好了的大数据平台,只要把数据放进去算就可以了。
云计算需要大数据,大数据需要云计算,两个人就这样结合了。
【版权声明】零度号提醒您:请在浏览本网站关于《什么叫云技术 大数据什么时候出来的》信息时,请您务必阅读并理解本声明。本站部分内容以及图片来源于商家投稿和网络转载,如网站发布的有关的信息侵犯到您的权益,请及时与我们取得联系,邮箱:31055 30035@qq.com,我们会尊重您的决定并当天作出删除处理。