第二章 大数据及高校图书馆知识服务相关理论
第一节 大数据内涵及处理流程
一、大数据内涵及特征
(一)大数据的内涵
对于大数据的内涵,麦肯锡全球研究所的《大数据:创新、竞争和生产力的下一个前沿》报告中给出了大数据的定义。“大数据”是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。不断增多的数据量需要不断更新的分析和存储工具,故大数据通常与Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源计算机架构等诸多热点话题联系在一起。简单来说,大数据由海量的交易数据、海量的交互数据以及海量的数据处理这三项技术汇聚而成。其中,海量的交易数据是指不断增长的半结构化数据和非结构化数据信息;海量的交互数据是由网络社交平台贡献而来,如Facebook、Twitter等;海量的数据处理指用于数据密集型处理的架构,如Hadoop,就是一种以可靠、高效、可伸缩的方式进行分布式处理的软件构架。当前大数据的价值主要体现在“分析使用”和“二次开发”两个方面。
(二)大数据的特征
IBM将大数据归纳为三个标准,即“3V”:类型(Variety)、数量(Volume)和速度(Velocity)。其中,类型(Variety)指数据中有结构化、半结构化和非结构化等多种数据形式;数量(Volume)指生成和收集的数据容量和规模庞大;速度(Velocity)指数据产生速度快或数据采集和分析等处理速度足够快。业界将大数据的特征概括为“4V”,即数量(Volume)、速度(Velocity)、多样性(Variety)和价值密度(Value)。随着大数据的进一步发展和应用,IBM又提出了大数据的五个特征,即“5V”:数量(Volume)、类型(Variety)、速度(Velocity)、多样性(Variety)和真实性(Veracity)。尽管目前关于大数据的概念存在不同的认识,但对大数据基本特征的理解已形成了较为普遍的认知,即数据量大、数据处理实时性要求高、数据类型多样、数据价值密度低及数据的准确性和可信赖度五个基本特征。
(1)数据量大。随着物联网、云计算、移动互联等信息技术的快速发展以及微信、微博、QQ等社交网络平台的普及,用户获取和共享数据的途径更加便捷,在此过程中,用户对网页的浏览、点击以及分享造成了大量数据的产生和传播。此外,人工智能、传感器等技术的广泛使用大大拓展了用户获取信息的渠道,与此同时,音频、视频、图片等多媒体信息资源的出现,进一步满足了用户期望获取到更真实可靠的数据的需求,这也促使网络空间的数据体量以爆炸式的速度急剧膨胀增加,数据处理从以GB、TB、PB为存储单位增长到以EB、ZB为存储单位。
(2)数据处理实时性要求高。在大数据、云计算、人工智能、物联网、移动互联等现代信息技术快速发展的互联网时代,数据信息量以较快的速度不断增加,数据信息产生、获取、传递的途径更加多样便捷。为了处理快速增长的海量信息、提高数据资源开发和管理的效率,人们在大数据的处理速度和处理能力方面提出了更高的要求。网络空间的海量信息随互联网数据的不断增加和更新而不断循环,如果得不到及时地采集、存储、整理及利用,最终将失去利用价值。因此,大数据环境下,实时、持续地分析处理数据是新时代大数据资源开发和管理的必然要求。目前,随着大数据的深入发展,云计算提供用于处理密集型数据的大数据框架Hadoop,进一步提高了数据分析处理的速度和效率。同时,随着大数据的涌现,数据挖掘(知识发现)、可视化分析、聚类分析和神经网络等多种先进的大数据开发与管理技术应运而生,利用这些先进技术可对不断更新的数据进行高效、实时的动态分析,为获取最新、最有价值的知识信息提供了有效途径。
(3)数据类型多样。不断更新和升级的博客、微博、QQ、微信等社交网络平台,增加了用户沟通和交流的途径,让用户对数据的获取和分享产生了强烈的意愿。同时,不断涌现和升级换代的智能手机、平板电脑等移动终端设备携带更加方便,也促使用户产生随时随地获取网络数据信息的意愿。由于用户对网络数据需求的意愿不断增加及数据处理能力的不断提高,用户对信息的浏览方式逐渐从传统的浏览新闻、发送文字邮件到通过微信、QQ、微博等上传或下载图片、视频等,传统意义的结构化数据已无法满足用户日常在数据方面的需求。因此,数据总量中超媒体、文本、声音、HTML等半结构化和非结构化数据急剧增加并广泛传播,半结构化和非结构化数据成为大数据的主体。在新时代,知识服务更加强调个性化服务,因此,高校图书馆为满足用户需求,必须要进行半结构化或非结构化数据的分析和处理。
(4)数据价值密度较低。海量的大数据具有巨大的知识信息和商业价值。通过对大数据进行挖掘、采集、整理和分析,人们可以从中发现数据间的联系,挖掘出高价值和潜在的知识信息。但是,由于大数据环境下的数据规模大、结构多样、来源复杂,混杂了大量混乱、虚假、无意义的数据信息,高价值的知识信息分布分散且数量较少,导致大数据的整体数据价值密度低,这进一步加剧了数据挖掘、分析和处理的难度。此外,大数据中结构化、半结构化和非结构化数据并存,且主要以非结构化数据为主,导致数据间的关联度降低。同时,与传统的数据处理不同,利用大数据挖掘和分析处理不只是为了获取某一事物的特定信息,而是为了获取事物的完整信息,对事物的所有数据信息进行采样。对于简单的数据,可能没有对错之分,但数据关联组合所形成的信息可能对也可能错。这也表明,由于存在大量非结构化数据,大数据的价值密度明显降低。
(5)数据的准确性和可信赖度,即数据的质量。大数据是指通过新处理模式产生的具有强洞察力、决策力和流程优化能力的海量、多样化和高增长率的信息资产。在大数据处理过程中应该重点关注数据的真实性,数据背后隐含的细节、数据来源的真实可靠性、处理数据流程中的科学性等都是数据质量的内容。在数据搜索时一般无法收集到全数据,但是与大数据相关的形容词往往与大规模、精准、细化相关,因此在调用相关数据时应关注情景和样本的适用性。此外,虽然可以利用大数据基于一定算法和模型对变量进行相关性分析,但是在复杂模型中仅仅进行相关性解释是不全面的,需要将数据之间、数据与真实事件联系上。因此,在大数据应用过程中应强化对真假数据的清洗,提高数据的质量。
二、大数据处理流程
大数据处理流程涵盖了数据采集、数据预处理、数据统计分析、数据挖掘四个部分。
(1)数据采集。数据采集是大数据处理流程最基本的环节。大数据类型繁多、结构复杂,处理难度大。为充分发挥大数据的价值,需要先对数据源进行提取和整合,再通过关联和聚合从获取的数据中提取数据关系和实体,并利用大数据技术对获得的数据关系和实体进行存储。此外,为保证数据的质量和可靠性,在提取和整合数据源信息之前,必须对数据进行清洗。目前,在传统静态数据库相关领域,数据抽取和集成技术的研究已趋于成熟。从数据集成模型的角度看,常见的数据抽取和集成技术一般可分为4种类型:基于中间件或联邦数据库的引擎;基于ETL或物化的引擎;基于数据流的引擎;基于搜索引擎的方法。
(2)数据预处理。虽然存在大量的数据源、数据库,但为了有效地分析、挖掘和处理海量数据,就必须要进行数据预处理。数据预处理需要将从数据信息源收集到的数据导入相对集中的大型分布式数据库或分布式存储集群中,同时,为提高数据的可信性和可解释性,有必要对导入的数据进行预处理。数据预处理的一般步骤分为数据清洗、数据集成、数据归约和数据变换。数据清洗是指通过补充缺失值,光滑噪声数据,识别或删除离群点,并且解决数据不一致性带来的问题以此对数据进行清洗。数据集成表示的是同一概念的属性在不同数据库中可能是不同的名称,由此导致不一致性和冗余。数据归约是将得到的数据集合简化表示,使得数据集变小但是能够产生相同的分析结果,数据归约策略包括数据归约和维归约。数据归约是使用参数模型或非参数模型,使用较小的表示数据;维归约是使用数据编码的方案,将得到的初始数据进行简化或者“压缩”表达。数据变换包含规范化、数据离散化和概念分层产生等。
(3)数据统计分析。数据分析是大数据处理流程中最重要的组成部分和处理过程。数据统计分析是指通过有目的、有组织地收集和分析数据,使之成为信息的过程。数据分析的目的是从海量且无序的数据中将信息集中和提炼出来,以此找出研究对象的内在规律和发展特征。数据价值只能通过对原始数据进行全面系统深入的关联分析,才有可能被挖掘出来。大数据时代,数据统计分析面临着新的挑战:一是由于大数据环境下数据资源量大且价值密度低,挖掘有效数据信息的难度较大;二是大数据的重要特征之一是数据是实时更新变化的,因而算法的标准不仅是准确度,更应该将实时性纳入大数据算法的考虑范畴;三是分析结果的有效性和实用性是数据统计分析面临的重要问题。上述挑战对现代统计分析技术和方法提出更高的要求,面对结构多样、内容复杂的数据,机器学习、统计分析、数据挖掘等传统的分析技术需要更新内容才能应对新的挑战。
(4)数据挖掘。数据挖掘是大数据处理流程中的关键环节,是从大量数据中挖掘有趣模式和知识的过程。数据挖掘与数据分析的不同之处在于不需要预先设定研究主题,而是通过各种算法,深入计算和分析收集到的数据,从大量数据中寻找其发展规律,以期得到预期的效果,满足高级分析的特定需要,主要包括数据准备、寻找规律和表示规律三个步骤。数据准备是将所选取的数据进行整合形成数据集;寻找规律是指通过某些方法找出数据集合中隐含的规律;表示规律是指尽最大可能将找出的规律以用户可以理解的方式表示出来。数据挖掘过程中的数据量较大且挖掘算法较为复杂是数据挖掘面临的巨大挑战,同时建立模型也是一个复杂的过程,需要辨别不同模型的适应性。