常见问题欢迎来到大学堂论文网,权威的论文代写、论文发表平台,服务论文行业十二年,专业为您提供论文代写代发服务
点击咨询韦老师  点击咨询李老师
范文期刊如找不到所需论文资料、期刊 请您在此搜索查找
 
您当前的位置:主页 > 管理论文 >

国内外关于大数据技术的研究现状

发布时间:2019-09-29


  0 引 言

  随着计算机技术和互联网的急速发展,特别是随着 Web2. 0的发展,互联网上的数据量高速增长,对大数据处理能力相对不足。伴随着待处理数据越来越多,当前已经到了无法将大数据存储在一台或有限数目的服务器内,更无法由数目有限的计算机来处理大数据的窘境。因此,如何实现资源和计算能力的分布式共享以及如何应对当前数据量高速增长的势头,是目前数据管理、数据处理领域亟待解决的问题。

  IBM 给出了大数据的三个 V,分别是: Volume,Variety,Ve-locity.大数据在 Volume 体现的是处理的数据量正从 T 级别跨越到 Z 级别,在 Variety 体现的是处理的数据类型从结构化类型为主过渡到结构化和非结构两种数据类型共存; 在 Velocity 体现的是对数据处理的响应时间从批处理响应时间到实时的流数据处理响应时间。本文给出大数据的描述: 规模大; 深度大; 宽度大; 处理时间短; 硬件系统普通化; 软件系统开源化。

  1 国内外研究现状

  1. 1 并行数据库研究

  大数据处理的传统方法是使用并行数据库系统。并行数据库系统是在大规模并行处理系统( MPP) 和集群并行计算环境的基础上建立的高性能数据库系统。这样的系统是由许多松耦合处理单元组成的,指的是处理单元而不是处理器。每个单元内的 CPU 都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。国外在该领域研究起步较早,在 20 世纪 80 年代就出现了可以运行在非共享节点组成的集群上的数据库系统。这些系统都支持标准的关系型表和 SQL,同时对于终端用户来说数据事实上是透明地存储在多个机器上的。很多这类系统都是建立在 Gamma[4]和 Grace[5]的并行 DBMS 项目的先驱性研究成果之上的。80 年代后期,并行数据库技术的研究方向逐步转到了通用并行机方面,研究的重点是并行数据库的物理组织、操作算法、优化和调度策络。

  早在 20 世纪 80 年代中期,Teradata 和 Gamma 项目就开始探索一种基于通过高速互联网络连接的“share-nothing 节点”( 具有独立 CPU,主存和磁盘) 组成的集群的全新并行数据库架构模式[30],如图 1 所示。从那时起,几乎所有的并行数据库系统都用到了这两个项目的技术: 关系表的水平分区以及 SQL 查询语句的分区执行[15].水平分区的背后思想是将关系表的行在集群节点上进行划分,这样他们就可以被并行地处理。比如将一个 10-million-行的表在一个 50 节点的集群上进行划分,每个节点具有 4 个磁盘,这样每个磁盘上将会有 50 000 个行。绝大多数的并行数据库系统都提供了多种划分策略,包括 Hash,range 以及 round-robin 划分[8].在基于 Hash 的分区模式下,当每行被加载的时候,会对每行里的一个或多个属性应用一个Hash 函数来决定该行所应该存放的目标节点和磁盘。

  从 20 世纪 90 年代至今,随着处理器、存储、网络等相关基础技术的发展,并行数据库技术的研究上升到一个新的水平,研究的重点也转移到数据操作的时间并行性和空间并行性上。能够并行执行有两个关键: 1) 大部分( 甚至是所有的) 表被划分到集群的所有节点上; 2) 系统使用一个优化器来将 SQL 命令翻译成在多个节点上执行的查询计划。因为程序员只需要使用高级语言描述他们的目的,因此他们根本不需要关心底层存储细节,比如索引配置和连接策略。并行数据库系统的目标是高性能和高可用性,通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。性能指标关注的是并行数据库系统的处理能力,具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解,一个是速度提升; 一个是范围提升。速度提升是指,通过并行处理,可以使用更少的时间完成两样多的数据库事务。范围提升是指,通过并行处理,在相同的处理时间内,可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。

  可用性指标关注的是并行数据库系统的健壮性,也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其他的硬件设备可以接手其处理,对外提供持续服务。

  在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当前系统中某节点部分或完全失效时,由他所进行的处理或由他所掌控的资源可以无损失或基本无损失地转移到其他节点,并由其他节点继续对外提供服务。

  1. 2 面向大数据处理的 MapReduce 模型研究

  2004 年 Google 研究员 Jeffrey Dean 和 Sanjey Ghemawat 通过对网页数据存储和并行分析处理研究后,在文献[1]提出 Ma-pReduce 计算模型并在 ACM 等多个期刊上转载[2,3].MapRe-duce 计算模型为大数据分析处理问题提供了一个新的有效解决方法和途径。文献中指出,“MapRedcue 是一种编程模型,以及一个处理和生成大数据集的相关实现。程序被写成函数式,并且自动并行执行在一个大规模的通用计算机集群上。这允许没有任何并行和分布式系统编程经验的程序员轻松地利用大规模分布式系统的资源。”MapReduce 计算模型 Map 操作通过把输入数据进行分区,例如: 分为 M 块,分布到不同的机器上并行执行。Reduce 操作是通过对中间产生的 key 的键值对来进行分布的,中间产生的 key 可以根据某种分区函数进行分布,分布成为 R 块。分区( R) 的数量和分区函数都是由用户指定的。具体流程如图 2 所示。

  ( 1) 用户程序中的 MapReduce 函数库首先把输入文件分成M 块,每块大小为 16M 到 64M( 可以通过参数决定) .接着在cluster 的 worker 机器上执行处理程序。

  ( 2) 这些分排的执行程序中有一个程序比较特别,它是主控程序 master.剩下的执行程序都是作为 master 分排工作的worker.总共有 M 个 map 任务和 R 个 Reduce 任务需要分排。master 选择空闲的 worker 并且分配这些 map 任务或者 Reduce任务。

    ( 3) 一个分配了 map 任务的 worker 读取并处理相关的输入小块。它处理输入的数据,并且将分析出的 key/value 对传递给用户定义的 map 函数。map 函数产生的中间结果 key/value对暂时缓冲到内存。

  ( 4) 这些缓冲到内存的中间结果将被定时刷写到本地硬盘,这些数据通过分区函数分成 R 个区。这些中间结果在本地硬盘的位置信息将被发送回 master,然后这个 master 负责把这些位置信息传送给 Reduce 的 worker.

  ( 5) 当 master 通知 Reduce 的 worker 关于中间 key/value 对的位置时,它调用 remote procedure 来从 map worker 的本地硬盘上读取缓冲的中间数据。当 Reduce 的 worker 读到了所有的中间数据,就使用中间 key 进行排序,这样可以使得相同 key 的值都在一起。因为有许多不同 key 的 map 都对应相同的 Reduce任务,所以,排序是必须的。如果中间结果集太大,那么就需要使用外排序。

    ( 6) Reduce worker 根据每一个唯一中间 key 来遍历所有的排序后的中间数据,并且把 key 和相关的中间结果值集合传递给用户定义的 Reduce 函数。Reduce 函数对于本 Reduce 区块输出到一个最终的输出文件。

  ( 7) 当所有的 map 任务和 Reduce 任务都已经完成的时候,master 激活用户程序。在这时候 MapReduce 返回用户程序的调用点。

  通过上面 7 个步骤,就顺利执行完 1 个完整的 MapReduce计算任务,可见并行计算技术能显着提高数据处理能力。

  1. 3 NoSQL 与数据库技术的对比

  非关系型数据库( NoSQL) 以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。Google 的 BigTable[13]就是典型的 NoSQL实现。另外具有代表性的还有 Apache Cassandra 由 Facebook 在Hadoop[23]基础上开发的混合型的非关系的数据库,类似于Google 的 BigTable,用于储存特别大的数据。

  一开始,数据库领域专家对 MapReduce 计算模型为代表的非关系型数据库持否定态度。2009 年 6 月,在 SIGMOD 09 上刊登了 Andrew Pavlo,Daniel J. Abadi,David J. DeWitt 和 MichaelStonebraker 等的着名数据库合作的文章“A Comparision of Ap-proaches to Large-Scale Data Analysis”[20],分别对并行数据库和MapReduce 两种模型进行了描述。此外,对比了这两种系统的性能和开发的复杂度。最后,定义了由多个计算任务组成的测试集,并在一个 MR 的开源版本和两个并行 DBMS 系统上进行了测试。针对每个计算任务,并且在一个 100 节点的集群上进行了多个并行度上的系统性能测试。得出结论: 尽管并行DBMS 的数据加载过程和执行调优所花费的时间比 MR 系统要长,但是这些 DBMS 系统所表现出的执行性能却比 MR 系统好很多,并最后认定: MapReduce 在大数据处理上比并行数据库差。

  随着 MapReduce 技术性能的提升、应用领域的扩展,关系数据管理技术和 MapReduce 技术的争论一直持续。于是在2010 年 1 月的 ACM 通讯杂志同时向 MIT 的 Stonebraker 教授和Google 的 Jeff Dean 和 Sanjay Ghemawat 研究员进行约稿。Dean 研 究 员 在“MapReduce: A Flexible Data ProcessingTool”[3]中指出 MapReduce 是进行大规模数据分析处理的灵活而有效的工具。与并行数据库相比,MapReduce 的优势包括存储系统无关以及大规模 jobs 的细粒度容错性。MapReduce 是一个用于大规模数据集合生成和处理的编程模型。用户描述一个Map 函数和 Reduce 函数,Map 函数会处理一个 key / value 对来生成一系列的中间 key/value 对集合,Reduce 函数会对具有相同中间 key 值的中间 values 进行合并。在 2003 年 Dean 就基于MapReduce 模型构建了一个系统用来简化 Google.com 所使用的倒排索引的构建。从那时起,在 Google 已经有超过 10 000 个的不同程序使用了 MapReduce,涵盖了用于大规模图处理、文本处理、机器学习、机器翻译等各方面的算法。MapReduce 的 Ha-doop 开源实现也已被 Google 之外的很多组织广泛使用。与并行数据库相比,MapReduce 具有很多显着的优势。首先也是最重要的,它为大规模 jobs 提供了细粒度的容错性; 在一个需要运行几个小时的任务中间出现错误时,不需要从头开始。其次,MapReduce 对于一个具有多个存储系统的异构系统的数据处理和加载非常有帮助。第三,MapReduce 提供了一个可以执行那些比 SQL 所能直接支持的更复杂函数的好框架。Stonebraker 教授在“MapReduce and parallel DBMSs friendsor foes?”[29]中则从最初的对 MapReduce 技术的彻底否定,转为肯定 MapReduce 的良好扩展性,并且指出,MapReduce 非常适合做 ETL 这样的工作。目前,越来越多的数据库研究人员逐渐意识到,MapReduce 和关系数据库可以互相学习,并且走向集成。

  MapReduce 可以从 RDBMS 学习查询优化、模式支持、外围工具支持等,而 RDBMS 可以从 MapReduce 学习得到高度的扩展性和容错性、快速装载、易于使用等特点。

  1. 4 MapReduce 与数据库技术相结合研究

  在并行数据库与 MapReduce 模型相结合的理论研究方面,国外以耶鲁大学的 Daniel J. Abadi 研究员为代表,其研究团队近三年在 SIGMOD,VLDB 上发表了多篇关于在数据库领域的列存储的论文[8 -11],分别在 2009 年和 2011 年发表在 VLDB 上的HadoopDB[18,34]研究为代表,在 Apache Hadoop 项目基础上提出了 Hadapt 研究,它消除数据孤岛,在云环境中使用现有的 SQL工具,组织分析大量的“多层结构”数据。耶鲁大学计算机科学系研究开发的 Hadapt 的技术,解决了一些在大数据分析需求中的关键问题: 数据的加速增长,非结构化数据的爆炸。Hadoop-DB 通过传统关系数据分析方法分析结构和非结构化数据。

  2011 年发表在 SIGMOD 上的文献[34]更详细地介绍了通过MapReduce 框架与数据库系统的结合,在分步并行执行环境下,设计 HadoopDB 数据引擎,提高数据分析性能,重点分析了连接和聚集操作。结合 Hadoop 作业调度和网络传播技术,成功地将单节点数据库系统转换为可扩展并行数据库分析平台。

  2010 年的 ICDE 和 SIGMOD 以及 2009 年的 VLDB 上发表了 Facebook 研究员关于利用 MapReduce 实现并行数据仓库的研究成果: Hive[31 -33].它是一个基于 Hadoop 的开源数据仓库解决方案。如图 6 所示,Hive 支持的查询是类似 SQL 方式的陈述语言: HiveQL .这种查询被编译进 MapReduce 的 job 用以Hadoop 的执行。而且 HiveQL 允许用户在查询中添加“客户map-Reduce 脚本插件”.这种语言包含了一个“支持包含原语类型的表的”数据结构,例如,列表、栈、集合、映射,以及嵌套组合数据结构。其背后的 I/O 库可扩展以查询客户格式的数据。

  Hive 还包含了一个系统目录 - 元存储( Metastore) -包含了“有利于数据挖掘、查询优化与查询编译的”概要模式与统计。

  在 Facebook,Hive 数据仓库包含了数万张表,共存储超过 700TB的数据。广泛地用于用户的报告和即时分析。在 2011 年的 ICDE 上,Facebook 研究员发表了 RCFile 一种基于 MapReduce 的数据仓库的快速且存储高效的数据放置结构[38],文章提出一个大的数据布局结构,称为 RCFile( 面向记录的列存储文件系统) ,如图 3 所示。

  并在 Hadoop 平台上实施。通过密集的实验,文章显示的RCFile 有效性满足四个要求: ( 1) 数据导入快; ( 2) 查询处理快; ( 3) 存储空间利用率高效; ( 4) 对于高度动态的工作量方式要有强大的适应力。RCFile 与行存储比较了数据导入速度和工作量的适应力。RCFile 在表扫描通过避免没必要列值读取来优化读取,在大多数情况下优于其他结构。RCFile 是基于列存储的压缩,因此,有很高的空间利用率。RCFile 已是 Facebook 的数据仓库系统默认选项,也已应用于由 Facebook 和雅虎开发的数据分析系统 Hive 中。

  2011 年 SIGMOD 上发表了新加坡国立大学黄铭钧教授和浙江大学陈纯教授的借助列存储技术实现 MapReduce 框架下可扩展连接处理论文[35].设计了 Llama 这个在 MapReduce 框架下的列存储的数据管理原型系统,在底层使用一个创新的文件存储格式: CFiles,如图 4 所示。在 CFile,每个块包含固定数量的记录,称为 K 值。每个逻辑块的多少 n 不同,因为记录大小可变的。块存储在缓冲区。缓冲区的大小通常为 1 MB.当缓冲区大小超出阈值或缓冲区中的记录数达到 k 个 ,缓冲区刷新到 DFS.每块的起始偏移量被记录下来。使用大块 chunk 代表在文件系统的分区单位。在 HDFS 中的每个文件是切成块,每大块 chunk 在不同的数据节点复制。在 HDFS,默认 chunk 大小为 64 MB.chunk 包含多个块,由记录 k 的值和每个记录的大小而定。

  文献里还设计了并发连接,如图 5 所示,将尽可能多的连接操作放在 MapReduce 框架 map 阶段,通过 Llama 系统构建,实现了对大数据的快速查询,并发连接初衷是将尽可能多的连接操作放在 MapReduce 框架 map 阶段。基本思想是利用浓密的查询计划树和排序 PF 组,解决 MapReduce 任务中的多表连接问题,避免重排昂贵的数据复制和减少 MapReduce 任务数。该算法可以减轻在 HDFS 的 NameNode 节点保持大量的中间结果的压力。此外,设计了数据物化和并发连接成本模型来分析数据访问成本,从而对模型进行细节优化。

  2011 年 VLDB 上发表了威斯康星麦迪逊大学和 IBM 研究员联合研发的基于列存储技术的 MapReduce 框架论文[36],利用列存储技术对 DREMEL[25]的改进: 1) 将复杂类型作为一个单独的列存储,而不是像 DREMEL,将其分解到不同的列中; 2) 系统可以处理在 DREMEL 里无法处理 map 数据类型; 3) 重点是在 Hadoop 的 Java 的背景下对性能改善。首先,介绍列存储格式兼容 Hadoop 复制和调度约束机制,如图 6 所示,证明列存储格式在实际工作负载条件下能加快 MapReduce 任务处理速度;其次、研究如何处理列存储遇到的复杂的数据类型,例如: 数组类型、MAP 类型和嵌套记录类型。这些都是 MapReduce 里常见最后,文章引入跳跃列表列存储格式,如图 7 所示,和 lazy记录的构建算法,以避免不需要的记录做反序列化实验采用从IBM 研究中心 Intranet 上抓取的真实数据,实验显示列存储技术可以在 Hadoop Map 阶段实现高达两个数量级性能提升。

  2011 年 SIGMOD 上发表了 Teradata 研究员和加州大学合作的基于 Hadoop 的并行数据仓库加载方法[37]论文。使用 Hadoop来作为中间加载服务器存储将要加载到 Teradata 企业级数据仓库的数据。从 HDFS( Hadoop 分布式文件系统) 获得了诸多优点: 1) 为要加载的文件的磁盘空间显着增加; 2) 一旦数据被写入到 HDFS,它是没有必要保存数据源的数据,甚至被加载到Teradata 企业级数据仓库之前的文件; 3) MapReduce 程序可用于改造和添加非结构化或半结构化数据结构; 4) 因为文件分布在 HDFS 中,所以系统可以更迅速地并行加载到 Teradata 企业级数据仓库中。当 Hadoop 和 Teradata 企业级数据仓库共存在同一硬件上平台,由于减少了硬件和系统管理成本,正越来越多地受到客户的青睐; 5) 另一个优化方法是将 HDFS 数据块相同的节点上直接加载到 Teradata 的并行节点上。由于 HDFS 固有的非均匀数据分布特性,文章很难避免 HDFS 块转移到偏远的Teradata 节点。因此,文章设计了一个多项式时间最优算法和多项式时间近似优化算法,HDFS 块均匀分配到并行的 Teradata节点,并最大限度地减少了网络流量。

  在国内对于大数据分析应用和 MapReduce 与数据库技术相结合技术研究,相对起步较晚。中国人民大学的覃雄派等发表了“大数据分析---RDBMS 与 MapReduce 的竞争与共生”[40]一文,指出面对大数据深度分析的挑战,关系数据库技术的扩展性遇到了前所未有的困难。同时,SQL 的表达能力不足以进行复杂深入的数据分析。MapReduce 技术具有简洁的模型、良好的扩展性、容错性和并行性,高性能。关系数据库技术和 Ma-pReduce 技术相互竞争、相互学习和相互渗透,促进了数据分析新生态系统的浮现。在新生态系统中,关系数据库技术和 Ma-pReduce 技术找到了自己的位置,发挥出各自的优势,从大数据中分析和发现有用的知识。关系数据库和 MapReduce 技术各有优缺点,如何融合关系数据库和 MapReduce 技术,设计同时具备两者优点的技术架构,既有 MapReduce 的高度扩展性和容错性,又有 RDBMS 的高性能,是大数据分析技术的研究趋势。

  东北大学于戈等[41]提出了基于 MapReduce 的关系型数据仓库并行查询方法,并设计了基于 MapReduce 的分布式关系数据库: ChunkDB.南京邮电大学李玲娟等[42]提出了基于 MapRe-duce 的频繁项集挖掘方法,在数据挖掘里获得较好的时效性。

  王婧等[43]在Hadoop 基础上提出了一种基于过滤器的多表连接算法,减少不必要的元组复制与数据传输。在国内并行数据库研究方面,2000 年,中国人民大学文继荣等在文献[39]上分析了并行数据库系统的查询优化技术。

  该文介绍作者自行研制的一个 Shared-nothing 并行数据库系统PBASE /2 中独特的两阶段优化策略。为了缩减并行查询优化庞大的搜索空间,PBASE/2 将并行查询优化划分为顺序优化和并行化两个阶段。在顺序优化阶段对并行化后的通信代价进行预先估算,将通信开销加入顺序优化的代价模型,同时对动态规划搜索算法进行了修正和扩展,保证了顺序优化阶段得到的最小代价计划在并行化后代价仍然最小。并行化阶段的优化目标是实现查询工作量在系统内多种资源上的负载平衡,提出了资源负载平衡因子的概念,并且通过启发式规则、任务调度等机制保证了并行查询执行计划的优化性。

  2 结 语

  通过以上分析可以看出,当数据集和索引变大时,传统关系型数据库在对大规模数据进行操作会造成系统性能严重下降,因为在处理数据时 SQL 请求会占用大量的 CPU 周期,并且会导致大量的磁盘读写,性能会变慢得让人无法忍受。

  随着对 MapReduce 并行计算技术研究的深入和 SMP、MPP等处理机技术的发展,MapReduce 分布式并行处理集群已经成为了大数据研究中最受关注的热点。目前,MapReduce 与关系数据库技术相结合领域主要有下列问题需要进一步地研究和解决。

  ( 1) 并行体系结构及系统的物理设计

  为了达到并行处理的目的,参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享,这些就需要研究并行处理的体系结构及有关实现技术。主要是在并行处理的环境下,大数据分布的算法的研究、数据库设计工具与管理工具的研究。特别是列存储技术在并行环境下实现的研究。

  ( 2) 非关系型数据库

  非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就适用大数据中的半结构和非结构化数据,但它的结构不便于表与表之间进行连接等操作,这是当前国内外此项研究的难点之一。

  ( 3) 处理节点间通信机制的研究

  为了实现并行的高性能,并行处理节点要最大程度地协同处理数据库事务,因此,节点间必不可少地存在通信问题,如何支持大量节点之间消息和数据的高效通信,也成为了并行数据库系统中一个重要的研究课题。

  ( 4) 并行操作算法

  为提高并行处理的效率,需要在数据分布并行的研究的基础上,深入研究传统的连接、聚集、统计、排序等具体的数据操作在 MapReduce 节点上的并行操作算法。这是当前国内外此项研究的热点之一。

  ( 5) 并行操作的查询优化问题

  为获得高性能,如何将一个数据库处理物理执行合理地分解成相对独立的并行操作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步,这些问题都值得深入研究。

  ( 6) 数据的加载和再组织技术

  为了保证高性能和高可用性,系统中的处理节点可能需要进行扩充,这就需要考虑如何将传统 RDBMS 的数据加载方法高效地移植到 MapReduce 框架中来,以及如何合理地在各个节点是重新组织数据。

  综上所述,关系数据库和 MapReduce 非关系型数据库技术相融合研究是数据科学、数据工程领域的研究趋势,我国相关研究工作还处于起步阶段,国外的研究工作中也有很多关键问题有待解决。当前,国内外关于大数据 MapReduce 框架下的处理研究还主要是集中在框架协议的设计方面[5 -43],还没有一套完整的解决方案和相关的国际标准系统可以采用。

  参 考 文 献

  [1] Dean J,Ghemawat S. MapReduce: Simplified Data Processing on LargeClusters[C]/ / Proc of 6th OSDI. San Francisco: USENIX Association,2004: 137-150.

  [2] Dean J,Ghemawat S. Experiences with MapReduce: an abstraction forlarge scale computation[C]/ / Proc 15th Inter-Conf on PACT. Washing-ton DC,2006: 1-2.

  [3] Dean J,Ghemawat S. MapReduce: a flexible data processing tool[J].Communications of the ACM,2010,53: 72-77.

  [4] DeWitt D J,Gerber R H,Graefe G,et al. GAMMA-A High PerformanceDataflow Database Machine[C]/ / VLDB '86,1986: 228-237.

  [5] Fushimi S,Kitsuregawa M,Tanaka H. An Overview of The System Soft-ware of A Parallel Relational Database Machine[C]/ / VLDB '86,1986: 209-219.

TAG标签: 国内外     数据     技术    

相关论文