更多 选择语言
< 返回主菜单
PG电子·(中国)官方网站 PG电子·(中国)官方网站

基于英特尔® 傲腾? 长期内存100系列的Spark计划实践

摘要

  英特尔® 傲腾? 长期内存是Intel在2019年宣布的一款革命性的产品,英特尔® 傲腾? 长期内存是一种全新的内存类型,其架构设计旨在从数据中心中罗致更多价值,重构数据中心内存/存储条理结构。差别于古板的DRAM,英特尔® 傲腾? 长期内存集大容量、经济性和长期性于一身,能够支持数据中心多个应用场景。pg电子官网基于英特尔® 傲腾? 长期内存做了大宗的应用场景解决计划,笼罩大数据剖析、数据库、云与虚拟化、漫衍式存储等应用场景。为了资助用户通过越发灵活的架构来实现立异型的应用,助力企业实现性能突破,pg电子官网宣布了基于英特尔® 傲腾? 长期内存技术的Spark应用计划。

配景介绍

  Apache Spark是专为大规模数据处理而设计的快速通用的盘算引擎,常用来构建大型、低延迟的数据剖析应用程序。Spark 一个主要特点在于,其能够在内存中进行盘算,这使得其数据剖析效率往往高于其它盘算引擎,可是,效劳器内存资源的限制也使得其性能的扩展保存着一定的瓶颈,在超大规模负载中无法充分发挥其利用内存进行盘算的性能优势。为了解决此问题,pg电子官网在 Spark 计划验证中使用英特尔® 傲腾? 长期内存取代古板的 DRAM 内存,实现了数倍的性能提升,被证明可以作为 Spark 内存扩展的优先计划。

  Spark 搭载了高效的 DAG 执行引擎,可以通过基于内存来高效处理数据流。与Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快 100 倍以上,基于硬盘的运算也要快10 倍以上,这使得其能够在大数据情况下关于数据进行实时处理。同时,其高容错性和高可伸缩性也使得其成为大数据安排的突出优势,用户可以将 Spark 安排在大宗廉价的硬件之上,形成集群,满足低本钱下的高性能盘算需求。

  在目今的应用情况下,Spark 可以用于批处理、交互式盘问(Spark SQL)、实时流处理(Spark Streaming)、机械学习(Spark MLlib)、图形盘算(GraphX)等负载,这些差别类型的处理都可以在同一个应用中无缝使用。正是因为 Spark 具备上述优势,所以其广泛应用于云盘算、物联网、机械学习等前沿领域的超大型数据集快速剖析处理之中。

  显然,高性能的数据剖析是 Spark 的一个重要优势,要提升性能,除了可以在软件优化方面入手之外,还可以从硬件角度进行考虑:由于 Spark 依赖内存进行盘算,所以内存的速度、容量关于盘算效率至关重要,如果数据量凌驾了集群内存能容纳的最大值,部分数据就会落在相对低速的磁盘上,这导致Spark数据处理能力无法充分发挥。

  扩展内存容量是一个比较简单、直接的要领,可是问题同样保存。首先,效劳器内存插槽有限,且一般支持128GB 的 DRAM 内存,这决定了单台效劳器扩展的总内存容量受到严格限制;其次,如果接纳增加效劳器节点的方法进行扩展,这些增长的效劳器节点不但意味着采购本钱的增加,也会带来不菲的空间、运维本钱。再加上企业级的大容量 DRAM 内存自己就价格腾贵,使得许多企业的 Spark 系统蒙受着巨大的本钱压力。

解决计划介绍

  由于介质、技术等原因限制,在现有的技术条件下古板 DRAM 内保存容量与本钱上很难实现质的突破,所以,寻找立异的存储介质与架构也就成为了 Spark 系统性能扩展的重要偏向。在比较英特尔® 傲腾? 长期内存与 DRAM 内存之后,pg电子官网决定实验接纳英特尔® 傲腾? 长期内存来进行 Spark 内存池扩展。

  pg电子官网选择英特尔® 傲腾? 长期内存的原因不难理解。首先,英特尔® 傲腾? 长期内存提供了行业领先的高吞吐率、低延时、高效劳质量和超高的耐用性,可以提供接近内存的延迟,并支持快速缓存和快速存储,对应用进行加速。

  其次,英特尔® 傲腾? 长期内存的单设备容量抵达512GB ,远超DRAM 内存的128GB,这使得其可以将系统内存扩展至6TB(不包括系统自身内存)。并且,英特尔® 傲腾? 内存的单位容量价格要远低于DRAM 内存,这些特性支持企业在数据中心安排更大、更经济的数据集,在大型内存池中获得新的洞察。

  在本计划中,pg电子官网使用英特尔® 傲腾? 内存作为 Spark 系统的存储介质,以解决效劳器内存缺乏的问题。英特尔® 傲腾? 内存有App Direct 模式和内存模式两种模式。本次测试接纳App Direct 模式 ,App Direct 具有数据长期化、高容量、高可用性、显著加速存储速度等特点,是目前英特尔® 傲腾? 内存主要使用模式(两种计划的对好比图1所示)。

  图1

  图1

  为了验证英特尔® 傲腾? 长期内存的使用关于 Spark 系统性能的影响,pg电子官网基于英特尔® 傲腾? 内存与 DRAM 内存,并划分针对Spark SQL测试与Spark K-Means测试配置了比照计划(接纳相同的硬件配置和组网方法),两套计划的成内幕当,因此可以直观的反应出两套计划的性能价格比。

  图2

  图2

  首先进行的是 Spark SQL 单机测试(测试结果如图3)与集群测试(测试结果如图4)可以发明,英特尔® 傲腾? 内存计划的单机性能是DRAM计划的7.33倍,集群性能是 DRAM 计划的6.05倍。

  图3

  图3

  图4

  图4

  接下来pg电子官网进行了 Spark K-Means单机测试(测试结果如图5)与集群测试(测试结果如图6)。测试结果显示,在单机情况下,英特尔® 傲腾? 内存计划在训练方面的性能是DRAM计划的13.74倍,整体性能是DRAM计划的3.93倍;集群情况下,英特尔® 傲腾? 内存计划在训练方面的性能是DRAM计划的10.76倍,整体性能是 DRAM 计划的3.99倍。

  图5

  图5

  图6

  图6

客户收益

  效果:英特尔® 傲腾? 内存显著提升 Spark 计划性能与本钱效益

  以上测试显示,在 Spark 系统的构建历程中,如果需要处理的数据量高于效劳器内存资源,那么基于英特尔® 傲腾? 长期内存的配置计划性能将远超 DRAM 内存计划。这是由于凌驾效劳器内存池容纳能力的数据会落在低速的磁盘上,从而导致处理速度的降低,而英特尔® 傲腾? 内存不但可以提供速度接近 DRAM 内存的快速存储器,并且可支持的内存池总容量远超 DRAM 内存,这能够让 Spark 缓存更多的数据,从而充分发挥 Spark 的数据高速处理优势。

  尤为重要的是,英特尔® 傲腾? 内保存单位本钱上显著低于 DRAM 内存,这能够资助企业有效控制Spark 系统的TCO。在大型的 Spark 应用实践中,英特尔® 傲腾? 内存作为内存扩展计划,可以资助企业在牢固的性能目标下,有效控制效劳器节点数量以及内存采购本钱,从而实现性能与本钱效益的均衡。


线

?



×
PG电子·(中国)官方网站 联系pg电子官网
ERP、企业软件购置热线
400-018-7700
云效劳产品销售热线
400-607-6657
集团客户投诉热线
400-691-8711
智能终端产品客服热线
400-658-6111
网站地图