随着云计算和虚拟化技术的普及,数据中心基础设施领域出现了很多技术创新。Amazon负责数据中心的副总裁James Hamilton曾经说过,在最近5年内数据中心领域技术创新超过了过去15年的创新之和,而这些创新基本上都是被云计算和超大规模互联网应用所驱动。
Scale Up是传统IT界应对大数据、大容量、大流量的解决方案,也就是造更大、更快、更强的IT设备,从而形成了“高性能服务器+高性能SAN存储+高速以太网”这样的“三高”IT架构模型。为了维护自己在业界的市场地位,各个计算、存储和网络厂商不停的推出高规格的旗舰产品来证明自己的存在。但是在新互联网时代,我们看到传统的Scale Up方案越来越力不从心,这不仅因为高性能设备的研发和制造成本越来越高,更因为传统的通过高性能设备实现的Scale Up方案自身的技术极限,无法满足大数据互联网级的要求。为了应对这个挑战, Scale Out解决方案应时出现。所谓Scale Out,简单的讲就是利用分布式和并行计算的原理,把原先由高性能设备完成的任务分布到一群设备上去完成,在满足处理性能要求的同时保证相关的高可靠性,并降低相关成本。
Scale Out是天生属于计算领域的。我们知道最早的高端企业级计算领域是大型机/小型机的世界。计算机的硬件、操作系统和跑在其上的应用是纵向整合的,当时IBM控制了整个业界的创新步伐。但是在新互联网领域,面对terabyte级别甚至petabyte级别的数据集处理要求,Scale Out是唯一的选择。基于商用x86架构工业标准服务器集群和分布式软件来构建互联网架构,是目前互联网领域的技术热点,典型代表之一是Apache Hadoop开源软件项目。现在大型云计算互联网公司数据中心动辄上万台Hadoop服务器来实现其并行计算。例如百度的Hadoop服务器规模是1万多台,已经超过了Yahoo和Facebook,2012年计划将达到2万台。同时,面向企业级私有云的Hadoop实践也开始走向实践。
在IT基础设施领域,除了计算以外,存储领域也开始从Scale Up迈向Scale Out。一个主要的原因就是CPU的性能和密度持续超过旋转磁盘的读取性能。传统的SAN和NAS外置存储解决方案过去受欢迎的原因就是外部磁盘阵列可以通过多轴磁盘实现高速IO,以及可以实现方便的磁盘阵列扩充。只要应用不需要非常快的读写大量数据,这种把存储外置在服务器之外,也就是存储和计算分离的解决方案可以工作的很好。但是一旦面对大数据快速读写,传统SAN/NAS技术架构就会出现技术瓶颈。考虑到这种情况,最近有人甚至预言未来外置高性能存储将趋向灭亡,取而代之的是Scale Out解决方案。具体说就是返璞归真——把数据推向计算点,而不是计算点通过一个fabric从远端阵列获取数据。这种模型通过分布式文件系统(如Hadoop文件系统,HDFS)构建在x86服务器集群上,有效的利用本地存储的低成本和高速实现相对于外置集中存储的性能、扩展和成本优势。一旦这种模式得到普及,传统的SAN/NAS的外置式存储恐怕将像恐龙一样淡出历史舞台。