历史版本1 :FineBI工程部署环境准备 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1、描述编辑

FineBI是一款纯B/S端的商业智能分析服务平台;支持通过web应用服务器将其部署在服务器上,提供企业云服务器。用户端只需要使用一个浏览器即可进行服务平台的访问和使用。FineBI使用的是Spider引擎,Spider数据引擎可灵活支撑不同数据量级的分析,在数据量激增之后,可横向扩展机器节点,利用Spider引擎专为支撑海量大数据分析而生的分布式方案。因此我们分单机与分布式进行服务器的配置推荐。

2、Spider引擎服务器推荐

Spider引擎可以同时实现实时数据与抽取数据,可以根据数据量、实时性要求、使用频次等,自由选择实时或抽取的方式。实时数据与抽取数据方式的无缝切换,更加灵活高效支撑前端的高性能分析。此处我们的业务系统运行硬件配置预估与要求,以极限情况推算,如下:

1)假设所有数据都是实时数据, 性能与计算全部依赖于数据库,即使都是实时数据,存在缓存机制以及部分场景内存计算,因此web服务器配置可由数据量来进行估算。(用户的数据库服务器的配置这里不做推荐)其中,数据量表示的是查询数据返回的行数。

  数据量  CPU  可用内存 可用磁盘空间   网卡
  0~1kw  4核~8核,2.5GHz及以上  16G~32G  500G  
 1kw~1.5亿    8核~16核,2.5GHz及以上  32G~64G  750G  
  1.5亿以上  16核~24核,2.5GHz及以上  64G~128G  1T  千兆以上网卡


2)假设所有的数据都需要更新

当最大单表数据量在亿级以下或数据总量在100G之内,可以直接使用web服务器的本地磁盘作为数据存储介质。当超过这个数据范围,推荐使用Spider引擎的分布式版本,参考第三章节。


数据量  CPU  可用内存    可用磁盘空间网卡  
  0~1kw  8核,2.5GHz及以上  16G~32G  500G  
  1kw~3kw  8核,2.5GHz及以上  32G  500G~700G  
  3kw~5kw  16核,2.5GHz及以上  64G  700G~1T  
  5kw~1亿  16核~24核,2.5GHz及以上  64G~128G  至少1T  千兆以上网卡

对于既有实时数据,又有需抽取数据的混合情况下,以最高配置要求即可。以上服务器台数均以单台来计的,是否多台取决于并发量。以单台Web服务器支撑200并发的原则,选择Web服务器的台数。集群的话,要求集群服务器需要千兆网。

注:FineBI的Web服务器不应安装在同时运行资源密集型应用程序(例如数据库或应用程序服务器)的物理计算机或 VM 虚拟机上。上述CPU的推荐中,需要保证FineBI实际可以占用的资源达到80%。  

3、Spider分布式服务器推荐

3.1 介绍

Spider引擎的计算依赖并行计算能力与内存加速,所以CPU核心越多,内存越大,性能就更好。内存所有机器加起来能装载所有数据最好,不用频繁与磁盘交换数据,达到最佳性能;硬盘没有特别要求,只要足够大,能装载5倍以上的原始数据(分布式数据冗余与备份)即可。

下面我们推荐的分布式引擎服务器配置以实现秒级响应为准,当需要分析的数据量比较大的情况下,理论上是需要抽取的最大单表数据量过亿(这边的数据量以最大单表的行来计算,这里指的是要抽取到分布式做分析的单表,并非数据库中的最大单表),或需要抽取的数据总量超过100G,就需要扩展数据存储的节点数,以便应对大数据量的分析计算。为保证数据引擎的高可用,推荐3台及3台以上的机器。由于Spider引擎(分布式)是数据计算密集型程序,因此需保证只运行这一个资源占用最多的程序。并且建议装在物理机上,不建议VM虚拟机。系统环境要求必须是linux,推荐使用CentOS7。

3.2 服务器推荐

这里的服务器推荐不考虑FineBI的Web端。但是BI的web端服务器若与Spider分布式引擎的服务器共用的话,机器需要的资源为二者需要的资源之和,BI服务器推荐可参考上述第二章节。每个表在引擎中数据占用空间大小 = 数据行数*列数* 8 * 4 * 2 (单位:字节),因此数据大小预估时候以格子数(数据行数*列数)最大的来预估。

1)分布式最低配置要求

应用场景:适用于测试阶段的最低要求,不符合要求系统无法正常运行。不能用作正式业务系统,抽取数据无法建立索引。

数据量   内存   CPU  机器数 硬盘 
  1亿~3亿  16G  1~2亿可以8核,2~3亿最好16核。2.5GHz以上  3台  1T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可
  3亿~5亿  16G  16核,2.5GHz以上  3~5台  1T~2T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可
  5亿~10亿  16G  16核,2.5GHz以上  5~9台  1T~2T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可


2)分布式推荐运行配置要求

  数据量  内存CPU(推荐至强E5系列,2.5GHz以上) 机器数   硬盘 网卡 
  1亿~3亿  64G(推荐128G  2*8核  3台  1T~2T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可  千兆以上网卡
  3亿~5亿 64G(推荐128G    2*8核    3~5台(推荐5台  2T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可   千兆以上网卡
  5亿~10亿64G(推荐128G    2*8核  5~9台   2T~3T/台,所有机器合计可用磁盘空间能装载5倍以上的原始数据即可  千兆以上网卡
  超大数据量          联系FineBI构架师根据场景推荐 

CPU推荐Intel Xeon E5-2697 v2 *2。如果内存不足够容纳一份抽取过来的数据大小,则可以增加SSD,使得所有SSD的空间+所有内存空间可以满足数据总大小。

详细推荐请参考Spider分布式引擎服务器推荐