BI/Spider参数

编辑
  • 文档创建者:doreen0813
  • 浏览次数:4356次
  • 编辑次数:16次
  • 最近更新:doreen0813 于 2019-07-31
  • 1、描述

    FineBI在系统管理里提供了配置一些BI参数和调优参数的功能,方便系统管理和项目实施人员简单快捷的了解当前系统配置,并在界面上进行快速设置。

    如下图,管理员登录FineBI数据决策系统,进入管理系统>系统管理>常规,可以看到BI和Spider参数配置的页面。

    222

    2、BI参数

    1. 数据类型识别:

        默认值:关闭;

        参数说明:是否开启正确识别类型但是可能丢失精度的配置;默认为关闭,表示数值类型字段精度超出BI可读取范围(1~19位)时,自动转为文本类型进行读取;

                        打开该参数开关后,无论数值字段精度多少位,均能正确识别为数值类型,但是当数值本身精度超出BI范围时,会丢失精度;

        修改后是否需要重启:是;

    2. 数据访问量:

        默认值:1000000;

        参数说明:设置预览时访问数据库的数据量。这个参数会影响到缓存,更改时需谨慎,设置太大很容易将内存撑爆,需要根据自身内存大小适当调整;

        修改后是否需要重启:是;

    3. 缓存设置:

        默认值:开启;

        参数说明:开启关闭缓存设置;

        修改后是否需要重启:否;

    4. 缓存时间(秒):

        默认值:不配置;

        参数说明:缓存时间,单位秒(除去关联维表缓存和分页缓存的其他缓存),默认不配置,大数据缓存10分钟,小数据集缓存5分钟;设置成0,表示缓存始终生效,实时数据会一直读取缓存,不会生成新的缓存;

        修改后是否需要重启:是;

    5. 缓存个数:

        默认值:不配置;

        参数说明:缓存个数(除去关联维表缓存和分页缓存的其他缓存),默认不配置时,大数据集缓存100个,小数据集缓存10000个;设置成0,表示缓存个数无限制;

        修改后是否需要重启:是;

    6. 参数控件过滤生效:

        默认值:关闭;

        参数说明:设置控件绑定参数功能与过滤功能是否同时生效,默认关闭,表示不生效;

        修改后是否需要重启:否;

    7. 中文排序:

        默认值:关闭;

        参数说明:是否使用中文排序,默认关闭,表示不使用中文排序;设置后,抽取数据的表需要重新抽数;

        修改后是否需要重启:是;

    8. 关联缓存依据值:

        默认值:1000000;

        参数说明:设置关联维度表缓存划分大小的依据值,默认1000000,判断依据为 行*列 >= 依据值,为大缓存 , 行* 列 < 依据值,为小缓存;

        修改后是否需要重启:是;

    9. 维表存放数量-largeCache:

        默认值:100;

        参数说明:设置放入存放大数据量数据的缓存中的维表的存放数量;

        修改后是否需要重启:是;

    10. 维表存放数量-littleCache:

        默认值:10000;

        参数说明:设置放入存放小数据量数据的缓存中的维表的存放数量;

        修改后是否需要重启:是;

    11. 维表失效时间-largeCache:

        默认值:600;

        参数说明:设置存放大数据量数据的缓存的缓存失效时间长度(单位秒);

        修改后是否需要重启:是;

    12. 维表失效时间-littleCache:

        默认值:300;

        参数说明:设置存放小数据量数据的缓存的缓存失效时间长度(单位秒);

        修改后是否需要重启:是;

    13. 内存化过滤In条件个数:

        默认值:10000;

        参数说明:内存化维表过滤条件转化为事实表时允许的in条件个数;

        修改后是否需要重启:否;

    14. 多指标计算线程数:

        默认值:20;

        参数说明:控制多指标计算时的线程数;

        修改后是否需要重启:是;

    15. 分页缓存:

        默认值:开启;

        参数说明:是否开启分页缓存,默认开启;

        修改后是否需要重启:否;

    管理员可以参照上方对参数的详细介绍和说明对BI参数进行配置,对于修改后需要重启的参数,在修改配置后需要重启FineBI才能生效;对于修改后不需要重启的参数,修改后直接生效。

    3、Spider参数

    FineBI版本    jar包版本
    5.1    2019-07-31

    Spider参数中提供了FineSpider本地版和FineSpider分布式引擎分别配置参数的地方,其中FineSpider分布式引擎的参数配置需要在管理系统>智能运维>集群配置>计算引擎集群中切换为FineSpider分布式引擎才会显示。

    3.1 本地版Spider参数

    本地版Spider参数包含基础参数和高级调优参数,如下图:

    222

    3.1.1 基础参数

    1. 快速分析最大单元格数量阈值:

        默认值:1000000;

        参数说明:快速分析(数据分析自助数据集)过程中支持的最大单元格数量,默认值为100万。计算过程中实时监测,超过阈值立即报错。调大后系统并发数会相应下降,16G内存推荐500万,最大不超过1千万。配置越大性能体验越差,宕机风险越高。配置完成保存并重启FineBI后,设置项生效;

        修改后是否需要重启:是;

    2. 快速分析中位数/去重计数内存阈值:

        默认值:200;

        参数说明:快速分析(数据分析自助数据集)时,每个线程合并计算的中位数/去重计数占用的最大内存比例的倒数,默认为200,即最大占用BI内存的200分之1,超出则报错。

                        比如BI内存为8G,则分配该计算的内存为40M,可容纳100万同一分组内的不同值;若超出,则需要改小该内存阈值,分配更多的计算内存给快速分析中位数/去重计数;

        修改后是否需要重启:是;

    3.1.2 调优参数

    1. 抽数压缩线程数:

        默认值:8;

        参数说明:抽取数据时,分片(压缩&写入)线程的数量。在内存很小(不超过4G)并且无法扩大内存的情况下,可以调小该线程,减轻内存压力;

        修改后是否需要重启:是;

    2. 抽数压缩线程队列大小:

        默认值:200;

        参数说明:抽取数据时,未处理的分片等待队列长度,在内存很小(不超过4G)并且无法扩大内存的情况下,可以调小队列长度,减轻内存压力;

        修改后是否需要重启:是;

    3. spark日志输出等级:

        默认值:INFO;

        参数说明:spark日志输出等级,标准输出流,输出在tomcat的catalina.out文件内或者BI的nohup文件内,可以选择项为:INFO、WARN、ERROR、DEBUG。

                        INFO:打印错误类和基本执行日志;WARN:打印警告或提示类信息;ERROR:只打印错误类日志;DEBUG:打印所有日志;

        修改后是否需要重启:是;

    4. 新增数据抽数任务执行线程数:

        默认值:5;

        参数说明:新增数据的抽数任务同时执行的线程数,在内存很小(不超过4G)并且无法扩大内存的情况下,可以调小该线程数,减轻内存压力;

        修改后是否需要重启:是;

    5. 精简模式日期:

        默认:关闭;

        参数说明:精简模式开启时,日期字段在进行数据抽取时,只提前生成少量分组类型,加快生成速度,减少占用空间。未生成的分组在进行计算时可能会有性能损耗;

                        精简的日期分组类型包括:年、月、年月日、年月日时分秒、年季度、年月、年周;

        修改后是否需要重启:是(且需重新更新数据);

    6. spark driver端口:

        默认值:17777;

        参数说明:分布式/单机模式下,BI端spark通信用的端口;

        修改后是否需要重启:是;

    7. spark blockManager端口:

        默认值:17778;

        参数说明:分布式/单机模式下,BI的spark.blockManager端口;

        修改后是否需要重启:是;

    8. spark本地模式临时文件路径:

        默认值:null(Linux下实际为/tmp);

        参数说明:Spark写临时文件的目录,需给足一定的空间,修改至SSD挂载路径可提升Spark处理关联、Spark sql查询的性能;

                        注:分布式版本该参数无效,需要在服务器端配置。

        修改后是否需要重启:是;

    9. 优先使用Spark SQL计算去重记录数:

        默认值:关闭;

        参数说明:是否优先使用Spark SQL计算去重记录数,在数据量不超过1000万,但是分组依旧很大的情况下(会有内存溢出报错),可能会需要开启该参数;

        修改后是否需要重启:是;

    10. 开启分页计算:

        默认值:开启;

        参数说明:开启分页计算,大多数场景下可以提升计算速度。若没有大分组时,可以考虑关闭该参数;

        修改后是否需要重启:是;

    11. 分页计算汇总多线程计算方式:

        默认值:开启;

        参数说明:在进行分页计算的时候采用多线程计算方式。一些特殊场景,无法使用直连缓存的高并发场景下,关闭该参数效果会更好;

        修改后是否需要重启:是;

    12. spark动态调节功能:

        默认值:开启;

        参数说明:spark动态根据计算数据量调节task的数目,开启后对于小数据量的计算性能提升明显;

        修改后是否需要重启:是;

    13. 增量更新数据块整理计划:

        默认值:null;

        参数说明:在这个时间段内,增量更新任务不会执行合并操作,提升增量更新的速度。设置格式:hh:mm:ss-hh:mm:ss, example:10:10:10-12:12:12;

        修改后是否需要重启:是;

    3.2 分布式spider参数

    管理系统>智能运维>集群配置>计算引擎集群中切换为FineSpider分布式引擎后,Spider参数会新增分布式单独的配置参数,如下图:

    222

    1. spark 计算核心可用内存(G):

        默认值:6;

        参数说明:分布式模式下,每个节点给SparkApp分配的计算内存。计算公式:(Spider分布式节点数*SparkWorker内存)/BI节点数;

        修改后是否需要重启:是;

    2. spark 计算核心数:

        默认值:12;

        参数说明:分布式模式下,每个节点给SparkApp分配的计算核心数。计算公式:(Spider分布式节点数 * SparkWorker核心数)/ BI节点数;

        修改后是否需要重启:是;

    3. spark 最大可用核心数:

        默认值:36;

        参数说明:分布式模式下,所有节点给BI分配的计算总核心数。计算公式:(Spider分布式节点数 * SparkWorker核心数)/ BI节点数;

        修改后是否需要重启:是;

    4. spark driver端的host:

        默认值:null;

        参数说明:分布式模式下, BI端用来和spark集群通信用的hostname。当BI机器有多个网卡的时候,需要设定为可以和spark集群通信的host;

        修改后是否需要重启:是;

    5. 热数据Mem缓存阈值:

        默认值:10;

        参数说明:在一定时间内文件访问次数达到阈值后,文件会被缓存至Alluxio Mem,提升文件读取速度;

        修改后是否需要重启:是;

    6. 热数据Mem缓存阈值时间区间(毫秒):

        默认值:120000;

        参数说明:在设定的时间内,文件访问次数达到阈值后,文件会被缓存至Alluxio Mem,提升文件读取速度;

        修改后是否需要重启:是;

    7. spark master服务端口:

        默认值:7077;

        参数说明:spark master服务端口,用于BI和spark之间的通信;

        修改后是否需要重启:是;

    8. Alluxio Master通信端口:

        默认值:19998;

        参数说明:BI和alluxio通信端口;

        修改后是否需要重启:是;

    9. spark返回BI端最大结果大小(G):

        默认值:1;

        参数说明:spark返回BI端结果最大大小限制,返回结果集很大时可能需要调大一些;

        修改后是否需要重启:是;

    10. Alluxio根目录路径:

        默认值:/ROOT;

        参数说明:BI使用的Alluxio根目录路径;

        修改后是否需要重启:是;


    附件列表


    主题: 管理员指南
    标签: 暂无标签
    如果您认为本文档还有待完善,请编辑

    文档内容仅供参考,如果你需要获取更多帮助,付费/准付费客户请咨询帆软技术支持
    关于技术问题,您还可以前往帆软社区,点击顶部搜索框旁边的提问按钮
    若您还有其他非技术类问题,可以联系帆软传说哥(qq:1745114201

    此页面有帮助吗?只是浏览 [ 去社区提问 ]