《Apache Kylin权威指南》Apache Kylin核心团队【扫描版_PDF电子书_推荐】
书名:ApacheKylin权威指南 作者:ApacheKylin核心团队着 出版社:机械工业出版社 译者:无 出版日期:2017-1 页数:188 ISBN:9787111557012 |
8.4 豆瓣短评 |
全网资源sm.nayona.cn |
内容简介:
Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。
第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。
作者简介:
本书由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队。李扬是大数据架构师和工程师,专注大数据分析技术。他是Apache Kylin管理委员会成员,也是Kyligence Inc.(一家专业提供大数据商务智能服务的创业公司)创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人,在eBay期间从2014年开始开发Kylin项目。之前,李扬在IBM工作8年,在摩根士丹利工作2年。在IBM期间,他是“杰出技术贡献奖”的获奖者,曾担任InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构。在摩根士丹利期间,李扬担任副总裁,负责全球监管报表基础架构。
目 录:
Contents?目录
推荐序一
推荐序二
推荐序三
推荐序四
前 言
第1章 Apache Kylin概述 1
1.1 背景和历史 1
1.2 Apache Kylin的使命 3
1.2.1 为什么要使用Apache Kylin 3
1.2.2 Apache Kylin怎样解决关键问题 4
1.3 Apache Kylin的工作原理 5
1.3.1 维度和度量简介 5
1.3.2 Cube和Cuboid 5
1.3.3 工作原理 6
1.4 Apache Kylin的技术架构 7
1.5 Apache Kylin的主要特点 9
1.5.1 标准SQL接口 9
1.5.2 支持超大数据集 9
1.5.3 亚秒级响应 10
1.5.4 可伸缩性和高吞吐率 10
1.5.5 BI及可视化工具集成 11
1.6 与其他开源产品比较 11
1.7 小结 12
第2章 快速入门 13
2.1 核心概念 13
2.1.1 数据仓库、OLAP与BI 13
2.1.2 维度和度量 14
2.1.3 事实表和维度表 14
2.1.4 Cube、Cuboid和Cube Segment 15
2.2 在Hive中准备数据 15
2.2.1 星形模型 15
2.2.2 维度表的设计 16
2.2.3 Hive表分区 16
2.2.4 了解维度的基数 17
2.2.5 Sample Data 17
2.3 设计Cube 17
2.3.1 导入Hive表定义 18
2.3.2 创建数据模型 18
2.3.3 创建Cube 21
2.4 构建Cube 25
2.4.1 全量构建和增量构建 27
2.4.2 历史数据刷新 28
2.4.3 合并 29
2.5 查询Cube 30
2.6 SQL参考 31
2.7 小结 32
第3章 增量构建 33
3.1 为什么要增量构建 33
3.2 设计增量Cube 35
3.2.1 设计增量Cube的前提 35
3.2.2 增量Cube的创建 36
3.3 触发增量构建 37
3.3.1 Web GUI触发 37
3.3.2 构建相关的Rest API 39
3.4 管理Cube碎片 45
3.4.1 合并Segment 46
3.4.2 自动合并 47
3.4.3 保留Segment 48
3.4.4 数据持续更新 49
3.5 小结 50
第4章 流式构建 51
4.1 为什么要流式构建 51
4.2 准备流式数据 52
4.2.1 数据格式 52
4.2.2 消息队列 53
4.2.3 创建Schema 53
4.3 设计流式Cube 56
4.3.1 创建Model 56
4.3.2 创建Cube 57
4.4 流式构建原理 59
4.5 触发流式构建 61
4.5.1 单次触发 61
4.5.2 自动化多次触发 61
4.5.3 出错处理 62
4.6 小结 63
第5章 查询和可视化 64
5.1 Web GUI 64
5.1.1 查询 64
5.1.2 显示结果 65
5.2 Rest API 67
5.2.1 查询认证 67
5.2.2 查询请求参数 67
5.2.3 查询返回结果 68
5.3 ODBC 69
5.4 JDBC 71
5.4.1 获得驱动包 71
5.4.2 认证 71
5.4.3 URL格式 71
5.4.4 获取元数据信息 72
5.5 通过Tableau访问Kylin 72
5.5.1 连接Kylin数据源 73
5.5.2 设计数据模型 73
5.5.3 通过Live方式连接 73
5.5.4 自定义SQL 75
5.5.5 可视化 75
5.5.6 发布到Tableau Server 76
5.6 Zeppelin集成 77
5.6.1 Zeppelin架构简介 77
5.6.2 KylinInterpreter的工作原理 77
5.6.3 如何使用Zeppelin访问Kylin 78
5.7 小结 80
第6章 Cube优化 81
6.1 Cuboid剪枝优化 81
6.1.1 维度的诅咒 81
6.1.2 检查Cuboid数量 82
6.1.3 检查Cube大小 83
6.1.4 空间与时间的平衡 84
6.2 剪枝优化的工具 85
6.2.1 使用衍生维度 85
6.2.2 使用聚合组 87
6.3 并发粒度优化 89
6.4 Rowkeys优化 90
6.4.1 编码 90
6.4.2 按维度分片 91
6.4.3 调整Rowkeys顺序 92
6.5 其他优化 93
6.5.1 降低度量精度 93
6.5.2 及时清理无用的Segment 94
6.6 小结 94
第7章 应用案例分析 95
7.1 基本多维分析 95
7.1.1 数据集 95
7.1.2 数据导入 97
7.1.3 创建数据模型 99
7.1.4 创建Cube 102
7.1.5 构建Cube 108
7.1.6 SQL查询 110
7.2 流式分析 112
7.2.1 Kafka数据源 112
7.2.2 创建数据表 113
7.2.3 创建数据模型 115
7.2.4 创建Cube 117
7.2.5 构建Cube 118
7.2.6 SQL查询 119
7.3 小结 119
第8章 扩展Apache Kylin 120
8.1 可扩展式架构 120
8.1.1 工作原理 121
8.1.2 三大主要接口 122
8.2 计算引擎扩展 124
8.2.1 EngineFactory 124
8.2.2 MRBatchCubingEngine2 125
8.2.3 BatchCubingJobBuilder2 126
8.2.4 IMRInput 128
8.2.5 IMROutput2 129
8.3 数据源扩展 130
8.4 存储扩展 132
8.5 聚合类型扩展 134
8.5.1 聚合的JSON定义 134
8.5.2 聚合类型工厂 135
8.5.3 聚合类型的实现 136
8.6 维度编码扩展 140
8.6.1 维度编码的JSON定义 140
8.6.2 维度编码工厂 141
8.6.3 维度编码的实现 142
8.7 小结 143
第9章 Apache Kylin的企业级功能 144
9.1 身份验证 144
9.1.1 自定义验证 145
9.1.2 LDAP验证 146
9.1.3 单点登录 150
9.2 授权 151
9.3 小结 153
第10章 运维管理 154
10.1 安装和配置 154
10.1.1 必备条件 154
10.1.2 快速启动Apache Kylin 157
10.1.3 配置Apache Kylin 160
10.1.4 企业部署 162
10.2 监控和诊断 165
10.2.1 日志 165
10.2.2 任务报警 167
10.2.3 诊断工具 169
10.3 日常维护 170
10.3.1 基本运维 170
10.3.2 元数据备份 170
10.3.3 元数据恢复 171
10.3.4 系统升级 172
10.3.5 垃圾清理 174
10.4 常见问题和修复 175
10.5 获得社区帮助 176
10.5.1 邮件列表 177
10.5.2 JIRA 177
10.6 小结 177
第11章 参与开源 178
11.1 Apache Kylin的开源历程 178
11.2 为什么参与开源 179
11.3 Apache开源社区简介 179
11.3.1 简介 179
11.3.2 组织构成与运作模式 180
11.3.3 项目角色 181
11.3.4 孵化项目及顶级项目 182
11.4 如何贡献到开源社区 183
11.4.1 什么是贡献 183
11.4.2 如何贡献 183
11.5 礼仪与文化 184
11.6 如何参与Apache Kylin 185
11.7 小结 185
第12章 Apache Kylin的未来 186
12.1 大规模流式构建 186
12.2 拥抱Spark技术栈 187
12.3 更快的存储和查询 187
12.4 前端展现及与BI工具的整合 187
12.5 高级OLAP函数 188
12.6 展望 188
浏览器不支持脚本!
有需要联系v;hx-hx4
摘要:《Apache Kylin权威指南》是Apache Kylin核心团队推荐的一本计算机类扫描版PDF电子书。本文将从四个方面详细阐述该书的特点和价值,包括Kylin技术的介绍、Kylin在大数据分析中的应用、Kylin在业界的影响力以及Kylin未来的发展前景。
1、Kylin技术介绍
《Apache Kylin权威指南》详细介绍了Kylin的技术原理和核心特性。Kylin是一个开源的大数据分析引擎,它使用了OLAP(联机分析处理)和MOLAP(多维联机分析处理)技术来加速查询和分析操作。Kylin具有高度可扩展性和性能优势,可以处理PB级别的数据,并且具备实时查询能力。
此外,Kylin还支持多种数据源,包括Hadoop、Hive、HBase等,可以对不同类型的数据进行处理和分析。Kylin还提供了丰富的API和工具,方便用户进行数据建模、查询优化和数据可视化等操作。
2、Kylin在大数据分析中的应用
《Apache Kylin权威指南》通过实战案例展示了Kylin在大数据分析中的应用场景和解决方案。Kylin可以帮助用户在海量数据中快速进行多维分析和查询,实现快速决策和数据驱动的业务发展。Kylin的高性能和高可用性也使得它成为了许多大型企业和互联网公司的首选。
此外,Kylin还可以与其他大数据技术进行集成,如Spark、Flink等,进一步提升数据处理和分析的能力。通过Kylin,用户可以实现数据的实时计算和实时查询,从而更好地满足业务需求。
3、Kylin在业界的影响力
《Apache Kylin权威指南》介绍了Kylin在业界的影响力和应用案例。Kylin已经被广泛应用于金融、电商、物流等行业,为企业提供了强大的数据分析能力和商业洞察力。许多知名企业,如京东、富途证券等,都使用了Kylin来加速数据查询和分析。
此外,Kylin还积极参与了开源社区,在全球范围内获得了广泛的关注和认可。Kylin的核心团队也不断推进Kylin的发展,加入了更多的功能和性能优化,为用户提供了更好的体验。
4、Kylin未来的发展前景
《Apache Kylin权威指南》展望了Kylin的未来发展前景。随着大数据技术的快速发展和应用需求的不断增加,Kylin将继续发挥其优势,提供更高效、更稳定的数据分析和查询服务。Kylin的社区也将继续扩大,吸引更多的开发者和用户参与进来,共同推进Kylin的发展。
总结:《Apache Kylin权威指南》是一本介绍Kylin技术的重要参考书籍,从技术原理到实际应用,对Kylin进行了全面深入的解析。Kylin作为一款开源的大数据分析引擎,具有重要的价值和影响力,为用户提供了高效、可靠的数据分析解决方案。未来,Kylin将继续发展壮大,为更多的企业和用户带来价值和便利。
本文由nayona.cn整理
本文采摘于网络,不代表本站立场,转载联系作者并注明出处: https://sm.nayona.cn/xinnengyuan/252180.html