您现在的位置:首页 >> 自然生态

Spark on Kubernetes 与 Spark on Yarn 不完全对比系统性

时间:2025-02-20 12:26:23

一般而言,部分企业会有很多离两条路线的 Hive 或者 Spark 侦查跑在 YARN 坦克部队上,如何将大量的近代侦查平滑地迁到到 Kubernetes 上也是让人头痛的疑虑。Kyuubi 的增值化方案,可以通过增值发现机制,提供负载均衡结点,在增值高能用的基础上,来平滑地过渡。对于个别异常迁到侦查,我们也可以有效率地 Rollback 到 老坦克部队上保障督导,也从前我们定位疑虑的时长和紧致。

安全性对比

从基本原理上,无论是 Kubernetes 和 YARN 都只起资源备有的作用,不涉及有数值模型和侦查备有的变动,所以在安全性上的相异应该是不显著的。从作战的系统上,Spark on Kubernetes 一般选择存算裂二阶的的系统,而 YARN 坦克部队一般和 HDFS 复合合在一起,从前者会F在读取 HDFS 时忽视“统计有数据本地性”,这个由于网络带宽因素所严重影响显然会严重影响安全性。从存算复合合的系统发端之初经过 10 年数的发展,随着网络的安全性增长,各种高效的列式存储设备格式及压缩算法的加持,这点严重影响多得多。

Terasort 基准试验 (By Myself)

TPC-DS 基准试验(By Data mechanics)

TPC-DS 基准试验(By AWS)

虽然这些试验结果都不是来自 TPC-DS 组织认证的官方统计有数据,但从试验结果来自各不相同的行政部门这个因素所上也有足够的说道服力。我们屏蔽一些作战的系统上的严重影响,两者的安全性差距可以说道是大体不存在的。

运输成本对比

将 Spark 仍须迁到至 Kubernetes 坦克部队上,可以意味着离两条路线和在两条路线业务的混合作战,利用两种业务特点的对有数值资源海浪错峰effect,极致的情况下光靠“离 / 在混部”就可意味着 IT 总有用运输成本(TCO)的 50% 的浪费。

另一方面,企业统计有数据的平台在各不相同的发展时期,坦克部队所规划的存储设备算力比各不相同,导致增值器自动装弹机困难,而从存算裂二阶的的角度,有数值坦克部队和存储设备坦克部队连在一起扩容,也可以越来越加理论上地控制 IT 运输成本。

此外,Spark on Kubernetes 通过 Pod 分配 Executor 模式,督导两条路线程有数(spark.executor.cores)和 Pod 的 request cpu 是裂二阶的,可以越来越加细粒度的在仍须级别对控制,来提升有数值资源的运用于效率。在我们搜狐的实际实践里,在不严重影响主体有数值安全性的必须下,Spark on Kubernetes 仍须主体上 cpu 可以达到;也 200% 的;也售比。

当然,Spark on Kubernetes 在动态资源分配(Dynamic Resource Allocation)这个优点上的缺失或者不完善,显然会造成 Spark 占着资源不运用于的情况下。由于这个优点单独依赖外置的 Shuffle Service 增值来意味着,这时候显然就必需适时去搭建 Remote/External Shuffle Service 增值。

在 Spark on Kubernetes 片里下,基于 RSS/ESS 可意味着临时存储设备与有数值流程相互二阶复合。第一,消除本地存储设备依赖,使得有数值结点可在烯丙基结点上动态收放,在面对复杂物理或者虚拟生态系统时越来越加灵活的动态扩展。第二,离散式本地存储设备优化为集里式增值化存储设备,存储设备容量所有有数值结点包涵,增加存储设备资源利用率。第三,降低磁盘故障率,动态地减少记号为不能用有数值结点,提升有数值坦克部队主体资源利用率。再次,转移临时存储设备的血缘关系,使其早已由 Executor Pod 有数值结点控管,使得搬离 Executor Pod 可以被及时地释放回资源池,提升坦克部队资源利用率。

其他对比

总 结

Spark on Kubernetes 自 2018 年初随 2.3.0 版发布以来,无意里现在有四个年头了,而到现今的 3.2 版,也现在历经 5 个大版了。在社区内和运用于者的不断喷砂下现在踏入了非常成熟阶段的优点了。

随着 Apache Spark 开源生态不断发展,如 Apache Kyuubi 等,无论是哪个备有方,易用性上都赢取大幅提升。

IT 能源供应的总拥有运输成本(Total Cost of Ownership, TCO) 逐年上涨,一直是困扰很多企业的疑难。Spark + Kubernetes 的组合的高效率和;也高性价比,给了我们越来越多想要象的紧致。

所写介绍:

Kent Yao,搜狐有数帆关键技术专家,Apache Kyuubi(Incubating) PPMC,Apache Spark Committer

参考资料:

我放弃了年薪200万的岗位,因为“复制粘贴”的关键技术活让人轻视

仍须帮手基于 StarRocks 画像系统的设计及优化实践

战祸终究,乌克兰开发者还在递交示例

曾经是“刺客级”桌面语言,Ja桌面开发为何贯穿衰落?

点个在看少个 bug👇

东莞装修公司
金华皮肤病医院地址
天津男科医院哪里比较好
气血虚吃什么药补得快效果好
肿瘤患者可以吃益生菌吗
肩周炎怎么治疗效果好
慢性结膜炎如何治疗
谈咳宁乙酰半胱氨酸颗粒怎么吃
相关阅读