内容框架:
- 大数据概览
- Flink 学习框架
- EMR Studio 上的流计算最佳实践
- 演示
一、大数据概览
- 大数据处理 ETL (Data → Data)
- 大数据分析 BI (Data → Dashboard)
- 机器学习 AI (Data → Model)
二、Flink 学习框架
Flink 要点
- Stateful
- Time
- Flink Architecture
- Flink API
- Flink Configuration
- Flink Log
Stateful:
• 流计算的及时性
• 流计算的 unbounded
• Window
• Join
• Pattern
• statebackend
Time
- Event time
- Processing time
- Watermark
Flink Architecture
Flink API
Flink Configuration
- Cluster Configuration
- Job Configuration
- Statebackend
- Resource Manager
- SQL/Python
参考文档:
https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/
Flink Log
三、EMR Studio 上的流计算最佳实践
EMR Studio 特性:
- 兼容开源组件
EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。
- 支持连接多个集群
- 适配多个计算引擎
- 交互式开发 + 作业调度无缝衔接
- 适用多种大数据应用场景
- 计算存储分离
Flink Clients
Flink on Zeppelin (Phase 1) - Interactive Flink Client
本文系作者在时代Java发表,未经许可,不得转载。
如有侵权,请联系nowjava@qq.com删除。