สรุป Architecture ของ Cloudera Data Platform ใน Licenses แต่ละแบบ (ณ วันที่ 30/11/2020)

Heang Yuthakarn
2 min readDec 1, 2020

--

Cloudera Data Platform (CDP) License มีทั้งหมด 3 แบบ

1. Public Cloud

คือ provision Cloudera บน AWS หรือ Azure ใน VPC ของ account เราเองผ่าน web console ของ Cloudera โดย Cloudera จะใช้ AWS services ต่างๆ เช่น CloudFormation, S3, RDS, EKS และอื่นๆ (อีกมาก) ประกอบกับลง software ของ Cloudera บน EC2

โดยหลังจาก provision แล้วจะมี part Security and Governance, Data Lake เป็นฐาน ส่วนอีก 5 services คือ
- Data Hub,
- Data Engineering,
- Operational Database,
- Data Warehouse และ
- Machine Learning
สามารถ provision เพิ่มได้ตามต้องการจะเอากี่ environment ก็ว่ากันไปตามกำลังทรัพย์

Concept คือ แยก storage และ compute ออกจากกัน โดย storage ใช้พวก S3, RDS, DynamoDB ส่วน processing ก็ไปใช้ EC2, EKS เพราะฉะนั้น scale แยกกัน

หมายเหตุ Data Engineering, Data Warehouse, Machine Learning เป็น Containerize บน EKS

2. Private Cloud 𝑩𝒂𝒔𝒆 Edition

อันนี้เป็นลงบน On-Premise ใกล้เคียงกับลงเองสุดละ แต่ง่ายกว่าเยอะ จัดการและ config services ต่างๆ เกือบทั้งหมดผ่าน web GUI ชื่อ Cloudera Manager มี version control config ให้ด้วย roll back สบายแค่ปุ่มเดียว service ต่างๆ ลงบนเครื่องเลย ไม่มีการใช้ container แต่อย่างใด

รวม storage กับ compute ไว้ใน node เดียวกัน scale ที่พร้อมกัน ใช้ Spark on YARN ไม่ได้แยกเป็น Spark เป็น Cluster ออกมา

Service มาตรฐานมาหมดยกชุดทั้ง HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive on Tez, Spark, Oozie, Hue, ฯลฯ

ถ้าจะซื้อให้ครบเซ็ตเพื่อชีวิตที่ง่ายกว่า ต้องซื้อ Cloudera DataFlow (CDF) และ Cloudera Data Science Workbench (CDSW) เพิ่มด้วย แพงไปอีก

3. Private Cloud 𝑷𝒍𝒖𝒔 Edition

มันคือลูกผสมระหว่าง Base Edition + Services ที่พยายามจะลองของ Public Cloud ลงมา

ต้องลงทุกอย่างที่ Base Edition มี แล้วแบ่งเครื่อง servers ออกมาส่วนหนึ่งลง Kubernetes (ในรูปใช้ Openshift) แล้วก็ deploy services ต่างๆ บนนั้น (เป็น Containerize)

ตอนนี้มี services ให้เลือก 2 ตัว คือ Data Warehouse และ Machine Learning ส่วน services อื่นๆ ในเว็บว่า coming soon

กลับมา Concept คือ แยก storage และ compute ออกจากกัน ใครคิดจะ upgrade จาก Base Edition ไป Plus Edition นอกจากต้องเพิ่ม Kubernetes Cluster แล้ว ทำใจด้วยว่า compute power ที่เคยมีแบบตอน Base Edition จะไม่ได้ใช้แล้ว แปลว่า upgrade เป็น Plus Edition แล้ว CPU แรงๆ ที่ซื้อมาให้ Data Node ของ Base Edition ก็สูญเปล่า

--

--

Heang Yuthakarn

Data Engineer | Infrastructure | Gadget Crazier | Drama King