การโฮสต์และการจัดการข้อมูลในฐานข้อมูลและคลังข้อมูลถือเป็นงานที่วุ่นวายและยุ่งยากมาโดยตลอด ต้องใช้ทรัพยากรและพลังในการคำนวณจำนวนมากเพื่อทำความเข้าใจข้อมูล Amazon Web Services มีโซลูชันแบบครบวงจรสำหรับจุดประสงค์นี้ มีบริการที่เรียกว่า Amazon RedShift ซึ่งจัดการคลังข้อมูลของผู้ใช้อย่างเต็มรูปแบบ
บทความนี้จะอธิบายโดยละเอียดเกี่ยวกับ Amazon RedShift พร้อมด้วยสถาปัตยกรรมคลังข้อมูล ส่วนประกอบทั้งหมดของสถาปัตยกรรมระบบคลังข้อมูลของ Redshift จะมีการอธิบายโดยละเอียด
Amazon RedShift คืออะไร
IT เป็นบริการคลังข้อมูลที่ให้บริการโดย Amazon จัดการและวิเคราะห์ชุดข้อมูลขนาดใหญ่สำหรับการวิเคราะห์และการรายงานได้อย่างมีประสิทธิภาพ มันถูกสร้างขึ้นบนรูปแบบการจัดเก็บแบบเสา ใช้คลัสเตอร์ของโหนดประมวลผลที่ควบคุมโดยโหนดผู้นำเพื่อให้การประมวลผลข้อมูลที่มีประสิทธิภาพสูง
ใช้ข้อมูลจากแหล่งต่างๆ และรวบรวมเพื่อสร้างคลังข้อมูล มันนำเสนอฟีเจอร์ที่แตกต่าง เช่น การแชร์ข้อมูลและการวิเคราะห์แบบเรียลไทม์ ดูภาพด้านล่างเพื่อทำความเข้าใจคุณสมบัติและความสามารถของ Amazon RedShift:
ให้เรามุ่งหน้าไปที่สถาปัตยกรรมระบบคลังข้อมูลตอนนี้
สถาปัตยกรรมระบบคลังข้อมูล Amazon RedShift คืออะไร
สถาปัตยกรรมระบบนี้มีสามส่วนหลัก ส่วนเหล่านี้คือ:
- พื้นที่จัดเก็บ
- การเร่งความเร็ว
- การคำนวณ
ให้เราเข้าใจจุดประสงค์ของพวกเขา:
พื้นที่จัดเก็บ
ส่วนพื้นที่จัดเก็บข้อมูลเกี่ยวข้องกับบริการจัดเก็บข้อมูลที่ RedShift มี มีตัวเลือกบริการพื้นที่จัดเก็บข้อมูลที่มีการจัดการเป็นของตัวเอง รวมถึงตัวเลือกบัคเก็ต S3
การเร่งความเร็ว
ส่วนการเร่งความเร็วจะขึ้นอยู่กับบริการจัดเก็บข้อมูลที่ใช้งานและกำลังในการคำนวณที่ใช้ พื้นที่จัดเก็บข้อมูลที่จัดการโดย RedShift นั้นเร็วกว่าเมื่อเปรียบเทียบกับตัวเลือกพื้นที่จัดเก็บข้อมูลอื่นๆ
การคำนวณ
ส่วนการคำนวณเกี่ยวข้องกับพลังการประมวลผลที่ใช้งานอยู่อย่างแท้จริง การคำนวณเสร็จสิ้นด้วยคลัสเตอร์และคลัสเตอร์มีโหนด โหนดจะมีการแบ่งส่วน
เพื่อให้เข้าใจองค์ประกอบและส่วนประกอบทั้งหมดของสถาปัตยกรรมนี้ได้ดีขึ้น โปรดดูภาพด้านล่าง:
ให้เราเข้าใจส่วนประกอบของมันทีละรายการ
ส่วนประกอบทางสถาปัตยกรรมของ Amazon RedShift คืออะไร
ต่อไปนี้คือองค์ประกอบทางสถาปัตยกรรมของ Amazon RedShift:
- คลัสเตอร์
- โหนด
- ชิ้นโหนด
- พื้นที่จัดเก็บ
- เครือข่ายภายใน
- ฐานข้อมูล
ให้เราหารือกันทีละเรื่อง:
คลัสเตอร์
คลัสเตอร์เป็นหน่วยพื้นฐานและหน่วยหลัก ประกอบด้วยโหนดจำนวนหนึ่ง หากคลัสเตอร์ประกอบด้วยโหนดประมวลผลหลายโหนด โหนดผู้นำเพิ่มเติมจะเข้ามาช่วยประสานงานกิจกรรมของโหนดประมวลผลเหล่านี้และจัดการการสื่อสารภายนอก
โหนด
โหนดในกลุ่มมีสองประเภท เหล่านี้คือ:
- โหนดผู้นำ
- โหนดคอมพิวเตอร์
ให้เราเข้าใจสิ่งเหล่านี้ทีละข้อ:
โหนดผู้นำ
จัดการการสื่อสารกับโปรแกรมไคลเอนต์และประสานการโต้ตอบกับโหนดคอมพิวเตอร์ โหนดผู้นำมีบทบาทสำคัญในการดำเนินการค้นหาที่ซับซ้อน โดยจะรวบรวมโค้ดตามแผนปฏิบัติการซึ่งกระจายไปยังโหนดประมวลผล และกำหนดส่วนข้อมูลให้กับโหนดประมวลผลแต่ละโหนด
โหนดคอมพิวเตอร์
โหนดประมวลผลเป็นหัวใจสำคัญของสถาปัตยกรรมของ Amazon RedShift พวกเขาดำเนินการทั้งจัดเก็บและประมวลผลข้อมูล สิ่งเหล่านี้มีทรัพยากรเฉพาะ เช่น หน่วยความจำและ CPU
ชิ้นโหนด
โหนดคอมพิวท์ยังแบ่งออกเป็นส่วนๆ อีก สไลซ์เหล่านี้ทำงานร่วมกันเพื่อประมวลผลปริมาณงานที่ได้รับมอบหมายและบรรลุการทำงานแบบขนานเพื่อปรับปรุงการประมวลผลแบบสอบถาม
พื้นที่จัดเก็บ
พื้นที่จัดเก็บข้อมูลภายใน Amazon RedShift ได้รับการจัดการโดย “Redshift Managed Storage (RMS)” มีความสามารถในการปรับขนาดพื้นที่จัดเก็บข้อมูลอย่างอิสระโดยใช้พื้นที่จัดเก็บข้อมูล “Amazon S3” RMS ใช้พื้นที่จัดเก็บในตัวเครื่องที่ใช้ SSD ประสิทธิภาพสูงเป็นแคชระดับ 1 ซึ่งจะปรับประสิทธิภาพให้เหมาะสม
เครือข่ายภายใน
เครือข่ายภายในใน Amazon RedShift นี้ช่วยในการสื่อสารที่รวดเร็วและปลอดภัยระหว่างโหนดผู้นำและโหนดประมวลผล เครือข่ายนี้ไม่สามารถเข้าถึงแอปพลิเคชันไคลเอนต์ได้โดยตรง
ฐานข้อมูล
คลัสเตอร์มีฐานข้อมูลตั้งแต่หนึ่งฐานข้อมูลขึ้นไป ข้อมูลจากฐานข้อมูลเหล่านี้อยู่บนโหนดคอมพิวเตอร์ แอปพลิเคชันไคลเอนต์สื่อสารกับโหนดผู้นำ โหนดคอมพิวท์จัดการการดำเนินการสืบค้นข้ามโหนดคอมพิวท์
ทั้งหมดนี้เกี่ยวกับ Amazon RedShift และองค์ประกอบทางสถาปัตยกรรม บทความนี้ได้อธิบายองค์ประกอบการทำงานของ Amazon RedShift อย่างครอบคลุม
บทสรุป
สถาปัตยกรรมของ Amazon RedShift คือเหตุผลที่ทำให้ความสามารถยังคงอยู่ โหนดผู้นำจะควบคุมและจัดการโหนดประมวลผลและส่วนโหนดช่วยในการประมวลผลแบบขนาน พื้นที่จัดเก็บข้อมูลที่มีการจัดการ Redshift ใช้พื้นที่จัดเก็บข้อมูลแบบ SSD เพื่อเพิ่มประสิทธิภาพ บทความนี้ได้อธิบายสถาปัตยกรรมระบบคลังข้อมูล Amazon RedShift