Giới thiệu về nền tảng dữ liệu đám mây Data Platforms Lý do tại sao sử dụng nền tảng sử dụng đám mây (cloud data platform) Nền tảng dữ liệu đám mây cho phép chúng ta: - Sắp xếp một bản dữ liệu duy nhất dùng chung cho nhiều người cùng lúc - Cung cấp gần như không giới hạn băng thông để phân tích, chia sẻ, xây dựng ứng dụng dữ liệu và thực hiện các hoạt động khoa học dữ liệu khác. - Giúp nhóm IT của cơ quan/tổ chức không cần quản trị dữ liệu mà chỉ còn tập trung vào phân tích dữ liệu mà thôi. - Giúp chia sẻ dữ liệu một cách nhanh chóng, liên tục và hoàn toàn bảo mật
Trang 1Giới thiệu về nền tảng dữ liệu đám mây Data Platforms
Lý do tại sao sử dụng nền tảng sử dụng đám mây (cloud data platform)
Nền tảng dữ liệu đám mây cho phép chúng ta:
- Sắp xếp một bản dữ liệu duy nhất dùng chung cho nhiều người cùng lúc
- Cung cấp gần như không giới hạn băng thông để phân tích, chia sẻ, xây dựng ứng dụng dữ liệu và thực hiện các hoạt động khoa học dữ liệu khác
- Giúp nhóm IT của cơ quan/tổ chức không cần quản trị dữ liệu mà chỉ còn tập trung vào phân tích dữ liệu mà thôi
- Giúp chia sẻ dữ liệu một cách nhanh chóng, liên tục và hoàn toàn bảo mật
Cấu trúc của nền tảng dữ liệu đám mây
Cấu trúc của nền tảng dữ liệu đám mây nên được xây dựng trên một kiến trúc dữ liệu chia sẻ đa cụm hiện đại, trong đó tính toán, lưu trữ và dịch vụ là riêng biệt và có thể được mở rộng một cách độc lập để tận dụng tất cả các nguồn lực của đám mây Kiến trúc này cho phép số lượng người dùng gần như vô hạn truy vấn cùng một dữ liệu đồng thời mà không làm giảm hiệu suất, ngay cả khi các khối lượng công việc khác đang thực thi đồng thời, chẳng hạn như chạy một quy trình
xử lý hàng loạt, đào tạo mô hình máy học hoặc khám phá dữ liệu với các truy vấn đặc biệt
Kiến trúc của nền tảng dữ liệu đám mây bao gồm ba lớp được được tích hợp một cách hợp lý nhưng vẫn mở rộng quy mô độc lập với nhau:
• Lưu trữ: Một nơi duy nhất để lưu trữ dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc
• Điện toán: Các cụm điện toán độc lập dành riêng cho từng khối lượng công việc
để loại bỏ tranh chấp tài nguyên
• Dịch vụ: Lớp dịch vụ chung cung cấp trải nghiệm thống nhất bằng cách thực thi bảo mật nhất quán, phổ biến siêu dữ liệu, tối ưu hóa truy vấn và thực hiện quản lý các nhiệm vụ dữ liệu thiết yếu khác
Trang 2Lớp lưu trữ dữ liệu được xây dựng trên bộ lưu trữ đối tượng lớn nhị phân (BLOB) linh hoạt, sẽ lưu trữ dữ liệu, bảng và kết quả truy vấn của bạn Kho lưu trữ
có thể mở rộng này sẽ xử lý dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc và trải rộng trên nhiều vùng trong một đám mây và trên các đám mây công cộng lớn
Lớp tính toán sẽ xử lý lượng dữ liệu khổng lồ với tốc độ và hiệu quả tối đa Bạn sẽ có thể dễ dàng chỉ định số cụm chuyên dụng bạn muốn sử dụng cho mỗi khối lượng công việc và có tùy chọn để tự động mở rộng quy mô dịch vụ
Lớp dịch vụ sẽ điều phối các giao dịch trên tất cả các khối lượng công việc
và cho phép các hoạt động truy vấn và tải dữ liệu diễn ra cùng lúc Khi mỗi khối lượng công việc có tài nguyên tính toán chuyên dụng riêng, các hoạt động đồng thời có thể chạy song song, nhưng mỗi hoạt động có thể thực hiện khi cần thiết