2 Google GG /RawData/GG
Dữ liệu này, tùy thuộc vào đặc thù của dữ liệu, có thể được partition / phân cấp sâu hơn theo các nhóm:
Partition theo thời gian VD: /RawData/FB/20180716, RawData/FB/20180716
Partition theo Location …
3.2.2.3 Gold Zone
Nền tảng lưu trữ: Dữ liệu được lưu trên HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).
Đối tượng quản lý:
Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu từ : Các đội dự án dựng luồng tổng hợp dữ liệu từ dữ liệu Raw Zone lên dữ liệu ở Gold Zone
Owner của dữ liệu: Business Owner của dữ liệu & Đội dự án đồng sở hữu dữ liệu này về mặt quyền chia sẻ dữ liệu, Cập nhật thay đổi dữ liệu
Tổ chức:
Dữ liệu tổ chức theo các cấp
+ /Gold_Zone (mức cao nhất)
+ /Tên_Bảng
+ Các cấp partition của bảng (time, location, …)
3.2.2.4 Work Zone
Nền tảng lưu trữ: Dữ liệu được lưu trên cụm HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).
Đối tượng quản lý:
Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu: Vùng này chủ yếu phục vụ cho đối tượng là team phân tích dữ liệu
Các job thực hiện trên Zone này là các job tạo bảng để phân tích, các job chạy model – rule … Vì vậy
Owner của dữ liệu: Đội dự án thực hiện bài toán phân tích dữ liệu + Business Dept. đặt yêu cầu xây dựng bài toán (nếu có)
Tổ chức
Dữ liệu tổ chức theo các cấp
+ /Work_Zone (mức cao nhất)
+ /Tên_Project (VD: project1, project2) + /Tên_Bảng
+ Các cấp partition của bảng (time, location, …)
3.2.2.5 Sensitive Zone
3.2.2.6 Trusted Zone Nền tảng lưu trữ
Dữ liệu trên Trusted Zone bao gồm hai nhóm chính (1) Master data và (2) Reference Data. Hai nhóm dữ liệu này sẽ được lưu trữ trên:
+ HDFS Được quy hoạch lưu trữ trên phần vùng /Trusted_Zone trên HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).
+ Hbase Các bảng trong miền Trusted_Zone trên HDFS sẽ được lựa chọn và đưa lên Hbase để phục vụ cho các mục đích: (1) Tra cứu/ search dữ liệu online (2) Dựng các báo cáo động.
Dữ liệu Master Data được lưu trữ trên Trusted zone ở đây được hiểu là các bảng thông tin về các entity dữ liệu được sử dụng xuyên suốt qua các đơn vị nghiệp vụ/ hệ thống của doanh nghiệp. Các entity này có thể đề cập đến như: customer, subscriber, product … (Tham khảo định nghĩa Master Data – Zaloni: “Master data is the basic data sets that have been cleansed and valida‐ted. For example, a healthcare organization may have master data sets that contain basic member information (names, addresses,) and members’ additional attributes (dates of birth, social security num‐bers). An organization needs to ensure that this reference data kept in the trusted zone is up to date using change data capture (CDC) mechanisms”)
Đối tượng quản lý
Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu: Là team quản trị Data Lake, chịu trách nhiệm đảm dữ liệu đúng & đủ trước khi đẩy lên Trusted Zone
Các job thực hiện trên Zone này là các job tạo bảng để phân tích, các job chạy model – rule … Vì vậy
Owner của dữ liệu: Đội dự án thực hiện bài toán phân tích dữ liệu + Business Dept. đặt yêu cầu xây dựng bài toán (nếu có)
Tổ chức
Trên HDFS, Dữ liệu tổ chức theo các cấp + /Trusted_Zone (mức cao nhất) + /Tên_Bảng
+ /Các cấp partition của bảng (time, location, …)
Trên Hbase, dữ liệu tổ chức thành các bảng – ánh xạ 1:1 với các bảng cần sử dụng trên HDFS
HDFS HBase
+ Được sử dụng để lưu trữ dữ liệu phục vụ các bài toán xử lý dữ liệu theo lô; VD: Xây dựng các báo cáo định kỳ; lọc xuất tập TB phục vụ tác động; các bài toán phân tích hành vi người dùng (offline)
+ Dùng khi cần khai thác các bài toán đòi hỏi khả năng tra cứu nhanh / cần khả năng update dữ liệu. VD: cung cấp dữ liệu cho các chương trình truyền thông online, cung cấp dữ liệu cho các hệ thống tra cứu thông tin người dùng online …