Facebook FB /RawData/FB

Một phần của tài liệu Data Lake LLD (Trang 25 - 28)

2 Google GG /RawData/GG

Dữ liệu này, tùy thuộc vào đặc thù của dữ liệu, có thể được partition / phân cấp sâu hơn theo các nhóm:

 Partition theo thời gian VD: /RawData/FB/20180716, RawData/FB/20180716

 Partition theo Location …

3.2.2.3 Gold Zone

Nền tảng lưu trữ: Dữ liệu được lưu trên HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).

Đối tượng quản lý:

 Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu từ : Các đội dự án dựng luồng tổng hợp dữ liệu từ dữ liệu Raw Zone lên dữ liệu ở Gold Zone

 Owner của dữ liệu: Business Owner của dữ liệu & Đội dự án đồng sở hữu dữ liệu này về mặt quyền chia sẻ dữ liệu, Cập nhật thay đổi dữ liệu

Tổ chức:

Dữ liệu tổ chức theo các cấp

+ /Gold_Zone (mức cao nhất)

+ /Tên_Bảng

+ Các cấp partition của bảng (time, location, …)

3.2.2.4 Work Zone

Nền tảng lưu trữ: Dữ liệu được lưu trên cụm HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).

Đối tượng quản lý:

 Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu: Vùng này chủ yếu phục vụ cho đối tượng là team phân tích dữ liệu

 Các job thực hiện trên Zone này là các job tạo bảng để phân tích, các job chạy model – rule … Vì vậy

 Owner của dữ liệu: Đội dự án thực hiện bài toán phân tích dữ liệu + Business Dept. đặt yêu cầu xây dựng bài toán (nếu có)

Tổ chức

Dữ liệu tổ chức theo các cấp

+ /Work_Zone (mức cao nhất)

+ /Tên_Project (VD: project1, project2) + /Tên_Bảng

+ Các cấp partition của bảng (time, location, …)

3.2.2.5 Sensitive Zone

3.2.2.6 Trusted Zone Nền tảng lưu trữ

Dữ liệu trên Trusted Zone bao gồm hai nhóm chính (1) Master data và (2) Reference Data. Hai nhóm dữ liệu này sẽ được lưu trữ trên:

+ HDFS  Được quy hoạch lưu trữ trên phần vùng /Trusted_Zone trên HDFS (dữ liệu các bảng quan trọng sẽ được định kỳ sao lưu ra hệ thống file local (lưu 06 tháng) và sau đó đẩy lên hệ thống lưu trữ Tap).

+ Hbase  Các bảng trong miền Trusted_Zone trên HDFS sẽ được lựa chọn và đưa lên Hbase để phục vụ cho các mục đích: (1) Tra cứu/ search dữ liệu online (2) Dựng các báo cáo động.

Dữ liệu Master Data được lưu trữ trên Trusted zone ở đây được hiểu là các bảng thông tin về các entity dữ liệu được sử dụng xuyên suốt qua các đơn vị nghiệp vụ/ hệ thống của doanh nghiệp. Các entity này có thể đề cập đến như: customer, subscriber, product … (Tham khảo định nghĩa Master Data – Zaloni: “Master data is the basic data sets that have been cleansed and valida‐ted. For example, a healthcare organization may have master data sets that contain basic member information (names, addresses,) and members’ additional attributes (dates of birth, social security num‐bers). An organization needs to ensure that this reference data kept in the trusted zone is up to date using change data capture (CDC) mechanisms”)

Đối tượng quản lý

 Đối tượng thực hiện dựng các luồng tổng hợp dữ liệu: Là team quản trị Data Lake, chịu trách nhiệm đảm dữ liệu đúng & đủ trước khi đẩy lên Trusted Zone

 Các job thực hiện trên Zone này là các job tạo bảng để phân tích, các job chạy model – rule … Vì vậy

 Owner của dữ liệu: Đội dự án thực hiện bài toán phân tích dữ liệu + Business Dept. đặt yêu cầu xây dựng bài toán (nếu có)

Tổ chức

Trên HDFS, Dữ liệu tổ chức theo các cấp + /Trusted_Zone (mức cao nhất) + /Tên_Bảng

+ /Các cấp partition của bảng (time, location, …)

Trên Hbase, dữ liệu tổ chức thành các bảng – ánh xạ 1:1 với các bảng cần sử dụng trên HDFS

HDFS HBase

+ Được sử dụng để lưu trữ dữ liệu phục vụ các bài toán xử lý dữ liệu theo lô; VD: Xây dựng các báo cáo định kỳ; lọc xuất tập TB phục vụ tác động; các bài toán phân tích hành vi người dùng (offline)

+ Dùng khi cần khai thác các bài toán đòi hỏi khả năng tra cứu nhanh / cần khả năng update dữ liệu. VD: cung cấp dữ liệu cho các chương trình truyền thông online, cung cấp dữ liệu cho các hệ thống tra cứu thông tin người dùng online …

Một phần của tài liệu Data Lake LLD (Trang 25 - 28)

Tải bản đầy đủ (DOCX)

(43 trang)
w