Giải pháp Kho dữ liệu dùng chung thành phố

Một phần của tài liệu CCN01KAJGNERBK (Trang 47 - 51)

VII. KIẾN TRÚC CHÍNH QUYỀN ĐIỆN TỬ, PHIÊN BẢN 2.0

2. Kiến trúc dữ liệu

2.5. Giải pháp Kho dữ liệu dùng chung thành phố

Kho dữ liệu dùng chung thành phố là một phần không thể thiếu của Hệ thống Thông tin quản lý; tích hợp với các nguồn dữ liệuhiện có, chuyển đổi dữ liệutừ các hệ thống CSDL cũ sang CSDL mới, làm sạch, kiểm tra xác minh dữ liệu đối tượng, củng cố dữ liệu, nhập dữ liệu vào CSDL ngành, chuyển đổi dữ liệu theo cấu trúc, tiến hành lưu trữ tập trung, xếp loại, gắn nhãn và lập danh mụcdữliệu.

- Dữ liệu nguồn (Datasource): Cơ sở dữ liệu nguồn đầu vào bao gồm các cơ sở dữ liệu từ các hệ thống tác nghiệp bước đầu được xác định gồm các

nhóm: (1) Các hệthống ứng dụng, cơ sở dữ liệu dùng chung cấp thành phố; (2) Các hệ thống ứng dụng, cơ sở dữ liệu quốc gia hoặc của các bộ, ngành, địa phương; (3) Các hệ thống ứng dụng xử lý nghiệp vụ chuyên ngành; (4) Các nguồn cung cấp dữliệumở... Tuy nhiên, trong ngắnhạn, các hệthống ứngdụng của thành phố sẽ là nguồn thông tin chính cung cấp cho hệ thống Kho dữ liệu. Các cơ sở dữ liệu nguồn sẽ kết nối với Kho dữ liệu để cung cấp dữ liệu thông qua trục liên thông ESB trên nền tảng tích hợp LGSP.

- Staging Area: là nơi chứa dữ liệu thô được trích xuất từ các nguồn dữ liệu.

- Data Firewall: Bộ lọc dữ liệuđể kiểm tra và phân loại dữ liệu, dữ liệu nào đạt tiêu chuẩn thì được tải vào Kho chứa dữ liệu chuẩn hóa (Normalized Data Store), dữliệu nào không đạtsẽ đưa vào Data Quality Store.

- Data Quality Store: Nơi chứa dữ liệu có phát hiện xung đột, vi phạm chuẩn.

- Data Quality Dashboard: Ứng dụng cho phép người dùng có thểchỉnh sửa và cập nhật các dữ liệu trong Data Quality Store; sau đó chuyểntiếp qua bộ lọc Data Firewall, nếu đảm bảo chất lượng sẽ đưa vào Kho chứa dữ liệu chuẩn hóa.

- Notification System: Ứng dụng cho phép thông báo đến người quản trị dữ liệunguồnđểchỉnhsửa,cập nhậtdữliệu.

- Normalized Data Store (NDS): là nơi chứacơ sở dữ liệu đã được trích xuất, làm sạch, chuẩn hóa từ Staging Area và sử dụng chung cho toàn bộ hệ thống. Đây có thể coi là dữ liệuchuẩn xác, đúng đắnnhất để làm tham chiếu cho tất cả các hệ thống khác. Dữ liệu này có thể chia sẻ cho LGSP và các hệ thống thông tin khác.

- Dimensional Data Store (DDS): là nơi chứa các cơ sở dữ liệu theo hướng chủ đề được tích hợp dữ liệutừ NDS để phục vụ cho các bài toán thống kê, phân tích, dựđoán…

- Data Mart: là các cơ sở dữ liệu hướng chủ đề. Mỗi data mart chỉ chứa dữ liệu về một chủ đề nên giúp tăng hiệu suất làm việc của hệ thống, giảm thời gian phản hồi, cho thông tin chính xác hơn, giúp cho người sửdụng cuối có các quyếtđịnh chính xác hơn vềchủđề quan tâm.

- Data Lake: là nơi xử lý và lưutrữ dữliệu phi cấu trúc dựa trên các công nghệxử lý dữliệu lớn như KAFKA, HADOOP, SPARK, HIVE để:

+ Cung cấp dữ liệu cho quá trình phân tích và khám phá dữ liệu (Analytics and Discovery Data) thông qua công nghệ AI, Machine learning,

Deep learning,... để đưa ra các báo cáo dự đoán, xu hướng, làm cơ sở đưa ra quyếtđịnh.

+ Chuyển đổi sang dữ liệu có cấu trúc và cung cấp cho NDS để lưu trữ dùng làm dữ liệu tham chiếu, báo cáo và chia sẻ(phải đi vào STAGING AREA trước, từ đóđi qua DATA FIREWALL để đảm bảo chấtlượng dữ liệutrước khi được tải vào NDS).

- Data Governance: Thựchiện chứcnăngquảntrịdữliệu bao gồm:

+ Control/Audit: giám sát, quản lý và vận hành tất cả các tương tác đọc ghi thông tin metadata vào Meta Data Repository.

+ Meta Data Repository bao gồm:

++ Data Lineage: quản lý dữliệu mô tảvềnguồndữliệu trong hệthống. ++ Data Standardization: quy định các chuẩn dữliệu như quy địnhđộ dài, định dạng...nhằmđảmbảo tính nhất quán theo quy định.

++ Data Security: quản lý bảomật dữ liệu, duy trì tính toàn vẹn dữliệu và đảm bảo rằngdữ liệu không thể truy cập được bởi các bên trái phép và làm hỏng dữ liệu. Bảo mật dữ liệu bao gồm mã hóa dữ liệu, mã thông báo và thực tiễn quản lý khóa bảo vệdữliệu trên tấtcả các ứng dụng và nềntảng.

++ Meta Data (siêu dữliệu): là dữliệu mô tả vềdữliệu. ++ Data Catalog: quản lý các danh mụcdữliệu.

++ Data Quality: quản lý chất lượng dữ liệu để đảm bảo dữ liệu chất lượng cao, nâng cao tính chính xác, ngăn chặn dữ liệu lỗi và cung cấp các dịch vụ đáng tin cậy. Trong Data Quality có 2 thành phần nổi bật là: (1) Profile: thông tin bao gồmdữliệu từ nguồn nào, sốlượng bảng,số field củamỗibảng và số lượng record của mỗibảng để có thể giám sát và đảm bảo dữ liệu được trích xuất đầy đủ; (2) Rule: xây dựng dựa trên các tiêu chuẩn được định nghĩa tại Data Standardization như sai lệch,thiếu sót, trùng lắpdữliệu.

- Anaylytics & Discovery Data: là hệ thống phân tích, khai phá dữ liệu thông qua công nghệ AI, Machine learning, Deep learning đểđưa ra các báo cáo dự đoán, xu hướng, làm cơ sở đưa ra quyếtđịnh.

- Các ứng dụng khai thác dữ liệu từ Kho dữ liệu: OLAP (truy vấn, phân tích trực tuyến cơ sở dữ liệu hướng chủ đề (Data Mart) trên một tập dữ liệu lớn tuỳ theo các bài toán nghiệp vụ), API webservice, Dashboard, web reports,...

Một phần của tài liệu CCN01KAJGNERBK (Trang 47 - 51)

Tải bản đầy đủ (PDF)

(144 trang)