VII. KIẾN TRÚC CHÍNH QUYỀN ĐIỆN TỬ, PHIÊN BẢN 2.0
2. Kiến trúc dữ liệu
2.5. Giải pháp Kho dữ liệu dùng chung thành phố
Kho dữ liệu dùng chung thành phố là một phần khơng thể thiếu của Hệ thống Thơng tin quản lý; tích hợp với các nguồn dữ liệu hiện có, chuyển đổi dữ liệu từ các hệ thống CSDL cũ sang CSDL mới, làm sạch, kiểm tra xác minh dữ liệu đối tượng, củng cố dữ liệu, nhập dữ liệu vào CSDL ngành, chuyển đổi dữ liệu theo cấu trúc, tiến hành lưu trữ tập trung, xếp loại, gắn nhãn và lập danh mục dữ liệu.
- Dữ liệu nguồn (Datasource): Cơ sở dữ liệu nguồn đầu vào bao gồm các cơ sở dữ liệu từ các hệ thống tác nghiệp bước đầu được xác định gồm các
nhóm: (1) Các hệ thống ứng dụng, cơ sở dữ liệu dùng chung cấp thành phố; (2) Các hệ thống ứng dụng, cơ sở dữ liệu quốc gia hoặc của các bộ, ngành, địa phương; (3) Các hệ thống ứng dụng xử lý nghiệp vụ chuyên ngành; (4) Các nguồn cung cấp dữ liệu mở... Tuy nhiên, trong ngắn hạn, các hệ thống ứng dụng của thành phố sẽ là nguồn thơng tin chính cung cấp cho hệ thống Kho dữ liệu. Các cơ sở dữ liệu nguồn sẽ kết nối với Kho dữ liệu để cung cấp dữ liệu thông qua trục liên thơng ESB trên nền tảng tích hợp LGSP.
- Staging Area: là nơi chứa dữ liệu thơ được trích xuất từ các nguồn dữ
liệu.
- Data Firewall: Bộ lọc dữ liệu để kiểm tra và phân loại dữ liệu, dữ liệu
nào đạt tiêu chuẩn thì được tải vào Kho chứa dữ liệu chuẩn hóa (Normalized Data Store), dữ liệu nào không đạt sẽ đưa vào Data Quality Store.
- Data Quality Store: Nơi chứa dữ liệu có phát hiện xung đột, vi phạm
chuẩn.
- Data Quality Dashboard: Ứng dụng cho phép người dùng có thể chỉnh
sửa và cập nhật các dữ liệu trong Data Quality Store; sau đó chuyển tiếp qua bộ lọc Data Firewall, nếu đảm bảo chất lượng sẽ đưa vào Kho chứa dữ liệu chuẩn hóa.
- Notification System: Ứng dụng cho phép thông báo đến người quản trị
dữ liệu nguồn để chỉnh sửa, cập nhật dữ liệu.
- Normalized Data Store (NDS): là nơi chứa cơ sở dữ liệu đã được trích
xuất, làm sạch, chuẩn hóa từ Staging Area và sử dụng chung cho tồn bộ hệ thống. Đây có thể coi là dữ liệu chuẩn xác, đúng đắn nhất để làm tham chiếu cho tất cả các hệ thống khác. Dữ liệu này có thể chia sẻ cho LGSP và các hệ thống thông tin khác.
- Dimensional Data Store (DDS): là nơi chứa các cơ sở dữ liệu theo
hướng chủ đề được tích hợp dữ liệu từ NDS để phục vụ cho các bài tốn thống kê, phân tích, dự đốn…
- Data Mart: là các cơ sở dữ liệu hướng chủ đề. Mỗi data mart chỉ chứa
dữ liệu về một chủ đề nên giúp tăng hiệu suất làm việc của hệ thống, giảm thời gian phản hồi, cho thơng tin chính xác hơn, giúp cho người sử dụng cuối có các quyết định chính xác hơn về chủ đề quan tâm.
- Data Lake: là nơi xử lý và lưu trữ dữ liệu phi cấu trúc dựa trên các công
nghệ xử lý dữ liệu lớn như KAFKA, HADOOP, SPARK, HIVE để:
+ Cung cấp dữ liệu cho quá trình phân tích và khám phá dữ liệu (Analytics and Discovery Data) thông qua công nghệ AI, Machine learning, Deep learning,... để đưa ra các báo cáo dự đoán, xu hướng, làm cơ sở đưa ra quyết định.
+ Chuyển đổi sang dữ liệu có cấu trúc và cung cấp cho NDS để lưu trữ dùng làm dữ liệu tham chiếu, báo cáo và chia sẻ (phải đi vào STAGING AREA trước, từ đó đi qua DATA FIREWALL để đảm bảo chất lượng dữ liệu trước khi được tải vào NDS).
- Data Governance: Thực hiện chức năng quản trị dữ liệu bao gồm:
+ Control/Audit: giám sát, quản lý và vận hành tất cả các tương tác đọc ghi thông tin metadata vào Meta Data Repository.
+ Meta Data Repository bao gồm:
++ Data Lineage: quản lý dữ liệu mô tả về nguồn dữ liệu trong hệ thống. ++ Data Standardization: quy định các chuẩn dữ liệu như quy định độ dài, định dạng... nhằm đảm bảo tính nhất quán theo quy định.
++ Data Security: quản lý bảo mật dữ liệu, duy trì tính tồn vẹn dữ liệu và đảm bảo rằng dữ liệu không thể truy cập được bởi các bên trái phép và làm hỏng dữ liệu. Bảo mật dữ liệu bao gồm mã hóa dữ liệu, mã thơng báo và thực tiễn quản lý khóa bảo vệ dữ liệu trên tất cả các ứng dụng và nền tảng.
++ Meta Data (siêu dữ liệu): là dữ liệu mô tả về dữ liệu. ++ Data Catalog: quản lý các danh mục dữ liệu.
++ Data Quality: quản lý chất lượng dữ liệu để đảm bảo dữ liệu chất lượng cao, nâng cao tính chính xác, ngăn chặn dữ liệu lỗi và cung cấp các dịch vụ đáng tin cậy. Trong Data Quality có 2 thành phần nổi bật là: (1) Profile: thông tin bao gồm dữ liệu từ nguồn nào, số lượng bảng, số field của mỗi bảng và số lượng record của mỗi bảng để có thể giám sát và đảm bảo dữ liệu được trích xuất đầy đủ; (2) Rule: xây dựng dựa trên các tiêu chuẩn được định nghĩa tại Data Standardization như sai lệch, thiếu sót, trùng lắp dữ liệu.
- Anaylytics & Discovery Data: là hệ thống phân tích, khai phá dữ liệu
thơng qua cơng nghệ AI, Machine learning, Deep learning để đưa ra các báo cáo dự đoán, xu hướng, làm cơ sở đưa ra quyết định.
- Các ứng dụng khai thác dữ liệu từ Kho dữ liệu: OLAP (truy vấn, phân tích trực tuyến cơ sở dữ liệu hướng chủ đề (Data Mart) trên một tập dữ liệu lớn tuỳ theo các bài toán nghiệp vụ), API webservice, Dashboard, web reports,...