6. KIẾN TRÚC TRIỂN KHAI CÁC THÀNH PHẦN
6.4. KHO DỮ LIỆU VỀ QUAN TRẮC TN&MT
6.4.7. Mơ hình kiến trúc kho dữ liệu
Hình dưới đây mơ tả mơ hình kiến trúc kho dữ liệu theo mơ hình dữ liệu được tập trung tại trung ương (Dựa trên phân tích các mơ hình tham khảo và định
hướng thiết kế mơ hình kiến trúc ở trên):
Hình 35: Mơ hình kho dữ liệu
6.4.7.1. Lớp Nguồn dữ liệu
Lớp dữ liệu nguồn nhằm cung cấp dữ liệu hệ thống nguồn được xác định rõ ràng và được ghi lại ở mức độ chi tiết phù hợp và từ các nguồn dữ liệu được xác định. Đây là thành phần quan trọng nhất trong kiến trúc dữ liệu - dữ liệu nguồn phải nhất qn, tồn vẹn và sẵn có
Hình 36: Lớp nguồn dữ liệu
6.4.7.2. Lớp Thu thập / nhận dữ liệu
Lớp Thu thập và nhận dữ liệu nhằm chấp nhận đầu ra từ các hệ thống nguồn khác nhau với logic nghiệp vụ. Nhận dữ liệu là quá trình lấy và nhận dữ liệu để sử dụng hoặc lưu trữ ngay lập tức trong kho dữ liệu. Khi nhận dữ liệu được tự động, phần mềm được sử dụng để thực hiện quy trình cũng có thể bao gồm các tính năng như làm sạch, làm giàu và sắp xếp dữ liệu.
6.4.7.3. Lớp Kho dữ liệu với công nghệ Hồ dữ liệu
Kho dữ liệu nhằm hỗ trợ hầu hết các dữ liệu có cấu trúc và các câu hỏi đã biết để mang lại sự đồng thuận cho việc điều hành. Cơng nghệ kho dữ liệu chỉ có thể chứa dữ liệu có cấu trúc.
Cơng nghệ Hồ dữ liệu (data lake) cung cấp nền tảng tích hợp để xử lý và lưu trữ dữ liệu, với quyền truy cập dữ liệu gần thời gian thực cho các phân tích và ứng dụng. Giải pháp kho dữ liệu nên sử dụng công nghệ Hồ dữ liệu (data lake) để chứa được dữ liệu bán cấu trúc và phi cấu trúc.
Hình 38: Lớp kho dữ liệu
Kho dữ liệu:
- Tất cả dữ liệu có cấu trúc được lưu trữ trong kho dữ liệu
- Từ điển dữ liệu của các kho dữ liệu chuyên ngành phải được phân tích phát hiện chồng chéo và sau đó hài hịa. Khi có sự chồng chéo thì cần phải ra quyết định nguồn dữ liệu nào được dùng.
Vùng staging:
- Dữ liệu đến từ các CSDL thành phần sẽ được trích xuất vào vùng staging này trước khi được chuyển đến kho dữ liệu, bao gồm: dữ liệu viễn thám, môi trường, …
- Từ điển dữ liệu của các kho dữ liệu chuyên ngành phải được phân tích phát hiện chồng chéo và sau đó hài hịa. Khi có sự chồng chéo thì cần phải ra quyết định nguồn dữ liệu nào được dùng.
Giải pháp dữ liệu lớn:
- Dữ liệu đến từ các nguồn khơng có cấu trúc bên ngồi và từ các CSDL thành phần sẽ được lưu trữ trong công cụ sử dụng công nghệ dữ liệu lớn.
6.4.7.4. Lớp Data Marts
Dữ liệu hồn tồn minh bạch và có thể đo lường, dữ liệu được làm sạch và làm giàu cho mục đích báo cáo và phân tích. Data marts là một tập hợp con của cả kho dữ liệu ở trên.
Hình 39: Lớp data marts
6.4.7.5. Lớp Phân tích và Báo cáo thơng minh
Lớp phân tích của kho dữ liệu bao gồm các cơng cụ phần mềm cần thiết để phân tích tất cả các dữ liệu lưu trữ trong kho. Bảng dưới đây sẽ cung cấp một danh sách cùng với mơ tả ngắn gọn về các cơng cụ phân tích dữ liệu phổ biến; danh sách này sẽ được mở rộng trong tương lai khi các công cụ mới được phát triển. Lớp này của kho dữ liệu bao gồm phân tích dữ liệu, dịch vụ tự báo cáo và trí tuệ nhân tạo (AI), cùng với các công cụ khác.
BI Định nghĩa và ví dụ Phân tích và AI Định nghĩa và ví dụ Nền tảng BI Xây dựng BI từ OLAP, báo cáo và các chỉ số, áp dụng cho một CSDL
Mơ tả Nhìn vào q khứ để trả
lời “chuyện gì đã xảy ra”
Báo cáo
phân tích
Ví dụ: báo cáo về công tác thanh tra Bộ, phân tích tỷ lệ phần trăm tiến trình từng hạng mục
Dự đoán Dự báo sử dụng mơ hình
hóa, khai thác dữ liệu và học máy
Trực quan hóa dữ liệu
Trực quan biểu thị dữ liệu trong biểu đồ và đồ thị Mơ phỏng Phân tích nhằm mục đích cung cấp đề xuất tốt nhất có thể cho hành động Báo cáo tự phục vụ
Cung cấp khả năng cho người dùng cuối tự lập báo cáo riêng của họ từ trung tâm dữ liệu, tương
Phân tích chuẩn đốn, khai thác dữ liệu
Giúp xác định nguyên nhân điều gì đó xảy ra, sử dụng khai thác dữ liệu và
tự công cụ Pivot trong excel
và tương quan
phân tích tương quan với dữ liệu trong quá khứ Phân tích
trên thiết bị di động
Cung cấp khả năng thực hiện phân tích trên thiết bị di động
AI học máy AI học hỏi cách cải thiện
phân tích của AI bằng cách điều chỉnh
Cơng cụ
tính tốn
Các thuật tốn được phát triển để tạo ra các phép tính được sử dụng phổ biến nhất từ dữ liệu
Bảng 15: Lớp phân tích và báo cáo thông minh
Danh sách các cơng cụ phân tích phổ biến:
TT Cơng cụ phân tích Mơ tả
1 Diễn đàn BI Phân tích thơng minh về nghiệp vụ áp dụng cho
tồn bộ data marts trong kho dữ liệu.
2 Báo cáo Phân tích Báo cáo phân tích dữ liệu hơn là đơn thuần mơ tả
nó.
3 Trực quan hóa dữ liệu Trình bày dữ liệu một cách trực quan hóa bằng
bảng và biểu đồ.
4 Dịch vụ tự báo cáo
Khả năng cho phép người dùng cuối tạo ra báo cáo của riêng họ từ data mart, giống như bảng pivot trong Excel.
5 Phân tích Di động Khả năng thực hiện phân tích trên thiết bị di
động.
6 Động cơ Tính tốn Thuật tốn được phát triển để tạo ra tính tốn dữ
liệu thường được sử dụng nhất.
7 Phân tích Mơ tả Nhìn vào dữ liệu quá khứ để trả lời câu hỏi
“Chuyện gì đã xảy ra”.
8 Phân tích Dự đốn Dự đốn bằng các mơ hình, khai thác dữ liệu, và
machine learning.
9 Phân tích Chẩn đốn Phân tích nhằm cung cấp đề xuất hành động tốt
nhất. 10
Phân tích chẩn đốn, khai thác dữ liệu và mối tương
Giúp quyết định tại sao điều gì đó xảy ra, bằng việc khai thác dữ liệu và phân tích mối tương quan với dữ liệu quá khứ.
11 AI Machine Learning AI mà “học” để cải thiện phân tích qua điều chỉnh.
Bảng 16: Bảng danh sách các cơng cụ phân tích phổ biến
6.4.7.6. Lớp Quản trị dữ liệu
Quản trị dữ liệu bao gồm duy trì quy định về chất lượng dữ liệu, từ điển dữ liệu, thuật ngữ chuyên ngành với các quy trình quản trị và quản lý dữ liệu.
Cấu phần Định nghĩa Phân tích và AI
Mơ hình hoạt động
Mục đích Các mục tiêu được xác định, phù hợp với các
mục tiêu của Hệ thống, có thể được sử dụng để đo lường KPI. Đây là những nỗ lực quy mô lớn để sửa đổi, cải tiến các quy trình vận hành và các quy trình đó sẽ vừa sử dụng vừa cung cấp dữ liệu đầu vào cho các quy trình khác. Việc xây dựng chính sách và các hướng dẫn chính sách thực hành quản trị dữ liệu là điều bắt buộc.
Người ra quyết định
Các bên liên quan của Bộ nên tham gia vào các quyết định về dữ liệu và cách thức quản lý chung. Các quyết định cần phản ánh nhu cầu của cả đơn vị vận hành.
Quyền quyết
định Phương pháp tiếp cận RACI: R = Phụ trách
A = Chịu trách nhiệm (đảm bảo công việc được thực thi, phê duyệt)
C = Cung cấp đầu vào I = Được thông báo
Con người Các bên liên
quan
Các bên liên quan là thành viên của nhóm vận hành và CNTT có kết nối trực tiếp với kho dữ liệu. Họ cung cấp phản hồi cho hội đồng quản trị dữ liệu và nhận được cập nhật thường xuyên về tiến trình quản trị dữ liệu
Quy trình Đo lường Đo lường cho phép Bộ duy trì kiểm sốt các
quy trình quản trị dữ liệu. Đo lường cũng cho thấy hiệu quả của hệ thống cho cả người dùng và quản trị
Truyền thống Công tác truyền thông, truyền thông một cách
đầy đủ, ngắn gọn ở tất cả các cấp trong Bộ
Tiêu chuẩn Nguyên tắc
hướng dẫn
1) Dữ liệu sẽ được quản lý như một tài sản chung để tối đa hóa giá trị
2) Chính sách và quyết định quản trị dữ liệu sẽ được truyền thơng rõ ràng
3) Chương trình quản trị dữ liệu sẽ được dựa trên quy mô của đơn vị vận hành
Bảng 17: Lớp quản trị dữ liệu
6.4.7.7. Lớp Quản lý phân cấp dữ liệu chủ và dữ liệu tham chiếu
Kho lưu trữ trung tâm để duy trì dữ liệu tham chiếu và phân cấp cho báo cáo và phân tích. Lớp Quản lý phân cấp dữ liệu chủ và dữ liệu tham chiếu bao gồm các quy trình, con người, mơ hình hoạt động và tiêu chuẩn.
Cấu phần Định nghĩa và triển khai
Cơng cụ phân tích hệ thống nguồn
Cịn được gọi là cơng cụ định hình dữ liệu, được dùng để phân tích dữ liệu hiện tại và các nguồn dữ liệu mới tiềm năng để xác định nội dung của nó, giúp Bộ hiểu được những gì cần cung cấp và vấn đề chất lượng.
Công cụ kiểm chứng chất lượng dữ liệu
1) Chất lượng dữ liệu bao gồm các tiêu chuẩn và quy trình về chất lượng dữ liệu và cách thức giám sát, làm sạch và làm giàu.
2) Cần xác định rõ các quy tắc chất lượng dữ liệu đối với tất cả dữ liệu trong tất cả các CSDL của Bộ.
Cơng cụ định hình dữ liệu đặc tả
Quản lý dữ liệu đặc tả bao gồm duy trì thơng tin về tất cả dữ liệu như: mô tả, lịch sử, cách sử dụng, mối quan hệ, và quyền sở hữu. Có ba loại dữ liệu đặc tả riêng biệt: 1) Vận hành: định nghĩa chức năng của các yếu tố và thực thể dữ liệu và các mối quan hệ của chúng.
2) Kỹ thuật: việc triển khai vật lý các định nghĩa về dữ liệu của Bộ trong các hệ thống CSDL và các quy tắc được áp dụng trong việc chuyển dữ liệu từ hệ thống này sang hệ thống khác.
3) Qui trình: bản ghi về việc tạo và di chuyển dữ liệu trong kiến trúc dữ liệu Bộ.
Công cụ đánh giá chất lượng dữ liệu đặc tả
1) Chất lượng dữ liệu bao gồm các tiêu chuẩn và quy trình về chất lượng dữ liệu, với cách thức theo dõi, làm sạch và làm giàu.
2) Tất cả các CSDL phải xác định và áp dụng dữ liệu đặc tả là bước đầu tiên trong quy trình quản trị.
3) Các công cụ đánh giá chất lượng dữ liệu sẽ liên tục theo dõi việc thực hiện dữ liệu đặc tả của Bộ.
6.4.7.8. Lớp Phân phối dữ liệu
Quản lý các dịch vụ và phân phối dữ liệu trên các kênh hiển thị các công cụ báo cáo và phân tích, cũng như các dữ liệu được lựa chọn để sử dụng bởi các cơ quan bên ngồi, cấp tỉnh, cơng dân và doanh nghiệp. Lớp này bao gồm quản lý người dùng và truy cập, cùng với việc phổ biến dữ liệu và dịch vụ.
Cấu phần Định nghĩa và triển khai
Phân phối
Chính phủ điện tử/Chính phủ số
Chính phủ Việt Nam đang triển khai Chính phủ điện tử/Chính phủ số cho tất cả các Bộ và các tổ chức trong chính phủ. Cơ sở hạ tầng hiện tại này sẽ được sử dụng để phổ biến dữ liệu và dịch vụ CSDL của Bộ cho người dùng Cổng công bố thông tin
quan trắc TN&MT
Hiện tại Bộ đang vận hành một số trang web. Tuy nhiên, HTTT quan trắc TN&MT này sẽ được triển khai để phổ biến tất cả dữ liệu và dịch vụ liên quan đến quan trắc TN&MT.
Các kênh khác Dữ liệu trong kho dữ liệu có thể được phổ biến bằng các
dịch vụ web, microservice, API, và các kệnh có sẵn khác.
Nhận diện tài khoản và quản lý truy cập
Nhận diện tài khoản Các nhóm người dùng:
1) Nhóm lãnh đạo và người dùng từ các Bộ/ngành khác. 2) Nhóm người dùng nội bộ của Bộ
3) Nhóm người dùng doanh nghiệp và công dân. Hồ sơ người dùng trong mỗi nhóm sẽ được quản lý.
Quản lý truy cập Dựa trên hồ sơ nhận dạng của người dùng, quyền truy
cập vào dữ liệu, và dịch vụ sẽ được quản lý thông qua sự kết hợp giữa cơ sở hạ tầng hiện có và các phân hệ truy cập trong các thành phần kho dữ liệu.