Mơ hình kiến trúc kho dữ liệu

Một phần của tài liệu KIẾN TRÚC TỔNG THỂ HỆ THỐNG THÔNG TIN QUAN TRẮC TÀI NGUYÊN VÀ MÔI TRƯỜNG QUỐC GIA Phiên bản 1.0 (Trang 152 - 160)

6. KIẾN TRÚC TRIỂN KHAI CÁC THÀNH PHẦN

6.4. KHO DỮ LIỆU VỀ QUAN TRẮC TN&MT

6.4.7. Mơ hình kiến trúc kho dữ liệu

Hình dưới đây mơ tả mơ hình kiến trúc kho dữ liệu theo mơ hình dữ liệu được tập trung tại trung ương (Dựa trên phân tích các mơ hình tham khảo và định

hướng thiết kế mơ hình kiến trúc ở trên):

Hình 35: Mơ hình kho dữ liệu

6.4.7.1. Lớp Nguồn dữ liệu

Lớp dữ liệu nguồn nhằm cung cấp dữ liệu hệ thống nguồn được xác định rõ ràng và được ghi lại ở mức độ chi tiết phù hợp và từ các nguồn dữ liệu được xác định. Đây là thành phần quan trọng nhất trong kiến trúc dữ liệu - dữ liệu nguồn phải nhất qn, tồn vẹn và sẵn có

Hình 36: Lớp nguồn dữ liệu

6.4.7.2. Lớp Thu thập / nhận dữ liệu

Lớp Thu thập và nhận dữ liệu nhằm chấp nhận đầu ra từ các hệ thống nguồn khác nhau với logic nghiệp vụ. Nhận dữ liệu là quá trình lấy và nhận dữ liệu để sử dụng hoặc lưu trữ ngay lập tức trong kho dữ liệu. Khi nhận dữ liệu được tự động, phần mềm được sử dụng để thực hiện quy trình cũng có thể bao gồm các tính năng như làm sạch, làm giàu và sắp xếp dữ liệu.

6.4.7.3. Lớp Kho dữ liệu với công nghệ Hồ dữ liệu

Kho dữ liệu nhằm hỗ trợ hầu hết các dữ liệu có cấu trúc và các câu hỏi đã biết để mang lại sự đồng thuận cho việc điều hành. Cơng nghệ kho dữ liệu chỉ có thể chứa dữ liệu có cấu trúc.

Cơng nghệ Hồ dữ liệu (data lake) cung cấp nền tảng tích hợp để xử lý và lưu trữ dữ liệu, với quyền truy cập dữ liệu gần thời gian thực cho các phân tích và ứng dụng. Giải pháp kho dữ liệu nên sử dụng công nghệ Hồ dữ liệu (data lake) để chứa được dữ liệu bán cấu trúc và phi cấu trúc.

Hình 38: Lớp kho dữ liệu

Kho dữ liệu:

- Tất cả dữ liệu có cấu trúc được lưu trữ trong kho dữ liệu

- Từ điển dữ liệu của các kho dữ liệu chuyên ngành phải được phân tích phát hiện chồng chéo và sau đó hài hịa. Khi có sự chồng chéo thì cần phải ra quyết định nguồn dữ liệu nào được dùng.

Vùng staging:

- Dữ liệu đến từ các CSDL thành phần sẽ được trích xuất vào vùng staging này trước khi được chuyển đến kho dữ liệu, bao gồm: dữ liệu viễn thám, môi trường, …

- Từ điển dữ liệu của các kho dữ liệu chuyên ngành phải được phân tích phát hiện chồng chéo và sau đó hài hịa. Khi có sự chồng chéo thì cần phải ra quyết định nguồn dữ liệu nào được dùng.

Giải pháp dữ liệu lớn:

- Dữ liệu đến từ các nguồn khơng có cấu trúc bên ngồi và từ các CSDL thành phần sẽ được lưu trữ trong công cụ sử dụng công nghệ dữ liệu lớn.

6.4.7.4. Lớp Data Marts

Dữ liệu hồn tồn minh bạch và có thể đo lường, dữ liệu được làm sạch và làm giàu cho mục đích báo cáo và phân tích. Data marts là một tập hợp con của cả kho dữ liệu ở trên.

Hình 39: Lớp data marts

6.4.7.5. Lớp Phân tích và Báo cáo thơng minh

Lớp phân tích của kho dữ liệu bao gồm các cơng cụ phần mềm cần thiết để phân tích tất cả các dữ liệu lưu trữ trong kho. Bảng dưới đây sẽ cung cấp một danh sách cùng với mơ tả ngắn gọn về các cơng cụ phân tích dữ liệu phổ biến; danh sách này sẽ được mở rộng trong tương lai khi các công cụ mới được phát triển. Lớp này của kho dữ liệu bao gồm phân tích dữ liệu, dịch vụ tự báo cáo và trí tuệ nhân tạo (AI), cùng với các công cụ khác.

BI Định nghĩa và ví dụ Phân tích và AI Định nghĩa và ví dụ Nền tảng BI Xây dựng BI từ OLAP, báo cáo và các chỉ số, áp dụng cho một CSDL

Mơ tả Nhìn vào q khứ để trả

lời “chuyện gì đã xảy ra”

Báo cáo

phân tích

Ví dụ: báo cáo về công tác thanh tra Bộ, phân tích tỷ lệ phần trăm tiến trình từng hạng mục

Dự đoán Dự báo sử dụng mơ hình

hóa, khai thác dữ liệu và học máy

Trực quan hóa dữ liệu

Trực quan biểu thị dữ liệu trong biểu đồ và đồ thị Mơ phỏng Phân tích nhằm mục đích cung cấp đề xuất tốt nhất có thể cho hành động Báo cáo tự phục vụ

Cung cấp khả năng cho người dùng cuối tự lập báo cáo riêng của họ từ trung tâm dữ liệu, tương

Phân tích chuẩn đốn, khai thác dữ liệu

Giúp xác định nguyên nhân điều gì đó xảy ra, sử dụng khai thác dữ liệu và

tự công cụ Pivot trong excel

và tương quan

phân tích tương quan với dữ liệu trong quá khứ Phân tích

trên thiết bị di động

Cung cấp khả năng thực hiện phân tích trên thiết bị di động

AI học máy AI học hỏi cách cải thiện

phân tích của AI bằng cách điều chỉnh

Cơng cụ

tính tốn

Các thuật tốn được phát triển để tạo ra các phép tính được sử dụng phổ biến nhất từ dữ liệu

Bảng 15: Lớp phân tích và báo cáo thông minh

Danh sách các cơng cụ phân tích phổ biến:

TT Cơng cụ phân tích Mơ tả

1 Diễn đàn BI Phân tích thơng minh về nghiệp vụ áp dụng cho

tồn bộ data marts trong kho dữ liệu.

2 Báo cáo Phân tích Báo cáo phân tích dữ liệu hơn là đơn thuần mơ tả

nó.

3 Trực quan hóa dữ liệu Trình bày dữ liệu một cách trực quan hóa bằng

bảng và biểu đồ.

4 Dịch vụ tự báo cáo

Khả năng cho phép người dùng cuối tạo ra báo cáo của riêng họ từ data mart, giống như bảng pivot trong Excel.

5 Phân tích Di động Khả năng thực hiện phân tích trên thiết bị di

động.

6 Động cơ Tính tốn Thuật tốn được phát triển để tạo ra tính tốn dữ

liệu thường được sử dụng nhất.

7 Phân tích Mơ tả Nhìn vào dữ liệu quá khứ để trả lời câu hỏi

“Chuyện gì đã xảy ra”.

8 Phân tích Dự đốn Dự đốn bằng các mơ hình, khai thác dữ liệu, và

machine learning.

9 Phân tích Chẩn đốn Phân tích nhằm cung cấp đề xuất hành động tốt

nhất. 10

Phân tích chẩn đốn, khai thác dữ liệu và mối tương

Giúp quyết định tại sao điều gì đó xảy ra, bằng việc khai thác dữ liệu và phân tích mối tương quan với dữ liệu quá khứ.

11 AI Machine Learning AI mà “học” để cải thiện phân tích qua điều chỉnh.

Bảng 16: Bảng danh sách các cơng cụ phân tích phổ biến

6.4.7.6. Lớp Quản trị dữ liệu

Quản trị dữ liệu bao gồm duy trì quy định về chất lượng dữ liệu, từ điển dữ liệu, thuật ngữ chuyên ngành với các quy trình quản trị và quản lý dữ liệu.

Cấu phần Định nghĩa Phân tích và AI

Mơ hình hoạt động

Mục đích Các mục tiêu được xác định, phù hợp với các

mục tiêu của Hệ thống, có thể được sử dụng để đo lường KPI. Đây là những nỗ lực quy mô lớn để sửa đổi, cải tiến các quy trình vận hành và các quy trình đó sẽ vừa sử dụng vừa cung cấp dữ liệu đầu vào cho các quy trình khác. Việc xây dựng chính sách và các hướng dẫn chính sách thực hành quản trị dữ liệu là điều bắt buộc.

Người ra quyết định

Các bên liên quan của Bộ nên tham gia vào các quyết định về dữ liệu và cách thức quản lý chung. Các quyết định cần phản ánh nhu cầu của cả đơn vị vận hành.

Quyền quyết

định Phương pháp tiếp cận RACI: R = Phụ trách

A = Chịu trách nhiệm (đảm bảo công việc được thực thi, phê duyệt)

C = Cung cấp đầu vào I = Được thông báo

Con người Các bên liên

quan

Các bên liên quan là thành viên của nhóm vận hành và CNTT có kết nối trực tiếp với kho dữ liệu. Họ cung cấp phản hồi cho hội đồng quản trị dữ liệu và nhận được cập nhật thường xuyên về tiến trình quản trị dữ liệu

Quy trình Đo lường Đo lường cho phép Bộ duy trì kiểm sốt các

quy trình quản trị dữ liệu. Đo lường cũng cho thấy hiệu quả của hệ thống cho cả người dùng và quản trị

Truyền thống Công tác truyền thông, truyền thông một cách

đầy đủ, ngắn gọn ở tất cả các cấp trong Bộ

Tiêu chuẩn Nguyên tắc

hướng dẫn

1) Dữ liệu sẽ được quản lý như một tài sản chung để tối đa hóa giá trị

2) Chính sách và quyết định quản trị dữ liệu sẽ được truyền thơng rõ ràng

3) Chương trình quản trị dữ liệu sẽ được dựa trên quy mô của đơn vị vận hành

Bảng 17: Lớp quản trị dữ liệu

6.4.7.7. Lớp Quản lý phân cấp dữ liệu chủ và dữ liệu tham chiếu

Kho lưu trữ trung tâm để duy trì dữ liệu tham chiếu và phân cấp cho báo cáo và phân tích. Lớp Quản lý phân cấp dữ liệu chủ và dữ liệu tham chiếu bao gồm các quy trình, con người, mơ hình hoạt động và tiêu chuẩn.

Cấu phần Định nghĩa và triển khai

Cơng cụ phân tích hệ thống nguồn

Cịn được gọi là cơng cụ định hình dữ liệu, được dùng để phân tích dữ liệu hiện tại và các nguồn dữ liệu mới tiềm năng để xác định nội dung của nó, giúp Bộ hiểu được những gì cần cung cấp và vấn đề chất lượng.

Công cụ kiểm chứng chất lượng dữ liệu

1) Chất lượng dữ liệu bao gồm các tiêu chuẩn và quy trình về chất lượng dữ liệu và cách thức giám sát, làm sạch và làm giàu.

2) Cần xác định rõ các quy tắc chất lượng dữ liệu đối với tất cả dữ liệu trong tất cả các CSDL của Bộ.

Cơng cụ định hình dữ liệu đặc tả

Quản lý dữ liệu đặc tả bao gồm duy trì thơng tin về tất cả dữ liệu như: mô tả, lịch sử, cách sử dụng, mối quan hệ, và quyền sở hữu. Có ba loại dữ liệu đặc tả riêng biệt: 1) Vận hành: định nghĩa chức năng của các yếu tố và thực thể dữ liệu và các mối quan hệ của chúng.

2) Kỹ thuật: việc triển khai vật lý các định nghĩa về dữ liệu của Bộ trong các hệ thống CSDL và các quy tắc được áp dụng trong việc chuyển dữ liệu từ hệ thống này sang hệ thống khác.

3) Qui trình: bản ghi về việc tạo và di chuyển dữ liệu trong kiến trúc dữ liệu Bộ.

Công cụ đánh giá chất lượng dữ liệu đặc tả

1) Chất lượng dữ liệu bao gồm các tiêu chuẩn và quy trình về chất lượng dữ liệu, với cách thức theo dõi, làm sạch và làm giàu.

2) Tất cả các CSDL phải xác định và áp dụng dữ liệu đặc tả là bước đầu tiên trong quy trình quản trị.

3) Các công cụ đánh giá chất lượng dữ liệu sẽ liên tục theo dõi việc thực hiện dữ liệu đặc tả của Bộ.

6.4.7.8. Lớp Phân phối dữ liệu

Quản lý các dịch vụ và phân phối dữ liệu trên các kênh hiển thị các công cụ báo cáo và phân tích, cũng như các dữ liệu được lựa chọn để sử dụng bởi các cơ quan bên ngồi, cấp tỉnh, cơng dân và doanh nghiệp. Lớp này bao gồm quản lý người dùng và truy cập, cùng với việc phổ biến dữ liệu và dịch vụ.

Cấu phần Định nghĩa và triển khai

Phân phối

Chính phủ điện tử/Chính phủ số

Chính phủ Việt Nam đang triển khai Chính phủ điện tử/Chính phủ số cho tất cả các Bộ và các tổ chức trong chính phủ. Cơ sở hạ tầng hiện tại này sẽ được sử dụng để phổ biến dữ liệu và dịch vụ CSDL của Bộ cho người dùng Cổng công bố thông tin

quan trắc TN&MT

Hiện tại Bộ đang vận hành một số trang web. Tuy nhiên, HTTT quan trắc TN&MT này sẽ được triển khai để phổ biến tất cả dữ liệu và dịch vụ liên quan đến quan trắc TN&MT.

Các kênh khác Dữ liệu trong kho dữ liệu có thể được phổ biến bằng các

dịch vụ web, microservice, API, và các kệnh có sẵn khác.

Nhận diện tài khoản và quản lý truy cập

Nhận diện tài khoản Các nhóm người dùng:

1) Nhóm lãnh đạo và người dùng từ các Bộ/ngành khác. 2) Nhóm người dùng nội bộ của Bộ

3) Nhóm người dùng doanh nghiệp và công dân. Hồ sơ người dùng trong mỗi nhóm sẽ được quản lý.

Quản lý truy cập Dựa trên hồ sơ nhận dạng của người dùng, quyền truy

cập vào dữ liệu, và dịch vụ sẽ được quản lý thông qua sự kết hợp giữa cơ sở hạ tầng hiện có và các phân hệ truy cập trong các thành phần kho dữ liệu.

Một phần của tài liệu KIẾN TRÚC TỔNG THỂ HỆ THỐNG THÔNG TIN QUAN TRẮC TÀI NGUYÊN VÀ MÔI TRƯỜNG QUỐC GIA Phiên bản 1.0 (Trang 152 - 160)

Tải bản đầy đủ (PDF)

(166 trang)