6. KIẾN TRÚC TRIỂN KHAI CÁC THÀNH PHẦN
6.4. KHO DỮ LIỆU VỀ QUAN TRẮC TN&MT
6.4.4. Phân tích hiện trạng và nhu cầu
Trên cơ sở định nghĩa và yêu cầu của kho dữ liệu về quan trắc TN&MT và đối chiếu với Báo cáo Khảo sát đánh giá hiện trạng, mơ hình dự kiến của kho dữ liệu về quan trắc TN&MT cần phải đáp ứng thỏa đáng các vấn đề cơ bản cần phải giải quyết sau đây.
a) Các yêu cầu cơ bản về điều hành và quy trình nhập dữ liệu theo một mơ thức chuẩn hóa các định nghĩa dữ liệu để lưu trữ và sử dụng.
b) Các yêu cầu cơ bản về tích hợp dữ liệu đến từ nhiều nguồn khác nhau vào một cơ sở lưu trữ tổng hợp để có thể chỉnh sửa, truy cập, và phân loại nhanh
chóng. Cơ sở tích hợp dữ liệu phải được vận hành thỏa đáng để tiếp nhận dữ liệu được thường xuyên cập nhật theo thời gian.
c) Các yêu cầu cơ bản về tổng hợp dữ liệu đến từ nhiều nguồn khác nhau thành những CSDL chuyên đề để theo đó, các u cầu về truy cập, phân tích, báo cáo sử dụng các dữ liệu đến từ nhiều nguồn khác nhau phải được đáp ứng nhanh chóng và chính xác.
d) Các u cầu cơ bản về phân tích dữ liệu và trình bầy/truy cập kết quả phân tích dữ liệu hiển thị qua các báo cáo, dashboard để người sử dụng có thể tiếp cận nhanh chóng qua đường truyền mạng Internet.
e) Các yêu cầu về nền tảng (platform) và hạ tầng để phục vụ các yêu cầu về lưu trữ dữ liệu, tích hợp dữ liệu, tổng hợp và phân tích dữ liệu, và các phương pháp hiển thị kết quả phân tích dữ liệu, báo cáo đến người sử dụng.
Như thế, các vấn đề cơ bản gộp lại gồm 3 lĩnh vực chính là:
1) Giải quyết vấn đề thu nhập dữ liệu trên cơ sở một nền tảng chung về định nghĩa dữ liệu và quy trình thu nhập dữ liệu;
2) Dữ liệu thu nhập cần được tổ chức theo các quy trình tích hợp, rồi tổng hợp trên một nền tảng CSDL cho phép việc lưu trữ, truy cập, sử dụng để phân tích và làm các báo cáo định kỳ, và các truy vấn đột xuất nhanh chóng, dễ dàng;
3) Muốn thế CSDL đó phải được triển khai trên một nền tảng cơng nghệ hiện đại cho phép lưu trữ các loại dữ liệu đa dạng, và các phương tiện tích hợp và truy cập nhanh chóng các kho dữ liệu lớn, đa chiều để phục vụ các nhóm người sử dụng khác nhau với các nhu cầu truy cập và tìm hiểu thơng tin khác nhau.
Hiện trạng và mục đích cần đạt được thể hiện tóm tắt trong hai hình vẽ sau đây.
Hình 30: Hiện trạng và mục đích cần đạt được
Hiện trạng là các dữ liệu thu nhập phân tán trên các CSDL khác nhau, sử dụng các công nghệ kỹ thuật quản lý dữ liệu khác nhau, khơng có 1 từ điển định nghĩa đồng nhất các loại dữ liệu, do đó khơng những việc thu nhập và tích hợp dữ liệu khơng thể thực hiện đồng bộ và hữu hiệu, mà việc tổng hợp để tạo nền tảng thông tin nhằm đáp ứng các nhu cầu làm báo cáo và phân tích thì chậm chạp, thủ
công, không đáp ứng được các yêu cầu ngày càng phức tạp đa dạng của người sử dụng, như đã thấy qua các khảo sát về CSDL khoa học công nghệ của Nhật Bản, Hàn Quốc, và các ứng dụng các CSDL đó có thể cung cấp.
Như thế, mục tiêu đạt tới phải đáp ứng nhu cầu như mơ tả trong hình vẽ sau đây.
Hình 31: Nhu cầu
6.4.5. Các mơ hình tham khảo
Dựa trên việc nghiên cứu và kinh nghiệm thực tế trong việc xây dựng CSDL đáp ứng các yêu cầu về hệ thống thông tin quản lý và Thông minh nghiệp vụ (Management Information System and Business Intelligence) cho ngân hàng và chính phủ điện tử, thì cơ bản có hai phương án tiếp cận chính là:
1) Thơng tin được tổng hợp tại trung ương và dữ liệu được lưu giữ tại địa phương; và
2) Dữ liệu được lưu trữ và tích hợp tại kho dữ liệu trung ương hoặc chiết xuất từ kho dữ liệu địa phương về kho dữ liệu trung ương; thông tin được tổng hợp tại trung ương.
Hai phương án tiếp cận sẽ được phân tích chi tiết ở các phần dưới đây.
6.4.5.1. Dữ liệu gốc lưu phân tán tại địa phương
Hình vẽ sau đây miêu tả phương án tiếp cận “Thơng tin được tổng hợp tại
Hình 32: Mơ hình thơng tin được lưu trữ tại địa phương
Ưu điểm:
- Linh hoạt, giảm thiểu công tác điều hành/vận hành tại trung ương. - Có thể triển khai nhanh chóng.
Điều kiện cần có:
- Hệ sinh thái đã ổn định: từ điển dữ liệu đặc tả (Metadata) dùng chung đã hoàn tất/cập nhật.
- Thiết kế dữ liệu được chia sẻ và đồng nhất.
- Quy trình giám quản cơ sở dữ liệu (data govermance) đã được tuân thủ trong toàn hệ sinh thái CSDL.
Chú thích:
- OLAP: Online Analytical Processing là phương pháp công nghệ để truy cập và giải đáp các truy vấn đa chiều về phân tích dữ liệu thường được sử dụng để phục vụ các yêu cầu nghiệp vụ của hệ thống thông tin quản lý và Thông minh nghiệp vụ (Management Information System and Business Intelligence – MIS and BI).
- Từ điển metadata (Metadata Dictionary) là tập hợp định nghĩa/hình thức/nội dung/cách sử dụng của tất cả các dữ liệu được thu thập, tổng hợp, và sử dụng trong hệ thống CSDL.
Phương án tiếp cận này trên nguyên tắc thường là phương án tối ưu trong trường hợp các CSDL thành phần phân tán tại nhiều nơi do điều kiện quy trình thu nhập dữ liệu và dung lượng dữ liệu. Phương án này cho phép các truy cập và phân tích dữ liệu được thực hiện ở CSDL trung ương thông qua các OLAP và các
CSDL chuyên đề (data mart) tổng hợp tại Kho dữ liệu trung ương, còn chi tiết nội dung dữ liệu được lưu giữ tại các CSDL thành phần, và chỉ được trích rút khi cần đến. Phương án này thường được sử dụng khi các CSDL của hệ thống đã hoạt động trong một hệ sinh thái ổn định, dựa trên một bộ từ điển dữ liệu đặc tả (metadata) hoàn chỉnh, và dữ liệu của các CSDL thành phần được thu nhập qua các quy trình bảo đảm độ chính xác về hình thức và nội dung như đã quy định trong bộ từ điển dữ liệu đặc tả của hệ thống. Hơn thế nữa, vì sự phân tán của các CSDL thành phần, phương án này cần phải có một quy trình giám quản (quản trị) dữ liệu (Data Governance) được quản lý và tuân thủ chặt chẽ.
Để đáp ứng các yêu cầu nghiệp vụ về truy cập, chia sẻ, làm báo cáo, phân tích dữ liệu thì phải có các mơ hình tin học đáp ứng các yêu cầu và chỉ tương tác, truy cập vào Kho dữ liệu trung ương để hồn thành các nghiệp vụ mà thơi.
6.4.5.2. Dữ liệu gốc được thu thập và lưu trữ tập trung
Hình vẽ sau đây miêu tả phương án tiếp cận “Dữ liệu được lưu trữ / tích
hợp tại Kho dữ liệu trung ương hoặc chiết xuất từ Kho dữ liệu đia phương về Kho dữ liệu trung ương; Thông tin được tổng hợp tại trung ương”, ưu điểm của phương
án này và các điều kiện cơ bản cần có để có thể triển khai được.
Hình 33: Mơ hình thơng tin được lưu trữ tại trung ương
Ưu điểm:
- Kinh điển làm Datawarehouse đã được sử dụng trong 20 năm qua.
- Tiến bộ về nền tảng công nghệ CSDL hướng về công nghệ mở (open source), dữ liệu không cấu trúc, bigdata để phục vụ loại mơ hình này.
- Đầu tư vào thiết kế dữ liệu và Từ điển dữ liệu đặc tả (Metadata dictionary) – Từ điển dữ liệu danh mục (Master data dictionary).
- Đầu tư vào ứng dụng điều hành và nhập dữ liệu.
Phương án tiếp cận này là phương án kinh điển xây dựng Kho dữ liệu (Data Warehouse) đã được sử dụng rộng rãi trong 20 năm qua, đặc biệt cho các loại dữ liệu được cập nhật thường xuyên theo thứ tự thời gian và lưu giữ ở một Kho dữ liệu trung ương. Khởi đầu, phương án này đã được nhiều công nghệ quản lý và khai thác dữ liệu nguồn đóng triển khai nhiều nền tảng lưu trữ/vận hành và khai thác thơng tin thơng dụng và tốn phí về phần cứng và giấy phép sử dụng phần mềm (software license) thường rất đắt; nhưng với tiến bộ về công nghệ phục vụ CSDL hướng về công nghệ mở (open-source) và dữ liệu lớn (big data) từ 5-7 năm trở lại đây, thì các giới hạn về cơng nghệ đã thay đổi rất nhiều, tạo nên các cơ hội cho phép linh hoạt xây dựng các kho dữ liệu đáp ứng các yêu cầu nghiệp vụ hữu hiệu với giá tiền đầu tư giảm thiểu nhiều.
Điều kiện cần có là phải đầu tư vào việc thiết kế, xây dựng và quản lý chặt chẽ từ điển dữ liệu đặc tả cho toàn hệ thống; kèm theo đầu tư vào việc thiết kế/xây dựng quy trình và ứng dụng nhập dữ liệu nhằm bảo đảm độ chính xác về hình thức và nội dung như đã quy định trong bộ từ điển dữ liệu đặc tả của hệ thống. Đây cũng là khởi điểm hợp lý để xây dựng và thực thi quy trình giám quản dữ liệu (data governance) cho toàn hệ thống.
Phương án này thường gồm 3 thành phần chính như sau:
- Định nghĩa dữ liệu gồm hình thức (tên gọi, cấu trúc, tính chất), nội dung, cách sử dụng; tất cả các thông tin này được lưu giữ và quản lý trong từ điển dữ liệu đặc tả của toàn hệ thống. Trên cơ sở từ điển dữ liệu đặc tả này, các quy trình nghiệp vụ và mơ hình tin học được thiết kế để thu nhận và tích hợp dữ liệu hoặc chiết xuất dữ liệu từ các kho dữ liệu độc lập khác vào 1 kho dữ liệu tích hợp. Dữ liệu trong kho tích hợp có thể tiếp tục được chỉnh sửa thay đổi cho hoàn hảo.
- Từ kho dữ liệu tích hợp, theo 1 quy trình có thời khố biểu định sẵn, dữ liệu được tổng hợp vào 1 kho dữ liệu tổng hợp, thường được sắp xếp theo thứ tự thời gian. Một khi đã đưa vào kho dữ liệu tổng hợp, dữ liệu được bảo vệ nguyên bản, không được thay đổi nữa.
- Theo nội dung các yêu cầu nghiệp vụ về truy cập, làm báo cáo, phân tích dữ liệu, các kho dữ liệu chuyên đề (Data marts) và các OLAP cần có sẽ được xây dựng để đáp ứng nhu cầu. Các mơ hình tin học để truy cập và sử dụng dữ liệu chỉ tương tác và truy cập vào kho dữ liệu tổng hợp để hoàn thành các nghiệp vụ báo cáo, phân tích mà thơi.
6.4.6. Định hướng thiết kế Mơ hình kiến trúc kho dữ liệu
Chiếu theo yêu cầu của kho dữ liệu về quan trắc TN&MT, thì các u cầu chính gồm:
- Các CSDL thành phần: dữ liệu quan trắc thuộc phạm vi quản lý các các lĩnh vực trực thuộc Bộ & theo Quyết định số 90/QĐ-TTg bao gồm:
+ Dữ liệu quan trắc khí tượng thủy văn, Dữ liệu quan trắc tài nguyên nước, Dữ liệu quan trắc môi trường, Dữ liệu quan trắc TN&MT biển, dữ liệu quan trắc định vị vệ tinh và địa động lực, dữ liệu quan trắc viễn thám, dữ liệu quan trắc tại các mỏ khoáng sản độc hại, dữ liệu từ các phịng thí nghiệm phục vụ cơng tác quan trắc TN&MT.
+ Dữ liệu quan trắc thuộc các bộ/ngành khác.
+ Dữ liệu quan trắc thuộc quản lý của các địa phương.
- Thu thập và tích hợp dữ liệu: Cơ sở hạ tầng kỹ thuật và phần mềm kho dữ liệu dùng chung với các CSDL thành phần, bảo đảm kết nối và chia sẻ dữ liệu thống nhất. Thu thập, xử lý và cập nhật thông tin vào các CSDL thành phần. Tích hợp và tổng hợp thông tin từ các CSDL thành phần. Quản lý quyền truy cập, cập nhật thông tin; theo dõi giám sát tình hình sử dụng; bảo đảm an tồn an ninh.
- Phục vụ đầu ra sử dụng dữ liệu: Các tổ chức đóng góp dữ liệu nguồn được quyền khai thác dữ liệu của mình và các dữ liệu được chia sẻ theo phân cấp. Mọi tổ chức, cá nhân có quyền tiếp cận và sử dụng các thơng tin công khai thuộc lĩnh vực quan trắc TN&MT. Các cơ quan quản lý nhà nước, tổ chức chính trị – xã hội, được quyền yêu cầu cung cấp thông tin về quan trắc TN&MT có liên quan để phục vụ công tác quản lý nhà nước, đáp ứng yêu cầu phát triển kinh tế – xã hội, bảo đảm quốc phòng, an ninh, và hội nhập quốc tế.
Như thế, rõ ràng các yêu cầu cơ bản này địi hỏi có 1 CSDL gốc được xây dựng, quản lý và vận hành tại trung ương; các thơng tin được tích hợp và tổng hợp tại trung ương; và kho dữ liệu phải cho phép người sử dụng thuộc nhiều thành phần khác nhau được phép khai thác dữ liệu dưới nhiều góc độ yêu cầu nghiệp vụ khác nhau, từ truy cập và trích rút dữ liệu, cho đến phân tích thơng tin tổng hợp theo đa chiều để phục vụ từ công tác quàn lý nhà nước cho đến các yêu cầu phát triển kinh tế – xã hội.
Các yêu cầu này địi hỏi phải có:
Thứ nhất: Một hệ sinh thái ổn định cho kho dữ liệu, đặt trên một nền tảng chung về phần mềm gồm quy trình thu nhập dữ liệu, lưu trữ dữ liệu, tổng hợp thơng tin từ dữ liệu, trích xuất dữ liệu.
Thứ hai: Một bộ từ điển dữ liệu đặc tả làm chuẩn mực áp dụng cho toàn hệ thống CSDL.
Thứ ba: Hệ thống kho dữ liệu phải được xây dựng trên một nền tảng công nghiệp về quản lý dữ liệu đồng nhất, tiên tiến, có khả năng lưu trữ các loại dữ liệu khác nhau (cấu trúc và không cấu trúc), và các dữ liệu lớn khơng có cấu trúc (big data).
Hình 34: Hướng thiết kế mơ hình kiến trúc kho dữ liệu
Mơ hình đề xuất này gồm 4 thành phần chính là: 1) Kho dữ liệu tham chiếu (metadata);
2) Hệ thống chiết xuất dữ liệu;
3) Hệ thống tích hợp và tổng hợp dữ liệu vào Kho dữ liệu; 4) Hệ thống sử dụng và phân tích dữ liệu trong Kho dữ liệu.
Tổng quan mơ hình đề xuất này sẽ được xây dựng và vận hành như sau: - Việc đầu tiên và cơ bản là xây dựng Từ điển dữ liệu đặc tả (Kho dữ liệu tham chiếu), xuất phát từ các dữ liệu đang được sử dụng trong các CSDL thành phần. Việc xây dựng Kho dữ liệu đặc tả này sẽ cịn tiếp tục song song với cơng việc xây dựng hệ thống tích hợp dữ liệu và chiết xuất dữ liệu cho đến khi hoàn tất.
- Xây dựng hệ thống chiết xuất dữ liệu gồm:
+ Các API sử dụng để chiết xuất dữ liệu CSDL thành phần; bảo đảm dữ liệu nhập vào tuân thủ đúng theo quy định của Kho dữ liệu đặc tả.
+ Dữ liệu từ các ứng dụng CSDL sẽ được trích xuất và tải vào kho dữ liệu. Lưu ý, mơ hình dữ liệu của kho dữ liệu sẽ giống hệt như mơ hình dữ liệu của các CSDL thành phần.
+ Lựa chọn công cụ ETL (Extract/Transform/Load) tương xứng để chuyển nhập dữ liệu vào Kho dữ liệu; quy định quy trình và lịch vận hành cơng đoạn thực
hiện ETL để nhập dữ liệu vào Kho dữ liệu, bảo đảm dữ liệu nhập vào tuân thủ đúng theo quy định của Kho dữ liệu đặc tả.
- Qua quy trình ETL, dữ liệu được nhập vào khu vực tích hợp dữ liệu của Kho dữ liệu. Tại đây, chỉ có người quản lý CSDL mới có quyền (authorization) xem xét và chỉnh sửa lại dữ liệu, bảo đảm lần cuối chất lượng của dữ liệu trước khi đưa vào khu vực tổng hợp dữ liệu.
- Công đoạn chuyển tải dữ liệu vào khu vực tổng hợp dữ liệu là công đoạn cuối cùng trong việc nhập dữ liệu vào Kho. Trong khu vực tổng hợp, dữ liệu chỉ được truy cập chứ không thể thay đổi chỉnh sửa, bảo đảm tính tồn vẹn và trung thực.
- Từ thiết kế CSDL trong Kho dữ liệu, các CSDL chuyên đề (Data marts) và các OLAP cần có để đáp ứng các yêu cầu nghiệp vụ về làm báo cáo, dashboard,