Hình 3.4 mô tả Kiến trúc lưu trữ và khai thác thông tin được thể hiện bằng sơđồ logic sau:
Hình 3.4: Kiến trúc lưu trữ và khai thác dữ liệu
Với mô hình này, Kho dữ liệu trung tâm sẽ là đầu mối thông tin, nơi tập trung đội ngũ kỹ thuật có trình độ để đảm nhận việc nghiên cứu, đề xuất các giải pháp, công cụ kỹ thuật, IT, chuẩn dữ liệu đảm bảo hoạt động của cả mạng lưới được thông suốt, hiệu quả. Kho dữ liệu trung tâm sẽ thực sự là bộ não giúp đưa ra các chỉ thịđiều phối hoạt động cho toàn hệ thống.
Từ những trạm, các chương trình quan trắc khác nhau, dữ liệu được chuyển vào vùng Staging (tạm gọi là vùng chuẩn bị dữ liệu). Vùng dữ liệu này sẽ tập hợp các dữ liệu gốc thu được từ các trạm trước khi vào kho dữ liệu. Để chuyển vào Kho dữ liệu, dữ liệu lại được chuyển qua lớp ETL nhằm đảm bảo tính đúng đắn và toàn vẹn khi được đưa vào Kho dữ liệu thực sự. Tại đây, dữ liệu được lưu theo 3 lớp dữ liệu là lớp dữ liệu gốc, dữ liệu hoà hợp và lớp dữ liệu dân xuất. Hệ thống sẽ sử dụng mô hình OLAP để mô hình hoá dữ liệu
thành các khối đa chiều giúp cho quá trình phân tích dữ liệu nhờ quá trình tổng hợp và phân rã dữ liệu một cách logic và khoa học, hỗ trợ đắc lực cho quá trình ra quyết định và dự báo được dễ dàng và nhanh chóng hơn.
Thông tin trong kho dữ liệu được thể hiện dưới dạng đa chiều (trong khi các CSDL thông thương chỉ thể hiện được dữ liệu 2 chiều) chẳng hạn dữ liệu về quan trắc không khí sẽ thể hiện với 2 chiều là quan sát theo chiều thời gian, chiều vùng quan trắc sẽ cho ta cái nhìn tổng quan về quan trắc không khí tại tác thời điểm khác nhau và ở những vùng khác nhau. Mô hình dữ liệu của kho dữ liệu là mô hình 3 lớp bao gồm:
Lớp dữ liệu nguyên thủy hay lớp dữ liệu thô: là dữ liệu quan trắc thu được từ các trạm và các chương trình quan trắc khác nhau. Lớp dữ liệu này chỉ phục vụ cho các thao tác đọc/ghi dữ liệu.
Lớp hòa hợp: là lớp dữ liệu tổng hợp về mặt logic từ các các dữ liệu quan trắc trong lớp nguyên thủy. Trong bước này, thực hiện nhóm các bảng có thông tin liên quan với nhau, sẵn sàng thông tin cho các câu truy vấn của lớp dẫn xuất. Lớp hoà hợp lưu trữ kết quả của các tính toán đơn giản như tính tổng, tính trung bình… của các kết quả quan trắc.
Lớp dữ liệu dẫn xuất: lớp dữ liệu phục vụ cho các ứng dụng thông tin. Dữ liệu này chính là các dữ liệu phục vụ tính toán chỉ số chất lượng không khí (AQI), chỉ số chất lượng nước (WQI) và dữ liệu liên quan khác phục vụ cho công tác giám sát chất lượng môi trường tại các trạm.