Việc thiết kế và tổ chức một DWH là rất quan trọng vì nó ảnh hưởng đến việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này đòi hỏi những người thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của DWH cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng DWH phải dựa trên những yêu cầu và đặc thù của bài toán nghiệp vụ và tận dụng những cở sở sẵn có. Từ yêu cầu của việc khai thác các báo cáo như mô tả ở trên, chúng tôi chọn xây dựng một DWH BCTK, không có các DM. Sở dĩ có quyết định này vì các đơn vị khai thác báo cáo độc lập nhau (có những mẫu biểu báo cáo khác nhau và nhu cầu về các thông tin cũng khác nhau) nhưng có thể dùng chung các chỉ tiêu. Ví dụ, Vụ Chính sách tiền tệ quan tâm đến các chỉ tiêu về dư nợ, Vụ Thanh tra cũng quan tâm đến các chỉ tiêu này nhưng ở phạm vi khác nhau và kết hợp trong các mẫu biểu khác nhau. Do vậy, nếu chúng ta chia các DM theo các lĩnh vực của các nhóm chỉ tiêu thì việc tổ chức khai thác báo cáo sẽ rất khó khăn. Một đơn vị có thể sẽ lấy số liệu từ nhiều các DM.
Để phù hợp với thực tế, chúng tôi xây dựng một DWH với nhiều bảng Fact và các bảng Dimension. Trong đó mỗi bảng Fact sẽ tương ứng với một nhóm chỉ tiêu, các Dimension đại diện cho các chiều. Tuy nhiên, vì có một số phân nhóm đặc biệt có giá trị không phải là kiểu số nên ngoài các Fact, các Dimension cần phải tổ chức thêm các Table.
Báo cáo thống kê Báo cáo tài
chính File Vùng dữ liệu tạm (Staging area) DWH BCTK Lập báo cáo Khai phá dữ liệu Phân tích
Dữ liệu nguồn Dữ liệu đích
Hình 3.2 Kiến trúc DWH BCTK
Kiến trúc DWH đầy đủ gồm các lớp sau:
− Data Source: các tệp và CSDL BCTK.
− Vùng dữ liệu tạm (Staging area): lưu dữ liệu tạm thời chưa kiểm tra tính hợp lệ trước khi đưa vào DWH. Gồm các bảng tạm như T_ATOMIC, T_NUMBER_DATA, T_TEXT_DATA, T_SOURCE phục vụ cho quá trình làm sạch dữ liệu.
− DWH: chứa toàn bộ dữ liệu BCTK bao gồm Dimension, Fact, Atomic
table, các bảng tham chiếu.
− Các công cụ trích lọc, chuyển đổi và nạp dữ liệu: sử dụng công cụ của BO
− Sử dụng các công cụ để truy cập DWH như WebI, Crytal, User Application, tools, Application server...
− Hệ quản trị kho dữ liệu: Oracle
Ở đây, chúng ta sử dụng lược đồ hình sao mà không sử dụng lược đồ bông tuyết, vì thế cần sử dụng các Hierarchy Dimension. Bảng Fact sẽ được nối với nhiều Dimension và các measure đều là số và dùng chung Time dimension cho tất cả các fact. Việc nghiên cứu phân chia các bảng Fact được căn cứ vào các mã số thống kê liên quan của các chỉ tiêu và số giá trị của các chỉ tiêu. Việc phân chia này có được ưu điểm là:
− Giảm kích thước của các bảng fact
− Câu lệnh Query từ các bảng Fact sẽ đơn giản và nhanh hơn. − Dễ dàng áp dụng giải pháp báo cáo của Bussiness Object (BO)
Nhưng bên cạnh đó viêc áp dụng cách phân chia này còn tồn tại những nhược điểm:
− Số lượng facts nhiều
− Có những báo cáo phải lấy từ nhiều fact
− Khi phát sinh thêm chỉ tiêu mà có số chiều chưa có thì phải thêm bảng Fact
− Công việc tích hợp dữ liệu sẽ phức tạp và mất nhiều thời gian