Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE
4.2. Tạo data warehouse
Áp dụng công cụ data intergation trong bộ công cụ của pentaho đó là Spoon, ta tạo kho dữ liệu như sau:
Kho dữ liệu có 3 bảng: 2 bảng chiều và 1 bảng chính, 2 bảng chiều đó là : bảng dim_time : đưa ra các dữ liệu về ngày, tháng, quý, năm. Bảng dim_factor: đưa ra các nhân
Chương 4 - Ứng dụng Business Intelligence
tố dùng để xử lý. Một bảng chính đó là bảng fact_price chứa thông tin giá của từng nhân tố tại từng thời điểm.
Cấu trúc bảng và sơ đồ quan hệ được mô tả trong hình sau:
Hình 9. Mô hình kho dữ liệu Mở công cụ Spoon, ta chọn File -> New -> Transformation.
Dữ liệu đầu vào là file excel lưu dưới dạng .csv chứa toàn bộ dữ liệu đã được chuẩn hóa do đó trong ô Step ta chọn phần input là CSV file input kéo và thả biểu tượng này vào trong vùng thao tác ta được:
Chương 4 - Ứng dụng Business Intelligence
Hình 10. Spoon workspace
Click đúp vào đối tượng này ta thay đổi các thuộc tính của nó như step name, file name (đường dẫn đến file dữ liệu .csv), delimiter (ký tự ngăn cách giữa các trường trong file .csv), sau đó ta ấn Get Fields và sửa đổi tên các trường cho phù hợp:
Chương 4 - Ứng dụng Business Intelligence
Để làm bước tiếp theo, ta phải tạo một cơ sở dữ liệu trống trong Mysql. Ta dùng Mysql Query Browser để tạo cơ sở dữ liệu mới thông qua truy vấn “CREATE DATABASE data_price”. Với data_price là tên data warehouse cần tạo.
Trở lại Spoon trong phần step ta chọn trong tab Data Warehouse kéo thả Combination lookup / update vào khung làm việc. Sau đó kéo di chuột trái+ shift từ bước input CSV sang bước Combination lookup/update.
Hình 12. Combination Lookup/Update
Chương 4 - Ứng dụng Business Intelligence
Hình 13. Thay đổi thuộc tính Phần connection ta chọn new nếu chưa có kết nối nào:
Hình 14. Kết nối cơ sở dữ liệu
Ta chọn Mysql trong phần Connection Type, điền thông tin cơ sở dữ liệu, connection name, chọn test, nếu kết nối thành công ta chọn OK.
Chương 4 - Ứng dụng Business Intelligence
Quay trở lại cửa sổ Combination lookup/update ta điền các thông số , ở đây trong bước này ta sẽ tạo bảng dim_time
Hình 15. Tạo bảng Dim_time
Ấn nút Get Fields để load các trường trong file excel , ta loại bỏ nhưng trường không xuất hiện trong bảng dim_time, đặt trường khóa cho bảng dim_time, tick vào ô Remove lookup fields? Để các trường này không xuất hiện trong các bảng sau.
Ấn nút SQL để xem các câu lệnh sql tạo bảng sau đó ấn nút Execute để tạo bảng Dim_time(time_id,timekey,month,quarter,year).
Tương tự ta cũng kéo thêm 1 step Combination lookup/update nữa và nối tiếp với bước tạo bảng dim_time trên:
Chương 4 - Ứng dụng Business Intelligence
Hình 16. Tạo bảng dim_factor
Trong bảng này chỉ có 2 trường là factor_key tự động sinh ra và là khóa chính và trường factor chứa tên của các nhân tố ảnh hưởng.
Bước tiếp theo ta tạo bảng fact_price, đây là bảng output vì nó bao hàm 2 bảng trên. Do đó trong phần step ta kéo thả Table output.
Hình 17. Tạo Table Output
Chương 4 - Ứng dụng Business Intelligence
Hình 18. Tạo bảng fact_price Ấn SQL để xem câu lệnh sql và ấn nút Execute để tạo bảng.
Ta lưu transformation này vào và ấn nút và chọn Launch để nhập dữ liệu vào trong cơ sở dữ liệu đã được tạo.
Hình 19. Nhập dữ liệu
Như vậy ta đã tạo thành công data warehouse all_price bằng công cụ Spoon.