Tạo data warehouse

Một phần của tài liệu nghiên cứu và ứng dụng các phương pháp học máy nhằm tăng cường hiệu quả các dịch vụ giá trị gia tăng của mạng di dộng beeline (Trang 35)

3. Cấu trúc của luận văn

4.2. Tạo data warehouse

Áp dụng công cụ data intergation trong bộ công cụ của pentaho đó là Spoon, ta tạo kho dữ liệu như sau:

Kho dữ liệu có 3 bảng: 2 bảng chiều và 1 bảng chính, 2 bảng chiều đó là : bảng dim_time : đưa ra các dữ liệu về ngày, tháng, quý, năm. Bảng dim_factor: đưa ra các nhân

Chương 4 - Ứng dụng Business Intelligence

28

tố dùng để xử lý. Một bảng chính đó là bảng fact_price chứa thông tin giá của từng nhân tố tại từng thời điểm.

Cấu trúc bảng và sơ đồ quan hệ được mô tả trong hình sau:

Hình 9. Mô hình kho dữ liệu Mở công cụ Spoon, ta chọn File -> New -> Transformation.

Dữ liệu đầu vào là file excel lưu dưới dạng .csv chứa toàn bộ dữ liệu đã được chuẩn hóa do đó trong ô Step ta chọn phần input là CSV file input kéo và thả biểu tượng này vào trong vùng thao tác ta được:

Chương 4 - Ứng dụng Business Intelligence

29

Hình 10. Spoon workspace

Click đúp vào đối tượng này ta thay đổi các thuộc tính của nó như step name, file name (đường dẫn đến file dữ liệu .csv), delimiter (ký tự ngăn cách giữa các trường trong file .csv), sau đó ta ấn Get Fields và sửa đổi tên các trường cho phù hợp:

Chương 4 - Ứng dụng Business Intelligence

30

Để làm bước tiếp theo, ta phải tạo một cơ sở dữ liệu trống trong Mysql. Ta dùng Mysql Query Browser để tạo cơ sở dữ liệu mới thông qua truy vấn “CREATE DATABASE data_price”. Với data_price là tên data warehouse cần tạo.

Trở lại Spoon trong phần step ta chọn trong tab Data Warehouse kéo thả Combination lookup / update vào khung làm việc. Sau đó kéo di chuột trái+ shift từ bước input CSV sang bước Combination lookup/update.

Hình 12. Combination Lookup/Update

Chương 4 - Ứng dụng Business Intelligence

31

Hình 13. Thay đổi thuộc tính Phần connection ta chọn new nếu chưa có kết nối nào:

Hình 14. Kết nối cơ sở dữ liệu

Ta chọn Mysql trong phần Connection Type, điền thông tin cơ sở dữ liệu, connection name, chọn test, nếu kết nối thành công ta chọn OK.

Chương 4 - Ứng dụng Business Intelligence

32

Quay trở lại cửa sổ Combination lookup/update ta điền các thông số , ở đây trong bước này ta sẽ tạo bảng dim_time

Hình 15. Tạo bảng Dim_time

Ấn nút Get Fields để load các trường trong file excel , ta loại bỏ nhưng trường không xuất hiện trong bảng dim_time, đặt trường khóa cho bảng dim_time, tick vào ô Remove lookup fields? Để các trường này không xuất hiện trong các bảng sau.

Ấn nút SQL để xem các câu lệnh sql tạo bảng sau đó ấn nút Execute để tạo bảng Dim_time(time_id,timekey,month,quarter,year).

Tương tự ta cũng kéo thêm 1 step Combination lookup/update nữa và nối tiếp với bước tạo bảng dim_time trên:

Chương 4 - Ứng dụng Business Intelligence

33

Hình 16. Tạo bảng dim_factor

Trong bảng này chỉ có 2 trường là factor_key tự động sinh ra và là khóa chính và trường factor chứa tên của các nhân tố ảnh hưởng.

Bước tiếp theo ta tạo bảng fact_price, đây là bảng output vì nó bao hàm 2 bảng trên. Do đó trong phần step ta kéo thả Table output.

Hình 17. Tạo Table Output

Chương 4 - Ứng dụng Business Intelligence

34

Hình 18. Tạo bảng fact_price Ấn SQL để xem câu lệnh sql và ấn nút Execute để tạo bảng.

Ta lưu transformation này vào và ấn nút và chọn Launch để nhập dữ liệu vào trong cơ sở dữ liệu đã được tạo.

Hình 19. Nhập dữ liệu

Như vậy ta đã tạo thành công data warehouse all_price bằng công cụ Spoon.

Một phần của tài liệu nghiên cứu và ứng dụng các phương pháp học máy nhằm tăng cường hiệu quả các dịch vụ giá trị gia tăng của mạng di dộng beeline (Trang 35)

Tải bản đầy đủ (PDF)

(51 trang)