3. Cấu trúc của luận văn
4.3. Xử lý dữ liệu bằng kỹ thuật OLAP
4.3.1. Tạo cube
Chương 4 - Ứng dụng Business Intelligence
35
Trước tiên ta phải tạo kết nối tới cơ sở dữ liệu Mysql bằng cách trong menu Tools ta chọn Connection hiện ra cửa sổ, ta điền các thông số để kết nối tới Mysql:
Hình 20. Kết nối cơ sở dữ liệu
Ta tạo 1 schema mới và 1 cube với với các độ đo sum và avg đối với giá như trong hình:
Hình 21. Kiến trúc Cube
Sau khi đã tạo được cube, ta publish cube này lên hệ thống pentaho với thông tin đầy đủ về server và tài khoản user trong pentaho.
Chương 4 - Ứng dụng Business Intelligence
36
Hình 22. Repository Login
Ta lưu lại file cube và publish schema và cube lên hệ thống pentaho.
4.3.2. Analysis View
Pentaho cung cấp tiện ích áp dụng kỹ thuật OLAP đó là Analysis View. Ngoài ra chúng ta có thể áp dụng công cụ được pentaho phát triển riêng để sử dụng OLAP đó là Mondrian.
Trong bài này tôi xin trình bày cách áp dụng tiện ích Analysis View để ứng dụng kỹ thuật OLAP.
Trước tiên ta phải kết nối Pentaho đến cơ sở dữ liệu mà chúng ta cần phân tích trên hệ cơ sở dữ liệu Mysql. Để kết nối đến cơ sở dữ liệu này ta vào folder cài đặt Pentaho , vào folder administration-console và chạy file start-pac.bat để khởi động Administration Console. Sau đó ta vào trình duyệt và chạy link :
http://localhost:8099 sẽ hiện ra khung đăng nhập, tài khoản admin mặc định là user: “admin” / password: “password”.
Chương 4 - Ứng dụng Business Intelligence
37
Hình 23. Kết nối cơ sở dữ liệu
Sau khi đã nhập đầy đủ , ta ấn test để kiểm tra kết nôi, kết nối thành công ta chọn OK để lưu kết nối này. Như vậy ta đã kết nối thành công pentaho tới mysql.
Bước tiếp theo ta vào địa chỉ http://localhost:8080 để vào Pentaho User Console. Hiện ra khung đăng nhập, ta điền user và password vào, hoặc có thể sử dụng 1 vài account mẫu.
Sau khi login vào sẽ hiện ra màn hình như sau:
Hình 24. Khung làm việc Pentaho
Chương 4 - Ứng dụng Business Intelligence
38
Hình 25. Chọn schema và cube Sau khi ấn OK sẽ hiện ra cửa sổ như sau:
Hình 26. Dữ liệu schema và cube
Trên thanh Tools bar ta chọn để lựa chọn độ đo, columns, rows và filter cho việc lựa chọn hiển thị nội dung các phân tích.
Chương 4 - Ứng dụng Business Intelligence
39
Để phân tích mệnh giá nạp thẻ trung bình trong vòng 9 tháng đầu của năm 2011, trong phần Measures ta chọn avg price:
Hình 28. Chọn Measures Phần factor ta chọn exchange:
Hình 29. Chọn factor
Chương 4 - Ứng dụng Business Intelligence
40
Hình 30. Chọn loại biểu đồ
Sau khi đã chọn xong định dạng cho biểu đồ, ta chọn nút : để hiển thị biểu đồ mệnh giá nạp thẻ trong 9 tháng:
Hình 31. Biểu đồ mệnh giá nạp thẻ
Dựa vào biểu đồ ta có thể thấy mệnh giá nạp thẻ thay đổi nhiều nhất trong những 2 tháng gần đây (tháng 8 & 9) và đang có xu hướng tăng.
Chương 4 - Ứng dụng Business Intelligence
41
Hình 32. Biểu đồ ARPU
ARPU giảm mạnh trong những tháng gần đây, tuy nhiên đang có xu hướng tăng trở lại.
Biểu đồ mệnh giá nạp thẻ và ARPU:
Hình 33. Biểu đồ mệnh giá nạp thẻ và ARPU
Dựa vào biểu đồ ta nhận thấy rằng mệnh giá nạp thẻ và ARPU tuy có mối liên hệ nhất định (ngược chiều: mệnh giá nạp thẻ thấp thì ARPU cao hơn và ngược lại) tuy nhiên mối liên hệ này là chưa thực sự rõ ràng. Do đó khó có thể dự đoán xu hướng của ARPU dựa vào xu hướng của mệnh giá nạp thẻ.
42
KẾT LUẬN
Việc tổng hợp, phân tích thông tin từ những nguồn dữ liệu khác nhau luôn là vấn đề đáng quan tâm đối với các tổ chức có khối lượng dữ liệu lớn. Trong lĩnh vực kinh doanh, lượng dữ liệu về khách hàng, quá trình kinh doanh, biến động thị trường chứa đựng nhiều thông tin hữu ích cho các công ty. Nhiều giải pháp khai thác nguồn thông tin này đã được đưa ra. Trong đó, Business Intelligence là một giải pháp mới với nhiều bộ công cụ hỗ trợ.
Trong luận văn này, tôi đã trình bày một số kiến thức cơ bản về bộ công cụ Business Intelligence Pentaho và ứng dụng trong dữ liệu thực: tạo báo cáo và khai phá dữ liệu. Kết quả của các ứng dụng này có thể được liên kết để tạo thành hệ hỗ trợ quyết định trong kinh doanh.
Do thời gian có hạn nên khóa luận mới chỉ dừng ở mức mô tả chức năng của các công cụ trong bộ công cụ Business Intelligence. Nếu có điều kiện phát triển, cần nghiên cứu tổng hợp kết quả từ các công cụ, tiến tới làm thành một hệ hỗ trợ quyết định hoàn chỉnh.
Với ưu điểm là bộ công cụ mã nguồn mở nên Pentaho thích hợp để áp dụng cho những tổ chức vừa và nhỏ do tiết kiệm được chi phí. Vì thế tương lai gần, các hệ Business Intelligence có thể sẽ sớm được áp dụng rộng rãi tại Việt Nam.
43
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Business Intelligence là gì. http://bis.net.vn/forums/t/121.aspx
[2] Hà Quang Thụy (chủ biên). Giáo trình khai phá dữ liệu Web. Nxb Giáo dục Việt Nam. 2009.
[3] Kho dữ liệu và các ứng dụng. http://web.dongtak.net/spip.php?article11&lang=vi. [4] Nguyễn Thành Đạt, Nguyễn Ngọc Anh. Advances Topics in Database Systems. 2009. [5] Phạm Văn Quang, Đỗ Thị Luân. Tiểu luận Datamining vs OLAP. 2009.
[6] Wikipedia về kho dữ liệu.
http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u.
Tiếng Anh
[7] Deduction Engineering and Machine Learning – WEKA. The University of Waikato, 2003.
[8] Introducing the Pentaho BI Suite Community Edition.
[9] Julian Hyde, Lance Walter. OLAP for MySQL using Pentaho’s Mondrian. [10] Pentaho homepage. http://www.pentaho.com/
[11] Remko R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seeward, David Scuse. Weka Manual for Version 3.7.0. The University of Waikato, 2009.
[12] Seth Grimes. MySQL V5 – Ready for Prime Time Business Intelligence. Alta Plana Corporation.
[13] William H. Inmon. Building the Data Warehouse Fourth Edition. Wiley, 2005.
[14] Zdravko Markov, Ingrid Russell. An Introduction to the WEKA Data Mining System.