Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
2,43 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT LONG NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY NHẰM TĂNG CƯỜNG HIỆU QUẢ CÁC DỊCH VỤ GIÁ TRỊ GIA TĂNG CỦA MẠNG DI ĐỘNG BEELINE LUẬN VĂN THẠC SỸ Ngành: Công nghệ thông tin HÀ NỘI - 2011 MỞ ĐẦU Đặt vấn đề Sau quãng thời gian phát triển nóng, số thuê bao dịch vụ viễn thông di động không ngừng tăng với tốc độ chóng mặt, thị trường viễn thơng Việt Nam tiệm cận ngưỡng bão hịa Điều khiến cho chiến chiếm thị phần ngày khốc liệt, biến viễn thông thành thị trường có mức độ cạnh tranh cao Việt Nam Các mạng viễn thông không ngừng tăng cường vùng phủ sóng, nâng cao chất lượng mạng liên tục đưa gói cước hấp dẫn chương trình khuyến lớn, song hành với chiến dịch tiếp thị quảng cáo rầm rộ Với việc giá cước gọi ngày giảm sâu, đặc biệt với mạng viễn thông thâm nhập thị trường Việt Nam Beeline, dịch vụ giá trị gia tăng (Value Added Serivces – VAS) ngày đóng vai trị quan trọng việc thúc đẩy doanh thu cho mạng viễn thông Ngày nay, việc lưu trữ, xử lý liệu để tổng hợp thông tin, hỗ trợ định trở nên phổ biến nhiều tổ chức sản xuất, kinh doanh Có nhiều phương pháp để đáp ứng yêu cầu này, Business Intelligence (BI - Giải pháp quản trị doanh nghiệp thông minh) giải pháp tiêu biểu, nhiều tổ chức lựa chọn Mục tiêu nghiên cứu Nghiên cứu luận văn hướng tới mục tiêu sau: - Tìm hiểu kho liệu, hệ thống xử lý phân tích trực tuyến cơng cụ Business Intelligence - Ứng dụng tăng cường hiệu hoạt động kinh doanh dịch vụ giá trị gia tăng mạng di động Beeline Cấu trúc luận văn Luận văn chia thành phần với nội dung sau: Chƣơng I trình bày kho liệu hệ quản trị sở liệu mã nguồn mở MySQL Chƣơng II giới thiệu phương pháp khai phá liệu, sau trình bày chi tiết hai phương pháp khai phá liệu phổ biến Cây định Phát luật kết hợp Chƣơng III giới thiệu công cụ Business Intelligence, khái niệm kỹ thuật Chƣơng IV ứng dụng Business Intelligence vào tăng cường hiệu dịch vụ giá trị gia tăng Beeline Phần kết luận tổng kết kết đạt luận văn hướng nghiên cứu Danh sách hình Hình – Cấu trúc hệ thống kho liệu Hình – Dịng liệu kho liệu Hình - Ứng dụng kho liệu Business Intelligence Hình – Ví dụ định Hình – Thành phần hệ Business Intelligence 12 Hình – Cấu trúc Pentaho Business Intelligence 19 Hình – Dữ liệu mệnh giá nạp thẻ trung bình 26 Hình – Dữ liệu ARPU dịch vụ giá trị gia tăng 27 Hình – Mơ hình kho liệu 28 Hình 10 – Spoon workspace 29 Hình 11 – Spoon nhập liệu 29 Hình 12 – Combination Lookup/Update 30 Hình 13 – Thay đổi thuộc tính 31 Hình 14 – Kết nối sở liệu 31 Hình 15 – Tạo bảng Dim_time 32 Hình 16 – Tạo bảng dim_factor 33 Hình 17 – Tạo Table Output 33 Hình 18 – Tạo bảng fact_price 34 Hình 19 – Nhập liệu 34 Hình 20 – Kết nối sở liệu 35 Hình 21 – Kiến trúc Cube 35 Hình 22 – Repository Login 36 Hình 23 – Kết nối sở liệu 37 Hình 24 –Khung làm việc Pentaho 37 Hình 25 – Chọn schema cube 38 Hình 26 – Dữ liệu schema cube 38 Hình 27 – Nội dung phân tích 39 Hình 28 – Chọn Measures 39 Hình 29 – Chọn factor 39 Hình 30 – Chọn loại biểu đồ 40 Hình 31 – Biểu đồ mệnh giá nạp thẻ 40 Hình 32 – Biểu đồ ARPU 41 Hình 33 – Biểu đồ mệnh giá nạp thẻ ARPU 41 Bảng từ khóa OLAP Online Analysis Processing MOLAP Multidimensional Online Analysis Processing ROLAP Relational Online Analysis Processing HOLAP Hybird Online Analysis Processing BI Business Intelligence ARPU Average Revenue Per User Mục lục MỞ ĐẦU Đặt vấn đề Mục tiêu nghiên cứu Cấu trúc luận văn Chƣơng 1: KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL 1.1 Kho liệu 1.1.1 Khái niệm kho liệu 1.1.2 Các đặc tính kho liệu 1.1.3 Cấu trúc hệ thống kho liệu 1.1.4 Dòng liệu kho liệu 1.1.5 Ứng dụng kho liệu 1.2 Hệ quản trị sở liệu MySQL 1.2.1 Giới thiệu MySQL 1.2.2 Ưu điểm nhược điểm MySQL Chƣơng : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 2.1 Khái niệm khai phá liệu 2.2 Các thành phần giải thuật khai phá liệu 2.3 Cây định 2.4 Phát luật kết hợp 11 Chƣơng : BỘ CÔNG CỤ BUSINESS INTELLIGENCE 13 3.1 Business Intelligence 13 3.1.1 Khái niệm Business Intelligence 13 3.1.2 Các thành phần hệ Business Intelligence 13 3.1.3 Lợi ích Business Intelligence doanh nghiệp 14 3.1.4 Các công cụ Business Intelligence 15 3.1.5 Kết hợp Business Intelligence MySQL 16 3.2 Kỹ thuật OLAP 17 3.2.1 Khái niệm OLAP 17 3.2.2 Các thành phần hệ thống OLAP 18 3.3 Pentaho – Business Intelligence Server 19 3.3.1 Tổng quan Pentaho 19 3.3.2 Khả lợi ích Pentaho 20 3.4 Mondrian – OLAP Server 23 3.4.1 Mondrian 23 3.4.2 Schema Workbench 23 3.5 Weka – Khai phá liệu 24 Chƣơng : ỨNG DỤNG BUSINESS INTELLIGENCE 25 4.1 Tạo báo cáo sử dụng công cụ BI 25 4.1.1 Giới thiệu toán 25 4.1.2 Thu thập,xử lý liệu 25 4.2 Tạo data warehouse 27 4.3 Xử lý liệu kỹ thuật OLAP 34 4.3.1 Tạo cube 34 4.3.2 Analysis View 36 KẾT LUẬN 42 Chương – Kho liệu hệ quản trị sở liệu MySQL Chƣơng 1: KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL 1.1 Kho liệu 1.1.1 Khái niệm kho liệu Data warehouse - kho liệu tập hợp thơng tin máy vi tính mà chúng có tính định đến việc thực thành công bước đầu công việc kinh doanh Theo William Inmon [12], kho liệu liệu có đặc tính: hướng chủ đề, có tính tích hợp, ổn định, liệu gắn với thời gian, thường sử dụng hệ thống hỗ trợ định Một kho liệu, gọi cách xác kho thông tin (information warehouse), sở liệu hướng đối tượng thiết kế với việc tiếp cận ý kiến lĩnh vực kinh doanh Nó cung cấp cơng cụ để đáp ứng thông tin cần thiết cho nhà quản trị kinh doanh cấp độ tổ chức - yêu cầu liệu phức hợp, mà điều kiện thuận tiện để đạt việc lấy thơng tin nhanh, xác Một kho liệu thiết kế để người sử dụng nhận thơng tin mà họ muốn có truy cập đến công cụ đơn giản Một kho liệu pha trộn nhiều công nghệ, bao gồm sở liệu đa chiều mối quan hệ chúng, kiến trúc chủ khách, giao diện người dùng đồ họa nhiều Dữ liệu kho liệu không giống liệu hệ điều hành loại đọc không chỉnh sửa Hệ điều hành tạo ra, chỉnh sửa xóa liệu sản xuất mà liệu cung cấp cho kho liệu Nguyên nhân cho phát triển kho liệu hoạt động tích hợp liệu từ nhiền nguồn khác vào kho liệu đơn lẻ dày đặc mà kho cung cấp cho việc phân tích định cơng việc kinh doanh Kho liệu thường bao gồm: Chương – Kho liệu hệ quản trị sở liệu MySQL - Một nhiều công cụ để chiết xuất liệu từ dạng cấu trúc liệu khác - Cơ sở liệu tích hợp hướng chủ đề, ổn định tổng hợp thông qua việc lập bảng liệu Một kho liệu coi hệ thống thơng tin với thuộc tính sau: • Là sở liệu thiết kế dành cho nhiệm vụ phân tích, sử dụng liệu từ ứng dụng khác • Hỗ trợ cho số người dùng có liên quan, có sử dụng tới thơng tin liên quan • Nội dung cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thơng tin • Chứa liệu lịch sử nhằm cung cấp xu hướng thơng tin • Chứa bảng liệu có kích thước lớn • Một câu hỏi thường trả tập kết liên quan đến toàn bảng liên kết nhiều bảng 1.1.2 Các đặc tính kho liệu Hƣớng chủ đề : Kho liệu chứa lượng liệu lên tới hàng trăm Gigabyte, tổ chức theo chủ đề Kho liệu khơng trọng vào giao tác việc xử lý giao tác Thay vào đó, kho liệu tập trung vào việc mơ hình hóa, phân tích liệu nhằm hỗ trợ cho nhà quản lý định Do đó, kho liệu thường cung cấp khung nhìn tương đối đơn giản cách loại bớt liệu khơng cần thiết q trình định Tính tích hợp : Kho liệu thường xây dựng cách tổng hợp liệu từ nhiều nguồn khác nhau, ví dụ sở liệu, ghi giao tác trực tuyến chí từ file liệu độc lập Những liệu tiếp tục làm sạch, chuẩn hóa để đảm bảo quán, sau đưa vào kho liệu Ổn định : Dữ liệu kho liệu thường lưu trữ lâu dài, bị sửa đổi, chủ yếu dùng cho việc truy xuất thơng tin nên có độ ổn định cao Hai thao tác chủ yếu tác động tới kho liệu : nhập liệu vào truy xuất Chương - Ứng dụng Business Intelligence Hình 10 Spoon workspace Click đúp vào đối tượng ta thay đổi thuộc tính step name, file name (đường dẫn đến file liệu csv), delimiter (ký tự ngăn cách trường file csv), sau ta ấn Get Fields sửa đổi tên trường cho phù hợp: Hình 11 Spoon nhập liệu 29 Chương - Ứng dụng Business Intelligence Để làm bước tiếp theo, ta phải tạo sở liệu trống Mysql Ta dùng Mysql Query Browser để tạo sở liệu thông qua truy vấn “CREATE DATABASE data_price” Với data_price tên data warehouse cần tạo Trở lại Spoon phần step ta chọn tab Data Warehouse kéo thả Combination lookup / update vào khung làm việc Sau kéo di chuột trái+ shift từ bước input CSV sang bước Combination lookup/update Hình 12 Combination Lookup/Update Click đúp vào bước Combination lookup/update để thay đổi thuộc tính 30 Chương - Ứng dụng Business Intelligence Hình 13 Thay đổi thuộc tính Phần connection ta chọn new chưa có kết nối nào: Hình 14 Kết nối sở liệu Ta chọn Mysql phần Connection Type, điền thông tin sở liệu, connection name, chọn test, kết nối thành công ta chọn OK 31 Chương - Ứng dụng Business Intelligence Quay trở lại cửa sổ Combination lookup/update ta điền thông số , bước ta tạo bảng dim_time Hình 15 Tạo bảng Dim_time Ấn nút Get Fields để load trường file excel , ta loại bỏ trường khơng xuất bảng dim_time, đặt trường khóa cho bảng dim_time, tick vào ô Remove lookup fields? Để trường không xuất bảng sau Ấn nút SQL để xem câu lệnh sql tạo bảng sau ấn nút Execute để tạo bảng Dim_time(time_id,timekey,month,quarter,year) Tương tự ta kéo thêm step bước tạo bảng dim_time trên: Combination lookup/update nối tiếp với 32 Chương - Ứng dụng Business Intelligence Hình 16 Tạo bảng dim_factor Trong bảng có trường factor_key tự động sinh khóa trường factor chứa tên nhân tố ảnh hưởng Bước ta tạo bảng fact_price, bảng output bao hàm bảng Do phần step ta kéo thả Table output Hình 17 Tạo Table Output Click đúp vào Table output ta thay đổi thông số cho phù hợp: 33 Chương - Ứng dụng Business Intelligence Hình 18 Tạo bảng fact_price Ấn SQL để xem câu lệnh sql ấn nút Execute để tạo bảng Ta lưu transformation vào ấn nút chọn Launch để nhập liệu vào sở liệu tạo Hình 19 Nhập liệu Như ta tạo thành công data warehouse all_price công cụ Spoon 4.3 Xử lý liệu kỹ thuật OLAP 4.3.1 Tạo cube Để tạo cube ta dùng công cụ Schema Workbench công cụ Pentaho 34 Chương - Ứng dụng Business Intelligence Trước tiên ta phải tạo kết nối tới sở liệu Mysql cách menu Tools ta chọn Connection cửa sổ, ta điền thông số để kết nối tới Mysql: Hình 20 Kết nối sở liệu Ta tạo schema cube với với độ đo sum avg hình: Hình 21 Kiến trúc Cube Sau tạo cube, ta publish cube lên hệ thống pentaho với thông tin đầy đủ server tài khoản user pentaho 35 Chương - Ứng dụng Business Intelligence Hình 22 Repository Login Ta lưu lại file cube publish schema cube lên hệ thống pentaho 4.3.2 Analysis View Pentaho cung cấp tiện ích áp dụng kỹ thuật OLAP Analysis View Ngồi áp dụng cơng cụ pentaho phát triển riêng để sử dụng OLAP Mondrian Trong tơi xin trình bày cách áp dụng tiện ích Analysis View để ứng dụng kỹ thuật OLAP Trước tiên ta phải kết nối Pentaho đến sở liệu mà cần phân tích hệ sở liệu Mysql Để kết nối đến sở liệu ta vào folder cài đặt Pentaho , vào folder administration-console chạy file start-pac.bat để khởi động Administration Console Sau ta vào trình duyệt chạy link : http://localhost:8099 khung đăng nhập, tài khoản admin mặc định user: “admin” / password: “password” Để tạo kết nối tới mysql data warehouse tạo ta vào tab Database Connection 36 Chương - Ứng dụng Business Intelligence Hình 23 Kết nối sở liệu Sau nhập đầy đủ , ta ấn test để kiểm tra kết nôi, kết nối thành công ta chọn OK để lưu kết nối Như ta kết nối thành công pentaho tới mysql Bước ta vào địa http://localhost:8080 để vào Pentaho User Console Hiện khung đăng nhập, ta điền user password vào, sử dụng vài account mẫu Sau login vào sau: Hình 24 Khung làm việc Pentaho Sử dụng Analysic View chọn schema cube tạo bước 37 Chương - Ứng dụng Business Intelligence Hình 25 Chọn schema cube Sau ấn OK cửa sổ sau: Hình 26 Dữ liệu schema cube Trên Tools bar ta chọn để lựa chọn độ đo, columns, rows filter cho việc lựa chọn hiển thị nội dung phân tích Hình 27 Nội dung phân tích 38 Chương - Ứng dụng Business Intelligence Để phân tích mệnh giá nạp thẻ trung bình vịng tháng đầu năm 2011, phần Measures ta chọn avg price: Hình 28 Chọn Measures Phần factor ta chọn exchange: Hình 29 Chọn factor Và để hiển thị biểu đồ, ta chọn để lựa chọn kiểu biểu đồ: 39 Chương - Ứng dụng Business Intelligence Hình 30 Chọn loại biểu đồ Sau chọn xong định dạng cho biểu đồ, ta chọn nút : để hiển thị biểu đồ mệnh giá nạp thẻ tháng: Hình 31 Biểu đồ mệnh giá nạp thẻ Dựa vào biểu đồ ta thấy mệnh giá nạp thẻ thay đổi nhiều tháng gần (tháng & 9) có xu hướng tăng Tương tự ta có biểu đồ ARPU: 40 Chương - Ứng dụng Business Intelligence Hình 32 Biểu đồ ARPU ARPU giảm mạnh tháng gần đây, nhiên có xu hướng tăng trở lại Biểu đồ mệnh giá nạp thẻ ARPU: Hình 33 Biểu đồ mệnh giá nạp thẻ ARPU Dựa vào biểu đồ ta nhận thấy mệnh giá nạp thẻ ARPU có mối liên hệ định (ngược chiều: mệnh giá nạp thẻ thấp ARPU cao ngược lại) nhiên mối liên hệ chưa thực rõ ràng Do khó dự đoán xu hướng ARPU dựa vào xu hướng mệnh giá nạp thẻ 41 KẾT LUẬN Việc tổng hợp, phân tích thơng tin từ nguồn liệu khác vấn đề đáng quan tâm tổ chức có khối lượng liệu lớn Trong lĩnh vực kinh doanh, lượng liệu khách hàng, trình kinh doanh, biến động thị trường chứa đựng nhiều thơng tin hữu ích cho cơng ty Nhiều giải pháp khai thác nguồn thông tin đưa Trong đó, Business Intelligence giải pháp với nhiều công cụ hỗ trợ Trong luận văn này, tơi trình bày số kiến thức công cụ Business Intelligence Pentaho ứng dụng liệu thực: tạo báo cáo khai phá liệu Kết ứng dụng liên kết để tạo thành hệ hỗ trợ định kinh doanh Do thời gian có hạn nên khóa luận dừng mức mô tả chức công cụ cơng cụ Business Intelligence Nếu có điều kiện phát triển, cần nghiên cứu tổng hợp kết từ công cụ, tiến tới làm thành hệ hỗ trợ định hồn chỉnh Với ưu điểm cơng cụ mã nguồn mở nên Pentaho thích hợp để áp dụng cho tổ chức vừa nhỏ tiết kiệm chi phí Vì tương lai gần, hệ Business Intelligence sớm áp dụng rộng rãi Việt Nam 42 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Business Intelligence http://bis.net.vn/forums/t/121.aspx [2] Hà Quang Thụy (chủ biên) Giáo trình khai phá liệu Web Nxb Giáo dục Việt Nam 2009 [3] Kho liệu ứng dụng http://web.dongtak.net/spip.php?article11&lang=vi [4] Nguyễn Thành Đạt, Nguyễn Ngọc Anh Advances Topics in Database Systems 2009 [5] Phạm Văn Quang, Đỗ Thị Luân Tiểu luận Datamining vs OLAP 2009 [6] Wikipedia kho liệu http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u Tiếng Anh [7] Deduction Engineering and Machine Learning – WEKA The University of Waikato, 2003 [8] Introducing the Pentaho BI Suite Community Edition [9] Julian Hyde, Lance Walter OLAP for MySQL using Pentaho’s Mondrian [10] Pentaho homepage http://www.pentaho.com/ [11] Remko R Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seeward, David Scuse Weka Manual for Version 3.7.0 The University of Waikato, 2009 [12] Seth Grimes MySQL V5 – Ready for Prime Time Business Intelligence Alta Plana Corporation [13] William H Inmon Building the Data Warehouse Fourth Edition Wiley, 2005 [14] Zdravko Markov, Ingrid Russell An Introduction to the WEKA Data Mining System 43