Kết luận: dựa vào phân tích ở trên ta cĩ thể đƣa ra kết luận sau nếu mục tiêu là tăng lƣợng giao dịch bán thanh tốn bán lẻ ta cĩ thể quảng bá dịch vụ đến các khách hàng chƣa từng sử dụng dịch vụ thanh tốn bán lẻ mà chỉ sử dụng giao dịch rút tiền.
b. Mạng phụ thuộc:
Hình 3.16. Mạng phụ thuộc thanh tốn bán lẻ tháng 6 thuật tốn cây quyết định Mạng phụ thuộc cho ta thấy sự phụ thuộc giữa việc sử dụng dịch vụ bán lẻ của Mạng phụ thuộc cho ta thấy sự phụ thuộc giữa việc sử dụng dịch vụ bán lẻ của tháng 6 với việc sử dụng ATM, thanh tốn hĩa đơn điện thoại và sử dụng dịch vụ bán lẻ tháng 5.
Độ chính xác của mơ hình khi chạy với thuật tốn cây quyết định là khá cao thể hiện ở hai đƣờng xanh và đỏ gần nhƣ trùng nhau.
3.3.1.2. Kết quả thực nghiệm với thuật tốn phân lớp Navie Bayes
Hình 3.18. Mạng phụ thuộc khi dùng thuật tốn Navie Bayes
Mạng phụ thuộc của mơ hình khi sử dụng thuật tốn Nạve Bayes cho kết quả khác với mơ hình khi chạy thuật tốn cây quyết định, thuật tốn Nạve Bayes cho thấy giao dịch bán lẻ tháng 6 chỉ phụ thuộc vào giao dịch rút tiền tại ATM và giao dịch thanh tốn tháng 5 chứ khơng phụ thuộc vào thanh tốn điện thoại nhƣ đã thấy ở hình 3.18
Hình 3.19. Đặc điểm của các thuộc tính khi dùng thuật tốn Naive Bayes
3.3.1.3. Kết quả thực nghiệm với thuật tốn phân lớp Neural Network
Hình 3.20. Bảng thuộc tính của mạng nơron
Bảng thuộc tính này cho ta thấy khách hàng khơng sử dụng dịch vụ ATM hoặc đã từng sử dụng dịch vụ thanh tốn bán lẻ thì thƣờng cĩ khuynh hƣớng sử dụng dịch
vụ thanh tốn bán lẻ tháng tiếp theo, khách hàng sử dụng dịch vụ ATM thƣờng cĩ xu hƣớng khơng sử dụng dịch vụ thanh tốn bán lẻ.
Hình 3.21. Biểu đồ dự báo thanh tốn bán lẻ khi sử dụng 3 thuật tốn
Với cùng một mơ hình khai phá dữ liệu tìm sự phụ thuộc giữa các loại hình dịch vụ ta tiến hành phân lớp với ba thuận tốn cây quyết định, Nạve bayes và mạng nơ ron. Kết quả sau khi chạy ba thuật tốn đƣợc thể hiện ở hình 3.21. Ba thuật tốn đều cho kết quả với độ chính xác khá cao gần với đƣờng chuẩn.
Xem xét tỷ lệ dự đốn chính xác của 3 thuật tốn ta tiến hành tìm hiểu ma trận phân lớp của 3 thuật tốn này.
Hình 3.22. Ma trận phân lớp dự báo tình hình sử dụng dịch vụ bán lẻ
Dựa trên kết quả của ma trận phân lớp ta cĩ bảng tổng hợp tỷ lệ dự đốn đúng của từng thuật tốn nhƣ sau:
Thuật tốn Số trƣờng hợp dự đốn đúng Số trƣờng hợp dự đốn sai Tỷ lệ dự đốn đúng Tỷ lệ lỗi Cây quyết định 1.360 185 88.03% 11.97% Nạve Bayes 1.342 203 86.86% 13.14% Mạng nơron 1.360 185 88.03% 11.97% Bảng 3.7. Bảng tỷ lệ dự đốn ba thuật tốn dự báo tình hình sử dụng dịch vụ Tỷ lệ dự đốn của các mơ hình khi sử dụng 3 thuật tốn cây quyết định, NạveBayes và mạng nơron đều khá cao chiếm trên 86% ở cả ba thuật tốn. Trong bảng tổng kết trên cũng cho ta thấy việc sử dụng cây quyết định và mạng Nơ ron cho tỷ lệ dự đốn bằng nhau và đạt đến 88.03%.
3.3.1.4. Mơ hình dự báo
Các phân tích ở trên đã chỉ ra rằng cĩ thể dùng thuật tốn cây quyết định để dự báo xem khách hàng cĩ hay khơng sử dụng dịch vụ thanh tốn bán lẻ tháng 6.
Để dự báo tình trạng sử dụng dịch vụ thanh tốn bán lẻ tháng 6 cho từng khách hàng tiến hành xây dựng mơ hình dự báo nhƣ sau:
Hình 3.23. Mơ hình dự báo thanh tốn bán lẻ tháng 6 của từng khách hàng Với giá trị khách hàng cĩ thuộc tính đầu vào nhƣ hình 3.23 kết quả dự báo là Với giá trị khách hàng cĩ thuộc tính đầu vào nhƣ hình 3.23 kết quả dự báo là 79% là khách sẽ sử dụng dịch vụ bán lẻ.
Hình 3.25. Kết quả dự báo thanh tốn bán lẻ của khách hàng
Ba cột usedATM, usedBill, usedRetail_M5 là 3 cột thơng tin của khách hàng, cột Prediction là cột kết quả dự báo khách hàng sử dụng dịch vụ thanh tốn bán lẻ tháng 6 hay khơng (1: cĩ sử dụng, 0: khơng sử dụng), cột thực tế là tình trạng thực tế khách hàng thanh tốn dịch vụ bán lẻ tháng 6 (1: cĩ sử dụng, 0: khơng sử dụng), cột cuối cùng Expression là cột xác suất dự báo. Ví dụ với khách hàng usedATM=1, usedBill=0, usedATM_m5=0 thì khả năng khơng sử dụng dịch vụ thanh tốn hĩa đơn bán lẻ tháng 6 là 96%.
3.3.2. Nhĩm khách hàng nào cĩ khả năng sử dụng dịch vụ thanh tốn bán lẻ cao nhất: cao nhất:
Theo các báo cáo ở mục 3.2 cĩ sự phụ thuộc nào đĩ giữa việc thanh tốn bán lẻ và các đặc tính của khách hàng nhƣ giới tính, độ tuổi,… vậy điều này thực sự đúng khơng ? Chúng tơi tiến hành kiểm chứng điều này bằng cách xây dựng mơ hình khai phá sau:
Hình 3.26. Mơ hình khai phá dữ liệu
Mơ hình trên đƣợc xây dựng với các thuộc tính khĩa là TaiKhoanKey, thuộc tính dự đốn là sử dụng UsedRetail, thuộc tính đầu vào là: Annual income, asset class, country code, gender, marital status, nam tao, province code, trinhdokey, tuoitao, tuoi.
Chạy mơ hình cho chúng tơi thu đƣợc kết quả nhƣ sau:
Hình 3.27. Mạng phụ thuộc thanh tốn bán lẻ và các thuộc tính của khách hàng Kết quả này cho ta thấy cĩ mối liên hệ nào đĩ giữa khách hàng sử dụng dịch vụ Kết quả này cho ta thấy cĩ mối liên hệ nào đĩ giữa khách hàng sử dụng dịch vụ bán lẻ và các thuộc tính giới tính khách hàng, tuổi tạo, năm tạo tài khoản. Vậy cụ thể sự phụ thuộc này nhƣ thế nào, chúng tơi tiến hành phân tích cây phân nhánh.
Hình 3.28. Cây phân nhánh dự đốn nhĩm khách hàng sử dụng thanh tốn bán lẻ
Bảng 3.8.Chú thích các nút của cây phân nhánh
Tỷ lệ nam giới tham gia sử dụng dịch vụ thanh tốn bán lẻ ở đây khá cao chiếm 12,88%, điều này chứng tỏ hình thức thanh tốn bán lẻ trực tuyến cũng nhận đƣợc sự quan tâm của nam giới. Các chú thích trên cũng cho ta thấy cĩ hai nhĩm khách hàng cĩ khả năng sử dụng dịch vụ thanh tốn bán lẻ nhiều nhất là nhĩm khách hàng cĩ giới tính nữ cĩ năm tạo tài khoản khác 2009 và nhĩm khách hàng nam giới cĩ tuổi tạo tài khoản khác 23 tuổi.
Hình 3.29. Biểu đồ so sánh độ chính xác
Mơ hình cho kết quả dự báo khá cao, với 55% tập dữ liệu kiểm tra thì xác suất dự đốn đạt 84.14%.
3.3.3. Sự phụ thuộc giữa loại hình dịch vụ và tỉnh thành
Báo cáo thống kê việc sử dụng giao dịch ở hình 3.3 ở trên cho ta thấy việc sử dụng giao dịch khơng đồng đều tại các tỉnh thành phố, các giao dịch chủ yếu tập trung ở Hà Nội và Hồ Chí Minh, vậy cĩ mối liên hệ nào giữa các loại dịch vụ này với các tỉnh thành phố khơng, để trả lời câu hỏi này tơi xây dựng mơ hình khai phá nhƣ sau:
Hình 3.30. Mơ hình khai phá dự đốn sự việc sử dụng giao dịch rút tiền Mơ hình cĩ khĩa là: TaiKhoanKey Mơ hình cĩ khĩa là: TaiKhoanKey
Các thuộc tính đầu vào: Siccode, TRANS_CITY, TRANS_COUNTRY, TRANS_AMOUNT
Hình 3.31. Mơ hình khai phá dự đốn việc sử dụng giao dịch thanh tốn điện thoại Mơ hình cĩ khĩa là: TaiKhoanKey Mơ hình cĩ khĩa là: TaiKhoanKey
Các thuộc tính đầu vào: Siccode, TRANS_CITY, TRANS_COUNTRY, TRANS_AMOUNT
Thuộc tính dự báo: Usedbill (tình trạng sử dụng thanh tốn điện thoại)
Kết quả thu đƣợc của thuật tốn cây quyết định
Hình 3.32. Cây phân nhánh dự báo tình hình sử dụng giao dịch rút tiền ATM
Hình 3.34. Mạng phụ thuộc khi dùng thuật tốn cây quyết định dự báo việc rút tiền ATM
Hình 3.35. Mạng phụ thuộc dự báo việc thanh tốn điện thoại
Việc thanh tốn hĩa đơn điện thoại và việc sử dụng giao dịch rút tiền tại máy ATM cĩ sự phụ thuộc lẫn nhau và phụ thuộc vào tỉnh thành phố thực hiện giao dịch bán lẻ và nƣớc giao dịch.
Xác định độ chính xác của 3 thuật tốn
Hình 3.36. Biểu đồ dự báo việc sử dụng giao dịch thanh tốn hĩa đơn điện thoại Kết quả dự báo của 3 thuật tốn trùng nhau và trùng với đƣờng thẳng lý tƣởng, Kết quả dự báo của 3 thuật tốn trùng nhau và trùng với đƣờng thẳng lý tƣởng, chứng tỏ với mơ hình khai phá gồm đầu vào nhƣ hình 3.32 ta cĩ thể sử dụng một trong 3 thuật tốn: cây quyết định, NaiveBayes và mạng nơ ron để dự báo tình hình sử dụng giao dịch thanh tốn điện thoại hoặc rút tiền tại ATM
Ma trận phân lớp
Ma trận phân lớp khi sử dụng 3 thuật tốn trong việc dự báo tính hình sử dụng giao dịch thanh tốn điện thoại ta cĩ thể tính tốn độ chính xác của từng thuật tốn nhƣ sau, với thuật tốn cây quyết định độ chính xác của mơ hình dự báo đạt 77.44%, thuật tốn nạve Bayes độ chính xác đạt 77.21%, với thuật tốn mạng nơron tỷ lệ dự đốn đúng khá cao chiếm đến 76.28%. Vậy ta cĩ thể sử dụng thuật tốn cây quyết định để thực hiện dự báo tình hình sử dụng dịch vụ.
Hình 3.38. Ma trận phân lớp của việc sử dụng dịch vụ thanh tốn điện thoại
3.3.4. Dự đốn xu hƣớng sử dụng dịch vụ thanh tốn cƣớc điện thoại
Để trả lời câu hỏi xem xu hƣớng sử dụng dịch vụ thanh tốn cƣớc điện thoại cĩ tăng trong những tháng tiếp theo hay khơng bằng cách sử dụng thuật tốn time series với mơ hình khai phá nhƣ sau
Hình 3.39. Mơ hình khai phá dữ liệu dự báo xu hƣớng sử dụng thanh tốn điện thoại Mơ hình khai phá với khĩa là tháng và trƣờng dự đốn là trƣờng số lƣợng. Tập huấn luyện là giao dịch của các tháng từ tháng 06/2013-01/2014
Hình 3.40. Dự đốn chiều hƣớng sử dụng dịch vụ thanh tốn điện thoại
Từ kết quả trên ta cĩ thể thấy việc sử dụng xu hƣớng sử dụng dịch vụ thanh tốn hĩa đơn bán lẻ cĩ xu hƣớng tăng. Tại thời điểm mới đƣa dịch vụ vào sử dụng thì số lƣợng giao dịch rất nhỏ, lƣợng giao dịch này tăng dần và cĩ thời điểm từ 09/2013 đến tháng 12/2013 lƣợng giao dịch này tăng đột ngột. Tốc độ tăng của số lƣợng thanh tốn dịch vụ cĩ giảm đơi chút vào tháng 1/2014 chỉ tăng 14%. Số lƣợng dự báo tháng 2/2014 đột ngột quay đầu giảm sau đĩ đến tháng 3/2014 lƣợng giao dịch này lại theo đà tăng trở lại. Kiểm chứng dự báo này bằng số liệu thực tế và sử dụng Dịch vụ báo cáo ta cĩ biểu đồ biểu diễn số lƣợng giao dịch nhƣ sau:
Hình 3.41. Biểu đồ lƣợng giao dịch thanh tốn cƣớc điện thoại theo tháng
Hình 3.28 và 3.29 cho thấy cĩ thể dùng thuật tốn time series để dự báo xu hƣớng sử dụng dịch vụ trong thời gian tới. Kết quả dự báo ở trên cịn cho ta thấy số lƣợng thanh tốn dịch vụ điện thoại sẽ tăng trở lại vào các tháng tiếp theo.
KẾT LUẬN – HƢỚNG PHÁT TRIỂN
Sau khi tìm hiểu yêu cầu bài tốn và thực nghiệm trên dữ liệu giao dịch ngân hàng, luận văn đã đạt đƣợc một số kết quả sau:
- Tìm hiểu bộ cơng cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008. - Dựa trên bộ cơng cụ BI, xây dựng đƣợc kho dữ liệu về khách hàng.
- Phân tích và thiết kế báo cáo thống kê về các dịch vụ thanh tốn hĩa đơn hàng hĩa dịch vụ và rút tiền.
- Áp dụng các mơ hình KPDL trong kho để phân tích, đƣa ra các gợi ý liên quan đến mong muốn tăng lƣợng sử dụng dịch vụ thanh tốn của ngân hàng. Trong tƣơng lai, luận văn sẽ định hƣớng phát triển theo một số hƣớng nhƣ sau:
- Triển khai kho dữ liệu với nguồn dữ liệu phong phú và phức tạp hơn.
- Áp dụng mơ hình KPDL nhằm phân tích dữ liệu phục vụ các nhu cầu chuyên sâu hơn cho các loại dịch vụ tài chính khác nhƣ thu hộ thuế/phí - Xây dựng hệ thống phân tích và dự báo hồn chỉnh để phân tích dữ liệu giao
TÀI LIỆU THAM KHẢO
Tiếng việt
[1] Hà Quang Thụy (2013), Bài giảng “Kho dữ liệu và khai phá dữ liệu”. [2] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú (2009), “Giáo trình khai phá dữ liệu Web”, Nhà xuất bản Giáo dục Việt Nam.
[3] Huỳnh Thị Thu, “Phát triển dịch vụ Internet-banking của các Ngân hàng thƣơng mại Việt Nam”, Luận văn tốt nghiệp đại học
[4] Bộ TT&TT, “Tình hình phát triển viễn thơng, internet trong năm 2013”
URL:http://mic.gov.vn/solieubaocao/solieuthongke/vienthong/Trang/Tinhhinhpha ttrienvienthong,internetnam2013.aspx.
[5] Matt Keating, “Thĩi quen dùng tiền mặt cản trở Internet Banking”,Smartlink Card ngày 18/01/2013
URL: http://smartlink.com.vn/Home/NewsDetails.aspx?id=1694&catid=75
[6] Báo Doanh nhân Hồ Chí Minh cuối tuần “7 điều khách hàng cân nhắc khi quyết định mua một sản phẩm mới”,
URL: http://www.lantabrand.com/cat1news2628.html
[7] Michael R.Solomon, “Khách hàng muốn mua gì”, nhà xuất bản lao động xã hội
Tiếng anh
[8] Randal Root and Caryn Masson "Pro SQL Server 2012 BI Solution"
[9] Jamie MacLennan, ZhaoHui Tang, Bogdan Crivat “Data Mining with Microsoft SQL Server 2008”
[10] Brian McDonald, Shawn McGehee, and Rodney Landrum "Pro SQL Server 2012 Reporting Services"
[11] Michael J.A. Berry, Gordon S. Linoff "Data Mining Techniques For Marketing, Sales, and Customer Relationship management "
[12] S. Madhavi, S. Abirami, C. Bharathi, B. Ekambaram, T. Krishna Sankar, A. Nattudurai, N. Vijayarangan “ATM Service Analysis Using Predictive Data Mining ”
[13] Vincent Rainard “Building a Data Warehouse With Examples in SQL Server” [14] 1keydata, “Data Warehouse Architectur”,