Mô hình khai phá dữ liệu sử dụng Microsoft Association Rules
Khi xây dựng mô hình sử dụng thuật toán Microsoft Association Rules, có hai tham số chúng ta cần lưu ý trước tiên, đó là Support và Probability
Support : Định nghĩa phần trăm các trường hợp để luật tồn tại trước khi nó được coi là hợp lệ. Cần phải xác định rằng một luật phải được tìm thấy trong ít nhất 1% các trường hợp
Probability: Định nghĩa khả năng một kết hợp tồn tại trước khi nó được xem là hợp lệ. Cân nhắc xem xét một kết hợp nào đó với một xác suất là 10% Vì thế set giá trị tham số ban đầu sẽ là: Minimum _Probability = 0.1. Minimum _ Support = 0.01
47
Mô hình sử dụng dữ liệu huấn luyện về bán hàng (DVD ) của cửa hàng như bên dưới được thể hiện là 2 views: vAssocSeqOrdersForCategory và
vAssocSeqLineItemsForCategory. Cấu trúc 2 views như sau:
vAssocSeqOrdersForCategory
Hình 3.26. Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng
vAssocSeqLineItemsForCategory
Hình 3.27. Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng
Kết quả của mô hình khai phá dữ liệu dùng thuật toán Microsoft Association Rules thể hiện trong Tab Mining Models Viewer bởi 3 nội dung chính là Itemsets,
48
Itemsets: Itemsets cho biết các thông tin quan trọng của luật kết hợp như Support (độ hỗ
trợ của luật kết hợp), Size (Số items trong Itemsets). Để hiển thị các Itemsets có chứa một item nào đó (ví dụ thể loại Sport) thì nhập Sport trong ô Filter Itemset.
Hình 3.28. Mô hình khai phá Microsoft Association Rules
Nhìn vào hình 3.28 trên với Itemsets có Support = 1887 gồm 2 items đó là Sports và Action có nghĩa là trong tất cả các giao dịch thì có 1887 giao dịch trong đó khách hàng mua thể loại Sports thì cũng mua thể loại Action.
49
Từ trên ta có thể đưa ra bảng thống kê luật cho xác suất mua Sport và sẽ mua thể loại khác:
STT Tên luật Số lƣợng mua % Xác suất
1 Sport -> Action 1887 52.96
2 Family -> Sports 1424 39.97
3 Family -> Sports -> Action 952 26.72
4 Travel -> Sports 895 25.12
5 Classis -> Sports 793 22.26
6 Sport -> Animation 710 19.93
7 Foreign -> Sports 719 20.18
1 Sport -> Action 1887 52.96
Bảng 3.3. Thống kê một số luật từ mô hình
Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mô hình. Các thông
tin về luật kết hợp bao gồm:
Probability: Cho biết xác suất xảy ra của luật.
Importance: Đo lường tính hữu dụng của luật, giá trị này càng cao thì luật kết hợp càng tốt.
50
Hình 3.29. Rule Tab trong mô hình khai phá Microsoft Association Rules Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao dịch. Chẳng hạn luật kết hợp thứ 1 cho chúng ta biết rằng nếu một khách hàng nào đó mua các DVD thể loại Family và Action thì người đó khả năng người đó sẽ mua thể loại Sports với xác suất 68%.
Dependency Net (Mạng phụ thuộc):
Sử dụng Dependency Net cho phép bạn hiểu được sự tác động của các items khác nhau trong Model. Mỗi Node trong Dependency Net thể hiện một Item, bằng cách chọn một item ta sẽ thấy được các items khác được xác định bởi Item đã chọn (hoặc dùng để xác định Item đã chọn) trong model.
51
Hình 3.30. Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules Trong Dependency Net, nếu chọn Node Animation ta sẽ thấy rằng Item Animation có
thể được dự đoán bởi 3 items khác đó là Comedy, Music và Sci-fi hoặc Animation
được dùng để dự đoán 3 Items Comedy, Music và Sci-fi (Dấu mũi tên 2 chiều, xem hình dưới).
Hình 3.31. Mạng phụ thuộc-2 trong mô hình khai phá Microsoft Association Rules Điều này có nghĩa là những thể loại DVD này có khả năng được mua cùng nhau. Nếu khách hàng nào đó mua thể loại Animation thì có khả năng họ thể loại Music, Comedy, Sci-fi. Các thông tin này có thể giúp chủ cửa hàng thuận tiện trong việc nâng
52
cấp website cho chức năng Cross-Selling giúp cho khách hàng khỏi mất công tìm kiếm cũng như xây dựng các chiến lược marketing hiệu quả (chẳn hạn không nên khuyến mãi cùng lúc các thể loại thường được mua cùng nhau). Giả sử chúng ta muốn biết dự đoán cho từng khách hàng riêng lẻ dựa trên những lựa chọn trước đó của họ trong giỏ hàng. Sử dụng mô hình để đưa ra các đề xuất sản phẩm tiếp theo.
Cấu trúc dữ liệu test cho mô hình phải giống với dữ liệu huấn luyện. Chúng ta có dữ liệu test như bên dưới:
53
Hình 3.33. Dữ liệu test cho mô hình phân tích giỏ hàng Kết quả sau khi chạy mô hình là:
54
Lấy khách hàng có Id = 7888 là ví dụ. Khách hàng này đã đưa vào giỏ hàng của mình 3 loại sản phẩm là Family,Action, Sports
Hình 3.35. Dữ liệu test mô hình phân tích giỏ hàng
Mô hình phân tích giỏ hàng đề xuất sản phẩm tiếp theo khách hàng này có thể mua là thể loại Animation có Support = 2410 Probability = 39% , và thể loại Drama Support = 2277 Probability = 35%.
55
Kết luận – Hƣớng nghiên cứu Các mục tiêu đã thực hiện trong luận văn
Sau một thời gian thực hiện nghiên cứu và thực nghiệm, chúng tôi có thể đáp ứng các mục tiêu mà luận văn đặt ra:
Nghiên cứu và hiểu được các vấn đề của Business Intelligence, kho dữ liệu, khai phá dữ liệu, bộ công cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngôn ngữ T- SQL.
Xây dựng được kho dữ liệu mua bán trực tuyến. Thiết kế báo cáo nhiều dạng để phục vụ kinh doanh.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mô hình dự đoán.
Xây dựng các mô hình khai phá dữ liệu để dự đoán xu hướng kinh doanh năm tới, dự đoán xu hướng kinh doanh của thể loại sản phẩm theo quốc gia vào năm tới, và phân tích giỏ hàng với thuật toán Microsoft Time Series, Microsoft Association Rule.
Hƣớng phát triển
Dựa trên kết quả đã thực hiện, luận văn có các hướng phát triển như sau: Triển khai kho dữ liệu với nguồn dữ liệu lớn.
Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.
Xây dựng hệ thống BI hoạt động hoàn chỉnh áp dụng các kết quả từ các mô hình khai phá dữ liệu đã được xây dựng .
56
Tài liệu tham khảo
Tài liệu tiếng việt
[1] Tạ Thanh Hùng, Đinh Tiến Đức, Nguyễn Văn Công. Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng trong hệ thống bán sách trực. Khóa luận tốt nghiệp trường đại học công nghệ- Đại học quốc gia HN
[2] Nguyễn Minh Tân. Ứng dụng khai phá dữ liệu dự đoán khách hàng rời mạng viễn thông. Luận văn thạc sĩ đại học Đà nẵng
[3] Lê Thiết Bảo. Thương mại điện tử Việt nam tiềm năng như thế nào. Tháng 3/2014 [4] Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú(2010),Giáo trình Khai phá dữ liệu Web, NXB Giáo dục Việt Nam. [5] Trịnh Thị Nhị, Nghiên cứu khai thác kho dữ liệu điểm tại trường đại học SPKT Hưng Yên dựa trên bộ công cụ BI của hệ quản trị CSDL Sql Server 2008. Luận văn thạc sĩ đại học công nghệ- Đại học quốc gia HN
[6] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, môn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13.
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Nguyễn Lê. BI trong Server 2008. Nguồn www.microsoft.com/bi. Tháng 4/2008
Tài liệu tiếng anh
[9] Microsoft. http://msdn.microsoft.com/en-us/library/bb510516.aspx
[10] Jamie MacLennan, Bogdan Crivat, ZhaoHui Tang, Data mining with microsoft sql server 2008
[11] Philo Janus , Guy Fouche, Pro SQL Server 2008 Analysis Services
[12] GARY M. WEISS. Data mining in telecommunicaton. Department of computer and information science, Fordham university.
[13] SEYYED JAMALEDDIN PISHVAYI. Customer Relationship Management. Tehran University
57
[14] Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". "Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93’.
[15] Dr Ahmed Aburodes Assaid Alkilany - Department of Computer Science, Faculty of Science,Sebha University. AN OVERVIEW:TEMPORAL-SIDE OF SEQUENTIAL PATTERNS DISCOVERY . International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.3, No.1, January 2013.
[16] J.Han, J.Pei, Y.Yin, and R.Mao(2004),Mining Frequent Patterns without Candidate Generation: A Frequent-pattern Tree Approach. Data Mining and Knowledge Discovery. [17] Y.Aumann, and Y.Lindell(1999), A statistical theory for quantitative association rules. Proc. Of the 5th KDD.
[18] R.Srikant, and R.Agrawal(1996),Mining Quantitative Associatin Rules in Large Rational Tables.
[19] Rakesh Agrawal and Ramakrishnan Srikant (September 1994). Fast Algorithms for Mining Association Rules. In Pro. Of the 20th Int’l Conference on Very Large Databases, Santiago, Chile.
[21] Box, G.E.P. and G.M. Jenkins (1976).Time Series Analysis, Forecasting and Control. Revised Edition. Holden Day, San Francisco.
[22] Campbell, J.Y., A.W. Lo, A.C. MacKinlay (1997).The Econo-metrics of Financial Markets . Princeton University Press, New Jer- sey.
[23]Box, G.E.P., and D.A. Pierce(1970). “Distribution of Residual Autocorrelations in Autoregressive-integrated Moving Average Time Series Models,” Journal of the American Statistical Association, 65,1509-1526.
[24] Chan, N.H.(2002).Time Series: Applicatios to Finance . John Wiley & Sons, New York.
[25] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-51