Đây là các giá trị thật của doanh số kinh doanh qua 4 năm. Ba tháng 10,11,12/2012 là phía bên tay phải của đường ngăn cách đứng. Kết quả cho thấy 3 tháng cuối năm 2012 doanh số tăng một cách rõ rệt. Chứng tỏ mơ hình đã đưa ra xu hướng dự đốn rất tốt. Để dễ dàng đối chiếu, tơi đã ghép hai biểu đồ gần nhau như bên dưới
Kết quả từ mơ hình Giá trị thật Hình 3.21. So sánh kết quả dự báo và giá trị thật sự
b. Dự đốn doanh số bán hàng trên từng thể loại DVD ở các quốc gia
Dữ liệu training là dữ liệu từ tháng 1- 2009 đến tháng 6-2012. Tơi giữ lại dữ liệu 6 tháng năm 2012 cho việc kiểm tra độ tin cậy của mơ hình dự đốn. Một View được query từ kho dữ liệu cho mơ hình như bên dưới:
Hình 3.23. Biểu đồ dự đốn xu hướng năm tiếp theo theo thể loại và khu vực
Tại mỗi quốc gia số lượng tiêu thụ sản phẩm mỗi tháng là khác nhau. Điều này cĩ giải thích do hành vi mua, văn hĩa đất nước, chiến lược marketing, …
Hình trên cho ta thơng tin DVD loại Action được bán nhiều nhất tại Australia, vào tháng 3,4,5 số lượng thấp hơn so với các tháng. Pháp cũng là quốc gia tiêu thụ thể loại Action cao của cửa hàng. Hiên tại Đức đang cĩ doanh số thấp hơn cả, điều đĩ cho thấy chủ cửa hàng nên đưa ra một vài chiến lược quảng bá tại nước này hoặc cĩ thể cư dân Đức khơng chuộng các thể loại DVD của cửa hàng.
Đƣa ra kết dự đốn time series bằng truy vấn
Một mơ hình khai phá theo thuật tốn Microsoft Time series đã được tạo, bạn cĩ thể view kết quả thơng qua chart. Ngồi ra bằng cách viết các câu truy vấn chúng ta cĩ kết quả dự báo dưới dạng bảng:
Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng
Để tìm mơ hình tốt nhất tơi đã thay đổi các giá trị tham số, bên dưới là các giá trị tham số của một số lần thay đổi.
Missing_value _substitution Periodicity_hint Prediction _Smoothing Auto_detect _periodicity Complexity _penalty 1st 0 12 0.5 0.6 0.1 2nd Mean 6 0.5 0.6 0.1 3rd Mean 12 0.5 0.6 0.1 4th 0 6 0.5 0.6 0.1 5th 0 6 0.5 0.8 0.1 6th 0 6 0.5 0.3 0.1 7th 0 6 0.5 0.6 0.5 8th 0 6 0.8 0.6 0.5
Hình dưới là kết quả dự đốn sau các lần thay đổi tham số trên được so sánh với kết quả thực tế được liệt kê bên dưới. Đây là kết quả dự đốn cho thể loại DVD Action được bán từ tháng 7/2012 đến 12/2012. Cột “Actual value” là giá trị thật sự, dùng để so sánh với kết quả dự đốn.
Hình 3.25. So sánh kết quả dự đốn và thực tế cho thể loại Action
Nhìn vào bảng cĩ thể thấy giá trị tham số của lần 3, lần 7 cĩ xác suất dự đốn gần với kết quả thực tế nhất
3.5.2. Mơ hình khai phá dữ liệu phân tích giỏ hàng
Mơ hình khai phá dữ liệu sử dụng Microsoft Association Rules
Khi xây dựng mơ hình sử dụng thuật tốn Microsoft Association Rules, cĩ hai tham số chúng ta cần lưu ý trước tiên, đĩ là Support và Probability
Support : Định nghĩa phần trăm các trường hợp để luật tồn tại trước khi nĩ được coi là hợp lệ. Cần phải xác định rằng một luật phải được tìm thấy trong ít nhất 1% các trường hợp
Probability: Định nghĩa khả năng một kết hợp tồn tại trước khi nĩ được xem là hợp lệ. Cân nhắc xem xét một kết hợp nào đĩ với một xác suất là 10% Vì thế set giá trị tham số ban đầu sẽ là: Minimum _Probability = 0.1. Minimum _ Support = 0.01
Mơ hình sử dụng dữ liệu huấn luyện về bán hàng (DVD ) của cửa hàng như bên dưới được thể hiện là 2 views: vAssocSeqOrdersForCategory và
vAssocSeqLineItemsForCategory. Cấu trúc 2 views như sau:
vAssocSeqOrdersForCategory
Hình 3.26. Dữ liệu huấn luyện 1 cho mơ hình dự đốn phân tích giỏ hàng
vAssocSeqLineItemsForCategory
Hình 3.27. Dữ liệu huấn luyện 2 cho mơ hình dự đốn phân tích giỏ hàng
Kết quả của mơ hình khai phá dữ liệu dùng thuật tốn Microsoft Association Rules thể hiện trong Tab Mining Models Viewer bởi 3 nội dung chính là Itemsets, Rules, và Dependency Net
Itemsets: Itemsets cho biết các thơng tin quan trọng của luật kết hợp như Support (độ hỗ trợ của luật kết hợp), Size (Số items trong Itemsets). Để hiển thị các Itemsets cĩ chứa một item nào đĩ (ví dụ thể loại Sport) thì nhập Sport trong ơ Filter Itemset.
Hình 3.28. Mơ hình khai phá Microsoft Association Rules
Nhìn vào hình 3.28 trên với Itemsets cĩ Support = 1887 gồm 2 items đĩ là Sports
và Action cĩ nghĩa là trong tất cả các giao dịch thì cĩ 1887 giao dịch trong đĩ khách hàng mua thể loại Sports thì cũng mua thể loại Action.
Từ trên ta cĩ thể đưa ra bảng thống kê luật cho xác suất mua Sport và sẽ mua thể loại khác:
STT Tên luật Số lƣợng mua % Xác suất
1 Sport -> Action 1887 52.96
2 Family -> Sports 1424 39.97
3 Family -> Sports -> Action 952 26.72
4 Travel -> Sports 895 25.12
5 Classis -> Sports 793 22.26
6 Sport -> Animation 710 19.93
7 Foreign -> Sports 719 20.18
1 Sport -> Action 1887 52.96
Bảng 3.3. Thống kê một số luật từ mơ hình
Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mơ hình. Các thơng tin về luật kết hợp bao gồm:
Probability: Cho biết xác suất xảy ra của luật.
Importance: Đo lường tính hữu dụng của luật, giá trị này càng cao thì luật kết hợp càng tốt.
Hình 3.29. Rule Tab trong mơ hình khai phá Microsoft Association Rules Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao dịch. Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao dịch. Chẳng hạn luật kết hợp thứ 1 cho chúng ta biết rằng nếu một khách hàng nào đĩ mua các DVD thể loại Family và Action thì người đĩ khả năng người đĩ sẽ mua thể loại Sports với xác suất 68%.
Dependency Net (Mạng phụ thuộc):
Sử dụng Dependency Net cho phép bạn hiểu được sự tác động của các items khác nhau trong Model. Mỗi Node trong Dependency Net thể hiện một Item, bằng cách chọn một item ta sẽ thấy được các items khác được xác định bởi Item đã chọn (hoặc dùng để xác định Item đã chọn) trong model.
Hình 3.30. Mạng phụ thuộc trong mơ hình khai phá Microsoft Association Rules Trong Dependency Net, nếu chọn Node Animation ta sẽ thấy rằng Item Animation cĩ Trong Dependency Net, nếu chọn Node Animation ta sẽ thấy rằng Item Animation cĩ thể được dự đốn bởi 3 items khác đĩ là Comedy, Music và Sci-fi hoặc Animation
được dùng để dự đốn 3 Items Comedy, Music và Sci-fi(Dấu mũi tên 2 chiều, xem hình dưới).
Hình 3.31. Mạng phụ thuộc-2 trong mơ hình khai phá Microsoft Association Rules Điều này cĩ nghĩa là những thể loại DVD này cĩ khả năng được mua cùng nhau. Điều này cĩ nghĩa là những thể loại DVD này cĩ khả năng được mua cùng nhau. Nếu khách hàng nào đĩ mua thể loại Animation thì cĩ khả năng họ thể loại Music, Comedy, Sci-fi. Các thơng tin này cĩ thể giúp chủ cửa hàng thuận tiện trong việc nâng
cấp website cho chức năng Cross-Selling giúp cho khách hàng khỏi mất cơng tìm kiếm cũng như xây dựng các chiến lược marketing hiệu quả (chẳn hạn khơng nên khuyến mãi cùng lúc các thể loại thường được mua cùng nhau). Giả sử chúng ta muốn biết dự đốn cho từng khách hàng riêng lẻ dựa trên những lựa chọn trước đĩ của họ trong giỏ hàng. Sử dụng mơ hình để đưa ra các đề xuất sản phẩm tiếp theo.
Cấu trúc dữ liệu test cho mơ hình phải giống với dữ liệu huấn luyện. Chúng ta cĩ dữ liệu test như bên dưới:
Hình 3.33. Dữ liệu test cho mơ hình phân tích giỏ hàng Kết quả sau khi chạy mơ hình là: Kết quả sau khi chạy mơ hình là:
Lấy khách hàng cĩ Id = 7888 là ví dụ. Khách hàng này đã đưa vào giỏ hàng của mình 3 loại sản phẩm là Family,Action, Sports
Hình 3.35. Dữ liệu test mơ hình phân tích giỏ hàng
Mơ hình phân tích giỏ hàng đề xuất sản phẩm tiếp theo khách hàng này cĩ thể mua là thể loại Animation cĩ Support = 2410 Probability = 39% , và thể loại Drama Support = 2277 Probability = 35%.
Kết luận – Hƣớng nghiên cứu Các mục tiêu đã thực hiện trong luận văn
Sau một thời gian thực hiện nghiên cứu và thực nghiệm, chúng tơi cĩ thể đáp ứng các mục tiêu mà luận văn đặt ra:
Nghiên cứu và hiểu được các vấn đề của Business Intelligence, kho dữ liệu, khai phá dữ liệu, bộ cơng cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngơn ngữ T- SQL.
Xây dựng được kho dữ liệu mua bán trực tuyến. Thiết kế báo cáo nhiều dạng đểphục vụ kinh doanh.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mơ hình dự đốn.
Xây dựng các mơ hình khai phá dữ liệu để dự đốn xu hướng kinh doanh năm tới, dự đốn xu hướng kinh doanh của thể loại sản phẩm theo quốc gia vào năm tới, và phân tích giỏ hàng với thuật tốn Microsoft Time Series, Microsoft Association Rule.
Hƣớng phát triển
Dựa trên kết quả đã thực hiện, luận văn cĩ các hướng phát triển như sau: Triển khai kho dữ liệu với nguồn dữ liệu lớn.
Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.
Xây dựng hệ thống BI hoạt động hồn chỉnháp dụng các kết quả từ các mơ hình khai phá dữ liệu đã được xây dựng .
Tài liệu tham khảo
Tài liệu tiếng việt
[1] Tạ Thanh Hùng, Đinh Tiến Đức, Nguyễn Văn Cơng. Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng trong hệ thống bán sách trực. Khĩa luận tốt nghiệp trường đại học cơng nghệ- Đại học quốc gia HN
[2] Nguyễn Minh Tân. Ứng dụng khai phá dữ liệu dự đốn khách hàng rời mạng viễn thơng. Luận văn thạc sĩ đại học Đà nẵng
[3] Lê Thiết Bảo. Thương mại điện tử Việt nam tiềm năng như thế nào. Tháng 3/2014 [4] Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú(2010),Giáo trình Khai phá dữ liệu Web, NXB Giáo dục Việt Nam. [5] Trịnh Thị Nhị, Nghiên cứu khai thác kho dữ liệu điểm tại trường đại học SPKT Hưng Yên dựa trên bộ cơng cụ BI của hệ quản trị CSDL Sql Server 2008. Luận văn thạc sĩ đại học cơng nghệ- Đại học quốc gia HN
[6] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, mơn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13.
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Nguyễn Lê. BI trong Server 2008. Nguồn www.microsoft.com/bi. Tháng 4/2008
Tài liệu tiếng anh
[9] Microsoft. http://msdn.microsoft.com/en-us/library/bb510516.aspx
[10] Jamie MacLennan, Bogdan Crivat, ZhaoHui Tang, Data mining with microsoft sql server 2008
[11] Philo Janus , Guy Fouche, Pro SQL Server 2008 Analysis Services
[12] GARY M. WEISS. Data mining in telecommunicaton. Department of computer and information science, Fordham university.
[13] SEYYED JAMALEDDIN PISHVAYI. Customer Relationship Management. Tehran University
[14] Agrawal, R.; Imieliński, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". "Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93’.
[15] Dr Ahmed Aburodes Assaid Alkilany - Department of Computer Science, Faculty of Science,Sebha University. AN OVERVIEW:TEMPORAL-SIDE OF SEQUENTIAL PATTERNS DISCOVERY . International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.3, No.1, January 2013.
[16] J.Han, J.Pei, Y.Yin, and R.Mao(2004),Mining Frequent Patterns without Candidate Generation: A Frequent-pattern Tree Approach. Data Mining and Knowledge Discovery. [17] Y.Aumann, and Y.Lindell(1999), A statistical theory for quantitative association rules. Proc. Of the 5th KDD.
[18] R.Srikant, and R.Agrawal(1996),Mining Quantitative Associatin Rules in Large Rational Tables.
[19] Rakesh Agrawal and Ramakrishnan Srikant (September 1994). Fast Algorithms for Mining Association Rules. In Pro. Of the 20th Int’l Conference on Very Large Databases, Santiago, Chile.
[21] Box, G.E.P. and G.M. Jenkins (1976).Time Series Analysis, Forecasting and Control. Revised Edition. Holden Day, San Francisco.
[22] Campbell, J.Y., A.W. Lo, A.C. MacKinlay (1997).The Econo-metrics of Financial Markets . Princeton University Press, New Jer- sey.
[23]Box, G.E.P., and D.A. Pierce(1970). “Distribution of Residual Autocorrelations in Autoregressive-integrated Moving Average Time Series Models,” Journal of the American Statistical Association, 65,1509-1526.
[24] Chan, N.H.(2002).Time Series: Applicatios to Finance . John Wiley & Sons, New York.
[25] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-51