3.4.1 Giới thiệu thực nghiệm
Sử dụng 6672 bản ghi dữ liệu thực tế của Xí nghiệp kinh doanh nƣớc sạch Hoàn Kiếm làm dữ liệu thử nghiệm.
Bƣớc 1: Từ CSDL gốc, thực hiện chuyển đổi sang CSDL dãy (Hình 4.2)
Khai phá luật dãy Nguyễn Đình Văn
Hình 4.2: CSDL dãy sau khi chuyển đổi Bƣớc 2: Nhập ngƣỡng min_sup, thực hiện thuật toán AprioriAll
Khai phá luật dãy Nguyễn Đình Văn Tại C5, không có dãy nào có độ hỗ trợ thỏa mãn độ hỗ trợ tối thiểu. Vì vậy, kết quả thu đƣợc là L4.
Hình 4.4: Dữ liệu kết quả
3.4.2 Kết quả thực nghiệm và nhận xét
Có 65% (độ hỗ trợ của dãy „TTTT‟) khách hàng tiêu thụ nƣớc thỏa mãn dãy <Không giảm, 5> <Không giảm, 6> <Không giảm, 7> <Không giảm, 8> ... Kết quả quá trình thực hiện áp dụng thuật toán AprioriAll cho thấy đa số khách hàng sử dụng nƣớc nhiều nhất trong năm là từ tháng 5 đến tháng 8.
Điều này cho thấy thuật toán khai phá dãy đã nghiên cứu là khả thi và có thể ứng dụng trong thực tế. Từ đó mở ra một hƣớng khai phá dữ liệu để có thể trả lời các yêu cầu của ban lãnh đạo công ty về phân tích thông tin nhƣ khu vực nào có xu hƣớng tăng hoặc giảm tiêu thụ nƣớc (so với cùng khoảng thời gian trong năm). Mức nƣớc tiêu thụ thông dụng của các khách hàng theo từng nhóm đối tƣợng.
Khai phá luật dãy Nguyễn Đình Văn
KẾT LUẬN
Thông qua việc tìm hiểu nghiên cứu một số tài liệu khoa học về khai phá luật dãy, luận văn với đề tài “Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nƣớc” tập trung nghiên cứu về các phƣơng pháp khai phá luật dãy, các thuật toán khai phá luật dãy phổ biến hiện nay và ứng dụng vào Hệ thống Quản lý khách hàng và tính hóa đơn nƣớc.
Luận văn đã thực hiện đƣợc những kết quả sau đây:
- Trình bày một cách tổng quan lý thuyết cơ bản về khai phá luật dãy, các bƣớc cơ bản trong quá trình khai phá luật dãy, những ứng dụng trong thực tế.
- Luận văn trình bày sơ bộ về Hệ thống Quản lý khách hàng và tính hóa đơn nƣớc. Phân tích và chỉ ra dữ liệu dãy của bài toán trong quá trình xử lý thông tin (Chƣơng 3, mục 3.3) để từ đó đƣa ra mô hình thử nghiệm quá trình khai phá luật dãy nhằm mong muốn phát hiện một số luật dãy giúp cho ban lãnh đạo có đƣợc những thông tin cần thiết phục vụ công tác quản lý, đƣa ra các chính sách kinh doanh, sản xuất hiệu quả.
Lĩnh vực khai phá luật dãy trong các CSDL lớn hiện đang đƣợc ứng dụng rộng rãi và là một trong những nội dung trọng tâm của khai phá dữ liệu. Khai phá luật dãy áp dụng cho bài toán này mở ra những định hƣớng nghiên cứu mới. Tuy nhiên, trong khuôn khổ thời gian và kinh nghiệm có hạn, luận văn mới chỉ dừng lại ở việc nghiên cứu thuật toán và áp dụng cho một phạm vi hẹp, chƣa mở rộng giải quyết đƣợc nhiều vấn đề cấp thiết của hệ thống. Trong thời gian tới, hƣớng mở rộng này sẽ đƣợc tiếp tục phát triển để có thể hoàn thiện hơn.
Khai phá luật dãy Nguyễn Đình Văn
TÀI LIỆU THAM KHẢO
[1].Agrawal R., Srikant R. (1995), Mining sequential patterns. In Proceedings of the International Conference on Data Engineering (ICDE): 3–14, IEEE Computer Society.
[2].Srikant R., Agrawal R. (1996), Mining sequential patterns: generalizations and performance improvements. Proceedings of the International Conference on Extending Data Base Technology (EDBT), Lecture Notes in Computer Science,
1057: 3–17.
[3].Masseglia F., Teisseire M., Poncelet P. (2005), Sequential pattern mining: A survey on issues and approaches. http://citeseerx.ist.psu.edu/viewdoc/summary? doi=10.1.1.106.5130.
[4].Jiawei Han and Micheline Kamber, (2006), Data Mining: Concepts and Techniques 2nd ed, University of Illinois at Urbana-Champaign
[5].Zhuo Zhang, Lu Zhang, Shaochun Zhong, Jiwen Guan (2008), A New Algorithm for Mining Sequential Patterns, FSKD (2) 2008: 625-629.
[6].Floriana Esposito, Nicola Di Mauro, Teresa Maria Altomare Basile, Stefano Ferilli (2008), Multi-Dimensional Relational Sequence Mining, Fundam. Inform., 89(1): 23-43.
[7].Yu Ning, Hongbin Yang (2008), Sequence Mining for User Behavior Patterns in Mobile Commerce, CMECG '08 Proceedings of the 2008 International Conference on Management of e-Commerce and e-Government: 61-64.
[8].Chun-Sheng Wang, Anthony J.T. Lee (2009), Mining inter-sequence patterns,
Expert Systems with Applications, 36 (2009): 8649–8658.
[9].D. Vasumathi, Dr. A. Govardhan, K.Venkateswara Rao (2009), Performance improvement and efficient approach for mining periodic sequential acess patterns, International Journal of Computer Science and Security (IJCSS),2009, 3 (5):358-370.
[10].Ding-Ying Chiu, Yi-Hung Wu, Arbee L. P. Chen (2009), Efficient frequent sequence mining by a dynamic strategy switching algorithm, VLDB J. , 18(1): 303-327.
[11].Karine Zeitouni (2009), From Sequence Mining to Multidimensional Sequence Mining, Mining Complex Data 2009: 133-152.
[12].Ming-Yen Lin, Sue-Chen Hsueh, Ming-Hong Chen, Hong-Yang Hsu (2009), Mining Sequential Patterns for Image Classification in Ubiquitous Multimedia Systems, Intelligent Information Hiding and Multimedia Signal Processing 2009(IIH-MSP '09): 303-306.
[13].Manish Gupta, Jiawei Han (2010), Pattern Discovery Using Sequence Data
Mining: Applications and Studies,
Khai phá luật dãy Nguyễn Đình Văn [14].M. Gholizadeh, M. M. Pedram, J. Shanbehzadeh (2010), Sequence Mining for
Similar Mental Concepts, IMECS 2010: 518-521.
[15].Marc Plantevit, Anne Laurent, Dominique Laurent, Maguelonne Teisseire, Yeow Wei Choong (2010), Mining multidimensional and multilevel sequential patterns, TKDD (2010), 4(1).
[16].Karam Gouda, Mosab Hassaan, Mohammed J. Zaki (2010), Prism: An effective approach for frequent sequence mining via prime-block encoding, J. Comput. Syst. Sci.76(1): 88-102.