Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nước

3 423 0
Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nước

Đang tải... (xem toàn văn)

Thông tin tài liệu

Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nước Nguyễn Đình Văn Trường Đại học Công nghệ Luận văn ThS. ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS. Hà Quang Thụy Năm bảo vệ: 2011 Abstract. Khái quát chung về luật dãy và khái phá luật dãy: trình bày khái quát về luật kết hợp, một số đối sánh giữa luật dãy và luật kết hợp, đồng thời giới thiệu sơ bộ các phương pháp tiếp cận khai phá luật dãy và các thuật toán điển hình tương ứng. Các phương pháp khai phá luật dãy: tập trung giới thiệu các thuật toán khai phá luật dãy như AprioriAll, AprioriSome, GSP là những thuật toán khởi thủy khai phá luật dãy và giới thiệu hai phương pháp khai phá luật dãy được công bố thời gian gần đây là “Khai phá luật dãy sử dụng kỹ thuật phân vùng” và “Khai phá luật dãy bằng mã hóa khối cơ bản”. Tổng quan về Hệ thống Quản lý khách hàng và tính hóa đơn nước, đồng thời đề xuất ứng dụng khai phá luật dãy với thuật toán AprioriAll trong Hệ thống Quản lý khách hàng và tính hóa đơn nước. Keywords. Khai phá dữ liệu; Thuật toán; Hệ thống quản lý; Khách hàng; Hóa đơn Content Khai phá luật dãy là một trong những lĩnh vực rất quan trọng trong nghiên cứu khai phá dữ liệu của thập kỷ gần đây và ngày càng được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau. Vì trong thực tế, dữ liệu dãy tồn tại rất phổ biến, như dãy dữ liệu mua sắm của khách hàng, dữ liệu điều trị y tế, các dữ liệu liên quan đến các thảm họa tự nhiên, dữ liệu xử lý khoa học và kỹ thuật, dữ liệu chứng khoán và phân tích thị trường, dữ liệu các cuộc gọi điện thoại, nhật ký truy cập web, dãy ADN biểu thị gen Mục đích chính của khai phá luật dãy là tìm kiếm và phát hiện tất cả các dãy con lặp đi lặp lại trong một CSDL theo yếu tố thời gian. Hiện nay, trên thế giới đã có rất nhiều nhóm tác giả nghiên cứu đề xuất các thuật toán với các phương pháp tiếp cận khai phá luật dãy khác nhau [1,2,5-12,14-16] nhằm giải quyết sự đa dạng của các loại bài toán cũng như đưa ra các hướng cải tiến nhằm giảm thiểu chi phí thời gian và tài nguyên hệ thống. Luận văn này nghiên cứu một số thuật toán khai phá luật dãy, trong đó tập trung chủ yếu vào các thuật toán AprioriAll, AprioriSome [1], vì đây là những thuật toán rất nổi tiếng trong lĩnh vực khai phá luật dãy và phù hợp với việc ứng dụng thử nghiệm vào Hệ thống Quản lý khách hàng và tính hóa đơn nước. Luận văn tiếp tục khóa luận tốt nghiệp đại học trước đây của tôi (Nguyễn Đình Văn (2003), Phân tích thiết kế hệ thống và ứng dụng vào bài toán quản lý khách hàng và tính hóa đơn nước) trong việc bổ sung những tính năng nâng cao cho hệ thống. Luận văn hy vọng phát hiện được một số luật dãy, chẳng hạn như dãy thời gian tiêu thụ nước nhiều nhất trong năm, dãy dịch chuyển mức tiêu thụ nước theo mục đích sử dụng (sinh hoạt, sản xuất, kinh doanh, công cộng, …), phát hiện những trường hợp bất thường trong sử dụng nước (tỉ lệ đăng ký sử dụng và thực tế sử dụng nước), mức độ thất thoát nước và nguyên nhân thất thoát nước … để lãnh đạo xí nghiệp có thể đưa ra các biện pháp quản lý, các chiến lược sản xuất, kinh doanh phù hợp. Luận văn được trình bày gồm có phần mở đầu, ba chương và phần kết luận. Trong chương một, luận văn tập trung chủ yếu vào giới thiệu tổng quan về luật dãy và khái phá luật dãy. Vì luật dãy có những mối liên hệ gần gũi với luật kết hợp và một số thuật toán khai phá luật dãy trong luận văn là mở rộng của thuật toán điển hình Apirori khai phá luật kết hợp, nên phần này sẽ trình bày khái quát về luật kết hợp, một số đối sánh giữa luật dãy và luật kết hợp. Giới thiệu sơ bộ các phương pháp tiếp cận khai phá luật dãy và các thuật toán điển hình tương ứng. Nội dung của chương này được tổng hợp từ các tài liệu [1,3-4,13]. Trong chương hai, luận văn tập trung giới thiệu các thuật toán khai phá luật dãy như AprioriAll [1], AprioriSome [1], GSP [2] là những thuật toán khởi thủy khai phá luật dãy. Giới thiệu hai phương pháp khai phá luật dãy được công bố thời gian gần đây là “Khai phá luật dãy sử dụng kỹ thuật phân vùng” [10] và “Khai phá luật dãy bằng mã hóa khối cơ bản” [16]. Trong chương ba, luận văn giới thiệu tổng quan về Hệ thống Quản lý khách hàng và tính hóa đơn nước, đồng thời đề xuất ứng dụng khai phá luật dãy với thuật toán AprioriAll. Trong đó, đưa ra yêu cầu đầu bài và mô hình cụ thể giải quyết bài toán. Luận văn sử dụng dữ liệu mô phỏng của Xí nghiệp kinh doanh nước sạch Hoàn Kiếm làm dữ liệu thử nghiệm để thực thi chương trình, đánh giá kết quả thực nghiệm. Luận văn được hỗ trợ một phần từ Đề tài QG.10-38. References [1]. Agrawal R., Srikant R. (1995), Mining sequential patterns. In Proceedings of the International Conference on Data Engineering (ICDE): 3–14, IEEE Computer Society. [2]. Srikant R., Agrawal R. (1996), Mining sequential patterns: generalizations and performance improvements. Proceedings of the International Conference on Extending Data Base Technology (EDBT), Lecture Notes in Computer Science, 1057: 3–17. [3]. Masseglia F., Teisseire M., Poncelet P. (2005), Sequential pattern mining: A survey on issues and approaches. http://citeseerx.ist.psu.edu/viewdoc/summary? doi=10.1.1.106.5130. [4]. Jiawei Han and Micheline Kamber, (2006), Data Mining: Concepts and Techniques 2nd ed, University of Illinois at Urbana-Champaign [5]. Zhuo Zhang, Lu Zhang, Shaochun Zhong, Jiwen Guan (2008), A New Algorithm for Mining Sequential Patterns, FSKD (2) 2008: 625-629. [6]. Floriana Esposito, Nicola Di Mauro, Teresa Maria Altomare Basile, Stefano Ferilli (2008), Multi-Dimensional Relational Sequence Mining, Fundam. Inform., 89(1): 23- 43. [7]. Yu Ning, Hongbin Yang (2008), Sequence Mining for User Behavior Patterns in Mobile Commerce, CMECG '08 Proceedings of the 2008 International Conference on Management of e-Commerce and e-Government: 61-64. [8]. Chun-Sheng Wang, Anthony J.T. Lee (2009), Mining inter-sequence patterns, Expert Systems with Applications, 36 (2009): 8649–8658. [9]. D. Vasumathi, Dr. A. Govardhan, K.Venkateswara Rao (2009), Performance improvement and efficient approach for mining periodic sequential acess patterns, International Journal of Computer Science and Security (IJCSS),2009, 3 (5):358-370. [10]. Ding-Ying Chiu, Yi-Hung Wu, Arbee L. P. Chen (2009), Efficient frequent sequence mining by a dynamic strategy switching algorithm, VLDB J. , 18(1): 303-327. [11]. Karine Zeitouni (2009), From Sequence Mining to Multidimensional Sequence Mining, Mining Complex Data 2009: 133-152. [12]. Ming-Yen Lin, Sue-Chen Hsueh, Ming-Hong Chen, Hong-Yang Hsu (2009), Mining Sequential Patterns for Image Classification in Ubiquitous Multimedia Systems, Intelligent Information Hiding and Multimedia Signal Processing 2009(IIH-MSP '09): 303-306. [13]. Manish Gupta, Jiawei Han (2010), Pattern Discovery Using Sequence Data Mining: Applications and Studies, http://www.cs.illinois.edu/homes/gupta58/sequence_data _mining.doc. [14]. M. Gholizadeh, M. M. Pedram, J. Shanbehzadeh (2010), Sequence Mining for Similar Mental Concepts, IMECS 2010: 518-521. [15]. Marc Plantevit, Anne Laurent, Dominique Laurent, Maguelonne Teisseire, Yeow Wei Choong (2010), Mining multidimensional and multilevel sequential patterns, TKDD (2010), 4(1). [16]. Karam Gouda, Mosab Hassaan, Mohammed J. Zaki (2010), Prism: An effective approach for frequent sequence mining via prime-block encoding, J. Comput. Syst. Sci. 76(1): 88-102. . Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nước Nguyễn Đình Văn Trường Đại học Công nghệ Luận văn ThS. ngành: Hệ thống. dụng khai phá luật dãy với thuật toán AprioriAll trong Hệ thống Quản lý khách hàng và tính hóa đơn nước. Keywords. Khai phá dữ liệu; Thuật toán; Hệ thống quản lý; Khách hàng; Hóa đơn Content. là Khai phá luật dãy sử dụng kỹ thuật phân vùng” và Khai phá luật dãy bằng mã hóa khối cơ bản”. Tổng quan về Hệ thống Quản lý khách hàng và tính hóa đơn nước, đồng thời đề xuất ứng dụng khai

Ngày đăng: 25/08/2015, 12:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan