1 Tóm tắt luận văn thạc só CNTT Tên đề tài: Xây dựng công cụ hỗ trợ kinh doanh siêu thò miễn thuế Thế Kỷ Vàng Học viên: Phan Mạnh Thường khóa:1 Người hướng dẫn: TS.Trần Hành Nội dung: Tổng quan: Khám phá liệu hay gọi khám phá tri thức từ liệu thu hút quan tâm giới khoa học máy tính công nghệ tri thức Nhiều kết nghiên cứu áp dụng hiệu vào thực tế cho thấy việc làm thiết thực không đơn lý thuyết Có thể nói thành công khám phá liệu kết hợp kỹ thuật từ lónh vực khác trí tuệ nhân tạo, học máy, xác xuất thống kê, lý thuyết thông tin, sở liệu tính toán hiệu xuất cao Nhiệm vụ khám phá liệu rộng lớn bao gồm việc phân lớp, dự báo, gom nhóm, khám phá quy luật kết hợp, khám phá mẫu Những lónh vực áp dụng khám phá liệu nhiều bao gồm ứng dụng thương mại, tài chính, ngân hàng, sinh học, y khoa, giáo dục, truyền thông quân sự… Bên cạnh yếu tố người thông tin, quy luật rút từ việc phân tích xử lý liệu kinh doanh đóng vai trò quan trọng liên quan đến thành công thất bại doanh nghiệp Việc nắm bắt kòp thời thông tin thò trường giúp cho doanh nghiệp chủ động việc tìm chiến lược, kế hoạch kinh doanh phù hợp đem lại hiệu cao Siêu thò miễn thuế Thế Kỷ Vàng siêu thò trực thuộc Cty TNHH Thương mại Duy Anh, trụ sở đặt 202 Hoàng Văn Thụ, Q.Phú Nhuận, TP HCM Ban quản lý siêu thò có quan tâm đặt mục tiêu nâng cao doanh số phát hiện, chăm sóc tốt khách hàng tiềm mình, nhiên họ thiếu thông tin hỗ trợ cho việc Nguồn liệu kinh doanh trực tiếp siêu thò quản lý hệ thống phần mềm bán hàng quầy hàng sở liệu lưu trữ máy chủ, nguồn liệu lớn liên tục gia tăng theo thời gian Tuy nhiên hệ thống phần mềm lại chức phân tích liệu tốt, nhu cầu công cụ có khả khai phá thông tin quý giá từ nguồn liệu để hỗ trợ cho kinh doanh cần thiết Kỹ thuật khai phá luật kết hợp có khả áp dụng tốt việc khai phá mối liên hệ mặt hàng liệu giao tác qua thể xu hướng thò hiếu tiêu dùng chung đa số khách hàng Những thông tin khai phá giúp ích cho nhiều vấn đề, ví dụ cải thiện cách thức trưng bày, giới thiệu hàng hoá siêu thò, kế hoạch nhập xuất kho, khuyến … Vấn đề giải quyết: Xử lý khối lượng liệu lớn : Hiện tại, siêu thò có khoảng 10000 mặt hàng loại, tháng số hoá đơn bán trung bình khoảng 200000 hoá đơn Sau lọc bỏ bớt mặt hàng không thông dụng (dựa truy vấn SQL theo doanh số số lượng) khoảng từ 2000 đến 3000 mặt hàng giao tác Với số lượng item giao tác dùng thuật toán dựa Apriori thuật toán khác phải qua giai đoạn phát sinh tập ứng viên không hiệu tượng bùng nổ tổ hợp Dữ liệu có thuộc tính số phân loại: cụ thể thuộc tính như: số lượng, doanh thu, phân loại mặt hàng, giới tính, độ tuổi… Vì việc áp dụng thuật toán khai phá luật kết hợp nhò phân khó khăn, luật tìm không xác vấn đề rời rạc hoá liệu gây nên Thêm vào đó, luật cụ thể không hàm chứa ý nghóa giải thích (dễ hình dung, dễ hiểu với người dùng) Khai phá luật kết hợp: vấn đề nêu, khối lượng liệu lớn bao gồm thuộc tính số, phân loại nên việc chọn thuật toán khai phá phù hợp hiệu vấn đề cần quan tâm ứng dụng vào thực tế Đối với thuộc tính phân loại, ta dùng kỹ thuật tổng quát hoá để xử lý, nhiên việc dẫn đến gia tăng kích thước liệu khó khăn chọn phân loại để tổng quát Đối với thuộc tính số, áp dụng phương pháp rời rạc hoá liệu dẫn đến số vấn đề như: kích thước liệu gia tăng số item gia tăng theo khoảng chia rời rạc thuộc tính số, luật tìm có độ xác không cao quan trọng không mang yếu tố ngữ nghóa, khó hiểu với người dùng không chuyên Vấn đề giải sử dụng kỹ thuật khai phá luật kết hợp mờ, kỹ thuật cho luật có độ xác tương đối, dễ hiểu, dễ giải thích việc sử dụng nhãn để rời rạc hoá liệu chứa đựng thông tin thú vò, hữu ích Cách giải quyết: Khai phá luật kết hợp tổng quát mờ o Ứng dụng lý thuyết tập mờ việc rời rạc hoá liệu số có giá trò liên tục o Trình bày thuật toán khai phá luật kết hợp tổng quát mờ với cải tiến dựa cấu trúc FP nhằm gia tăng hiệu thuật toán Việc sử dụng cấu trúc FP giúp cô đọng thông tin database đồng thời cho phép tìm kiếm tập phổ biến mà không cần phải qua giai đoạn phát sinh ứng viên Hơn việc sử dụng FP giúp giảm thiểu tối đa số lần phải duyệt database làm tăng hiệu thực thi Các đóng góp luận văn: Áp dụng kỹ thuật khai phá liệu việc xây dựng triển khai cài đặt ứng dụng khai phá liệu dựa liệu kinh doanh siêu thò miễn thuế Thế Kỷ Vàng (Golden Century) thuộc công ty TNHH Duy Anh Ngoài luận văn đề xuất thuật toán cải tiến cho việc khai khoáng mẫu phổ biến mà không cần phát sinh ứng viên nhằm gia tăng hiệu thực thi Thuật toán sử dụng cấu trúc Frequent Pattern (FP-tree) , cấu trúc tiền tố mở rộng để lưu trữ cô đọng thông tin chủ yếu mẫu phổ biến phát triển phương pháp hiệu FP-Growth để khai khoáng tập đầy đủ mẫu phổ biến cách đệ quy gia tăng chiều dài mẫu Hiệu thuật toán thể qua yếu tố : o Thu gọn sở liệu lớn nhằm giảm chi phí lặp lại trình duyệt sở liệu o Khai phá dựa FP làm theo phương pháp gia tăng độ dài mẫu để tránh chi phí phát sinh số lượng lớn tập ứng viên o Phương pháp phân chia để tách công việc khai khoáng thành tập công việc nhỏ để khai khoáng mẫu có ràng buộc sở liệu có điều kiện 5 Phần cài đặt: Một số thông tin kỹ thuật liên quan đến chương trình cài đặt liệt kê bảng bên Bảng : Thông tin chương trình cài đặt Thơng tin chương trình cài đặt Ngơn ngữ Visual Basic Cơng cụ phát triển MS Visual Studio IDE 6.0 Kiểu ứng dụng Ứng dụng Windows 32 bit Hệ điều hành Microsoft Windows 2000, XP Mơi trường hoạt động Độc lập Cơ sở liệu Microsoft SQL Server 7, 2000 Kết nối sở liệu ADODB Cấu hình máy chạy (tối thiểu) PC CPU 1.2GHz, RAM 256MB, HDD 10GB… Cấu hình đề nghị PC CPU 2.4GHz, RAM 1GB, HDD 80GB… Dựa vào CSDL bán hàng Siêu thò miễn thuế Thế Kỷ Vàng, xây dựng công cụ khai phá luật kết hợp mờ với số giao diện chức năng: Giao diện Giao diện hiệu chỉnh cấu trúc phân cấp Taxonomy Giao diện khai báo hàm thành viên Giao diện khai phá luật kết hợp Giao diện kết Tài liệu tham khảo: Tiếng việt [1] Hồng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc (2002), Các Hệ Cơ sở tri thức [2] Đỗ Phúc (2004), Giáo trình Data warehouse – Data mining, TTCNTTĐHQG TPHCM [3] Phạm Thị Bạch Huệ (2001), Khai khống liệu- Tìm luật có hiệu ứng dụng cao từ tập luật kết hợp, Luận văn Thạc sĩ Tin Học, Trường Đại học KHTN, TP.HCM [4] Nguyễn Hà Giang (2004), Khám phá luật kết hợp mờ ứng dụng, Luận văn Thạc sĩ Tin học, Trường Đại học Khoa học Tự Nhiên [5] Lê Thanh Minh (2002), Khai khống liệu phục vụ giáo dục đào tạo Kiên Giang, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN, TP.HCM [6] Nguyễn Quốc Thơng (2002), Phát triển số ứng dụng khai thác liệu vào giáo dục đào tạo, Luận văn Thạc sĩ Tin học, trường Đại học KHTN, TP.HCM [7] Nguyễn Đăng Tỵ (2001), Ứng dụng khai khống liệu phân tích liệu thống kê, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN, TP.HCM [8] Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai thác liệu nghiệp vụ xử lý cước điện thoại bưu điện tỉnh Ninh Thuận, Luận văn Thạc sĩ Tin học, trường Đại học KHTN, TP.HCM Tiếng Anh [9] Berry, J.A., & Linoff, G (1997) Data mining techniques: For marketing, sales, and customer support New York: Wiley [10] Berry, J.A., & Linoff, G (2000) Mastering data mining: the art and science of customer relationship management New York: Wiley [11] Berson, A., Smith, K., & Thearing, K (2000) Building data mining applications for CRM New York: McGraw-Hill [12] Han, J., & Fu, Y (1995) Discovery of multiple-level association rules from large database Proceedings of the International Conference on very large Data Bases [13] Han, J., & Kamber, M (2001) Data mining: concepts and techniques Loas Altos, CA: Morgan Kaufmann [14] Piatetsky-Shapiro, G.Frawley, WJ (1991), “Knowledge discovery in Databases“, AAAI Press/The MIT Press, Menlo Park, California, USA [15] R.Agrawal, T Imielienski, and A Swami (1993), “Mining Association Rules between Sets of items in Large Databases”, proc Conf on management of data, ACM Press, New York, pp 207 – 216 [16] R Agrawal and R Srikant (June 1994), “Fast algrorithms for mining association rules in large database’ Research Report RJ 9839, IBM Almaden Research center, San Jose, California [17] Keith C.C Chan and W.H.Au (1997), “Mining Fuzzy Association Rules”, in Proc Of the 6th Int’l Conf on Information and Knowledge Management, Las Vegas, Nevada, pp 209-215 [18] Fu, A.et al.(1998), “Finding fuzzy sets for the mining of association rules for numerical attributes”, in Proceeding of 1st Intl Symposium on Intelligent Data Engineering and Learning (IDEAL’98), pp 263-268 10 [19] Attila Gyenesei (2000), “A fuzzy approach for mining quantitative association rules”, TUCS technical report 336, University of Turku, Department of Computer Science, Lemminkisenkatu 14, Finland [20] Tzung-Pei Hong, K.Y.L., S.L.W.(2003), “Fuzzy data mining for interesting generalized association rules”, Fuzzy Sets and Systems 138, pp.255-269 [21] J Han, J Pei, and Y Yin: “Mining frequent patterns without candidate generation” In Proc ACM-SIGMOD’2000, pp 1-12, Dallas, TX, May 2000 [22] Cheung, W., and Osmar, R.Z Incremental mining of frequent patterns without candidate generation or support constraint In proc of th IDEAS’03, Hong Kong, 2003, pp 111-116 [23] Wang, J., Han, J., Lu, Y and Tzvetkov, P TFP: An efficient algorithm for mining top-k frequent closed itemsets In proc of IEEE Knowledge an Data Engineering, vol 17, no.5, 2005, pp 652-663 [24] Hirate, Y., Iwahashi, E., and Yamana, H TF 2P-Growth: An efficient algorithm for mining frequent patterns without any thresholds In proc of ICDM 2004 [25] Quang, T.M., Oyanagi, S., and Yamazaki, K Mining the k-most interesting frequent patterns In proc of Information Processing Society of Japan, 68th National Conference, Tokyo, Japan, 2006 [26] Hima Vallikona (December 2003), Association Rule Mining over Multiple Database: Partitioned and Incremental Approaches Master thesis The University of Texas at Arlington 10 ... dụng kỹ thuật khai phá liệu việc xây dựng triển khai cài đặt ứng dụng khai phá liệu dựa liệu kinh doanh siêu thò miễn thuế Thế Kỷ Vàng (Golden Century) thuộc công ty TNHH Duy Anh Ngoài luận văn... Cấu hình đề nghị PC CPU 2.4GHz, RAM 1GB, HDD 80GB… Dựa vào CSDL bán hàng Siêu thò miễn thuế Thế Kỷ Vàng, xây dựng công cụ khai phá luật kết hợp mờ với số giao diện chức năng: Giao diện Giao diện... Ban quản lý siêu thò có quan tâm đặt mục tiêu nâng cao doanh số phát hiện, chăm sóc tốt khách hàng tiềm mình, nhiên họ thiếu thông tin hỗ trợ cho việc Nguồn liệu kinh doanh trực tiếp siêu thò quản