1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng thuật toán efim để khai phá tập mục hữu ích cao từ cơ sở dữ liệu bán hàng tại siêu thị co opmart quảng ngãi

73 37 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 5,55 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM PHẠM THỊ KIM PHƯỢNG ỨNG DỤNG THUẬT TOÁN EFIM ĐỂ KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU BÁN HÀNG TẠI SIÊU THỊ CO.OPMART QUẢNG NGÃI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM PHẠM THỊ KIM PHƯỢNG ỨNG DỤNG THUẬT TOÁN EFIM ĐỂ KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU BÁN HÀNG TẠI SIÊU THỊ CO.OPMART QUẢNG NGÃI Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 61.49.01.06 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Đà Nẵng – Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: - Đây cơng trình nghiên cứu riêng tơi - Nội dung, kết nêu luận văn trung thực chưa công bố cơng trình khác - Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm công bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Phạm Thị Kim Phượng MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa đề tài Kết dự kiến Bố cục luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lược khai phá liệu 1.1.2 Quá trình khám phá tri thức từ sở liệu 1.1.3 Các dạng liệu khai phá 1.1.4 Một số kỹ thuật khai phá liệu 1.1.5 Một số ứng dụng khai phá liệu 1.1.6 Lợi khai phá liệu so với phương pháp khác 10 1.1.7 Những thách thức khai phá liệu 11 1.2 KỸ THUẬT KHAI PHÁ TẬP MỤC PHỔ BIẾN VÀ LUẬT KẾT HỢP12 1.2.1 Cơ sở liệu giao tác 12 1.2.2 Tập mục phổ biến luật kết hợp 13 1.2.3 Khai phá tập mục phổ biến - Frequent Itemset Mining 15 1.2.4 Khai phá luật kết hợp 16 1.3 KẾT CHƯƠNG 17 CHƯƠNG KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU GIAO TÁC 18 2.1 ĐẶT VẤN ĐỀ 18 2.2 TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU KHAI PHÁ TẬP MỤC HỮU ÍCH CAO 18 2.3 MỘT SỐ ĐỊNH NGHĨA CỦA BÀI TOÁN 20 2.4 MỘT SỐ THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO 22 2.4.1 Thuật tốn Two-Phase 22 2.4.2 Thuật toán FHM 23 2.5 THUẬT TOÁN EFIM 23 2.5.1 Một số khái niệm 24 2.5.2 Thuật toán EFIM 32 2.6 ÁP DỤNG THUẬT TOÁN 34 2.7 KẾT CHƯƠNG 36 CHƯƠNG CÀI ĐẶT THUẬT TOÁN EFIM VÀ ỨNG DỤNG KHAI PHÁ DỮ LIỆU BÁN HÀNG 37 3.1 GIỚI THIỆU HỆ THỐNG SIÊU THỊ 37 3.2 GIẢI PHÁP KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU BÁN HÀNG TẠI SIÊU THỊ 38 3.3 THU THẬP VÀ XỬ LÝ DỮ LIỆU 38 3.3.1 Một số vấn đề liên quan đến lợi nhuận cao 38 3.3.2 Thu thập xử lý liệu 39 3.4 CÀI ĐẶT THUẬT TOÁN 42 3.4.1 Lớp Item 43 3.4.2 Lớp Transaction 43 3.4.3 Lớp DataAssistant 43 3.4.4 Lớp EFIM 44 3.5 THỬ NGHIỆM CHƯƠNG TRÌNH 44 3.6 ĐÁNH GIÁ THUẬT TOÁN 46 3.6.1 Kết đầu 46 3.6.2 Thời gian thực 46 3.6.3 Sử dụng nhớ 47 3.6.4 Tìm kiếm nút 48 3.7 KẾT CHƯƠNG 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CÁC KÝ HIỆU α Tập mục α–T Giao tác tham chiếu α–D CSDL tham chiếu conf(X→ Y) Độ tin cậy luật X→ Y D Cơ sở liệu giao tác D E(α) Các mục mở rộng H Tập hợp tập mục hữu ích cao I Tập mục CSDL giao tác ij Mục liệu thứ j lu(α, z ) Giá trị hữu ích cục z α minconf Độ tin cậy tối thiểu minutil Ngưỡng hữu ích tối thiểu minsup Độ hỗ trợ tối thiểu re(X, Td) Giá trị hữu ích cịn lại X giao tác Td su(α, z) Giá trị hữu ích z α sup(X) Độ hỗ trợ tập mục X sup(X→ Y) Độ hỗ trợ luật X→ Y T Giao tác Td Giao tác thứ d tu Độ hữu ích giao tác TWU(X) Độ hữu ích trọng số tập mục X u(ij, Td) Giá trị hữu ích tập mục ij giao tác u(X) Giá trị hữu ích tập mục X X→ Y Luật X→ Y z Mục ≻ Thứ tự xếp mục ≻T Thứ tự xếp giao tác  Và  Tập  Phép giao  Phép hợp CÁC CHỮ VIẾT TẮT CSDL Cơ Sở Dữ Liệu KPDL Khai Phá Dữ Liệu EFIM EFficient high-utility Itemset Mining EUCS Estimated Utility Co-Occurrence Structure FHM Fast High-utility Miner FUC Fast Utility Counting FUM Fast Utility Mining HDP High-utility Database Projection HTM High-utility Transaction Merging KDD Knowledge Discovery in Databases LUHF Low Utility and High Frequency LULF Low Utility and Low Frequency HUHF High Utility and High Frequency HULF High Utility and Low Frequency TWU Transaction Weighted Utilization HUIM High Utility Itemset Mining DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Biểu diễn ngang 12 1.2 Biểu diễn dọc 13 1.3 Biểu diễn ma trận giao tác 13 1.4 Danh sách tập mục phổ biến 14 2.1 Cơ sở liệu giao tác 20 2.2 Biểu diễn giá trị lợi nhuận mục CSDL 20 2.3 Bảng độ hữu ích giao tác CSDL 24 2.4 TWU mục CSDL giao tác D 25 2.5 Giá trị TWU utility-bin 32 2.6 CSDL sau xếp giao tác 35 2.7 Hợp giao tác CSDL tham chiếu {A} –D 35 2.8 Tập mục hữu ích cao 36 3.1 Danh sách mặt hàng 39 3.2 Lợi nhuận mặt hàng 42 3.3 Kết trả hai thuật toán 46 DANH MỤC CÁC HÌNH Số hiệu hình Tên hình Trang 1.1 Quá trình khám phá tri thức 2.1 Biểu diễn tìm kiếm I 26 3.1 Dữ liệu làm 41 3.2 Màn hình đăng nhập hệ thống 44 3.3 Giao diện 45 3.4 Kết mặt hàng có giá trị lợi nhuận cao 46 3.5 Thời gian thực hai thuật toán 47 3.6 Dung lượng nhớ hai thuật toán 47 3.7 Số nút tìm kiếm thuật tốn 48 49 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Về lý thuyết, luận văn trình bày sở lý thuyết liên quan đến khai phá liệu, kỹ thuật khai phá tập mục phổ biến luật kết hợp, thuật toán khai phá tập mục hữu ích cao EFIM Ứng dụng thuật toán EFIM để xây dựng hệ thống rút mặt hàng bán kèm mang lại lợi nhuận cao cho siêu thị Co.opMart Quảng Ngãi Nó giúp cho người quản lý đưa chiến lược kinh doanh nhằm đem lại doanh thu cao Hạn chế - Chương trình xử lý lưu trữ liệu file excel chưa so sánh với nhiều thuật toán khác - Chưa kết nối đến hệ quản trị sở liệu siêu thị - Dữ liệu thực giao tác 1000 ghi - Hiện thực nghiệm số mặt hàng, chưa áp dụng hết mặt hàng siêu thị Hướng phát triển Trong thời gian tới hoàn thiện chức cịn hạn chế tiếp tục nghiên cứu thuật tốn khai phá tập mục hữu ích cao khác từ nghiên cứu mở rộng thuật tốn khai phá luật kết hợp từ tập mục hữu ích cao Cần thử nghiệm ứng dụng với khối lượng lớn liệu để đánh giá hiệu xuất thuật toán DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bài giảng Khai phá liệu (2011) Trường ĐH Hàng Hải Việt Nam [2] Nguyễn Hữu Trọng (2007), “Thuật toán khai phá tập mục liệu thường xuyên sở liệu gia tăng dựa phân lớp liệu”, tạp chí Khoa học Cơng nghệ [3] TS Đỗ Phúc (2006), “Giáo trình khai thác liệu”, NXB Đại học quốc gia TP Hồ Chí Minh Tiếng Anh [4] R Agrawal, R Srikant (1994) “Fast algorithms for mining association rules in large databases”, Proceedings of 20th international conference on very large databases, Vol 1215, pp 487-499 [5] H Yao, H J Hamilton, C J Butz, “A foundation approach to mining itemset utilities from databases”, in: Proceedings of the Third SIAM International Conference on Data Mining, Orlando, Florida, 2004, pp.482-486 [6] H Yao, H J Hamilton, L Geng, “A Unified Framework for Utility Based Measures for Mining Itemsets”, UBDM06, Philadelphia, Pennsyl-vania, USA, August 2006 [7] Jiawei Han, Micheline Kamber; Jian Pei (2012) “Data Mining Concepts and Techniques” Third Edition [8] Liu, Y Liao, W Choudhary A: (2005) “A two-phase algorithm for fast discovery of high utility itemsets”, In: Proc 9th Pacic-Asia Conf on Knowl Discovery and DataMining, pp 689-695 (2005) [9] Liu, M J Qu, “Mining high utility itemsets without candidate generation”, In: Proc 22nd ACM Intern Conf Info and Know Management, pp 55{64 (2012) [10] J Liu, K Wang, B Fung (2012), “Direct discovery of high utility itemsets without candidate generation” In: Proceedings of the 12th IEEE international conference on data mining, IEEE, Brussels, Belgium, December 2012, pp 984–989 [11] T Mitchell (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol 42, No 11, pp 30-36 [12] Sudip Bhattacharya, International Deepty Dubey “High Utility Itemset Journal of Emerging Technology and Mining” Advanced Engineering 2012 pp 476-481 [13] S Shankar, T P Purusothoman, S Jayanthi, N Babu, “A fast agorithm for mining high utility itemsets”, in: Proceedings of IEEE International Advance Computing Conference (IACC 2009), Patiala, India, pp.14591464 [14] S Zida, P Fournier-Viger, J C W Lin, C W Wu, VS Tseng (2015) “EFIM: A Highly Efficient Algorithm for Mining High-Utility Itemsets mining”, Mexican International Conference on Artificial 530-546 [15] V Philippe Fournier, C W Wu, S Zida,V S Tseng “FHM: Faster HighUtility Itemset Mining using Estimated Utility Co-occurrence Pruning”, 2014, pp 83-92 Trang Web [16] Siêu thị Co.opMart (Truy cập: 19/04/17) D� H()C DA NANG TRUONG B� HQC SU PJl4M C()NG HOA XA H()I CHU NGHiA V�T NAM D9c l�p-Tlf do-H�nh phuc BIEN BAN , ? HOP HOI DONG CHAM LOAN VAN THAC Si Ten dS tai: Ung d1:1,ng thu(jt toan EFIM ad khai pha t(jp m7:1-c hiru ich cao tit ca so· dii li¢u ban hang tc;d sieu tht Coopmart Quang Ngiii Chuyen nganh: H� th6ng thong tin Theo QuySt dµih thrum l�p H9i d6ng ch§.m lu� van th�c sI s6 721 /QD-DHSP 0717/201 Ngay h9p H9i d6ng: 30 thang nam 2017 Danh sach cac vien H o.6np Zluilp Agx ~P V!'B 01}1 £ ·WldH 'WHd '~suqd-OM.l uyoll~nl.{l nlfU ou:> l.{:>Jnuq ::>nmd~l yqd !utp[ dyqd IV!Zl01}0 ilA nil!q mn 90 :>~!AU~!q illfl ~P V!zl :>Yl'Zlunp !gu ilA ·Z " \, - ( \ 'qoIP :>nm :>.6np quip :>yx ~P nyp Qm uyqd ZlUOll U!1Au~nI ':>l)ql lfU!q ilA I \ lil)f , :vnb It , II oY:> :>.6np U~!q :>ill.{lgp V!zl :>Yl'~unp !gu ilA , :Hx utqN of' ·AVUUYOl!Vq !-9A!9P WldH u1}oll~nql Zlunp J)s n9!I UP 1}qd !utp[ quP1 Zluonq:> Zluilp AgX VA !gZlN ZluVno llUWdooJ !-9A !9P lU !ql nil!s P~l lfUuoP lfU!)f O~!A l~P U1}OlIVq n~!ql !-9!Zl V!'B 0Yl 'guull I 1-9A'£ Zluomp ZlUOll • • cac thua; toan lai su dung cac khai niem tai muc 2.4 gay kho hieu cho ngiroi d9C - Tac gia chi xay dung irng dung thuc nghiem tren mQt s6 m~u thir, chua k~t n6i voi CSDL ban hang cua sieu thi Coopmart nhu ten f)~ tai luan van c6 neu K~t qua day chua c6 y nghia vi s6 hrong mfru thir it va khong mang duoc tinh khai quat, cling chua giai quyet diroc bai toan cho sieu thi CoopMart y ki~n f)~ as nghi nghi cho phep hoc vien dtroc bao v~ lu~n van tnroc hQi d6ng cham luan van Ti~n si chuyen nganh H~ Thong Thong tin Cau hoi: CO' so nao d€ ban chon 25 m~t hang s6 20000 m~t hang cua sieu thi? C6 phai ban chon cac m~t hang oil co co s6 r~.ngse dem l~i lqi nhu~n cao? N~u nhu tang len 100 ho~c 1000 m~t hang thi chuang trinh cua b~n c6 the ch~y duqc khong? B~n d\Ia vao dau d€ dua gia tri minulti nhu th\Ic nghi~m? B~ oil thu tang minulti len cao han nfra chua? Ket qua nhu th~ nao? Ed Niing, cmg niim 2017 NguCrin ~nxet TS Nguy~n Quang Than C()NG HOA XA H()I CHU NGHiA VItT NAM Dqc l�p - Tl! - H�nh phuc -000 BA.N NH�N XET LU�N VAN TH�C Si (Dung cho pban bi�n) Tend� tai Ju� van: (fog d\lng thu�t toan EFIM d� khai pha t�p m\}c huu ich cao tu CSDL ban hang t�i sieu thi CO.OPMARK Quang Ngai Chuyen nganh: H� th6ng thong tin Ma nganh: 61.49.01.06 HQ va ten h9c vien: Ph�m Thi Kim Phucmg Nguai hu6ng dful khoa h9c: PGS.TS Trin Qu6c Chi�n N(>I DUNG N�N XET I/ Tinh dp thiit ciia d� tai: Cao II/ CO' sfr khoa hqc va thl!c ti�n: Cin Ill/Phuong phap nghien CU1J: Khoa h9c IV/Kit qua nghien Clfll: • Lu�n van da dap llllg duqc sa b9 v� yeu dud�t cuad� tai la SU d\lllg thu�t toan EFIMdi tim ki�m t6 hqp cac m�t hang mang l�i lqi nhu�n cao cho doanh nghi�p CoopMark Quang Ngai • KSt qua day khien t6n du li�u thfr nghi�m m&i chi dl!l1g I� a vi�c trich ch911 25/20000 m�t hang tren 000 h6adan ban nam 2016 ti;ii sieu tlJi CoopMark Quang Ngai V/ Hinh thtrc lu�n van: Ti;imduqc Tuy nhien, tac gia cin xem I� each tac gia di�nd�t m9t s6 trang Vi d\l: ã Trang 4, màc 7: tac gia hoan toan c6 thi vi�t m9t each dcm gian la "Chuang trinh bay " 0day, khong di�n van li�t ke thi cau cin c6du ca cbu va vi ngfr • Trang 5, 18: t�i nhfrng ch6 tac giadua trich dful, chu ngu va vi ngfr m�I HQC SU PH�M CQNG HOA XA HQI CHU NGHiA VI:E:T NAM D{>c l�p - T\l' - H�nh phtic BA.N TUONG TRINH BO SUNG, SUA CHUA LU�N VAN - H va ten hc vien: Phi d6ng bao v� lu�n van h9p 30/07/2017, chung toi giai trinh m(>t s6 n(>i dung sau: Nhfrng diSm da b6 sung, sua chfra: - V€ hinh thuc: Ba chinh sua cac 16i chinh ta va thS thuc trinh bay lu�n van - V€ n(>i dung: + Ba chinh sira l?i n(>i dung t?i mvc trang 4, n(>i dung trang va trang 18 + B6i l?i ten t?i lll\lC 3.2 trang 38 + Ba th6ng nhfit each trinh bay cua thu�t toan Nhfrng diSm bao luu y kiSn, khong sira chfra, di€u chinh (nSu c6) bai nhfrng ly sau: Khong c6 Da Ndng, 24 thang 08 nam 2017 Ngrroi hmrng dfin xac nh�n - IJa ki€m tra lu(m van va ccic l6i sau chinh sii:a - f)(i ki€m tra thong tin lu(m van bdng tidng Vif t va tdng Anh HQc vien Ph�m Thi Kim PhtrQ'ng Xac nh�n cu.a BCN Khoa Xac nh9n lu9n van sou chinh si'i:a va d6ng y cha h9c vien n9p luu chi€u B45.QT751-02 I I l TRANG THONG TIN LUAN VA.N THAC Si Thong tin chung: - Ten dS tai: ang d11ng thiuj,t toan EFIM ad khai pha tg,p m'J!,C hfi:u ich cao tir CO' so· du li¢u ban hang tc;zi sieu tht Co.opmart Quang Nga.i - Nganh: H� th6ng thong tin - H9 va ten h9c vien: Phc;im Thi Kim Phm;mg - Nguai hu6ng d�n khoa h9c: PGS TSKH Tr�n Qu6c ChiSn - Casa dao t nh& t6t hO'n, it t6n dung lugng h011 so vm thu�t toan FHM + S6 nut tim ki8m tren cay cu.a thu?-t toan EFlM it hem fl-IM, d:i�u c6 nghfa vi�c cilt tia khong gian tun ki8m cu.a EFIM c6 hi�u qua han so vai thu?t toan FHM Y nghia khoa hQc - Cai d:�t thu�t toan EFIM dS rut cac m�t hang ban kem c6 gia tri lqi nhu� cao 1am CO' SO' d� ap di,mg thU?-t toan khai pha }u�t k8t hQ'p tu: t�p lTil,IC hfrn ich Cao - Dua cac uu di�m so v6i cac thu�t toan khac Y nghia thl}'-c ti�n Tu CSDL ban hang rut cac m�t hang ban kem mang l:;i.i lqi nhu?-n cao, tir d6 dinh hu&ng kinh doanh cho sieu thi Hmrng phat tri�n Trong thoi gian t6i se hoan thi�n nhf.mg chfrc nang hc;m ch6, ti8p tµc nghien B47.QT751-02 CU'U INFOR1\1ATION PAGE OF MASTER THESIS General information: - Name of thesis: EFIM algorithm application to mining algorithms useful items high collective database Co.opmart supermarket sales in Quang Ngai - Major: Information system - Full name of Master student: Pham Thi Kim Phuong - Supervisors: Associate Professor Doctor of Science Tran Quoc Chien - Training institution: Danang Education University, the University of Danang Result: In theory, the thesis presented is theoretical basis related to data mining, mining techniques and set common item association rules, mining algorithms set high EFIM useful items Experimental: EFI:M: algorithm settings on the database transaction Co.opMa1t sales in Quang Ngai, the results show the following: - Show items bundled together with high profit value threshold minimum useful From that helps managers make business strategy to bring higher revenue - Comparing algorithm EFIM and the algorithm FHM: + Output: Number of items useful set high and items included with each of the two algorithms are the same + The execution time of the algorithm EFIM is much faster than with FHM + EFIM algorithm better memory utilization, less capacity than the algorithm FHM + Number of nodes in the tree search algorithms EFIM less FHM, this means pruning the search space ofEFIM effective than the algorithm FHM Scientific significance: - EFIM algoritlun settings to draw items sold with high profit value as a basis to apply the rules mining algorithms combine high utility item from collection - Offers advantages over other algorithms Practical significance: - From database sales draw items included bringing high profits, from which direction the supermarket business Development: B47.QT751-02 ... ? ?Ứng dụng thuật toán EFIM để khai phá tập mục hữu ích cao từ sở liệu bán hàng siêu thị Co. opMart Quảng Ngãi? ?? Mục tiêu nhiệm vụ 2.1 Mục tiêu - Thu thập liệu bán hàng siêu thị Co. opMart Quảng Ngãi. .. Ngãi - Tìm hiểu thuật tốn EFIM để khai phá tập mục hữu ích cao từ CSDL giao tác - Ứng dụng thuật tốn EFIM để tìm tập mục hữu ích cao từ CSDL bán hàng siêu thị Co. opMart Quảng Ngãi 3 2.2 Nhiệm... - Thuật toán EFIM để khai phá tập mục hữu ích cao - Thơng tin liệu bán hàng siêu thị 3.2 Phạm vi nghiên cứu - Nghiên cứu thuật toán EFIM để khai phá tập mục hữu ích cao từ CSDL giao tác - Số liệu

Ngày đăng: 14/05/2021, 15:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN