Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

101 27 0
Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN HOÀNG NHẬT KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG TRONG LĨNH VỰC MUA BÁN HÀNG LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG, NĂM 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN HOÀNG NHẬT KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG TRONG LĨNH VỰC MUA BÁN HÀNG Chuyên ngành: Hệ thống thông tin Mã số: 61.49.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH ĐÀ NẴNG, NĂM 2017 i LỜI CAM ĐOAN Tôi xin cam đoan: - Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Trần Quốc Vinh - Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm công bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn Nguyễn Hoàng Nhật ii MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ xi MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Dự kiến kết Ý nghĩa khoa học thực tiễn Bố cục luận văn CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Mở đầu 1.1.2 Kiến trúc hệ thống khai phá liệu 1.1.3 Các giai đoạn trình khai phá liệu 1.1.4 Một số kỹ thuật khai phá liệu 1.1.5 Các sở liệu phục vụ cho khai phá liệu 1.1.6 Các phương pháp khai phá liệu 1.2 MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN TRÊN CSDL TĨNH 10 1.1.1 Mở đầu 10 1.1.2 Một số kiến thức 10 1.2.3 Phương pháp Apriori 14 1.2.4 Phương pháp FP-Tree 16 iii 1.2.5 Một số thuật toán khai phá tập phổ biến khác 18 1.2.6 Một số cấu trúc liệu giúp cải thiện thuật toán Apriori 20 1.3 KẾT CHƯƠNG 23 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG 25 2.1 THUẬT TOÁN FUP 25 2.1.1 Một số ký hiệu 25 2.1.2 Chi tiết thuật toán FUP 26 2.1.3 Ví dụ 29 2.2 KHÁI NIỆM PRE-LARGE-ITEMSET 32 2.3 THUẬT TOÁN PRE-LARGE-ITEMSET 34 2.3.1 Các ký hiệu lý thuyết liên quan 34 2.3.2 Thuật toán 36 2.3.3 Ví dụ minh họa 39 2.4 THUẬT TOÁN PRE-FUFP 45 2.4.1 Các ký hiệu 46 2.4.2 Thuật toán 46 2.5 THUẬT TOAN PRE-FUT 55 2.5.1 Các ký hiệu 55 2.5.2 Thuật toán Pre-FUT 56 2.5.3 Ví dụ thuật tốn Pre-FUT 58 2.6 KẾT CHƯƠNG 65 CHƯƠNG THỰC NGHIỆM VỚI DỮ LIỆU THỰC TẾ 66 3.1 MÔ TẢ DỮ LIỆU 66 3.2 MƠ TẢ CHƯƠNG TRÌNH 67 3.3 ĐÁNH GIÁ 69 3.4 KẾT CHƯƠNG 71 iv KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải CSDL Cơ sở liệu D Cơ sở liệu giao dịch (database) Di Phần thứ i D item Một thuộc tính sở liệu giao dịch itemset Tập thuộc tính sở liệu giao dịch X Một itemset I Tập n thuộc tính (item) phân biệt T Tập giao dịch sup(X), Độ hỗ trợ itemset X support(X), s(X) minsup Độ hỗ trợ tối thiểu support count Độ đếm hỗ trợ support ratio Độ hỗ trợ |X| Chiều dài X conf (X ⇒ Y) Độ tin cậy luật kết hợp X ⇒ Y minconf Độ tin cậy tối thiểu BFS Duyệt theo chiều rộng (Breadth First Search) DFS Duyệt theo chiều sâu (Depth First Search) k-itemset Một tập thuộc tính gồm k thuộc tính Ck Tập ứng viên k-itemset Lk Tập phổ biến k-itemset Ck Tập ứng viên k-itemset sinh nhờ kết hợp tập giao dịch tập Ck large itemset small Tập phổ biến itemset, Tập không phổ biến vi Ký hiệu Diễn giải loser candidate Tập ứng viên itemset hash-tree Cây băm hash -table Bảng băm hash function Hàm băm id{X} Thứ tự item X giao dịch xét DB Cơ sở liệu gốc db Cơ sở liệu cần thêm vào DB D Số lượng giao dịch DB d Số lượng giao dịch db L Tập hợp tập phổ biến DB Lk Tập large k-itemset DB s Độ hỗ trợ tối thiểu X.supportD Số lượng giao dịch DB chứa X X.supportd Số lượng giao dịch db chứa X X.supportUD Số lượng giao dịch DBdb chứa X L Tập hợp tập phổ biến CSDL DBdb Lk Tập large k-itemset DBdb lower support Độ hỗ trợ thấp upper support Độ hỗ trợ cao D Cở sở liệu gốc T Tập hợp giao dịch thêm vào U CSDL sau thêm giao dịch vào d Số lượng giao dịch D t Số lượng giao dịch T Sl Ngưỡng lower support tập pre-large itemset vii Ký hiệu Diễn giải Su Ngưỡng upper support tập large itemset LDk Tập large k-itemset D LTk Tập large k-itemset T LUk Tập large k-itemset U PkD Tập pre-large k-itemset D PkT Tập pre-large k-itemset T PkU Tập pre-large k-itemset U Ck Tập hợp tất ứng viên k-itemset T I Một itemset SD(I) Số lần xuất I D ST(I) Số lần xuất I T SU(I) Số lần xuất I U c Số lượng giao dịch thêm vào CSDL kể từ lần quét lại CSDL gốc gần R Tập rescan itemset, itemset không phổ biến CSDL gốc FUP Fast-Update algorithm Pre-FUT Fast-Update algorithm using Trie data structure and the concept of PRE-large itemsets IT-tree Item-Tidset tree FP-tree Frequent-Pattern tree FP-growth Frequent Pattern growth f Ngưỡng an toàn, dùng để xác định thuật toán cần quét xử lý lại toàn CSDL gốc TrD Cấu trúc Trie dùng để lưu tập hợp pre-large large itemset viii Ký hiệu Diễn giải D TrU Cấu trúc Trie dùng để lưu tập hợp pre-large large itemset U=D∪T count T ( X ) Độ đếm hỗ trợ X T D Độ đếm hỗ trợ X TrD U Độ đếm hỗ trợ X TrU countTr ( X ) count Tr ( X ) 73 FP-tree rõ ràng thấy cách tiếp cận dựa cấu trúc IT-tree khai phá tập phổ biến liệu tăng trưởng hứa hẹn cách tiếp cận hiệu tương lai 74 TÀI LIỆU THAM KHẢO [1] Agrawal, R., Imielinksi, T., Swami, A (1993), “Mining association rules between sets of items in large database”, The ACM SIGMOD conference, pp 207-216 [2] Agrawal, R., Srikant, R (1994), “Fast algorithm for mining association rules”, The international conference on very large data bases, pp 487-499 [3] Agrawal, R., Srikant, R (1995), “Mining sequential patterns”, The eleventh IEEE international conference on data engineering, pp 3-14 [4] Agrawal, R., Manila, H., Srikant, R., Toivonen, H and Verkamo A.L (1996), “Fast discovery of association rules”, Advances in Knowledge Discovery and Data Minning MIT Press [5] Bodon, F., Ronyai, L (2003), “Trie: An Alternative data structure for data mining algorithms”, Mathematical and Computer Modeling, 38(7-9), pp 739-751 [6] Cheung, D.W., Han, J., Ng, V.T., Wong, C.Y (1996), “Maintenance of discovered association rules in large databases: An incremental updating approach”, The twelfth IEEE international conference on data engineering, pp 106-114 [7] Dunham, M.H., Xiao, Y., Gruenwald, L., Hossain, Z (2003), “A survey of Assocition rules”, Department of Computer Science and Engineering Southerm Methodist University Dallas [8] Han, J., Fu, Y (1995), “Discovery of multiple-level association rules from large database”, The Twenty-first international conference on very large databases, pp 420-431 [9] Han, J., Pei, J., Yin, Y (2000), “Mining frequent patterns without candidate generation”, The 2000 ACM SIGMOD international conference on management of data, pp 1-12 75 [10] Hong, T.P., Wang, C.Y., Tao, Y.H (2001), “A new incremental data mining algorithm using pre-large itemsets”, Intelligent Data Analysis, 5(2), pp 111-129 [11] Hong, T.P., Lin, C.W., Wu, Y.L (2008), “Incrementally fast updated frequent pattern trees”, Expert Systems with Applications, 34(4), pp 2424-2435 [12] Hong, T.P., Lin, C.W., Wu, Y.L (2009), “Maintenance of fast updated frequent pattern trees for record deletion”, Computational Statistics and Data Analysis, 53(7), pp 2485-2499 [13] Hong, T.P., Wang, C.Y (2010), “An efficient and effective association-rule maintenance algorithm for record modification”, Expert Systems with Applications, 37(1), pp 618-626 [14] Hong, T.P., Wang, C.Y., Tseng, S.S (2011), “An incremental mining algorithm for maintaining sequential patterns using pre-large sequences”, In Expert Systems with Applications, 38(6), pp 7051-7058 (2011) [15] Koh, J.L., Shied, S.F (2004), “An efficient approach for maintaining association rules based on adjusting FP-tree structures”, In DASFAA’04, pp 417-424 [16] Knuth, D.E (1968), “The Art of Computer Programming”, Vol.3, AddisonWesley [17] Lin, X., Deng, X.H., Tang, S (2006), “A fast algorithm for maintenance of associations rules in incremental databases”, In ADMA’06, pp 56-63 [18] Lin, C.W., Hong, T.P., Lu, W.H (2009), “The Pre-FUFP algorithm for increment mining”, Expert Systems with Applications, 36(5), pp 9498-9505 [19] Mannila, H., Toivonen, H., Verkamo, A.I (1994), “Efficient algorithm for discovering association rules”, The AAAI workshop on knowledge discovery in databases, pp 181-192 [20] Srikant, R., Agrawal, R (1995), “Mining generalized association rules”, The twenty first international conference on very large data bases, pp 407419 76 [21] Thomas, S., Bodagala, S., Alsabti, K., Ranka, S (1997), “An efficient algorithm for the incremental updation of association rules in large databases”, SIGKDD’97, pp 263-266 [22] Zaki, M.J., Parthasarathy, S., Ogihara, M., Li, W (1997), “New algorithms for fast discovery of association rules”, 3rd International Conference on Knowledge Discovery and Data Mining (KDD) [23] Zaki, M.J., Hsiao, C.J (2005), “Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure”, IEEE Transactions on Knowledge and Data Engineering [24] Wang, C.Y., Hong, T.P., Tseng, S.S (2001), “Maintenance of sequential patterns for record deletion”, In ICDM’01, pp 693-696 Wang, C.Y., Hong, T.P., Tseng, S.S (2002), “Maintenance of sequential patterns for record modification using pre-large sequences”, In ICDM’02, pp 693-696 DA.I HOC DA NANG TRUONGD�IHQCSUP�M S6:�8?QD-DHSP CONG HOA XA HOI CHU NGHiA VIET NAM Dqc l�p - T\J' - H,nh phuc Da N{mg, JO thang niim 2017 QUYETDJNH v� vi�c di�u chinh ten d� tai lu�n van th,c si HitU TRUONG TRUONG D�I HQCSUP� Can cu Nghi dinh s6 32/CP 04 thang nam 1994 cua Chinh phu v€ vi�c l�p D�i h9c Da Nfuig; Can cu Thong tu s6 08/2014/TT-BGDDT 20/3/2014 cua B chuc Va ho�t d9ng CUa dc;ti hQC vung Va cac CO SO giao d\lC dc;ti h9c vien; Can cu Quy�t dinh s6 6950/QD-DHDN 01/12/2014 cua Giam d6c Dc;ti h9c Da N�ng ban hanh Quy dinh nhi�m V\l, quy€n hi;in cua Oc;ti h9c Da N�ng, cac co so giao d\lC di;ii hQC Vien Va cac dcm Vj lf\IC thUQC; Can ctr Thong tu s6 15/2014/TT-BGDDT 15/5/2014 cua B Giao d\lc va Dao tc;to v€ vi�c ban hanh Quy ch� Dao ti;io trinh d9 thi;ic sT; Can cu Quy�t dinh 97/QD-DHSP 09/02/2017 cua Hi�u truong Truong Di;ii h9c Su phc;tm- DHDN v€ vi�c giao d€ tai va va tracb nhi�m cua nguoi hu6ng dful Ju� van th�c sT; Can cu Quy�t djnh 1060/QD-DHSP O1I 11/2016 cua Hi�u truong Truong Dc;ti h9c Su phc;tm- DHDN v€ vi�c ban hanh Quy djnh dao tc;to trinh thc;tc sI; Xet d€ nghi cua h9c vien va nguoi hu6ng d§n khoa h9c v€ vi�c di€u chinh ten d€ tai tu� van thc;tc sI; Xet d€ nghi cua ong Truong Phong Dao ti;io, QUYET DJNH: Di�u 1: Cho phep cho h9c vien Nguytn Hoang Nh�t, chuyen nganh H� th6ng thong tin, kh6a 31 duc;rc di€u chinh ten d€ tai Ju� van thi;ic sI Ten aJ tai cu: Nghien cuu ung dimg khai pha quan aidm vao tlanh gia chat lu9ng djch v� tqi c6ng ty c6 phdn ph�c � mi;it adt VlfC Ten aJ tai mai: Khai pha tq.p ph6 bin tren ca sa dii li�u tang truong linh mua ban hang Di�u 2: Cac ong (ba) Truong phong T6 chuc - Hanh chinh; Dao tc;to; Khoa Tin h9c; nguoi hu6ng d§n tu� van va h9c vien c6 ten tren can cu Quy�t dµ1h thi hanh /y' HitU TRUO'NG Noi n/1{i11: - Nhu £>idu 3; - Luu: TC-HC, Dao tr;w CONG HoA xA, HOI cnu NGHiA Vl¢T NAM HA NANG TRUONGD~IHQCSUPH4M DAI HOC DQc I~p - TV - H~nh phuc " ? BIEN BAN HQP HOI DONG CHAM LU~ VAN TH~C sl sa dii lieu tang truong Ten d~ tai: Khai phd tdp phd bdn tren cO' linh V{L'C mua ban hang Chuyen nganh: H~ thong thong tin Theo Quyet dinh l~p HQi d6ng chirn luan van thac si' sf, 720 IQD-DHSP 071712017 Ngay hop HQi d6ng: 30 thang ndm 2017 Danh sach cae vien H9i d6ng: CUONG vr TRONG HOI DONG HQvATEN STT PGS.TS VO Trung Hung Chli tich HQi d6ng TS Vl1 Thi Td Thu Icy HQi dang TS Hoang Thi Thanh Ha TS TrfuI Thien Thanh PGS.TS Hoang Quang a Thanh vien eo mat: _ _j~"' /-= ' I Uy vien Phim bien Uy vien Phan bien Uy vien _ b Thanh vien v~ng mat: Thu ky H9i dong baa cao qua trinh h9C t~p, nghien ciru cua h9C vien cao hoc va doc ly Iich khoa hoc (co van ban kern thea) H9C vien cao hoc trinh bay luan van Cac phan bien doc nhan xet va nell cau hoi (co van ban kern theo) Hoc vien cao hctra lai cae Call hoi cua thimh vien H9i d6ng 10 H9i d6ng hprieng dS danh gia 111.Truong ban kiSm phieu cong b6 kSt qua 12 KSt luan cua HQi d6ng 4'f; a) K6t h1~nchung: k}~ ilK \J>V~ )1 iL.rf' b) Yell cfruchinh, sua v~ noi dung: c) Cac y kien khac: d) DiSm danh gia: B~ng s6: 2~ I Bang chfr: 12~:: Ll -+' l !:J_:_! · L6~1.tL!i,£J_,_ 13 Tac gia lu~n van phat bieu y kien 14 Chu tich HQi d6ng tuyen b6 b~ mac THV KY HOI DONG i, j:_ 1k~£Ltr CHV TlCH HOI DONG ILl ~ ~ ;'~.J7 =: -xxc NIlAN eVA TRUONG DAl ~.HOC SU PRAM - ~ )L_- I CONG HOA xA HOI cnn NGHiA VIET NAM - DQc I~p - TV - Hanh plnic -000 - BAN ~N XET LU~ VAN T~C st (Dung cho phan bien) Ten dS tai Iuan van: Khai Iinh vue mua ban hang pha t?P ph6 biSn tren co Chuyen nganh: H~ thong thong tin sa dfr Ii~u tang twang Mff nganh: 61.49.01.04 HQ vi ten hoc vien: N guy~n Hoang Nhat Nguai nhan xet: Trfin Thien Thanh Dan vi cong tac: Twang Dai hoc Quy Nhon NOI DUNG ~ XET II Tinh c§p thi~t ciia d~ tai: V oi S\I phat trien cang nhanh cua dfr lieu vS rmrc d9 vi Sl,Tphong phu, Viec khai pha dfr lieu dS rut trich duoc nhfmg thong tin co ich tro viec lim d.t c§ll thiet hien tai vi nrong lai Viec khai pha t?P ph6 bien til dfr li~u la co cho vi~t phat hien cac Iu?t kSt hQ'P ill dfr lieu, day la cac lu?t dan gian nhung co nhieu ung dung tren thl,TctS sa DS Uti d~t mvc tieu tim hiSu vS cac thu?t toan khai pha t?P ph6 biSn ill du li~u mi d~c bi~t Ii lim dS dfr li~u C?P nh?t them thi khong phai thl,Tchi~n IC;livi~c khai pha t?P ph6 biSn Day Ii ill9t dS tii c6 y nghIa th\Ic tS DS tii phil hQ'Pvoi chuyen nginh H~ th6ng thong tin III CO' sO'khoa hoc va thU'c ti~n: Cac thu?t toan khai pha t?P ph6 bi~n dff vi dang duQ'c nghien clm, nhiSu cong C1;l vi nhiSu ung dVng off duQ'c triSn khai d6 dS tii Ii c6 co khoa hQc sa IIII PhU'O'ng phap nghien CUll: Phuong phap nghien Clru cua dS tii Ii t6ng hQ'Pcac kSt qua nghien cuu vi thl,Tcnghi~m so sanh, danh gia cac k~t qua nghien clru Phuang phap niy phil hQ'P v6i d& tii IV/ K~t qua nghien ciru: Luan van dat duoc mot 86 kSt qua chinh sau: - Tim hiSu va t6ng hop cac thuat toan khai pha t~p ph6 biSn tir du li~u da: thu thap Cac thuat toan c~p nhat lai t~p ph6 bien CQ sa du lieu cap nh~t - Thuc nghiem danh gia thuat toan Pre-Iarge-itemset va Pre-FUT tren co sa du li~u ban hang duoc public tren mang Qua kSt qua cua luan van cho thfty hoc vien co dfiu tu cong sue tim hiSu cac kiSn thirc kh6 va buoc dfiu cai dat, thir nghiem dS SG sanh cac thuat toano M9t s6 gop y cho Iuan van: Ten luan van d~ gay hieu nham la khai pha t~p ph6 biSn tren co sa du lieu duoc cap nhat b6 sung voi nhtrng d~c trung cua ca sa du li~u ban hang Thvc tS la ca sa du li~u ban hang la m9t du li~u dUng dS thlJc nghi~m Danh m1)ccac ki hi~u va cac tir viSt t[t trung l~p Nen tach danh m1)cthu~t ngu va danh m1)ctir viSt t[t cho d~ theo doi Trang lu~n van dUng thu~t ngu "khai thac du li~u" nen thay bAng c1)m tir "khai pha du li~u" cho th6ng nh~t Trang chuang thu~t ngu "thi nghi~m" nen thay bAng "thvc nghi~m" Trong lu~n van S11d1)ngdan xen giua thu~t ngu tiSng Anh va tiSng Vi~t nen kh6 dQc.Nen th6ng nhftt 19im9t cacho Nhung thu~t toan tham khao nen trich dfrntai li~u tham khao Xem 19ivi d1)hinh 1.4 trang va sa d6 1.7 trang 14 Cac thu~t toan phfin chuang nen phan Hch d9 phuc tgp dS thfty dugc tinh hi~u qua cua thu~t toan so vai thu~t toan du li~u dugc b6 sung Nen giai thich ro tgi chQn thu~t toan dS thvc nghi~m, cac tieu chi thvc nghi~m co y nghla thS nao? M1)cdich dS lam gi? Lu~n van nhiSu 16i SOgnthao DS nghi hQc vien soat can th~n ban lu~n van cu6i cling V/ IDnh thu-c lu~n van: Lu~ Van g6m 75 trang cilia chuang Chuang trinh bay cae kiSn thuc ca him vS khai pha du li~tl, d6 t~p trung vao khai pha lu~t kSt hgp Trong chuang t~p trung vao thu~t toan la Apriori va FP-Growth Chuang trinh bay vS cac thuat toan khai pha t~p ph6 bien ill dfr lieu b6i canh dii' lieu diroc b6 sung lam dS t~n dung cac t~p ph6 biSn da khai pha duoc va c~p nhat lai cho phil hop voi dfr lieu da b6 sung Trong chuang trinh bay thuat toan: FUP, Pre-large-itemset, Pre-FUFP, Pre-FUT Chuang thuc nghiem danh gia thuat toan Pre-large-itemset va Pre-FUT tren t~p dfr lieu mua ban hang Tom t~t cua luan van phan anh dung nQidung cua luan van Luan van co b6 C\lC hop ly, Tuy nhien viec trinh bay nhieu l6i VII Danh gia chung: Luan van dap (rug duoc cac yeu cftu cua mot luan van thac si' chuyen nganh H~ thong thong tin Dfmg y cho hoc vien bao v~ tnroc HQi d6ng cham luan van thac S1 Binh Dinh, 24 thang ndm 2017 NGUm NH~NXET fy TS Trftn Thien Thanh 80 GIAO Ol)C vA BAo TAO CONG HOA XA HOI CHU NGHIA VI€T NAM D~J HQC DA NANG DQc I~p - Tu - Hanh phuc -00:0 - NH~N XET PHAN BI~N LU~ vAN TH~C Sy HQ va ten ngU'()i nh~n xet: Hoang Thi Thanh Ha HQc vi: Ti~n HQc ham: Chuyen nganh: Cong nghe Thong tin Co' quan cong tac: Truong Dai hoc Kinh sy T6, Dai hoc DEt N£ng Ho va ten hoc vien cao hoc: NGUYEN HoANG NI-rA T - ' Ten d~ tai lu~n van: Khai pha t?P ph6 bien tren co linh vue mua ban hang v KIEN sa du' lieu tang tnrong NH~N XET Tinh dip thi~t cua d~ tai: Khai pha du' li~lI la 1110tIinh vue nghien ciru (tang GUO'cquan Him nharn trich rut nhfrng tri thirc e6 gia tri, h6 tro quY~t dinh tel' nhirng kho dtr li¢u 16n va phuc tap Phuong phap khai pha t?P ph6 bien tren CSDL tang tnrong la mot nhil'ng phuong phap nharn dua duoc kha nang xuar hien cling giua cac items hoac cac 11I?tket h9:P du' li~u K~t qua co the ap dvng GUO'ceho nhieu bai toan khac nhau, co tinh Lrngdl;1ngthl;1'cti~n cao Co' so' khoa hQC va thl;l'C ti~n va phU'o'ng phap NC: Lu?n van co t1nh khoa hoc va tht,rc ti~n Phuong phap nghien ell'll hO'p lY K~t qua nghien cU'U Lu?n van dU'Q'ctrinh bay 71 trang chia lam 03 chuang Chu'ang 1, dai 20 trang, lu?n van trlnh bay ly thuy~t v~ khai pha dO' li.~u, eae thu~t toan khai phil du' li~u Chuong 2, dai 40 trang, lu?n van gi6i thi~u mot s6 plluang phcip khai pha t?P ph6 bi~n tren CSDL nnh va CSDL tang tnro·ng Chuang 3, dai trang, IU?11van trinh bay v~ cai dftt va thll' nghi~m va danh gia thu?t toan Pre-FUT va Pre-Large-ltemset tren di}' li~u ban hang trvc tuy~n v6'i han 540.000 giao dich va s6 ILfO'ngsan pham giao dich 1(;13958 Item Hinh th {rc ILI~n van Lu?n van trinh bay kha cong phu va chi ti&t nhi~u thu?t toan khac 'TlIY nhien, lu?n van co k&t du chua phll hQ"p,s6 IU'Q'ngcae trang co oQ chenh I~ch qua Ian gitra cac chuong Ph~n danh rnuc cac ky hi~u vi~t t~t trinh bay nrorn ra, co nhO'ng ttl' la dich tLI'tieng Anh sang tieng Viet chir khong phai vie: t~t Cac bang bieu chuang giong qua nhieu nhu 2.1,2.6,2.22 va 2.2, 2.7, 2.25 va 2.3,2.8, 2.23 va 2.9, 2.24 Bang 2.5 thi nham 2.] Bang 3.1 nham Ph~n 2.2 va 2.3 trinh bay v€ cac khai niem va thuat toan pre-large - Itemset nen gop mot Con co mot 56 lai chinh tao Danh gia chung: ban hoc vien da dat duoc muc tieu d~ Luan van duoc d~u tu kha cong phu Cac k~t qua O?t ducc: V~ Co' l Tim hieu v~ khai pha dO' lieu, khai phi luat k€t hop Tim hi~u 1110ts6 phuong phap, khai pha t?P pheS bien Cai d~t thtr nghiern thU?t toan tim Iu?t ph6 bi€n tren dli' Ii~u tang tnro'ng Tuy nhien, ben qmh cae k€t qua O?t duQ'c Lu~n van can c6 eac v~n d€ e6 th~ eai ti€n duai day, Nen dung th6ng nh~it tu' khai pha hay khai thac IU?11van MQt s6 eh6 can dLlI1gI~n Ion gi(1'a d6 2m va IU?1lvan Cae tai li~u tham khao tLI' 22 tra oi kh6ng th~y tham ehi~u MQt s6 thu?t ngO' dung chua thang nhit, vi dl;! eho I la t~IP cae thuQc tinh, nhung eh6 kh,lc l?i gQi 1at$-p l1ll;!e.Nen th6ng nhit I?i cae thu?t ngil - Nen trinh btlY cl;!th~ han (; chu'ang d~ thiy r5 khai pha t~.p pheShi~n Trong chuang nay, nen giai thieh r5 cae k€t qua eua cae hlnh nhu 3.3 va 3.4, 3.5 86 thj so sanh k~t qua thl;!'c nghi~111ttong hinh 3.7 va 3.8 kh6ng c6 giai thieh va kh6ng c6 thong tin tren tfl;lc tung va tr\le hoanh nen gay kh6 hi~u eho ngLrai dQc - Trang ph§n l11\1etieu Clla lu?n van kh6ng th§y dO' li~u bim hang online db C?P o~n ph~n Lmg d\1ng la - Trong phfrn thl/C nghi~ii1 va danh gia k~t qua, nen beSsung o?i, di~n mot s6 k~t qUElella thu?t toan vt: cae t?P pheSbi~n d~ ph\lC V~I eho bai toan ban hang Y KIEN DE NGHJ D€ nghj eho phep hQe vien duQ'c bao v¢ lu~n van truae ho.i d6ng ehim lu?n van Th?t sy chuyen ngimh H~ Th6ng Thong Tin fJaNtSng) 2B thang nam 2017 Nguai nh?n xet TS Hoang Tht Thanh Ha ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc BẢN TƯỜNG TRÌNH BỔ SUNG, SỬA CHỮA LUẬN VĂN Họ tên học viên: NGUYỄN HỒNG NHẬT Chun ngành: Hệ thống thơng tin Khóa: K31 Tên đề tài luận văn: KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG ỨNG DỤNG TRONG LĨNH VỰC MUA BÁN HÀNG Người hướng dẫn khoa học:TS Nguyễn Trần Quốc Vinh Ngày bảo vệ luận văn: 30/07/2017 Sau tiếp thu ý kiến Hội đồng bảo vệ luận văn họp ngày 30/07/2017, chúng tơi giải trình số nội dung sau: 1.Những điểm bổ sung, sửa chữa: - Thống số thuật ngữ luận văn (“khai phá”, “luận văn”, “tập thuộc tính”) - Bổ sung số nội dung chương 3, trình bày rõ ràng đồ thị - Bổ sung phần liệu bán hàng online phần mục tiêu luận văn - Đã bổ sung them số kết thuật toán Những điểm bảo lưu ý kiến, khơng sửa chữa, điều chỉnh (nếu có) lý sau: - Khơng có Đà Nẵng, ngày Người hướng dẫn xác nhận - Đã kiểm tra luận văn lỗi sau chỉnh sửa - Đã kiểm tra thông tin luận văn tiếng Việt tiếng Anh Xác nhận BCN Khoa Xác nhận luận văn sau chỉnh sửa đồng ý cho học viên nộp lưu chiểu B45.QT751-02 tháng Học viên năm TRANG THÔNG TIN LUẬN VĂN THẠC SĨ Tên đề tài: KHAI PHÁ TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG TRONG LĨNH VỰC MUA BÁN HÀNG Ngành: Hệ thống thông tin Họ tên học viên: Nguyễn Hoàng Nhật Người hướng dẫn khoa học: TS Nguyễn Trần Quốc Vinh Cơ sở đào tạo: Đại học Sư Phạm, Đại học Đà Nẵng Tóm tắt: Luận văn trình bày kết nghiên cứu lý thuyết phương pháp khai phá sở liệu Tìm hiểu kỹ thuật khai phá sở liệu dựa khai phá luật kết hợp CSDL giao dịch: Nghiên cứu, phân tích, đánh giá số phương pháp khai phá tập phổ biến sở liệu tĩnh: Apriori, FP- Tree Nghiên cứu, phân tích, đánh giá phương pháp khai phá tập phổ biến sở liệu tăng trưởng: Thuật toán FUP, Pre – large– Itemset, Pre- FUFP Cài đặt thuật toán so sánh thực tế hiệu thuật toán Pre- FUT thuật toán Pre – large – Itemset lĩnh vực mua bán hàng online Chọn thuật toán phù hợp để cải tiến hiệu suất kỹ thuật khai phá tập phổ biến dựa luật kết hợp trường hợp CSDL tăng trưởng, phát sinh thêm giao dịch mới, giúp quản lý luật khai phá hiệu hơn, từ tiến hành tiếp trình sinh luật kết hợp hiệu Hướng phát triển đề tài kết hợp khái niệm pre-large itemset với cấu trúc IT-tree để giải cho trường hợp thêm, xóa, sửa giao dịch CSDL Từ khóa: Khai phá liệu, IT-tree, Apriori, Pre-FUT, sở liệu tăng trưởng Xác nhận người hướng dẫn Người thực đề tài Nguyễn Quốc Vinh Nguyễn Hoàng Nhật INFORMATION PAGE OF MASTER THESIS Title of the thesis: DECLARATION OF DISCUSSION ON GROWTH DATA GROWTH IN THE SALES PURCHASE SECTOR Industry: Information Systems Full name student: Nguyen Hoang Nhat Science instructor: Dr Nguyen Tran Quoc Vinh Training institution: University of Pedagogy - University of Da Nang Summary: The thesis presents the results of theoretical research on database mining methods Study database mining techniques based on association rule mining in transaction database: Research, analysis and evaluation of some common methods of mining data mining on static database: Apriori, FP Tree Research, analysis, and evaluation of one popular exploration methodology based on growth data, FUP academic mathematics, Pre-large-Itemset, Pre-FUFP Set up academic mathematics and compare the actual performance of the Pre-FUT academic mathematics and the Pre-large-Itemset academic mathematics in the field of online sales Select a suitable academic mathematics to improve the performance of common rule mining techniques based on association rules in case of database growth, generate new transactions, help management and laws has been explored more effectively, which can then proceed to the process of creating more effective association rules The development direction of the topic is to combine the concept of pre-large itemset with IT-tree structure to solve the case of adding, deleting and modifying transactions in the database Keywords: Data mining, IT-tree, Apriori, Pre-FUT, database growth Confirmation of the facilitator Student made the topic Dr Nguyen Tran Quoc Vinh Nguyen Hoang Nhat ... pháp khai phá liệu o Kỹ thuật khai phá tập phổ biến dựa khai phá luật kết hợp CSDL giao dịch o Các phương pháp khai phá tập phổ biến sở liệu tĩnh: Apriori, FP- Tree o Các phương pháp khai phá tập. .. nhiều phương pháp khai phá tập phổ biến CSDL tăng trưởng Trong số khai phá luật kết hợp CSDL giao dịch kỹ thuật phổ biến khai phá liệu, chia làm hướng chính: Phương pháp khai phá tập phổ biến mà cần... Các sở liệu phục vụ cho khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác nhau: - Cơ sở liệu quan hệ - Cơ sở liệu giao tác - Cơ sở liệu không gian - Cơ sở liệu

Ngày đăng: 24/04/2022, 15:17

Hình ảnh liên quan

DANH MỤC CÁC BẢNG - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng
DANH MỤC CÁC BẢNG Xem tại trang 11 của tài liệu.
Hình 1.6. Mẫu kết quả của hồi quy. - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 1.6..

Mẫu kết quả của hồi quy Xem tại trang 22 của tài liệu.
Hình 1.8. Cấu trúc dữ liệu Trie [5] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 1.8..

Cấu trúc dữ liệu Trie [5] Xem tại trang 35 của tài liệu.
Hình 1.9. Cấu trúc Trie lưu trữ tập các ứng viên [5] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 1.9..

Cấu trúc Trie lưu trữ tập các ứng viên [5] Xem tại trang 37 của tài liệu.
Bảng 2.1. CSDL ban đầu [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.1..

CSDL ban đầu [10] Xem tại trang 44 của tài liệu.
Hình 2.3. Tiến trình tìm tập prelarge và large 1-itemset [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.3..

Tiến trình tìm tập prelarge và large 1-itemset [10] Xem tại trang 45 của tài liệu.
Hình 2.4 .9 trường hợp xảy ra khi thêm các giao dịch mới vào CSDL [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.4.

9 trường hợp xảy ra khi thêm các giao dịch mới vào CSDL [10] Xem tại trang 47 của tài liệu.
Bảng 2.9. Tập pre-largeitemset của CSDL ban đầu [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.9..

Tập pre-largeitemset của CSDL ban đầu [10] Xem tại trang 54 của tài liệu.
Bảng 2.11 .3 phần của tập ứng viên 1-itemset xét tron gT [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.11.

3 phần của tập ứng viên 1-itemset xét tron gT [10] Xem tại trang 55 của tài liệu.
Bảng 2.13. Tập ứng viên 2-itemset tron gT [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.13..

Tập ứng viên 2-itemset tron gT [10] Xem tại trang 56 của tài liệu.
Hình 2.5. Tiến trình tìm tập prelarge và large 1-itemset [10 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.5..

Tiến trình tìm tập prelarge và large 1-itemset [10 Xem tại trang 57 của tài liệu.
Hình 2.6. Tiến trình tìm tập prelarge và large 2-itemset [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.6..

Tiến trình tìm tập prelarge và large 2-itemset [10] Xem tại trang 58 của tài liệu.
Hình 2.7. Tiến trình tìm tập prelarge và large 3-itemset [10] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.7..

Tiến trình tìm tập prelarge và large 3-itemset [10] Xem tại trang 59 của tài liệu.
Bảng 2.15. CSDL ban đầu [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.15..

CSDL ban đầu [18] Xem tại trang 63 của tài liệu.
Hình 2.8. Cây FUFP-Tree và Header_Table được xây dựng [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.8..

Cây FUFP-Tree và Header_Table được xây dựng [18] Xem tại trang 64 của tài liệu.
Bảng 2.19. Kết quả phân chia tập item tron gT thành 3 phần [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.19..

Kết quả phân chia tập item tron gT thành 3 phần [18] Xem tại trang 65 của tài liệu.
Hình 2.10. Cây FUFP-tree sau khi loại bỏ h [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.10..

Cây FUFP-tree sau khi loại bỏ h [18] Xem tại trang 66 của tài liệu.
Hình 2.12. Header_Table sau khi thêm d vào [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.12..

Header_Table sau khi thêm d vào [18] Xem tại trang 67 của tài liệu.
Bảng 2.23 và sau bước 9 ta sẽ có cây FUFP-tree như Hình 2.23 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 2.23.

và sau bước 9 ta sẽ có cây FUFP-tree như Hình 2.23 Xem tại trang 67 của tài liệu.
Hình 2.14. Cây FUFP-tree sau bước 9 [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.14..

Cây FUFP-tree sau bước 9 [18] Xem tại trang 68 của tài liệu.
như Hình 2.16 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

nh.

ư Hình 2.16 Xem tại trang 68 của tài liệu.
Hình 2.16. Cây FUFP-tree sau bước 10 [18] - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.16..

Cây FUFP-tree sau bước 10 [18] Xem tại trang 69 của tài liệu.
  {//Trường hợp 7, 8, 9 trong Bảng 2.5 10.                    mark X as a rescan itemset in TrU - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

r.

ường hợp 7, 8, 9 trong Bảng 2.5 10. mark X as a rescan itemset in TrU Xem tại trang 71 của tài liệu.
Hình 2.21. TrU sau dòng 23 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.21..

TrU sau dòng 23 Xem tại trang 76 của tài liệu.
Hình 2.23. TrU sau dòng 19 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.23..

TrU sau dòng 19 Xem tại trang 77 của tài liệu.
Hình 2.26. TrU sau dòng 19 - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 2.26..

TrU sau dòng 19 Xem tại trang 78 của tài liệu.
Hình 3.1. Các giao dịch được đưa vào thuật toán - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 3.1..

Các giao dịch được đưa vào thuật toán Xem tại trang 80 của tài liệu.
Bảng 3.1.. CSDL thực nghiệm - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Bảng 3.1...

CSDL thực nghiệm Xem tại trang 83 của tài liệu.
Hình 3.7. Kết quả so sánh trên CSDL Online retail trong  thí nghiệm thứ nhất  - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 3.7..

Kết quả so sánh trên CSDL Online retail trong thí nghiệm thứ nhất Xem tại trang 84 của tài liệu.
Hình 3.8. Kết quả so sánh trên CSDL Online retail trong thí nghiệm hai - Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

Hình 3.8..

Kết quả so sánh trên CSDL Online retail trong thí nghiệm hai Xem tại trang 85 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan