1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu bị sửa đổi

62 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,93 MB

Nội dung

B GIÁO D CăVÀă ÀOăT O TR NGă I H C CÔNG NGH TP.HCM - NGUY NăV Nă I N KHAI THÁC LU T PHÂN L P K T H P TRểNăC ăS D LI U B S Aă LU NăV NăTH CăS Chuyên ngành: Công ngh thông tin Mã s ngành: 60480201 TP H CHệăMINH,ăthángă11ăn mă2016 I B GIÁO D CăVÀă ÀOăT O TR NGă I H C CÔNG NGH TP.HCM - NGUY NăV Nă I N KHAI THÁC LU T PHÂN L P K T H P TRểNăC ăS D LI U B S A I LU NăV NăTH CăS Chuyên ngành: Công ngh thông tin Mã s ngành: 60480201 CÁN B H NG D N KHOA H C: TS NGUY N TH THUÝ LOAN TP H CHÍ MINH, tháng 12 n mă2016 CƠNGăTRỊNHă TR Cán b h NGă C HỒN THÀNH T I I H C CÔNG NGH TP HCM ng d n khoa h c : TS NGUY N TH THUÝ LOAN (Ghi rõ h , tên, h c hàm, h c v ch ký) Lu nă v nă Th că s ă đ c b o v t iă Tr ngă i h c Công ngh TP HCM ngày 17 tháng 12 n mă2016 Thành ph n H iăđ ngăđánhăgiáăLu năv năTh căs ăg m: (Ghi rõ h , tên, h c hàm, h c v c a H i đ ng ch m b o v TT H ăvƠătênă Ch GS TS Phan Th T i TS Cao Tùng Anh TS Ph m Th Thi t PGS.ăTS.ăVõă ìnhăB y TS.ăV năThiênăHoƠng Lu n v n Th c s ) cădanhăH iăđ ngă Ch t ch Ph n bi n Ph n bi n y viên yăviên,ăTh ăkỦă Xác nh n c a Ch t ch H iăđ ngăđánhăgiáă Lu n sau Lu năv năđưăđ c s a ch a (n u có) Ch t ch H iăđ ngăđánhăgiáăLV TR NGă HăCÔNGăNGH TP HCM VI Nă ĨOăT OăSAUă C NGăHọAăXẩăH IăCH ăNGH AăVI TăNAM IăH C căl păậ T ădoăậ H nhăphúc TP HCM, ngày 01 tháng 12 n m 2016 NHI MăV ăLU NăV NăTH CăS ă H tên h c viên: NGUY NăV Nă I N Gi i tính: Nam NgƠy,ătháng,ăn măsinh: 22/06/1982 N iăsinh: ng Nai Chuyên ngành: Công ngh thông tin MSHV: 1441860006 I- Tênăđ ătƠi:ă Khai thác lu t phân l p k t h pătrênăc ăs d li u b s aăđ i II- Nhi măv ăvƠăn iădung:ăă  Tìm hi u thu n toán khai thác lu t phân l pătrênăc ăs d li uăt nh  Tìm hi u thu n tốn khai thác lu t phân l p k t h p trênă c ă s d li u t ngătr ng  Tìm hi u xây d ng ví d cho thu n toán khai thác lu t phân l p k t h p trênăc ăs d li u b s aăđ i  Xây d ngă ch ngă trìnhă khaiă thácă lu t phân l p k t h p li u b s a đ i  Vi t báo cáo III- NgƠyăgiaoănhi măv : 15/07/2015 IV- Ngày hoàn thành nhi măv :ă1/12/2016 V- Cánăb ăh CÁN B H ngăd n: TS NGUY N TH THUÝ LOAN NG D N (H tên ch ký) KHOA QU N LÝ CHUYÊN NGÀNH (H tên ch ký) L IăCAMă OAN TơiăxinăcamăđoanăđơyălƠăcơngătrìnhănghiênăc u c a riêng tơi Các s li u, k t qu nêu Lu nă v nă lƠă trungă th că vƠă ch aă t ngă đ c cơng b b t k cơng trình khác Tôiăxinăcamăđoanăr ng m i s giúpăđ cho vi c th c hi n Lu năv nănƠyăđưă đ c c mă năvƠăcácăthơngătinătríchăd n Lu năv năđưăđ c ch rõ ngu n g c H c viên th c hi n Lu năv n (Ký ghi rõ h tên) NGUY NăV Nă I N L IăCỄMă N Tr c tiên tơi xin bày t lịng bi tă năchơnăthƠnhăđ n Nguy n Th Th Loanăđưăt n tình h tr ,ăh ng d năvƠăđ ng viên tinh th n giúp chúng tơi hồn thành lu năv nănƠy Cho chúng tơi bày t lịng bi tă năchơnăthƠnhăđ n Q Th yăCơăđưăh t lòng gi ng d y, truy năđ t nh ng tri th c khoa h c kinh nghi m quý báu cho su t th i gian tham gia h c t pătheoăch ngătrìnhăth c s tr ngăđ i h c Công ngh Tp.HCM Sauăcùng,ăchoătôiăđ c chuy n l iăcámă năgiaăđìnhăthơnăuăc aătơiăđưălnă ln bên c nh tơi nh ngălúcăkhóăkh nănh t, ngu năđ ng viên ng h tinh th n r t l năđ tơi có th hồn thành lu năv n NGUY NăV Nă I N TịMăT T Ngày nay, d li uăngƠyăcƠngăphongăphú,ăđaăd ng kh ng l v nhi uăl nhă v c.ă c bi t s phát tri n c a công ngh thông tin vi c ng d ng công ngh thông tin nhi uă l nhă v că đưă lƠmă choă khoă d li u yă t ngă lênă nhanhă chóng.ă i u d năđ n m t v n đ c n có nh ng k thu t công c m iăđ t đ ng chuy năđ iă l ng ng d li u kh ng l thành tri th c có ích, ph c v cho i M tăkhác,ătrongămơiătr ng c nhătranhăthìăng i ta ngày c n có thơng tin v i t căđ nhanhăđ giúp cho vi c quy tăđ nh ngày có nhi u câu h i mang tính ch tăđ nh tính c n ph i tr l i d a kh iăl ng d li u kh ng l đưăcó.ă Hi nănayăc ngăđưăcóănhi u thu t tốn v khai thác lu t phân l p k t h pătrênăc ăs d li uăt nhănh ngăcácăthu t toán khai thác lu t phân l pătrênăc ăs d li u b s a đ iăthìăch aăcó gi i quy t v nă đ nh ăđưănêuă trên, n i dung nghiên c u c a lu n v năs t p trung vào nghiên c u thu t toán khai thác lu t k t h p, khai thác lu t phân l p k t h pătrênăc ăs d li u b s aăđ i, vi tăch thu tătoánăđưănghiênăc u ngătrìnhăth c nghi m m t ABSTRACT Today, data is increasingly rich, and huge variety of fields In particular the development of information technology and the application of information technology in various fields has made data warehouse was increasing rapidly This leads to a problem is the need for new techniques and tools to automatically convert other huge amounts of data into useful knowledge, to serve man On the other hand, in a competitive environment, people increasingly need information at a fast pace to help in decision-making and more questions of qualitative nature need to be answered based on the volume of data giant had Currently also had many mining algorithms combined classification rules based on static data mining algorithms but subclass law on database is modified, then no To solve the problems as mentioned above, the research content of the thesis will focus on the study of algorithms combined mining law, mining law combined classification on the basis of revised data, Useful program an algorithm experimentally studied i DANHăM CăCỄCăT ăVI TăT Tă VI T T T VI Tă Yă CSDL C ăs d li u DHP Direct Hashing and Pruning ụăNGH A thu t b m t a tr c K ti p FUP Fast Update algorithm Thu t toán c p nh t nhanh SU Upper support threshold h tr ng ng SL Lower support threshold h tr ng ng d minSup Minimum support h tr t i thi u minConf Minimum Confidence tin c y t i thi u i ii DANHăM CăCỄCăB NG B ng 2.1: M t CSDL hu n luy n m u cho thu t toán Car-Miner 17 B ng 3.1: B ngăc ăs d li u m u 27 B ng 3.2: B ngăc ăs d li uăđ c thêm m i 27 B ng 3.3: B ng nút 1-itemset c a MECR-tree 29 B ng 3.4: B ng nút 1-itemset c a MECR-tree sau clear Obidset 30 B ng 3.5: B ng nút 1-itemset c a MECR-tree sau update Obidset, Class Count Is Mark 30 B ng 3.6: C ăs d li u b xóa 33 B ng 3.7: B ng nút 1-itemset c a MECR-tree sau c p nh tăc ăs d li u b xóa 34 B ng 3.8: C ăs d li u b s a 37 B ng 3.9: B ng nút 1-itemset c a MECR-tree sau c p nh tăc ăs d li u b xóa 38 B ng 4.1: căđi m c a CSDL th c nghi m 41 B ng 4.2: B ng k t qu th c nghi mătrênăc ăs d li u Breast .42 B ng 4.3: B ng k t qu th c nghi m trênăc ăs d li u Lymph 43 B ng 4.4: B ng k t qu th c nghi mătrênăc ăs d li u Iris 43 34 B ng 3.7: B ng nút 1-itemset c a MECR-tree sau c p nh tăc ăs d li u b xóa STT Attribute Obidset array a1 (1, 2, 3, 4, 6) Class count array (3, 2) a2 (5,7) b1 B Mark IsDel False False (1, 1) True True (1, 2, 7) (2, 1) False False b2 (3) (0, 1) True True b3 (4, 5, 6) (2, 1) False False c1 (1, 5) (1, 1) False True c2 (2, 3) (0, 2) True False c3 (4, 6, 7) (3,0) False False c 3: Ti p theo ta c p nh t nút t 2-itemset tr  Nút 2-itemset bao g m : 3xa1b1 12(1, 1) 3xa1b2 3(0, 1) 3xa1b3 46(2, 0) 5xa1c1 5xa1c2 5xa1c3 1(1, 0) 23(0, 2) 46(2, 0) 5xa2c1 5(0, 1) 5xa2c2 8(0, 1) 5xa2c3 7(1, 0) 6xb1c1 1(1, 0) 6xb1c2 2(0, 1) 3xa2b1 7(1, 0) 3xa2b2 3xa2b3 8(0, 1) 5(0, 1) 6xb1c3 6xb2c2 6xb3c1 6xb3c3 7(1, 0) 38(0, 2) 5(0, 1) 46(2, 0) Ta t nút 1-itemset v i vòng l p Vòng l p i t 0ăđ n h t vòng l p j t i+1ăđ n h t Ta ti n hành ki m tra n u nút li lj đ u có mark = true li.att # lj.att ti n hành t nút c a li N u nút c aăliăđ c sinh t li lj ti n hành c p nh t Obidset, class count, pos Khiăđóăcácănútă2-itemsetăđ nh t l iănh ăsauă: cc p 3xa1b1 12(1, 1) 3xa1b2 3(0, 1) 3xa1b3 46(2, 0) 5xa1c1 5xa1c2 5xa1c3 1(1, 0) 23(0, 2) 46(2, 0) 3xa2b1 7(1, 0) 5xa2c1 5(0, 1) 5xa2c2 Ø(0, 0) 5xa2c3 7(1, 0) 6xb1c1 1(1, 0) 6xb2c2 6xb3c1 6xb3c3 3(0, 1) 5(0, 1) 46(2, 0) Cácănútăđ c c p nh t s b t c markă=ătrue,ăng mãn count[pos] < 0.25 * = s đ  T 6xb1c2 2(0, 1) 6xb1c3 7(1, 0) c l i false Các nút không th a căđánhăd u isDel = true,ăng ngăt v i nút 3-itemset 3xa2b2 3xa2b3 Ø(0, 0) 5(0, 1) c l i false 35 B c 4: G iăhƠmăGENERATE_RULESăđ sinh lu t 1xa1 12346(3, 2) 3xa1b1 12(1, 1) 7xa1b1c1 1(1, 0) 3xa1b2 3(0, 1) 7xa1b1c2 2(0, 1) 3xa1b3 46(2, 0) 5xa1c1 1(1, 0) 5xa1c2 23(0, 2) 7xa1b2c2 3(0, 1) 7xa1b3c3 46(2, 0) 5xa1c3 46(2, 0) 1xa2 57(1, 1) 3xa2b1 7(1, 0) 7xa2b1c3 7(1, 0) 3xa2b3 5(0, 1) 7xa2b3c1 5(0, 1) 5xa2c1 5(0, 1) 5xa2c3 7(1, 0) MECR-tree 2xb1 127(2, 1) 6xb1c1 1(1, 0) 6xb1c2 2(0, 1) 6xb1c3 7(1, 0) 2xb2 3(0, 1) 2xb3 456(2, 1) 4xc1 15(1, 1) 6xb2c2 38(0, 2) 6xb3c1 5(0, 1) 4xc2 23(0, 2) 4xc3 467(3, 0) 6xb3c3 46(2, 0) 36 Hình 3.6: Cây MERC-treeăđ c c p nh t sau b xoá 3.4 Thu t toán khai thác lu t phân l p k t h p cho d li u b s aăđ i 3.4.1 Thu t toán CAR-Minerăchoăc ăs d li u b s aăđ i D a vào thu t toán d li u t ngătr m c 3.2 - thu t toán khai thác lu t phân l p k t h p cho ng, ta áp d ng s aăđ i thu t toán CAR-Minerănh ăsau: B c 1: Tìm ki m dịng b xóa d li u B c 2: Ki m tra s dịng b s a có l năh năgiáătr ng l năh năthìăth c hi năb B c N u khơng th c hi năb ng an tồn f không N u c c 3: Xây d ng l i MECR-tree t t p d li uă c ă vƠă d li u m i Xong r i th c hi năb c B c 4: G i l i hàm Modified-Car-Miner đ sinh lu t Hồn thành thu t tốn B c 5: C p nh t l i toàn b 1-itemset c a MECR-tree s d ng hàm UPDATE_TREE_LV1_DEL Xóa Obidset, c p nh t class count, pos t i nh ng nút có item thu c D b xóa B c 6: C p nh t l i toàn b node c a node 1-itemset s d ng hàm UPDATE_TREE_LV_OTHER_DEL Xóa Obidset, c p nh t class count, pos t i nh ng node có item D b xóa B c 7: G i hàm CAR_Incre() v i MECR-treeă đưă xóaă dòngă đ datasetăD’ălƠădòngăđ c s a m i c c p nh t 37 CAR_ Modified () Tínhăđ h tr an tồn ifă|D’|ă

Ngày đăng: 04/03/2021, 17:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w