Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
2,29 MB
Nội dung
1 MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL 1.1 Giới thiệu chung khai phá tri thức khai phá liệu 1.2 Quá trình khai phá tri thức 1.3 Quá trình khai thác liệu 1.4 Các phƣơng pháp khai phá liệu 1.5 Các lĩnh vực ứng dụng thực tiễn khai phá liệu 1.6 Các hƣớng tiếp cận khai phá liệu 1.7 Phân loại hệ khai phá liệu 1.8 Các thách thức - khó khăn KPTT KPDL CHƢƠNG 2: PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN 11 2.1 Giới thiệu 11 2.2 Giới thiệu số thuật toán khai phá tập phổ biến 11 2.2.1 Thuật toán Apriori 11 2.2.2 Thuật toán Freespan 16 2.3 Tóm tắt 19 CHƢƠNG 3: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN ĐĨNG TRONG KHƠNG GIAN 20 3.1 Phƣơng pháp khai phá tập phổ biến đóng khơng gian chiều 20 3.1.1 Tổng quan 20 3.1.2 Sự chuẩn bị 21 Th■ah■■ng Mang Luôn 123doc thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ không tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n hồn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p không tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n cơng ■■ng c■a c■ doanh b■n mang hồn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thơng B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t 3.1.3 Tiến phƣơng pháp khai phá tập phổ biến đóng 22 3.1.4 Khung cải tiến cho khai phá tập phổ biến đóng 22 3.1.5 Thuật toán C-Miner 23 3.1.6 Thuật toán B-Miner 29 3.1.7 Khai phá tập phổ biến đóng song song 31 3.1.8 Độ phức tạp thời gian 32 3.2 Phƣơng pháp khai phá tập phổ biến đóng khơng gian chiều 32 3.2.1 Tổng quan 32 3.2.2 Sự chuẩn bị 33 3.2.3 Thuật toán khai phá lát đại diện(RSM) 35 3.2.4 Thuật toán CubeMiner 39 3.2.3 Khai phá FCC song song 46 3.2.4 Độ phức tạp thời gian 46 3.3 Tóm tắt 47 CHƢƠNG 4: CÀI ĐẶT THUẬT TOÁN THỬ NGHIỆM 48 4.1 Giới thiệu chƣơng trình 48 4.2 Giao diện chƣơng trình 48 4.3 Các thành phần chức chƣơng trình 48 4.4 Kết thực nghiệm 49 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 DANH MỤC HÌNH VẼ Hình 1.1: Q trình KPTT Hình 1.2: Quá trình KPDL Hình 1.3: Các lĩnh vực ứng dụng KPDL Hình 2.1: Ví dụ Apriori Hình 2.2: Ma trận mục phổ biến Hình 2.3: Chuỗi mẫu độ dài Hình 2.4: Item-repeating Hình 2.5: Project database Hình 2.6: Các chuỗi mẫu Hình 3.1: Khung khai phá Hình 3.2: Cây phân chia sử dụng lát cắt Hình 3.3: Sai sót dƣ thừa Hình 3.4: Ví dụ sai sót dƣ thừa Hình 3.5: CubeMiner Hình 3.6: Cây khai phá FCC DANH MỤC BẢNG BIỂU Bảng 3.1: Ví dụ tập liệu (ma trận O) Bảng 3.2: Ma trận rút gọn O’ Bảng 3.3: Lát cắt Bảng 3.4: Kết không gian rút gọn không gian Bảng 3.5: FCP(minsup = 3; minlen = 2) Bảng 3.6: Ví dụ liệu ba chiều nhị phân Bảng 3.7: Ví dụ RSM(minH = minR = minC = 2) Bảng 3.8: Z (tập lát cắt) Algorithm 1: Khung RSM Algorithm 2: Thuật toán Cắt tỉa sau RSM Algorithm 3: Khai phá khối lập phƣơng Algorithm 4: Kiểm tra tập dịng đóng Algorithm 5: Kiểm tra tập độ cao đóng Algorithm 6: Cắt DANH MỤC TỪ VIẾT TẮT KPTT KPDL FCP FCC RSM Khai phá tri thức Khai phá liệu Tập phổ biến đóng Khối phổ biến đóng Khai phá lát đại diện LỜI MỞ ĐẦU Ngày nay, cách mạng kỹ thuật số cho phép số hóa thơng tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang,… Tốc độ tăng liệu lớn Từ dẫn đến kết pha trộn kỹ thuật thống kê vào cơng cụ quản trị liệu khơng thể phân tích đầy đủ liệu rộng lớn đƣợc Dữ liệu sau phục vụ cho mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thơng tin có ích mang tính tổng qt, thơng tin có tính quy luật cịn tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có cơng cụ tự động rút thơng tin kiến thức có ích Một hƣớng tiếp cận có khả giúp cơng ty khai thác thơng tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu (Data Mining) Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho ngƣời KPDL giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ cớ sở liệu kho liệu khổng lồ khác Đề tài đề cập đến khái niệm vấn đề KPTT KPDL, Đề tài đề cập đến số phƣơng pháp khai phá liệu dạng đóng đƣợc áp dụng nhiều lĩnh vực thực tiễn Cấu trúc đồ án: Chƣơng giới thiệu tổng quan KPTT KPDL Chƣơng Tìm hiểu phƣơng pháp khai phá tập phổ biến Chƣơng Tìm hiểu phƣơng pháp khai phá tập phổ biến đóng khơng gian Chƣơng Cài đặt chƣơng trình thử nghiệm KẾT LUẬN TÀI LIỆU THAM KHẢO CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL 1.1 Giới thiệu chung khai phá tri thức khai phá liệu - Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khai phá tri thức khai phá liệu - Thông thƣờng, coi liệu nhƣ chuỗi bits, số ký hiệu “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Các bits thƣờng đƣợc sử dụng để đo thông tin, xem nhƣ liệu đƣợc loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Tri thức đƣợc xem nhƣ thông tin tích hợp, bao gồm kiện mối quan hệ chúng, đƣợc nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức đƣợc coi liệu mức độ cao trừu tƣợng tổng quát - Khái phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu đƣợc - Khai phá liệu bƣớc trình khám phá tri thức, gồm thuật tốn khai thác liệu chuyên dùng dƣới số qui định hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL nhƣng ẩn khối lƣợng lớn liệu 1.2 Quá trình khai phá tri thức Bao gồm bƣớc sau: - Làm liệu (Data Cleaning): Loại bỏ liệu nhiễu liệu không quán - Tích hợp liệu (Data Intergation): Dữ liệu nhiều nguồn đƣợc tổ hợp lại - Lựa chọn liệu (Data Selection): Lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu - Chuyển đổi liệu (Data Transformation): Dữ liệu đƣợc chuyển đổi hay đƣợc hợp dạng thích hợp cho việc khai phá - Khai phá liệu (Data Mining): Đây tiến trình cốt yếu phƣơng pháp thơng minh đƣợc áp dụng nhằm trích rút mẫu liệu - Đánh giá mẫu (Pattern Evaluation): Dựa độ đo xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức - Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn kỹ thuật biểu diễn hiển thị đƣợc sử dụng để đƣa tri thức lấy cho ngƣời dùng Hình 1.1: Quá trình KPTT 1.3 Quá trình khai thác liệu - KPDL giai đoạn quan trọng q trình KPTT Về chất, giai đoạn tìm đƣợc thơng tin mới, thơng tin tiềm ẩn có CSDL chủ yếu phục vụ cho mơ tả dự đốn - Mơ tả liệu tổng kết diễn tả đặc điểm chung thuộc tính liệu kho liệu mà ngƣời hiểu đƣợc - Dự đoán dựa liệu thời để dự đoán quy luật đƣợc phát từ mối liên hệ thuộc tính liệu sở chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến quan tâm Quá trình KPDL bao gồm bƣớc đƣợc thể nhƣ Hình 1.2 sau: Hình 1.2: Quá trình KPDL Xác định nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu liên quan: Dùng để xây dựng giải pháp Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng cho thuật toán KPDL hiểu đƣợc Đây q trình khó khăn, gặp phải nhiều vƣớng mắc nhƣ: liệu phải đƣợc nhiều (nếu đƣợc chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi), vv Thuật toán khai phá liệu: Lựa chọn thuật toán KPDL thực việc PKDL để tìm đƣợc mẫu có ý nghĩa, mẫu đƣợc biểu diễn dƣới dạng luật kết hợp, định tƣơng ứng với ý nghĩa 1.4 Các phƣơng pháp khai phá liệu Với hai mục đích khai phá liệu Mơ tả Dự đoán, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: Luật kết hợp (association rules) Phân lớp (Classfication) Hồi qui (Regression) Trực quan hóa (Visualiztion) Phân cụm (Clustering) Tổng hợp (Summarization) Mơ hình ràng buộc (Dependency modeling) Biểu diễn mơ hình (Model Evaluation) Phân tích phát triển độ lệch (Evolution and deviation analyst) Phƣơng pháp tìm kiếm (Search Method) Tập phổ biến đóng(Frequent Closed Patterns) Có nhiều phƣơng pháp khai phá liệu đƣợc nghiên cứu trên, có ba phƣơng pháp đƣợc nhà nghiên cứu sử dụng nhiều là: Luật kết hợp, Phân lớp liệu Phân cụm liệu 1.5 Các lĩnh vực ứng dụng thực tiễn khai phá liệu Hình 1.3: Các lĩnh vực ứng dụng KPDL 1.6 Các hƣớng tiếp cận khai phá liệu Các hƣớng tiếp cận KPDL đƣợc phân chia theo chức hay lớp toán khác Sau số hƣớng tiếp cận Phân lớp dự đoán (classification & prediction): xếp đối tƣợng vào lớp biết trƣớc Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hƣớng tiếp cận thƣờng sử dụng số kỹ thuật machine learning nhƣ định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân lớp cịn đƣợc gọi học có giám sát (học có thầy supervised learning) Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp đƣợc ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài & thị trƣờng chứng khốn, v.v Khai phá chuỗi theo thời gian (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng có thêm tính thứ tự tính thời gian Hƣớng tiếp cận đƣợc ứng dụng nhiều lĩnh vực tài thị trƣờng chứng khốn có tính dự báo cao Phân cụm (clustering/segmentation): xếp đối tƣợng theo cụm (số lƣợng nhƣ tên cụm chƣa đƣợc biết trƣớc Phân cụm cịn đƣợc gọi học khơng giám sát (học khơng có thầy – unsupervised learning) Mơ tả khái niệm (concept description & summarization): thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn Khai phá tập phổ biến (mining frequent pattern): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.7 Phân loại hệ khai phá liệu - KPDL công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhƣ CSDL, kỹ thuật máy học (machine learning), giải thuật, trực quan hóa (visualization), v.v Chúng ta phân loại hệ thống KPDL dựa tiêu chí khác - Phân loại dựa kiểu liệu đƣợc khai phá: CSDL quan hệ (relational database), kho liệu (data warehouse), CSDL giao dịch (transactional database), CSDL hƣớng đối tƣợng, CSDL không gian (spatial database), CSDL đa phƣơng tiện (multimedia database), CSDL Text WWW, v.v - Phân loại dựa dạng tri thức đƣợc khám phá: tóm tắt mơ tả (summarization & description), luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining), v.v - Phân loại dựa kỹ thuật đƣợc áp dụng: hƣớng CSDL (database-oriented), phân tích trực tuyến (OnLine Analytical Processing – OLAP), machine learning (cây định, mạng nơ ron nhân tạo, k-min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thơ, tập mờ, v.v.), trực quan hóa (visualization), v.v - Phân loại dựa lĩnh vực đƣợc áp dụng: kinh doanh bán lẻ (retail), truyền thông (telecommunication), tin-sinh (bio-informatics), y học (medical treatment), tài & thị trƣờng chứng khoán (finance & stock market), Web mining, v.v 1.8 Các thách thức - khó khăn KPTT KPDL KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần đƣợc quan tâm: 10 - Các sở liệu lớn, tập liệu cần xử lý có kích thƣớc cực lớn, Trong thực tế, kích thƣớc tập liệu thƣờng mức tera-byte (hàng ngàn gigabyte) - Mức độ nhiễu cao liệu bị thiếu - Số chiều lớn - Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp - Quan hệ trƣờng phức tạp 37 3.2.3.2 Sự hình thành FCP 2D Trong giai đoạn 2, thuật toán khai phá FCP có đƣợc áp dụng lát đại diện để khai phá FCPs 2D dựa chiều R C Trong đồ án chúng ta, áp dụng D-Miner Sau khai phá, có FCPs 2D cho chiều R C Ví dụ Bảng 3.6, FCPS đƣợc hiển thị cột thứ Bảng 3.7 3.2.3.3 Sự hình thành FCC 3D Trong giai đoạn 3, tập phổ biến 3D đƣợc tạo cách kết hợp FCP 2D với chiều cao góp phần hình thành lát đại diện Tuy nhiên, khơng phải tất mẫu phổ biến 3D FCCs Một số số chúng khơng đóng tập chiều cao cần đƣợc lƣợc bớt Ví dụ, Bảng 3.7, sau kết hợp FCP 2D “r1r3 : c1c2c3, 2: 3” "với chiều cao góp phần “ h2, h3", mẫu phổ biến 3D “ h2h3 : r1r3 : c1c2c3 ; 2: 2: 3” đƣợc sinh Mẫu phổ biến 3D FCC chỗ bị hở tập chiều cao có tập cha “h1h2h3 : r1r3 : c1c2c3 ; 2: 2: 3” (FCC thứ cột thứ Bảng 3.7) Do vậy, FCP 2D khơng chứa lát h2 h3, mà cịn chứa lát h1 Để loại bỏ tất mơ hình phổ biến đóng 3D bị hở, phát triển chiến lƣợc cắt tỉa sau dựa Bổ đề Nếu FCP 2D đƣợc chứa lát chiều cao khác ngồi lát chiều cao đóng góp nó, hở đƣợc lƣợc bỏ, khơng, đƣợc giữ lại Bổ đề Chiến lƣợc cắt tỉa sau: cho O’ = H’ x C’ x R’ tập phổ biến 3D H chiều cao đầy đủ Nếu H’’ (H \ H’) nhƣ hk H’’, ri R’, i 38 C’,Ok,i,j = 1, O’ hở tập chiều cao đƣợc lƣợc bớt đi, khơng, O’ đƣợc giữ lại Trong q trình cắt tỉa sau, khơng phải tất liên khơng góp phần cấu thành lát đƣợc kiểm tra Nhƣ đƣợc trình bày thuật tốn Trong q trình kiểm tra lát, trình kiểm tra cột đƣợc lặp (từ dòng 12-17) bị chấm dứt ô có giá trị “0” bị phát hiện, điều trực tiếp dẫn đến việc chấm dứt vòng lặp kiểm tra dịng (từ dịng 10 đến 22) Có nghĩa là, có giá trị “0” q trình kiểm tra lát bị dừng Và phát lát vƣợt qua vòng kiểm tra cột dịng (tất giá trị liên quan “1”') mà khơng chấm dứt sớm, tồn vịng kiểm tra lát (từ dịng 7-28) đƣợc chấm dứt lúc mẫu đƣợc khẳng định hở Chiến lƣợc thuật toán đảm bảo hoàn tất việc kiểm tra chặt chẽ sớm tốt Đối với ví dụ Bảng 3.7, sau trình cắt tỉa sau, FCCs kết đƣợc hiển thị cột thứ 3.2.3.4 Tính đắn Định lý cho thấy RSM sinh tất có tất FCCs cách xác Định lý Cho tập khối phổ biến đóng FCCs liệu 3D ξ ký hiệu cho kết thu đƣợc khối phổ biến đóng chay RSM tập liệu 39 Khi FCCs = ξ Nói cách khác, RSM xác tạo tất có tất FCCs 3.2.4 Thuật tốn CubeMiner Trong RSM có lợi tái sử dụng thuật tốn khai phá FCP tại, số lát 2D lớn Trong phần này, trình bày phƣơng pháp mà khai phá FCCs trực tiếp từ liệu 3D Đầu tiên phải trình bày nguyên tắc đằng sau đề án CubeMiner[1] Sau đó, xem xét thuật toán, cuối trình bày tính đắn CubeMiner 3.2.4.1 Nguyên lý CubeMiner CubeMiner thuật toán để khai phá FCC (H0; R0, C0) dựa ràng buộc Nó xây dựng tập H’, R’, C’ sử dụng ràng buộc ngƣỡng hỗ trợ đơn điệu đồng thời H, R, C để rút gọn khơng gian tìm kiếm Một FCC cho thấy tất độ cao, dòng cột chứa mối quan hệ Từ đó, phải xác định khối tối đa với tất có giá trị “1” Nếu loại bỏ giá trị từ khối liệu ban đầu toàn mà khơng thay đổi hình dạng khối cịn lại, thu hẹp khơng gian tìm kiếm nhiều Hình 3.5: CubeMiner Hình 3.5 minh họa nguyên lý CubeMiner Cho khối lập phƣơng O đại diện cho tồn liệu góc bên trái O’ nằm O đại diện cho khu vực dƣ thừa (khu vực chứa giá trị “0”) để đƣợc lƣợc bỏ Từ bề mặt khối lập phƣơng O’, ba mặt phẳng Ba mặt phẳng chia khối lập phƣơng O làm ba phần: khối phía A, khối phía sau B khối bên phải C Và phƣơng trình A B C = O \ O’ thỏa mãn Trong phần A, B, C, tồn khu vực chứa giá trị “0” Các nguyên lý chia tách tƣơng tự đƣợc áp dụng tất 40 khu vực chứa giá trị “0” đƣợc lƣợc bỏ Chúng ta cố gắng loại bỏ nhiều giá trị “0” tốt trình chia nhỏ Trong trình quét liệu, giá trị “0” đƣợc tổng hợp với chiều lớn để đạt hiệu cao Chúng ta sử dụng Z để ký hiệu tập hợp nhóm mà đƣợc phân vùng giá trị sai (tức “0”) ma trận Boolean (W; X; Y) Z đƣợc gọi “lát cắt” hk W, ri X; cj Y, Ok,i, j = Và gọi W, X; Y phần tử trái , phần tử giữa, phần tử phải lát cắt (W, X, Y) tƣơng ứng Chúng ta gộp có giá trị “0” liên tiếp, đó, Z chứa nhiều lát cắt nhƣ dịng tất lát chiều cao ma trận liệu 3D Mỗi lát cắt gồm có giá trị dòng Bảng 3.8 cho thấy 10 lát cắt ma trận Bảng 3.6 Các lát cắt đƣợc xếp theo thứ tự tăng dần theo phần từ bên trái phần tử thứ hai Bảng 3.8: Z (tập lát cắt) CubeMiner bắt đầu với liệu O(H, R, C) sau chia đệ quy cách sử dụng lát cắt Z tất lát cắt Z đƣợc sử dụng tất ô khối lập phƣơng thu đƣợc có giá trị “1” Một lát cắt (W, X, Y) Z đƣợc sử dụng để lƣợt bớt khối (H’, R’, C’) W H’ ,X R’ , Y C’ Trong trƣờng hợp này, nói lát cắt đƣợc "áp dụng" cho khối Thông thƣờng, xác định trái (H’, R’, C’) (H’ \ W, R’, C’), (H’; R’ \ X; C’) phải (H’, R’, C’ \ Y ) Đệ quy chia nhỏ dẫn đến tất FCCs, nhƣng có số khối hở, không tối đa Chiến lƣợc cắt tỉa cần phải đƣợc áp dụng để đảm bảo có đƣợc tất FCCs có FCCs Chúng ta xem xét làm để phát triển chiến lƣợc cắt tỉa nhƣ Hình 3.5 cho thấy đƣợc tạo từ ma trận 3D Bảng 3.6 41 Hình 3.6: Cây khai phá FCC Từ Hình 3.6, thấy 10 lát cắt Bảng3.8 phân chia tập liệu ban đầu sau 10 bƣớc (cấp) Chúng ta xác định bƣớc từ gốc đến nút đƣờng 42 dẫn nút Mỗi nút đƣợc chia thành ba nút bƣớc lát cắt đƣợc áp dụng Chúng ta giữ hiển thị nút đáp ứng ngƣỡng hỗ trợ (cho minH = minR = Minc = 2) để hạn chế không gian Tuy nhiên, bƣớc, tất nút đƣợc tạo hữu ích cho việc chia nhỏ Có bốn loại nút vơ ích: a Con trái từ nhánh / phải đƣợc cắt lát cắt phần tử trái đƣợc cắt đƣờng dẫn nút trƣớc Ví dụ, phần tử trái h1 lát cắt (h1, r2, c4c5) cắt đƣờng dẫn trái L(h2h3, r2r3r4, c1c2c3c4c5) (a1 mức 2) L(h2h3, r1r2r3r4, c1c2c3c5) (a2 mức a1 từ nhánh hở tập dòng a2 từ nhánh phải hở tập cột Chúng đƣợc lƣợc bớt tập nút L(h2h3, r1r2r3r4, c1c2c3c4c5) (nút1 mức 1) b Con từ nhánh phải đƣợc cắt lát cắt mà phần tử đƣợc cắt đƣờng dẫn nút trƣớc Ví dụ, phần tử r2 lát cắt (h2, r2, c1c5) cắt đƣờng dẫn M(h1h2h3, r1r3, c1c2c3) (b1 mức 4) Con bị hở tập cột cần đƣợc lƣợt bớt tập nút M(h1h2h3, r1r3, c1c2c3c5) (nút mức 3) Con b2, b3 b4 tất trƣờng hợp tƣơng tự: chúng tập hợp nút khác c Các nút mà hở tập chiều cao Ví dụ, nút R(h2h3, r1r3, c1c2c3) (c1 mức 7) hở tập chiều cao tồn nút cha R(h1h2h3, r1r3, c1c2c3) (5 nút mức 5) Các nút nhƣ cần phải lƣợc bớt để đảm bảo tính đóng tập chiều cao Các nút c2, c3, c4 ví dụ nhƣ d Các nút mà hở tập dịng Ví dụ, nút R(h1h2h3, r2r3r4, c1c2c3) (d1 mức 2) hở tập dịng có nút cha R(h1h2h3, r1r2r3r4, c1c2c3) (nút mức 2) Các nút nhƣ cần lƣợc bớt để đảm bảo tính đóng tập dịng Nút R(h2h3, r1r4, c1c2c3) (d2 mức 7) ví dụ bị lƣợc bớt khơng đóng dịng r3 Lƣu ý tồn số nút đóng tập dịng chúng có nút cha tạm thời q trình xử lý Ví dụ, nút R(h1h2h3, r3r4, c3c5) (d3 mức 3) có nút cha tạm thời R(h1h2h3, r1r3r4, c3c5) (d4 mức 3) Mặc dù nút d3 xuất tạm thời hở dòng r1, phát sau áp dụng lát cắt sau (h3, r1, c4c5) mức độ 7, nút d4 bị tập cha nó, nút d3 L(h1h3, r3r4, c3c5) (d5 mức 7) phục vụ nhƣ lý để loại bỏ M(h1h3, r3r4, c3c5) (b2 đẻ d4) cách an tồn Do đó, chẳng hạn tập dòng mà tạm nút thời hở xử lý đƣợc giữ lại chúng tập dịng đóng tồn q trình Để loại bỏ nút vơ ích loại (a) (b), giữ hai tập TL = {W1, W2, Wp}; TM = {X1, X2,…, Xq} nút để theo dõi phần tử bên trái lát cắt sử dụng để cắt đƣờng dẫn nút Và dựa hai tập, phát triển Left Track Checking Bổ đề Middle Track Checking bổ đề Trạng thái khởi tạo TL = TM = rỗng Chỉ trái từ nhánh / phải cần đƣợc kiểm tra, tập TL đƣợc cập nhật / phải đƣợc tạo Tƣơng tự nhƣ vậy, từ nhánh bên phải cần đƣợc kiểm tra, thiết lập TM 43 đƣợc cập nhật phải đƣợc tạo Chúng ta ký hiệu tập TL (và TM) nút O TLO (và TMO) Bộ đề Left Track Checking: Cho L=(H’\W,R’,C’) trái nút O’(H’,R’,C’) lát cắt z = (W,X,Y) Nếu W TLo’ , L đƣợc lƣợc bỏ Ví dụ: Trong Hình 3.6, Con trái L(h2h3, r2r3r4, c1c2c3c4c5) (a1 mức 2) có cha P(h1h2h3, r2r3r4, c1c2c3c4c5) (nút thứ mức 1) lát cắt (h1, r2, c4c5) bị lƣợc bỏ W TLP Bộ đề Middle Track Checking: Cho M = (H’,R’\X,C’) nút O’(H’,R’,C’) lát cắt z = (W,X,Y) Nếu X TMO’ , M đƣợc lƣợc bỏ Ví dụ: Trong Hình 3.6, Con M(h1h2h3, r1r3, c1c2c3) (b1 mức 4) có cha P(h1h2h3, r1r2r3, c1c2c3) (nút thứ mức 3) lát cắt (h2, r2, c1c5) bị lƣợc bỏ X TMP Để loại bỏ nút vơ ích loại (c) (d), phát triển Close Height Set Checking Bổ đề 10 Close Row Set Checking bổ đề 11 Bổ đề 10 Close Height Set Checking: Cho O’’ = (H’’,R’’,C’’) / phải nút O’ Z toàn tập lát cắt Nếu Hw (H\H’’)(H tập chiều cao đầy đủ O) nhƣ ({hw}, {rx}, Cy) Z rx R’’, C’’ Cy = , O’’ hở tập chiều cao đƣợc lƣợt bỏ Từ trái khơng thỏa mãn điều kiện, phải cần kiểm tra Ví dụ: Trong Hình 3.6, nút R(h2h3, r1r2r3, c2c3) (c2 mức 7) khơng đóng tập chiều cao có h1 (H\ {h2h3}), nhƣ lát cắt (h1, r1, c4) (h1,r2,c4c5), {c2,c3} {c4} = {c2,c3} {c4c5} = Và tìm thấy tập cha c2 nút R(h1h2h3, r1r2r3, c2c3)(nút thứ mức 4) Bổ đề 11 Close Row Set Checking: Cho O’’ = (H’’,R’’,C’’) trái / phải nút O’ Z toàn tập lát cắt Nếu rx (R\R’’)(R tập dòng đầy đủ O) nhƣ ({hw}, {rx}, Cy) Z hw H’’, C’’ Cy = , O’’ hở tập dịng đƣợc lƣợt bỏ Từ phải khơng thỏa mãn điều kiện, trái phải cần kiểm tra Ví dụ: Trong Hình 3.6, nút R(h2h3, r1r4, c1c2c3) (d2 mức 7) khơng đóng tập dịng có r3 (R\ {r1r4}), nhƣ lát cắt (h2, r3, c5) (h3,r3,c5), {c1, c2,c3} {c5} = Và tìm thấy tập cha d2 nút R(h2h3, r1r3r4, c1c2c3)(nút thứ mức 6) 3.2.4.2 Thuật toán CubeMiner CubeMiner sử dụng phƣơng thức depth-first để khai phá FCCs Algorithm chứa code-pseudo CubeMiner Đầu tiên, kiểm tra TL, TM đƣợc khỏi tạo rỗng hay chƣa tập lát cắt Z đƣợc tính tốn, sau sử dụng đệ quy hàm cut() Algorithm đƣợc gọi 44 Hàm cut() cắt nút O’ = (H’, R’, C’) với lát cắt Z[i] = (W, X, Y) điều thỏa mãn ràng buộc sau Đầu tiên, (H’, R’, C’) phải giao với Z[i] khác rỗng, không thỏa mãn trƣờng hợp này, hàm cut() đƣợc gọi với lát cắt Để xây dựng trái L = (H’ \ W, R’, C’) (dòng 9-14), đòi hỏi kiểm tra: kiểm tra minH(H’\W), Left Track Check, Close Row Set Check (hàm Rcheck() Algorithm 4) Nếu L không bị lƣợc bỏ ba kiểm tra, hàm cut() đƣợc gọi để xử lý L, không cập nhật tập TL TM cho L 45 Để xây dựng M = (H’, R’\X, C’)(dòng 15-20) đòi hỏi kiểm tra: kiểm tra minR(R’\X), Middle Track Check, Close Height Set Check (hàm Hcheck() Algorithm 5) Nếu M không bị lƣợc bỏ ba kiểm tra, hàm cut() đƣợc gọi để xử lý M, tập TL cho L đƣợc cập nhật TL W Để xây dựng phải R = (H’, R’, C’\Y)(dòng 21-29) đòi hỏi kiểm tra: kiểm tra minC(C’\Y), Close Row Set Check, Close Height Set Check Nếu R không bị lƣợc bỏ ba kiểm tra, hàm cut() đƣợc gọi để xử lý R, tập TL, TM cho L đƣợc cập nhật TL W, TM X Khi kích thƣớc Z thứ tự xếp lát cắt Z quan trọng tới hiệu suất, thuật tốn đƣợc tối ƣu hóa tiền xử lý tập liệu 3D Chúng ta áp dụng hai heuristics Đầu tiên, chuyển vị liệu ma trận 3D để làm cho |H| < |C| |R| < |C|, điều giúp giảm thiểu kích thƣớc |Z| Thứ hai, xếp lát chiều cao có chứa nhiều giá trị luôn đứng trƣớc lát chiều cao có giá trị 0, điều giúp đẩy nhanh trình khai phá lƣợc bớt khơng gian tìm kiếm sớm tốt 3.2.4.3 Tính đắn CubeMiner xây dựng gốc (H, R, C) sau giảm đồng thời H, R, C để thu đƣợc tập có nguồn gốc từ (H, R, C) Định lý cho thấy CubeMiner xác tạo tất có tất FCCs 46 Định lý 4: Cho FCCs tập khối thƣờng xuyên đóng liệu 3D Cho LV tập nút có nguồn gốc từ áp dụng CubeMiner tập liệu Khi đó, FCCs = LV Nói cách khác, CubeMiner xác tạo tất có tất FCCs 3.2.3 Khai phá FCC song song Cho khai phá FCC tính tốn nhiều thời gian, giải pháp để giảm thời gian đáp ứng khai thác song song Trong phần này, cho thấy làm RSM CubeMiner đƣợc dễ dàng khai phá song song Nói chung, thuật toán song song thƣờng bao gồm ba giai đoạn: (a) giai đoạn tạo tác vụ cách tách tác vụ ban đầu thành tác vụ nhỏ hơn, (b) giai đoạn phân bổ tác vụ định tác vụ cho xử lý; (c) giai đoạn thi hành tác vụ xử lý có tác động tác vụ đƣợc định Một yếu tố quan trọng việc khai phá song song để giảm thiểu trở ngại giai đoạn thi hành, để tất vi xử lý hoạt động độc lập, đồng thời mà không cần phải giao tiếp với Điều hai thuật toán RSM CubeMiner phù hợp cách tuyệt vời với khung trên: tác vụ đƣợc tạo giao cho xử lý để thực độc lập - Khai phá song song RSM: Trong RSM, khai phá lát đại diện tƣơng ứng với tác vụ, nói cách khác, số lƣợng tối đa tác vụ số liệt kê chiều sở (những liệt kê mà không đáp ứng ngƣỡng yêu cầu tối thiểu đƣợc loại bỏ) Mỗi tác vụ đƣợc giao cho xử lý, đƣợc xử lý độc lập - Khai phá song song CubeMiner: Trong CubeMiner, nhánh q trình tách đƣợc xử lý độc lập, đó, nhánh tƣơng ứng với tác vụ Nói cách khác, phân bổ nhánh trình tách tới xử lý Đối với hai RSM CubeMiner, để đảm bảo tác vụ đƣợc xử lý độc lập, xử lý đòi hỏi phải có đầy đủ liệu Điều cần thiết để giai đoạn cắt tỉa sau đƣợc thực độc lập May mắn thay, việc đồng (để truyền tải liệu cho tất vi xử lý) không quan trọng: (a) liệu đƣợc truyền tác vụ đƣợc tạo ra, thời gian đáp ứng khơng bị ảnh hƣởng nhiều; (b) chi phí đồng tƣơng đối nhỏ so với chi phí khai phá 3.2.4 Độ phức tạp thời gian Độ phức tạp thời gian khai phá FCCs tính theo hàm số mũ số lƣợng mẫu Cho liệu 3D O = H x R x C, |H| = L, |R| = N, |C| = M, độ phức tạp thời gian RSM CubeMiner lần lƣợt O(2L+N + N2 + M) O(2LN x M)(không áp dụng chiến lƣợc cắt tỉa sau nào) Bằng cách áp dụng minH, minR, minC, ràng buộc chặt chẽ chiến lƣợc cắt tỉa sau, hiệu RSM CubeMiner đƣợc cải thiện đáng kể 47 3.3 Tóm tắt Trong chƣơng này, đề xuất Khung cho khai phá FCPS liệu dày đặc Ý tƣởng khung phân vùng tập liệu ban đầu thành không gian nhƣ việc khai phá không gian tạo đáp án giống nhƣ khai phá từ không gian ban đầu Căn vào Khung này, đề xuất hai thuật toán C-Miner, B-Miner khai phá cho liệu 2D hai thuật toán RSM, CubeMiner cho liệu 3D Hai thuật toán C-Miner B-Miner bao gồm giai đoạn: phân vùng không gian khai phá khai phá FCP từ khơng gian Hai thuật tốn áp dụng cách phân vùng chiến lƣợc lƣợc bỏ khác Thuật toán RSM dựa ý tƣởng chuyển đổi liệu 3D thành tập liệu 2D, sau áp dụng thuật tốn khai phá FCP để khai phá liệu 2D, cuối tổng hợp FCP 2D để thu đƣợc FCC 3D Thuật toán CubeMiner khai phá FCC trực tiếp liệu 3D Ý tƣởng sử dụng lát cắt phân chia để thu đƣợc FCC Ngoài cho thấy đƣợc làm khung khai phá song song FCP,FCC cách đơn giản hiệu 48 CHƢƠNG 4: CÀI ĐẶT THUẬT TỐN THỬ NGHIỆM Vì thời gian tìm hiểu khơng nhiều, để minh họa cho thuật toán đƣợc nêu Em xin giới thiệu chƣơng trình khai phá tập phổ biến đóng khơng gian chiều áp dụng thuật toán C-Miner 4.1 Giới thiệu chƣơng trình - Chƣơng trình đƣợc xây dựng ngơn ngữ VB.NET Đầu vào liệu chiều ngƣời dùng thiết lập Đầu tập phổ biến đóng khơng gian chiều cho 4.2 Giao diện chƣơng trình Chƣơng trình bao gồm form chính: dùng để nhập liệu , xử lý hiển thị kết 4.3 Các thành phần chức chƣơng trình - Group Items 49 + Ô textbox để nhập tên mục + Nút Add Item để thêm mục cho liệu + Nút Del Item để xóa mục liệu + Một ListView để biểu diễn tập mục liệu + Lần lƣợt nút add transaction, edit transaction, delete, clear all có chức thêm , sửa, xóa clear dịng liệu - Group Trấnctions gồm ListView để biểu diễn dòng liệu - textbox để nhập giá trị min_support min_len - Nút Open đề mở có sẵn từ file txt - Nút View có chƣc hiển thị Ma trận liệu - Nút Solve Có chức thực tính tốn để tìm kiếm FCP - Nút Reset có chức khỏi tạo lại liệu mởi - ListView bên phải lần lƣợt biểu diễn cho Ma trận liệu, Tập cắt Tập FCP khai phá đƣợc 4.4 Kết thực nghiệm Sau chạy số ví dụ liệu khác với ngƣỡng min_sup min_len khác Ta thấy thuật tốn C-Miner đa khai phá đƣợc xác tất FCP tất FCP Với liệu dạng lớn hiệu CMiner đƣợc cải thiện nhiều 50 KẾT LUẬN Hiện nay, ngƣời chìm ngập tri thức nhƣng lại thiếu thốn thông tin, với lƣợng liệu lớn phức tạp nhƣ nhu cầu khai phá tri thức trở nên thiết yếu với ngƣời Đồ án giới thiệu đƣợc tổng quát KPTT KPDL, hƣớng tiếp cận KPTT, lĩnh vực ứng dụng KPTT thực tế Ngồi đồ án cịn đề cập đến số phƣơng pháp khai phá liệu dạng đóng đƣợc ứng dụng nhiều lĩnh vực thực tế (phân tích thị trƣờng, phân tính sinh học,…) Cụ thể thuật toán C-Miner B-Miner khai phá liệu chiều, RSM CubeMiner khai phá liệu chiều Hạn chễ: Vì thời gian tìm hiểu chƣa đƣợc nhiều nên em xây dựng đƣợc chƣơng trình khai phá liệu dựa thuật toán C-Miner với đầu vào liệu dạng text Hƣớng tiếp theo: Xây dựng chƣơng trình thực nghiệm thuật tốn B-Miner, RSM CubeMiner liệu sở liệu thực tế 51 TÀI LIỆU THAM KHẢO [1] Ji Liping (Bachelor of Management, Nanjing University, China): Mining Localized co-expressed gene patterns from microarray data, A dissertation submitted for the degree of philosophy at national university of Singapore school of computing june 2006 [2] Andrew Kusiak Intelligent Systems Laboratory 2139 Seamans Center The University of Iowa Iowa City, Iowa 52242 – 1527: Association Rules The Apriori Algorithm [3] Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U and Hsu, M: Frequent patternprojected sequential pattern mining [4] Nguyễn Đức Cƣờng – Khoa Công Nghệ Thông Tin – Đại học Bách Khoa Thành Phố Hồ Chí Minh: Tổng quan khai phá liệu ... dụ, Bảng 3. 7, sau kết hợp FCP 2D “r1r3 : c1c2c3, 2: 3? ?? "với chiều cao góp phần “ h2, h3", mẫu phổ biến 3D “ h2h3 : r1r3 : c1c2c3 ; 2: 2: 3? ?? đƣợc sinh Mẫu phổ biến 3D FCC chỗ bị hở tập chiều cao... Hình 3. 6, nút R(h2h3, r1r4, c1c2c3) (d2 mức 7) không đóng tập dịng có r3 (R\ {r1r4}), nhƣ lát cắt (h2, r3, c5) (h3,r3,c5), {c1, c2,c3} {c5} = Và tìm thấy tập cha d2 nút R(h2h3, r1r3r4, c1c2c3)(nút... r1r2r3, c2c3) (c2 mức 7) khơng đóng tập chiều cao có h1 (H\ {h2h3}), nhƣ lát cắt (h1, r1, c4) (h1,r2,c4c5), {c2,c3} {c4} = {c2,c3} {c4c5} = Và tìm thấy tập cha c2 nút R(h1h2h3, r1r2r3, c2c3)(nút