Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
22,03 MB
Nội dung
ĐẠI HỌC ỌƯĨC GIA HÀ NỘI KHOA CƠNG NGHỆ PHAN XUÂN HIÉƯ KHAI PHÁ SONG SONG LUẬT KẾT HỌP MỜ Chuyên ngành: C ô n g nghệ thông tin Mà số: 1.01.10 LUẬN VẢN THẠC s ĩ NGƯỜI HƯỚNG DÀN KHOA HỌC TS HÀ QUANG THỤY €>Ại M Ọ C C U ;Ố C G I A H À N Ộ I TRỦNGTẲMTH&líĩmTHƯVIẼN HoV-tO Hà Nội - 2003 )M o M ụ c lục I ) a n h m ụ c h ì n h v ẽ I ) ; m h m ụ c b ả n g b i ể u K ý h i ệ u v t v i ê l t ã t (Vi c a m o n M o ' t i t i T Ô I I O q u a n v è k h a i p h d ữ l i ệ u I I K h a i p h c l ữ l i ệ u 1 M ụ c l i ê u c u a k h a i p h d ữ l i ệ u .9 Đ ị n h n e l ì ĩ a k h a i p h d l i ệ u 10 1.3 C c b c c h í n h t r o n g k h m p h t r i I h c ( K D D ) 1I 1.2 I l i r n ụ l i ô p c ậ n v k ỹ t h u ậ t p d ụ n t r o n c K h a i p h d ữ l i ệ u 12 C hirơ im I I n g tiế p c ậ n v k ỹ th u ậ t c h í n h t r o n g k h a i p h d liệu 12 C c d n g d ữ l i ệ u c ó t h ể k h a i p h 13 I ỉ n g đ ụ n ” c u a K h a i p h d ữ l i ệ u 13 1.2.1 d ụ n í i c ủ a k h a i p h d ữ l i ệ u 13 [ ’ h â n l o i c c h ệ l l ì ô n ụ k h a i p h d l i ệ u 14 N h n a v ấ n d ề d ợ c c h ú I r ọ n g t r ô n a , K h a i p h d ữ l i ệ u 14 C l i n í i u ậ l k è t h ọ p 16 { J’n u Y i m h ĩ a c ù a l u ậ t k é t h ọ p 16 P h i h i ê n h i t o n k h í i i p h l u ậ t k è t h ợ p 17 N l ũ m u h ứ i i R t i ế p c ậ n c h í n h t r o n g k h a i p h l u ậ t k ê l h ợ p 19 2.1 m ò ' 22 ì I I , u ậ t k ê t h ợ p c ó t l u i ộ c l í n h s ô 22 C h n a K h a i p h l u ậ t kêl họp I , u ậ l k ế t h ợ p c ó t h u ộ c t í n h s ố 22 1.2 Các phươne, pháp rời rạc h ó a 23 3.2 Luật kết hợp m 26 3.2.1 Rời rạc hóa thuộc tính dựa vào tập m 26 3.2.2 Luật kết hợp m .28 3.2.3 Thuật toán khai phá luật kết hợp m 32 3.2.4 Chuyển luật kết hợp mờ luật kết hợp với thuộc tính s ố 36 3.2.5 Thử nehiệm kết l u ậ n 37 Chương Khai phá song song luật kết hợp m 42 Một sơ thuật tốn song song khai phá luật kết h ợ p 43 4.2 Thuật toán song song cho luật kết hợp m 50 4.2 ỉ I lướng tiếp cận 50 4.2.2 Thuật toán soné sone, cho luật kết họp m 54 4.2.2 Tính dãn độ phức tạp thời gian thuật toán 55 4.3 Thứ nụhĩệm kết l u ậ n 58 Kết luận 60 Nliữne vân dê giải luậnvăn n y 60 Cône việc nehiên cứu tương l a i 61 T i liệu th a m k h ả o Phụ lụ c 66 Danh m ụ c hình vẽ ■ Hình I - Lượng dừ liệu tích lũy tăng mạnh theo thời gian Hình - Các hước quớ trình khám phá tr i thức (KDD) / Hình - Minh họa luật kết hợp 16 Hình - Ví dụ vân đề "Điểm biên ĩỊÕy " tiến hành rờ i rạc hóa liệ u 25 Hình - Đồ thị hàm thuộc cùa tập mờ "T u o ijrè ", "T u o ijru n g niên", "Tìlơi g ià " 26 Hình - Đồ thị hàm thuộc hai tập mờ "Cholesterol thấp" "Cholesterol c a o " Hình - Thời gian xử lý tăng mạnh giảm giá trị fm insup 37 Hình - Sơ l trợng tập phơ biến luật tăng mạnh giám dan fminsup 38 Hình - So ỉượng độ tin cậv tâng mạnh giảm dần fminconf 39 Hình 10 - Thời gian xử lý tăng mạnh tăng nhẹ số lượng thuộc tín h 39 Hình ì I - Thời gian xử lý tăng tuyến tính với số lượng bàn g h i 40 Hình 12- So lượng tập phổ hiến luật tin cậy biến đổi theo toán tử T-norm .40 Hình 13 - Két khai phá phàn ảnh thay đổi ngưỡng gắn với tập m Hình 14- Thuật tốn phân phổi độ hỗ trợ hệ B X L 44 Hình 15 - Thuật tốn phân phổi liệu B X L 45 Hình ỉ - Thời ẹian sinh luật giảm mạnh tăng dần độ tin cậy tối thiểu 49 Hình - Sơ luật tin cậv giàm mạnh tăng dần độ tin cậy toi thiêu minconf 49 Hình 18 - Hình minh họa thuật toán phân chia 56 Hình 19- Thỏi gian xử lý giảm đáng kế tăng dân sỏ tiến trình song song 58 Hình 20 - Thời gian xử lý phụ thuộc vào tỷ lệ sổ tiến trình loẹic so CPU vật lý 59 Hình 21 - Cừo sơgiao diện FuzzyA R M 66 Hình 22 - Cứa sd dùng để tạo sửa đổi tập mờ 67 Hình 23 - Cứa sổ hiển thị kết khơi phá luật kết hợp mờ 67 Danh m ụ c b ản g biểu ỉì(inc / - Vi dụ CSDL dọng < ,iao d ịc h .17 Bỉnự - Các tập phơ biến CSDL bảng ì với độ hô trợ thiêu 50% 17 Bang - Luật kết hợp sinh từ tập phổ biển ACW 18 Bám: -t - CSDL khám chân đoán bệnh tim mạch cùa 17 bệnh nhân 22 Ba in: - Rỏi rạc hóa thuộc tỉnh sổ rờ i rạc hữu hạn thuộc tinh họng mục 24 Bant - Rời rọc hóa thuộc tính so "Lượng cholesterol m u " 24 Bàn ĩ - Rời rạc hóa thuộc tỉnh só “ Tuỏi tác " 24 Bánlìia IX) , tliuật t o n i ri m g b a n g 10 c ũ n g N P d â y du T u y n h i ê n , k ết tỊiia t h ụ c lé lại k h lạc q u a n d o h a u hết c c C S D L g i a o d ị c h u r n g đôi t h a C c kêl q u a ( Sl)l tlụrc n u h i ệ m c h o th ây thời g i a n t h n g t u y ê n tính vớ i k í c h t h c c ú a ( s ò lir ựng l lni ộc l ín h v a sơ l ợ n g b ả n ghi) Cỉiá sư đ ộ p h ứ c t p thời g i a n c ù a t h u ậ t t o n t u â n t ự ( b ả n g 10) c = /Í|IỊ TỊ), t r o n o ció jl| |T| t ư n g ứ n g s ố t h u ộ c tính v số b ả n ghi C h ú n g ta ứ c l u ợ n u đ u p h ứ c tạp t h ò i g i a n c u a t h u ậ t t o n s o n g s o n g d ự a t rê n ( ìia SƯ' c = / ( Ị I | , |T|) r ả i m hộ i h ố i m s o n g s o n g c ó N b ộ x ứ lý v t h u ậ t t o n p h â n c h i a (trono, b a n g ) lim i lu ự c n g h i ệ m tối uII V = ( k | , k 2, k m} K h n g m ấ t t ín h t ổ n g q uá t, a iá s ứ t a m d ầ u hộ ch i c ố k I b ộ \ ứ lý K h i d ỏ thời íiian t h ự c hi ệ n tì m tỉ, b ộ x lý hãnỵ, \/k I lân s o v ó i Ih u ậl t o n l u â n tụ' D o đ ó , đ ộ p h ứ c t p thời g i a n c ủ a t h u ậ t t o n s o i m s o n g g i a m k\ lần s o i t h u ậ t t o a n tu ần tự N ó i c c h k h c , đ ộ p h ứ c l p thời 58 íiian P C = c / N = /(|ỉ|, |T|) / kị N ế u h ệ t h ố n c t h ê m (l 12 ự> 1.2 0.8 n fi 04 02 n [1/4] [2/4] [3/4] [4/4] [S o tie n tiin li lo(|ic So CPUvột ỉyỊ -♦—Thời gian thực H ìn h 19 - T h ị i gian xú lý giam dáng kế tăng (lần số tiến trìn h song song Bièui d trê n d â y c h o b i ế t s ự p h ụ t h u ộ c c ủ a thời g i a n tì m k i ế m v o s ố l ợ n g lièn t r ì n h hòi g i a n x lý g i m đ n R k ể c h ú n g ta t n g d â n s ô l ợ n g tiên trì n h sons some, T u y n h i ê n , c ó m ộ t vài n g o i lộ, t ứ c n g o i m o n g m u ố n c ủ a n g i t h i m h i ệ m sổ tiế n trì n h s o n g s o n g t ă n g n h n g thời g i a n k h ô n g g i ả m d o n g h i ệ m 59 im k i ếm d ợ c t r o n c t huậ t t oá n ỏ' b ả n g 17 k h ô n g u h o ặ c d o phả i chi phí c h o riivên ( h tơ ne N ó i t ó m lại th ời uian x lý g i ả m t u y ế n tính so với s ò l ợ n g tiên trình c m ộ t n h ì n c h u n e n h ấ t v ề lĩnh v ự c K P D L r i u i x n m hai p h t b i ê u lại hài t o n khai phả luật kê! hợp d o R A g r a w a l d e xuâ t n ă m 11>9'3 Ní io ài v i ệ c p h t b i ể u c c k h i n i ệ m m ộ t c c h h ì n h t h ứ c , c h n g nà y c ò n p h c h ọ a m ộ t s ô n h n h n g h i ê n c u c ụ thê n h luật k ê t h ợ p với t h u ộ c tính iront» sị., luạt kết h ọ p m k h a i p h s o n g s o n g luật kêt h ợ p v.v M ụ c tiêu c ủ a c h i r o n e n y trình b y tất nhữna khái niệm CO' b ả n t r o n g hài t o n khai phủ luật kè! Ììơp v n l u ì n g mỏ' r ộ n g c u a t o n Dira t r ê n n h ữ n g d ề x u ấ t c ủ a 14 [9] [38] [39], c h n g b a c ủ a luận v ă n d ã trình há\' so liưọc v ề luật kết h ợ p voi t h u ộ c tính t r ọ n g s ố c ù n g với n h ữ n g ưu n h ợ c d i è m cúai T u y n h i ê n , m ụ c tiêu c h í n h c ủ a p h â n n y trì nh b y v ê luậl kêl h ợ p mò', niội d i m luật két h ọ p m rộne, m ề m d ẻ o h n , g ầ n gũi h n c ủ a d n g luật kết h ọ p co buìn t r o n é chivona, liai N h ữ n g nội d u n g trì nh b y t r o n g [4] 19 q u v ă n tăt chira nói lên h ết d ợ c V n g h ĩ a c u a luật k ế t h ợ p m v đ ặ c biết m ố i q u a n hệ “ lố n h ị " u i ữ a luật kết h ọ p m v p h é p k é o t h e o t r o n g loụ ic m L u ậ n v ă n lý giải d ợ c t;.ii s a o lại s ứ clụnu h o ặ c p h é p lay h o ặ c p h é p tích đại s ố c h o to n l I n o r m ( l ~ c h u â n ) Irorm côna, t h ứ c (3.6) P h ầ n nà y c ũ n g n ê u lại tlniậl t o n lìm luật két h ợ p m t r o n é |4J [9] dira t r ê n t h u ậ t to n A p r i o r i c ù n g với m ộ t vài s a dối nhỏ Cil ôi c h i n o n s nà y m ộ t đ ề x u ấ t v ê c c h c h u y ể n đổi t lu ật kết h ợ p m s a n g luật kci h ợ p v i t h u ộ c lính t r ọ n a số Đ e x u ấ t n y làm nổ i b ậ t u đ i ể m c ủ a luật k ết h ợ p m khù c ầ n n ó c ũ n s c ó th ể đ ợ c c h u y ể n v ề d n a luật kế t h ợ p t h ô n e t h n g e ti 11 d ê clànu 61 d u r a n a bốn luận văn dê xuất m ột thuật toán so n g s o n g áp d ụ n g cho hài t o n k h a i p h luật kêt h ợ p m V i t h u ật t o n này, c c b ộ x lý t r o n g h ệ t h ố n g u i m t l ọ c tơi da c ị i m v i ệ c t r u y ề n t h ô n g v dont» b ộ h ỏ a I r o n g s u ố t q u trinh tính t ốn Sỏ' d ĩ t h u ậ t t o n h o t đ ộ n g k h “ lý t n g ” n h v ậ y n h c c h c h i a t ập t h u ộ c tín h í n m c v i ê n m ộ t c c h v a c ô n g b ằ n g v a k h ô n k h é o C ô n g b ằ n g c h ỗ tập ứno, c v i ê n d ợ c c h i a đ ề u c h o c c b ộ x lý, c ỏ n k h ô n k h é o c h ỗ c c t ậ p ứ n g c v i ê n s a u c h i a c h o t ìm » b ộ x lý h o n t o n đ ộ c lập v i n h a u N h ợ c đ i ể m c u a thuậ" t o n n y áp d ụ n g c h o lu ật kết h ợ p v i t h u ộ c tí n h s ổ v luật k ế t h ợ p m c ũ n a n h t h ự c h i ệ n tr ê n c c h ệ t h ố n g s o n g s o n g k h ô n g c h i a sẻ ( s h a r e d nothinạ system s) T r o n « q u a trình t h ự c h i ệ n lu ận v ă n CŨ 11ÍĨ n h t r o n g th i g i a n t r c d ó , lôi đ ã c ô ũ ã n u l ập (rune, n g h i ê n c ứ u t o n n y c ũ n g n h đ ã t h a m k h o k h n h i ề u tài liệu lien q u a n T u y n h i ê n , d o thời g i a n v t rì n h đ ộ c ó h n n ê n k h ô n g t r n h k hỏ i n l u ì n g h n c h e t h i ế u sót n h ấ t đ ịn h T ô i t h ậ t s ự m o n g m u ố n n h ậ n đ ợ c n h ữ n g g ó p V cá v ê c h u y ê n m ô n lần c c h t rì n h b y c ủ a lu ận v ă n l h n đọ c C ô n g v i ệ c n g h iê n c ứ u t r o n g t u ’O’n g la i K h a i ph ú luật kêt hợp hài t o n đ ợ c k h n h i ê u n h n g h i ê n c u q u a n t â m d ợ c ứ i m t lụ n ụ r ộ n u rãi t r o n g c c lĩ n h v ự c c ũ n g n h c h ứ a đ ự n g n h i ề u h n g m r ộ n g k h c n h a u N u a y t r o n e l u ậ n v ă n nà y, c ũ n g c hỉ c h ọ n m ộ t h n g n h ỏ d ế nu h i ê n c ứ u Trono, t h ò i i a n tới c h ú n g m r ộ n g n g h i ê n c ứ u c ủ a m ì n h m ộ t sơ luróĩie, s a u : K h a i p h luậ t k ê t h ợ p mị' vói t h u ộ c tín h đ ợ c đ n h t r ọ n g số M ụ c đ í c h c ủ a bải o a n I) l ì m c c h c n t r ọ n g số c h o c c t h u ộ c tí n h đ ể b i ể u thị m ứ c đ ộ q u a n t r ọ n g 'tia c h i m e đ ố i với luật V í d ụ k h a i p h luật kết h ợ p liên q u a n đ ế n b ệ n h tim n c h n h ữ n g t h o n g tin v ê hu vêt áp, lượng đường máu v cho lestero l q u a n r ọ n g h n t h n « tin v ề trọng hrợnẹ v ti tác, d o đ ó c h ú n g đ ợ c g a n t r ọ n g sô n h n B i t o n n y t h ự c k h ô n g m i m ẻ m đ ã đ ợ c m ộ t vài n g i đ ề xu ấ t, uy n h i ê n lió c h u a d ợ c s iả i q u y ế t t h u ẩ u đ o M ặ t k h c , t h u ậ t t o n k h a i p h d ữ iệu SOI1H s o n « tr ê n c hí p d ụ n g c h o h ệ t h ố n g s o n g s o n g k h ô n g c h i a sẻ ( s h a r e d lothina, s y s t e m s ) T r o n g thời g i a n tới, c h ú n g n g h i ê n c ứ u đ è cài đ ặ t n ó lệ t h o n g s o n « s o n ẹ c h i a s ẻ n h h ệ đ a x lý đố i x ứ n g c h ẳ n g hạ n 62 T i liệ u th a m kh ảo T i liệu t i ế n « V i ệ t: I I Ị P h a n D ĩ n h D iệ u ( 9 ) , Lơ G ích C ác Hệ T ri Thức, N X B Đại h ọ c Q u ố c ui a I Nội I N ộ i [ D i n h M n h T n g ( 0 ) , T rí tuệ nhân tạo, N X B Đại h ọ c Q u ố c g i a H N ộ i I Nội T i liệu t i ê n g A n h : |3| A l a n R e a ( 9 ) Data M ining - An Introduction , T h e Pa ll el C o m p u t e r C e n t r e , T h e Q u e e n ' s U n i v e r s i t y o f B e l fa s t 14 A Itila Gyenesci A (2000) Fuzzy Approach fo r M ining Quantitative A sso cia tio n Rules T u r k u C e n t r e f o r C o m p u t e r S c i e n c e , T Ư C S T e c h n i c a l R e p o r t s N o 336 |5| Fast Sequential and P a lle l Algorithm s fo r A ssociation Rule Mining- A Com parison, D e p a r t m e n t o f C o m p u t e r S c i e n c e Andreas M ueller (1995), U n i v e r s i t y o f M a r y l a n d - C o l l e g e Pa r k , M D 16 Bling Liu W y n n e H s u , a n d Y i m i n g M a ( 9 ) " M i n i n g A s s o c i a t i o n R u l e s In A C M S ỈG K D D International Ctonference on K D D & Data M in in (7 (K D D -9 ), S a n D i e g o , C A I ISA w ith M ultiple M inim um Supports” B BloodSugar 0.0AND Class ♦1085 010| •Age_Middle ANDECGjDO ANDThaf3 -> BloodSugaTO0AND ClassJ ♦ (085 11) Age_0ld AND ECG 00 AND Thai 30 AND Class *> BloodSugai 00 - (085 11! Age Old AND Se> ~1 AND Angirva AND Thal_7 •> BloodSugar_00 4m««s 0111 - Age Old AND Se* AND ECG 2~0 AND Thai 70 -> BloodSugai 00 ♦1055 1li Age~OWAND SevJ AND ECGJ0 AND Thaf7 Class_2 " ♦ 1085 111■ChestPam AND BloodSugai 00 AND Angina 00 *v Class ♦ 1085 121- Age Old AND ECG 2.0 AND Ang»na I •> SexJ ♦1055.0 12) Age Did AND >es AND ChestPatn_4 AND BloodSugai 00 AND Thai Clas:_2 ♦10 85 131- Age"Middt* ANDc7ev_l AND Gas:_i -> Angma_00 ♦1085 3l Age Old AND BloodSugai 00 AND Angina AND Cla*3 2■> Sex ♦10135 013) BbodSugar_Q0 AND ECG’_2 0AND AnginaJ *:• ChestPam.4 ♦10 85 13|-Se*:_0 AND BloodSugai_00 AND ECG 00 ■> Angma_00 ♦ 1085 01.3| Sex 0.0 AND SloodSugaTO0 AND ECG~0 *> Thai ANDClass1 ♦ 1085.0 13) Sexl0 AND BloodSugarlO0 AND ECG_0.0 => Thal~30 ANDDait.1 ♦1085.0 13! •Sex 00 AND ECG 00 AIJDThai 30 *> Angina_0.0 AND Class ♦ 1085 013|- Sex~00 AND ECGlOO ANDThaf3 -> A/igir^a_00 AND Classj i Close i H inh 23 - C u a so hicn thi kct qua khai pha In At ket hop mo 02%|s| Ij ... Chuyển luật kết hợp mờ luật kết hợp với thuộc tính s ố 36 3.2.5 Thử nehiệm kết l u ậ n 37 Chương Khai phá song song luật kết hợp m 42 Một sơ thuật tốn song song khai phá luật kết. .. set): tìm kiếm luật kết hợp dựa lý thuyết lập thơ [41] Nuồi cịn sơ lurớng nehiên cứu khác vê khai phá luật kêt khai phá luật kết hợp trực luyến [33], khai phá luật kết hợp h ợ p như: kết trực tuyến... chuyển dổi luật kết hợp mò' dạng luật kết hợp với thuộc tính so dựa vào imưỡim Wf tirona ứng với tập mờ í lừng thuộc tính mờ Clurơnạ tập trung vào toán "khai phá song song luật kết hợp" Phần dầu