Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHỆ TIÊU THỊ D ự KHAI PHÁ LUẬT THEO TIẾP CẬN TẬP THƠ • • • LUẬN VĂN THẠC s ĩ KHOA HỌC Giáo viên hưỏng dẫn: TS Hà Quang Thụy -ĐẠ! H Ọ C Q U C C G !A HÀ NỘI TRUỈỈGTÀM THÒNGTUN n ỉ'J VIÊM Mo V/-U' HÀ NỘI - 0 -1M ỤCLỤC PHẦN MỞ ĐẦU C H U Ơ N G T H Ô _/V T I T P H G Q U A N V Ề K H Á M P H Á T R I T H Ứ C T H E O T I Ê P C Ậ N Q ệ t M h ộ ô t g s t i n ố k h v i t ậ n i ệ p t h m h i n i ệ m v ề hệ K h i n i ệ m v ề b ả n Q u a g p T T ậ p T H K h ậ p t h ô ậ p m T p T í n T ậ M Q u Sự L K Ơ N K ế h t G á ự h ụ t h u ộ a c g h i ệ K h m p h c h ậ I I n K ọ m n c ộ ứ c t h t c t h u ộ t h ô g n q h u g g g i a x ấ p c ộ â n b i ệ t đ h m p t r i t h u ộ ự c a n ợ c t h ậ ậ ệ t h p ô n g t i n ộ t ậ p h n b c ệ i ê c ó t h t h n ô t h u ộ c t í n h l i ê n q u a n n g t i n t ậ p h ứ t h c t h u m p e o t r ê n ộ c h â n t í n h t ậ p h b i ệ t i ế p v n c l ậ p ậ t n đ t ậ p l u ậ n t h ô v i n l o p h ợ c t g i c n g ô p h p đ n h g i k i n m Á l u ậ t ẫ M u n b i t r o g I P n b g ả h n ệ g t h p h ô n â n b g t ố i t ổ n n g q u t d ự a t r ê n t ậ p t h ô H Á Khai phá luât theo tiếp cận tập thô L U Ậ T T H E O T I Ế P C Ậ N T Ậ P T H Ô V À 2 h h 2 h 1 v a t i ề u g tập thô ự h t h n n t ả m ụ t r o h ỉ v h t r o n g ô x p m p p c d ữ ấ v t r ê n t í n h g o h h t í n ọ ị n d i đ c h d đ x t í n p hố n ộ ộ n t i ế g n x ỉ o t h u r ú t ô đ u ế t b i ệ t n e t i n y v t h h g â n s ố c t í n h n p H ô m ộ r c h c t r ê n , t h t r ậ n ợ h v p r i k u k n đ x ỉ t h h ô g t r i h m l u n p ụ p ấ h t ả t h t r ì n n x a k t r o h m h h h ệ m p í n n ô v K U n H N /\ Ậ C Ổ Đ Tiêu Thị Dự ố i -2- S Á N H V 1 t r o n K Ớ h I K m I I L I I M d u ộ t k t s ậ I I K h ì n h t r Q u t ố T u l u ế Q P H ậ Á t L k ế t h c ọ p p p h ổ a i p h k h m h t r ì n h k ậ t b p p h u ậ t t o n t ố i 1 T h u ậ t t o n g i ả i 1 T i ê u 1 K h 1 H a i 1 C c s c h t r ì n i n h n p l u h ẩ n i ệ m h ệ t g q c ủ a m m u p h ẫ u m ẫ m h ợ p h u n g đ h h o l u g n c b n c ủ a k h m p h t r i t h ứ c g b h ậ t k t ậ p o ả p t i ế p g q n ế h t h ổ b c u ợ ậ y p i ế n ế n t â t đ p ị t n h h ô m n h v đ ộ n h i ễ u c ủ a l u ậ ậ t ố i u h t r o n g t r o n g o b ả n t g h ô q u c b s i n h g i ữ a u m t i ế ẫ p v c ậ ả 44 45 l u y ế ậ t đ ị n h n H Ư Ơ N G I I I Ú N G D Ụ N G C Ủ 46 46 47 ẫ 51 n m 36 43 u 34 t c c t ậ p 34 35 t t 32 34 u l u ậ t ậ p t t h t h e o ỏ t i ế p v l u c ậ ậ t n t ậ k ế p t t h h ự 58 59 ô p 11.4 Kết luận chương I I C 30 33 l u ầ n u l u t l u ậ t ẫ e ộ c c p m ậ t h n ị n Đ h t r ê n c ế t pháp o ứ a u y p d ự t r o ọ i ậ t g e a t h n t h h l u h c p k l u ậ t : p l ự a t o n h ậ k h b i l i ê n h u k i ả n t r n g t r ì n h c t r i h T ặ c b ọ k ế t h m t r o n g đ h l u ậ t 1 o d 30 u S i p n Q 1 ộ ợ i ế 1 ố n h 32 a i M , T n H 1 p Ê 1 ự K t o s u u T 30 L Q h Ậ 1 1 U liệu ữ ậ M h I I 1 1 Á p sở g H A M A U v t h n g h i ệ m q u t r ì n 61 h 62 K I I H Á I l I I I M ứ P n H g Á L d M ụ ẫ n u U Ậ g v c T ủ q T a u H m E ẫ t r ì n O u T I Ê P C Ậ N T Ậ P T H Ô h p h Khai phá luật theo tiếp cận tập thô â n l o i b a n đ ầ u Tiêu Thị Dự 62 62 -3III 1.2 Mô tả lớp đ ịn h 64 III 1.3 Mẫu toán phân tách bảng liệu lớ n 65 III 1.4 Mẫu toán phân lớ p 66 111.2 T nghiệm trìn h khám phá luật theo tiếp cận tập thơ tốn q uản lý thơng tin khách X uất nhập cảnh qua cửa k h ẩ u 68 111.2.1 Bài toán quản lý thông tin khách Xuất nhập cảnh qua cửa k h ẩ u 68 111.2.1.1 Mơ tả tốn XNC 68 111.2.1.2 Tập thơ tốn quản lý thơng tin khách Xuất nhập cảnh 70 111.2.2 Đề xuất giải tập thô to n 70 111.2.2.1 Mô tả liệu 70 111.2.2.2 Quá trình phát luật 73 111.2.2.3 Đề xuất ứng dụng luật tìm tốn thực t ế 80 111.3 Kết luận chương I I I 81 K ẾT LU Ậ N 83 TÀI LIỆU THAM KHẢO 85 Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -4- CÁC KÝ HIỆU VÀ CỤM TỪ VIẾT TẮT s DỤNG TRONG LUẬN VÀN Ký hiệu Mò tả cJL Hệ thơng tin hay bảng định A, B Tập thuộc tính hệ thơng tin D Tập thuộc tính định hệ thơng tin a Một thuộc tính điều kiện tập thuộc tính điều kiện hệ thông tin va Tập giá trị thuộc tính điều kiện Tập đối tượng (tập tổng thể) hệ thông tin RED Tập rút gọn Rỗng CỊ Bị chứa e Thuộc (là phần tử của) > Lớn < Nhỏ * Khác u, n Phép hợp, giao tập hợp Mô tả Viết tắ t CSDL Cơ sở liệu KDD Knowledge Discovery in Database RS Rough Set GDT Generalization Distribution Table ILP Inductive Logic Programming GrC Granular Computing Khơi phá luật theo tiếp cận tập thô Tiêu Thị Dự -5- PHẨN M Ở ĐẦU Lý thuyết tập thô Z.Pawlak đề xuất vào đầu năm 80 thập kỉ XX áp dụng ngày rộng rãi lĩnh vực khám phá tri thức sở liệu Trong năm gần đây, lý thuyết tập thơ nhiều nhóm nghiên cứu hoạt động lĩnh vực tin học nói chung khai phá tri thức từ sở liệu nói riêng nghiên cứu áp dụng thực tê [ 1,4,6,9,10] Lý thuyết tập thô phát triển tảng sở toán học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu, phát luật Những phương pháp dựa lý thuyết tập thô đặc biệt hữu ích tốn với liệu mơ hổ, khơng chắn Ngồi ra, lý thuyết tập thơ cho phép trình diễn mơ hình hình thức tri thức Mơ hình xác định họ mối quan hệ "không phân biệt được", nhừ tri thức định nghĩa cách rõ ràng theo nghĩa tốn học phân tích xử lý cơng cụ tốn học Trong lý thuyết tập thô, liệu biểu diễn thông qua hệ thông tin, hay bảng định; ý tưởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hệ "không phân biệt được" Từ bảng liệu lớn với liệu dư thừa, khơng hồn hảo, liệu liên tục, hay liệu biểu diễn dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức từ loại liệu nhằm phát quy luật tiềm ẩn từ khối liệu Tri thức biểu diễn dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lượng thông tin đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Nhằm thu hẹp nhiều xác thơng tin, ý tưởng “rút gọn” sử dụng phép loại bỏ thông tin dư thừa, không cần thiết mà giữ ý Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -6- nghĩa Sau tìm quy luật chung biểu diễn liệu, người ta tính tốn độ mạnh, độ phụ thuộc thuộc tính hệ thông tin Theo Skowron NingZong [9], cách tiếp cận lý thuyết tập thơ để phân tích liệu có nhiều lợi điểm quan trọng như: - Cho phép xử lý hiệu bảng liệu lớn, loại bỏ liệu dư thừa, liệu khơng hồn hảo, liệu liên tục, - Hiệu việc tìm kiếm mẫu tiềm ẩn liệu, - Sử dụng tri thức kinh nghiệm, - Nhận mối quan hệ mà sử dụng phương pháp thống kê khác không phát được, - Sử dụng quan hệ thứ lỗi trình phát mẫu, - Làm việc hiệu tập liệu rút gọn, - Cách giải thích rõ ràng dễ hiểu Với lợi điểm quan trọng lý thuyết tập thô, giành thời gian để nghiên cứu tìm hiểu lý thuyết Ý tưởng ‘'Phát luật theo tiếp cận tập thô ” chọn làm đề tài nghiên cứu khoa học để làm luận văn thạc sĩ Luận văn sâu tìm hiểu ý tưởng cở sở toán học lý thuyết tập thô, từ hiểu biết lý thuyết ứng dụng thực tế tập thô lĩnh vực khai phá liệu, đưa nhận xét đối sánh phát luật theo tiếp cận tập thô phát luật kết hợp Thơng qua tìm hiểu khai thác cơng cụ ROSETTA (do Aleksander h m cộng thuộc nhóm nghiên cíai tri thức thuộc khoa Khoa học máy tính thơng tin trường đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn đưa số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ định toán xuất nhập cảnh sân bay quốc A7 A tê Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -7- Phương pháp nghiên cứu chủ yếu luận văn khảo sát, phân tích nội dung báo khoa học lý thuyết tập thô ứng dụng cchg bố vào năm gần Từ kết nghiên cứu lý thuyết kết họp với vấn đề đặt toán thực tế, luận văn đề xuất phương pháp thử nghiệm giải vấn đề khám phá luật thực tế Luận văn trình bày gồm có phần mở đầu, ba chương phần kết luận Trong chương một, tập trung chủ yếu vào giới thiệu tổng quan trình khám phá tri thức theo tiếp cận tập thô Các khái niệm lý thuyết tập thô như: hệ thông tin, bảng định, khái niệm không phân biệt được, tập xỉ tập xỉ miền biên trình bày Nội dung chương tổng hợp từ tài liệu 11,4,9,10] Trong chương hai, luận văn tập trung giới thiệu khám phá luật kết hợp theo cách tiếp cận thông thường khám phá luật theo tiếp cận tập thơ để từ đưa nhận xét đối sánh tương khác biệt tính chất hai cách tiếp cận Mục II.2.3 đưa mối liên hệ mẫu luật theo tiếp cận tập thơ [5], dựa mối quan hệ đó, đưa số nhận xét đối sánh khám phá luật kết hợp khám phá luật theo tiếp cận tập thô Kết đáng ý mối tương đồng độ mạnh luật theo tiếp cận tập thô độ hỗ trợ luật kết hợp Trong chương ba, luận văn đưa số mỏ hình ứng dụng mẫu phát từ liệu theo tiếp cận tập thô [5] Từ kết nghiên cứu trình bày chương chương hai, thông qua công cụ ROSETTA, đề xuất việc ứng dụng luật kết họp theo tiếp cận tập thơ vào thực tế tốn quản lý thơng tin khách xuất nhập cảnh cửa nhận số luật tương đối hợp lý Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -8- Luận văn thực hướng dẫn Tiến sĩ Hà Quang Thuỵ Bộ môn Các Hệ thống Thơng tin, Khoa Cơng nghệ Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dãn q báu q trình em làm luận văn Em xin chân thành cảm ơn thầy giáo môn Các Hệ thống Thông tin, nhóm seminar “Data mining KDD” Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Khoa Cơng nghệ tạo điều kiện q trình học tập nghiên cứu Khoa Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -9- CHƯƠNG TỔNG QUAN VỂ KHÁM PHÁ TRI THỨC THEO TIẾP CẬN TẬP THỒ 1.1 HỆ THÔNG TIN VÀ TẬP THƠ 1.1.1 Một sơ khái niệm I.ỉ.l.l.Khái niệm hệ thông tin Trong hoạt động hàng ngày, đặc biệt thu thập liệu vào kho liệu (datawarehousing), ta thường gặp tập hẹp liệu miêu tả bảng, hàng biểu diễn "bản ghi" (một phần tử, trường họp, kiện hay đơn giản biểu diễn đối tượng), cột biểu diễn thuộc tính (một biến, quan sát, tính chất ) Từ năm đầu thập kỷ 1980, Pawlak hình thức hóa bảng kiểu thành khái niệm hệ thông tin (information system) [ 1,5, 9, 10] Định nghĩa 1.1 Hệ thông tin cặpcTỂ = (U,A) u tập hữu hạn khác rỗng đôi tượng A tập hữu hạn khác rỗng thuộc tính , • a: u —> Va với a € A Tập Va gọi tập giá trị a Ví dụ: Có hệ thơng tin thể bảng Có đối tượng (Mỗi đối tượng khách Xuất Nhập Cảnh) thuộc tính: Tới nước, Nơi sinh, Tơn giáo Tới nước -%2 M ỹ H M ỹ H ả i P h p * * Xl Nơi sinh S i Tơn íỊÍáo C ó C ó g ò n K h n g h n g n i p h ò n g P h p S i g ò n K Đ ứ c Đ n ẵ n g Có M ỹ Đ n ẵ n g K h ô n g P h p Đ n ẵ n g K h ô n g Bảng Một ví dụ hệ thơng tin Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -10- Chúng ta nhận thấy trường hợp đối tượng khác x4, lại có giá X, trị thuộc tính giống nhau: trường hợp khơng phàn biệt đối tượng chí sử dụng thơng tin từ thuộc tính cho Tính khơng phân biệt yếu tố mập mờ Có thể nhận thấy tính mập mờ từ việc không phân biệt được: xem xét thuộc tính hai đối tượng X3 X4 hoàn toàn giống nhau, nhiên sau thấy, xuất cảnh cần phải xem xét với X4 khơng cần làm điều 1.1.1.2.Khái niệm bảng định Trong nhiều ứng dụng, người ta biết nội dung kết việc phân lóp định phân lớp Tri thức (chỉ dẫn định) phân lớp thể thuộc tính riêng biệt gọi thuộc tính định hệ thơng tin Trong trường hợp đó, hệ thơng tin gọi hệ định [ 1,5,9,10] Định nghĩa 1.2 Bảng (hệ) định hệ thơng tin có dạng cA = (Ư, Auịú?}), với d Ể A thuộc tính định Các thuộc tính thuộc A gọi thuộc tính điều kiện hay điều kiện Thuộc tính định có nhiều hai giá trị, nhiên thơng dụng kiểu giá trị nhị phân Quá trình khám phá mối quan hệ thuộc tính định theo thuộc tính điều kiện bảng định thuộc vào loại học máy có hướng dẩn , thể diển hình "học qua ví dụ" u Tới nước X , M ỹ H x M ỹ H ả i P h p jr ■*6 xn Tởn í>iáo Có Xem xét C ấ m C ó K h n g g ò n K h ô n g K h n g h n g C ấ m ó K h ô n g Nơi sinh S i n ô i p h ò n g P h p S i g ò n K Đ Đ n ẵ n g C ứ c ô ỹ Đ n ẵ n g K h ô n g C ấ m P h p Đ n ẵ n g K h K h ô M ô n g n g Bảng - Một bảng định Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -11- Ví dụ Bảng mơ tả bảng định bao gồm đối tượng (trường hợp), thuộc tính định Xem xét thuộc tính Tới nước, Nơi sinh, Tơn qiáo Chúng ta tiếp tục quan sát trường hợp cặp hai đối tượng làx3 x4 cặp có giá trị giống theo thuộc tính điều kiện, kết định hai đối tượng khác Như tri thức tổng hợp từ bảng định luật có dạng “Nếu có Tới nước Mỹ, Nơi sinh Hà nội có tơn giáo Xem xét Cấm” tức Nếu khách Xuất Nhập Cảnh xuất cảnh đến Mỹ, Nơi sinh Hà nội có tơn giáo bị cấm Xuất Nhập cảnh Trong thuộc tính tập luật xây dựng, cực tiểu hoá (.minimality- độ dài giả thiết luật cực tiểu) vấn đề quan trọng [5] Chú ỷ Tổng quát có thê có nhiều thuộc tính định bảng định có dạng CÂ = (U, ConuDec), với Con tập thuộc tính điều kiện hay điều kiện Dec tập thuộc tính định (trong ConnD ec = ) [ 11 I.1.1.3.Quan hệ không phân biệt hệ thông tin Một sở toán học lý thuyết tập thô quan hệ không phân biệt (một quan hệ tương đương) hộ thông tin Cho u tập đối tượng, quan hệ nhị phân R c U x U Ưđược gọi là: - Phản xạ đối tượng có quan hệ với xRx, - Đối xứng xRy yRx, - Bắc cầu xRy vRz xRz Một quan hệ R có ba tính chất phản xạ, đối xứng bắc cầu gọi quan hệ tương đươnq Quan hệ tương đương R chia (phân hoạch) tập tổng thể u thành lớp tương đương Lớp tương đương phần tử X chứa tất đối tượng y G G Ư, kí hiệu [xj, u mà xRy Khai phá luật theo tiếp cận tập thỏ Tiêu Thi Dự -12- Như đề cập phần trước, lý thuyết tập thô quan tâm đến quan hệ không phân biệt [5, 9, 10] Cho hệ thơng ÚĨÌCÂ = (U, A), quan hệ khơng phân biệt được trình bày Định nghĩa 1.3 Với tập B CỊ A, tổn quan hệ tương đương (kí hiệu IND #(B)) xác định sau: IND'JP)={(xX) e |V ứ e B : a(x) = a ự ) \ IND /B ) gọi quan hệ không phân biệt theo nghĩa hai đối tượng X, x' mà e ỈND y(B) X x ’ không phân biệt lẫn thuộc tính B Tính chất tương đương //VD/B) dễ dàng kiểm tra theo định nghĩa Trong nhiều trường hợp hệ thơng tin hồn toàn xác định, ta dùng cách viết IND(B) hay IND thay cho cách viết IND^B) dùng cách nói tính khơng phân biệt theo B Lớp tirơng đương theo quan hệ không phân biệt B biểu diến |.ỶR Ký tự cA quan hệ khơng phân biệt thường bị bỏ qua rõ ràng hệ thơng tin • Ví dụ Xét bảng minh hoạ cho quan hệ không phân biệt Nếu khơng xem xét thuộc tính tơn giáo thi tập khác rỗng thuộc tính điều kiện [Tới nước}, I Nơi sinh} {Tới nước, Nơi sinh} Xem xét thuộc tính {Tới nước}, cắc đối tượng Xy ^ thuộc vào lóp tương đương khơng có khả phân biệt Ba quan hệ INDxắ.c định phân hoạch thành phần tập tổng thể IND({Tới nước)) = { í , u, }} IND( {Nơi sinh Ị) = {{X,}, {*2 }, {x 3rx4 Ị, {x 5yx6rx Ị } INDUTỚi nước, Nưi sinh Ị) = I U, Ị,U 2},U3,x4},{x5Ị,| xb),{xn) Ị Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -13- I.l.M T ậ p m ỏ tả ngón ngũ I11 Ỏ tả tập z Pawlak đưa khái niệm tập mô tả 11ị hệ thông tin D, tất giá trị thuộc tính từ D xác định giá trị thuộc tính c Nói cách khác D phụ thuộc hồn toàn vào c , tồn phụ thuộc hàm giá trị D c Sự phụ thuộc định nghĩa sau: Giả s ửD c tập A Ta nói D phụ thuộc vào c với mức k (0 < k < 1) biểu thị c =>t D nếu: \POSc (D)\ k = ỵ(C,D) = y r ' , với POSc ( D) = r u X e U /D l gọi C-vùnẹ dương phân hoạch U/D c , tập tất phần tử u mà có thê phân loại thành khối phân hoạch Ư/D với ý nghĩa c r(c ,D )= Khai phá luật theo tiếp cận tập thơ ỵ í= ^ p l X e U /D \u \ Tiêu Thị Dự -21- Nếu k = tâ nói D phụ thuộc hoàn toàn vàoC, k Y Việc sinh luật kết hợp cách sử dụng tất tập phổ biến tương đối đơn giản, nhiên việc phát tất tập phổ biến với giá trị độ hỗ trợ chúng lại tốn khó lực lượng tạp liệu lớn Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -34- Thông thường siêu thị có m (m lên đến hàng nghìn) mặt hàng (mục), số lượng tập mục khác 2"', việc tính tốn độ hỗ trợ cho tập mục đòi hỏi nhiều thòi gian Để giảm bót khơng gian tìm kiếm tổ hợp, thuật tốn tìm luật kết hợp khai thác tính chất tập phổ biến phát biểu hệ 2.1 Đây đặc điểm sử dụng cho thuật tốn sở tìm tất tập phổ biến, giống thuật tốn Apriori [2], tóm tắt bước sau: 1- Tìm tập tất tập phổ biến có cỡ (Tính độ hỗ trợ 1-tập mục việc quét toàn sở liệu Hủy 1-tập mục không tập phổ biến) 2- Mở rộng 1-tập mục phổ biến nhận từ bước để có 2-tập mục bàng cách bổ sung thêm mục vào 1-tập mục phổ biến để sinh tất 2-tập mục cho việc lựa chọn Tính độ hỗ trợ 2tập mục sinh loại bỏ tất 2-tập mục không tập phổ biến 3- Lặp lại bước bước thứ k, tập phổ biến (k-i) mở rộng thành k-tạp mục kiểm tra tính phổ biến Q trình lặp lại khơng tìm tập phổ biến Có số thuật tốn dựa bước giới thiệu, chúng khác chủ yếu việc sinh tập mục cho lần kiểm tra cách tính tốn độ hỗ trợ tập mục II.2 Q TRÌNH KHÁM PHÁ TRI THỨC THEO TIẾP CẬN TẬP THÔ 11.2.1 Quá trình khám phá luật bảng định 11.2.1.1 Luật bảng định Khai phá luật theo tiếp cận rập thô Tiêu Thị Dự -35- Giả s CÂ = (ư , A u Ị d)) bảng định; X biểu thị kết hợp từ nhận dạng (descriptors) bao hàm thuộc tính điều kiện A; Y biểu thị từ nhận dạng d=v V giá trị thuộc tính định d [5, 9] Định nghĩa 2.6 (Luật theo tiếp cận tập thô) Một luật định có dạng “Nếu X Y” biểu diễn X —>Y với s biểu thị độ mạnh luật tính theo cơng thức phần II.2.1.2 II.2.1.2 Hai đặc trưng luật: Độ mạnh độ nhiễu luật Cho luật X —> Y S(X -> Y) = s(X)(l-r(X -> Y)) Trong trường hợp có sử dụng tri thức nền, độ mạnh X: s(X) tính sau: s(X) = s(PGt) = ỵ p ự I ,\ P G k ) = Ninx-Kl(PGk ) N t I Với Nịns_rei(PGk ) số trường hợp quan sát thoa mãn trường hợp thứ i sinh Trong trường hợp có sử dụng tri thức nền, độ mạnh luật tính sau: ỵ B K F ( P I ,\P G k ) S(X) = S (P G » )= z n i ( w , \ r e t ) = Độ nhiễu r(X —>Y) tính sau: r(X -» Y) = N in s -r e l ( ^ N in s-cla.ss ( X i N in s - r e l Khai phá luật theo tiếp cận tập thô ( ỵ ) Tiêu Thị Dự -36- Với Nịns_ciass (X , Y) số trường hợp thuộc lóp Y trường họp thoả mãn sinh X II.2.1.3 Quá trình khám phá luật Quá trình thực theo phương pháp trình bày [9| Giả sử có bảng định dị - (U, A u Ị d\) miêu tả sau: u M| «2 M, «4 M, «6 »7 Tới nước Nghê' nghiệp Mỹ Mỹ Mỹ Pháp Mỹ Mỹ Pháp Công nhân KT sư Công nhân K ĩ sư Công nhân Nông dân K ĩ sư Nơi sinh Hà Nôi Hà Nôi Hà Nội Sài Gòn Hà Nơi Hà Nơi Hà Nơi Xem xét C ấ m C ấ m Cấm Không Không K h n g Cấm Bảng gồm thuộc tính điều kiện Tới nước, Nghé nghiệp, Nơi sinh Tập giá trị thuộc tính Tới nước là: VTớịnướl - {M ỹ, Pháp} Tập giá trị thuộc tính Nghề nghiệp: V NỊihỉ nghiệp = { Công nhản, K ĩ sư, Nơng dân} Tập giá trị thuộc tính Nơi sinh là: VNaisinh = {Hà Nội, Sài Gòn } Thuộc tính định Xem xét, tập giá trị VXl,mxct = {cấm,không} Bảng định tương ứng miêu tả GDT-RS (bảng phân bố tổng quát) sau: F(x) G(x) *Cơng nhân Sài Gòn *Cơng nhânHàN * K ĩ sư Sài Gòn * K ĩs Hà N ôi *Nông dân Mỹ Công nhãn Sài Gòn Mỹ Côn ( Ị nhân Hà N ôi / Pháp Cơng nhân Sài Gòn Pháp Nỏní> dân Hà N / / Khai phá luật theo tiếp cận tập thơ Tiêu Thi Dự -37- Sài Gòn * Nôn dân Hà N ôi M ỹ *Sài Gòn / / Pháp K ĩ su* Pháp Nơní> dân* **Sài Gòn M ỹ** Pháp / / / / / * * / / F(x) đối tượng (PI) Trong đó: G(x) sinh (PG) G(x) —>F(x) quan hệ xác suất giữa/5/ Gỉ xác định là: piPIịịPG ị) P1 ị ^ PGị NpG' Các trường hợp khác Trong NPQ G '= ll"k ke{l\PG [l]=* s ố Pl thoả mãn PG thứ i a) Từ bảng định xét trường hợp có tỷ lệ nhiễu = u Tới nước Nghề nghiệp No'! sinh M C H ỹ ô n g n h â n N ộ i Xem xét C ấ m C ấ m , , K h n g n g « u\' « “ u7 uỊ « «5 Ma Un ► ô M ỹ K ĩ ỹ C ô n g P h p K ĩ M ỹ C ô n g M ỹ N ô M P h p K T s H N ô i C ấ m H N ô i C ấ m S i G ò n K h n h â n H N ô i K h ô n g d â n H N ô i K h ô n g H N ộ i C ấ m n h â n s n g s ô u Khai phá luật theo tiếp cận tập thô Tiêu Thị D ự -38- u Tó'i nước Nghề niỊỈùệp yv