Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
32,08 MB
Nội dung
Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHỆ TIÊU THỊ D ự KHAI PHÁ LUẬT THEO TIẾP CẬN TẬP THƠ • • • LUẬN VĂN THẠC s ĩ KHOA HỌC Giáo viên hưỏng dẫn: TS Hà Quang Thụy -ĐẠ! H Ọ C Q U C C G !A HÀ NỘI TRUỈỈGTÀM THÒNGTUN n ỉ'J VIÊM Mo V/-U' HÀ NỘI - 0 -1M ỤCLỤC PHẦN MỞ ĐẦU C H U Ơ N G T H Ô _/V T I T P H G Q U A N V Ề K H Á M P H Á T R I T H Ứ C T H E O T I Ê P C Ậ N Q ệ t M h ộ ô t g s t i n ố k h v i t ậ n i ệ p t h m h i n i ệ m v ề hệ K h i n i ệ m v ề b ả n Q u a g p T T ậ p T H K h ậ p t h ô ậ p m T p T í n T ậ M Q u Sự L K Ơ N K ế h t G á ự h ụ t h u ộ a c g h i ệ K h m p h c h ậ I I n K ọ m n c ộ ứ c t h t c t h u ộ t h ô g n q h u g g g i a x ấ p c ộ â n b i ệ t đ h m p t r i t h u ộ ự c a n ợ c t h ậ ậ ệ t h p ô n g t i n ộ t ậ p h n b c ệ i ê c ó t h t h n ô t h u ộ c t í n h l i ê n q u a n n g t i n t ậ p h ứ t h c t h u m p e o t r ê n ộ c h â n t í n h t ậ p h b i ệ t i ế p v n c l ậ p ậ t n đ t ậ p l u ậ n t h ô v i n l o p h ợ c t g i c n g ô p h p đ n h g i k i n m Á l u ậ t ẫ M u n b i t r o g I P n b g ả h n ệ g t h p h ô n â n b g t ố i t ổ n n g q u t d ự a t r ê n t ậ p t h ô H Á Khai phá luât theo tiếp cận tập thô L U Ậ T T H E O T I Ế P C Ậ N T Ậ P T H Ô V À 2 h h 2 h 1 v a t i ề u g tập thô ự h t h n n t ả m ụ t r o h ỉ v h t r o n g ô x p m p p c d ữ ấ v t r ê n t í n h g o h h t í n ọ ị n d i đ c h d đ x t í n p hố n ộ ộ n t i ế g n x ỉ o t h u r ú t ô đ u ế t b i ệ t n e t i n y v t h h g â n s ố c t í n h n p H ô m ộ r c h c t r ê n , t h t r ậ n ợ h v p r i k u k n đ x ỉ t h h ô g t r i h m l u n p ụ p ấ h t ả t h t r ì n n x a k t r o h m h h h ệ m p í n n ô v K U n H N /\ Ậ C Ổ Đ Tiêu Thị Dự ố i -2- S Á N H V 1 t r o n K Ớ h I K m I I L I I M d u ộ t k t s ậ I I K h ì n h t r Q u t ố T u l u ế Q P H ậ Á t L k ế t h c ọ p p p h ổ a i p h k h m h t r ì n h k ậ t b p p h u ậ t t o n t ố i 1 T h u ậ t t o n g i ả i 1 T i ê u 1 K h 1 H a i 1 C c s c h t r ì n i n h n p l u h ẩ n i ệ m h ệ t g q c ủ a m m u p h ẫ u m ẫ m h ợ p h u n g đ h h o l u g n c b n c ủ a k h m p h t r i t h ứ c g b h ậ t k t ậ p o ả p t i ế p g q n ế h t h ổ b c u ợ ậ y p i ế n ế n t â t đ p ị t n h h ô m n h v đ ộ n h i ễ u c ủ a l u ậ ậ t ố i u h t r o n g t r o n g o b ả n t g h ô q u c b s i n h g i ữ a u m t i ế ẫ p v c ậ ả 44 45 l u y ế ậ t đ ị n h n H Ư Ơ N G I I I Ú N G D Ụ N G C Ủ 46 46 47 ẫ 51 n m 36 43 u 34 t c c t ậ p 34 35 t t 32 34 u l u ậ t ậ p t t h t h e o ỏ t i ế p v l u c ậ ậ t n t ậ k ế p t t h h ự 58 59 ô p 11.4 Kết luận chương I I C 30 33 l u ầ n u l u t l u ậ t ẫ e ộ c c p m ậ t h n ị n Đ h t r ê n c ế t pháp o ứ a u y p d ự t r o ọ i ậ t g e a t h n t h h l u h c p k l u ậ t : p l ự a t o n h ậ k h b i l i ê n h u k i ả n t r n g t r ì n h c t r i h T ặ c b ọ k ế t h m t r o n g đ h l u ậ t 1 o d 30 u S i p n Q 1 ộ ợ i ế 1 ố n h 32 a i M , T n H 1 p Ê 1 ự K t o s u u T 30 L Q h Ậ 1 1 U liệu ữ ậ M h I I 1 1 Á p sở g H A M A U v t h n g h i ệ m q u t r ì n 61 h 62 K I I H Á I l I I I M ứ P n H g Á L d M ụ ẫ n u U Ậ g v c T ủ q T a u H m E ẫ t r ì n O u T I Ê P C Ậ N T Ậ P T H Ô h p h Khai phá luật theo tiếp cận tập thô â n l o i b a n đ ầ u Tiêu Thị Dự 62 62 -3III 1.2 Mô tả lớp đ ịn h 64 III 1.3 Mẫu toán phân tách bảng liệu lớ n 65 III 1.4 Mẫu toán phân lớ p 66 111.2 T nghiệm trìn h khám phá luật theo tiếp cận tập thơ tốn q uản lý thơng tin khách X uất nhập cảnh qua cửa k h ẩ u 68 111.2.1 Bài toán quản lý thông tin khách Xuất nhập cảnh qua cửa k h ẩ u 68 111.2.1.1 Mơ tả tốn XNC 68 111.2.1.2 Tập thơ tốn quản lý thơng tin khách Xuất nhập cảnh 70 111.2.2 Đề xuất giải tập thô to n 70 111.2.2.1 Mô tả liệu 70 111.2.2.2 Quá trình phát luật 73 111.2.2.3 Đề xuất ứng dụng luật tìm tốn thực t ế 80 111.3 Kết luận chương I I I 81 K ẾT LU Ậ N 83 TÀI LIỆU THAM KHẢO 85 Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -4- CÁC KÝ HIỆU VÀ CỤM TỪ VIẾT TẮT s DỤNG TRONG LUẬN VÀN Ký hiệu Mị tả cJL Hệ thơng tin hay bảng định A, B Tập thuộc tính hệ thơng tin D Tập thuộc tính định hệ thơng tin a Một thuộc tính điều kiện tập thuộc tính điều kiện hệ thông tin va Tập giá trị thuộc tính điều kiện Tập đối tượng (tập tổng thể) hệ thông tin RED Tập rút gọn Rỗng CỊ Bị chứa e Thuộc (là phần tử của) > Lớn < Nhỏ * Khác u, n Phép hợp, giao tập hợp Mô tả Viết tắ t CSDL Cơ sở liệu KDD Knowledge Discovery in Database RS Rough Set GDT Generalization Distribution Table ILP Inductive Logic Programming GrC Granular Computing Khơi phá luật theo tiếp cận tập thô Tiêu Thị Dự -5- PHẨN M Ở ĐẦU Lý thuyết tập thô Z.Pawlak đề xuất vào đầu năm 80 thập kỉ XX áp dụng ngày rộng rãi lĩnh vực khám phá tri thức sở liệu Trong năm gần đây, lý thuyết tập thơ nhiều nhóm nghiên cứu hoạt động lĩnh vực tin học nói chung khai phá tri thức từ sở liệu nói riêng nghiên cứu áp dụng thực tê [ 1,4,6,9,10] Lý thuyết tập thô phát triển tảng sở toán học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu, phát luật Những phương pháp dựa lý thuyết tập thô đặc biệt hữu ích tốn với liệu mơ hổ, khơng chắn Ngồi ra, lý thuyết tập thơ cho phép trình diễn mơ hình hình thức tri thức Mơ hình xác định họ mối quan hệ "không phân biệt được", nhừ tri thức định nghĩa cách rõ ràng theo nghĩa tốn học phân tích xử lý cơng cụ tốn học Trong lý thuyết tập thô, liệu biểu diễn thông qua hệ thông tin, hay bảng định; ý tưởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hệ "không phân biệt được" Từ bảng liệu lớn với liệu dư thừa, khơng hồn hảo, liệu liên tục, hay liệu biểu diễn dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức từ loại liệu nhằm phát quy luật tiềm ẩn từ khối liệu Tri thức biểu diễn dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lượng thông tin đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Nhằm thu hẹp nhiều xác thơng tin, ý tưởng “rút gọn” sử dụng phép loại bỏ thông tin dư thừa, không cần thiết mà giữ ý Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -6- nghĩa Sau tìm quy luật chung biểu diễn liệu, người ta tính tốn độ mạnh, độ phụ thuộc thuộc tính hệ thông tin Theo Skowron NingZong [9], cách tiếp cận lý thuyết tập thơ để phân tích liệu có nhiều lợi điểm quan trọng như: - Cho phép xử lý hiệu bảng liệu lớn, loại bỏ liệu dư thừa, liệu khơng hồn hảo, liệu liên tục, - Hiệu việc tìm kiếm mẫu tiềm ẩn liệu, - Sử dụng tri thức kinh nghiệm, - Nhận mối quan hệ mà sử dụng phương pháp thống kê khác không phát được, - Sử dụng quan hệ thứ lỗi trình phát mẫu, - Làm việc hiệu tập liệu rút gọn, - Cách giải thích rõ ràng dễ hiểu Với lợi điểm quan trọng lý thuyết tập thô, giành thời gian để nghiên cứu tìm hiểu lý thuyết Ý tưởng ‘'Phát luật theo tiếp cận tập thô ” chọn làm đề tài nghiên cứu khoa học để làm luận văn thạc sĩ Luận văn sâu tìm hiểu ý tưởng cở sở toán học lý thuyết tập thô, từ hiểu biết lý thuyết ứng dụng thực tế tập thô lĩnh vực khai phá liệu, đưa nhận xét đối sánh phát luật theo tiếp cận tập thô phát luật kết hợp Thơng qua tìm hiểu khai thác cơng cụ ROSETTA (do Aleksander h m cộng thuộc nhóm nghiên cíai tri thức thuộc khoa Khoa học máy tính thơng tin trường đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn đưa số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ định toán xuất nhập cảnh sân bay quốc A7 A tê Khai phá luật theo tiếp cận tập thô Tiêu Thi Dự -7- Phương pháp nghiên cứu chủ yếu luận văn khảo sát, phân tích nội dung báo khoa học lý thuyết tập thô ứng dụng cchg bố vào năm gần Từ kết nghiên cứu lý thuyết kết họp với vấn đề đặt toán thực tế, luận văn đề xuất phương pháp thử nghiệm giải vấn đề khám phá luật thực tế Luận văn trình bày gồm có phần mở đầu, ba chương phần kết luận Trong chương một, tập trung chủ yếu vào giới thiệu tổng quan trình khám phá tri thức theo tiếp cận tập thô Các khái niệm lý thuyết tập thô như: hệ thông tin, bảng định, khái niệm không phân biệt được, tập xỉ tập xỉ miền biên trình bày Nội dung chương tổng hợp từ tài liệu 11,4,9,10] Trong chương hai, luận văn tập trung giới thiệu khám phá luật kết hợp theo cách tiếp cận thông thường khám phá luật theo tiếp cận tập thơ để từ đưa nhận xét đối sánh tương khác biệt tính chất hai cách tiếp cận Mục II.2.3 đưa mối liên hệ mẫu luật theo tiếp cận tập thơ [5], dựa mối quan hệ đó, đưa số nhận xét đối sánh khám phá luật kết hợp khám phá luật theo tiếp cận tập thô Kết đáng ý mối tương đồng độ mạnh luật theo tiếp cận tập thô độ hỗ trợ luật kết hợp Trong chương ba, luận văn đưa số mỏ hình ứng dụng mẫu phát từ liệu theo tiếp cận tập thô [5] Từ kết nghiên cứu trình bày chương chương hai, thông qua công cụ ROSETTA, đề xuất việc ứng dụng luật kết họp theo tiếp cận tập thơ vào thực tế tốn quản lý thơng tin khách xuất nhập cảnh cửa nhận số luật tương đối hợp lý Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -8- Luận văn thực hướng dẫn Tiến sĩ Hà Quang Thuỵ Bộ môn Các Hệ thống Thơng tin, Khoa Cơng nghệ Em xin bày tỏ lịng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dãn q báu q trình em làm luận văn Em xin chân thành cảm ơn thầy giáo môn Các Hệ thống Thông tin, nhóm seminar “Data mining KDD” Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Khoa Cơng nghệ tạo điều kiện q trình học tập nghiên cứu Khoa Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -9- CHƯƠNG TỔNG QUAN VỂ KHÁM PHÁ TRI THỨC THEO TIẾP CẬN TẬP THỒ 1.1 HỆ THÔNG TIN VÀ TẬP THƠ 1.1.1 Một sơ khái niệm I.ỉ.l.l.Khái niệm hệ thông tin Trong hoạt động hàng ngày, đặc biệt thu thập liệu vào kho liệu (datawarehousing), ta thường gặp tập hẹp liệu miêu tả bảng, hàng biểu diễn "bản ghi" (một phần tử, trường họp, kiện hay đơn giản biểu diễn đối tượng), cột biểu diễn thuộc tính (một biến, quan sát, tính chất ) Từ năm đầu thập kỷ 1980, Pawlak hình thức hóa bảng kiểu thành khái niệm hệ thông tin (information system) [ 1,5, 9, 10] Định nghĩa 1.1 Hệ thông tin cặpcTỂ = (U,A) u tập hữu hạn khác rỗng đôi tượng A tập hữu hạn khác rỗng thuộc tính , • a: u —> Va với a € A Tập Va gọi tập giá trị a Ví dụ: Có hệ thơng tin thể bảng Có đối tượng (Mỗi đối tượng khách Xuất Nhập Cảnh) thuộc tính: Tới nước, Nơi sinh, Tơn giáo Tới nước -%2 M ỹ H M ỹ H ả i P h p * * Xl Nơi sinh S i Tơn íỊÍáo C ó C ó g ị n K h n g h n g n i p h ị n g P h p S i g ò n K Đ ứ c Đ n ẵ n g Có M ỹ Đ n ẵ n g K h ô n g P h p Đ n ẵ n g K h ô n g Bảng Một ví dụ hệ thơng tin Khai phá luật theo tiếp cận tập thô Tiêu Thị Dự -72- "CHINA" 52 "khong" "Cong nhan" 101 "TW" 54 "cao dai" "Cong nhan" 101 "Yen Thanh, NA" 54 "khong" "Cong nhan" 101 "DL" 54 "cao dai" "Cong nhan" 105 ,,rf\V" 54 "cao dai" "Cong nhan" 103 "CHINA" 51 "cao dai" "Cong nhan" 103 "CHINA" 51 "cao dai" "Cong nhan" 103 "VN" 54 "khong" "Cong nhan" 103 "KR" 54 "khong" "Cong nhan" 103 "HAI PHONG" 54 "cao dai" "Cong nhan" 101 "SA DEC" 54 "khong" "Cong nhan" 103 "HAI HUNG" 52 "khong" "Cong nhan" 101 "TQ" 54 "khong" "Cong nhan" 101 "DL" 54 "khong" "Cong nhan" 101 “CHINA" 45 "khong" "Cong nhan" 101 "DL" 224 "Dao Phat" "Giam muc" 260 "NHAT" 145 "Dao Phat" "Giam muc" 260 "NHAT" 145 "Dao Phat" "Giam muc" 260 "TW" 224 "Dao Phat" "Giam muc" 260 "DL" 224 "Dao Phat" “Giam muc" 260 "Q.BINH" 48 "Dao Hoa "Cong nhan" 260 "Kĩ sư" 260 "Kĩ sư" 260 hao" USA 54 "Thien chua giao" CHN 79 “Phat” b) Định nghĩa tập liệu biểu diễn trường XEM_XET (xem khách XNC thuộc diện phép hay không phép xuất/nhập cảnh) XEM XET Khai phá luật theo tiếp cận tập thô Giá tri Tiêu Thi Dự -73- Cấm không phép xuất nhập cảnh qua cửa Được phép xuất nhập cảnh qua cửa c) Định nghĩa tập liệu tên quốc gia biểu diễn trường liệu QT_HNAY (Ọuốc tịch nay), DEN_TOI (nhập, xuất cảnh đến nước nào) khách xuất nhập cảnh (Bảng Q U O C G IA phụ lục) III.2.2.2 Quá trình phát luật Bảng định