Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
34,47 MB
Nội dung
Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp I H C QU C GIA THÀNH PH H CHÍ MINHĐẠ Ọ Ố Ố Ồ TR NG I H C CÔNG NGH THÔNG TINƯỜ ĐẠ Ọ Ệ BÀI TI U LU N MÔN: PH NG PHÁP TOÁN TRONG TIN H CỂ Ậ ƯƠ Ọ LÝ THUY T T P THÔ VÀ KHAI PHÁ LU T K TẾ Ậ Ậ Ế H PỢ GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 1 1.1.1.1.1.1.1.1 MSSV: CH1201051 H tên: Di p Thanh Nguyênọ ệ L p: Cao h c khóa 7ớ ọ GVHD: PGS.TS. V Thanh Nguyênũ MSSV: CH1201051 H tên: Di p Thanh Nguyênọ ệ L p: Cao h c khóa 7ớ ọ GVHD: PGS.TS. V Thanh Nguyênũ MSSV: CH1301118 H tên: Nguy n Ng c V ngọ ễ ọ ọ GVHD: TS. D ng Tôn mươ Đả Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Tp.HCM, Tháng 11/2014 LỜI NÓI ĐẦU Ngày nay, phát hiện tri thức (Knowledge Discover) và khai phá dữ liệu (Data mining) là ngành khoa học đang ngày được quan tâm nghiên cứu và phát triển do những ứng dụng thiết thực mà nó mang lại. Tuy nhiên, thông thường dữ liệu lớn yêu cầu cần phải khai thác một cách có hệ thống, phân loại dữ liệu sẽ quyết định đến hiệu quả. Đó cũng là một trong những mục đích của lý thuyết tập thô. Lý thuyết tập thô được nhà logic học BaLan Zdzislak Pawlak giới thiệu vào đầu những năm 80, bài toán kinh điển của ông là Rough Sets xuất bản năm 1982, được xem là một cách tiếp cận mới để phát hiện tri thức. Nó cung cấp một công cụ để phân tích, trích chọn dữ liệu từ các dữ liệu không chính xác để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu. Qua môn học phương pháp toán trong tin học, người viết đã được tìm hiểu về lý thuyết tập thô, trong đó có thế ứng dụng vào các bài toán với dữ liệu lớn giúp làm giảm đi mức độ đồ sộ của hệ thống dữ liệu. Vì thế, người viết chọn đề tài lý thuyết tập thô và ứng dụng vào data mining để trình bày một số hiểu biết của mình. Nhân đây, xin gửi lời cảm ơn chân thành đến TS Dương Tôn Đảm trường Đại học Công Nghệ Thông Tin đã tận tình giảng dạy, hướng dẫn để người viết hiểu thêm và hoàn thành tiểu luận này. GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 2 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp NHẬN XÉT CỦA GIẢNG VIÊN GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 3 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp MỤC LỤC LỜI NÓI ĐẦU 1 NHẬN XÉT CỦA GIẢNG VIÊN 2 MỤC LỤC 3 Ph n 1. C S LÝ THUY T ầ Ơ Ở Ế 5 1.1 H th ng thông tin và t p thôệ ố ậ 5 1.2 Thu t toán tìm t p rút g nậ ậ ọ 14 Ph n 2. LU T K T H P VÀ THU T TOÁN APRIORIầ Ậ Ế Ợ Ậ 22 2.1 Khái ni m v lu t và lu t k t h pệ ề ậ ậ ế ợ 22 2.2 M t s tính ch t c a t p m c ph bi n và lu t k t h pộ ố ấ ủ ậ ụ ổ ế ậ ế ợ 24 2.3 Thu t toán Aprioriậ 26 Ph n 3. CH NG TRÌNH DEMO APRIORIầ ƯƠ 32 3.1 Giao di n ch ng trìnhệ ươ 32 3.2 S d ng ch ng trìnhử ụ ươ 32 3.3 Xây d ng l p Aprioriự ớ 32 3.4 Xây d ng LargeItemSetự 33 KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 4 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Phần 1. CƠ SỞ LÝ THUYẾT 1.1 Hệ thống thông tin và tập thô 1.1.1 Hệ thống thông tin Một tập dữ liệu được biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng, bảng này gọi là bảng hệ thống thông tin. Hệ thống thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng , A là một tập hữu hạn khác rỗng các thuộc tính. Với mỗi u є U và a є A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. Nếu gọi I a là tập tất cả giá trị của thuộc tính a, thì u(a) є I a với mọi u є U. Bây giờ, nếu B = {b 1 , b 2 , . . ,b k } ⊆ A, ta ký hiệu bộ các giá trị u(b i ) bởi u(B). Như vậy, nếu u và v là hai đối tượng thì ta sẽ viết u(B)=v(B) nếu u(b i ) = v(b i ), với mọi i =1, 2, . . , k. 1.1.2 Quan hệ không phân biệt được Xét hệ thống thông tin S = (U, A), với mỗi tập thuộc tính B ⊆ A tạo ra một quan hệ hai ngôi trên U, ký hiệu IND(B). IND(B) = {(u, v) є U x U | u(a) = v(a), ∀a є B} IND(B) được gọi là quan hệ B_không phân biệt được. Dễ kiểm chứng đây là một quan hệ tương đương trên U. Với mọi đối tượng u є U, lớp tương đương của u trong quan hệ IND(B) được kí hiệu bởi [u] B . Tập thương xác định bởi quan hệ IND(B) được ký hiệu U/IND(B) hay U/B, tức là U/IND(B) = U/B = {[u] B | u є U}. Ví dụ 1.1: Xét hệ thống thông tin cho ở bảng 1.1 U Đau đầu Đau cơ Sốt Cúm x 1 Không Có Cao Có GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 5 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp x 2 Có Không Cao Có x 3 Có Có Rất cao Có x 4 Không Có Bình thường Không x 5 Có Không Cao Không x 6 Không Có Rất cao Có Bảng 1.1. Bảng dữ liệu bệnh cúm Trong đó: Tập đối tượng U = {x 1 , x 2 , x 3 , x 4 , x 5 , x 6 } Tập thuộc tính A = {Đau đầu, Đau cơ, Sốt, Cúm}. Trong bảng, các bệnh nhân x 2 , x 3 và x 5 không phân biệt được đối với thuộc tính Đau đầu, bệnh nhân x 3 và x 6 không phân biệt được đối với thuộc tính Đau cơ, Sốt và Cúm, và bệnh nhân x 2 , x 5 không phân biệt được đối với thuộc tính Đau đầu, Đau cơ và Sốt. Do đó IND({Đau đầu})={{x 1 , x 4 , x 6 },{x 2 , x 3 , x 5 }}; IND({Đau cơ})={{x 1 , x 3 , x 4 , x 6 },{x 2 , x 5 }}; IND({Sốt})={{x 1 , x 2 , x 5 },{x 3 , x 6 },{x 4 }}; IND({Cúm})={{x 1 , x 2 , x 3 , x 6 },{x 4 , x 5 }}; IND({Đau đầu, đau cơ})={{x 1 , x 4 , x 6 },{x 2 , x 5 },{x 3 }}; IND({Đau đầu, Sốt})={{x 1 },{x 2 , x 5 },{x 3 },{x 4 },{x 6 }}; IND({Đau đầu, Cúm})={{x 1 , x 6 },{x 2 , x 3 },{x 4 },{x 5 }}; Tương tự cho các cặp thuộc tính khác. Ví dụ 1.2: Xét tập 10 đồ chơi với các thuộc tính: Màu sắc, kích thước, hình dáng được cho trong bảng sau: U Màu sắc Kích thước Hình dáng u 1 Xanh To Tròn GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 6 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp u 2 Xanh Nhỏ Tròn u 3 Vàng Vừa Vuông u 4 Đỏ Vừa Vuông u 5 Vàng To Tam giác u 6 Xanh Nhỏ Tròn u 7 Đỏ Nhỏ Tam giác u 8 Đỏ To Tam giác u 9 Vàng To Vuông u 10 Xanh Vừa Tròn Bảng 1.2. Bảng dữ liệu bệnh cúm Trong đó: Tập đối tượng U = {u 1 , u 2 , u 3 , u 4 , u 5 , u 6 , u 7 , u 8 , u 9 , u 10 }; Tập thuộc tính A = {Màu sắc, kích thước, Hình dáng}. Trong bảng trên các đồ chơi u 1 , u 2 , u 10 không phân biệt được về màu sắc và hình dáng, nhưng phân biệt được về kích thước. Tương tự các đồ chơi u 3 , u 4 không phân biệt được Kích thước và hình dáng nhưng phân biệt được về màu sắc. Do đó: U/{Màu sắc} = {{u 1 , u 2 , u 6 , u 10 },{u 3 , u 5 , u 9 },{u 4 , u 7 , u 8 }}; U/{kích thước} = {{u 1 , u 5 , u 8 , u 9 },{u 2 , u 6 , u 7 },{u 3 , u 4 , u 10 }}; U/{Hình dáng} = {{u 1 , u 2 , u 6 , u 10 },{u 3 , u 4 , u 9 },{u 5 , u 7 , u 8 }}. 1.1.3 Tập thô Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, ký hiệu R = IND(B), ta có 2 tập con sau: R(X) = {u є U | {[u] B ⊆ X} GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 7 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp (X) = {u є U | {[u] B ∩ X≠ ∅} R(X) và (X) lần lượt gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X. Tập R(X) bao gồm các phần tử của U chắc chắn thuộc vào X. Tập (X) bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc X ứng với quan hệ R. Từ hai tập xấp xỉ người ta định nghĩa các tập: BN B (X) = (X) - R(X): B- miền biên của X. POS B (X) = R(X) : B- vùng dương của X. NEG B (X) = U - (X): B- vùng âm của X. Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên, xấp xỉ dưới của X có thể viết lại: R(X) = ∪{W є U/B | W ⊆ X} (X) = ∪ {W є U/B | X≠ ∅} Trong trường hợp BN B (X) ≠ ,∅ X được gọi là tập thô, ngược lại X được gọi là tập rõ. Hình 1.1. Minh họa tập thô Đối với một hệ thống thông tin S = (U, A), B, D ⊆ A, ký hiệu R = IND(B), người ta gọi B- miền khẳng định dương của D là tập được xác định như sau: GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 8 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Rõ ràng POS B (D) là tập tất cả các đối tượng u sao cho với mọi v є U mà u(B)= v(B) ta đều có u(D) = v(D). Nói cách khác, POS B (D) = { u є U | [u] B ⊆ [u] D } 1.1.4 Các tính chất của xấp xỉ Định lý 1.1 Cho một hệ thống thông tin S = (U, A), ∀X, Y ⊆ U và B ⊆ A, đặt R = IND(B). Khi đó: (1L) R(U) = U (2L) R(∅) =∅ (2H) (3L) R(X) ⊆ X (3H) ⊇ X (4L) R(X ∩ Y) = R(X) ∩ R(Y) (4H) (5L) R R(X) = R(X) (5H) (6) R(U - X) = U - (7L) X ⊆ Y ⟹ R(X) ⊆ R(Y) (7H) X ⊆ Y ⟹ ⊆ (8L) (8H) GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 9 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp (9L) ∀K ⊆ U /R, R(K)=K (9H) ∀K ⊆ U /R, Tính chất (3L), (4L) và (8L) là những tính chất đặc trưng cho phép xấp xỉ dưới, điều đó có nghĩa là những tính chất khác của phép xấp xỉ dưới có thể suy dẫn từ ba tính chất này. Tương tự, (3H), (4H) và (8H) là những tính chất đặc trưng của phép xấp xỉ trên. 1.1.5 Độ chính xác của xấp xỉ Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, đặt R = IND(B), đại lượng đo sự chính xác của xấp xỉ X đối với phân hoạch trên B là giá trị Trong đó card(X) = |X| là lực lượng (số phần tử) của tập X. Rõ ràng Nếu α (X ) = 1, ta nói X là chính xác đối với R, còn α (X ) < 1, X gọi là thô đối với R. 1.1.6 Bảng quyết định Bảng quyết định là một hệ thống thông tin có dạng T = (U, A) , trong đó tập thuộc tính A được chia thành hai tập thuộc tính rời nhau C và D, C được gọi là tập thuộc tính điều kiện, còn D là tập thuộc tính quyết định. Tức là T = (U, C ∪ D), với C ∩ D = .∅ Ví dụ 1.3: Hệ thống thông tin S = (U, A) biểu diễn tri thức về bệnh cúm được thể hiện trong bảng 1.1 là một bảng quyết định T = (U, C ∪ D) Trong đó : U = {x 1 , x 2 , x 3 , x 4 , x 5 , x 6 } ; A = {Đau đầu, đau cơ, sốt, cúm} ; Tập thuộc tính điều kiện C = {Đau đầu, đau cơ, sốt} ; Tập thuộc tính quyết định D = {Cúm}. U Đau đầu Đau cơ Sốt Cúm x 1 Không Có Cao Có x 2 Có Không Cao Có GVHD: TS. Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 10 [...]... 33 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp return results; } GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 34 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp KẾT LUẬN Tiểu luận đã trình bày về lý thuyết tập thô, luật kết hợp, thuật toán Apriori áp dụng cho việc tìm luật kết hợp trong các mẫu phổ biến, dựa vào đó người bán có thể dễ dàng chọn lựa các sản phẩm phù hợp. .. CH1301118 30 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp (R1) "Xe máy" -> "Ti vi" ; Conf=1 (R2) "Máy tính" -> "Ti vi" ; Conf=1 Các luật thỏa điều kiện minconf=80% (R0) "Máy giặt" -> "Ti vi" ; Conf=1 (R1) "Xe máy" -> "Ti vi" ; Conf=1 (R2) "Máy tính" -> "Ti vi" ; Conf=1 GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 31 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Phần 3 CHƯƠNG... Thuật toán dừng Ta được tập rút gọn là R1 = {c1, c4} và R2 = {c2, c4}, tập lõi là Core = {c4} GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 21 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Phần 2 LUẬT KẾT HỢP VÀ THUẬT TOÁN APRIORI 2.1 Khái niệm về luật và luật kết hợp 2.1.1 Hệ luật dẫn Trong modul chương trình xử lý các thông tin của vấn đề đang nằm trong bộ nhớ tạm thời thông qua... dụng của toán trong tin học để giải quyết các vấn đề GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 35 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp TÀI LIỆU THAM KHẢO [1] Dương Tôn Đảm, Slide bài giảng môn toán trong tin học dành cho lớp cao học khóa 8 [2] Nguyễn Đức Thuần, Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết định, Luận án tiến sĩ toán học, Viện khoa học và công... một giao dịch và chứa các tập mục, T ⊆ I GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 22 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X ⇒ Y, trong đó X, Y ⊂ I là các tập mục gọi là itemsets, và X Y = φ Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy... máy" }, {Máy tính} } Tập Items {Máy giặt} {Tivi} {Xe máy} {Máy tính} Số lần xuất hiện 6/9 9/9 5/9 5/9 Bảng 2.6 Bảng đếm số lần xuất hiện các 1- items Từ F1 trên ta có tập C2 gồm các cặp 2-item: { {Máy giặt, ti vi}, {Máy giặt, xe máy} , {Máy giặt, máy tính} , {Tivi, xe máy} , {Tivi, máy tính} , {Xe máy, máy tính} } Tính tập Large 2-item, ta có F2: { {Máy giặt, ti vi}, {Tivi, xe máy} , {Tivi, máy tính} } Tập. .. 25 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Tính chất 4: Nếu luật A→(L-A) không thỏa mãn độ tin cậy cực tiểu thì luật B→(L-B) cũng không thỏa mãn, với các tập mục L,B,A và B⊆A⊆L Vì supp(B)≥(supp(A) (Theo tính chất 1 và định nghĩa độ tin cậy, chúng ta nhận được: conf ( B → ( L − B)) = sup p( L) sup p( L) ≤ < min conf sup p( B) sup p( A) Cũng như vậy: Nếu có luật (L-C)→C thì ta cũng có luật. .. Xe máy Máy ảnh Máy tính Xe hơi HVTH: Nguyễn Ngọc Vọng – CH1301118 29 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp x x x x x x x x Bảng 2.5 Dữ liệu chi tiết hóa đơn bán hàng điện máy Hãy tìm luật kết hợp cho Min Support = 50%, Min Confidence = 80% Cho cơ sở dữ liệu chi tiết hóa đơn bán hàng trong 1 siêu thị như bảng sau: Tính tập Large 1-item, ta có F1: {{ "Máy giặt "}, {"Tivi"}, {"Xe máy" },... X là phổ biến và không tập cha nào của X là phổ biến, ta nói rằng X là một tập phổ biến lớn nhất (maximally frequent itemset) Ký hiệu tập tất cả các tập phổ biến lớn nhất là MFI Dễ thấy MFI ⊆ FCI ⊆ FI Quá trình tìm các luật kết hợp thường gồm 2 pha: GVHD: TS Dương Tôn Đảm HVTH: Nguyễn Ngọc Vọng – CH1301118 23 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Pha 1: Tìm tất cả các tập phổ biến (tìm... thì supp(A) ≥ supp(B) (theo tính chất 1) mà supp(A) . Ngọc Vọng – CH1301118 4 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Phần 1. CƠ SỞ LÝ THUYẾT 1.1 Hệ thống thông tin và tập thô 1.1.1 Hệ thống thông tin Một tập dữ liệu được biểu diễn. Đả Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp Tp.HCM, Tháng 11/2014 LỜI NÓI ĐẦU Ngày nay, phát hiện tri thức (Knowledge Discover) và khai phá dữ liệu (Data mining) là ngành khoa học. CH1301118 3 Tiểu luận: Lý thuyết tập thô và khai phá luật kết hợp MỤC LỤC LỜI NÓI ĐẦU 1 NHẬN XÉT CỦA GIẢNG VIÊN 2 MỤC LỤC 3 Ph n 1. C S LÝ THUY T ầ Ơ Ở Ế 5 1.1 H th ng thông tin và t p thô ố ậ