Một cách tiếp cận tìm tập phổ biến dựa trên giàn trong khai phá luật kết hợp

3 7 0
Một cách tiếp cận tìm tập phổ biến dựa trên giàn trong khai phá luật kết hợp

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết Một cách tiếp cận tìm tập phổ biến dựa trên giàn trong khai phá luật kết hợp giới thiệu một kỹ thuật tìm tập phổ biến dựa trên giàn có độ phức tạp đa thức. Ưu điểm của cách tiếp cận này là bỏ qua giai đoạn tìm tập ứng viên như trong thuật toán Apriori mà tìm trực tiếp tập phổ biến.

một ngữ cảnh hình thức cho trước Lương Văn Nghĩa, Lê Văn Sơn, Huỳnh Triệu Vỹ Trong thuật toán giới thiệu, trước MỘT CÁCH TIẾP CẬN TÌM TẬP PHỔ BIẾN tiên chúng tơi DỰA tính cơTRÊN sở GIÀN ngữ cảnh, sau tính tất KẾT HỢP khái niệm từ sở Ưu điểm TRONG KHAI PHÁ LUẬT B phạm khái niệm định lý báo dễ dàng xác THE APPROACH FOR BUILDING THE FREQUENCY BASED ONkhái LATTICE định quan hệSET bao hàm niệm IN MINING ASSOCIATION RULES nghĩ Một số khái niệm sở Lương Văn Nghĩa , Lê Văn Sơn2 , Huỳnh Triệu Vỹ1 tơi trình bày số khái Sau chúng Trường Đại học Phạm Văn Đồng; Email: nghia.itq@gmail.com, niệm sở giànhtrvy@yahoo.com có liên quan Để có thơng tin Trường Đại học Sư phạm, Đại học Đà Nẵng; Email: levansupham2004@yahoo.com Tóm tắt – Khai phá luật kết hợp sở liệu giao dịch lớn toán nhiều người quan tâm nghiên cứu Bài toán khai phá luật kết hợp thường thực qua hai bước Trong đó, bước tìm tập phổ biến bước thứ hai tìm luật kết hợp dựa tập phổ biến tìm Hiện có nhiều thuật tốn tìm tập phổ biến thuật toán đề xuất sinh giàn từ quan hệ nhị phân, nhiên thuật toán có độ phức tạp lớn Trong báo chúng tơi giới thiệu kỹ thuật tìm tập phổ biến dựa giàn có độ phức tạp đa thức Ưu điểm cách tiếp cận bỏ qua giai đọan tìm tập ứng viên thuật tốn Apriori mà tìm trực tiếp tập phổ biến chi tiết giàn, xem thêm [2] Abstract – In recently years, the Discovery of Association Rule on the transaction of large databases has been the most interesting Định nghĩa Một ngữ cảnh hình thức problem in research The problem of mining association rule is (formal context) K:= đóset G,isM in usually performed through two(G,M,I), steps The frequency found first step, and building the association rule based on the previous hai tập I quan hệ G M Các phần tử result of frequency set is second step In fact, we had many algorithms to find gọi the frequency settượng, and to propose for generating G đối phần tử lattices from binary relationships However, those algorithms still M gọi thuộc tính ngữ cảnh Để have been a big complexity In this paper, we introduce a technique to find frequency set based the lattice which there biểu diễn quan hệongiữa đối intượng g hasGbeen vớithe complexity of polynomial The advantage of this technique not only thuộc moffinding M tacandidate viết (g Isetm)ashoặc (g, m) I ignores thetính stage the Apriori algorithm, butvà also builds the frequency set immediately đọc “đối tượng g có thuộc tính m” Từ khóa – luật kết hợp; tập phổ biến; giàn; lược đồ Hasse; thuật toán Apriori Key words – association rule; frequency set; lattice; Hasse dagram; Ví dụ Một ngữ cảnh trình bày Apriori algorithm Giới thiệu “đối g có thuộc tính m” trìnhtượng bày ngữ cảnh hình thức K=(G, M, I), Vívới dụ Một ngữ cảnh bày ta mộtlập bảng tham G={1,2,3,4,5} Mtrình ={a,b,c,d} bảng chiếu chéo Hình Để trình bày ngữ cảnh gồm có dịng (ứng với đối tượng G) hình thức K = (G, M, I), với G = {1, 2, 3, 4, 5} M = (ứng với thuộc {a,4b,cột c, d} ta lập bảng gồm cótính dịng (ứngM) với Tại đốimỗi tượng điểm giao dòng cột ta đánh G) cột (ứng với thuộc tính M).dấu Tại X điểm dịng cột tính ta đánh nếugiao đối tượnggiữa gG có thuộc m dấu M × đối tượng g ∈ G có thuộc tính m ∈ M bảng tham chiếu chéo Hình Để Xây dựng giàn (lattice) từ tập quan hệ nhị phân có nhiều ứng dụng quan trọng Wille (1982) xem phần tử giàn khái niệm tạo thành đồ thị tương ứng (lược đồ Hasse) Đồ thị quan hệ khái quát hóa khái niệm Từ ý tưởng này, giàn biểu diễn phân cấp khái niệm Phân cấp khái niệm cho thấy có nhiều ưu điểm lĩnh vực khai phá tri thức từ sở liệu lớn [6] Đã có nhiều thuật tốn đề xuất sinh giàn từ quan hệ nhị phân [1][2][4] Nhưng thuật tốn đề cập đến độ phức tạp Lhouari Nourine cộng đề xuất thuật toán nhanh (fast) cho phép xây dựng giàn [5] Trong báo này, giới thiệu phương pháp cải tiến xây dựng giàn tác giả [5] Các thuật toán cho phép tạo tập khái niệm lược đồ Hasse tương ứng từ ngữ cảnh hình thức cho trước a × × × b × × c d × × × × ,Y) nghĩ tiếp X nối p cho H1 v khái niệm hiệu niệm ngữ × Hình Mộtngữ ngữ cảnh cảnh hình thức K K Hình 1: Một hình thức Định nghĩa Cho tập A  G gồm đối Trong thuật tốn giới thiệu, trước tiên chúng tơi tính Định nghĩa Cho tập A ⊆ G gồm đối tượng Chúng ta định nghĩa A :=ta{m ∈ M|g I m,A’ ∀g:=∈ {m A} (tập tượng Chúng định nghĩa  Mcác| gthuộc I sở ngữ cảnh, sau tính tất khái niệm từ tính chung đối tượng A) Tương tự, cho tập sở Ưu điểm định lý báo dễ gta  A}(tập các:=thuộc B m, ⊆M định nghĩa B {g ∈ tính G|g Ichung m, ∀mcủa ∈ B} (tập dàng xác định quan hệ bao hàm khái niệm T tự, cho tập cácđối đốitượng tượng có cùngA) tậpTương thuộc tính B).B  M ta Một số khái niệm sở địnhnghĩa nghĩa3.B’Một := {g G | ghình I mthức m  B} Định kháiniệm ngữ(tập cảnh (G, M, I) cặp (A, B), với A ⊆ G, B ⊆ M, A = đối tượng có tập thuộc tính B) B trình Sau chúng tơi trình bày số khái niệm sở giàn có liên quan Để có thơng tin chi tiết giàn, xem thêm [2] B = A Chúng ta gọi A phạm vi (extent) B nghĩacủa khái Mộtniệm khái(A, niệm hình M, thức mục Định đích (intent) B) B(G, I) ngữ M,của I) ngữ cặp (A, B), tậpcủa tất cáccảnh khái(G, niệm cảnh (G, M,với I) A  G, Định nghĩa Một ngữ cảnh hình thức (formal context) hệ thứ tự phận định nghĩa tập Một quan K := (G, M, I), G, M hai tập I quan hệ G M Các phần tử G gọi đối B(G, M, I) ngữ cảnh (G, M, I) sau: Cho H1 = (X , X) ∈ B(G, M, I) H2 = (Y , Y) ∈ tượng, phần tử M gọi thuộc tính ngữ cảnh Để biểu diễn quan hệ đối tượng g ∈ G với B(G, M, I), định nghĩa H1 < H2 ⇔ X ⊆ Y, nghĩa H1 thuộc tính m ∈ M ta viết (g I m)4 (g, m) ∈ I đọc cha H2 hay khái quát hóa trực tiếp giàn Thật 47 thức TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II có quan hệ đối ngẫu X X giàn, nghĩa là, X ⊆ Y ⇔ Y ⊆ X Vậy, chất giàn hai giàn kết nối với Lược đồ Hasse giàn sinh cách sử dụng quan hệ thứ tự phận Nếu H1 < H2 không tồn H3 cho H1 < H3 < H2 tồn cạnh nối H1 H2 Lược đồ/đồ thị biểu diễn quan hệ khái quát hóa/chuyên biệt hóa khái niệm sử dụng cơng cụ hiệu việc khai phá liệu tri thức Định lý Cho K = (G, M, I) ngữ cảnh hình thức Khi đó, với ∀F ∈ FB , ta có (F, γ(F)) khái niệm K, B ≡ {(F, γ(F))|F ∈ FB } = B(G, M, I) Bây toán xây dựng giàn từ ngữ cảnh cho K = (G, M, I) thơng qua thuật tốn thực qua bước sau: (1) Tính sở B ngữ cảnh K; (2) Sinh họ B = {(F, γ(F))|F ∈ FB }; (3) Xây dựng giàn từ B Ví dụ Ngữ cảnh Ví dụ có khái niệm Đồ thị Hình biểu diễn giàn ngữ cảnh: 3.1 Tính sở B ngữ cảnh K Từ định nghĩa sở, xác định lực lượng B với lực lượng M, nghĩa |B| = |M| Thuật toán Cơ sở B Input: Ngữ cảnh K = (G, M, I) Output: Cơ sở B ngữ cảnh Begin |B| = |M| for each m ∈ B m =Φ for each m ∈ B for each g ∈ G if g I m then m = m ∪ {g} End Hình 2: Giàn cho ngữ cảnh hình Thuật tốn nhanh xây dựng giàn Trước trình bày thuật tốn, chúng tơi trình bày định nghĩa sau: Cho K = (G, M, I) ngữ cảnh hình thức Cho g ∈ G, ta viết g thay {g} cho đối tượng mục đích g := {m ∈ M|g I m} đối tượng g Tương tự, m := g ∈ G|g I m thuộc tính phạm vi thuộc tính m Một sở B tập tất thuộc tính phạm vị K, nghĩa là, B = {m |m ∈ M} Ta ký hiệu FB họ sinh phép giao B, nghĩa là, FB = { m |I ∈ 2B } m ∈I Cho F ∈ FB , ký hiệu γ(F) ⊆ M, cho ∀m ⊆ γ(F), F ⊆ m , nghĩa là, γ(F) = {m ∈ M|F ⊆ m } Ví dụ Trong ngữ cảnh Hình 1, Định lý Thuật tốn tính sở B ngữ cảnh K có độ phức tạp O(|G| ∗ |M|) Bây sử dụng sở B để tạo họ khái niệm B = {(F, γ(F))|F ∈ FB } 3.2 Tạo họ khái niệm B = {(F, γ(F))|F ∈ FB } Thuật tốn trình bày sau tạo tất khái niệm (F, γ(F)) từ sở B ngữ cảnh cho K, nghĩa là, tính FB với F ∈ FB , ta tìm γ(F) tương ứng Dễ dàng ta suy độ phức tạp thuật toán O((|G| + |M|) ∗ |M| ∗ |FB|) Thuật toán Sinh B(G, M, I) = {(F, γ(F))|F ∈ FB } Input: Cơ sở B Output: B(G, M, I) Begin FB = {G, γ(G)} = Φ for each m ∈ B if m = G then γ(G) = γ(G) ∪ m for each m ∈ B for each F ∈ FB begin F =F∩m if F ∈ / FB then begin FB = FB ∪ F end γ(F ) = γ(F ) ∪ {M} end End B = {a = {134}, b = {1, 4}, c = {234}, d = {25}}; FB = {{12345}, {134}, {14}, {234}, {34}, {25}, {2}, {4}, Φ}; {γ(F)|F ∈ FB } = {Φ, {a}, {ab}, {c}, {d}, {ac}, {cd}, {abc}, {abcd}} Định lý sau suy trực tiếp từ định nghĩa Định lý Thuật tốn tính họ B = {(F, γ(F))|F ∈ FB } 48 Lương Văn Nghĩa, Lê Văn Sơn, Huỳnh Triệu Vỹ từ sở B có độ phức tạp O((|G| + |M|) ∗ |M| ∗ |FB |) 3.3 Xây dựng giàn từ B Giả sử (FB , ⊂) thứ tự phận quan hệ bao hàm tập Cho F , F ∈ FB với F ⊂ F, ký hiệu D(F F) = γ(F )\γ(F) định nghĩa xác quan hệ bao hàm ≺ FB sau: ∀F1 , F2 ∈ (FB , ⊂), Nếu F1 ⊂ F2 , không tồn F = F1 , F2 , cho F1 ⊂ F ⊂ F2 ,thì gọi F2 bao hàm xác F1 viết F1 ≺ F2 Ví dụ Từ ví dụ 2, cho F = Φ, F = {2}, γ(F ) = {abcd}, γ(F) = {cd}, D(F , F) = {ab} Rõ ràng F ≺ F, thấy F\a = F\b = {2}, tổng quát có định lý sau: Output: Lược đồ Hasse B(G,M,I) Begin for each F ∈ FB COUNT(F) = for each F ∈ FB for each m’ ∈ B\γ(F) begin F’ = F ∩ m’; COUNT(F’)++; if |γ(F’)| = COUNT(F’) + |γ(F)| then Nối (F, γ(F)) với (F’,γ(F’)) end Reset COUNT; End Định lý Thuật tốn có độ phức tạp O((|G| + |M|) ∗ Định lý Cho F , F ∈ FB với F ⊂ F, F ≺ F ⇔ |M| ∗ |FB |) F\m1 = F\m2 với ∀m1 , m2 ∈ D(F , F) Rõ ràng thuật tốn có tổng độ phức tạp O((|G| + Chứng minh Ta thấy F viết F = F ∩ |M|) ∗ |M| ∗ |FB |) Thuật toán thật đơn giản hiệu {m |m ∈ D(F , F)} đó, cho việc xây dựng giàn từ sở B ngữ cảnh K ⇒ ∀m1 , m2 ∈ D(F , F), giả sử F\m1 ⊂ F\m2 , suy ta có F = F ∩ {m |m ∈ D(F , F)} ⊂ F ≡ F ∩ B1 ∈ F, Kết luận điều mâu thuẩn với F ≺ F, F\m1 ⊆ F\m2 Tương Ưu điểm thuật toán nhanh xây dựng giàn đề tự có F\m1 ⊇ F\m2 xuất báo có độ phức tạp đa thức Theo hướng ⇐ Giả sử ∃F , cho F ⊂ F ⊂ F ta có tiếp cận này, rút ngắn thời gian sinh luật γ(F) ⊂ γ(F ) ⊂ γ(F ) Vì γ(F )\(F) ∈ γ(F )\γ(F) = kết hợp Thay áp dụng thuật tốn Apriori ta phải D(F , F), suy F = F ∩ {m |m ∈ D(F , F)} = F nhiều thời gian cho việc tìm tập ứng viên trước sinh tập phổ biến thuật tốn Apriori có độ phức tạp hàm mũ Hệ Cho F , F ∈ FB F ⊂ F, đó: Trong báo này, đưa tiếp F ≺ F ⇔ F = F ⇔ m với ∀m ∈ D(F , F) cận tạo tập khái niệm lược đồ Hasse tương ứng Bây giới thiệu cách xây dựng giàn từ tập từ ngữ cảnh hình thức cho trước thuật toán nhanh khái niệm B ngữ cảnh K Ứng với F ∈ FB xây dựng giàn tìm FB tất bao hàm xác F, nghĩa là, ∀F ∈ FB tìm {F ∈ FB |F ≺ F} Rõ ràng F ∈ FB Tài liệu tham khảo ứng viên F ⊂ FvF tính từ F ∩ m , với ∀m ∈ [1] Godin, R, Missaoui, R, alaui, H, Incremental Concept Formation B\γ(F) Giả sử đặt S = {F ∩ m |m ∈ B\γ(F)} Algorithm Based on Galois (Concept) Lattice, Computational Khi đó, ta có định lý sau: Itelligence, 1995, 11(2):246-267 Định lý F ∈ S, F ≺ F F tìm thấy xác |D(F , F)| lần S Chứng minh Từ định nghĩa S, định lý chứng minh trực tiếp từ Hệ Thuật toán sau tính tập S tần suất xuất phần tử F S (thể COUNT(F’)) Sau đó, ứng với F ∈ S, kiểm tra |D(F , F)| = COUNT(F ) ta có F ≺ F vẽ cạnh nối (F, γ(F)) (F , γ(F )) Thuật toán Xây dựng giàn từ B Input: B [2] Bernhard Ganter, Rudolf wille, Formal Concept Analysis, 1999, Springer-Verlag Berlin Heidelberg [3] Xie Zhipeng Liu Zong-Tian, A Fast Incremental Algorithm for Building Concept Lattice, Chinese J.Computer, 2002,25(5) [4] Keyun Hu, Yuchang Lu and Chunyi shi, Incremental Discovering Association Rules: A Concept Lattice Approach, PAKDD 1999: 109-113 [5] Lhouari Nourine, Olivier Raynaud, A fast algorithm for building lattice Information Processing, letters 71 (1999) 199-204 [6] Lương Văn Nghĩa (2012), Khai phá liệu theo tiếp cận tập thơ nhằm tìm thuộc tính hạt nhân chọn đặc trưng tập sở liệu lớn, Tạp chí KH&CN, ISSN 0866-7659, Đại học Phạm Văn Đồng, số (01), 12/2012, pp 46-54 [7] Kumar A., New Techniques for Data Reduction in Database Systems for Knowledge Discovery Applications, Journal of Intelligent Information Systems, 10(1), 31-48, 2005 (BBT nhận bài: 22/12/2013, phản biện xong: 07/01/2014) 49 ... )(F) ∈ γ(F )γ(F) = kết hợp Thay áp dụng thuật toán Apriori ta phải D(F , F), suy F = F ∩ {m |m ∈ D(F , F)} = F nhiều thời gian cho việc tìm tập ứng viên trước sinh tập phổ biến thuật tốn Apriori... , F ∈ FB F ⊂ F, đó: Trong báo này, chúng tơi đưa tiếp F ≺ F ⇔ F = F ⇔ m với ∀m ∈ D(F , F) cận tạo tập khái niệm lược đồ Hasse tương ứng Bây giới thiệu cách xây dựng giàn từ tập từ ngữ cảnh hình... Processing, letters 71 (1999) 199-204 [6] Lương Văn Nghĩa (2012), Khai phá liệu theo tiếp cận tập thô nhằm tìm thuộc tính hạt nhân chọn đặc trưng tập sở liệu lớn, Tạp chí KH&CN, ISSN 0866-7659, Đại học

Ngày đăng: 01/10/2022, 13:14

Hình ảnh liên quan

Hình 2: Giàn cho ngữ cảnh của hình 1. - Một cách tiếp cận tìm tập phổ biến dựa trên giàn trong khai phá luật kết hợp

Hình 2.

Giàn cho ngữ cảnh của hình 1 Xem tại trang 2 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan