1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác đồ thị dựa trên tài liệu data mining concepts and techniques, jiawei han

26 669 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 0,99 MB

Nội dung

Khai thác đồ thị dựa trên tài liệu data mining concepts and techniques, jiawei han

TRƯỜNG ĐẠI HỌC KHOA HỌC NGOẠI NGỮ - TIN HỌC TPHCM KHOA CÔNG NGHỆ THÔNG TIN HUỲNH TRỌNG NHÂN–09DH11181 TRẦN BÌNH AN – VƯU VĨNH PHÚC- ĐỒ ÁN MƠN HỌC KHAI THÁC DỮ LIỆU VÀ ỨNG DỤNG ĐỀ TÀI : KHAI THÁC ĐỒ THỊ DỰA TRÊN TÀI LIỆU : Data Mining: Concepts and Techniques, Jiawei Han TP.HCM – 12/2012 Tóm tắt nội dung đồ án Đồ thị biểu thị cho lớp cấu trúc chung bộ, chuỗi, mắt lưới Khai thác đồ thị thường sử dụng để khai thác mẫu đồ thị phổ biến, thực thi phân tích đặc điểm, phân biệt, phân lớp gom nhóm liệu đồ thị lớn Khai thác đồ thị có phổ trải rộng ứng dụng tin hoc hóa học, sinh tin học, thị giác máy tính, lập danh mục video, tìm kiếm văn bản, phân tích web Những phương thức hiệu phát triển cho khai thác cấu trúc phổ biến Chúng phân loại vào hai phương pháp dựa Apriori dựa PatternGrowth Phương pháp dựa Apriori dùng chiến lược tìm kiếm theo chiều rộng tạo ứng viên theo mức duyệt Một phương thức Pattern-Growth điển hình gSpan, mở rộng để thêm vào kỹ thuật tối ưu PatternGrowth đạt khả thực thi cao Sự mở rộng xa gSpan cho việc khai thác mẫu đồ thị phổ biến đóng dẫn tới giải thuật CloseGraph, giải thuật khai thác “nén” khơng phải khai thác tồn mẫu phổ biến, với độ hỗ trợ cho trước Có nhiều mẫu đồ thị biến đổi “thú vị” bao gồm: đồ thị phổ biến sấp xỉ, đồ thị liên kết chặt, đồ thị dầy đặc Một khung làm việc chung mà xem ràng buộc cần thiết cho cấu trúc Hơn nữa, có nhiều ràng khác rõ người dùng “dìm sâu” vào việc xử lý mẫu đồ thị để cải thiện hiệu việc khai thác Phái triển ứng dụng khai thác đồ thị dẫn tới việc tạo cấu trúc danh mục đồ thị hiệu chặt chẻ sử dụng mẫu đồ thị phân biệt phổ biến Tìm kiếm tương tự cấu trúc gặp bùng nổ theo cấp số nhân thuộc tính đồ thị Phân tích gom nhóm phân lớp liệu đồ thị khám phá chúng với phương pháp khai thác mẫu đồ thị Chương 9:Graph Mining 9.1 Khai thác đồ thị Đồ thị ngày trở nên quan trọng việc mơ hình hóa cấu trúc phức tạp (hợp chất hóa học, cấu trúc protein, mạng sinh học, mạng xã hội …) tương tác chúng, với ứng dụng rộng rãi bao gồm tin hóa học, tin sinh học, thị giác máy tính, lập mục video, thu hồi văn bản, phân tích Web nhu cầu phân tích liệu có cấu trúc ngày tăng graph mining trở thành nhiệm vụ quan trọng Ví Dụ: Mạng cộng tác tác giả Hình 1: Ví dụ ứng dụng đồ thị Khai thác đồ thị cơng việc đánh giá, phân tích dựa cấu trúc phổ biến Các ứng dụng khai thác đồ thị lấy đặc trưng tập hợp đồ thị, phân biệt nhóm khác đồ thị, phân lớp gom nhóm đồ thị, xây dựng mục đồ thị, V.v… 9.1.1 Các phương thức khai thác đồ thị phổ biến ⊆⊆ Đầu tiên ta giới thiệu khái niệm đồ thị con: Cho hai đồ thị G(V,E) G1(V1,E1) ta đồ thị G1 đồ thị G V1 V E1 e=(i,j) thuộc V G, e thuộc V1 i, j thuộc E1 E, với cạnh Ví dụ: Đồ thị G1 đồ thị G Hình 2: Ví dụ đồ thị Cho độ thị đánh nhãn D ={ G1, G2, …., Gn}, định nghĩa độ hỗ trợ g phần trăm đồ thị D, mà g đồ thị Một đồ thị phổ biến đồ thị mà độ hỗ trợ khơng thấp ngưỡng hộ trợ thấp Ví dụ: Dưới ví dụ đồ thị với độ hỗ trợ nó, với độ hỗ trợ số lần xuất đồ thị đồ thị (1), (2), (3) Hình 3: Ví dụ đồ thị độ hỗ trợ Có hai phương pháp điển hình khai thác cấu trúc phổ biến, phương pháp có chiến lược tạo ứng viên riêng khác Hai phương pháp là: • Phương pháp dựa Apriori , với giải thuật tạo ứng viên điển là: – AGM • – FSG – Nối liền đường đi(path-join) Phương pháp pattern-growth, với giải thuật tạo ứng viên điển là: – gSpan Đầu tiên ta giới thiệu phương pháp dựa Apriori giải thuật ứng dụng 9.1.1.1 Phương pháp dựa Apriori Một giải thuật khai thác câu trúc phổ biến dựa Apriori chia đặc trưng với giải thuật khai thác hạng mục phổ biến dựa Apriori Tìm kiếm đồ thị phổ biến đồ thị có kích thước “nhỏ”, tiến lên từ lên cách thủ cơng ứng viên tạo có đỉnh, cạnh, đường dẫn mở rộng Định nghĩa kích thước đồ thị phụ thuộc vào loại giải thuật sử dụng Để mà xác định đồ thị kích thước k+1 có phổ biến hay khơng, cần phải kiểm tra tất đồ thị có kích thước k phổ biến mà tương xứng với để đạt cận độ hỗ trợ Ví dụ: Ở ví dụ trước đồ thị K+1 cạnh tạo phải đảm bảo đồ thị K cạnh đồ thị phổ biến Kết hợp Hình 4: Mơ tả phương pháp dựa Apriori Khung công việc phương thức khai thác cấu trúc phổ biến dựa Apriori: Hình 5: Mã giả giải thuật AprioriGraph Đây coi giải thuật AprioriGraph Sk cấu trúc phổ biến với kích thước k Apriori thích hợp với phương thức khai thác duyệt theo mức Ở vịng lập, dị tìm cấu trúc phổ biến kích thước tăng lên Cấu trúc tạo kết hợp hai tương tự có khác biệt nhỏ đồ thị phổ biến mà tìm thấy lần gọi trước tới AprioriGraph Thủ tục tạo ứng viên mô tả bước phổ biến dạng đồ đánh dấu Những tìm thấy mà phổ biến thường sử dụng để tạo ứng viên lớn vòng Sau ta chi tiết vào giải thuật ứng dụng PrioriGraph 9.1.1.1.1 Giải thuật AGM Giải thuật AGM dùng cách tạo ứng viên dựa đỉnh làm cho kích thước cấu trúc tăng lên vòng lập AprioriGraph Hai đồ thị phổ biến có kich thước k kết hợp với chúng có giống đồ thị kích thước k-1, kích thước đồ thị la số lượng đỉnh đồ thị Ứng viên bao gồm đồ thị kích thức k-1 giống cộng thêm hai đỉnh hai đồ thi kich thước k, khơng thể xác định có cạnh nối hai đỉnh thêm vào hay khơng, nên ta thêm cạnh nối hai đỉnh Số đỉnh ứng viên ln nhiều đỉnh Ví Dụ: Hình 6: Ví dụ giả thuật AGM 9.1.1.1.2 Giải thuật FSG Giải thuật FSG thích hợp với chiến lược tạo ứng viên dựa cạnh, làm tăng số cạnh lên lần gọi hàm AprioriGraph Hai mẫu có kích thước k kết hợp với có đồ thị k-1 cạnh giống nhau, đồ thị gọi nhân Ở kích thước đồ thị số cạnh Ứng viên dược tao có k-1 cạnh giống với nhân thêm hai cạnh hai mẫu kích thước k, ứng viên ln có nhiều cạnh Ví Dụ: Hình 7: Ví dụ giải thuật FSG 9.1.1.1.3 Giải thuật đường có cạnh nối rời Các bước giải thuật: Xây dựng đường phổ biển, đường mà có độ hỗ trợ lớn ngưỡng cho trước – Từ đương phổ biến xây dựng đồ thị với hai đường có cạnh nối rời, nghĩa hai đường không chia cạnh chung – Tiếp tục xây dựng đồ thị với k+1 đường có cạnh nối rời từ đồ thị có k đường có cạnh nối rời – Lập lại hết đường phổ biến – Ví Dụ: Hình 8: Ví dụ đồ thị với đường có cạnh nối rời 9.1.1.2 Phương pháp Pattern-growth Là phương pháp tìm kiếm cấu trúc phổ biến sử dụng phương pháp tìm kiếm theo chiều sau Khung quy trình khai thác cấu trúc phổ biến dựa PatternGrowth: Hình 9: Mã giả phương pháp PatternGrowthGraph Đây gọi PatternGrowthGraph Mỗi lần khám phá đồ thị G, tiến hành mở rộng đệ quy tất đồ thị phổ biến với G nhúng vào tìm thấy Đệ quy dừng lại khơng có đồ thị phổ biến tạo PatternGrowthGraph đơn giản, không hiệu Hiệu ứng thắt cổ chai làm cho khơng hiệu lúc mở rộng Các đồ thị giống tìm thấy nhiều lần Những đồ thị gọi đồ thị trùng lấp Điều gây lãng phí khơng gian tìm kiếm lớn Ví dụ: Đồ thị trùng lấp Hình 10: Ví dụ đồ thị trùng lấp phương pháp PatternGrowth Để giảm điều cần phải mở rộng cách “bảo toàn” để tránh việc tạo đồ thị trùng lấp Dẫn tới việc đời giải thuật Điển hình gSpan: – Thiết kế để giảm việc tạo đồ thị trùng lấp – Không cần phải tìm kiếm đồ thị khám phá có trùng lấp hay khơng – Bảo đảm cho việc tìm thấy tồn đồ thị phổ biến Cách thức hoạt động: – Với cách duyệt đồ thị, thích ứng với tìm kiếm theo chiều sau – Bất đầu từ đỉnh bất kỳ, đỉnh qua đánh dấu Tập đỉnh qua mở rộng tìm kiếm theo chiều sau đầy đủ xây dựng Sâu khái niệm liên quan tới phương pháp gSpan Một đồ thị có nhiều DFS(là cách thức duyệt đồ thị theo DFS) khác tùy theo cách thực thi nó, điển hình tùy theo đỉnh xuất phát cách duyệt Một đồ thị G số dưới(subscipt) DFS T T gọi số dưới(subscripting ) DFS G Tùy theo số lượng DFS đồ thị mà có nhiều số khác Ví dụ: Trong ví dụ đây, đồ thị a có ba DFS, b, c d Tùy theo đỉnh xuất phát duyệt mà có 10 Mở rộng tới trước Hình 13: Mở rộng bên phải Chúng ta chuyển đổi số đồ thị đến chuỗi cạnh, gọi mã DFS( DFS code), xây dựng sấp xếp chuỗi Mục tiêu chọn số mà tạo chuỗi nhỏ số sở Và số nhỏ nhất(cơ sở) hay gọi mã DFS nhỏ đại diện cho đồ thị đó, ứng dụng điều loại đồ thị giống nhau, cách lấy đồ thị có số nhỏ Có hai sấp xếp quy trình chuyển đổi là: – Sấp xếp theo cạnh, liên kết cạnh số đồ thị vào chuỗi – Sấp xếp chuỗi , xây dựng sư sấp xếp dãy cạnh Ví dụ: Trong ví dụ gamma0, gamma1, gamma2 mã DFS tạo từ số DFS đồ thị, phần sau tới ví dụ sấp xếp chuỗi để chọn mã DFS nhỏ để biểu thị cho đồ thị Hình 14: Ví dụ mã DFS đồ thị 12 Để xây dựng mã DFS số DFS ta sử dụng phương pháp duyệt theo chiều sâu, duyệt mở rộng sau trước mở rộn tới trước Ví dụ rõ cách xây dựng mã DFS bước, theo cách duyệt theo chiều sau Ví dụ: Trong ví dụ ý đánh số thứ tự đỉnh, mở rộng sau(cạnh e2) thực trước mở rộng tới trước(cạnh e3, cạnh e5) e5: (2,4) Hình 15: Ví dụ thứ tự tạo mã DFS theo cách duyệt Trong vấn đề đồ thị có nhiều mã DFS khác nhau, ta xếp mã DFS theo thứ tự tự điển DFS, dựa yếu tố với độ ưu tiên giảm dần sau: – Thứ tự duyệt – Nhãn đỉnh đầu – Nhãn cạnh – Nhãn đỉnh cuối Ví dụ: < Hình 16: Ví dụ xếp mã DFS Dựa sấp xếp thứ tự từ điển DFS, mã DFS nhỏ đươc cho đồ thị G, viết dfs(G), nhỏ tất mã Mã DFS nhỏ số sở đồ thị Hai đồ thị đẳng cấu có chung mã DFS nhỏ Nếu 13 trình mở rộng mà mã DFS khơng phải nhỏ tỉa tỉa Ví dụ: Ở ví dụ này, ta thấy có hai số giống có mã DFS nhỏ nhất, ta thấy mã DFS số nhỏ mã DFS số sau theo thứ tự duyệt đỉnh theo chiều sau mã DFS duyệt trước nhỏ hơn, ta tiến hành tỉa mã DFS sau khơng phải nhỏ Hình 17: Ví dụ tỉa có mã DFS nhỏ Sau thuật giải tổng quát phương pháp gSpan: 14 Hình 18: Mã giả phương pháp gSpan gSpan mở rộng mẫu tới cháu phổ biến tới độ hỗ trợ nhỏ độ hỗ trợ nhỏ mã khơng phải nhỏ Sự khác biệt gSpan Pattern-Growth mở rộng bên phải chấm dứt mở rộng mã DFS nhỏ Giải thuật phiên tiềm kiếm theo chiều sau gSpan.Thực tế, tiềm kiếm theo chiều rộng làm việc vậy: với đồ thị phổ biến tìm thấy dịng thứ 8, thây gọi trược tiếp gSpan, thêm vào hàng đợi Q tồn cục, thứ mà lưu trữ tất đồ thị mà mở rộng Rồi “gSpan” đồ thị Q Sự thực thi phiên tìm kiếm theo chiều rộng gSpam gần với tìm kiếm theo chiều sâu, DFS tốn nhớ Ví dụ gSpan: – Cho liệu đồ thị (a) độ hỗ trợ – Bước1: Làm đồ thị cách xóa cạnh khơng thỏa mãn độ hỗ trợ (b) 15 Hình 19: Ví dụ làm đồ thị gSpan – Step 2: Tìm tất cạnh đơn phổ biến, cạnh có độ hỗ trợ lớn {(a_5,c_3),(a_6,c_1)} => (0,1,a,c) {(b_2,c_3),(b_4,c_1)} => (0,1,b,c) – Sấp xếp đồ thị duyệt theo chiều sau, tùy đỉnh bắt đầu mà tạo mã DFS khác nhau, đỉnh a b – Mở rộng dần them đỉnh vào, đồ thị phổ biến khơng phải phổ biến quay lui Tỉa khơng nhỏ Hình 20: Loại bỏ đồ thị có mã DFS khơng phải nhỏ gSpan – Kết trả mẫu (a,b,c) thực thể 9.1.1.3 So sánh tính chất: Phương pháp dựa Priori Phương pháp Patterngrowth Thứ tự tìm kiếm Theo chiều rộng Theo chiều sâu Cách thức tạo ứng viên Priori Phát triển mẫu 16 Loại trừ việc trùng lấp đồ thị Bị động Chủ động Thứ tự phá triển mẫu Đường -> Cây -> Đồ thị Đường -> Cây -> Đồ thị 9.1.2 Khai thác mẫu cấu trúc biến đổi ràng buộc Những loại đồ thị phổ biến mà thảo luận chúng giữ loại đặc biệt đồ thị: đánh nhãn, vô hướng, đồ thị liên thơng đơn giản mà khơng có ràng buộc cụ thể Chúng ta cho liệu khai thác chứa đựng đồ thị, bao gồm nhãn đỉnh cạnh vơ hướng, với khơng có ràng buộc khác Tuy nhiên, nhiều ứng dụng người sử dụng cần áp đặt loại ràng buộc khác mẫu khai thác hay tìm kiếm mẫu cấu trúc biến đổi Ví dụ, khai mõ mẫu, chứa đựng cạnh đỉnh cụ thể đó, tổng số lượng đỉnh cạnh nằm miền cụ thể Hoặc tìm kiếm mẫu mà bề dày trung bình mẫu đồ thị phải ngưỡng đó? Mặc dù để phát triển giải thuật tùy biến cho trường hợp vậy, có nhiều trường hợp biến đổi cần xem xét Thây vào khung cơng việc cần thiết mà phân lớp ràng buộc dựa mẫu đồ thị Những phương thức dựa ràng buộc hiệu phát triển cho khai thác mẫu cấu trúc biến đổi chúng Trong phần này, nghiên cứu vài mẫu cấu trúc biến đổi ràng buộc xem xét cách mà chúng khai thác 9.1.2.1 Khai thác đồ thị phổ biến đóng Một điều quan trọng cấu trúc phổ biến cấu trúc phổ biến đóng Bởi khai thác mẫu đồ thị làm bùng nổ số lượng lớn mẫu Nhất liệu dầy đặc, tất đồ thị đồ thị phổ biến phổ biến, đồ thị sinh theo quy luật hàm mũ Ví dụ:Giữa 423 hợp chất hóa học xác định dữa liệu chọn lọc kháng virut AIDS có gần triệu mẫu đồ thị phổ biến mà có độ hộ trở tối thiểu 5% Điều cho thấy việc phân tích xa đồ thị phổ biến khơng thể Do khai thác đồ thị phổ biến đóng Đồ thị G đóng khơng có đồ thị cha G’ có chung độ hỗ trợ với Ngồi khai thác đồ thị lớn Đồ thị G lớn khơng có đồ thị cha phổ biến Ví dụ: 17 Lớn Hình 21: Ví dụ đồ thị lớn đồ thị đóng Vấn đề khai thác đồ thị: Điều kiện mà dừng tìm kiếm đồ thị đồ thị Như giới hạn sớm nào? Hình 22: Vấn đề khai thác đồ thị Ý tưởng phương pháp CloseGraph: Nếu G G’ phổ biến, G đồ thị G’ Nếu phần đồ thị liệu có G xuất G’ xuất hiện, khơng cần phát triển G, khơng có G bao đóng ngoại trừ G’ Dựa ý tưởng này, giải thuật CloseGraph đề xuất, giải thuật gSpan mở rộng để khai thác đồ thị phổ biến đóng Những thí nghiệm cho thấy CloseGraph tạo mẫu đồ thị hiệu gSpan.Ví dụ: Trong liệu kháng thể vi rút HIV nói triệu đồ thị phổ biến có 2000 đồ thị phổ biến đóng Cho nên phân lớp gom nhóm đồ thị phổ biến đóng đạt xác hiệu cao 9.1.2.2 Khai thác mẫu cấu trúc tuỳ chọn 18 Các giải thuật khai thác đồ thị Pattern-growth điển Closegraph hay gSpan, dễ dàng mở rộng cho khai thác mẫu cấu trúc tùy chọn Sau vài mẫu tùy chọn 1) Khai thác đồ thị không gắn nhãn gắn nhãn phần – Xây dựng nhãn chứa đựng nhãn gốc nhãn rỗng φ – φ nối với nhãn với φ 2) Mở rộng để khai thác đồ thị khơng đơn, đồ thị có: Cạnh khuyên : cạnh kết nối với đỉnh – Đa cạnh : nhiều cạnh kết nối tới hai đỉnh giống – Sự phát triển đồ thị theo quy luật cạnh sau, cạnh khuyên, cạnh trước 3) Khai thác đồ thị có hướng Với loại đồ thị ta thêm giá trị hướng cho mã DFS +1 hướng từ đỉnh i sang j -1 hướng ngược lại 4) Khai thác đồ thị không liên thông Trong thực tế đồ thị liệu khơng liên thơng Do ta thêm đỉnh ảo để kết nối đồ thị không liên thơng đồ thị, sau dùng phương pháp để khai thác 9.1.2.3 Khai thác cấu trúc ràng buộc Có nhiều loại ràng buộc khác tùy vào truy vấn người dùng, loại ràng buộc thường gặp là: 1) Thành phần, bộ, đồ thị chứa đựng ràng buộc Chúng ta lấy tập hợp đồ thị cho truy vấn, sau thực thi việc chọn lựa cách sử dụng ràng buộc, khai thác liệu chọn cách làm tăng lên mẫu từ liệu đồ thị cho 2) Ràng buộc hình học Góc cập cạnh phải nằm khoảng quy định – Vi dụ: Góc nhỏ nhất

Ngày đăng: 12/11/2015, 13:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w