Tìm hiểu về graph mining và xây dựng thuật toán khai phá dữ liệu đồ thị cơ bản

16 177 0
Tìm hiểu về graph mining và xây dựng thuật toán khai phá dữ liệu đồ thị cơ bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỒ ÁN CƠ SỞ Tìm hiểu Graph Mining xây dựng thuật toán Khai phá liệu đồ thị Ngành: Công Nghệ Thông Tin Chuyên ngành: Công Nghệ Phần Mềm Giảng viên hướng dẫn : Lê Thị Ngọc Thảo Sinh viên thực : MSSV: TP Hồ Chí Minh, 2018 MỞ ĐẦU Hiện nay, chương trình khai phá liệu phải đối diện vơi vấn đề số lượng n gày gia tăng đối tượng phức tạp Bên cạnh đồ thị cấu trúc liệu tổng quát, sử dụng để mơ hình hóa c ác đối tượng liệu phức tap triển trai khai phá tìm mẫu xuất tối đa đồ thị cha Việc khai phá liệu đồ thị thường xuyên nhằm xác định Tất đồ thị tập liệu đồ thị với ngưỡng cho trước Khó khăn việc khai phá gồm vấn đề: Liệt kê tất đồ thị CSDL đồ thị, tính tốn hàm hỗ trợ đồ thị CSLD Nếu đồ thị có hình dáng tương đồng với đồ thị cha tương đương đươc gọi Đẳng Cấu hàm hỗ trợ giúp kiểm tra đồ thị có đẳng cấu hay khơng tốn đặt Tuynhiên vấn đề giải qua đặt nhãn cho cạnh, đỉnh có th ể sử dụng nhãn để hạn chế đỉnh tạo thành cặp q trình kiểm tra đẳng cấu đồ thị Tuy nhiên CLDL đồ thị chưa gán nhãn số nhãn độ phức tạp t oán giảm đáng kể, kích thước tập liệu Khai phá đồ thị thường xuyên phương pháp khai phá liệu hiệu Tuy nhiên, ứng dụng thực tiễn với tập liệu vừa có cấu trúc phức tạp lại vừa c ó kích thước lớn dẫn đến việc tìm tập tất đồ thị thường xuyên lớ n Hơn hết, có số đồ thị thường xuyên lại có độ hỗ trợ với đồ thị thường xuyê n cha Vì thế, việc tìm tập tất đồ thị thường xuyên đóng có hiệu c ác ứng dụng thực tiễn Tuy lúc cần tìm đồ thị thường xuyên nhanh số lượng đồ thị đầu vào lớn số lượng đồ thị thường xuyên lớn việc li ệt kê hết khơng thể hiệu liệt kê đồ thị thường xun đóng Với cách nhìn khác với thuật tốn MaxAFP, APGM cơng trình ng hiên cứu liên quan khác giảm thời gian tính tốn việc khai phá đồ thị thuật tốn chúng tơi hiệu áp dụng vào khai phá đồ thị thường xun đón g TĨM TẮT Khai phá mẫu thường xun tốn quan trọng có nhiều khả ứng dụng v thực tiễn Các ứng dụng thực tiễn đa dạng phong phú nên phương pháp khai phá tập mục thường xuyên bị giới hạn cấu trúc liệu dạng tập hợp k hông phản ánh hết chất liệu chẳng hạn cấu trúc thành phần hóa học củ a viên thuốc tân dược, cấu trúc gen tế bào, cấu trúc protein động vật nhiều cấu trúc k hác Các cấu trúc liệu hầu hết biểu diễn dạng liệu có cấu trúc biết đồ thị, lattice Do vậy, nghiên cứu khai phá đồ thị thường xuyên có ý nghĩa lớn đặc biệt hữu ích lĩnh vực y tế MỤC TIÊU Giới thiệu thuật toán MaxAFP để khai phá liệu mẫu xuất với tần số lập lại nhiều tối đa, chế xác nhập có loại + Exact Matching (Xác nhập đồ thị xác) + Inexact Matching (Xác nhập đồ thị khơng xác) Trong Bài tìm hiểu em xin dùng chế Inexact Matching để dùng làm hàm hỗ trợ giúp tìm đồ thị với tần số lập lại nhiều lần đồ thị đơn(Single Graph) Inexact Matching sử dụng hàm để đo tương đồng hai đồ thị(đồ thị tập con, đồ thị cha-đầu vào) với hàm Fsim, Kế tiếp, mở rộng thêm Chiến lược để xác định mẫu xuất hiệ n với ngưỡng cho phép khác nhau, với nhãn mơ hình, cấu trúc mẫu tìm Cuối ta làm ví dụ nhỏ để thấy mẫu tìm thấy với Thuật toán kha i phá mẫu xuất với tần số nhiều ban đầu(MaxAFP) Từ khóa : Khai phá liệu, Xác nhập đồ thị đơn khơng xác, Đồ thị xuất tần số cao nhất, Khai phá liệu với đồ thị con, Nội dung BÁO CÁO CÁC VẤN ĐỀ CẦN GIẢI QUYẾT: Tìm hiểu phương pháp khai phá liệu đồ thị đơn với xác nhập không tương đồng(Inexact Matching) Tìm hiểu thuật tốn phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán , MaxAFP phát đồ thị thừờng xuyên CSDL đồ thị với lượng đỉnh DEMO Quản lý thời gian thực thuật toán với mức lượng đỉnh tăng dần Phương pháp nghiên cứu +Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thƣờng xu yên CSDL đồ thị + Tìm hiểu nguồn thơng tin từ sách,bài báo,tạp chí, Internet ,liên quan đến khai phá liệu đồ thị Cấu trúc luận văn chia làm Chương Chương 1: “ Tổng quan khai phá liệu đồ thị ” trình bày tổng quan hƣớng nghiên cứu na y khai phá liệu đồ thị Chương 2: “ Phát cấu trúc thường xuyên ” trình bày sở lý thuyết đồ thị, cách tiếp cận dựa Apriori, MaxAFP, cách tiếp cận d ựa phát triển mẫu Chương 3: “ Các thuật toán phát đồ thị thƣờng xuyên ” trình bày số thuật tốn phát đồ thị thƣờng xuyên theo chiến lƣợc tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thử nghiệm ” trình bày kết cài đặt thuật toán chƣơng CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1.TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn đƣợc dƣới dạng cấu trúc liệu đồ thị, chẳng hạn nhƣ: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp c hất hóa học, Do đó, khai phá liệu đồ thị nhằm tìm kiếm thơng tin hữu ích lƣợng lớn liệu vấn đề nhà nghiên cứu tổ c hức CNTT quan tâm 1.1.1 Định nghĩa liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) thu hút quan tâm nhƣ đặt thách thức với nhà nghiên cứu, nhà cung cấp dịch v ụ công nghệ thông tin tổ chức, doanh nghiệp Dữ liệu lớn đƣợc xem nhƣ đời tất yếu q trình bùng nổ thơng tin Trong nhiều năm qua, doanh nghiệp thƣờng đƣa định kinh doanh dựa liệu giao dịch đƣợc lƣu trữ sở liệu quan hệ Ngoài liệu quan trọng lại thƣờng dạng tiềm năng, phi truyền thống, phi cấu trúc lại đƣợc khai thác cách hữu ích, giảm chi phí lƣu trữ tính t ốn Khi liệu lớn đƣợc đƣợc khai thác phân tích, kết hợp với liệu doanh nghiệp truyền t hống doanh nghiệp có nhìn tồn diện sâu sắc tình hình kinh doanh họ, dẫn tới nâng cao suất vị cạnh tranh Do đó, ngày có nhiều cơng ty tìm kiếm để có đƣợc liệu phi truyền thống nhƣng có giá trị cơng việc kinh doanh Có thể định nghĩa cách chung “Dữ liệu lớn” tập hợp tập liệu l ớn và/hoặc phức tạp mà phƣơng pháp CNTT chƣa thể phân tích xử lý tốt đƣợc chúng CHƯƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ ƯChúng ta biểu diễn tập đỉnh đồ thị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Một đồ thị glà đồ thị đồ thị g ’ khác tồn đồ thị đẳng cấu từ g tới g ’ 2.1.1 Định nghĩa 2.1 (Graph): Chomột nhãn node chữ (alphabet) LV nhãn cạnh chữ LE đồ thị g (có hƣớng) đƣợc định nghĩa gồm thành phần g=(V , E, µ, ν), đó: • V biểu diễn tập hu hn cỏc node EVìV biu din mt cỏc cnh à:VLV biu din mt hm ghi nhón node • ν:E→LE biểu diễn hàm ghi nhãn cạnh Tập V đƣợc coi tập định danh nút thƣờng đƣợc chọn V = {1, , | V |} Trong V xác định nút, tập cạnh E thể cấu trúc đồ thị Đó nút u ∈ V đƣợc kết nối với nút v ∈ V cạnh= (u, v) (u, v) ∈ E Hàm ghi nhãn đƣợc sử dụng để tích hợp thông tin node cạnh vào đồ thị cách gán thuộc tính từ LV LE t ới node cạnh tƣơng ứng Đồ thị đƣợc định nghĩa bao gồm số trƣờng hợp đặc biệt Để định nghĩa đồ thị vô hƣớng, cho thể yêu cầu u,v E cho cạnh u,v E cho ν(u, v) = ν(v, u) Trong trƣờng hợp đồ thị không thuộc tính, bảng chữ nhãn đƣợc xác định LV LE 2.1.2 Định nghĩa 2.2 (Subgraph): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị, đồ thị g1 đồ thị g2 , ký hiệu g1⊆g2 V1V2 E1=E2(V1ìV1) à1(u) = à2(u) cho tt u ∈ V1 • ν1(u, v)=ν2(u, v) cho tất (u, v) ∈ E1 Ngƣợc lại, đồ thị g2 đƣợc gọi đồ thị g1 điều kiện thứ hai định nghĩa đƣợc thay E1⊆ E2 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị Một đồ thị đẳng cấu g1 g2 hm song ỏnh f:V1V2 tha món: à1(u)=à2(f (u)) cho tất node u∈ V1 • Cho cạnh e1=(u, v)∈E1, tồn cạnh e2=(f (u), f (v))∈ E2 cho ν1(e1)=ν2(e2) • Cho cạnh e2=(u, v)∈E2, tồn cạnh e1=(f-1 (u), f-1 (v))∈ E1 cho ν1(e1)=ν2(e2) Hai đồ thị g1 g2 đƣợc gọi đẳng cấu tồn đồ thị đẳng cấu chúng CHƯƠNG 3: TÌM HIỂU VỀ THUẬT TOÁN KHAI PHÁ DỮ LIỆU VỚI TẬP XUẤT HIỆN TỐI ĐA TRÊN ĐỒ THỊ ĐƠN 3.1: Mẫu xuất tối đa (Maximal Frequent Patterns) Năm 2004, giới có ý lớn với vấn đề đồ khai phá thị đơn tối đa(Mining Maxi mal Subgraphs), bước ngoặc giúp ta giảm bớt số lượng đỉnh đươc tìm thấy dùng thuật tốn thuật tốn SPIN Sau đó, bước ngoặc đưa với chiến lược đánh dấu nhãn mẫu , đỉnh chúng đánh dấu nhã n chúng đinh danh Thuật tốn giúp ta xóa đỉnh chúng xuất đẳng cấ u đồ thi đơn ban đầu, sau thuật toán tiếp tục thêm đường (quan hệ, cạnh) thay đổi tập hợp con, dùng đẳng cấu để so sánh đồ mức Những thuật tốn khác biệt cho phép ta tìm thấy mẫu xuất với tần số tối đa đồ thị là, FP-GraphMiner wgMiner 3.2: KHai phá đồ thị đồ thị đơn (Single Graph) SUBDUE thuật toán cho phép khai phá liệu tìm kiếm mẫu xuất với tần số xuất tối đa Sau vài năm, vào năm 2004 Kuramochi Kaypris đề xuất thuật toán Hsigram, Vsgram GREW với mụ c đích khai phá liêu đồ thị Cuối cùng, ta cần phải quan tâm đến đề xuất thuật tốn với mục đích trên, Hellal Romdhane phần quan trọng tham chiếu đến tất thuật toán báo Đơi lúc giải vấn đề đẳng cấu đồ thị, khác biệt tất thuật tốn dùng xác nhập khơng tương đồng (Inexact Matching) Nó khơng cần thiêt để giải vấn đề đẳng cấu đồ thị 3.3: Khai phá đồ thị dùng Inexact Matching Một vài thuật tốn đề xuất trước có dùng Inexact matching khơng cho phép cấu trúc khác đỉnh xuất mẫu tìm thấy Năm 2011, Một thuật tốn đề xuất APGM Đề xuất tác giả dùng ma trận định nghĩa với gán nhãn Khi họ định nghĩa đồ thị với xấp xĩ đẳng cấu chúng có tương đồng.Những đo lường chất lượng sản phẩm, bên ngưỡng cho phép Sau đó, năm 2012, thuật tốn đề xuất Acosta VEAM dựa tảng thuật toán APGM, cho ta gáng nhãn từ đỉnh, cạnh đồ thị Cả thuật toán yêu cầu xác nhập đồ thị với chung tập liệu 3.4: Hàm tương đồng Chúng ta yêu cầu hàm để so sánh cấu trúc khác biệt từ đỉnh, cạnh đồ thị Trước tìm hiểu tiếp, cần làm rõ, để tính tương đồng đồ thị có nhiều để đo lường, là: Cost-Based, Structure-Based, FeatureBased Với Cost-Based Structure-Base thuộc danh mục, khơng phù hợp với thuật toán sử dụng (Inexact Matching) Vì sử dụng Cost-Based để tiếp cận mục đích thuật tốn Mục đích chỉnh sửa lại khoảng cách(sự khác biệt) tảng cho thuật tốn tì tương đồng (Similarity Function Distance) Với đồ thị G1 G2 đồ thị mà ta cần so sánh để tính xem độ tương đồng đồ thị Chúng ta có phần tham số quan trọng để đến kết cuối Eedit cho biết tương đồ đỉnh tính cạnh G1 G Vedit cho biết tương đồng tính đỉnh G1 G2 Fsim kết cuối dựa phép tính tốn Vedit Eedit 3.5: Chiến lược xác nhập đồ thị không tương đồng Một mấu chốt thuật tốn tìm tất mẫu không tương đồng với số lần xuất hiên theo cách tương đồng (Exact Matching) Vì thuật tốn Fsim miêu tả phía trê nhận vào ngưỡng tương đồng(Similarity threshold) so sánh với kết tìm (Fsim), Và ngưỡng cho phép thấp với hàm tương đồng có đầu đồ thị với ngưỡng cho phép, đồ thị chứa tập hợp phần miêu tả đồ thị tương đồng Và đặc biệt ta mở rộng mẫu xuất với lượt tiếp cận, thêm đỉnh từ mẫu từ đồ thị tìm thấy mẫu đồ thị thống kê được, khả thi cho việc mở rộng mẫu Và chiến lược dùng cho phép khác biệt loại mà ta giới thiệu phần 3.5.1: Cấu trúc khác từ nhãn Một bảng rõ suy diễn nhãn đươc cung cấp Trong cách cho phép mẫu lớn lên đồng nghĩa việc cot hêm đỉnh thống kê tập đồ thị tìm Trong cách ta tìm thấy mẫu nhãn mà dùng Exact Matching mà khơng thể tìm 3.5.2: Cấu trúc khác từ đỉnh Chúng ta cho phép cấu trúc khác với đỉnh, nghĩa mẫu nhiều mẫu ban đầu Có cách cần lưu ý: Cách 1: Nếu mẫu tìm thấy(A) khơng thể chứa mẫu tìm thấy khác (b) giữ lại thêm đỉnh Cách 2: Các mẫu có nhiều đỉnh mẫu tìm thấy tìm thay cạnh mẫu P đỉnh xác nhập v Điều ban đầu ta yêu cầu quan hệ đỉnh(cạnh) Ý tưởng mới: Chúng ta định nghiã mẫu xuất nhiều đỉnh mẫu ban đầu 10 3.5.3: Cấu trúc khác từ cạnh Cuối để xếp mẫu xuất với cấu trúc khác từ cạnh, cho phép đỉnh tiếp cận xác nhập v, kết nối đến sựxuất tương đồng từ mẫu ta tìm thấy Trong lựa chọn ta có thuật tốn gAPPROX Nhưng làm cách giữ thành phần khác mẫu mỗ xuất chúng Chúng ta có lựa chọ dùng hàm Fsim 3.5.4: Giới thiệu thuật toán MaxAFP Để tìm thấy mẫu xuất với ngưỡng cho phép tần số lập lại tối đa, đề suất thuật toán MaxAFP Với phần miêu tả phần 3.4 hàm tương đồng Fsim Khi tìm mẫu P, giữ lại tất mẫu xuất với ngưỡng cho phép Khi P phát triển bên P’ định nghĩa mẫu xuất P’ cho P Mỗi lần mở rộng mẫu xuất tìm thấy Trong cách dễ dàng tìm tính tốn tương đồng P’ cói xuất mẫu thơng qua Fsim Cuối cùng, để tính mẫu xuất với tần số xuất tối đa cần lưu lại mẫu tìm thấy, khơng mở rộng mẫu khác phải vượt qua ngưỡng cho phép(Threshold) MaxAFP thuật tốn giúp ta gọi lại nhiều hàm định nghĩa (Explore, Expand, ExpandOccurrence) Một bước quan trọng sử dụng hàm Expand để lấy phần dòng Trong hàm này, mẫu xuất P thống kê Expand Trong cách ta biết lần mẫu đưa ngưỡng không tương đồng(Dissimilarity Threshold); 11 Một ví dụ khai phá liệu đồ thị đơn với số lượng đỉnh nhỏ so sánh thuật toán khai phá liệu khác độ thị đơn * Mô tả: thuật toán dùng ngưỡng tương đồng xác nhập không tương đồng đồ thị đơn ** So s thuật toán gAPPROX - MaxAFP 12 Theo quan sát bảng thông kê ta thấy mẫu xuất mẫu khai phá từ thuật tốn gAPPROX tìm so với MaxAFP Còn với thuật tốn MaxAFP ta giảm bớt số đỉnh tìm thấy số đồ thị khai phá mẫu theo mắt thường ta thấy mẫu sau khai phá tìm thuật tốn MaxAFP nhiều chứa ln mẫu tìm thấy thuật tốn Gapprox 3.5.5: Tần số xuất mẫu tối tìm qua ngưỡng cho phép khác Tỉ lệ xuất tìm thấy qua MaxAFP với Inexact Matching cho với giá trị ngưỡng cho phép tăng dần việc đồng nghĩa số lượng mẫu tìm thấy giảm dần theo giá trị tăng ngưỡng tương đồng cho phép * Ta thấy số mẫu tìm thấy 24 với số lương đỉnh Đồ thị 200 đỉnh *Đồng nghĩa với ý ta thấy hình b với giá trị ngưỡng khơng tương đồng cho phép số lượng mẫu tăng dần tỉ lệ thuậ với giá trị ngưỡng không tương đồng 13 * vài điểm nhỏ cần quan tâm thuật tốn MaxAFP mẫu tìm thấy có nhiều đỉnh mẫu ban đầu cho phép cấu trúc khác đỉnh cạnh Điều dẫn đến thuật tốn MaxAFP có chứa nhiều hàm để mở rộng mẫu tìm nên thời gian thực thuật toán chậm so với gAPPROX 14 KẾT LUẬN 15 Với kết xây dựng thuật tốn khai phá đồ thị thường xun đóng với xác định đồ thị đẳng cấu thực thời gian đa thức mang lại ý nghĩa lớn việc khai phá liệu nói chung khai phá đồ thị nói riêng Tiếp theo báo cáo này, Em tiếp tục thực thử nghiệm thuật tốn để chứng minh tính hiệu thuật toán đề xuất LỜI CẢM ƠN Em xin chân thành cảm ơn đến Cô Lê Thị Ngọc Thảo giúp đỡ cung cấp cho em thông tin cần thiết tạo điều kiện giúp em hoàn thành tốt phần báo cáo đề tài TÀI LIỆU THAM KHẢO [1] J Huan, W Wang, A Washington, J Prins, R Shah, and A Tropsha Accurate classification of protein structural families based on coherent subgraph analysis In Proceedings of Pacific Symposium on Biocomputing, pages 411-422, 2004 [2] M Flores-Garrido , J.A Carrasco-Ochoa, J.F Martínez-Trinidad Mining Maximal frequence patterns in a single graph using Inexact Matching [3].Y Chi, Y Yang, Y Xia, and R.R Muntz 2004 HybridTreeMiner: An Efficient Algorithm for Mining Frequent Rooted Trees and Trees using Canonical Forms, In Proceedings of the 16th International Conference on Scientific and Statistical Database Management, 11–20 [4] D.J Cook and L.B Holder Substructure discovery using minimum description length and background knowledge Journal of Artificial Intelligence Research, 1:231-255, 1994 [5].D.W Matula Subtree isomorphism in O(n 5/2 ) Annals of Discrete Mathematics, 2: 91-106, 1978 [6] M Kuramochi and G Karypis 2001 Frequent Subgraph Discovery, In Proceedings of International Conference on Data Mining, 313–320 [7].Pearce, T Caelli, and W.F Bischof Rule-graphs for graph matching in pattern recognition Pattern Recognition, 27(9):1231-246, 1994 [8].D.C Schmidt and L.E Druffel A fast backtracking algorithm to test directed graphs for isomorphism using distance matrices 16 ... nhất, Khai phá liệu với đồ thị con, Nội dung BÁO CÁO CÁC VẤN ĐỀ CẦN GIẢI QUYẾT: Tìm hiểu phương pháp khai phá liệu đồ thị đơn với xác nhập khơng tương đồng(Inexact Matching) Tìm hiểu thuật tốn phát... phá tìm mẫu xuất tối đa đồ thị cha Việc khai phá liệu đồ thị thường xuyên nhằm xác định Tất đồ thị tập liệu đồ thị với ngưỡng cho trước Khó khăn việc khai phá gồm vấn đề: Liệt kê tất đồ thị CSDL... 1.1.TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn đƣợc dƣới dạng cấu trúc liệu đồ thị, chẳng hạn nhƣ: liệu từ mạng Internet,

Ngày đăng: 13/01/2019, 15:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan