Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,81 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN NGỌC ANH NGHIÊN CỨU VÀ THỬ NGHIỆM MỘT SỐ THUẬT TOÁN PHÁT HIỆN CÁC TH CON THNG XUYấN Luận văn thạc Sĩ KHOA HC MY TNH Thái Nguyên - 2014 S húa bi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Hiện nay, phƣơng pháp khai phá liệu phải đối diện với vấn đề số lƣợng ngày gia tăng đối tƣợng liệu phức tạp Bên cạnh đồ thị cấu trúc liệu tổng quát, sử dụng để mơ hình hóa đối liệu tƣợng phức tạp vấn đề khai phá đồ thị thƣờng xuyên vấn đề quan trọng khai phá đồ thị Việc khai phá đồ thị để tìm đồ thị thƣờng xuyên nhằm xác định tất đồ thị tập liệu đồ thị với giá trị ngƣỡng cho trƣớc [1],[3] Những khó khăn vấn đề khai phá đồ thị thƣờng xuyên nảy sinh hai vấn đề, là: liệt kê tất đồ thị CSDL đồ thị tính tốn hàm hỗ trợ đồ thị CSDL Do đỉnh đồ thị đƣợc xếp theo nhiều cách, đồ thị có số lƣợng lớn hình học tƣơng đƣơng, đƣợc gọi đồ thị đẳng cấu Để liệt kê tất đồ thị con, ta phải tính tốn phù hợp với quy tắc biểu diễn đồ thị để giải vấn đề đồ thị đẳng cấu Hơn nữa, việc kiểm tra đồ thị có chứa CSDL đồ thị hay không đƣợc xem nhƣ tốn NP-khó đƣợc gọi tốn đồ thị đẳng cấu Trong tất trƣờng hợp, việc tính tốn hàm hỗ trợ chiếm chi phí nhiều việc tìm đồ thị thƣờng xuyên CSDL Tuy nhiên, phức tạp vấn đề giảm CSDL đồ thị có thêm thơng tin đỉnh cạnh đƣợc gán nhãn Có thể sử dụng nhãn để hạn chế đỉnh tạo thành cặp trình kiểm tra đẳng cấu đồ thị Tuy nhiên, CSDL đồ thị chƣa đƣợc gán nhãn có số nhãn độ phức tạp toán làm giảm đáng kể kích thƣớc tập liệu Nhƣ vậy, vấn đề khai phá đồ thị nói chung khai phá đồ thị thƣờng xuyên nói riêng gặp nhiều khó khăn, ta cần lựa chọn phƣơng pháp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ thuật tốn phù hợp để giải cho toán cụ thể, đem lại hiệu cao ý nghĩa thực tiễn đề tài Nội dung luận văn vấn đề cần giải quyết: Tìm hiểu phƣơng pháp khai phá liệu đồ thị Tìm hiểu thuật tốn phát đồ thị thƣờng xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thƣờng xuyên CSDL đồ thị Phƣơng pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thƣờng xuyên CSDL đồ thị + Tìm hiểu nguồn thơng tin từ sách,bài báo,tạp chí, Internet ,liên quan đến khai phá liệu đồ thị Cấu trúc luận văn chia làm chƣơng: Chƣơng 1: “ Tổng quan khai phá liệu đồ thị ” trình bày tổng quan hƣớng nghiên cứu khai phá liệu đồ thị Chƣơng 2: “ Phát cấu trúc thƣờng xuyên ” trình bày sở lý thuyết đồ thị, cách tiếp cận dựa Apriori, cách tiếp cận dựa phát triển mẫu Chƣơng 3: “ Các thuật tốn phát đồ thị thƣờng xun ” trình bày số thuật toán phát đồ thị thƣờng xuyên theo chiến lƣợc tìm kiếm theo chiều rộng chiều sâu Chƣơng 4: “ Thiết kế hệ thống thử nghiệm ” trình bày kết cài đặt thuật tốn chƣơng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn đƣợc dƣới dạng cấu trúc liệu đồ thị, chẳng hạn nhƣ: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học, Do đó, khai phá liệu đồ thị nhằm tìm kiếm thơng tin hữu ích lƣợng lớn liệu vấn đề đƣợc nhà nghiên cứu tổ chức CNTT quan tâm 1.1.1 Định nghĩa liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) thu hút quan tâm nhƣ đặt thách thức với nhà nghiên cứu, nhà cung cấp dịch vụ công nghệ thông tin tổ chức, doanh nghiệp Dữ liệu lớn đƣợc xem nhƣ đời tất yếu q trình bùng nổ thơng tin Trong nhiều năm qua, doanh nghiệp thƣờng đƣa định kinh doanh dựa liệu giao dịch đƣợc lƣu trữ sở liệu quan hệ Ngoài liệu quan trọng lại thƣờng dạng tiềm năng, phi truyền thống, phi cấu trúc lại đƣợc khai thác cách hữu ích, giảm chi phí lƣu trữ tính tốn Khi liệu lớn đƣợc đƣợc khai thác phân tích, kết hợp với liệu doanh nghiệp truyền thống doanh nghiệp có nhìn tồn diện sâu sắc tình hình kinh doanh họ, dẫn tới nâng cao suất vị cạnh tranh Do đó, ngày có nhiều cơng ty tìm kiếm để có đƣợc liệu phi truyền thống nhƣng có giá trị cơng việc kinh doanh Có thể định nghĩa cách chung “Dữ liệu lớn” tập hợp tập liệu lớn và/hoặc phức tạp mà phƣơng pháp CNTT chƣa thể phân tích xử lý tốt đƣợc chúng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Dữ liệu lớn bao gồm tính chất độ lớn lƣu trữ (Volume), đa dạng, phức tạp (Variety) tăng trƣởng nhanh chóng (Velocity)[8] Dữ liệu lớn thƣờng đề cập tới kiểu liệu nhƣ sau: - Dữ liệu doanh nghiệp truyền thống: bao gồm thông tin khách hàng, liệu giao dịch, liệu kế toán tổng hợp - Dữ liệu cảm biến máy sinh liệu: bao gồm ghi chi tiết gọi, nhật ký web, hệ đo thông minh, liệu từ cảm biến, hệ thống liệu truyền thống - Dữ liệu xã hội: bao gồm luồng thông tin phản hồi khách hàng, liệu từ trang nhật ký mạng xã hội nhƣ Twitter, Facebook, 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: * Giải pháp Big data Oracle Oracle nhà cung cấp cung cấp giải pháp hoàn chỉnh tích hợp để giải đầy đủ yêu cầu liệu lớn doanh nghiệp Các liệu lớn Oracle tập trung ý tƣởng phát triển kiến trúc liệu doanh nghiệp để kết hợp liệu lớn cung cấp giá trị kinh doanh, linh hoạt, hiệu suất để giải yêu cầu liệu lớn với doanh nghiệp Với việc giới thiệu ứng dụng Quản lý Dữ liệu lớn (Oracle Big Data Appliance), Oracle cung cấp giải pháp hoàn chỉnh đáp ứng yêu cầu liên quan đến liệu lớn doanh nghiệp Thiết bị xử lý liệu lớn Oracle Big Data Appliance, với máy chủ sở liệu Oracle Exadata Máy chủ thông tin hỗ trợ định Oracle Exalytics mới, giúp khách hàng có để thu thập, tổ chức, phân tích khai thác tối đa giá trị liệu lớn Oracle Big Data Appliance đƣợc tích hợp dễ dàng với sở liệu Oracle Database 11g, Oracle Exadata Database Machine Oracle Exalytics Business Intelligence Machine Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ * Giải pháp Big Data Microsoft Giải pháp Big Data Microsoft dựa tảng SQL Server, Hadoop, Windows Azure Windows Server, cung cấp công cụ quản lý, mở rộng nhằm đạt đƣợc nhìn sâu sắc liệu doanh nghiệp, thúc đẩy hiệu kinh doanh Microsoft Big Data cho phép quản lý hầu nhƣ loại liệu nào, kích thƣớc vị trí Microsoft sử dụng SQL Server 2012 SQL Server Parallel Data Warehouse để quản lý liệu lớn có cấu trúc Với liệu phi cấu trúc, Microsoft sử dụng Hadoop Windows Azure Windows Server, cho phép xử lý liệu phi cấu trúc với quy mô hàng petabyte Với liệu luồng, Microsoft sử dụng công cụ SQL Server StreamInsight để quản lý liệu luồng với thời gian thực Microsoft Big Data cho phép làm phong phú thêm liệu với loại liệu nào: Cửa hàng liệu Azure Marketplace cho phép doanh nghiệp có đƣợc liệu bên thứ ba; cơng cụ phịng thí nghiệm Data Explorer Azure dành cho tập liệu đề xuất Data Hub dành cho việc tạo cửa hàng liệu riêng 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƢỜNG XUYÊN: Cho CSDL đồ thị D, hàm hỗ trợ đồ thị G D, đƣợc viết sup(G, D) số lƣợng đồ thị D có chứa đồ thị G nhƣ cạnh tạo nên đồ thị Cho giá trị ngƣỡng hỗ trợ cực tiểu smin, vấn đề khai phá đồ thị thƣờng xuyên bao gồm việc tìm đồ thị liên thơng thƣờng xuyên D Có hai nhóm phƣơng pháp đƣợc đề xuất để giải vấn đề trên, là: nhóm phƣơng pháp khai phá theo chiều rộng nhóm phƣơng pháp khai phá theo chiều sâu: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Một số kỹ thuật khai phá theo chiều rộng nhƣ: kỹ thuật AGM đƣợc phát triển Inokuchi, kỹ thuật FSG đƣợc đề xuất Kuramochi Karypis Các kỹ thuật khai phá đồ thị theo mức mức chứa đồ thị có nhiều đỉnh cạnh so với mức trƣớc Các đồ thị thƣờng xuyên mức đƣợc tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị khơng thƣờng xun Ƣu điểm kỹ thuật dựa nguyên tắc ƣu tiên cách đồ thị đƣợc xem thƣờng xuyên tất đồ thị thƣờng xun Vì đồ thị đƣợc tìm sau tìm đồ thị nó, loại bỏ đồ thị khơng thƣờng xun mà khơng cần phải tính tốn hàm hỗ trợ chúng cách kiểm tra đồ thị chúng thƣờng xuyên Tuy nhiên, nhóm phƣơng pháp tìm kiếm theo chiều rộng có hai vấn đề là: sinh nhiều đồ thị ứng viên yêu cầu lƣu trữ đồ thị thƣờng xuyên mức Nhóm phƣơng pháp khai phá theo chiều sâu khắc phục vấn đề cách tìm kiếm đồ thị theo chiều sâu, kể đến số thuật toán nhƣ: gSpan đƣợc đề xuất Han Yan, FFSM đƣợc đề xuất Huan, GASTON Nijssen Kok Tƣ tƣởng nhóm phƣơng pháp bắt đầu với đồ thị có chứa đỉnh cạnh thƣờng xuyên, kỹ thuật đƣợc mở rộng đệ quy cách thêm cạnh hai đỉnh thêm đỉnh kết nối tới đỉnh khác Vì đồ thị khơng thƣờng xuyên đồ thị nó, không cần mở rộng tới đồ thị không thƣờng xun Các đồ thị khơng thƣờng xun đƣợc bỏ bớt mà khơng xảy rủi ro trình khai phá 1.3 KẾT LUẬN Chƣơng trình bày tổng quan khai phá liệu đồ thị có nêu vấn đề khai phá liệu đồ thị tìm thơng tin hữu ích Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ lƣợng lớn liệu, đƣa định nghĩa chung liệu lớn (Big Data) giải pháp Big Data Oracle Microsoft Trình bày tổng quan khai phá đồ thị thƣờng xuyên theo hai nhóm phƣơng pháp nhóm phƣơng pháp khai phá theo chiều rộng nhóm phƣơng pháp khai phá theo chiều sâu với ƣu nhƣợc điểm hai nhóm phƣơng pháp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƢỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ Chúng ta biểu diễn tập đỉnh đồ thị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Một đồ thị glà đồ thị đồ thị g’ khác tồn đồ thị đẳng cấu từ g tới g’ 2.1.1 Định nghĩa 2.1 (Graph): Chomột nhãn node chữ (alphabet) LV nhãn cạnh chữ LE đồ thị g (có hƣớng) đƣợc định nghĩa gồm thành phn g=(V , E, à, ), ú: ã V biu din mt hu hn cỏc node ã EVìV biu din mt cỏc cnh ã à:VLV biu din hàm ghi nhãn node • ν:E→LE biểu diễn hàm ghi nhãn cạnh Tập V đƣợc coi tập định danh nút thƣờng đƣợc chọn V = {1, , | V |} Trong V xác định nút, tập cạnh E thể cấu trúc đồ thị Đó nút u ∈ V đƣợc kết nối với nút v ∈ V cạnh= (u, v) (u, v) ∈ E Hàm ghi nhãn đƣợc sử dụng để tích hợp thơng tin node cạnh vào đồ thị cách gán thuộc tính từ LV LE tới node cạnh tƣơng ứng Đồ thị đƣợc định nghĩa bao gồm số trƣờng hợp đặc biệt Để định nghĩa đồ thị vô hƣớng, cho thể yêu cầu u, v u, v E cho cạnh E cho ν(u, v) = ν(v, u) Trong trƣờng hợp đồ thị khơng thuộc tính, bảng chữ nhãn đƣợc xác định LV Số hóa Trung tâm Học liệu LE , node http://www.lrc-tnu.edu.vn/ cạnh đƣợc gán nhãn null nhãn Đồ thị rỗng đƣợc định nghĩa gε =(∅,∅,µε,νε) 2.1.2 Định nghĩa 2.2 (Subgraph): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị, đồ thị g1 đồ thị g2 , ký hiu g1g2 nu ã V1V2 ã E1=E2(V1ìV1) • µ1(u) = µ2(u) cho tất u ∈ V1 • ν1(u, v)=ν2(u, v) cho tất (u, v) ∈ E1 Ngƣợc lại, đồ thị g2 đƣợc gọi đồ thị g1 điều kiện thứ hai định nghĩa đƣợc thay E1⊆ E2 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị.Một đồ thị đẳng cấu g1 g2 hàm song ánh f:V1→V2 thỏa món: ã à1(u)=à2(f (u)) cho tt c cỏc node u V1 • Cho cạnh e1=(u, v)∈E1, tồn cạnh e2=(f (u), f (v))∈ E2 cho ν1(e1)=ν2(e2) • Cho cạnh e2=(u, v)∈E2, tồn cạnh e1=(f-1(u), f-1(v))∈ E1 cho ν1(e1)=ν2(e2) Hai đồ thị g1 g2 đƣợc gọi đẳng cấu tồn đồ thị đẳng cấu chúng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ v41 e011 e011 e121 e121 e231 e231 e341 # Do thi g3 # Do thi g4 t # g3 t # g4 v01 v02 v11 v11 v22 v22 v32 v32 v41 v41 e011 v51 e031 e011 e121 e121 e231 e151 e341 e231 e341 Hình 4.1 Tệp input.lgp biểu diễn đồ thị đầu vào Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4.1.3 Biểu diễn đồ thị Cơng cụ biễu diễn đồ thị có chức đồ họa hóa đồ thị từ tệp liệu đầu vào tệp liệu đầu Mỗi liệu đồ thị tệp tƣơng ứng với form đồ họa đồ thị.Giao diện công cụ hiển thị đồ thị nhƣ sau: Hình 4.2 Giao diện biễu diễn đồ thị Chọn tệp liệu đồ thị, tùy chọn "Đỉnh màu" phép nhãn đỉnh có màu, sau nhấn nút "Hiển thị", đồ thị tƣơng ứng đƣợc hiển thị Ví dụ Hình 4.3 form biểu diễn liệu đồ thị Hình 4.3 Biễu diễn đồ thị Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4.2 ĐÁNH GIÁ 4.2.1 Kiểm tra thuật tốn Trong q trình xây dựng cài đặt thuật tốn, điều quan trọng tính đắn thuật toán Học viên đƣa vào số liệu mẫu nhỏ để mơ hình hóa đồ họa, Hình 4.4 biễu diễn tập CSDL đồ thị đầu vào, ngƣỡng hỗ trợ tối thiệu 80% kết cho đồ thị thƣờng xuyên thỏa mãn ngƣỡng đƣợc biễu diễn Hình 4.5 Hình 4.4 Cơ sở liệu đồ thị đầu vào Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 4.5 Tập kết đồ thị thƣờng xuyên 4.2.2 Đánh giá thuật toán Ngày nay, với đời công nghệ lƣu trữ xử lý liệu lớn, học viên nghiên cứu lựa chọn thuật toán gSpan để cài đặt hạ tầng Thuật tốn gSpan có ƣu điểm so với thuật toán AGM nhƣ FSG khơng tạo ứng viên, làm giảm đƣợc chi phí tính tốn nhƣ khơng gian lƣu trữ Do đó, thuật tốn lựa chọn tốt cho giải pháp cài đặt hạ tầng lƣu trữ xử lý liệu lớn để giải tốn tìm đồ thị thƣờng xun tập CSDL đồ thị lớn Trong luận văn này, học viên đƣa vào số mẫu liệu thu đƣợc số kết khả quan Nó phản ánh đƣợc tính đắn thuật tốn tốn Nếu liệu vào với khối lƣợng đồ thị giao dịch nhỏ, thuật tốn chạy nhanh Nhƣng khối lƣợng đồ thị giao dịch lớn, kết trả chậm Đồng thời, tham số ngƣỡng tối thiểu có ảnh hƣởng lớn tới Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ thời gian xử lý Nếu ngƣỡng tối thiểu nhỏ thuật tốn chon kết chậm, nhƣng ngƣỡng tối thiểu lớn thuật tốn cho kết nhanh Ở Hình 4.6 biểu diễn hiệu suất thuật toán chạy với tập liệu đồ thị, mà đồ thị 500 đỉnh, 1500 cạnh, ngƣỡng hộ trợ tối thiệu 40%, số lƣợng đồ thị giao dịch thay đổi từ 500 đến 5000 đồ thị, thời gian thay đổi tƣơng ứng Hình 4.6 Hiệu suất thuật toán chạy với số đồ thị giao dịch thay đổi Trong Hình 4.7biểu diễn hiệu suất thuật toán chạy với tập liệu đồ thị, mà đồ thị 500 đỉnh, 1500 cạnh, số lƣợng đồ thị giao dịch 3000 đồ thị ngƣỡng hỗ trợ tối thiểu thay đổi từ 40% đến 90% , thời gian thay đổi tƣơng ứng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 4.7 Hiệu suất thuật toán chạy với ngƣỡng hỗ trợ tối thiểu thay đổi 4.3.KẾT LUẬN Phần mềm thử nghiệm cài đặt thuật tốn tìm đồ thị thƣờng xun CSDL đồ thị đƣợc học viên phát triển dựa thuật toán gSpan đƣợc X Yan and J Han đƣa Thuật toán gSpan đƣợc triển khai hạ tầng lƣu trữ xử lý liệu lớn với kết khả quan Sử dụng môi trƣờng máy ảo Java để chạy ứng dụng biễu diễn đồ thị đồ họa cài đặt phần mềm thử nghiệm lên hạ tầng lƣu trữ xử lý liệu lớn Đồng thời học viên chạy số liệu mẫu có đánh giá kết thuật tốn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Nội dụng luận văn tìm hiểu vấn đề lý thuyết khai phá liệu đồ thị: bao gồm sở lý thuyết đồ thi,cách tiếp cận phát cấu trúc thƣờng xuyên dựa vào thuật toán Apriori cách tiếp cận dựa phát triển mẫu,nội dung thuật toán phát đồ thị thƣờng xuyên với ngƣỡng hỗ trợ tối thiểu minsup cho trƣớc tập sở liệu đồ thị Luận văn tập trung vào hai chiến lƣợc tìm kiếm chiến lƣợc tìm kiếm theo chiều rộng gồm thuật tốn Subdue, FSM chiến lƣợc tìm kiếm theo chiều sâu gồm thuật toán gSpan, FFSM, Grew Chƣơng trình thử nghiệm đƣợc xây dựng nhằm chứng minh tính khả thi kết nghiên cứu Chƣơng trình hồn thiện cần có đầu tƣ nhiều mặt thời gian cơng sức Đề tài tiếp tục phát triển để đem lạiứng dụng đáp ứng đƣợc yêu cầu thực tế HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Xây dựng chƣơng trình thực nghiệm với giao diện đồ họa thân thiện với ngƣời dùng trình nhập tham số đầu vào thuật tốn.Tiếp tục nghiên cứu cài đặt thuật toán khai phá đồ thị thƣờng xuyên khác (Subdue, FSM FFSM,Grew) để khẳng định tính hiệu chúng khai phá liệu đồ thị từ kho liệu đồ thị lớn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ TÀI LIỆU THAM KHẢO Tiếng Anh: [1] D.J.Cook and L.B.Holder (2000), Graph Base Data Mining, IEEE Intelligent Systems, 15(2),pp 32-41 [2] J Huan, W Wang, and J Prins (2003), Efficient mining of frequent subgraph in the presence of isomorphism In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM),pp.549-552 [3] L.B.Holder,D.J.Cook and S.Djoko(1994), Substructure Discovery in the SUBDUE System.In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pp 169 -180 [4] J R Ullman (1976), An algorithm for subgraph isomorphism.Journal of theACM,23(1),pp.31–42 [5] M Moy(May 2005) Using tmods to run the best friends group detection algorithm 21st CenturyTechnologies Internal Publication [6] Jun Huan, Wei Wang, Jan Prins, Efficient Mining of Frequent Subgraph in the Presence of Isomorphism, pp.1-16 [7] Lawrence B Holder,Nikhil S Ketkar,Diane J Cook,Subdue: Compression-Based Frequent Pattern Discovery in Graph Data, pp.5-6 [8] Bismita Srichandan, Rajshekhar Sunderraman, OO-FSG: An ObjectOriented Approach to Mine Frequent Subgraphs,pp.11-12 [9] Xifeng Yan,Jiawei Han,gSpan: Graph-Based Substructure Pattern Mining, pp.5-6 [10] Lawrence B Holder,Diane J Cook,Mining Graph Data Wiley- interscience a john wiley & sons, inc., publication ,pp 101-154 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự sƣu tầm, tra cứu phát triển thuật toán đáp ứng nội dung yêu cầu đề tài Nội dung luận văn chƣa đƣợc cơng bố hay xuất dƣới hình thức không đƣợc chép từ cơng trình nghiên cứu Tất phần mã nguồn chƣơng trình tơi tự tìm kiếm xây dựng thử nghiệm Nếu sai xin xin hoàn toàn chịu trách nhiệm Thái Nguyên, tháng 09 năm 2014 Ngƣời cam đoan Nguyễn Ngọc Anh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phịng Đào tạo trƣờng Đại học Cơng nghệ thông tin & truyền thông - Đại học Thái nguyên ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trƣờng Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học K11I - trƣờng Đại học Công nghệ thông tin & truyền thông thuộc Đại học Thái nguyên động viên, giúp đỡ nhiệt tình chia sẻ với tơi kinh nghiệm học tập, cơng tác suốt khố học Tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Đại học cơng nghiệp thành phố Hồ Chí Minh, ban lãnh đạo sở trƣờng Đại học công nghiệp thành phố Hồ Chí Minh sở Thanh hóa, lãnh đạo khoa công nghệ sở tạo điều kiện tốt để tơi hồn thành tốt đẹp khố học Cao học Đặc biệt xin bày tỏ lòng biết ơn sâu sắc đến thầy giáoTS.Nguyễn Nhƣ Sơn tận tình giúp đỡ tơi hình thành, nghiên cứu hồn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn khơng tránh khỏi khiếm khuyết Em chân thành mong nhận đƣợc đóng góp ý kiến thầy, giáo đồng nghiệp gần xa Thái nguyên, tháng 09 năm 2014 Ngƣời thực luận văn Nguyễn Ngọc Anh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Công nghệ thông tin CNTT Công nghệ thông tin Cơ sở liệu CSDL Cơ sở liệu Directed Acyclic Graph DAG Đồ thị định hƣớng phi chu trình FSM Khai phá đồ thị thƣờng xuyên AGM Khai phá đồ thị dựa Apriori Frequent Subgraphs Mining Apriori Graph Mining Fast Frequent Subgraph Mining Canonical Adjacency Matrix Maximum Common Subgraph FFSM Khai phá đồ thị thƣờng xuyên bền vững CAM Ma trận kề tắc MCS Đồ thị phổ biến cực đại Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC HÌNH VẼ , BẢNG BIỂU Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồ thị (a) 11 Hình 2.3 Mẫu sở liệu đồ thị 12 Hình 2.4 Các đồ thị thƣờng xuyên 12 Hình 2.5: Tám khơng có thứ tự nhận đƣợc từ có thứ tự 14 Hình 3.1 Đồ thị hình A sau nén đƣợc biểu diễn hình B 22 Hình 3.2–Biểu diễn đồ thị tập liệu 25 Hình 3.3 Cây tìm kiếm theo chiều sâu 28 Hình 3.4 Mã DFS/ Đồ thị gia tăng 31 Hình 3.5 Biểu diễn hai đồ thị đẳng cấu 34 Hình 3.6 Ba ma trận kề đồ thị gán nhãn P hình 3.5 35 Hình 3.7 Biểu diễn ma trận riêng cực đại 35 „Hình 3.8 Cây CAM đồ thị P hình 3.5 38 Hình 3.9 Biểu diễn thao tác hịa nhập cho bốn trƣờng hợp 41 Hình 3.10 Cây CAM tối ƣu đồ thị P biểu diễn hình 3.5 43 Hình 4.1 Tệp input.lgp biểu diễn đồ thị đầu vào 56 Hình 4.2 Giao diện biễu diễn đồ thị 57 Hình 4.3 Biễu diễn đồ thị 57 Hình 4.4 Cơ sở liệu đồ thị đầu vào 58 Hình 4.5 Tập kết đồ thị thƣờng xuyên 59 Hình 4.6 Hiệu suất thuật tốn chạy với số đồ thị giao dịch thay đổi 60 Hình 4.7 Hiệu suất thuật toán chạy với ngƣỡng hỗ trợ tối thiểu thay đổi 61 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: .4 1.1.1 Định nghĩa liệu lớn: .4 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƢỜNG XUYÊN: 1.3 KẾT LUẬN .7 CHƢƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƢỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ 2.1.1 Định nghĩa 2.1 (Graph): .9 2.1.2 Định nghĩa 2.2 (Subgraph): 10 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): 10 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): 11 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): 11 2.1.6 Định nghĩa 2.6 (Frequent Graph) 12 2.2 CÁC DẠNG CHUẨN CỦA CÂY 12 2.2.1 Dạng chuẩn theo chiều rộng: 16 2.2.2 Dạng chuẩn theo chiều sâu: 17 2.3 CÁCH TIẾP CẬN DỰA TRÊN APRIORI 18 2.4 CÁCH TIẾP CẬN DỰA TRÊN SỰ PHÁT TRIỂN MẪU 20 2.5 KẾT LUẬN 21 CHƢƠNG 3: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƢỜNG XUYÊN 22 3.1 CHIẾN LƢỢC TÌM KIẾM THEO CHIỀU RỘNG: 22 3.1.1 Thuật toán SUBDUE 22 3.1.2 Thuật toán FSG 25 3.2 CHIẾN LƢỢC TÌM KIẾM THEO CHIỀU SÂU: 27 v 3.2.1 Thuật toán gSpan (Graph-Based Substructure Pattern Mining) 27 3.2.2 Thuật toán FFSM 32 3.2.3 Thuật toán GREW 45 3.3 KẾT LUẬN 51 CHƢƠNG 4: THIẾT KẾ HỆ THỐNG THỬ NGHIỆM THUẬT TOÁN 52 4.1 CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN gSpan 52 4.1.1 Mã lệnh thuật toán gSpan 52 4.1.2 Dữ liệu thử nghiệm 54 4.1.3 Biểu diễn đồ thị 57 4.2 ĐÁNH GIÁ 58 4.2.1 Kiểm tra thuật toán 58 4.2.2 Đánh giá thuật toán 59 4.3.KẾT LUẬN 61 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... liệu đồ thị Tìm hiểu thuật toán phát đồ thị thƣờng xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thƣờng xuyên CSDL đồ thị Phƣơng pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị. .. 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƢỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ Chúng ta biểu diễn tập đỉnh đồ thị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Một đồ thị glà đồ thị đồ thị. .. phá đồ thị theo mức mức chứa đồ thị có nhiều đỉnh cạnh so với mức trƣớc Các đồ thị thƣờng xuyên mức đƣợc tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị khơng thƣờng xuyên