Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,18 MB
Nội dung
MỞ ĐẦU Hiện nay, phương pháp khai phá liệu phải đối diện với vấn đề số lượng ngày gia tăng đối tượng liệu phức tạp Bên cạnh đồthị cấu trúc liệu tổng quát, sử dụng để mô hình hóa đối liệu tượng phức tạp vấn đề khai phá đồthịthườngxuyên vấn đề quan trọng khai phá đồthị Việc khai phá đồthị để tìm đồthịthườngxuyên nhằm xác định tất đồthị tập liệu đồthị với giá trị ngưỡng cho trước [1],[3] Những khó khăn vấn đề khai phá đồthịthườngxuyên nảy sinh hai vấn đề, là: liệt kê tất đồthị CSDL đồthị tính toán hàm hỗ trợ đồthị CSDL Do đỉnh đồthị xếp theo nhiều cách, đồthị có số lượng lớn hình học tương đương, gọi đồthị đẳng cấu Để liệt kê tất đồthị con, ta phải tính toán phù hợp với quy tắc biểu diễn đồthị để giải vấn đề đồthị đẳng cấu Hơn nữa, việc kiểm tra đồthị có chứa CSDL đồthị hay không xem toán NP-khó gọi toánđồthị đẳng cấu Trong tất trường hợp, việc tính toán hàm hỗ trợ chiếm chi phí nhiều việc tìm đồthịthườngxuyên CSDL Tuy nhiên, phức tạp vấn đề giảm CSDL đồthị có thêm thông tin đỉnh cạnh gán nhãn Có thể sử dụng nhãn để hạn chế đỉnh tạo thành cặp trình kiểm tra đẳng cấu đồthị Tuy nhiên, CSDL đồthị chưa gán nhãn có số nhãn độ phức tạp toán làm giảm đáng kể kích thước tập liệu Như vậy, vấn đề khai phá đồthị nói chung khai phá đồthịthườngxuyên nói riêng gặp nhiều khó khăn, ta cần lựa chọn phương pháp thuậttoán phù hợp để giải cho toán cụ thể, đem lại hiệu cao ý nghĩa thực tiễn đề tài Nội dung luận văn vấn đề cần giải quyết: Tìm hiểu phương pháp khai phá liệu đồthị Tìm hiểu thuậttoánphátđồthịthườngxuyên CSDL đồthị Cài đặt thửnghiệmthuậttoánphátđồthịthườngxuyên CSDL đồthị Phương pháp nghiêncứu + Nghiêncứu khai phá liệu đồthị với trọng tâm phátđồthịthườngxuyên CSDL đồthị + Tìm hiểu nguồn thông tin từ sách,bài báo,tạp chí, Internet ,liên quan đến khai phá liệu đồthị Cấu trúc luận văn chia làm chương: Chương 1: “ Tổng quan khai phá liệu đồthị ” trình bày tổng quan hướng nghiêncứu khai phá liệu đồthị Chương 2: “ Phát cấu trúc thườngxuyên ” trình bày sở lý thuyết đồ thị, cách tiếp cận dựa Apriori, cách tiếp cận dựa phát triển mẫu Chương 3: “ Cácthuậttoánphátđồthịthườngxuyên ” trình bày sốthuậttoánphátđồthịthườngxuyên theo chiến lược tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thửnghiệm ” trình bày kết cài đặt thuậttoán chương CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒTHỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồthịsố lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn dạng cấu trúc liệu đồ thị, chẳng hạn như: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học, Do đó, khai phá liệu đồthị nhằm tìm kiếm thông tin hữu ích lượng lớn liệu vấn đề nhà nghiêncứu tổ chức CNTT quan tâm 1.1.1 Định nghĩa liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) thu hút quan tâm đặt thách thức với nhà nghiên cứu, nhà cung cấp dịch vụ công nghệ thông tin tổ chức, doanh nghiệp Dữ liệu lớn xem đời tất yếu trình bùng nổ thông tin Trong nhiều năm qua, doanh nghiệp thường đưa định kinh doanh dựa liệu giao dịch lưu trữ sở liệu quan hệ Ngoài liệu quan trọng lại thường dạng tiềm năng, phi truyền thống, phi cấu trúc lại khai thác cách hữu ích, giảm chi phí lưu trữ tính toán Khi liệu lớn được khai thác phân tích, kết hợp với liệu doanh nghiệp truyền thống doanh nghiệp có nhìn toàn diện sâu sắc tình hình kinh doanh họ, dẫn tới nâng cao suất vị cạnh tranh Do đó, ngày có nhiều công ty tìm kiếm để có liệu phi truyền thống có giá trị công việc kinh doanh Có thể định nghĩa cách chung “Dữ liệu lớn” tập hợp tập liệu lớn và/hoặc phức tạp mà phương pháp CNTT chưa thể phân tích xử lý tốt chúng Dữ liệu lớn bao gồm tính chất độ lớn lưu trữ (Volume), đa dạng, phức tạp (Variety) tăng trưởng nhanh chóng (Velocity)[8] Dữ liệu lớn thường đề cập tới kiểu liệu sau: - Dữ liệu doanh nghiệp truyền thống: bao gồm thông tin khách hàng, liệu giao dịch, liệu kế toán tổng hợp - Dữ liệu cảm biến máy sinh liệu: bao gồm ghi chi tiết gọi, nhật ký web, hệ đo thông minh, liệu từ cảm biến, hệ thống liệu truyền thống - Dữ liệu xã hội: bao gồm luồng thông tin phản hồi khách hàng, liệu từ trang nhật ký mạng xã hội Twitter, Facebook, 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: * Giải pháp Big data Oracle Oracle nhà cung cấp cung cấp giải pháp hoàn chỉnh tích hợp để giải đầy đủ yêu cầu liệu lớn doanh nghiệp Các liệu lớn Oracle tập trung ý tưởng phát triển kiến trúc liệu doanh nghiệp để kết hợp liệu lớn cung cấp giá trị kinh doanh, linh hoạt, hiệu suất để giải yêu cầu liệu lớn với doanh nghiệp Với việc giới thiệu ứng dụng Quản lý Dữ liệu lớn (Oracle Big Data Appliance), Oracle cung cấp giải pháp hoàn chỉnh đáp ứng yêu cầu liên quan đến liệu lớn doanh nghiệp Thiết bị xử lý liệu lớn Oracle Big Data Appliance, với máy chủ sở liệu Oracle Exadata Máy chủ thông tin hỗ trợ định Oracle Exalytics mới, giúp khách hàng có để thu thập, tổ chức, phân tích khai thác tối đa giá trị liệu lớn Oracle Big Data Appliance tích hợp dễ dàng với sở liệu Oracle Database 11g, Oracle Exadata Database Machine Oracle Exalytics Business Intelligence Machine * Giải pháp Big Data Microsoft Giải pháp Big Data Microsoft dựa tảng SQL Server, Hadoop, Windows Azure Windows Server, cung cấp công cụ quản lý, mở rộng nhằm đạt nhìn sâu sắc liệu doanh nghiệp, thúc đẩy hiệu kinh doanh Microsoft Big Data cho phép quản lý loại liệu nào, kích thước vị trí Microsoft sử dụng SQL Server 2012 SQL Server Parallel Data Warehouse để quản lý liệu lớn có cấu trúc Với liệu phi cấu trúc, Microsoft sử dụng Hadoop Windows Azure Windows Server, cho phép xử lý liệu phi cấu trúc với quy mô hàng petabyte Với liệu luồng, Microsoft sử dụng công cụ SQL Server StreamInsight để quản lý liệu luồng với thời gian thực Microsoft Big Data cho phép làm phong phú thêm liệu với loại liệu nào: Cửa hàng liệu Azure Marketplace cho phép doanh nghiệp có liệu bên thứ ba; công cụ phòng thínghiệm Data Explorer Azure dành cho tập liệu đề xuất Data Hub dành cho việc tạo cửa hàng liệu riêng 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒTHỊCONTHƯỜNG XUYÊN: Cho CSDL đồthị D, hàm hỗ trợ đồthị G D, viết sup(G, D) số lượng đồthị D có chứa đồthị G cạnh tạo nên đồthị Cho giá trị ngưỡng hỗ trợ cực tiểu smin, vấn đề khai phá đồthịthườngxuyên bao gồm việc tìm đồthị liên thông thườngxuyên D Có hai nhóm phương pháp đề xuất để giải vấn đề trên, là: nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu: Mộtsố kỹ thuật khai phá theo chiều rộng như: kỹ thuật AGM phát triển Inokuchi, kỹ thuật FSG đề xuất Kuramochi Karypis Các kỹ thuật khai phá đồthị theo mức mức chứa đồthị có nhiều đỉnh cạnh so với mức trước Cácđồthịthườngxuyên mức tìm cách, tạo đồthị ứng viên với cặp đồthị mức tại, sau lọc đồthị không thườngxuyên Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồthị xem thườngxuyên tất đồthịthườngxuyên Vì đồthị tìm sau tìm đồthị nó, loại bỏ đồthị không thườngxuyên mà không cần phải tính toán hàm hỗ trợ chúng cách kiểm tra đồthị chúng thườngxuyên Tuy nhiên, nhóm phương pháp tìm kiếm theo chiều rộng có hai vấn đề là: sinh nhiều đồthị ứng viên yêu cầu lưu trữ đồthịthườngxuyên mức Nhóm phương pháp khai phá theo chiều sâu khắc phục vấn đề cách tìm kiếm đồthị theo chiều sâu, kể đến sốthuậttoán như: gSpan đề xuất Han Yan, FFSM đề xuất Huan, GASTON Nijssen Kok Tư tưởng nhóm phương pháp bắt đầu với đồthị có chứa đỉnh cạnh thường xuyên, kỹ thuật mở rộng đệ quy cách thêm cạnh hai đỉnh thêm đỉnh kết nối tới đỉnh khác Vì đồthị không thườngxuyênđồthị nó, không cần mở rộng tới đồthị không thườngxuyênCácđồthị không thườngxuyên bỏ bớt mà không xảy rủi ro trình khai phá 1.3 KẾT LUẬN Chương trình bày tổng quan khai phá liệu đồthị có nêu vấn đề khai phá liệu đồthị tìm thông tin hữu ích lượng lớn liệu, đưa định nghĩa chung liệu lớn (Big Data) giải pháp Big Data Oracle Microsoft Trình bày tổng quan khai phá đồthịthườngxuyên theo hai nhóm phương pháp nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu với ưu nhược điểm hai nhóm phương pháp CHƯƠNG 2: PHÁTHIỆNCÁC CẤU TRÚC CONTHƯỜNGXUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒTHỊ Chúng ta biểu diễn tập đỉnh đồthị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Mộtđồthị glà đồthịđồthị g’ khác tồn đồthị đẳng cấu từ g tới g’ 2.1.1 Định nghĩa 2.1 (Graph): Chomột nhãn node chữ (alphabet) LV nhãn cạnh chữ LE đồthị g (có hướng) định nghĩa gồm thành phần g=(V , E, µ, ν), đó: • V biểu diễn tập hữu hạn node • E⊆V×V biểu diễn tập cạnh • µ:V→LV biểu diễn hàm ghi nhãn node • ν:E→LE biểu diễn hàm ghi nhãn cạnh Tập V coi tập định danh nút thường chọn V = {1, , | V |} Trong V xác định nút, tập cạnh E thể cấu trúc đồthịĐó nút u ∈ V kết nối với nút v ∈ V cạnh= (u, v) (u, v) ∈ E Hàm ghi nhãn sử dụng để tích hợp thông tin node cạnh vào đồthị cách gán thuộc tính từ LV LE tới node cạnh tương ứng Đồthị định nghĩa bao gồm số trường hợp đặc biệt Để định nghĩa đồthị vô hướng, cho thể yêu cầu u , v E cho cạnh u , v E cho ν(u, v) = ν(v, u) Trong trường hợp đồthị không thuộc tính, bảng chữ nhãn xác định LV L E , node cạnh gán nhãn null nhãn Đồthị rỗng định nghĩa gε =( , ,µε,νε) 2.1.2 Định nghĩa 2.2 (Subgraph): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị, đồthị g1 đồthị g2 , ký hiệu g1⊆g2 • V1⊆V2 • E1=E2∩(V1×V1) • µ1(u) = µ2(u) cho tất u ∈ V1 • ν1(u, v)=ν2(u, v) cho tất (u, v) ∈ E1 Ngược lại, đồthị g2 gọi đồthị g1 điều kiện thứ hai định nghĩa thay E1⊆ E2 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồ thị.Một đồthị đẳng cấu g1 g2 hàm song ánh f:V1→V2 thỏa mãn: • µ1(u)=µ2(f (u)) cho tất node u∈ V1 • Cho cạnh e1=(u, v)∈E1, tồn cạnh e2=(f (u), f (v))∈ E2 cho ν1(e1)=ν2(e2) • Cho cạnh e2=(u, v)∈E2, tồn cạnh e1=(f-1(u), f-1(v))∈ E1 cho ν1(e1)=ν2(e2) Hai đồthị g1 g2 gọi đẳng cấu tồn đồthị đẳng cấu chúng Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồthị (a) 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồthịMột hàm đơn ánh f:V1→V2 gọi đồthị đẳng cấu từ g1 tới g2 tồn đồthị g⊆g2 cho f đồthị đẳng cấu g1 g Mộtđồthị đẳng cấu tồn từ g1 tới g2 đồthị g2 lớn trở thành đồthị đẳng cấu tới đồthị g1 nhỏ cách loại bỏ số node số cạnh Để minh họa hai đồthị với đồthị đẳng cấu chúng xem hình 2.1(a) hình 2.1(c) 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): Cho g1=(V1,E1,µ1,ν1) g2=(V2,E2,µ2,ν2) đồthịMộtđồthị g =(V,E,µ,ν) gọi đồthị phổ biến g1 g2 tồn đồthị đẳng cấu từ g tới g1 từ g tới g2 Mộtđồthị phổ biến g1 g2 gọi đồthị phổ biến cực đại (MCS) không tồn đồthị phổ biến khác g1 g2 mà có node nhiều g Hình 2.2.Hai đồ thị: (a) (b) đồthị phổ biến cực đại (c) 10 4.1.3 Biểu diễn đồthị Công cụ biễu diễn đồthị có chức đồ họa hóa đồthị từ tệp liệu đầu vào tệp liệu đầu Mỗi liệu đồthị tệp tương ứng với form đồ họa đồ thị.Giao diện công cụ hiểnthịđồthị sau: Hình 4.2 Giao diện biễu diễn đồthị Chọn tệp liệu đồ thị, tùy chọn "Đỉnh màu" phép nhãn đỉnh có màu, sau nhấn nút "Hiển thị", đồthị tương ứng hiểnthị Ví dụ Hình 4.3 form biểu diễn liệu đồthị Hình 4.3 Biễu diễn đồthị 56 4.2 ĐÁNH GIÁ 4.2.1 Kiểm tra thuậttoán Trong trình xây dựng cài đặt thuật toán, điều quan trọng tính đắn thuậttoán Học viên đưa vào số liệu mẫu nhỏ để mô hình hóa đồ họa, Hình 4.4 biễu diễn tập CSDL đồthị đầu vào, ngưỡng hỗ trợ tối thiệu 80% kết cho đồthịthườngxuyên thỏa mãn ngưỡng biễu diễn Hình 4.5 Hình 4.4 Cơ sở liệu đồthị đầu vào 57 Hình 4.5 Tập kết đồthịthườngxuyên 4.2.2 Đánh giá thuậttoán Ngày nay, với đời công nghệ lưu trữ xử lý liệu lớn, học viên nghiêncứu lựa chọn thuậttoán gSpan để cài đặt hạ tầng Thuậttoán gSpan có ưu điểm so với thuậttoán AGM FSG không tạo ứng viên, làm giảm chi phí tính toán không gian lưu trữ Do đó, thuậttoán lựa chọn tốt cho giải pháp cài đặt hạ tầng lưu trữ xử lý liệu lớn để giải toán tìm đồthịthườngxuyên tập CSDL đồthị lớn Trong luận văn này, học viên đưa vào số mẫu liệu thusố kết khả quan Nó phản ánh tính đắn thuậttoántoán Nếu liệu vào với khối lượng đồthị giao dịch nhỏ, thuậttoán chạy nhanh Nhưng khối lượng đồthị giao dịch lớn, kết trả chậm Đồng thời, tham số ngưỡng tối thiểu có ảnh hưởng lớn tới 58 thời gian xử lý Nếu ngưỡng tối thiểu nhỏ thuậttoán chon kết chậm, ngưỡng tối thiểu lớn thuậttoán cho kết nhanh Ở Hình 4.6 biểu diễn hiệu suất thuậttoán chạy với tập liệu đồ thị, mà đồthị 500 đỉnh, 1500 cạnh, ngưỡng hộ trợ tối thiệu 40%, số lượng đồthị giao dịch thay đổi từ 500 đến 5000 đồ thị, thời gian thay đổi tương ứng Hình 4.6 Hiệu suất thuậttoán chạy với sốđồthị giao dịch thay đổi Trong Hình 4.7biểu diễn hiệu suất thuậttoán chạy với tập liệu đồ thị, mà đồthị 500 đỉnh, 1500 cạnh, số lượng đồthị giao dịch 3000 đồthị ngưỡng hỗ trợ tối thiểu thay đổi từ 40% đến 90% , thời gian thay đổi tương ứng 59 Hình 4.7 Hiệu suất thuậttoán chạy với ngưỡng hỗ trợ tối thiểu thay đổi 4.3.KẾT LUẬN Phần mềm thửnghiệm cài đặt thuậttoán tìm đồthịthườngxuyên CSDL đồthị học viên phát triển dựa thuậttoán gSpan X Yan and J Han đưa Thuậttoán gSpan triển khai hạ tầng lưu trữ xử lý liệu lớn với kết khả quan Sử dụng môi trường máy ảo Java để chạy ứng dụng biễu diễn đồthịđồ họa cài đặt phần mềm thửnghiệm lên hạ tầng lưu trữ xử lý liệu lớn Đồng thời học viên chạy số liệu mẫu có đánh giá kết thuậttoán 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Nội dụng luận văn tìm hiểu vấn đề lý thuyết khai phá liệu đồ thị: bao gồm sở lý thuyết đồ thi,cách tiếp cận phát cấu trúc thườngxuyên dựa vào thuậttoán Apriori cách tiếp cận dựa phát triển mẫu,nội dung thuậttoánphátđồthịthườngxuyên với ngưỡng hỗ trợ tối thiểu minsup cho trước tập sở liệu đồthị Luận văn tập trung vào hai chiến lược tìm kiếm chiến lược tìm kiếm theo chiều rộng gồm thuậttoán Subdue, FSM chiến lược tìm kiếm theo chiều sâu gồm thuậttoán gSpan, FFSM, Grew Chương trình thửnghiệm xây dựng nhằm chứng minh tính khả thi kết nghiêncứu Chương trình hoàn thiện cần có đầu tư nhiều mặt thời gian công sức Đề tài tiếp tục phát triển để đem lạiứng dụng đáp ứng yêu cầu thực tế HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Xây dựng chương trình thực nghiệm với giao diện đồ họa thân thiện với người dùng trình nhập tham số đầu vào thuật toán.Tiếp tục nghiêncứu cài đặt thuậttoán khai phá đồthịthườngxuyên khác (Subdue, FSM FFSM,Grew) để khẳng định tính hiệu chúng khai phá liệu đồthị từ kho liệu đồthị lớn 61 TÀI LIỆU THAM KHẢO Tiếng Anh: [1] D.J.Cook and L.B.Holder (2000), Graph Base Data Mining, IEEE Intelligent Systems, 15(2),pp 32-41 [2] J Huan, W Wang, and J Prins (2003), Efficient mining of frequent subgraph in the presence of isomorphism In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM),pp.549-552 [3] L.B.Holder,D.J.Cook and S.Djoko(1994), Substructure Discovery in the SUBDUE System.In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pp 169 -180 [4] J R Ullman (1976), An algorithm for subgraph isomorphism.Journal of theACM,23(1),pp.31–42 [5] M Moy(May 2005) Using tmods to run the best friends group detection algorithm 21st CenturyTechnologies Internal Publication [6] Jun Huan, Wei Wang, Jan Prins, Efficient Mining of Frequent Subgraph in the Presence of Isomorphism, pp.1-16 [7] Lawrence B Holder,Nikhil S Ketkar,Diane J Cook,Subdue: Compression-Based Frequent Pattern Discovery in Graph Data, pp.5-6 [8] Bismita Srichandan, Rajshekhar Sunderraman, OO-FSG: An ObjectOriented Approach to Mine Frequent Subgraphs,pp.11-12 [9] Xifeng Yan,Jiawei Han,gSpan: Graph-Based Substructure Pattern Mining, pp.5-6 [10] Lawrence B Holder,Diane J Cook,Mining Graph Data interscience a john wiley & sons, inc., publication ,pp 101-154 62 Wiley- 63 LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự sưu tầm, tra cứuphát triển thuậttoán đáp ứng nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức không chép từ công trình nghiêncứu Tất phần mã nguồn chương trình tự tìm kiếm xây dựng thửnghiệm Nếu sai xin xin hoàn toàn chịu trách nhiệm Thái Nguyên, tháng 09 năm 2014 Người cam đoan Nguyễn Ngọc Anh i LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo trường Đại học Công nghệ thông tin & truyền thông - Đại học Thái nguyên nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học K11I - trường Đại học Công nghệ thông tin & truyền thông thuộc Đại học Thái nguyên động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khoá học Tôi xin chân thành cảm ơn Ban giám hiệu trường Đại học công nghiệp thành phố Hồ Chí Minh, ban lãnh đạo sở trường Đại học công nghiệp thành phố Hồ Chí Minh sở Thanh hóa, lãnh đạo khoa công nghệ sở tạo điều kiện tốt để hoàn thành tốt đẹp khoá học Cao học Đặc biệt xin bày tỏ lòng biết ơn sâu sắc đến thầy giáoTS.Nguyễn Như Sơn tận tình giúp đỡ hình thành, nghiêncứu hoàn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiêncứu trình độ, luận văn không tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, cô giáo đồng nghiệp gần xa Thái nguyên, tháng 09 năm 2014 Người thực luận văn Nguyễn Ngọc Anh ii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Công nghệ thông tin CNTT Công nghệ thông tin Cơ sở liệu CSDL Cơ sở liệu Directed Acyclic Graph DAG Đồthị định hướng phi chu trình FSM Khai phá đồthịthườngxuyên AGM Khai phá đồthị dựa Apriori Frequent Subgraphs Mining Apriori Graph Mining Fast Frequent Subgraph Mining Canonical Adjacency Matrix Maximum Common Subgraph FFSM Khai phá đồthịthườngxuyên bền vững CAM Ma trận kề tắc MCS Đồthị phổ biến cực đại iii DANH MỤC HÌNH VẼ , BẢNG BIỂU Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồthị (a) 10 Hình 2.3 Mẫu sở liệu đồthị 11 Hình 2.4 Cácđồthịthườngxuyên 11 Hình 2.5: Tám thứ tự nhận từ có thứ tự 13 Hình 3.1 Đồthị hình A sau nén biểu diễn hình B 21 Hình 3.2–Biểu diễn đồthị tập liệu 24 Hình 3.3 Cây tìm kiếm theo chiều sâu 27 Hình 3.4 Mã DFS/ Đồthị gia tăng 30 Hình 3.5 Biểu diễn hai đồthị đẳng cấu 33 Hình 3.6 Ba ma trận kề đồthị gán nhãn P hình 3.5 34 Hình 3.7 Biểu diễn ma trận riêng cực đại 34 ‘Hình 3.8 Cây CAM đồthị P hình 3.5 37 Hình 3.9 Biểu diễn thao tác hòa nhập cho bốn trường hợp 40 Hình 3.10 Cây CAM tối ưu đồthị P biểu diễn hình 3.5 42 Hình 4.1 Tệp input.lgp biểu diễn đồthị đầu vào 55 Hình 4.2 Giao diện biễu diễn đồthị 56 Hình 4.3 Biễu diễn đồthị 56 Hình 4.4 Cơ sở liệu đồthị đầu vào 57 Hình 4.5 Tập kết đồthịthườngxuyên 58 Hình 4.6 Hiệu suất thuậttoán chạy với sốđồthị giao dịch thay đổi 59 Hình 4.7 Hiệu suất thuậttoán chạy với ngưỡng hỗ trợ tối thiểu thay đổi 60 iv MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒTHỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: 1.1.1 Định nghĩa liệu lớn: 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒTHỊCONTHƯỜNG XUYÊN: 1.3 KẾT LUẬN CHƯƠNG 2: PHÁTHIỆNCÁC CẤU TRÚC CONTHƯỜNGXUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒTHỊ 2.1.1 Định nghĩa 2.1 (Graph): 2.1.2 Định nghĩa 2.2 (Subgraph): 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): 10 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): 10 2.1.6 Định nghĩa 2.6 (Frequent Graph) 11 2.2 CÁC DẠNG CHUẨN CỦA CÂY 11 2.2.1 Dạng chuẩn theo chiều rộng: 15 2.2.2 Dạng chuẩn theo chiều sâu: 16 2.3 CÁCH TIẾP CẬN DỰA TRÊN APRIORI 17 2.4 CÁCH TIẾP CẬN DỰA TRÊN SỰ PHÁT TRIỂN MẪU 19 2.5 KẾT LUẬN 20 CHƯƠNG 3: CÁCTHUẬTTOÁNPHÁTHIỆNĐỒTHỊCONTHƯỜNGXUYÊN 21 3.1 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU RỘNG: 21 3.1.1 Thuậttoán SUBDUE 21 3.1.2 Thuậttoán FSG 24 3.2 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU SÂU: 26 v 3.2.1 Thuậttoán gSpan (Graph-Based Substructure Pattern Mining) 26 3.2.2 Thuậttoán FFSM 31 3.2.3 Thuậttoán GREW .44 3.3 KẾT LUẬN 50 CHƯƠNG 4: THIẾT KẾ HỆ THỐNG THỬNGHIỆMTHUẬTTOÁN 51 4.1 CÀI ĐẶT THỬNGHIỆMTHUẬTTOÁN gSpan 51 4.1.1 Mã lệnh thuậttoán gSpan .51 4.1.2 Dữ liệu thửnghiệm 53 4.1.3 Biểu diễn đồthị 56 4.2 ĐÁNH GIÁ 57 4.2.1 Kiểm tra thuậttoán .57 4.2.2 Đánh giá thuậttoán 58 4.3.KẾT LUẬN 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 vi ... toán phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thường xuyên CSDL đồ thị Phương pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thường. .. trước Các đồ thị thường xuyên mức tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị không thường xuyên Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồ thị xem thường xuyên tất đồ. .. Chương 3: “ Các thuật toán phát đồ thị thường xuyên ” trình bày số thuật toán phát đồ thị thường xuyên theo chiến lược tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thử nghiệm ”