Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,7 MB
Nội dung
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN NGỌC ANH NGHIÊN CỨU VÀ THỬ NGHIỆM MỘT SỐ THUẬT TOÁN PHÁT HIỆN CÁC ĐỒ THỊ CON THƢỜNG XUYÊN LuËn v¨n th¹c SÜ KHOA HỌC MÁY TÍNH Th¸i Nguyªn - 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Hiện nay, các phƣơng pháp khai phá dữ liệu đang phải đối diện với vấn đề số lƣợng ngày càng gia tăng của các đối tƣợng dữ liệu phức tạp. Bên cạnh đó đồ thị là một cấu trúc dữ liệu tổng quát, có thể sử dụng để mô hình hóa các đối dữ liệu tƣợng phức tạp đó và vấn đề khai phá đồ thị con thƣờng xuyên là một trong những vấn đề quan trọng trong khai phá đồ thị. Việc khai phá đồ thị để tìm đồ thị con thƣờng xuyên nhằm xác định tất cả các đồ thị con trong một tập dữ liệu đồ thị với giá trị ngƣỡng cho trƣớc [1],[3]. Những khó khăn của vấn đề khai phá đồ thị con thƣờng xuyên nảy sinh hai vấn đề, đó là: liệt kê tất cả các đồ thị con trong CSDL đồ thị và tính toán hàm hỗ trợ của các đồ thị con này trong CSDL. Do các đỉnh của đồ thị có thể đƣợc sắp xếp theo nhiều cách, một đồ thị có thể có số lƣợng lớn các bản sao hình học tƣơng đƣơng, đƣợc gọi là đồ thị đẳng cấu. Để liệt kê tất cả các đồ thị con, ta phải tính toán phù hợp với quy tắc biểu diễn đồ thị để giải quyết vấn đề đồ thị đẳng cấu. Hơn nữa, việc kiểm tra nếu một đồ thị có chứa trong một CSDL đồ thị hay không đƣợc xem nhƣ bài toán NP-khó và đƣợc gọi là bài toán đồ thị con đẳng cấu. Trong tất cả các trƣờng hợp, việc tính toán hàm hỗ trợ chiếm chi phí nhiều nhất trong việc tìm các đồ thị con thƣờng xuyên của CSDL. Tuy nhiên, sự phức tạp của những vấn đề này sẽ giảm khi CSDL đồ thị có thêm thông tin về các đỉnh và các cạnh đã đƣợc gán nhãn. Có thể sử dụng các nhãn để hạn chế các đỉnh có thể tạo thành các cặp trong quá trình kiểm tra sự đẳng cấu của đồ thị con. Tuy nhiên, nếu CSDL đồ thị chƣa đƣợc gán nhãn hoặc chỉ có một số ít các nhãn thì độ phức tạp của bài toán sẽ làm giảm đáng kể kích thƣớc của tập dữ liệu. Nhƣ vậy, vấn đề khai phá đồ thị nói chung và khai phá đồ thị con thƣờng xuyên nói riêng cũng gặp nhiều khó khăn, vì vậy ta cần lựa chọn phƣơng pháp Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ và thuật toán phù hợp để giải quyết cho từng bài toán cụ thể, đem lại hiệu quả cao đó chính là ý nghĩa thực tiễn của đề tài. Nội dung của luận văn và các vấn đề cần giải quyết: 1. Tìm hiểu về các phƣơng pháp khai phá dữ liệu đồ thị. 2. Tìm hiểu các thuật toán phát hiện đồ thị con thƣờng xuyên trong CSDL đồ thị. 3. Cài đặt thử nghiệm thuật toán phát hiện các đồ thị con thƣờng xuyên trong CSDL đồ thị Phƣơng pháp nghiên cứu + Nghiên cứu về khai phá dữ liệu đồ thị với trọng tâm là phát hiện các đồ thị con thƣờng xuyên trong CSDL đồ thị. + Tìm hiểu các nguồn thông tin từ các sách,bài báo,tạp chí, Internet ,liên quan đến khai phá dữ liệu đồ thị. Cấu trúc luận văn chia làm 4 chƣơng: Chƣơng 1: “ Tổng quan về khai phá dữ liệu đồ thị ” trình bày tổng quan các hƣớng nghiên cứu hiện nay về khai phá dữ liệu đồ thị. Chƣơng 2: “ Phát hiện các cấu trúc con thƣờng xuyên ” trình bày cơ sở lý thuyết đồ thị, cách tiếp cận dựa trên Apriori, cách tiếp cận dựa trên sự phát triển mẫu. Chƣơng 3: “ Các thuật toán phát hiện đồ thị con thƣờng xuyên ” trình bày một số thuật toán phát hiện đồ thị con thƣờng xuyên theo chiến lƣợc tìm kiếm theo chiều rộng và chiều sâu. Chƣơng 4: “ Thiết kế hệ thống thử nghiệm ” trình bày kết quả cài đặt của thuật toán trong chƣơng 3. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá dữ liệu đồ thị là một trong số các lĩnh vực quan trọng trong khai phá dữ liệu. Hầu hết nguồn dữ liệu hiện nay có thể biểu diễn đƣợc dƣới dạng cấu trúc dữ liệu đồ thị, chẳng hạn nhƣ: dữ liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học, Do đó, khai phá dữ liệu đồ thị nhằm tìm kiếm các thông tin hữu ích trong một lƣợng lớn dữ liệu là vấn đề đang đƣợc các nhà nghiên cứu và các tổ chức CNTT quan tâm. 1.1.1. Định nghĩa dữ liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) đang thu hút sự quan tâm cũng nhƣ đặt ra những thách thức mới với các nhà nghiên cứu, các nhà cung cấp dịch vụ công nghệ thông tin và các tổ chức, doanh nghiệp. Dữ liệu lớn đƣợc xem nhƣ sự ra đời tất yếu của quá trình bùng nổ thông tin. Trong nhiều năm qua, các doanh nghiệp thƣờng đƣa ra các quyết định kinh doanh dựa trên dữ liệu giao dịch đƣợc lƣu trữ trong cơ sở dữ liệu quan hệ. Ngoài ra những dữ liệu quan trọng lại thƣờng ở dạng tiềm năng, phi truyền thống, phi cấu trúc lại có thể đƣợc khai thác một cách hữu ích, giảm chi phí cả về lƣu trữ và tính toán. Khi dữ liệu lớn đƣợc đƣợc khai thác và phân tích, kết hợp với dữ liệu doanh nghiệp truyền thống thì các doanh nghiệp sẽ có cái nhìn toàn diện và sâu sắc hơn về tình hình kinh doanh của họ, dẫn tới nâng cao năng suất và vị thế cạnh tranh. Do đó, ngày càng có nhiều công ty tìm kiếm để có đƣợc các dữ liệu phi truyền thống nhƣng rất có giá trị trong công việc kinh doanh này. Có thể định nghĩa một cách chung nhất thì “Dữ liệu lớn” là một tập hợp của các tập dữ liệu lớn và/hoặc phức tạp mà những phƣơng pháp hiện tại của CNTT chƣa thể phân tích và xử lý tốt đƣợc chúng. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Dữ liệu lớn bao gồm cả tính chất về độ lớn lƣu trữ (Volume), đa dạng, phức tạp (Variety) và tăng trƣởng nhanh chóng (Velocity)[8]. Dữ liệu lớn thƣờng đề cập tới các kiểu dữ liệu nhƣ sau: - Dữ liệu doanh nghiệp truyền thống: bao gồm các thông tin khách hàng, dữ liệu giao dịch, dữ liệu kế toán tổng hợp. - Dữ liệu cảm biến hoặc máy sinh dữ liệu: bao gồm các bản ghi chi tiết các cuộc gọi, nhật ký web, hệ đo thông minh, dữ liệu từ các cảm biến, các hệ thống dữ liệu truyền thống. - Dữ liệu xã hội: bao gồm các luồng thông tin phản hồi của khách hàng, dữ liệu từ các trang nhật ký và mạng xã hội nhƣ Twitter, Facebook, 1.1.2. Giải pháp dữ liệu lớn của một số nhà cung cấp dịch vụ: * Giải pháp Big data của Oracle Oracle là nhà cung cấp đầu tiên cung cấp một giải pháp hoàn chỉnh và tích hợp để giải quyết đầy đủ yêu cầu về dữ liệu lớn của doanh nghiệp. Các dữ liệu lớn của Oracle tập trung trên ý tƣởng có thể phát triển kiến trúc dữ liệu doanh nghiệp hiện tại để kết hợp dữ liệu lớn và cung cấp giá trị kinh doanh, linh hoạt, hiệu suất để giải quyết yêu cầu về dữ liệu lớn với doanh nghiệp. Với việc giới thiệu ứng dụng Quản lý Dữ liệu lớn (Oracle Big Data Appliance), Oracle cung cấp một giải pháp hoàn chỉnh đáp ứng mọi yêu cầu liên quan đến dữ liệu lớn của doanh nghiệp. Thiết bị xử lý dữ liệu lớn Oracle Big Data Appliance, cùng với máy chủ cơ sở dữ liệu Oracle Exadata và Máy chủ thông tin hỗ trợ ra quyết định Oracle Exalytics mới, giúp khách hàng có để thu thập, tổ chức, phân tích và khai thác tối đa giá trị của dữ liệu lớn. Oracle Big Data Appliance có thể đƣợc tích hợp dễ dàng với cơ sở dữ liệu Oracle Database 11g, Oracle Exadata Database Machine và Oracle Exalytics Business Intelligence Machine. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ * Giải pháp Big Data của Microsoft Giải pháp Big Data của Microsoft dựa trên nền tảng SQL Server, Hadoop, Windows Azure và Windows Server, cung cấp các công cụ quản lý, mở rộng nhằm đạt đƣợc cái nhìn sâu sắc hơn về dữ liệu của doanh nghiệp, thúc đẩy hiệu quả kinh doanh. Microsoft Big Data cho phép quản lý hầu nhƣ bất kỳ loại dữ liệu nào, bất kể kích thƣớc hoặc vị trí. Microsoft sử dụng SQL Server 2012 và SQL Server Parallel Data Warehouse để quản lý các dữ liệu lớn có cấu trúc. Với dữ liệu phi cấu trúc, Microsoft sử dụng Hadoop trên Windows Azure và Windows Server, sẽ cho phép xử lý dữ liệu phi cấu trúc với quy mô hàng petabyte. Với dữ liệu luồng, Microsoft sử dụng công cụ SQL Server StreamInsight để quản lý các dữ liệu luồng với thời gian thực. Microsoft Big Data cho phép làm phong phú thêm dữ liệu với bất kỳ loại dữ liệu nào: Cửa hàng dữ liệu Azure Marketplace cho phép các doanh nghiệp có đƣợc dữ liệu của bên thứ ba; bộ công cụ phòng thí nghiệm Data Explorer Azure dành cho các tập dữ liệu đề xuất và Data Hub dành cho việc tạo ra các cửa hàng dữ liệu riêng. 1.2. TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƢỜNG XUYÊN: Cho một CSDL đồ thị D, một hàm hỗ trợ của đồ thị G trong D, đƣợc viết là sup(G, D) là số lƣợng các đồ thị trong D có chứa đồ thị G nhƣ một cạnh tạo nên đồ thị con. Cho giá trị ngƣỡng hỗ trợ cực tiểu smin, vấn đề khai phá đồ thị con thƣờng xuyên bao gồm việc tìm ra các đồ thị liên thông thƣờng xuyên trong D. Có hai nhóm phƣơng pháp đƣợc đề xuất để giải quyết vấn đề trên, đó là: nhóm phƣơng pháp khai phá theo chiều rộng và nhóm phƣơng pháp khai phá theo chiều sâu: Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Một số kỹ thuật khai phá theo chiều rộng nhƣ: kỹ thuật AGM đƣợc phát triển bởi Inokuchi, kỹ thuật FSG đƣợc đề xuất bởi Kuramochi và Karypis. Các kỹ thuật này khai phá đồ thị theo từng mức trong đó mỗi mức chứa các đồ thị có nhiều hơn một đỉnh hoặc một cạnh so với mức trƣớc đó. Các đồ thị thƣờng xuyên của mức tiếp theo đƣợc tìm ra bằng cách, đầu tiên tạo ra các đồ thị ứng viên với các cặp đồ thị của mức hiện tại, sau đó lọc ra các đồ thị không thƣờng xuyên. Ƣu điểm chính của những kỹ thuật này dựa trên nguyên tắc ƣu tiên bằng cách một đồ thị chỉ đƣợc xem là thƣờng xuyên nếu tất cả các đồ thị con của nó là thƣờng xuyên. Vì một đồ thị đƣợc tìm ra sau khi tìm ra các đồ thị con của nó, do đó có thể loại bỏ các đồ thị không thƣờng xuyên mà không cần phải tính toán hàm hỗ trợ của chúng bằng cách kiểm tra nếu các đồ thị con của chúng là thƣờng xuyên. Tuy nhiên, nhóm phƣơng pháp tìm kiếm theo chiều rộng có hai vấn đề đó là: sinh ra nhiều đồ thị ứng viên và yêu cầu về lƣu trữ các đồ thị thƣờng xuyên ở mỗi mức. Nhóm phƣơng pháp khai phá theo chiều sâu đã khắc phục những vấn đề này bằng cách tìm kiếm đồ thị theo chiều sâu, có thể kể đến một số thuật toán nhƣ: gSpan đƣợc đề xuất bởi Han và Yan, FFSM đƣợc đề xuất bởi Huan, và GASTON bởi Nijssen và Kok. Tƣ tƣởng của nhóm phƣơng pháp này bắt đầu với một đồ thị có chứa một đỉnh hoặc một cạnh thƣờng xuyên, những kỹ thuật này đƣợc mở rộng đệ quy bằng cách thêm mới một cạnh giữa hai đỉnh hiện tại hoặc thêm mới một đỉnh kết nối tới một đỉnh hiện tại khác. Vì một đồ thị là không thƣờng xuyên hơn các đồ thị con của nó, do đó không cần mở rộng tới các đồ thị không thƣờng xuyên. Các đồ thị không thƣờng xuyên có thể đƣợc bỏ bớt mà không xảy ra rủi ro gì trong quá trình khai phá. 1.3. KẾT LUẬN Chƣơng 1 trình bày tổng quan về khai phá dữ liệu đồ thị trong đó có nêu vấn đề của khai phá dữ liệu đồ thị là tìm những thông tin hữu ích trong một Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ lƣợng lớn dữ liệu, đƣa ra định nghĩa chung nhất về dữ liệu lớn (Big Data) và các giải pháp Big Data của Oracle và Microsoft. Trình bày tổng quan về khai phá đồ thị con thƣờng xuyên theo hai nhóm phƣơng pháp đó là nhóm phƣơng pháp khai phá theo chiều rộng và nhóm phƣơng pháp khai phá theo chiều sâu cùng với ƣu và nhƣợc điểm của hai nhóm phƣơng pháp này. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƢỜNG XUYÊN 2.1. CƠ SỞ LÝ THUYẾT ĐỒ THỊ Chúng ta biểu diễn tập đỉnh của đồ thị g bằng V(g) và tập cạnh bằng E(g). Một hàm nhãn L ánh xạ một đỉnh hoặc một cạnh tới một nhãn. Một đồ thị glà một đồ thị con của đồ thị g ’ khác nếu tồn tại một đồ thị con đẳng cấu từ g tới g ’ . 2.1.1. Định nghĩa 2.1 (Graph): Chomột nhãn node bằng chữ cái (alphabet) L V và một nhãn cạnh bằng chữ cái L E đồ thị g (có hƣớng) đƣợc định nghĩa bằng bộ gồm 4 thành phần g=(V , E, µ, ν), trong đó: • V biểu diễn một tập hữu hạn các node. • E ⊆ V×V biểu diễn một tập các cạnh. • µ:V→L V biểu diễn một hàm ghi nhãn node. • ν:E→L E biểu diễn một hàm ghi nhãn cạnh. Tập V có thể đƣợc coi là một tập các định danh nút và thƣờng đƣợc chọn bằng V = {1, , | V |}. Trong khi V xác định các nút, tập các cạnh E thể hiện cấu trúc của đồ thị. Đó là một nút u ∈ V đƣợc kết nối với một nút v ∈ V bằng một cạnh= (u, v) nếu (u, v) ∈ E. Hàm ghi nhãn có thể đƣợc sử dụng để tích hợp thông tin về các node và các cạnh vào trong các đồ thị bằng cách gán các thuộc tính từ L V và L E tới các node và các cạnh tƣơng ứng. Đồ thị đƣợc định nghĩa ở trên bao gồm một số trƣờng hợp đặc biệt. Để định nghĩa đồ thị vô hƣớng, cho một thể hiện yêu cầu Evu, cho mỗi cạnh Evu, sao cho ν(u, v) = ν(v, u). Trong trƣờng hợp đồ thị không thuộc tính, bảng chữ cái nhãn đƣợc xác định bởi EV LL , bởi vậy mỗi node và mỗi Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ cạnh đƣợc gán nhãn null nhãn . Đồ thị rỗng đƣợc định nghĩa bằng g ε =( ∅ , ∅ ,µ ε ,ν ε ). 2.1.2. Định nghĩa 2.2 (Subgraph): Cho g 1 =(V 1 ,E 1 ,µ 1 ,ν 1 ) và g 2 =(V 2 ,E 2 ,µ 2 ,ν 2 ) là các đồ thị, đồ thị g 1 là một đồ thị con của g 2 , ký hiệu g 1 ⊆ g 2 nếu • V 1 ⊆ V 2 . • E 1 =E 2 ∩(V 1 ×V 1 ). • µ 1 (u) = µ 2 (u) cho tất cả u ∈ V 1 . • ν 1 (u, v)=ν 2 (u, v) cho tất cả (u, v) ∈ E 1 . Ngƣợc lại, đồ thị g 2 đƣợc gọi là một đồ thị con của g 1 đôi khi điều kiện thứ hai của định nghĩa này đƣợc thay thế bằng E 1 ⊆ E 2 . 2.1.3. Định nghĩa 2.3 (Graph Isomorphism): Cho g 1 =(V 1 ,E 1 ,µ 1 ,ν 1 ) và g 2 =(V 2 ,E 2 ,µ 2 ,ν 2 ) là các đồ thị.Một đồ thị đẳng cấu giữa g 1 và g 2 là một hàm song ánh f:V 1 →V 2 thỏa mãn: • µ 1 (u)=µ 2 (f (u)) cho tất cả các node u ∈ V 1 . • Cho mỗi cạnh e 1 =(u, v) ∈ E 1 , tồn tại một cạnh e 2 =(f (u), f (v)) ∈ E 2 sao cho ν 1 (e 1 )=ν 2 (e 2 ). • Cho mỗi cạnh e 2 =(u, v) ∈ E 2 , tồn tại một cạnh e 1 =(f -1 (u), f -1 (v)) ∈ E 1 sao cho ν 1 (e 1 )=ν 2 (e 2 ). Hai đồ thị g 1 và g 2 đƣợc gọi là đẳng cấu nếu tồn tại một đồ thị đẳng cấu giữa chúng. [...]... hơn bằng cách loại bỏ một số node và một số cạnh Để minh họa hai đồ thị với một đồ thị con đẳng cấu giữa chúng xem hình 2.1(a) và hình 2.1(c) 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): Cho g1=(V1,E1,µ1,ν1) và g2=(V2,E2,µ2,ν2) là các đồ thị Một đồ thị g =(V,E,µ,ν) đƣợc gọi là một đồ thị con phổ biến của g1 và g2 nếu tồn tại đồ thị con đẳng cấu từ g tới g1 và từ g tới g2 Một đồ thị con phổ... cấu với một đồ thị con của (a) 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): Cho g1=(V1,E1,µ1,ν1) và g2=(V2,E2,µ2,ν2) là các đồ thị Một hàm đơn ánh f:V1→V2 đƣợc gọi là một đồ thị con đẳng cấu từ g1 tới g2 nếu tồn tại một đồ thị con g⊆g2 sao cho f là một đồ thị đẳng cấu giữa g1 và g Một đồ thị con đẳng cấu tồn tại từ g1 tới g2 nếu đồ thị g2 lớn hơn có thể trở thành một đồ thị đẳng cấu tới đồ thị g1 nhỏ... Song ánh f là một đẳng cấu giữa G và G’, ta cũng nói rằng G là một đẳng cấu tới G’ và ngƣợc lại * Định nghĩa 3.9 Một đồ thị gán nhãn G là một đồ thị con đẳng cấu với một đồ thị gán nhãn G‟ ký hiệu G G ' nếu tồn tại một đồ thị con G '' của G sao cho G đẳng cấu với G '' * Định nghĩa 3.10: Cho một tập đồ thị GD (đƣợc xem nhƣ một cơ sở dữ liệu đồ thị) và một ngƣỡng (0 1) , độ support của một đồ thị G ký hiệu... mẫu Cho mỗi đồ thị g đƣợc phát hiện nó thực hiện việc mở rộng đệ quy cho tới khi tất cả các đồ thị con thƣờng xuyên nhúng với g đƣợc phát hiện Đệ quy dừng khi không có đồ thị con thƣờng xuyên đƣợc phát sinh nữa .Thuật toán 2.4 đơn giản nhƣng không hiệu quả Vấn đề là sự kém hiệu quả ở việc mở rộng đồ Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ thị. Cùng một đồ thị có thể đƣợc phát hiện nhiều... SupG đƣợc định nghĩa nhƣ một phần của các đồ thị trong GD mà G là đồ thị con đẳng cấu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ G là thƣờng xuyên nếu SupG Khai phá đồ thị con thƣờng xuyên là cho một ngƣỡng và một cơ sở dữ liệu đồ thị GD, tìm tất cả các đồ thị con thƣờng xuyên trong GD Hình 3.6 Ba ma trận kề của đồ thị gán nhãn P trong hình 3.5 Ba ma trận kề của đồ thị P trong hình 3.5,... G' một V ', E', ' V , cặp ' E đồ thị gán nhãn G V , E, V và ,l ' G là một đồ thị con của G‟ nếu: V' V u V ' , l (u ) E' E u, v G' l ' (u ) E , l (u, v) l ' (u, v) cũng xem nhƣ một đồ thị con của G Hình 3.5: ví dụ cho hai đồ thị gán nhãn và một đồ thị con đẳng cấu Đồ thị P có bốn node p1 , p2 , p3 , p4 đồ thị Q có ba node q1 , q2 , q3 nhãn của các đỉnh đƣợc xác định trong vòng tròn và nhãn của các. .. diễn trên dòng 4 các đồ thị mới đƣợc hình thành và sau đó đƣợc kiểm tra tần suất xuất hiện của chúng Các đồ thị con thƣờng xuyên đƣợc phát hiện và sử dụng để phát sinh các ứng viên lớn hơn trong các vòng lặp kế tiếp Thuật toán 2.3 Apriori(D, min_support,Sk) [10,tr.101] Ý tƣởng chính của thuật toán khai phá cấu trúc con thƣờng xuyên dựa trên Apriori là bƣớc phát sinh các ứng viên .Phát sinh các ứng viên... frequency(g)) là phần trăm (hoặc số) của các đồ thị trong D trong đó g là một đồ thị con Một đồ thị là thƣờng xuyên nếu độ hỗ trợ của nókhông nhỏ hơn ngƣỡng hỗ trợ tối thiểu minsupport Hình 2.3 Mẫu cơ sở dữ liệu đồ thị Hình 2.4 Các đồ thị con thƣờng xuyên Ví dụ 2.1: Hình 2.3 biểu diễn một mẫu cơ sở dữ liệu đồ thị biểu diễn cấu trúc hóa học , hình 2.4 mô tả hai đồ thị con thƣờng xuyên trong tập dữ liệu này... biểu diễn một cây mã DFS, các node mức nth chứa mã DFS của các đồ thị (n-1) – cạnh Qua việc tìm kiếm của cây mã, tất cả các mã DFS tối thiểu của các đồ thị con thƣờng xuyên có thể đƣợc phát hiện Nghĩa là tất cả các đồ thị con thƣờng xuyên có thể đƣợc phát hiện bằng cách thức này Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Thuật toán 3.3: GraphSet_Projection(D,S) [9,tr.5-6] Thủ tục con : Subgraph... số đồ thị và thực hiện việc tìm kiếm tƣơng tự trong cơ sở dữ liệu đồ thị lớn Chƣơng 2 trình bày cơ sở lý thuyết đồ thị và tổng quan về các phƣơng pháp hiệu quả khai phá các cấu trúc con thƣờng xuyên đồng thời đƣa ra hai cách tiếp cận đó là tiếp cận dựa trên Apriori và tiếp cận dựa trên sự phát triển mẫu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 3: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ . về các phƣơng pháp khai phá dữ liệu đồ thị. 2. Tìm hiểu các thuật toán phát hiện đồ thị con thƣờng xuyên trong CSDL đồ thị. 3. Cài đặt thử nghiệm thuật toán phát hiện các đồ thị con thƣờng xuyên. các đồ thị con trong CSDL đồ thị và tính toán hàm hỗ trợ của các đồ thị con này trong CSDL. Do các đỉnh của đồ thị có thể đƣợc sắp xếp theo nhiều cách, một đồ thị có thể có số lƣợng lớn các. đỉnh của đồ thị g bằng V(g) và tập cạnh bằng E(g). Một hàm nhãn L ánh xạ một đỉnh hoặc một cạnh tới một nhãn. Một đồ thị glà một đồ thị con của đồ thị g ’ khác nếu tồn tại một đồ thị con đẳng