1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và thử nghiệm một số thuật toán phát hiện các đồ thị con thường xuyên

80 114 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 2,25 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN NGỌC ANH NGHIÊN CỨU VÀ THỬ NGHIỆM MỘT SỐ THUẬT TOÁN PHÁT HIỆN CÁC ĐỒ TH CON THNG XUYấN Luận văn thạc Sĩ KHOA HC MY TNH Thái Nguyên 2014 S húa bi Trung tõm Học liệu tnu.edu.vn/ MỞ ĐẦU Hiện nay, phương pháp khai phá liệu phải đối diện với vấn đề số lượng ngày gia tăng đối tượng liệu phức tạp Bên cạnh đồ thị cấu trúc liệu tổng quát, sử dụng để mơ hình hóa đối liệu tượng phức tạp vấn đề khai phá đồ thị thường xuyên vấn đề quan trọng khai phá đồ thị Việc khai phá đồ thị để tìm đồ thị thường xuyên nhằm xác định tất đồ thị tập liệu đồ thị với giá trị ngưỡng cho trước [1],[3] Những khó khăn vấn đề khai phá đồ thị thường xuyên nảy sinh hai vấn đề, là: liệt kê tất đồ thị CSDL đồ thị tính tốn hàm hỗ trợ đồ thị CSDL Do đỉnh đồ thị xếp theo nhiều cách, đồ thị có số lượng lớn hình học tương đương, gọi đồ thị đẳng cấu Để liệt kê tất đồ thị con, ta phải tính tốn phù hợp với quy tắc biểu diễn đồ thị để giải vấn đề đồ thị đẳng cấu Hơn nữa, việc kiểm tra đồ thị có chứa CSDL đồ thị hay khơng xem tốn NP-khó gọi toán đồ thị đẳng cấu Trong tất trường hợp, việc tính tốn hàm hỗ trợ chiếm chi phí nhiều việc tìm đồ thị thường xuyên CSDL Tuy nhiên, phức tạp vấn đề giảm CSDL đồ thị có thêm thơng tin đỉnh cạnh gán nhãn Có thể sử dụng nhãn để hạn chế đỉnh tạo thành cặp q trình kiểm tra đẳng cấu đồ thị Tuy nhiên, CSDL đồ thị chưa gán nhãn có số nhãn độ phức tạp tốn làm giảm đáng kể kích thước tập liệu Như vậy, vấn đề khai phá đồ thị nói chung khai phá đồ thị thường xun nói riêng gặp nhiều khó khăn, ta cần lựa chọn phương pháp Số hóa Trung tâm Học liệu tnu.edu.vn/ thuật toán phù hợp để giải cho toán cụ thể, đem lại hiệu cao ý nghĩa thực tiễn đề tài  Nội dung luận văn vấn đề cần giải quyết: Tìm hiểu phương pháp khai phá liệu đồ thị Tìm hiểu thuật tốn phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thường xuyên CSDL đồ thị  Phương pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị với trọng tâm phát đồ thị thường xuyên CSDL đồ thị + Tìm hiểu nguồn thơng tin từ sách,bài báo,tạp chí, Internet ,liên quan đến khai phá liệu đồ thị  Cấu trúc luận văn chia làm chương: Chương 1: “ Tổng quan khai phá liệu đồ thị ” trình bày tổng quan hướng nghiên cứu khai phá liệu đồ thị Chương 2: “ Phát cấu trúc thường xuyên ” trình bày sở lý thuyết đồ thị, cách tiếp cận dựa Apriori, cách tiếp cận dựa phát triển mẫu Chương 3: “ Các thuật toán phát đồ thị thường xuyên ” trình bày số thuật toán phát đồ thị thường xuyên theo chiến lược tìm kiếm theo chiều rộng chiều sâu Chương 4: “ Thiết kế hệ thống thử nghiệm ” trình bày kết cài đặt thuật tốn chương Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn dạng cấu trúc liệu đồ thị, chẳng hạn như: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học, Do đó, khai phá liệu đồ thị nhằm tìm kiếm thơng tin hữu ích lượng lớn liệu vấn đề nhà nghiên cứu tổ chức CNTT quan tâm 1.1.1 Định nghĩa liệu lớn: Hiện nay, thuật ngữ “Dữ liệu lớn” (Big data) thu hút quan tâm đặt thách thức với nhà nghiên cứu, nhà cung cấp dịch vụ công nghệ thông tin tổ chức, doanh nghiệp Dữ liệu lớn xem đời tất yếu q trình bùng nổ thơng tin Trong nhiều năm qua, doanh nghiệp thường đưa định kinh doanh dựa liệu giao dịch lưu trữ sở liệu quan hệ Ngoài liệu quan trọng lại thường dạng tiềm năng, phi truyền thống, phi cấu trúc lại khai thác cách hữu ích, giảm chi phí lưu trữ tính tốn Khi liệu lớn được khai thác phân tích, kết hợp với liệu doanh nghiệp truyền thống doanh nghiệp có nhìn tồn diện sâu sắc tình hình kinh doanh họ, dẫn tới nâng cao suất vị cạnh tranh Do đó, ngày có nhiều cơng ty tìm kiếm để có liệu phi truyền thống có giá trị cơng việc kinh doanh Có thể định nghĩa cách chung “Dữ liệu lớn” tập hợp tập liệu lớn và/hoặc phức tạp mà phương pháp CNTT chưa thể phân tích xử lý tốt chúng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Dữ liệu lớn bao gồm tính chất độ lớn lưu trữ (Volume), đa dạng, phức tạp (Variety) tăng trưởng nhanh chóng (Velocity)[8] Dữ liệu lớn thường đề cập tới kiểu liệu sau: - Dữ liệu doanh nghiệp truyền thống: bao gồm thông tin khách hàng, liệu giao dịch, liệu kế toán tổng hợp - Dữ liệu cảm biến máy sinh liệu: bao gồm ghi chi tiết gọi, nhật ký web, hệ đo thông minh, liệu từ cảm biến, hệ thống liệu truyền thống - Dữ liệu xã hội: bao gồm luồng thông tin phản hồi khách hàng, liệu từ trang nhật ký mạng xã hội Twitter, Facebook, 1.1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: * Giải pháp Big data Oracle Oracle nhà cung cấp cung cấp giải pháp hồn chỉnh tích hợp để giải đầy đủ yêu cầu liệu lớn doanh nghiệp Các liệu lớn Oracle tập trung ý tưởng phát triển kiến trúc liệu doanh nghiệp để kết hợp liệu lớn cung cấp giá trị kinh doanh, linh hoạt, hiệu suất để giải yêu cầu liệu lớn với doanh nghiệp Với việc giới thiệu ứng dụng Quản lý Dữ liệu lớn (Oracle Big Data Appliance), Oracle cung cấp giải pháp hoàn chỉnh đáp ứng yêu cầu liên quan đến liệu lớn doanh nghiệp Thiết bị xử lý liệu lớn Oracle Big Data Appliance, với máy chủ sở liệu Oracle Exadata Máy chủ thông tin hỗ trợ định Oracle Exalytics mới, giúp khách hàng có để thu thập, tổ chức, phân tích khai thác tối đa giá trị liệu lớn Oracle Big Data Appliance tích hợp dễ dàng với sở liệu Oracle Database 11g, Oracle Exadata Database Machine Oracle Exalytics Business Intelligence Machine Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ * Giải pháp Big Data Microsoft Giải pháp Big Data Microsoft dựa tảng SQL Server, Hadoop, Windows Azure Windows Server, cung cấp công cụ quản lý, mở rộng nhằm đạt nhìn sâu sắc liệu doanh nghiệp, thúc đẩy hiệu kinh doanh Microsoft Big Data cho phép quản lý loại liệu nào, kích thước vị trí Microsoft sử dụng SQL Server 2012 SQL Server Parallel Data Warehouse để quản lý liệu lớn có cấu trúc Với liệu phi cấu trúc, Microsoft sử dụng Hadoop Windows Azure Windows Server, cho phép xử lý liệu phi cấu trúc với quy mô hàng petabyte Với liệu luồng, Microsoft sử dụng công cụ SQL Server StreamInsight để quản lý liệu luồng với thời gian thực Microsoft Big Data cho phép làm phong phú thêm liệu với loại liệu nào: Cửa hàng liệu Azure Marketplace cho phép doanh nghiệp có liệu bên thứ ba; cơng cụ phòng thí nghiệm Data Explorer Azure dành cho tập liệu đề xuất Data Hub dành cho việc tạo cửa hàng liệu riêng 1.2 TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN: Cho CSDL đồ thị D, hàm hỗ trợ đồ thị G D, viết sup(G, D) số lượng đồ thị D có chứa đồ thị G cạnh tạo nên đồ thị Cho giá trị ngưỡng hỗ trợ cực tiểu smin, vấn đề khai phá đồ thị thường xuyên bao gồm việc tìm đồ thị liên thơng thường xun D Có hai nhóm phương pháp đề xuất để giải vấn đề trên, là: nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Một số kỹ thuật khai phá theo chiều rộng như: kỹ thuật AGM phát triển Inokuchi, kỹ thuật FSG đề xuất Kuramochi Karypis Các kỹ thuật khai phá đồ thị theo mức mức chứa đồ thị có nhiều đỉnh cạnh so với mức trước Các đồ thị thường xuyên mức tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị khơng thường xun Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồ thị xem thường xuyên tất đồ thị thường xuyên Vì đồ thị tìm sau tìm đồ thị nó, loại bỏ đồ thị khơng thường xun mà khơng cần phải tính tốn hàm hỗ trợ chúng cách kiểm tra đồ thị chúng thường xuyên Tuy nhiên, nhóm phương pháp tìm kiếm theo chiều rộng có hai vấn đề là: sinh nhiều đồ thị ứng viên yêu cầu lưu trữ đồ thị thường xuyên mức Nhóm phương pháp khai phá theo chiều sâu khắc phục vấn đề cách tìm kiếm đồ thị theo chiều sâu, kể đến số thuật toán như: gSpan đề xuất Han Yan, FFSM đề xuất Huan, GASTON Nijssen Kok Tư tưởng nhóm phương pháp bắt đầu với đồ thị có chứa đỉnh cạnh thường xuyên, kỹ thuật mở rộng đệ quy cách thêm cạnh hai đỉnh thêm đỉnh kết nối tới đỉnh khác Vì đồ thị khơng thường xun đồ thị nó, khơng cần mở rộng tới đồ thị không thường xuyên Các đồ thị khơng thường xun bỏ bớt mà khơng xảy rủi ro q trình khai phá 1.3 KẾT LUẬN Chương trình bày tổng quan khai phá liệu đồ thị có nêu vấn đề khai phá liệu đồ thị tìm thơng tin hữu ích Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ lượng lớn liệu, đưa định nghĩa chung liệu lớn (Big Data) giải pháp Big Data Oracle Microsoft Trình bày tổng quan khai phá đồ thị thường xuyên theo hai nhóm phương pháp nhóm phương pháp khai phá theo chiều rộng nhóm phương pháp khai phá theo chiều sâu với ưu nhược điểm hai nhóm phương pháp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƯƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƯỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ Chúng ta biểu diễn tập đỉnh đồ thị g V(g) tập cạnh E(g) Một hàm nhãn L ánh xạ đỉnh cạnh tới nhãn Một đồ ’ thị glà đồ thị đồ thị g khác tồn đồ thị đẳng cấu từ ’ g tới g 2.1.1 Định nghĩa 2.1 (Graph): Chomột nhãn node chữ (alphabet) LV nhãn cạnh chữ LE đồ thị g (có hướng) định nghĩa gồm thnh phn g=(V , E, à, ), ú: V biểu diễn tập hữu hạn node • EVìV biu din mt cỏc cnh à:VLV biu diễn hàm ghi nhãn node • ν:E→LE biểu diễn hàm ghi nhãn cạnh Tập V coi tập định danh nút thường chọn V = {1, , | V |} Trong V xác định nút, tập cạnh E thể cấu trúc đồ thị Đó nút u ∈ V kết nối với nút v ∈ V cạnh= (u, v) (u, v) ∈ E Hàm ghi nhãn sử dụng để tích hợp thơng tin node cạnh vào đồ thị cách gán thuộc tính từ LV LE tới node cạnh tương ứng Đồ thị định nghĩa bao gồm số trường hợp đặc biệt Để định nghĩa đồ thị vô hướng, cho thể yêu cầu u, E cho cạnh v u, v E cho ν(u, v) = ν(v, u) Trong trường hợp đồ thị khơng thuộc tính, bảng chữ nhãn xác định LV LE , node Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Nội dụng luận văn tìm hiểu vấn đề lý thuyết khai phá liệu đồ thị: bao gồm sở lý thuyết đồ thi,cách tiếp cận phát cấu trúc thường xuyên dựa vào thuật toán Apriori cách tiếp cận dựa phát triển mẫu,nội dung thuật tốn phát đồ thị thường xuyên với ngưỡng hỗ trợ tối thiểu minsup cho trước tập sở liệu đồ thị Luận văn tập trung vào hai chiến lược tìm kiếm chiến lược tìm kiếm theo chiều rộng gồm thuật toán Subdue, FSM chiến lược tìm kiếm theo chiều sâu gồm thuật tốn gSpan, FFSM, Grew Chương trình thử nghiệm xây dựng nhằm chứng minh tính khả thi kết nghiên cứu Chương trình hồn thiện cần có đầu tư nhiều mặt thời gian công sức Đề tài tiếp tục phát triển để đem lạiứng dụng đáp ứng yêu cầu thực tế HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Xây dựng chương trình thực nghiệm với giao diện đồ họa thân thiện với người dùng trình nhập tham số đầu vào thuật toán.Tiếp tục nghiên cứu cài đặt thuật toán khai phá đồ thị thường xuyên khác (Subdue, FSM FFSM,Grew) để khẳng định tính hiệu chúng khai phá liệu đồ thị từ kho liệu đồ thị lớn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ TÀI LIỆU THAM KHẢO Tiếng Anh: [1] D.J.Cook and L.B.Holder (2000), Graph Base Data Mining, IEEE Intelligent Systems, 15(2),pp 32-41 [2] J Huan, W Wang, and J Prins (2003), Efficient mining of frequent subgraph in the presence of isomorphism In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM),pp.549-552 [3] L.B.Holder,D.J.Cook and S.Djoko(1994), Substructure Discovery in the SUBDUE System.In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pp 169 -180 [4] J R Ullman (1976), An algorithm for subgraph isomorphism.Journal of theACM,23(1),pp.31–42 [5] M Moy(May 2005) Using tmods to run the best friends group detection algorithm 21st CenturyTechnologies Internal Publication [6] Jun Huan, Wei Wang, Jan Prins, Efficient Mining of Frequent Subgraph in the Presence of Isomorphism, pp.1-16 [7] Lawrence B Holder,Nikhil S Ketkar,Diane J Cook,Subdue: Compression-Based Frequent Pattern Discovery in Graph Data, pp.5-6 [8] Bismita Srichandan, Rajshekhar Sunderraman, OO-FSG: An Object- Oriented Approach to Mine Frequent Subgraphs,pp.11-12 [9] Xifeng Yan,Jiawei Han,gSpan: Graph-Based Substructure Pattern Mining, pp.5-6 [10] Lawrence B Holder,Diane J Cook,Mining Graph Data Wiley- interscience a john wiley & sons, inc., publication ,pp 101-154 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn tự sưu tầm, tra cứu phát triển thuật toán đáp ứng nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức khơng chép từ cơng trình nghiên cứu Tất phần mã nguồn chương trình tơi tự tìm kiếm xây dựng thử nghiệm Nếu sai tơi xin tơi xin hồn tồn chịu trách nhiệm Thái Nguyên, tháng 09 năm 2014 Người cam đoan Nguyễn Ngọc Anh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo trường Đại học Công nghệ thông tin & truyền thông - Đại học Thái ngun ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học K11I - trường Đại học Công nghệ thông tin & truyền thông thuộc Đại học Thái ngun ln động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khố học Tơi xin chân thành cảm ơn Ban giám hiệu trường Đại học công nghiệp thành phố Hồ Chí Minh, ban lãnh đạo sở trường Đại học cơng nghiệp thành phố Hồ Chí Minh sở Thanh hóa, lãnh đạo khoa cơng nghệ sở tạo điều kiện tốt để tơi hồn thành tốt đẹp khố học Cao học Đặc biệt tơi xin bày tỏ lòng biết ơn sâu sắc đến thầy giáoTS.Nguyễn Như Sơn tận tình giúp đỡ tơi hình thành, nghiên cứu hồn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn khơng tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, cô giáo đồng nghiệp gần xa Thái nguyên, tháng 09 năm 2014 Người thực luận văn Nguyễn Ngọc Anh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Công nghệ thông tin CNTT Công nghệ thông tin Cơ sở liệu CSDL Cơ sở liệu Directed Acyclic Graph DAG Đồ thị định hướng phi chu trình FSM Khai phá đồ thị thường xuyên AGM Khai phá đồ thị dựa Apriori Frequent Subgraphs Mining Apriori Graph Mining Fast Frequent Subgraph Mining Canonical Adjacency Matrix Maximum Common Subgraph FFSM Khai phá đồ thị thường xuyên bền vững CAM Ma trận kề tắc MCS Đồ thị phổ biến cực đại Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC HÌNH VẼ , BẢNG BIỂU Hình 2.1 (b) đẳng cấu với (a), (c) đẳng cấu với đồ thị (a) 11 Hình 2.3 Mẫu sở liệu đồ thị 12 Hình 2.4 Các đồ thị thường xuyên 12 Hình 2.5: Tám khơng có thứ tự nhận từ có thứ tự 14 Hình 3.1 Đồ thị hình A sau nén biểu diễn hình B 22 Hình 3.2–Biểu diễn đồ thị tập liệu .25 Hình 3.3 Cây tìm kiếm theo chiều sâu .28 Hình 3.4 Mã DFS/ Đồ thị gia tăng 31 Hình 3.5 Biểu diễn hai đồ thị đẳng cấu 34 Hình 3.6 Ba ma trận kề đồ thị gán nhãn P hình 3.5 35 Hình 3.7 Biểu diễn ma trận riêng cực đại 35 „Hình 3.8 Cây CAM đồ thị P hình 3.5 38 Hình 3.9 Biểu diễn thao tác hòa nhập cho bốn trường hợp 41 Hình 3.10 Cây CAM tối ưu đồ thị P biểu diễn hình 3.5 43 Hình 4.1 Tệp input.lgp biểu diễn đồ thị đầu vào .56 Hình 4.2 Giao diện biễu diễn đồ thị .57 Hình 4.3 Biễu diễn đồ thị .57 Hình 4.4 Cơ sở liệu đồ thị đầu vào 58 Hình 4.5 Tập kết đồ thị thường xuyên .59 Hình 4.6 Hiệu suất thuật toán chạy với số đồ thị giao dịch thay đổi 60 Hình 4.7 Hiệu suất thuật tốn chạy với ngưỡng hỗ trợ tối thiểu thay đổi 61 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ĐỒ THỊ: .4 1.1.1 Định nghĩa liệu lớn: .4 1.1.2 1.2 Giải pháp liệu lớn số nhà cung cấp dịch vụ: TỔNG QUAN VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN: 1.3 KẾT LUẬN .7 CHƯƠNG 2: PHÁT HIỆN CÁC CẤU TRÚC CON THƯỜNG XUYÊN 2.1 CƠ SỞ LÝ THUYẾT ĐỒ THỊ 2.1.1 Định nghĩa 2.1 (Graph): .9 2.1.2 Định nghĩa 2.2 (Subgraph): 10 2.1.3 Định nghĩa 2.3 (Graph Isomorphism): 10 2.1.4 Định nghĩa 2.4 (Subgraph Isomorphism): 11 2.1.5 Định nghĩa 2.5 (Maximum Common Subgraph, MCS): 11 2.1.6 Định nghĩa 2.6 (Frequent Graph) 12 2.2 CÁC DẠNG CHUẨN CỦA CÂY 12 2.2.1 Dạng chuẩn theo chiều rộng: 16 2.2.2 Dạng chuẩn theo chiều sâu: 17 2.3 2.4 CÁCH TIẾP CẬN DỰA TRÊN APRIORI 18 CÁCH TIẾP CẬN DỰA TRÊN SỰ PHÁT TRIỂN MẪU 20 2.5 KẾT LUẬN 21 CHƯƠNG 3: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƯỜNG XUYÊN 22 3.1 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU RỘNG: 22 3.1.1 Thuật toán SUBDUE 22 3.1.2 Thuật toán FSG 25 3.2 CHIẾN LƯỢC TÌM KIẾM THEO CHIỀU SÂU: 27 v 3.2.1 27 Thuật toán gSpan (Graph-Based Substructure Pattern Mining) 3.2.2 Thuật toán FFSM 32 3.2.3 Thuật toán GREW 45 3.3 KẾT LUẬN 51 CHƯƠNG 4: THIẾT KẾ HỆ THỐNG THỬ NGHIỆM THUẬT TOÁN 52 4.1 CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN gSpan 52 4.1.1 Mã lệnh thuật toán gSpan 52 4.1.2 Dữ liệu thử nghiệm 54 4.1.3 Biểu diễn đồ thị 57 4.2 ĐÁNH GIÁ 58 4.2.1 Kiểm tra thuật toán 58 4.2.2 Đánh giá thuật toán 59 4.3.KẾT LUẬN 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... liệu đồ thị Tìm hiểu thuật toán phát đồ thị thường xuyên CSDL đồ thị Cài đặt thử nghiệm thuật toán phát đồ thị thường xuyên CSDL đồ thị  Phương pháp nghiên cứu + Nghiên cứu khai phá liệu đồ thị. .. khai phá đồ thị theo mức mức chứa đồ thị có nhiều đỉnh cạnh so với mức trước Các đồ thị thường xuyên mức tìm cách, tạo đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị khơng thường xuyên Ưu... đồ thị đồng dạng khác đồ thị thường xuyên phát lời gọi cuối thuật toán 2.3 Thủ tục phát sinh ứng viên biểu diễn dòng đồ thị hình thành sau kiểm tra tần suất xuất chúng Các đồ thị thường xuyên phát

Ngày đăng: 12/02/2019, 12:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w