(Luận văn) khai phá đồ thị con thường xuyên trên mô hình mapreduce

79 1 0
(Luận văn) khai phá đồ thị con thường xuyên trên mô hình mapreduce

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN KIM NGỌC lu an n va KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN p ie gh tn to TRÊN MƠ HÌNH MAPREDUCE nl w Chun ngành: Khoa học máy tính d oa Mã số: 8480101 ul nf a nv a lu z at nh oi lm Người hướng dẫn: TS Trần Thiên Thành z om l.c gm @ an Lu n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Khai phá đồ thị thường xun mơ hình MapReduce” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn lu an n va p ie gh tn to d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th si LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trước tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc đến Thầy giáo hướng dẫn TS Trần Thiên Thành, người tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, xin gửi lời cảm ơn đến anh chị học viên lớp lu cao học Khoa học máy tính khóa trước giúp đỡ tơi nhiều q trình an n va học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình bạn hồn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để p ie gh tn to bè giúp đỡ, ủng hộ suốt trình học tập, nghiên cứu hồn thành thật tốt luận văn chắn cịn nhiều thiếu sót d thiện oa nl w mong nhận bảo Thầy Cơ giáo để luận văn hồn z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th si MỤC LỤC MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Tổng quan tình hình nghiên cứu đề tài 1.3 Mục tiêu nhiệm vụ nghiên cứu 1.4 Nhiệm vụ nghiên cứu 1.5 Đối tượng phạm vi nghiên cứu CHƯƠNG 1: KIẾN THỨC TỔNG QUAN lu an 1.1 Đồ thị thường xuyên n va 1.1.1 Đồ thị gán nhãn 1.1.3 Đồ thị đẳng cấu gh tn to 1.1.2 Đồ thị p ie 1.1.4 Đồ thị đẳng cấu Đồ thị thường xuyên w 1.1.5 oa nl 1.2 Nền tảng Hadoop 11 Tổng quát Apache Hadoop 11 1.2.2 Kiến trúc Hadoop 11 1.2.3 Nguyên tắc hoạt động Hadoop MapReduce 14 d 1.2.1 nf a nv a lu lm ul 1.3 Mơ hình lập trình MapReduce 15 Tổng quan mơ hình MapReduce 15 1.3.2 Ngun tắc hoạt động mơ hình MapReduce 18 1.3.3 Một số toán ứng dụng mơ hình MapReduce [8] 20 1.3.4 Hadoop – Nền tảng lập trình mơ hình MapReduce 21 z at nh oi 1.3.1 z gm @ 1.4 Lập trình với mơ hình ứng dụng MapReduce 25 Phương pháp viết MapReduce job 25 1.4.2 Các kiểu liệu Hadoop hỗ trợ 26 1.4.3 Mapper 27 1.4.4 Reducer 29 om l.c 1.4.1 an Lu n va ac th si Chương trình Mapreduce Java 29 1.4.5 1.5 Kết luận chương 33 CHƯƠNG 2: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƯỜNG XUYÊN 34 2.1 Chiến lược tìm kiếm theo chiều rộng 34 2.1.1 Thuật toán Subdue 34 2.1.2 Thuật toán FSG 37 2.2 Chiến lược tìm kiếm theo chiều sâu 40 2.2.1 Thuật toán gSpan 40 lu an 2.2.2 Thuật toán FFSM 45 n va 2.3 So sánh đánh giá số thuật toán 50 MapReduce 52 gh tn to 2.4 Thuật toán khai phá đồ thị thường xun theo mơ hình lập trình p ie 2.5 Kết luận chương 59 CHƯƠNG 3: THỰC NGHIỆM 60 oa nl w 3.1 Cấu trúc liệu thử nghiệm 60 3.2 Triển khai thử nghiệm 62 d Thực nghiệm 62 3.2.2 Thực nghiệm 65 a nv a lu 3.2.1 ul nf 3.3 Đánh giá thuật toán 66 lm KẾT LUẬN 67 z at nh oi Kết đạt luận văn 67 Kiến nghị hướng nghiên cứu 67 69 z DANH MỤC TÀI LIỆU THAM KHẢO om l.c gm @ an Lu n va ac th si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên viết Thuật ngữ tắt CSDL Cơ sở liệu Ý nghĩa Cơ sở liệu CNTT Công nghệ thông tin Công nghệ thông tin HDFS Hadoop Distributed File System Hệ thống lưu trữ tập tin Hadoop Bài toán đếm từ WordCount FSM Frequent Subgraphs Mining FFSM Fast Frequent Subgraph Mining lu WC an Khai phá đồ thị thường n va xuyên xuyên bền vững p ie gh tn to Khai phá đồ thị thường CAM Canonical Adjacency Matrix Ma trận kề tắc d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách kiểu liệu Hadoop 26 Bảng 1.2 Một vài lớp thực Mapper định nghĩa trước Hadoop 28 Bảng 1.3 Danh sách số reduce cung cấp Hadoop 29 Bảng 2.1 Mã DFS tương ứng cho Hình 2.3 42 Bảng 2.2 Phân loại thuật toán FSM 51 Bảng 3.1 Bảng cấu trúc CSDL đồ thị 60 lu Bảng 3.2 Thời gian chạy FSM-H ba liệu với độ hỗ trợ khác an va 63 n Bảng 3.3 Thời gian chạy gSpan FSM-H 65 p ie gh tn to d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 3.1 Thời gian chạy liệu 500 đồ thị 63 Biểu đồ 3.2 Thời gian chạy liệu 700 đồ thị 63 Biểu đồ 3.3 Thời gian chạy liệu 1000 đồ thị 64 Biểu đồ 3.4 Thời gian xử lý liệu độ hỗ trợ 64 Biểu đồ 3.5 Biểu diễn thời gian xử lý gSpan FSM-H 65 lu an n va p ie gh tn to d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC HÌNH VẼ Hình 1.1 Đồ thị kết nối hóa học axit Sulfuric [13] Hình 1.2 Đồ thị đẳng cấu Hình 1.3 Đồ thị đẳng cấu Hình 1.4 Đồ thị thường xuyên [13] 10 Hình 1.5 Kiến trúc Hadoop 12 Hình 1.6 Mơ hình làm việc công việc MapReduce 17 lu Hình 1.7 Quy trình xử lý MapReduce [8] 19 an va Hình 1.8 Các thành phần Hadoop cluster 22 n Hình 1.9 Cách thức hoạt động HDFS 23 gh tn to Hình 1.10 Cơ chế hoạt động JobTracker TaskTracker Hadoop 24 p ie Hình 1.11 Biểu đồ phân cấp trình MapReduce 25 Hình 2.1 Đồ thị hình A sau nén biểu diễn hình B 34 oa nl w Hình 2.2 Biểu diễn đồ thị tập liệu 39 d Hình 2.3 Cây tìm kiếm theo chiều sâu 40 a nv a lu Hình 2.4 Mã DFS/ Đồ thị gia tăng 43 Hình 2.5 Ba ma trận kề đồ thị gán nhãn P Hình 1.3 45 nf lm ul Hình 2.6 Biểu diễn ma trận riêng cực đại 45 z at nh oi Hình 2.7 Cây CAM đồ thị P Hình 1.3 48 Hình 2.8 Giai đoạn phân vùng liệu 53 Hình 2.9 Giai đoạn chuẩn bị 54 z gm @ Hình 2.10 Giai đoạn khai phá 55 Hình 2.11 Sơ đồ mơ tả luồng thực thuật toán MapReduce 58 om l.c an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an MỞ ĐẦU 1.1 Lý chọn đề tài Kiến thức tảng trí tuệ yêu cầu quan trọng thúc đẩy phát triển mặt sống Ngày nay, công nghệ thông tin gần xuất lĩnh vực, điều đáp ứng nhu cầu cá nhân mà đem lại cho nhân loại lượng liệu khổng lồ vô phong phú Trong kho liệu phong phú ấy, lượng lớn kiến thức cịn ẩn chứa có ích cho người mà lu an thông qua phương pháp thông thường người không khám phá n va Nhận thấy tiềm liệu, nhà khoa học đề xuất nhiều kỹ thuật gh tn to phát tri thức hữu ích gọi chung “Khai phá liệu” Khai phá liệu đồ thị số lĩnh vực quan trọng p ie khai phá liệu Hầu hết nguồn liệu biểu diễn w dạng cấu trúc liệu đồ thị, chẳng hạn như: liệu từ mạng Internet, mạng oa nl xã hội, cấu trúc protein, hợp chất hóa học … Do đó, khai phá liệu đồ thị d nhằm tìm kiếm thơng tin hữu ích lượng lớn liệu vấn đề a lu a nv nhà nghiên cứu tổ chức công nghệ thông tin (CNTT) ul nf quan tâm lm Các thuật tốn khai phá liệu nói chung khai phá luật kết hợp nói z at nh oi riêng thường nghiên cứu áp dụng để giải tốn có kích thước khơng q lớn Với phát triển liệu tại, thuật toán dần z bộc lộ nhược điểm mình, địi hỏi có cải tiến để đáp ứng nhu cầu gm @ khai phá liệu ngày cao Hiện nay, có nhiều giải pháp đưa để l.c khắc phục nhược điểm thuật toán như: cải tiến thuật toán, dùng om máy tính chun biệt, sử dụng mơ hình phân tán … mục đích giải an Lu pháp chủ yếu làm tăng tốc độ thực thuật toán tập liệu lớn n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 56 Thuật toán FSM-H Mã giả thuật toán khai phá đồ thị thường xuyên với hàm mapper 𝑝 Mapper_FSM (𝐹𝑘 (x.min-dfs-code, x.obj)) 𝑝 Ck+1 = Candidate_generation (𝐹𝑘 ) forall c ∈ Ck+1 if isomorphism_checking(c) = true populate_occurrence_List(c) if length(c.occurrence_List) > emit (c.min-dfs-code, c.obj) lu an n va tn to 𝑝 p ie gh 𝐹𝑘 tập đồ thị thường xun có kích thước k có độ hỗ trợ khác không phân vùng cụ thể p w Mapper đọc liệu đồ thị từ HDFS nl 𝑝 oa Mỗi ứng viên 𝐹𝑘 biểu diễn cặp giá trị key-value Key d min-dfs-code ứng viên (x.min-dfs-code) Value object ứng a lu a nv viên (x.obj) z at nh oi lm 𝑝 cách mở rộng 𝐹𝑘 (dòng 1) ul nf Mapper tiến hành tạo tất ứng viên có kích thước k+1 Đối với ứng viên tạo ra, mapper tiến hành kiểm tra đẳng cấu c dựa mã min-dfs-code (dòng 3) z Điền danh sách xuất ứng viên c hợp lệ sở gm @ liệu đồ thị phân vùng p (dòng 4) l.c Nếu danh sách xuất đồ thị ứng viên không trống, mapper om xây dựng cho đồ thị cặp key-value (c.min-dfs-code, c.obj) sau an Lu reducer nhận cặp giá trị (dịng 6) n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 57 Mã giả thuật toán khai phá đồ thị thường xuyên với hàm reducer [13] Reducer_FSG (c.min-dfs-code, (c.obj)) [13]; forall obj (c.obj) support += length(obj.OL) if support ≥ minsup forall obj ∈ (c.obj) lu an write (c.min-dfs-code, obj) to HDFS va n Reducer nhận cặp giá trị key-value đồ thị có độ hỗ trợ khác tn to khơng (c.min-dfs-code, c.obj) Với obj thuộc c.obj, tính tốn tổng độ hỗ p ie gh trợ c dựa vào độ dài xuất obj Nếu độ hỗ trợ cao ngưỡng hộ trợ tối thiểu, reducer ghi nl w phần tử danh sách kết nối với min-dfs-code c vào HDFS, d oa mapper tiếp tục thực z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 58 lu an n va gh tn to p ie Hình 2.11 Sơ đồ mơ tả luồng thực thuật tốn MapReduce w Đầu tiên, tiến trình bắt đầu việc mapper đọc cặp key-value với oa nl kích thước mẫu k từ HDFS Như Hình 2.11 mô tả việc mapper tạo d tất đồ thị ứng viên có kích thước k+1 để kiểm tra đẳng cấu a lu a nv Đối với đồ thị kích thước k+1 thỏa mãn điều kiện đẳng cấu lm chuyển tiếp tới reducer ul nf đồ thị nhất, mapper tiến hành xây dựng key-value cho đồ thị z at nh oi Những cặp key-value xáo trộn xếp theo key, sau reducer nhận danh sách value key tiến hành tính tốn độ z hỗ trợ đồ thị ứng viên gm @ Nếu đồ thị ứng viên đồ thị thường xuyên, reducer tiến hành l.c ghi cặp key-value vào HDFS, mapper tiếp tục thực om Nếu khơng cịn đồ thị có kích thước k+1 thuật tốn dừng lại an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 59 2.5 Kết luận chương Chương trình bày thuật tốn phát đồ thị thường xun theo hai phương pháp tìm kiếm theo chiều rộng (Subdue, FSG) tìm kiếm theo chiều sâu (gSpan, FFSM) Cả hai phương pháp có ưu nhược điểm riêng sinh tập đồ thị kiểm tra có phải đồ thị đẳng cấu với đồ thị nằm tập liệu đồ thị hay khơng từ xác định độ hỗ trợ đồ thị ứng viên kết luận đồ thị ứng viên có thuộc tập đồ thị thường xuyên hay không Từ lu ưu nhược điểm đó, thuật tốn FSM-H đề xuất thực an mơ hình MapReduce Trong chương tiến hành thực nghiệm đánh va n giá thuật toán FSM-H p ie gh tn to d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 60 CHƯƠNG 3: THỰC NGHIỆM Trong chương tơi trình bày kết thực nghiệm việc thực thuật toán FSM-H vào khai phá đồ thị thường xuyên liệu đồ thị Dữ liệu đầu vào tạo từ công cụ Graphgen [8] Graphgen tạo tập đồ thị có nhãn, đồ thị có hướng vơ hướng Tập liệu tạo sử dụng để đánh giá hiệu suất thuật toán phát đồ thị thường xuyên Tôi tiến hành thực nghiệm tảng Hadoop Mapreduce theo mơ hình nhiều nút bao gồm nút master nút slave lu Cấu hình máy thực nghiệm: CPU Intel Core Duo CPU E8400 an n va 3.00GHz x 2, dung lượng ổ cứng 160 GB, ram GB, hệ điều hành Ubuntu tn to 14.04, Hadoop Framework phiên 2.7.3 gh 3.1 Cấu trúc liệu thử nghiệm p ie Dữ liệu thực nghiệm tệp liệu sở liệu (CSDL) đồ thị w đầu vào cho thuật tốn tìm đồ thị thường xuyên từ CSDL đồ thị Tệp d oa nl CSDL đồ thị có cấu trúc sau: Bảng 3.1 Bảng cấu trúc CSDL đồ thị a lu nf # z at nh oi lm ul Chú thích Định dạng a nv Loại dòng t # Đỉnh v z Đồ thị om l.c gm @ Giải thích ý nghĩa Ký hiệu báo hiệu thích, chương trình bỏ qua dịng có ký hiệu đầu Bắt đầu giao dịch hay đồ thị với id mô tả tên giao dịch hay đồ thị Dịng mơ tả đỉnh bắt đầu kí tự v Tiếp theo mã đỉnh (ID) nhãn đỉnh (Label) cách khoảng trống an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 61 Cạnh Dịng mơ tả cạnh bắt đầu ký tự e Tiếp theo mã đỉnh đầu (ID1), đỉnh cuối (ID2) cạnh nhãn (Label) cạnh cách khoảng trống e Ví dụ biểu diễn liệu đồ thị theo cấu trúc # thi lu an t#1 n va v03 v29 v34 p ie gh tn to v 13 w v47 z at nh oi z e145 lm e072 ul e059 nf e028 a nv e 18 a lu v73 d v63 oa nl v58 gm @ e 13 l.c e278 om e 15 an Lu e569 e579 n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 62 e672 # thi t#2 v01 v11 v22 v32 v41 lu e011 an e031 va n e121 to e341 p ie gh tn e231 3.2 Triển khai thực nghiệm w oa nl Dưới tiến hành thực nghiệm: d Thực nghiệm 1: So sánh đánh giá thuật toán FSM-H mơ hình a lu a nv MapReduce với liệu khác ul nf Thực nghiệm 2: So sánh đánh giá thuật toán gSpan với thuật toán 3.2.1 Thực nghiệm z at nh oi lm FSM-H mơ hình MapReduce z Trong thực nghiệm tiến hành so sánh, đánh giá thời gian gm @ xử lý thuật toán FSM-H với độ hỗ trợ tối thiểu khác Bắt đầu l.c thực nghiệm với ba tập liệu tạo từ công cụ Graphgen om đề cập bên trên, tập liệu tạo tương ứng từ 500 tới 1000 đồ thị an Lu với độ hỗ trợ tối thiểu dao động khoảng từ 30% đến 50% n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 63 Bảng 3.2 Thời gian chạy FSM-H ba liệu với độ hỗ trợ khác Độ hỗ trợ 30% 40% 50% 500 đồ thị 543s 243s 147s 700 đồ thị 1543s 726s 411s 1000 đồ thị 6273s 3391s 1878s Với liệu 500 đồ thị với đồ thị tương ứng có khoảng 25 – 30 cạnh lu Thời gian (phút) 10 9.05 an n va 4.05 2.45 tn to p ie gh 30% 40% 50% nl w Độ hỗ trợ oa Biểu đồ 3.1 Thời gian chạy liệu 500 đồ thị d Với liệu 700 đồ thị với đồ thị tương ứng có khoảng 25 – 30 20 z at nh oi 12.1 10 6.85 z Thời gian (phút) 25.72 lm ul nf 30 a nv a lu cạnh 40% om Độ hỗ trợ 50% l.c 30% gm @ an Lu Biểu đồ 3.2 Thời gian chạy liệu 700 đồ thị n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 64 Với liệu 1000 đồ thị với đồ thị tương ứng có khoảng 25 – Thời gian (phút) 30 cạnh 110 100 90 80 70 60 50 40 30 20 104.55 56.5 31.3 30% 40% 50% lu Độ hỗ trợ an n va Biểu đồ 3.3 Thời gian chạy liệu 1000 đồ thị tn to Trong Biểu đồ 3.1, Biểu đồ 3.2, Biểu đồ 3.3 biểu diễn thời gh gian chạy liệu tương ứng theo độ hỗ trợ khác Khơng p ie ngồi mong đợi, thời gian xử lý liệu giảm dần theo việc tăng độ hỗ trợ chạy thuật toán FSM-H nl w oa 120 d 100 20 30% z at nh oi lm ul nf 40 a nv 60 a lu 80 500 40% 50% 1000 700 z Biểu đồ 3.4 Thời gian xử lý liệu độ hỗ trợ gm @ Trong Biểu đồ 3.4, ta độ hỗ trợ với liệu l.c có số lượng đồ thị khác thời gian xử lý khác Thời gian xử lý đồ om thị tỉ lệ thuận với độ lớn đồ thị liệu Đối với liệu nhỏ an Lu (bằng 1000 đồ thị liệu) độ chênh lệch thời gian n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 65 xử lý không lớn Tuy nhiên liệu từ 1000 đồ thị trở lên dễ dàng nhận thấy thời gian xử lý có độ chênh lệch lớn 3.2.2 Thực nghiệm Trong thực nghiệm thứ hai tiến hành đánh giá thời gian xử lý thuật tốn gSpan Sau tiến hành so sánh, đánh giá kết thuật toán gSpan với thuật tốn FSM-H mơ hình MapReduce Thực nghiệm tiến hành liệu 1000 đồ thị với độ hỗ trợ tối thiểu 50% lu Bảng 3.3 Thời gian chạy gSpan FSM-H an n va gSpan 500 700 1000 150s 543,4s 3093s FSM-H tảng Hadoop MapReduce (Trên máy với master slave) 147s 411s 1878s p ie gh tn to Đồ thị 60 oa nl w 50 d 40 500 z at nh oi lm ul nf 10 a nv 20 a lu 30 700 gSpan 1000 FSM-H Biểu đồ 3.5 Biểu diễn thời gian xử lý gSpan FSM-H z gm @ Qua Biểu đồ 3.5, ta dễ dàng nhận thấy thực việc khai phá đồ thị thường xuyên thuật toán gSpan cần thời gian xử lý lớn MapReduce với liệu độ hỗ trợ om l.c nhiều so với việc thực thuật tốn FSM-H mơ hình an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 66 3.3 Đánh giá thuật toán Khai phá liệu lĩnh vực quan trọng Các thuật toán khai phá đồ thị thường xuyên tìm thấy để giải vấn đề xử lý liệu Tuy nhiên, giới phát triển, liệu phát triển, kích thước số lượng FSM-H thuật toán khai phá đồ thị thường xun dựa mơ hình MapReduce FSM-H tạo hoàn chỉnh đồ thị thường xuyên theo độ hỗ trợ tối thiểu cho trước Để đảm bảo tính đầy đủ, thuật tốn xây dựng giữ lại tất đồ thị không không giai đoạn map, lu giai đoạn reduce định đồ thị thường xuyên hay không an cách tổng hợp độ hỗ trợ từ nút máy tính khác Thơng qua va n thực nghiệm, thấy FSM-H thực hiệu quả, áp dụng tất p ie gh tn to tối ưu hóa thuật toán khai phá đồ thị thường xuyên lại d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 67 KẾT LUẬN Kết đạt luận văn Trong nội dung nghiên cứu đề tài “Khai phá đồ thị thường xun mơ hình MapReduce”, thân tìm hiểu thuật tốn khai phá đồ thị thường xun, mơ hình lập trình MapReduce áp dụng thuật toán khai phá đồ thị thường xuyên vào mơ hình MapReduce Qua nghiên cứu, kết mà luận văn làm được: - Khái quát đồ thị thường xuyên, tảng Hadoop mô hình lập lu an trình MapReduce n va - Cách thức lập trình với mơ hình ứng dụng MapReduce tn to - Trình bày thuật tốn khai phá đồ thị thường xuyên theo gh hướng: phát triển theo chiều rộng phát triển theo chiều sâu Ưu nhược điểm p ie hướng phát triển thuật tốn nl w - Trình bày thuật tốn FSM-H, thuật toán khai phá đồ thị thường oa xun áp dụng mơ hình MapReduce d - Cài đặt thử nghiệm thuật toán FSM-H tiến hành thực nghiệm a lu nf a nv liệu đồ thị tạo từ công cụ Graphgen lm ul Kiến nghị hướng nghiên cứu Khai phá liệu lĩnh vực quan trọng Nhiều lĩnh vực z at nh oi đòi hỏi khai phá mẫu thường xuyên tập liệu có cấu trúc phức tạp chẳng hạn cấu trúc hóa học hợp chất, cấu trúc gen tế bào, cấu z trúc thành phần thuốc, v.v Hầu hết cấu trúc phức tạp gm @ biểu diễn dạng đồ thị Vì vậy, việc nghiên cứu thuật om l.c toán khai phá đồ thị thường xuyên vấn đề đã, tiếp tục nhà nghiên cứu nước nghiên cứu để tối ưu hóa an Lu thuật toán n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 68 Hướng nghiên cứu luận văn tiếp tục nghiên cứu cài đặt thuật toán khai phá đồ thị thường xun cịn lại (Subdue, FSG, gSpan, FFSM) theo mơ hình MapReduce để so sánh, đánh giá khẳng định tính hiệu chúng khai phá liệu đồ thị từ liệu đồ thị lớn lu an n va p ie gh tn to d oa nl w z at nh oi lm ul nf a nv a lu z om l.c gm @ an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 69 DANH MỤC TÀI LIỆU THAM KHẢO [1] Bismita Srichandan, Rajshekhar Sunderraman, (2011), OO-FSG: An Object- Oriented Approach to Mine Frequent Subgraphs, Proceedings of the 9-th Australasian Data Mining Conference (AusDM'11), Ballarat, Australia, pp.11-12 [2] Cheng-Tao Chu, Sang Kyun Kim, Gary Bradski, Andrew Y Ng, Kunle Olukotun, (2007), Map-Reduce for Machine Learning on Multicore, Stanford University lu an Chuck Lam, (2010), Hadoop in Action, Manning Publications [4] Holder L B., Cook D J., Djoko S., (1994), Substucture discovery in the SUBDUE system Paper presented at the Proceedings of the AAAI n va [3] tn to Workshop on Knowledge Disscovery in Databases, pp.169-180 gh Horst Bunke, Kim Shearer, (1998), A graph distance metric based on p ie [5] Huan J., Wang W., Prins J., (2003), Efficient mining of frequent oa nl [6] w the maximal common subgraph, Pattern Recognition Letters d subgraphsin the presence of isomorphism, Proceedings of the 2003 a lu International Conference on Data Mining (ICDM 2003), pp.549-552 a nv [7] Inokuchi, Washio and Motoda, (2003), A General Framework for nf [8] z at nh oi Report, RT0513 lm ul Mining Frequent Subgraphs from Labeled Graphs, IBM Research J Cheng, Y Ke, W Ng, and A Lu (2007), “Fg-index: towards verification-free query processing on graph databases,” in SIGMOD, gm @ [9] z pp 857–872 Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: Simplified om l.c Data Processing on Large Clusters, OSDI 2004 an Lu n va ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn

Ngày đăng: 22/07/2023, 07:33

Tài liệu cùng người dùng

Tài liệu liên quan