Luận văn thạc sĩ khai phá đồ thị con thường xuyên trên mô hình mapreduce

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN KIM NGỌC KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUN TRÊN MƠ HÌNH MAPREDUCE Chun ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn: TS Trần Thiên Thành e LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Khai phá đồ thị thường xuyên mô hình MapReduce” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo trích dẫn thích đầy đủ Tôi xin chịu trách nhiệm luận văn e LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trước tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, tơi xin gửi lời cảm ơn sâu sắc đến Thầy giáo hướng dẫn TS Trần Thiên Thành, người tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, xin gửi lời cảm ơn đến anh chị học viên lớp cao học Khoa học máy tính khóa trước giúp đỡ tơi nhiều q trình học tập nghiên cứu Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình bạn bè giúp đỡ, ủng hộ suốt trình học tập, nghiên cứu hồn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để hồn thành thật tốt luận văn chắn cịn nhiều thiếu sót mong nhận bảo Thầy Cơ giáo để luận văn hồn thiện e MỤC LỤC MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Tổng quan tình hình nghiên cứu đề tài 1.3 Mục tiêu nhiệm vụ nghiên cứu 1.4 Nhiệm vụ nghiên cứu 1.5 Đối tượng phạm vi nghiên cứu CHƯƠNG 1: KIẾN THỨC TỔNG QUAN 1.1 Đồ thị thường xuyên 1.1.1 Đồ thị gán nhãn 1.1.2 Đồ thị 1.1.3 Đồ thị đẳng cấu 1.1.4 Đồ thị đẳng cấu 1.1.5 Đồ thị thường xuyên 1.2 Nền tảng Hadoop 11 1.2.1 Tổng quát Apache Hadoop 11 1.2.2 Kiến trúc Hadoop 11 1.2.3 Nguyên tắc hoạt động Hadoop MapReduce 14 1.3 Mơ hình lập trình MapReduce 15 1.3.1 Tổng quan mơ hình MapReduce 15 1.3.2 Ngun tắc hoạt động mơ hình MapReduce 18 1.3.3 Một số toán ứng dụng mơ hình MapReduce [8] 20 1.3.4 Hadoop – Nền tảng lập trình mơ hình MapReduce 21 1.4 Lập trình với mơ hình ứng dụng MapReduce 25 1.4.1 Phương pháp viết MapReduce job 25 1.4.2 Các kiểu liệu Hadoop hỗ trợ 26 1.4.3 Mapper 27 1.4.4 Reducer 29 e 1.4.5 Chương trình Mapreduce Java 29 1.5 Kết luận chương 33 CHƯƠNG 2: CÁC THUẬT TOÁN PHÁT HIỆN ĐỒ THỊ CON THƯỜNG XUYÊN 34 2.1 Chiến lược tìm kiếm theo chiều rộng 34 2.1.1 Thuật toán Subdue 34 2.1.2 Thuật toán FSG 37 2.2 Chiến lược tìm kiếm theo chiều sâu 40 2.2.1 Thuật toán gSpan 40 2.2.2 Thuật toán FFSM 45 2.3 So sánh đánh giá số thuật toán 50 2.4 Thuật toán khai phá đồ thị thường xun theo mơ hình lập trình MapReduce 52 2.5 Kết luận chương 59 CHƯƠNG 3: THỰC NGHIỆM 60 3.1 Cấu trúc liệu thử nghiệm 60 3.2 Triển khai thử nghiệm 62 3.2.1 Thực nghiệm 62 3.2.2 Thực nghiệm 65 3.3 Đánh giá thuật toán 66 KẾT LUẬN 67 Kết đạt luận văn 67 Kiến nghị hướng nghiên cứu 67 DANH MỤC TÀI LIỆU THAM KHẢO e 69 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên viết Thuật ngữ tắt CSDL Cơ sở liệu CNTT Công nghệ thông tin HDFS Hadoop Distributed File System Ý nghĩa Cơ sở liệu Công nghệ thông tin Hệ thống lưu trữ tập tin Hadoop Bài toán đếm từ WC WordCount FSM Frequent Subgraphs Mining FFSM Fast Frequent Subgraph Mining CAM Canonical Adjacency Matrix e Khai phá đồ thị thường xuyên Khai phá đồ thị thường xuyên bền vững Ma trận kề tắc DANH MỤC CÁC BẢNG Bảng 1.1 Danh sách kiểu liệu Hadoop 26 Bảng 1.2 Một vài lớp thực Mapper định nghĩa trước Hadoop 28 Bảng 1.3 Danh sách số reduce cung cấp Hadoop 29 Bảng 2.1 Mã DFS tương ứng cho Hình 2.3 42 Bảng 2.2 Phân loại thuật toán FSM 51 Bảng 3.1 Bảng cấu trúc CSDL đồ thị 60 Bảng 3.2 Thời gian chạy FSM-H ba liệu với độ hỗ trợ khác 63 Bảng 3.3 Thời gian chạy gSpan FSM-H 65 e DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 3.1 Thời gian chạy liệu 500 đồ thị 63 Biểu đồ 3.2 Thời gian chạy liệu 700 đồ thị 63 Biểu đồ 3.3 Thời gian chạy liệu 1000 đồ thị 64 Biểu đồ 3.4 Thời gian xử lý liệu độ hỗ trợ 64 Biểu đồ 3.5 Biểu diễn thời gian xử lý gSpan FSM-H 65 e DANH MỤC CÁC HÌNH VẼ Hình 1.1 Đồ thị kết nối hóa học axit Sulfuric [13] Hình 1.2 Đồ thị đẳng cấu Hình 1.3 Đồ thị đẳng cấu Hình 1.4 Đồ thị thường xuyên [13] 10 Hình 1.5 Kiến trúc Hadoop 12 Hình 1.6 Mơ hình làm việc cơng việc MapReduce 17 Hình 1.7 Quy trình xử lý MapReduce [8] 19 Hình 1.8 Các thành phần Hadoop cluster 22 Hình 1.9 Cách thức hoạt động HDFS 23 Hình 1.10 Cơ chế hoạt động JobTracker TaskTracker Hadoop 24 Hình 1.11 Biểu đồ phân cấp trình MapReduce 25 Hình 2.1 Đồ thị hình A sau nén biểu diễn hình B 34 Hình 2.2 Biểu diễn đồ thị tập liệu 39 Hình 2.3 Cây tìm kiếm theo chiều sâu 40 Hình 2.4 Mã DFS/ Đồ thị gia tăng 43 Hình 2.5 Ba ma trận kề đồ thị gán nhãn P Hình 1.3 45 Hình 2.6 Biểu diễn ma trận riêng cực đại 45 Hình 2.7 Cây CAM đồ thị P Hình 1.3 48 Hình 2.8 Giai đoạn phân vùng liệu 53 Hình 2.9 Giai đoạn chuẩn bị 54 Hình 2.10 Giai đoạn khai phá 55 Hình 2.11 Sơ đồ mơ tả luồng thực thuật toán MapReduce 58 e MỞ ĐẦU 1.1 Lý chọn đề tài Kiến thức tảng trí tuệ u cầu quan trọng thúc đẩy phát triển mặt sống Ngày nay, công nghệ thông tin gần xuất lĩnh vực, điều đáp ứng nhu cầu cá nhân mà đem lại cho nhân loại lượng liệu khổng lồ vô phong phú Trong kho liệu phong phú ấy, lượng lớn kiến thức cịn ẩn chứa có ích cho người mà thông qua phương pháp thông thường người không khám phá Nhận thấy tiềm liệu, nhà khoa học đề xuất nhiều kỹ thuật phát tri thức hữu ích gọi chung “Khai phá liệu” Khai phá liệu đồ thị số lĩnh vực quan trọng khai phá liệu Hầu hết nguồn liệu biểu diễn dạng cấu trúc liệu đồ thị, chẳng hạn như: liệu từ mạng Internet, mạng xã hội, cấu trúc protein, hợp chất hóa học … Do đó, khai phá liệu đồ thị nhằm tìm kiếm thơng tin hữu ích lượng lớn liệu vấn đề nhà nghiên cứu tổ chức công nghệ thông tin (CNTT) quan tâm Các thuật tốn khai phá liệu nói chung khai phá luật kết hợp nói riêng thường nghiên cứu áp dụng để giải tốn có kích thước khơng q lớn Với phát triển liệu tại, thuật toán dần bộc lộ nhược điểm mình, địi hỏi có cải tiến để đáp ứng nhu cầu khai phá liệu ngày cao Hiện nay, có nhiều giải pháp đưa để khắc phục nhược điểm thuật tốn như: cải tiến thuật tốn, dùng máy tính chun biệt, sử dụng mơ hình phân tán … mục đích giải pháp chủ yếu làm tăng tốc độ thực thuật toán tập liệu lớn e 56 Thuật toán FSM-H Mã giả thuật toán khai phá đồ thị thường xuyên với hàm mapper 𝑝 Mapper_FSM (𝐹𝑘 (x.min-dfs-code, x.obj)) 𝑝 Ck+1 = Candidate_generation (𝐹𝑘 ) forall c ∈ Ck+1 if isomorphism_checking(c) = true populate_occurrence_List(c) if length(c.occurrence_List) > emit (c.min-dfs-code, c.obj) 𝑝 𝐹𝑘 tập đồ thị thường xun có kích thước k có độ hỗ trợ khác khơng phân vùng cụ thể p Mapper đọc liệu đồ thị từ HDFS 𝑝 Mỗi ứng viên 𝐹𝑘 biểu diễn cặp giá trị key-value Key min-dfs-code ứng viên (x.min-dfs-code) Value object ứng viên (x.obj) Mapper tiến hành tạo tất ứng viên có kích thước k+1 𝑝 cách mở rộng 𝐹𝑘 (dòng 1) Đối với ứng viên tạo ra, mapper tiến hành kiểm tra đẳng cấu c dựa mã min-dfs-code (dòng 3) Điền danh sách xuất ứng viên c hợp lệ sở liệu đồ thị phân vùng p (dòng 4) Nếu danh sách xuất đồ thị ứng viên không trống, mapper xây dựng cho đồ thị cặp key-value (c.min-dfs-code, c.obj) sau reducer nhận cặp giá trị (dịng 6) e 57 Mã giả thuật toán khai phá đồ thị thường xuyên với hàm reducer [13] Reducer_FSG (c.min-dfs-code, (c.obj)) [13]; forall obj (c.obj) support += length(obj.OL) if support ≥ minsup forall obj ∈ (c.obj) write (c.min-dfs-code, obj) to HDFS Reducer nhận cặp giá trị key-value đồ thị có độ hỗ trợ khác khơng (c.min-dfs-code, c.obj) Với obj thuộc c.obj, tính tốn tổng độ hỗ trợ c dựa vào độ dài xuất obj Nếu độ hỗ trợ cao ngưỡng hộ trợ tối thiểu, reducer ghi phần tử danh sách kết nối với min-dfs-code c vào HDFS, mapper tiếp tục thực e 58 Hình 2.11 Sơ đồ mơ tả luồng thực thuật tốn MapReduce Đầu tiên, tiến trình bắt đầu việc mapper đọc cặp key-value với kích thước mẫu k từ HDFS Như Hình 2.11 mô tả việc mapper tạo tất đồ thị ứng viên có kích thước k+1 để kiểm tra đẳng cấu Đối với đồ thị kích thước k+1 thỏa mãn điều kiện đẳng cấu đồ thị nhất, mapper tiến hành xây dựng key-value cho đồ thị chuyển tiếp tới reducer Những cặp key-value xáo trộn xếp theo key, sau reducer nhận danh sách value key tiến hành tính tốn độ hỗ trợ đồ thị ứng viên Nếu đồ thị ứng viên đồ thị thường xuyên, reducer tiến hành ghi cặp key-value vào HDFS, mapper tiếp tục thực Nếu khơng cịn đồ thị có kích thước k+1 thuật tốn dừng lại e 59 2.5 Kết luận chương Chương trình bày thuật tốn phát đồ thị thường xun theo hai phương pháp tìm kiếm theo chiều rộng (Subdue, FSG) tìm kiếm theo chiều sâu (gSpan, FFSM) Cả hai phương pháp có ưu nhược điểm riêng sinh tập đồ thị kiểm tra có phải đồ thị đẳng cấu với đồ thị nằm tập liệu đồ thị hay khơng từ xác định độ hỗ trợ đồ thị ứng viên kết luận đồ thị ứng viên có thuộc tập đồ thị thường xun hay khơng Từ ưu nhược điểm đó, thuật toán FSM-H đề xuất thực mơ hình MapReduce Trong chương tiến hành thực nghiệm đánh giá thuật toán FSM-H e 60 CHƯƠNG 3: THỰC NGHIỆM Trong chương tơi trình bày kết thực nghiệm việc thực thuật toán FSM-H vào khai phá đồ thị thường xuyên liệu đồ thị Dữ liệu đầu vào tạo từ công cụ Graphgen [8] Graphgen tạo tập đồ thị có nhãn, đồ thị có hướng vô hướng Tập liệu tạo sử dụng để đánh giá hiệu suất thuật toán phát đồ thị thường xuyên Tôi tiến hành thực nghiệm tảng Hadoop Mapreduce theo mơ hình nhiều nút bao gồm nút master nút slave Cấu hình máy thực nghiệm: CPU Intel Core Duo CPU E8400 3.00GHz x 2, dung lượng ổ cứng 160 GB, ram GB, hệ điều hành Ubuntu 14.04, Hadoop Framework phiên 2.7.3 3.1 Cấu trúc liệu thử nghiệm Dữ liệu thực nghiệm tệp liệu sở liệu (CSDL) đồ thị đầu vào cho thuật tốn tìm đồ thị thường xuyên từ CSDL đồ thị Tệp CSDL đồ thị có cấu trúc sau: Bảng 3.1 Bảng cấu trúc CSDL đồ thị Định dạng Loại dòng Chú thích # Đồ thị t # Đỉnh v e Giải thích ý nghĩa Ký hiệu báo hiệu thích, chương trình bỏ qua dịng có ký hiệu đầu Bắt đầu giao dịch hay đồ thị với id mô tả tên giao dịch hay đồ thị Dịng mơ tả đỉnh bắt đầu kí tự v Tiếp theo mã đỉnh (ID) nhãn đỉnh (Label) cách khoảng trống 61 Cạnh e Ví dụ biểu diễn liệu đồ thị theo cấu trúc # thi t#1 v03 v 13 v29 v34 v47 v58 v63 v73 e 18 e028 e059 e072 e145 e 13 e278 e 15 e569 e579 e Dịng mơ tả cạnh bắt đầu ký tự e Tiếp theo mã đỉnh đầu (ID1), đỉnh cuối (ID2) cạnh nhãn (Label) cạnh cách khoảng trống 62 e672 # thi t#2 v01 v11 v22 v32 v41 e011 e031 e121 e231 e341 3.2 Triển khai thực nghiệm Dưới tiến hành thực nghiệm: Thực nghiệm 1: So sánh đánh giá thuật toán FSM-H mơ hình MapReduce với liệu khác Thực nghiệm 2: So sánh đánh giá thuật toán gSpan với thuật tốn FSM-H mơ hình MapReduce 3.2.1 Thực nghiệm Trong thực nghiệm tiến hành so sánh, đánh giá thời gian xử lý thuật toán FSM-H với độ hỗ trợ tối thiểu khác Bắt đầu thực nghiệm với ba tập liệu tạo từ công cụ Graphgen đề cập bên trên, tập liệu tạo tương ứng từ 500 tới 1000 đồ thị với độ hỗ trợ tối thiểu dao động khoảng từ 30% đến 50% e 63 Bảng 3.2 Thời gian chạy FSM-H ba liệu với độ hỗ trợ khác Độ hỗ trợ 30% 40% 50% 500 đồ thị 543s 243s 147s 700 đồ thị 1543s 726s 411s 1000 đồ thị 6273s 3391s 1878s Với liệu 500 đồ thị với đồ thị tương ứng có khoảng 25 – 30 cạnh Thời gian (phút) 10 9.05 4.05 2.45 30% 40% 50% Độ hỗ trợ Biểu đồ 3.1 Thời gian chạy liệu 500 đồ thị Với liệu 700 đồ thị với đồ thị tương ứng có khoảng 25 – 30 cạnh 30 Thời gian (phút) 25.72 20 12.1 10 6.85 30% 40% 50% Độ hỗ trợ Biểu đồ 3.2 Thời gian chạy liệu 700 đồ thị e 64 Với liệu 1000 đồ thị với đồ thị tương ứng có khoảng 25 – Thời gian (phút) 30 cạnh 110 100 90 80 70 60 50 40 30 20 104.55 56.5 31.3 30% 40% 50% Độ hỗ trợ Biểu đồ 3.3 Thời gian chạy liệu 1000 đồ thị Trong Biểu đồ 3.1, Biểu đồ 3.2, Biểu đồ 3.3 biểu diễn thời gian chạy liệu tương ứng theo độ hỗ trợ khác Không mong đợi, thời gian xử lý liệu giảm dần theo việc tăng độ hỗ trợ chạy thuật toán FSM-H 120 100 80 60 40 20 30% 500 40% 700 50% 1000 Biểu đồ 3.4 Thời gian xử lý liệu độ hỗ trợ Trong Biểu đồ 3.4, ta độ hỗ trợ với liệu có số lượng đồ thị khác thời gian xử lý khác Thời gian xử lý đồ thị tỉ lệ thuận với độ lớn đồ thị liệu Đối với liệu nhỏ (bằng 1000 đồ thị liệu) độ chênh lệch thời gian e 65 xử lý không lớn Tuy nhiên liệu từ 1000 đồ thị trở lên dễ dàng nhận thấy thời gian xử lý có độ chênh lệch lớn 3.2.2 Thực nghiệm Trong thực nghiệm thứ hai tiến hành đánh giá thời gian xử lý thuật tốn gSpan Sau tiến hành so sánh, đánh giá kết thuật toán gSpan với thuật tốn FSM-H mơ hình MapReduce Thực nghiệm tiến hành liệu 1000 đồ thị với độ hỗ trợ tối thiểu 50% Bảng 3.3 Thời gian chạy gSpan FSM-H Đồ thị gSpan 500 700 1000 150s 543,4s 3093s FSM-H tảng Hadoop MapReduce (Trên máy với master slave) 147s 411s 1878s 60 50 40 30 20 10 500 700 gSpan 1000 FSM-H Biểu đồ 3.5 Biểu diễn thời gian xử lý gSpan FSM-H Qua Biểu đồ 3.5, ta dễ dàng nhận thấy thực việc khai phá đồ thị thường xuyên thuật toán gSpan cần thời gian xử lý lớn nhiều so với việc thực thuật tốn FSM-H mơ hình MapReduce với liệu độ hỗ trợ e 66 3.3 Đánh giá thuật toán Khai phá liệu lĩnh vực quan trọng Các thuật toán khai phá đồ thị thường xuyên tìm thấy để giải vấn đề xử lý liệu Tuy nhiên, giới phát triển, liệu phát triển, kích thước số lượng FSM-H thuật toán khai phá đồ thị thường xuyên dựa mơ hình MapReduce FSM-H tạo hồn chỉnh đồ thị thường xuyên theo độ hỗ trợ tối thiểu cho trước Để đảm bảo tính đầy đủ, thuật toán xây dựng giữ lại tất đồ thị không không giai đoạn map, giai đoạn reduce định đồ thị thường xuyên hay không cách tổng hợp độ hỗ trợ từ nút máy tính khác Thơng qua thực nghiệm, thấy FSM-H thực hiệu quả, áp dụng tất tối ưu hóa thuật tốn khai phá đồ thị thường xuyên lại e 67 KẾT LUẬN Kết đạt luận văn Trong nội dung nghiên cứu đề tài “Khai phá đồ thị thường xun mơ hình MapReduce”, thân tìm hiểu thuật tốn khai phá đồ thị thường xun, mơ hình lập trình MapReduce áp dụng thuật toán khai phá đồ thị thường xuyên vào mơ hình MapReduce Qua nghiên cứu, kết mà luận văn làm được: - Khái quát đồ thị thường xun, tảng Hadoop mơ hình lập trình MapReduce - Cách thức lập trình với mơ hình ứng dụng MapReduce - Trình bày thuật tốn khai phá đồ thị thường xuyên theo hướng: phát triển theo chiều rộng phát triển theo chiều sâu Ưu nhược điểm hướng phát triển thuật tốn - Trình bày thuật tốn FSM-H, thuật toán khai phá đồ thị thường xuyên áp dụng mơ hình MapReduce - Cài đặt thử nghiệm thuật toán FSM-H tiến hành thực nghiệm liệu đồ thị tạo từ công cụ Graphgen Kiến nghị hướng nghiên cứu Khai phá liệu lĩnh vực quan trọng Nhiều lĩnh vực đòi hỏi khai phá mẫu thường xuyên tập liệu có cấu trúc phức tạp chẳng hạn cấu trúc hóa học hợp chất, cấu trúc gen tế bào, cấu trúc thành phần thuốc, v.v Hầu hết cấu trúc phức tạp biểu diễn dạng đồ thị Vì vậy, việc nghiên cứu thuật toán khai phá đồ thị thường xuyên vấn đề đã, tiếp tục nhà nghiên cứu nước nghiên cứu để tối ưu hóa thuật tốn e 68 Hướng nghiên cứu luận văn tiếp tục nghiên cứu cài đặt thuật toán khai phá đồ thị thường xuyên lại (Subdue, FSG, gSpan, FFSM) theo mơ hình MapReduce để so sánh, đánh giá khẳng định tính hiệu chúng khai phá liệu đồ thị từ liệu đồ thị lớn e 69 DANH MỤC TÀI LIỆU THAM KHẢO [1] Bismita Srichandan, Rajshekhar Sunderraman, (2011), OO-FSG: An Object- Oriented Approach to Mine Frequent Subgraphs, Proceedings of the 9-th Australasian Data Mining Conference (AusDM'11), Ballarat, Australia, pp.11-12 [2] Cheng-Tao Chu, Sang Kyun Kim, Gary Bradski, Andrew Y Ng, Kunle Olukotun, (2007), Map-Reduce for Machine Learning on Multicore, Stanford University [3] Chuck Lam, (2010), Hadoop in Action, Manning Publications [4] Holder L B., Cook D J., Djoko S., (1994), Substucture discovery in the SUBDUE system Paper presented at the Proceedings of the AAAI Workshop on Knowledge Disscovery in Databases, pp.169-180 [5] Horst Bunke, Kim Shearer, (1998), A graph distance metric based on the maximal common subgraph, Pattern Recognition Letters [6] Huan J., Wang W., Prins J., (2003), Efficient mining of frequent subgraphsin the presence of isomorphism, Proceedings of the 2003 International Conference on Data Mining (ICDM 2003), pp.549-552 [7] Inokuchi, Washio and Motoda, (2003), A General Framework for Mining Frequent Subgraphs from Labeled Graphs, IBM Research Report, RT0513 [8] J Cheng, Y Ke, W Ng, and A Lu (2007), “Fg-index: towards veriﬁcation-free query processing on graph databases,” in SIGMOD, pp 857–872 [9] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: Simplified Data Processing on Large Clusters, OSDI 2004 e 70 [10] Kuramochi M., Karypis G., (2004), An efficient algorithm for discoveringfrequent subgraphs, IEEE Transactions on Knowledge and DataEngineering, pp.1038-1051 [11] Lawrence B Holder, Nikhil S Ketkar, Diane J Cook, (2005), Subdue: Compression-Based Frequent Pattern Discovery in Graph Data Paper presented at the Proceedings of the ACM SIGKDD st International Workshop on Open source Data Mining, pp.5-6 [12] Lawrence B Holder, Diane J Cook, (2006), Mining Graph Data, Wileyinterscience a john wiley & sons, inc., publication, pp.101-154 [13] Mansurul A Bhuiyan and Mohammad Al Hasan, (2015), An Iterative MapReduce Based Frequent Subgraph Mining Algorithm, Ieee transactions on knowledge and data engineer-ing, vol 27, no [14] T Ramraja, R.Prabhakarb (2015), Frequent Subgraph Mining Algorithms – A Survey, Procedia Computer Science 47, page(s): 197 – 204 [15] Xifeng Yan, Jiawei Han, (2002), gSpan: Graph-Based Substructure Pattern Mining, IEEE Intrnational Conference on Data Mining, pp.5-6 e ... liệu đồ thị, đồ thị thường xuyên - Các thuật toán khai phá đồ thị thường xuyên - Mơ hình MapReduce Hadoop - Phương pháp lập trình theo mơ hình MapReduce Phạm vi nghiên cứu: - Khai phá đồ thị thường. .. đồ thị, đồ thị thường xuyên - Tìm hiểu thuật tốn khai phá đồ thị thường xun - Tìm hiểu lập trình theo mơ hình MapReduce Hadoop e - Cài đặt thuật toán khai phá đồ thị thường xun theo mơ hình MapReduce. .. đồ thị ứng viên với cặp đồ thị mức tại, sau lọc đồ thị khơng thường xun Ưu điểm kỹ thuật dựa nguyên tắc ưu tiên cách đồ thị xem thường xuyên tất đồ thị thường xuyên Vì đồ thị tìm sau tìm đồ thị