Luận văn ThS: Khai thác mẫu phổ biến cực đại trong đồ thị đơn bằng phương pháp so sánh gần đúng tài liệu, giáo án, bài g...
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THANH TÀI KHAI THÁC MẪU PHỔ BIẾN CỰC ĐẠI TRONG ĐỒ THỊ ĐƠN BẰNG PHƯƠNG PHÁP SO SÁNH GẦN ĐÚNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 01 năm 2016 .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN THANH TÀI KHAI THÁC MẪU PHỔ BIẾN CỰC ĐẠI TRONG ĐỒ THỊ ĐƠN BẰNG PHƯƠNG PHÁP SO SÁNH GẦN ĐÚNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HỒI BẮC TP HỒ CHÍ MINH, tháng 01 năm 2016 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Lºn văn Lºn án CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 30 tháng 01 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Chức danh TT Họ tên Hội đồng Chủ tịch Cơ Quan Công Tác Viện Hàn Lâm KHCN PGS.TSKH Nguyễn Xuân Huy TS Vũ Thanh Hiền Phản biện ĐH Kinh Tế Tài Chính TS Cao Tùng Anh Phản biện ĐH Công Nghệ TP.HCM PGS.TS Vũ Đức Lung TS Hồ Đắc Nghĩa Ủy viên Ủy viên, Thư ký Việt Nam ĐH Công Nghệ Thông Tin TP.HCM ĐH Công Nghệ TP.HCM Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng … năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thanh Tài Giới tính: Nam Ngày, tháng, năm sinh: 01 – 03 – 1990 Nơi sinh: Đức Phú – Mộ Đức – Quảng Ngãi Chuyên ngành: Công Nghệ Thông Tin MSHV: 1441860020 I- Tên đề tài: KHAI THÁC MẪU PHỔ BIẾN CỰC ĐẠI TRONG ĐỒ THỊ ĐƠN BẰNG PHƯƠNG PHÁP SO SÁNH GẦN ĐÚNG II- Nhiệm vụ nội dung: Nghiên cứu triển khai thuật toán khai thác MPBCĐ đồ thị đơn phương pháp so sánh gần Tìm hiểu nghiên cứu thuật toán MaxAFG, cải tiến từ thuật toán MaxAFG để cải thiện kết tìm được, đồng thời tối ưu thời gian thực nhớ sử dụng Đề xuất thuật toán ImaxAFG dựa thuật toán MaxAFG nhằm nâng cao tính hiệu thuật tốn, giúp người sử dụng khai thác tối đa số MPBCĐ đồ thị đơn sử dụng phương pháp so sánh gần III- Ngày giao nhiệm vụ: 20/8/2015 IV- Ngày hoàn thành nhiệm vụ: 20/2/2016 V- Cán hướng dẫn: Phó Giáo Sư Tiến Sĩ Lê Hồi Bắc CÁN BỘ HƯỚNG DẪN Tà i liệu Há»— trợ ôn táºp com KHOA QUẢN LÝ CHUYÊN NGÀNH Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình Thầy PGS.TS Lê Hoài Bắc suốt thời gian nghiên cứu thực Luận văn Tôi xin cảm ơn q Thầy Cơ nhiệt tình giảng dạy, truyền đạt cho chúng tơi kiến thức bổ ích qua mơn học chương trình cao học Tơi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hồn thành Luận văn Luận văn khơng thể tránh khỏi sai sót, tơi mong nhận ý kiến đóng góp q Thầy Cơ người cho Luận văn hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, năm 2016 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án iii TÓM TẮT Khai thác liệu đồ thị nhận quan tâm lớn vào năm gần tính phổ biến liệu đồ thị phát triển mạnh sử dụng rộng rãi nghành khoa học cơng nghệ Bởi mẫu đồ thị phổ biến cực đại có ý nghĩa quan trọng vấn đề nghiên cứu khoa học nên có nhiều thuật toán khai thác MPBCĐ Tuy nhiên kết hợp việc sử dụng phương pháp so sánh gần khai thác MPB hạn chế Luận Văn đề xuất thuật toán ImaxAFG cải tiến để khai thác MPBCĐ đồ thị đơn sử dụng phương pháp so sánh gần Để trình bày khả tính hiệu ImaxAFG, Luận Văn sử dụng liệu chuẩn SIS (Là dạng liệu hình khung có cấu trúc) Kết thực nghiệm cho thấy ImaxAFG tốt hiệu quả, giúp người sử dụng tối ưu hóa việc xác định MPBCĐ phân lớp cho liệu hình thể .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án iv ABSTRACT Graph Data Mining is receiving very great attention in recent years because of the popularity of graph data is developing strongly and widely and using in the science and technology sectors Because maximal frequent patterns are very important in matters of scientific research, so nowaday there are many maximal frequent pattern-mining algorithms However, combining the use of inexact matching comparative method in mining maximal frequent patterns model is still very limited This thesis will propose an improved algorithm ImaxAFG to minning maximal frequent patterns in a single graph using inexact matching To demonstrate the ability and effectiveness of ImaxAFG algorithm, this thesis will use the SIS standard data (structural images skeletons database) The experimental results will show, the ImaxAFG will be better than maxAFG in efficiency, easier for the users to optimize more about identifying maximal frequent patterns and layering extremes for a data form .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án v DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Diễn giải MPB Mẫu phổ biến (Frequent pattern) MPBCĐ Mẫu phổ biến cực đại (Maximal Frequent Pattern) NTĐ Ngưỡng tương đồng ∆ (dissimilarity threshold) NTS Ngưỡng tần số σ (Frequency threshold) KTDL Khai thác liệu (Data Mining) CSDL Cơ sở liệu (Database) Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án vi DANH MỤC CÁC BẢNG Bảng 1: Mở rộng đỉnh 1/C tìm mẫu phổ biến 22 Bảng 2: Mở rộng đỉnh 4/C tìm mẫu phổ biến 25 Bảng 3: Mở rộng đỉnh 6/C tìm mẫu phổ biến 29 Bảng 4: Tóm tắt q trình mở rộng tìm mẫu phổ biến 30 Bảng 5: Cơ sở liệu đồ thị SIS 41 Bảng 6: Cơ sở liệu đồ thị SIS phân nhóm ngẫu nhiên 43 Bảng 7: Mẫu phổ biến tập huấn luyện nhóm 2, 3, 44 Bảng 8: Loại trừ mẫu xuất nhiều lần nhóm 2, 3, 45 Bảng 9: Mẫu phổ biến cực đại tối ưu nhóm 2, 3, 46 Bảng 10: Độ tương đồng đồ thị nhóm mẫu nhóm 2, 3, 47 Bảng 11: Kết phân lớp đồ thị nhóm 47 Bảng 12: Mẫu phổ biến tập huấn luyện nhóm 1, 3, 49 Bảng 13: Loại trừ mẫu xuất nhiều lần nhóm 1, 3, 50 Bảng 14: Mẫu phổ biến cực đại tối ưu nhóm 1, 3, 51 Bảng 15: Độ tương đồng đồ thị nhóm mẫu nhóm 1, 3, 51 Bảng 16: Kết phân lớp đồ thị nhóm 52 Bảng 17: Mẫu phổ biến tập huấn luyện nhóm 1, 2, 53 Bảng 18: Loại trừ mẫu xuất nhiều lần nhóm 1, 2, 55 Bảng 19: Mẫu phổ biến cực đại tối ưu nhóm 1, 2, 55 Bảng 20: Độ tương đồng đồ thị nhóm mẫu nhóm 1, 2, 56 Bảng 21: Kết phân lớp đồ thị nhóm 56 Bảng 22: Mẫu phổ biến tập huấn luyện nhóm 1, 2, 58 Bảng 23: Loại trừ mẫu xuất nhiều lần nhóm 1, 2, 59 Bảng 24: Mẫu phổ biến cực đại tối ưu nhóm 1, 2, 60 Bảng 25: Độ tương đồng đồ thị nhóm mẫu nhóm 1, 2, 61 Bảng 26: Kết phân lớp đồ thị nhóm 61 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 52 10 #2 #2 Đúng 14 #3 #3 Đúng 18 #4 #4 Đúng 22 #5 NA Sai 26 #6 NA Sai 30 #7 #7 Đúng 34 #8 #8 Đúng Bảng 16: Kết phân lớp đồ thị nhóm Kết luận: Vậy độ sai lệch nhóm n2=2 c Duyệt nhóm 3: - Tập liệu huấn luyện gồm tất tất đồ thị nhóm 1, 2, - Tập liệu kiểm tra gồm tất đồ thị nhóm - Huấn luyện phân lớp sử dụng tất đồ thị tập liệu huấn luyện Sẽ sử dụng thuật toán để tìm tất MPBCĐ đồ thị tập liệu huấn luyện: Đồ Thị Đồ thị phổ biến cực đại Pattern: ['5', '6', '1', '0', '7', '3', '2', '4']/4-5-1-0-6-3-2-4 Pattern: ['3', '7', '5', '4', '6', '1', '0', '2']/4-5-1-0-6-3-2-4 Pattern: ['3', '6', '5', '4', '7', '1', '0', '2']/4-5-1-0-6-3-2-4 Pattern: ['1', '7', '0', '6', '8', '3', '2', '5', '4']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '8', '3', '2', '7', '0', '6', '5', '4']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '7', '0', '2', '8', '3', '5', '4', '6']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '3', '0', '2']/9-6-9-9 10 Pattern: ['1', '3', '0', '2']/9-6-9-9 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 53 12 Pattern: ['1', '3', '0', '2']/9-6-9-9 Pattern: ['11', '9', '10', '5', '4', '7', '6', '8', '3', '2', '1', '0']/6-3-6-4-4-3-3-5-4-4- 13 10-1 Pattern: ['11', '9', '10', '5', '4', '8', '3', '2', '7', '6', '1', '0']/6-6-3-4-4-5-4-4-3-3- 14 10-1 Pattern: ['11', '9', '10', '3', '2', '1', '0', '8', '5', '4', '7', '6']/6-3-6-4-4-3-3-5-4-4-1- 16 10 17 Pattern: ['1', '5', '0', '4', '6', '3', '2']/11-6-5-11-6-12-12 18 Pattern: ['1', '5', '0', '4', '6', '3', '2']/11-6-5-11-6-12-12 20 Pattern: ['1', '6', '3', '2', '5', '0', '4']/11-6-11-5-6-12-12 21 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 22 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 24 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 25 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 26 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 28 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 29 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-5-3-13-13-13 30 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-3-5-13-13-13 32 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-5-3-13-13-13 33 Pattern: ['1', '7', '3', '2', '6', '0', '5', '4']/3-3-3-3-6-13-5-13 34 Pattern: ['1', '6', '3', '2', '7', '0', '5', '4']/3-3-3-3-6-13-5-13 36 Pattern: ['1', '6', '0', '5', '7', '3', '2', '4']/13-6-5-13-3-3-3-3 Bảng 17: Mẫu phổ biến tập huấn luyện nhóm 1, 2, Loại trừ MPBCĐ mà xuất nhiều lớp: Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 54 Nhóm Lớp Đồ Thị Mẫu Phổ Biến cực đại #0 4-5-1-0-6-3-2-4 #0 4-5-1-0-6-3-2-4 #0 4-5-1-0-6-3-2-4 #1 7-6-7-7-6-8-8-8-8 #1 7-6-7-7-6-8-8-8-8 #1 7-6-7-7-6-8-8-8-8 #2 9-6-9-9 #2 10 9-6-9-9 #2 12 9-6-9-9 #3 13 6-3-6-4-4-3-3-5-4-4-10-1 #3 14 6-6-3-4-4-5-4-4-3-3-10-1 #3 16 6-3-6-4-4-3-3-5-4-4-1-10 #4 17 11-6-5-11-6-12-12 #4 18 11-6-5-11-6-12-12 #4 20 11-6-11-5-6-12-12 #5 21 7-6-7-7-7-7 Loại #5 22 7-6-7-7-7-7 Loại #5 24 7-6-7-7-7-7 Loại #6 25 7-6-7-7-7-7 Loại #6 26 7-6-7-7-7-7 Loại #6 28 7-6-7-7-7-7 Loại #7 29 13-6-5-3-13-13-13 #7 30 13-6-3-5-13-13-13 #7 32 13-6-5-3-13-13-13 #8 33 3-3-3-3-6-13-5-13 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Loại .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 55 #8 34 3-3-3-3-6-13-5-13 #8 36 13-6-5-13-3-3-3-3 Bảng 18: Loại trừ mẫu xuất nhiều lần nhóm 1, 2, Rút gọn, xếp MPBCĐ tìm để tạo tập tối ưu MPBCĐ: Mẫu Phổ Biến cực Mẫu Đồ Thị Đồ thị phổ biến cực đại đại 1 ['5', '6', '1', '0', '7', '3', '2', '4'] 4-5-1-0-6-3-2-4 ['1', '7', '0', '6', '8', '3', '2', '5', '4'] 7-6-7-7-6-8-8-8-8 ['1', '3', '0', '2'] 9-6-9-9 6-3-6-4-4-3-3-5-4- 13 ['11', '9', '10', '5', '4', '7', '6', '8', '3', '2', '1', '0'] 4-10-1 17 ['1', '5', '0', '4', '6', '3', '2'] 11-6-5-11-6-12-12 29 ['1', '6', '0', '3', '2', '5', '4'] 13-6-5-3-13-13-13 33 ['1', '7', '3', '2', '6', '0', '5', '4'] 3-3-3-3-6-13-5-13 Bảng 19: Mẫu phổ biến cực đại tối ưu nhóm 1, 2, Tính tốn độ khác đồ thị liệu kiểm tra (nhóm 3) với MPBCĐ tìm tập huấn luyện Sau dự đốn MPBCĐ tương ứng cho đồ thị liệu kiểm tra cách so sánh độ khác với NTĐ (∆ = 6) (độ khác phải nhỏ NTĐ ∆) Nhóm Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu dự 3 đoán Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Lớp dự đoán .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 56 15 10 11 10 #0 15 11 17 12 14 15 #1 11 10 11 14 9 10 #2 15 18 15 14 14 11 #3 19 11 12 13 10 11 #4 23 12 16 11 11 12 NA NA 27 12 16 11 11 12 NA NA 31 14 13 10 #7 35 10 15 10 10 11 #8 Bảng 20: Độ tương đồng đồ thị nhóm mẫu nhóm 1, 2, - Tính tốn độ sai lệch n3, số lượng đồ thị nhóm bị phân loại Sai Đồ Thị Nhóm Lớp Lớp Dự Đoán Kết Quả #0 #0 Đúng #1 #1 Đúng 11 #2 #2 Đúng 15 #3 #3 Đúng 19 #4 #4 Đúng 23 #5 NA Sai 27 #6 NA Sai 31 #7 #7 Đúng 35 #8 #8 Đúng Bảng 21: Kết phân lớp đồ thị nhóm Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 57 Kết luận: Vậy độ sai lệch nhóm n3=2 d Duyệt nhóm 4: - Tập liệu huấn luyện gồm tất tất đồ thị nhóm 1, 2, - Tập liệu kiểm tra gồm tất đồ thị nhóm - Huấn luyện phân lớp sử dụng tất đồ thị tập liệu huấn luyện Sẽ sử dụng thuật tốn để tìm tất MPBCĐ đồ thị tập liệu huấn luyện: Đồ Thị Đồ thị phổ biến cực đại Pattern: ['5', '6', '1', '0', '7', '3', '2', '4']/4-5-1-0-6-3-2-4 Pattern: ['3', '7', '5', '4', '6', '1', '0', '2']/4-5-1-0-6-3-2-4 Pattern: ['1', '6', '0', '5', '7', '3', '2', '4']/4-6-3-2-5-0-4-1 Pattern: ['1', '7', '0', '6', '8', '3', '2', '5', '4']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '8', '3', '2', '7', '0', '6', '5', '4']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '7', '0', '6', '8', '3', '2', '5', '4']/7-6-7-7-6-8-8-8-8 Pattern: ['1', '3', '0', '2']/9-6-9-9 10 Pattern: ['1', '3', '0', '2']/9-6-9-9 11 Pattern: ['1', '3', '0', '2']/9-6-9-9 Pattern: ['11', '9', '10', '5', '4', '7', '6', '8', '3', '2', '1', '0']/6-3-6-4-4-3-3-5-4-4- 13 10-1 Pattern: ['11', '9', '10', '5', '4', '8', '3', '2', '7', '6', '1', '0']/6-6-3-4-4-5-4-4-3-3- 14 10-1 Pattern: ['11', '9', '10', '3', '4', '1', '2', '0', '12', '5', '6', '8', '7']/6-3-6-4-4-3-3-2-5- 15 4-4-1-10 17 Pattern: ['1', '5', '0', '4', '6', '3', '2']/11-6-5-11-6-12-12 18 Pattern: ['1', '5', '0', '4', '6', '3', '2']/11-6-5-11-6-12-12 19 Pattern: ['0', '5', '1', '2', '6', '3', '4']/11-6-5-11-6-12-12 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 58 21 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 22 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 23 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 25 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 26 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 27 Pattern: ['1', '5', '0', '3', '2', '4']/7-6-7-7-7-7 29 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-5-3-13-13-13 30 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-3-5-13-13-13 31 Pattern: ['1', '6', '0', '3', '2', '5', '4']/13-6-5-3-13-13-13 33 Pattern: ['1', '7', '3', '2', '6', '0', '5', '4']/3-3-3-3-6-13-5-13 34 Pattern: ['1', '6', '3', '2', '7', '0', '5', '4']/3-3-3-3-6-13-5-13 35 Pattern: ['0', '6', '1', '2', '7', '3', '5', '4']/13-6-5-13-3-3-3-3 Bảng 22: Mẫu phổ biến tập huấn luyện nhóm 1, 2, Loại trừ MPBCĐ mà xuất nhiều lớp: Nhóm Lớp Đồ Thị Mẫu Phổ Biến cực đại #0 4-5-1-0-6-3-2-4 #0 4-5-1-0-6-3-2-4 #0 4-6-3-2-5-0-4-1 #1 7-6-7-7-6-8-8-8-8 #1 7-6-7-7-6-8-8-8-8 #1 7-6-7-7-6-8-8-8-8 #2 9-6-9-9 #2 10 9-6-9-9 #2 11 9-6-9-9 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Loai .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 59 #3 13 6-3-6-4-4-3-3-5-4-4-10-1 #3 14 6-6-3-4-4-5-4-4-3-3-10-1 #3 15 6-3-6-4-4-3-3-2-5-4-4-1-10 #4 17 11-6-5-11-6-12-12 #4 18 11-6-5-11-6-12-12 #4 19 11-6-5-11-6-12-12 #5 21 7-6-7-7-7-7 Loại #5 22 7-6-7-7-7-7 Loại #5 23 7-6-7-7-7-7 Loại #6 25 7-6-7-7-7-7 Loại #6 26 7-6-7-7-7-7 Loại #6 27 7-6-7-7-7-7 Loại #7 29 13-6-5-3-13-13-13 #7 30 13-6-3-5-13-13-13 #7 31 13-6-5-3-13-13-13 #8 33 3-3-3-3-6-13-5-13 #8 34 3-3-3-3-6-13-5-13 #8 35 13-6-5-13-3-3-3-3 Bảng 23: Loại trừ mẫu xuất nhiều lần nhóm 1, 2, Rút gọn, xếp MPBCĐ tìm để tạo tập tối ưu MPBCĐ: Mẫu Phổ Biến Mẫu Đồ Thị Đồ thị phổ biến cực đại cực đại 1 ['5', '6', '1', '0', '7', '3', '2', '4'] 4-5-1-0-6-3-2-4 ['1', '7', '0', '6', '8', '3', '2', '5', '4'] 7-6-7-7-6-8-8-8-8 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 60 ['1', '3', '0', '2'] 9-6-9-9 6-3-6-4-4-3-3-5-4- 13 ['11', '9', '10', '5', '4', '7', '6', '8', '3', '2', '1', '0'] 4-10-1 ['11', '9', '10', '3', '4', '1', '2', '0', '12', '5', '6', '8', 6-3-6-4-4-3-3-2-55 15 '7'] 4-4-1-10 17 ['1', '5', '0', '4', '6', '3', '2'] 11-6-5-11-6-12-12 29 ['1', '6', '0', '3', '2', '5', '4'] 13-6-5-3-13-13-13 33 ['1', '7', '3', '2', '6', '0', '5', '4'] 3-3-3-3-6-13-5-13 Bảng 24: Mẫu phổ biến cực đại tối ưu nhóm 1, 2, Tính tốn độ khác đồ thị liệu kiểm tra (nhóm 4) với MPBCĐ tìm tập huấn luyện Sau dự đốn MPBCĐ tương ứng cho đồ thị liệu kiểm tra cách so sánh độ khác với NTĐ (∆ = 6) (độ khác phải nhỏ NTĐ ∆) Lớp Nhóm Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu Mẫu dự 4 đoán 15 10 11 10 #0 15 11 17 18 12 14 15 #1 12 10 11 14 15 9 10 #2 16 17 14 13 13 #3 20 11 12 13 14 10 11 #4 24 12 16 17 11 11 12 NA NA 28 12 16 17 11 11 12 NA NA 32 14 13 14 10 #7 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án dự đoán .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 61 36 10 15 10 10 11 11 Bảng 25: Độ tương đồng đồ thị nhóm mẫu nhóm 1, 2, - Tính tốn độ sai lệch n4, số lượng đồ thị nhóm bị phân loại Sai Đồ Thị Nhóm Lớp Lớp Dự Đốn Kết Quả #0 #0 Đúng #1 #1 Đúng 12 #2 #2 Đúng 16 #3 #3 Đúng 20 #4 #4 Đúng 24 #5 NA Sai 28 #6 NA Sai 32 #7 #7 Đúng 36 #8 #8 Đúng Bảng 26: Kết phân lớp đồ thị nhóm Kết luận: Vậy độ sai lệch nhóm n4=2 Đánh giá tính hiệu thuật tốn: Xác xuất sai lệch (E) phân lớp là: E= E= ∑4𝑖=1 𝑛𝑖 𝑚 Trong đó: m – Số lượng đồ thị sử dụng m=36 𝑛1+𝑛2+𝑛3+𝑛4 36 = 2+2+2+2 36 = 36 = 0.2222 E = 22,22% Vậy tính hiệu thuật toán là: Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án #8 .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 62 P = – E = 0.7778 P = 77,78% 3.3 So sánh kết ImaxAFG MaxAFG Dựa vào quy trình ”k-ford cross validation” kiểm chứng (với k = tương đương với liệu đồ thị SIS; dạng liệu hình khung có cấu trúc, chia làm lớp, sử dụng NTS σ = NTĐ ∆ = 6), độ xác phân loại trung bình đồ thị lên đến 77,78% sử dụng thuật toán ImaxAFG Cùng với quy trình kiếm chứng ” k-ford cross validation” với liệu SIS số k = 4; NTS σ = 2; NTĐ ∆ = 6, đạt độ xác phân loại trung bình đồ thị 69,44% sử dụng thuật toán MaxAFG [18], 66,6% sử dụng thuật tốn khơng sử dụng phương pháp so sánh gần gAppox Như hai thuật tốn có sử dụng phương pháp so sánh gần không sử dụng phương pháp so sánh gần đúng, độ xác phân lớp thuật toán nghiên cứu ImaxAFG tốt 3.4 Kết luận hướng phát triển Trong Luận Văn trình bày thuật tốn ImaxAFG, thuật tốn khai thác MPBCĐ dồ thị đơn sử dụng phương pháp so sánh gần Bằng việc thừa nhận khác cấu trúc đỉnh cạnh đồ thị, mẫu đồ thị phổ biến biểu diễn nó, tìm MPB cịn sót thuật tốn khơng sử dụng phương pháp so sánh gần Trong khía cạnh khác, tập trung vào việc khai thác mẫu đồ thị cực đại giúp giảm số lượng mẫu đáng kể, vấn đề quan trọng việc sử dụng phương pháp so sánh gần số lượng MPB tìm tăng lên gấp 100 lần so với thuật tốn khơng sử dụng phương pháp so sánh gần Kết thí nghiệm cho thấy rằng, MPBCĐ tìm thấy thuật tốn ImaxAFG hữu dụng nhiều cơng việc thực việc phân lớp đồ thị; Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 63 nên kết luận mẫu đồ thị phổ biến cực đại khai thác phương pháp so sánh gần có khả thơng tin hữu dụng mà bị bỏ sót sử dụng phương pháp so sánh xác tuyệt đối Một hạn chế thuật toán số lượng thời gian mà thuật toán yêu cầu, quan trọng việc gọi đệ quy lại hàm làm tăng độ phức tạp thuật toán Trong tổng quan vấn đề, thách thức chung khai thác đồ thị hướng nghiên cứu quan trọng tương lai công việc khai thác đồ thị Nghiên cứu vấn đề cải thiện hiệu việc khai thác MPB với liệu đầu vào lớn hơn, bước quan trọng hướng nghiên cứu phát triển tri thức hữu dụng thông qua MPB gần Một phạm vi nghiên cứu khác phát triển tương lai tìm cách để làm giảm bớt số lượng mẫu đồ thị tìm giữ lại thông tin đạt việc sử dụng phương pháp so sánh gần đúng; sử dụng hàm khác để tính tốn độ tương đồng đồ thị; áp dụng thuật tốn cơng bố cho vài trường hợp cụ thể giống đồ thị động .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 64 TÀI LIỆU THAM KHẢO [1] S Ranu, A Singh, Graphsig: a scalable approach to mining significant subgraphs in large graph databases, in: IEEE 25th International Conference on Data Engineering, 2009, pp 844–855 [2] S Nijssen, J.N Kok, A quickstart in frequent structure mining can make a difference, in: Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, ACM, 2004, pp 647–652 [3] X Yan, J Han, gspan: graph-based substructure pattern mining, in: Proceedings of the 2002 IEEE International Conference on Data Mining, ICDM’02, 2002 [4] A Gago-Alonso, J Medina-Pagola, J Carrasco-Ochoa, J Martínez-Trinidad, Mining frequent connected subgraphs reducing the number of candidates, in: W Daelemans, B Goethals, K Morik (Eds.), Machine Learning and Knowledge Discovery in Databases, Lecture Notes in Computer Science, vol 5211, Springer, Berlin/Heidelberg, 2008, pp 365–376 [5] H Cheng, X Yan, J Han, Mining graph patterns, in: C Aggarwal, H Wang (Eds.), Managing and Mining Graph Data, Advances in Database Systems, vol 40, Springer, 2010, pp 365–392 [6] J Huan, W Wang, J Prins, J Yang, Spin: mining maximal frequent subgraphs from graph databases, in: Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, ACM, 2004, pp 581– 586 [7] J Han, H Cheng, D Xin, X Yan, Frequent pattern mining: current status and future directions, Data Min Knowl Discov 15 (2007) 55–86 [8] M Al-Hasan, V Chaoji, S Salem, J Besson, M.J Zaki, Origami: mining representative orthogonal graph patterns, in: ICDM, IEEE Computer Society, 2007, pp .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 65 153–162 [9] W Fan, K Zhang, H Cheng, J Gao, X Yan, J Han, P Yu, O Verscheure, Direct mining of discriminative and essential frequent patterns via model-based search tree, in: Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2008, pp 230–238 [10] F Zhu, Q Qu, D Lo, X Yan, J Han, P.S Yu, Mining top-k large structural patterns in a massive network, PVLDB (2011) 807–818 [11] Y Jia, J Zhang, J Huan, An efficient graph-mining method for complicated and noisy data with real-world applications, Knowl Inf Syst 28 (2011) 423–447 [12] C Chen, X Yan, F Zhu, J Han, gApprox: mining frequent approximate patterns from a massive network, in: ICDM, IEEE Computer Society, 2007, pp 445–450 [13] A Sanfeliu, K.S Fu, A distance measure between attributed relational graphs for pattern recognition, IEEE Trans Syst Man Cybern 13 (1983) 353–363 [14] L.T Thomas, S.R Valluri, K Karlapalem, Margin: maximal frequent subgraph mining, ACM Trans Knowl Discov Data (2010) 10:1–10:42 [15] X Chen, C Zhang, F Liu, J Guo, Algorithm research of top-down mining maximal frequent subgraph based on tree structure, in: P Snac, M Ott, A.Seneviratne (Eds.), Wireless Communications and Applications, Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 72, Springer, Berlin Heidelberg, 2012, pp 401–411 [16] M Kuramochi, G Karypis, Finding frequent patterns in a large sparse graph, Data Min Knowl Discov 11 (2005) 243–271 [17] B Bringmann, S Nijssen, What is frequent in a single graph?, in: T Washio, E.Suzuki, K Ting, A Inokuchi (Eds.), Advances in Knowledge Discovery and Data Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án