Dự báo liên kết mạng đồng tác giả nghiên cứu khoa học

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRỊNH KHẮC LINH DỰ BÁO LIÊN KẾT MẠNG ĐỒNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC Chuyên ngành : Hệ thống thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Trần Đình Khang Hà Nội – Năm 2018 LỜI CẢM ƠN Đầu tiên, vô xúc động xin gửi lời tri ân sâu sắc đến Thầy giáo hướng dẫn PGS.TS Trần Đình Khang – người trực tiếp dành nhiều thời gian quý báu tận tình hướng dẫn cho tơi định hướng khoa học sâu sắc, động viên dẫn sát suốt thời gian học tập, nghiên cứu thực luận văn Thầy dành nhiều thời gian thường xuyên hàng tuần bình luận ý tưởng, kết tôi, truyền cho nghiêm túc, niềm cảm hứng nghiên cứu khoa học Tôi xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo công tác Viện Công nghệ thông tin Truyền thơng tận tình dạy, chia sẻ kinh nghiệm quý báu cách tiếp cận nghiên cứu khoa học Bên cạnh tơi xin cảm ơn chân thành tới Ban giám hiệu nhà trường tồn thể thầy Phịng Sau đại học trường quan tâm, tạo điều kiện cho suốt thời gian học Sau xin bày tỏ lòng biết ơn đến bạn lớp, cảm ơn gia đình ln sát cánh, động viên tơi Học viên Trịnh Khắc Linh i LỜI CAM ĐOAN Tôi – Trịnh Khắc Linh – xin cam kết Luận văn cơng trình nghiên cứu thân tơi hướng dẫn PGS.TS Trần Đình Khang Các kết trình bày Luận văn trung thực, chưa công bố công trình khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày tháng 10 năm 2018 TÁC GIẢ LUẬN VĂN Trịnh Khắc Linh ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC CÁC THUẬT NGỮ CHÍNH DANH MỤC CÁC KÝ HIỆU CHÍNH DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU PHẦN 1: MỞ ĐẦU Lý chọn đề tài Lịch sử nghiên cứu Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu Tóm tắt đọng luận điểm đóng góp tác giả Phương pháp nghiên cứu 10 PHẦN 2: NỘI DUNG ĐỀ TÀI 11 CHƯƠNG I TỔNG QUAN VỀ DỰ BÁO LIÊN KẾT 11 MẠNG ĐỒNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC 11 1.1 Giới thiệu tổng quan mạng xã hội mạng đồng tác giả 11 1.1.1 Mạng xã hội 11 1.1.2 Mạng đồng tác giả 12 1.2 Bài toán dự báo liên kết mạng đồng tác giả 13 1.2.1 Tổng quan độ đo liên kết mạng đồng tác giả 15 1.2.2 Tổng quan mơ hình học máy dự báo liên kết mạng đồng tác giả 17 1.3 Vấn đề cân liệu dự báo liên kết mạng đồng tác giả 19 CHƯƠNG II PHƯƠNG PHÁP SUPPORT VECTOR MACHINE ĐỐI VỚI DỮ LIỆU MẤT CÂN BẰNG 21 2.1 Phương pháp Support Vector Machine 21 2.1.1 Giới thiệu phương pháp Support Vector Machine 21 2.1.2 Tối ưu lề SVM 25 2.1.3 Huấn luyện SVM 27 2.2 Một số độ đo đánh giá hiệu cho phân lớp liệu cân 29 2.3 Một số nghiên cứu cải tiến phương pháp SVM cho phân lớp liệu cân 31 2.2.1 Tiếp cận dựa SVM cho phân lớp liệu cân 31 2.2.2 Weighted-SVM 31 2.2.3 z-SVM 32 2.2.4 New bias SVM 33 CHƯƠNG III PHƯƠNG PHÁP SVM CẢI TIẾN CHO DỮ LIỆU MẤT CÂN BẰNG 34 3.1 Phương pháp SVM cải tiến 34 3.1.1 Học mơ hình Weighted-SVM 35 3.1.2 Tìm giá trị tối ưu τ* 39 3.1.3 Phân tích độ phức tạp tính toán 39 3.2 Thực nghiệm, đánh giá 40 3.2.1 Tập liệu thực nghiệm 40 3.2.2 Cấu hình tham số 41 3.2.3 Kết thực nghiệm 42 CHƯƠNG IV: ỨNG DỤNG DỰ BÁO LIÊN KẾT 43 MẠNG ĐỒNG TÁC GIẢ 43 4.1 Áp dụng phương pháp SVM cải tiến để dự báo liên kết mạng đồng tác giả 43 4.2 Xây dựng chương trình dự báo liên kết mạng đồng tác giả 44 4.2.1 Xây dựng cài đặt công cụ dự báo liên kết mạng đồng tác giả 44 4.2.2 Kết 47 4.2 Đánh giá chương trình 50 4.3.1 Mô tả liệu mạng đồng tác giả thực nghiệm 50 4.3.2 Cấu hình phương pháp phân lớp 51 4.3.3 Độ đo đánh giá 51 4.3.3 Kết thực nghiệm 52 CHƯƠNG V: KẾT LUẬN 61 5.1 Những kết luận 61 5.2 Đóng góp kiến nghị tác giả sử dụng kết nghiên cứu 62 TÀI LIỆU THAM KHẢO 64 DANH MỤC CÁC THUẬT NGỮ CHÍNH ACC: Accuracy 36 CN: Common Neighbours 22, 23, 54 FN: False Negative 36, 61 FP: False Positive 36, 61 JC: Jaccard Coefficient 23, 54 KKT: Karush-Kuhn-Tucker 31, 34 PA: Preferential Attackment 23 QP: Quadratic Programming 31, 32, 33 SMO: Sequential Minimal Optimization 33, 34, 47 SV: Support Vector 32 SVM: Support Vector Machine 4, 8, 14, 15, 24, 25, 26, 27, 29, 30, 32, 33, 37, 38, 39, 40, 41, 42, 46, 47, 50, 51, 56, 61, 62, 63 TN: True Negative 36, 61 TP: True Positive 36, 61 WAA: Weighted Adamic Adar 22 WCN: 22 WJC: Weighted Jaccard Coefficient 23 WPA: Weighted Preferential Attackment 23 DANH MỤC CÁC KÝ HIỆU CHÍNH N Số mẫu liệu w Weight vector b Bias 𝒙𝒊 Vector đặc trưng 𝒚𝒊 Nhãn (label) 𝜉 Slack variable C Hằng số phạt 𝜏 Tham số học mơ hình cải tiến K Kernel 𝒛 Tham số học mơ hình z-SVM DANH MỤC HÌNH VẼ Hình 2.1 Minh họa phân lớp liệu SVM liệu tuyến tính 22 Hình 2.2 Minh họa phân lớp SVM liệu nhiễu 23 Hình 2.3 Minh họa ánh xạ liệu vào không gian nhiều chiều 24 Hình 2.4 Minh họa Weighted-SVM 32 Hình 3.1 Minh họa ràng buộc alpha Weighted-SVM 38 Hình 4.1 Mơ hình dự báo liên kết đồng tác giả dựa tiếp cận học máy 43 Hình 4.2 Sơ đồ đề xuất tổng quan chương trình dự báo liên kết đồng tác giả 44 Hình 4.3 Sơ đồ đề xuất chương trình dự báo liên kết đồng tác giả 45 Hình 4.4 Màn hình huấn luyện mơ hình dự báo liên kết mạng đồng tác giả 47 Hình 4.5 Màn hình hiển thị kết huấn luyện 48 Hình 4.6 Màn hình load ứng viên cần dự báo 48 Hình 4.7 Màn hình lựa chọn ứng viên / tác giả dự báo 49 Hình 4.8 Màn hình kết dự báo cho ứng viên lựa chọn 49 Hình 4.9 Sự thay đổi giá trị F1-score theo tỉ lệ cân 56 Hình 4.10 Sự biến thiên Recall, Precision, F1-score, G-mean theo siêu tham số C 59 Hình 4.11 Kết đánh giá thời gian chạy tìm 𝝉 theo kích cỡ mẫu liệu 60 DANH MỤC BẢNG BIỂU Bảng Một số phương pháp phân lớp áp dụng cho dự báo liên kết 18 Bảng Mô tả ma trận nhầm lẫn 30 Bảng Mô tả liệu cân UCI 41 Bảng Kết thực nghiệm so sánh phương pháp với liệu UCI 42 Bảng Mô tả chia cách chia liệu mạng đồng tác giả theo thời gian 44 Bảng Minh họa liệu mạng đồng tác giả thu 51 Bảng Mô tả tập liệu mạng đồng tác giả cho thực nghiệm đánh giá 51 Bảng Kết đánh giá phương pháp phân lớp liệu mạng đồng tác giả 52 Bảng Kết đánh giá theo siêu tham số C 58 PHẦN 1: MỞ ĐẦU Lý chọn đề tài Với phát triển chóng mặt khoa học, việc tìm kiếm thơng tin khoa học để thực công việc liên quan đến nghiên cứu nhu cầu thường xuyên, thiếu người làm nghiên cứu khoa học Mạng đồng tác giả nghiên cứu khoa học hay gọi mạng lưới học thuật (academic social network) loại mạng xã hội đặc biệt, bao gồm đỉnh (node mạng) tác giả, nhà nghiên cứu viết nhiều báo công bố chủ đề, lĩnh vực đó; cạnh thể mối liên hệ tác giả, thường mối liên hệ cộng tác hai tác giả tham gia xuất báo Các mạng đồng tác giả hỗ trợ người sử dụng tổ chức để chia sẻ hồ sơ họ cho mục đích trao đổi học thuật Những người sử dụng dịch vụ tìm thấy ứng cử viên thích hợp người mà phù hợp với mục tiêu hay nhu cầu hợp tác Mạng đồng tác giả mang nhiều đặc trưng học thuật có nhiều tính chất khác biệt so với mạng xã hội truyền thống Ví dụ, mức độ cộng tác hai tác giả viết chung báo phụ thuộc vào số lượng báo, số lượng tác giả, thứ tự tác giả thời gian công bố báo mà hai tác giả viết chung Do đó, việc phân tích khai phá thơng tin từ mạng đồng tác giả mang nhiều ý nghĩa quan trọng thiết thực việc mơ hình hóa nâng cao chất lượng trình nghiên cứu học thuật Để giúp nhà làm nghiên cứu dễ dàng việc tiếp cận thông tin học thuật hữu ích liên quan, hệ thống dự báo liên kết lĩnh vực học thuật (dự báo liên kết mạng đồng tác giả) giải pháp quan tâm nghiên cứu năm gần Dự báo liên kết vấn đề nhất, việc dự báo liên kết cố gắng để ước lượng khả tồn mối liên kết hai node mạng, dựa liên kết quan sát đặc trưng node Mục tiêu toán dự báo liên kết mạng đồng tác giả đưa cặp tác giả có khả hợp tác tương lai dựa vào cấu trúc mạng quan sát thời điểm - Với tập liệu mạng đồng tác giả Co-authorship có tỉ lệ cân lớn nhất, phương pháp SVM chuẩn dự đốn tồn liên kết mang nhãn âm, mà khơng dự đốn nhãn dương, chứng tỏ siêu mặt học phương pháp SVM không đạt hiệu cho dự báo liên kết đồng tác giả bị cân liệu Phương pháp z-SVM cải thiện đáng kể phương pháp SVM chuẩn dự đoán 560 liên kết dương tổng số 634 liên kết đồng tác giả mang nhãn dương Tuy nhiên, phương pháp z-SVM lại dự đoán sai lượng lớn liên kết mang nhãn dương (14622 liên kết), thế, thơng số mơ hình F1-score G-mean thấp Phương pháp Weighted-SVM cải thiện vượt trội so với phương pháp z-SVM dự đoán tới 599 liên kết đồng tác giả (trong tổng số 634 liên kết), số cao tập liệu mạng đồng tác giả bị cân Đồng thời Weighted-SVM cải thiện đáng kể liên kết dự đoán sai (FP: 11240 so với 14622 z-SVM) Số lượng cặp ứng viên dự báo liên kết lớn (TN: 20460 so với 17078 z-SVM) Và cặp ứng viên không dự báo sai có liên kết cải thiện nhiều so với z-SVM (FN: 35 so với 74 z-SVM) Vì thơng số đánh giá hiệu mơ hình F1-score Gmean cải thiện vượt trội so với z-SVM Tuy nhiên, Weighted-SVM chưa phải phương pháp cho kết tốt Nhìn vào kết quả, dễ dàng nhận phương pháp đề xuất dự đoán số lượng liên kết đồng tác giả tới tận 604 liên kết tổng số 634 liên kết (dự đốn 95,27%) vượt trội so với tồn phương pháp lại Đối với mạng đồng tác giả, việc dự đoán số lượng lớn liên kết mang nhãn dương điều mong muốn phương pháp nào, liên kết mang nhãn dương có giá trị cốt lõi cho việc dự báo, khuyến nghị Bên cạnh đó, số dự đoán liên kết sai (FP: 11072 so với 11240 Weighted-SVM), cặp ứng viên dự báo khơng có liên kết (TN:20628 so với 20460 Weighted-SVM), cặp ứng viên dự báo sai khơng có liên kết (FN: 30 so với 35 Weighted-SVM) cải thiện nhiều so với Weighted-SVM Với cải thiện tuyệt đối số TP, TN, FP, FN, phương pháp đề xuất cho thông số đánh giá hiệu mô hình F1-score G-mean tốt phương pháp lại Đối với tập liệu mạng đồng tác giả lớn (247962 mẫu), lại có tỉ lệ cân (1.96% mẫu dương), phương pháp đề xuất cho kết dự báo liên kết vượt trội so với phương pháp lại 53 - Với tập liệu Co-authorship có tỉ lệ cân liệu cao tập liệu thứ (nhãn dương 9% so với 1.96% tập liệu Co-authorship 1) Tuy nhiên, tỉ lệ cân lớn, nên phương pháp SVM chuẩn dự đốn hồn tồn liên kết mang nhãn âm, phương pháp SVM chuẩn tiếp tục không hiệu với liệu đồng tác giả cân Cũng tập liệu Coauthorship 1, phương pháp z-SVM cho kết dự báo cải thiện đáng kể so với SVM chuẩn, kết dự báo liên kết mang nhãn dương thu hẹp khoảng cách với phương pháp Weighted-SVM, phương pháp đề xuất so với tập liệu Co-authorship Số liên kết bị dự báo sai nhiều (1093 liên kết), dẫn đến F1-score Gmean thấp Phương pháp Weighted-SVM tiếp tục dự báo liên kết tốt phương pháp z-SVM tất kết dự báo, gồm có liên kết mang nhãn dương (210 liên kết so với 202 z-SVM), số lượng liên kết mang nhãn dương bị dự đoán sai giảm đáng kể (728 so với 1093 z-SVM), số lượng ứng viên dự báo khơng có liên kết tăng (1742 so với 1377 z-SVM), số lượng ứng viên khơng có liên kết bị dự báo sai giảm đáng kể (37 so với 45 z-SVM) Vì thế, giá trị F1-score G-mean cải thiện đáng kể so với z-SVM Phương pháp đề xuất tiếp tục cho kết dự báo tốt tất phương pháp thực nghiệm So với Weighted-SVM, phương pháp đề xuất không không cải thiện số lượng liên kết mang nhãn dương bị dự đoán sai (FP) số lượng ứng viên khơng có liên kết (TN) Tuy nhiên phương pháp đề xuất cải thiện số lượng liên kết mang nhãn dương số lượng ứng viên khơng có liên kết bị dự đoán sai đáng kể so với Weighted-SVM (TP: 219 so với 210 Weighted-SVM, FN: 28 so với 37 Weighted-SVM) Nhờ đó, giá trị F1-score G-mean cải thiện so với Weighted-SVM, đạt tốt so với tất phương pháp So với tập liệu Coauthorship 1, tập liệu có tỉ lệ cân nhãn cao hơn, bị cân lớn Phương pháp đề xuất tiếp tục cho kết dự báo liên kết tốt phương pháp lại, đặc biệt dự báo số lượng liên kết nhãn dương vượt trội so với phương pháp lại - Tập liệu Co-authorship tập liệu cuối thực nghiệm này, với tỉ lệ cân nhãn điều chỉnh cho cân Với tỉ lệ mẫu dương chiếm 54 21.7%, nghĩa tập liệu bị cân với tỉ lệ cân khơng lớn Vì thế, phương pháp SVM chuẩn cho kết dự báo với nhãn dương Tuy nhiên, số lượng liên kết nhãn dương mà SVM chuẩn dự báo hạn chế (TP+FP = 46+24 = 70 liên kết, nhỏ so với tổng nhãn dương dự báo phương pháp lại), chứng tỏ siêu mặt học SVM chuẩn không hiệu liệu bị cân Phương pháp z-SVM dự báo tốt vượt trội so với SVM chuẩn zSVM dự báo 129 liên kết dương tổng số 160 liên kết dương Các số dự báo z-SVM gần với kết dự báo Weighted-SVM, cụ thể số liên kết dương 129 so với 131 Weighted-SVM, số liên kết dương dự báo sai 172 so với 171 Weighted-SVM, số cặp ứng viên dự báo khơng có liên kết 377 so với 378 Weighted-SVM, số cặp ứng viên dự báo sai khơng có liên kết 31 so với 29 Weighted-SVM Điều cho thấy kết dự báo phương pháp zSVM Weighted-SVM gần tương đương, Weighted-SVM nhỉnh chút so với z-SVM Điều dẫn tới thơng số F1-score G-mean phương pháp xấp xỉ Tuy tập liệu có tỉ lệ cân thấp tập liệu trước, số dự báo phương pháp đề xuất khơng cịn vượt xa so với phương pháp cịn lại tập liệu trước, cải thiện đáng kể so với phương pháp lại tất số dự báo Cụ thể, số lượng liên kết dương dự báo 136, nhiều đáng kể so với số 131 Weighted-SVM, số lượng liên kết dương bị dự báo sai 166, giảm đáng kể so với số 171 WeightedSVm, số lượng cặp ứng viên dự báo khơng có liên kết 383, tăng nhẹ so với số 378 Weighted-SVM, số lại dự báo sai cặp ứng viên khơng có liên kết 24, giảm rõ rệt so với 29 Weighted-SVM Nhờ mà thơng số F1score G-mean phương pháp đề xuất tốt đáng kể so với Weighted-SVM, tốt phương pháp lại Biểu đồ hình 4.9 biểu diễn biến đổi giá trị F1-score theo tỉ lệ cân liệu mạng đồng tác giả Biểu đồ giúp quan sát trực quan biến đổi thông số đánh giá hiệu mơ hình F1-score theo tỉ lệ cân liệu khác 55 Sự thay đổi F1-score theo tỉ lệ phần trăm mẫu dương 0.6 0.55 0.5 0.45 0.4 F1-score 0.35 Standard SVM 0.3 z-SVM Weighted-SVM 0.25 Proposed 0.2 0.15 0.1 0.05 1.96% 9% 21.70% Tỉ lệ phần trăm mẫu dương Hình 4.9 Sự thay đổi giá trị F1-score theo tỉ lệ cân Quan sát biểu đồ, thấy với tỉ lệ cân liệu thấp, phương pháp SVM chuẩn gần cho giá trị F1-score 0, đó, F1-score z-SVM tốt nhiều so với SVM chuẩn, nhiều so với phương pháp lại (đường nét đứt thứ từ lên cách xa đường phía trên) Trong đó, phương pháp Weighted-SVM phương pháp đề xuất cho đường nét gần sát nhau, cho thấy F1-score không chênh lệch nhiều, nhiên, đường biểu đồ phương pháp đề xuất nằm phía đường biểu đồ phương pháp Weighted-SVM, cho thấy F1-score phương pháp đề xuất tốt phương pháp Weighted-SVM Càng theo chiều tỉ lệ cân liệu cao (tỉ lệ cân giảm), đường biểu diễn F1-score phương pháp có xu hướng hội tụ, cho thấy phương pháp đạt hiệu tỉ lệ cân liệu 56 Tóm lại, thông qua kết thực nghiệm với số tập liệu mạng đồng tác giả với kích thước liệu khác nhau, tỉ lệ cân khác nhau, cho thấy phương pháp đề xuất cho kết dự báo cải thiện tất các số dự báo, đặc biệt số lượng liên kết mang nhãn dương dự báo xác tăng nhiều so với phương pháp lại Điều khẳng định phương pháp đề xuất hiệu cho dự báo liên kết mạng đồng tác giả b/ Đánh giá phụ thuộc vào siêu tham số Trong họ phương pháp SVM, số phạt C đóng vai trị vơ quan trọng định tới chất lượng siêu mặt phân lớp Với giá trị C khác có siêu mặt khác Vì vậy, C coi siêu tham số Thực nghiệm đánh giá hiệu phương pháp đề xuất theo siêu tham số C Thực nghiệm sử dụng tập liệu Co-authorship1 mô tả Bảng 6, tập liệu có kích thước lớn, có tỉ lệ cân lớn Thực nghiệm quan sát kết phương pháp đề xuất phương pháp Weighted-SVM mà không quan sát phương pháp SVM chuẩn z-SVM phương pháp SVM chuẩn tuyệt đối khơng hiệu liệu cân lớn, phương pháp z-SVM dù có kết tốt SVM chuẩn số dự báo liên kết thấp đáng kể so với Weighted-SVM Kết thự nghiệm mô tả Bảng bên dưới Với giá trị C biến thiên, số dự báo bao gồm TP, FP, TN, FN thông số đánh giá hiệu F1 (F1-score), G-mean quan sát phương pháp Weighted-SVM phương pháp đề xuất Kết cho thấy, với giá trị C biến thiên, phương pháp Weighted-SVM cho số dự báo liên kết dương dự báo sai cặp ứng viên khơng có liên kết gần khơng đổi (TP ổn định giá trị 599, FN ổn định giá trị 35), số dự báo liên kết dương sai dự báo ứng viên liên kết thay đổi Ngược lại với Weighted-SVM, phương pháp đề xuất cho số dự báo hội tụ C biến thiên Tất các số dự báo phương pháp đề xuất (TP, FP, TN, FN) tốt so với Weighted-SVM C thay đổi, TP FN cải thiện nhẹ, FP TN cải thiện đáng kể Nhờ giá trị F1-score G-mean tốt Weighted-SVM toàn tập giá trị quan sát C 57 Bảng Kết đánh giá theo siêu tham số C Weighted-SVM C TP FP TN 2−11 599 11504 20196 −10 F1 G-mean TP FP TN 35 0.094057 0.775839 604 11072 20628 601 11433 −8 20267 33 0.094885 0.778498 603 11132 599 −7 11359 20341 35 0.09514 0.77862 603 −6 599 11356 20344 35 0.095162 0.778677 −5 599 11259 20441 35 0.095901 −4 599 11319 20381 35 −3 599 11268 20432 −2 599 11254 599 11459 −1 599 2 2 FN Proposed FN F1 G-mean 30 0.098132 0.787359 20568 31 0.097502 0.785562 11074 20626 31 0.097961 0.786669 602 11072 20628 32 0.097823 0.786054 0.780531 600 11072 20628 34 0.097513 0.784747 0.095443 0.779385 600 11072 20628 34 0.097513 0.784747 35 0.095832 0.780359 600 11072 20628 34 0.097513 0.784747 20446 35 0.09594 0.780627 600 11072 20628 34 0.097513 0.784747 20241 35 0.09439 0.776703 600 11072 20628 34 0.097513 0.784747 11240 20460 35 0.096047 0.780894 600 11072 20628 34 0.097513 0.784747 599 11240 20460 35 0.096047 0.780894 600 11072 20628 34 0.097513 0.784747 599 11247 20453 35 0.095994 0.78076 600 11072 20628 34 0.097513 0.784747 599 11247 20453 35 0.095994 0.78076 600 11072 20628 34 0.097513 0.784747 599 11246 20454 35 0.096001 0.780779 600 11072 20628 34 0.097513 0.784747 599 11247 20453 35 0.095994 0.78076 600 11072 20628 34 0.097513 0.784747 599 11469 20231 35 0.094316 0.776511 600 11072 20628 34 0.097513 0.784747 599 11487 20213 35 0.094182 0.776166 600 11072 20628 34 0.097513 0.784747 Các biểu đồ hình 4.10 dây thể trực quan biến thiên Recall, Precision, F1-score, G-mean theo tập quan sát C Các đường biểu diễn Recall, Precision, F1-score, G-mean phương pháp Weighted-SVM có đặc điểm biến đổi tăng dần, đạt cực đại (hoặc vài) giá trị C đó, sau lại giảm theo giá trị C Trong đường biểu diễn tương ứng phương pháp đề xuất ổn định so với Weighted-SVM, điểm đầu đường đồ thị đạt tới giá trị cực đại giá trị C bé đó, sau biến thiên tăng giảm theo vài giá trị C tiếp theo, sau hội tụ giá trị Trong tất biểu đồ, đường biểu diễn Recall, Precision, F1-score, G-mean phương pháp đề xuất nằm đường tương ứng phương pháp Weighted-SVM, chí có đoạn mà giá trị cao vượt trội so với đường tương ứng Weighted-SVM Điều cho thấy phương pháp đề xuất hiệu hơn, ổn định phương pháp Weighted-SVM dự báo liên kết đồng tác giả siêu tham số C biến thiên 58 Biến thiên Recall Biến thiên Precision 0.952 0.0515 0.95 0.051 0.948 0.946 Weighted-SVM 0.944 Precision Recall 0.954 Proposed 0.942 0.0505 Proposed 0.0495 0.94 0.049 C C Biến thiên F1-score 0.098 0.0975 0.097 0.0965 0.096 0.0955 0.095 0.0945 0.094 Biến thiên G-mean 0.787 0.785 Weighted-SVM Proposed F1-score F1-score Weighted-SVM 0.05 0.783 0.781 Weighted-SVM 0.779 Proposed 0.777 0.775 C C Hình 4.10 Sự biến thiên Recall, Precision, F1-score, G-mean theo siêu tham số C 59 c/ Đánh giá thời gian học mơ hình Bên cạnh kết đánh giá hiệu năng, thực nghiệm quan tâm tới chi phí thời gian tìm kiếm giá trị tối ưu 𝜏 Thời gian tìm kiếm giá trị 𝜏 quan sát với thời gian huấn luyện mơ hình theo kích thước tập liệu Các kết thời gian thu từ thực nghiệm chạy mơi trường Matlab R2016a cài máy tính có thơng số cấu sau: - Laptop HP Intel ® Core ™ i5-4210M CPU @ 2.6Ghz - Ram: 12GB, - Hệ điều hành: Windows 8.1 (64bit) Kết chi phí thời gian thể qua biểu đồ kèm theo bảng kết hình bên dưới: 70000 Thời gian (seconds) 60000 50000 40000 30000 20000 10000 Thời gian tìm τ Thời gian huấn luyện 2309 5206 10417 215628 2.047291 5.843978 8.558825 285.285098 128.884643 458.472904 881.312296 57282.68728 Số mấu huấn luyện Hình 4.11 Kết đánh giá thời gian chạy tìm 𝝉 theo kích cỡ mẫu liệu Biểu đồ cho thể thể kết thời gian huấn luyện thời gian tìm kiếm giá trị tối ưu 𝜏 Có thể thấy thời gian tìm kiếm 𝜏 nhỏ so với thời gian huấn luyện mơ hình, đặc biệt kích thước tập liệu lớn, thời gian tìm 𝜏 xem không đáng kể so với thời gian huấn luyện mô hình 60 CHƯƠNG V: KẾT LUẬN 5.1 Những kết luận Qua phần trình bày luận văn này, tác giả tóm tắt lại số kết luận sau: • Khảo sát nghiên cứu kỹ thuật dự báo liên kết mạng đồng tác giả, tìm hiểu số độ đo tương đồng phổ biến, phương pháp học máy thông dụng cho dự báo liên kết mạng đồng tác giả Đồng thời, tìm hiểu nghiên cứu vấn đề tồn đọng dẫn đến hiệu phương pháp cho dự báo, số cải tiến điển hình nhằm khắc phục vấn đề • Đề xuất phương pháp SVM cải tiến cho liệu cân nhãn lớp (bài toán lớp nhãn) Cơ sở động lực dựa hiểu rõ vấn đề cân liệu, nắm rõ ý tưởng, nguyên lý cải tiến có nhằm khắc phục vấn đề cân liệu dựa phương pháp phân lớp SVM • Ý tưởng tác giả đề xuất cách điều chỉnh siêu mặt phân lớp sau huấn luyện mơ hình SVM cải tiến hiệu cho liệu cân bằng, cụ thể: - Ở bước huấn luyện mơ hình, tác giả sử dụng phương pháp Weighted-SVM phương pháp hiệu cải tiến dựa SVM cho liệu cân - Sau huấn luyện siêu mặt phân lớp sử dụng Weighted-SVM, siêu mặt phân lớp đạt tới vị trí tốt cho phân lớp liệu cân Tuy nhiên, để đạt siêu mặt phân lớp tốt so với siêu mặt huấn luyện được, tác giả đề xuất sửa đổi giá trị weight vector siêu mặt, cách gia tăng đại lượng cho nhân tử Lagrange lớp ý nghĩa thu từ huấn luyện mơ hình Để tìm đại lượng tốt giúp tăng hiệu mơ hình, tác giả đề xuất sử dụng phương pháp tối ưu dựa kỹ thuật tìm kiếm lắt cắt vàng cho việc tìm kiếm • Dựa tính tin cậy phương pháp đề xuất thông qua thực nghiệm đánh giá hiệu với số tập liệu bị cân bằng, tác giả đề xuất mơ hình áp dụng phương 61 pháp đề xuất cho dự báo liên kết mạng đồng tác giả Chương trình dự báo tác giả xây dựng hỗ trợ huấn luyện dự báo liên kết đồng tác giả cho mạng đồng tác giả đưa vào chương trình Chương trình sử dụng phương pháp đề xuất đề huấn luyện mơ hình Từ đó, hỗ trợ dự báo liên kết có khả tương lai cho tác giả / ứng viên cần kiểm tra • Giải pháp tác giả có sở chứng minh tính tin cậy vững chãi; lý luận chặt chẽ, đám bảo nâng cao hiệu cho dự báo liên kết mạng đồng tác giả Đồng thời sẳn sàng áp dụng lựa chọn thích hợp cho toán cân liệu nói chung Sự hiệu phương pháp đề xuất so với phương pháp cải tiến có thể thông qua thực nghiệm đánh giá với tập liệu phong phú, nhiều tiêu chí, độ đo chuyên dụng đánh giá hiệu phương pháp học máy 5.2 Đóng góp kiến nghị tác giả sử dụng kết nghiên cứu Đóng góp Qua q trình nghiên cứu phần trình bày trên, tác giả xin tóm tắt lại đóng góp sau: - Tác giả đề xuất phương pháp SVM cải tiến cho cho liệu cân (2 nhãn lớp), áp dụng hiệu cho phân lớp liệu cân nói chung, mạng đồng tác giả nói riêng Thực nghiệm nhiều tập liệu cân có nguồn từ UCI cho thấy phương pháp đề xuất hiệu số phương pháp cải tiến dựa SVM - Tác giả áp dụng phương pháp đề xuất vào dự báo liên kết mạng đồng tác giả Tác giả xây dựng chương trình dự báo liên kết mạng đồng tác giả hỗ trợ lựa chọn liệu huẩn luyện sử dụng cài đặt tham số mơ hình đề xuất cho huấn luyện mơ hình Từ chương trình dự báo khả cộng tác tương lai cho tác giả hay ứng viên cần kiểm tra 62 - Tác giả đánh giá lại chương trình dự báo liên kết thông qua thực nghiệm so sánh phương pháp đề xuất với số phương pháp cải tiến dựa SVM số tập liệu mạng đồng tác giả với kích thước liệu khác nhau, từ nhỏ (khoảng 2000 mẫu) lớn (khoảng 250000 mẫu) Kết đánh giá hiệu thời gian thực thi tìm kiếm tối ưu cho thấy phương pháp đề xuất cho hiệu tốt dự báo liên kết mạng đồng tác giả so với phương pháp so sánh, thời gian tìm kiếm tối ưu khơng đáng kể so với thời gian huấn luyện mơ hình liệu lớn Kiến nghị sử dụng kết nghiên cứu: Thông qua số thực nghiệm chứng minh phương pháp đề xuất tác giả phù hợp áp dụng toán phân lớp liệu bị cân bằng, cho kết tốt áp dụng dự báo liên kết mạng đồng tác giả Tác giả mong muốn kết nghiên cứu, phương pháp đề xuất áp dụng nhiều lĩnh vực khác mà tồn vấn đề cân liệu Đồng thời mong muốn trải nghiệm người dùng phương pháp phân lớp đề xuất hay chương trình dự báo liên kết đồng tác giả cho phản hồi kiểm chứng cho tính đắn đề xuất tác giả 63 TÀI LIỆU THAM KHẢO [1] Pham Minh Chuan, Le Hoang Son, Mumtaz Ali, Tran Dinh Khang, Le Thanh Huong, Nilanjan Dey (2018) Link Prediction in Co-authorship Networks based on Hybrid Content Similarity Metric Applied Intelligence, ISSN: 0924-669X doi: 10.1007/s10489-017-1086-x [2] Phạm Minh Chuẩn, Trịnh Khắc Linh, Trần Đình Khang, Lê Hồng Sơn (2017) Phân tích ảnh hưởng số độ đo liên kết áp dụng vào toán dự đoán liên kết mạng đồng tác giả Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) – Đà Nẵng, 17-18/8/2017 ISBN: 978-604913-614-6, trang 760-767 [3] Liben-Nowell, D., Kleinberg, J (2007) The link-prediction problem for social networks Journal of the American society for information science and technology, 58(7), 1019-1031 [4] M Al Hasan, V Chaoji, S Salem and M Zaki (2006) "Link prediction using supervised learning," in SDM06: workshop on link analysis, counter-terrorism and security [5] H R De Sá and R B Prudêncio (2011) "Supervised link prediction in weighted networks," in Neural Networks (IJCNN), The 2011 International Joint Conference on, IEEE, pp 2281-2288 [6] T Murata and S Moriyasu (2007) "Link prediction of social networks based on weighted proximity measures," in the IEEE/WIC/ACM international conference on In Web Intelligence [7] M E Newman (2001) "Clustering and preferential attachment in growing networks," Physical review E, vol 64, no 2, p 025102 [8] M Pavlov and R Ichise (2007) "Finding experts by link prediction in coauthorship networks," in In Proceedings of the 2nd International Conference on Finding Experts on the Web with Semantics-Volume 290 64 [9] M Sachan and R Ichise (2010) "Using abstract information and community alignment information for link prediction," in In Machine Learning and Computing (ICMLC), 2010 Second International Conference on [10] C Wang, V Satuluri and S Parthasarathy (2007) "Local probabilistic models for link prediction," in In Data Mining, 2007 ICDM 2007 Seventh IEEE International Conference on [11] T Wohlfarth and R Ichise (2008) "Semantic and Event-Based Approach for Link Prediction," In Proceedings of the 7th International Conference on Practical Aspects of Knowledge Management (PAKM), Yokohama - Japan [12] Linyuan Lu, Tao Zhou, “Link Prediction in Complex Networks: A Survey”, PhysicaA 390 (2011) 1150-1170 [13] Newman, M E (2001) Clustering and preferential attachment in growing networks Physical review E,64(2), 025102, 1-13 [14] Murata, T., & Moriyasu, S (2007) Link prediction of social networks based on weighted proximity measures Proceedings of the IEEE/WIC/ACM international conference on In Web Intelligence, 85-88 [15] Adamic, L A., & Adar, E (2003) Friends and neighbors on the web Social networks, 25(3), 211-230 [16] Salton, G & Mc Gill, M.J (1983) Introduction to Modern Information Retrieval Mc Graw-Hill, NewYork [17] Gne, , Gndz-dc, , & Ataltepe, Z (2016) Link prediction using time series of neighborhood-based node similarity scores Data Mining and Knowledge Discovery, 30(1), 147-180 [18] Mitzenmacher, M (2004) A brief history of generative models for power law and lognormal distributions Internet mathematics, 1(2), 226-251 [19] Jeh, G., & Widom, J (2002, July) SimRank: a measure of structural-context similarity In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (pp 538-543) ACM [20] L Katz (1953) "A new status index derived from sociometric analysis," Psychometrika, vol 18, no 1, pp 39-43 65 21 S Scellato, A Noulas and C Mascolo (2011) "Exploiting place features in link prediction on location-based social networks (pp ).," in In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining 22 J R Quinlan (2014) C4 5: programs for machine learning, Elsevier [23] T Wohlfarth and R Ichise (2008) "Semantic and Event-Based Approach for Link Prediction," In Proceedings of the 7th International Conference on Practical Aspects of Knowledge Management (PAKM), Yokohama - Japan [24] L Breiman (2001) "Random forests," Machine learning, vol 45, no 1, pp 5- 32 [25] Y Freund and R E Schapire (1995) "A desicion-theoretic generalization of online learning and an application to boosting," in European conference on computational learning theory, Springer, Berlin, Heidelberg, pp 23-37 [26] R O Duda, P E Hart and D G Stork (2001) "Pattern classification 2nd," Edition New York, p 55 [27] S H Walker and D B Duncan (1967) "Estimation of the probability of an event as a function of several independent variables," Biometrika, vol 54, no.1-2, pp.167-179 [28] Z Lu, B Savas, W Tang and I S Dhillon (2010) "Supervised link prediction using multiple sources," in Data Mining (ICDM), 2010 IEEE 10th International Conference on, IEEE, pp 923-928 [29] CORTES, Corinna, and Vladimir VAPNIK, 1995 Support-vector networks Machine Learning, 20(3), 273–297 [30] Osuna, R Freund, and F Girosi Support vector machines: Training and applications AI Memo 1602, Massachusetts Institute of Technology, 1997b [31] https://en.wikipedia.org/wiki/Quadratic_programming [32] Everett, Hugh, III (1963) "Generalized Lagrange multiplier method for solving problems of optimum allocation of resources" Operations Research 11 (3): 399–417 doi:10.1287/opre.11.3.39 JSTOR 168028 MR 0152360 Archived from the original on 2011-07-24 [33] Platt, John (1998), Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (PDF), CiteSeerX 10.1.1.43.4376 66 [34] A Maratea, A Petrosino, and M Manzo, “Adjusted FMeasure and Kernel Scaling for Imbalanced Data Learning,” Inform Sci., vol 257, Feb 2014, pp 331–341 [35] M Kubat and S Matwin, “Addressing the Curse of Imbalanced Training Sets: OneSided Selection,” Proc Int Conf Mach Learning, 1997, pp 179–186 [36] Rukshan Batuwita and Vasile Palade Class Imbalance Learning Methods For Support Vector Machines, Imbalanced Learning: Foundations, Algorithms, and Applications ISBN: 9781118646106, DOI :10.1002/9781118646106.ch5, 2013 [37] T Imam, K.M Ting, J Kamruzzaman, “z-SVM: An SVM for Improved Classification of Imbalanced Data,” Proc Australian Joint Conf Artif Intell, Hobart, Australia, Dec 4–8, 2006, pp 264–273 [38] Haydemar Núñez, Luis Gonzalez-Abril, Cecilio Angulo Improving SVM Classification on Imbalanced Datasets by Introducing a New Bias, Journal of Classification, October 2017, Volume 34, Issue 3, pp 427–443 [39] R Akbani, S Kwek, N Japkowicz, Applying Support Vector Machines to Imbalanced Datasets BT - Machine Learning: ECML 2004: 15th European Conference on Machine Learning, Pisa, Italy, September 20-24, 2004 Proceedings, J.-F Boulicaut, F Esposito, F Giannotti, and D Pedreschi, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2004, pp 39–50 [40] https://archive.ics.uci.edu/ml/ [41] Gill, P.E., Murray, W., Wright, M.H.: Practical Optimization Academic Press (1981) [42] Wotao Yin, Math 273a: Optimization 1D search methods, Department of Mathematics, UCLA Fall 2015 [43] Đồ án tốt nghiệp: “Hệ khuyến nghị cộng tác đồng tác giả”, 2018, Nguyễn Đăng Tuấn Anh, K58 - KSTN Công nghệ thông tin, Viện Công nghệ thông tin truyền thông, đại học Bách khoa Hà Nội 67 ... hướng tiếp cận dự báo liên kết đề cập chương I, tác giả chọn tiếp cận dự báo liên kết dựa học máy Hệ thống dự báo liên kết mạng đồng tác giả sử dụng mơ hình dự báo liên kết dựa tiếp cận học máy sơ... để dự báo liên kết mạng đồng tác giả - Xây dựng chương trình dự báo liên kết mạng đồng tác giả - Đánh giá chương trình 4.1 Áp dụng phương pháp SVM cải tiến để dự báo liên kết mạng đồng tác giả. .. cân Lịch sử nghiên cứu Trên thực tế nay, có nhiều cơng trình, báo nghiên cứu dự báo liên kết mạng đồng tác giả Hầu hết báo tiếp cận dự báo liên kết mạng đồng tác giả dựa kết áp dụng từ mạng xã hội

Định dạng
Số trang	72
Dung lượng	1,45 MB