Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,32 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Một số phương pháp xác định gọi làm phiền NGUYỄN VĂN LONG nguyenlongqbtt@gmail.com Ngành Toán Tin Giảng viên hướng dẫn: TS Lê Chí Ngọc Viện: GVHD Tốn ứng dụng Tin học HÀ NỘI, 10/2022 Chữ ký CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Văn Long Đề tài luận văn: Một số phương pháp xác định gọi làm phiền Chuyên ngành: Toán Tin Mã số SV: 20202826M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31 tháng 10 năm 2022 với nội dung sau: Sửa số lỗi soạn thảo, câu chữ, công thức trang 17, 22, 24, 26, 28, 30, 31, 33, 36, 37, 42 Ngày 31 tháng 10 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Tác giả xin gửi lời cảm ơn trân trọng sâu sắc tới người thầy cố vấn tác giả, TS Lê Chí Ngọc - người thầy đưa tác giả đến với lĩnh vực Trí tuệ nhân tạo, người định hướng, trực tiếp hướng dẫn tác giả nhiệt tình, chu đáo, ln động viên mặt tinh thần để tác giả hoàn thành luận văn Tác giả xin trân trọng cảm ơn tới thầy Viện Tốn Ứng dụng Tin học, Phòng đào tạo Bộ phận quản lý đào tạo sau đại học, Trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi để tác giả hoàn thành luận văn Đồng thời, tác giả gửi lời cảm ơn tới công ty Grooo International tạo điều kiện để tác giả có đủ sở vật chất thực việc nghiên cứu, phát triển ứng dụng mơ hình đề xuất vào thực tế Sau cùng, tác giả xin gửi lời cảm ơn tới gia đình, người thân bạn bè động viên giúp đỡ tác giả suốt trình thực đề tài Xin chân thành cảm ơn người! Tóm tắt nội dung luận văn Cuộc gọi làm phiền ngày trở nên nghiêm trọng thu hút ý đáng kể từ nhà cung cấp viễn thông tác hại lớn tài trải nghiệm người dùng Các hệ thống chống gọi làm phiền phải đối mặt với hai thách thức lớn: khả mở rộng liệu hành vi gian lận người gọi làm phiền để cố gắng vượt qua hệ thống Luận văn trình bày giải pháp kỹ thuật để cố gắng giải thách thức Tác giả đề xuất hai phương pháp phát số điện thoại làm phiền gồm phương pháp sử dụng thuật toán Extreme Gradient Boosting phương pháp dựa đồ thị sử dụng Graph Neural Network Đồng thời, tác giả đề xuất phương pháp Semi-supervised learning kết hợp thuật toán Co-train phương pháp Active learning để cải thiện hiệu suất phân loại tối ưu khả mở rộng liệu Triển khai tập liệu thu thập từ ứng dụng chặn gọi làm phiền có tên Icaller Kết việc triển khai thể tính hiệu phương pháp đề xuất Từ khóa: SPIT, XGBoost, Graph Neural Networks, SemiSupervised learning, Co-train, Active learning Hà Nội, ngày 11 tháng 10 năm 2022 Giảng viên hướng dẫn Kí ghi rõ họ tên Học viên Kí ghi rõ họ tên Mục lục Mở đầu Chương 1: Cơ sở lý thuyết 11 12 1.1 Máy học 1.1.1 Tổng quan 12 12 1.1.2 Phương pháp Học kết hợp 13 1.1.3 Phương pháp Học chủ động 16 1.2 Mạng nơ-ron nhân tạo 17 1.2.1 Cấu trúc mạng nơ-ron 17 1.2.2 Thuật toán lan truyền ngược 19 1.3 Phương pháp dựa đồ thị 21 1.3.1 Đồ thị 21 1.3.2 Nhúng đồ thị 22 Chương 2: Mô hình đề xuất 24 2.1 Thuật tốn XGBoost 2.2 Kiến trúc Graph Neural Network 24 28 2.3 Thuật toán Đồng đào tạo 32 2.4 Mơ hình kết hợp thuật toán Đồng đào tạo phương pháp Học chủ động Chương 3: Cài đặt thực nghiệm đánh giá 34 38 3.1 Phân tích thiết kế hệ thống 3.2 Dữ liệu 38 41 3.3 Kết thực nghiệm 46 Tổng kết Chỉ mục 50 51 Tài liệu tham khảo 55 Danh sách hình vẽ 1.1 Thuật tốn Đóng bao [15] 1.2 Thuật toán Tăng cường [15] 14 15 1.3 Thuật toán xếp chồng [15] 15 1.4 Lấy mẫu khơng chắn tìm thấy mẫu gần với ranh giới định [20] 16 1.5 Lấy mẫu đa dạng tìm thấy mẫu khác biệt tối đa với mẫu đào tạo có [20] 1.6 Nơ-ron nhân tạo 17 18 1.7 Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) Hàm ReLU hàm Softplus; (c) Hàm Tanh [27] 19 1.8 Mạng perceptron nhiều lớp [10] 20 1.9 Hình A Đồ thị mạng xã hội Zachary Karate Club; Hình B Hình ảnh hai chiều nút nhúng tạo từ đồ thị [34] 2.1 Thuật toán Gradient Boosting Machine 23 26 2.2 Khám phá vùng lân cận chia sẻ thông tin nút [34] 29 2.3 Phương pháp tổng hợp nút lân cận [34] 30 2.4 Kiến trúc HybridGNNs 32 2.5 Thuật toán Đồng đào tạo 33 2.6 Thuật toán Co2AL 37 3.1 Ứng dụng Icaller chặn gọi làm phiền 39 3.2 Lược đồ quan hệ bảng liệu sở liệu Icaller 40 3.3 Luồng hệ thống phát số điện thoại làm phiền 41 3.4 Tỉ lệ loại mà người dùng báo cáo 42 3.5 Phân tích liệu báo cáo 3.6 Mẫu liệu nhật ký gọi 42 43 3.7 Số lượng gọi theo thời điểm 44 3.8 Trung bình gọi có danh bạ loại số điện thoại 45 3.9 Số lượng gọi gọi đến loại số điện thoại 45 3.10 Độ xác phân loại thuật toán so sánh thay đổi số lượng phiên huấn luyện gắn nhãn tăng lên 48 Danh sách bảng 3.1 Cấu trúc ghi nhật ký liệu 43 3.2 Mô tả 15 đặc trưng đầu vào cho mơ hình 46 3.3 Kết mơ hình XGBoost 47 3.4 Kết hai mơ hình 48 Bảng ký hiệu chữ viết tắt True positive TP False positive FP True negative TN False negative FN Convolutional Neural Network CNN Recurrent Neural Network RNN Long short-term memory LSTM Graph Neuron Network GNN Extreme Gradient Boosting XGBoost Gradient Tree Boosting GTB Hybrid Graph Neuron Network HybridGNN