Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
2,03 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Một số phương pháp xác định gọi làm phiền NGUYỄN VĂN LONG nguyenlongqbtt@gmail.com Ngành Toán Tin Giảng viên hướng dẫn: TS Lê Chí Ngọc Viện: Tốn ứng dụng Tin học HÀ NỘI, 10/2022 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Văn Long Đề tài luận văn: Một số phương pháp xác định gọi làm phiền Chuyên ngành: Toán Tin Mã số SV: 20202826M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31 tháng 10 năm 2022 với nội dung sau: Sửa số lỗi soạn thảo, câu chữ, công thức trang 17, 22, 24, 26, 28, 30, 31, 33, 36, 37, 42 Ngày 31 tháng 10 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Tác giả xin gửi lời cảm ơn trân trọng sâu sắc tới người thầy cố vấn tác giả, TS Lê Chí Ngọc - người thầy đưa tác giả đến với lĩnh vực Trí tuệ nhân tạo, người định hướng, trực tiếp hướng dẫn tác giả nhiệt tình, chu đáo, ln động viên mặt tinh thần để tác giả hoàn thành luận văn Tác giả xin trân trọng cảm ơn tới thầy Viện Tốn Ứng dụng Tin học, Phòng đào tạo Bộ phận quản lý đào tạo sau đại học, Trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi để tác giả hoàn thành luận văn Đồng thời, tác giả gửi lời cảm ơn tới công ty Grooo International tạo điều kiện để tác giả có đủ sở vật chất thực việc nghiên cứu, phát triển ứng dụng mơ hình đề xuất vào thực tế Sau cùng, tác giả xin gửi lời cảm ơn tới gia đình, người thân bạn bè động viên giúp đỡ tác giả suốt trình thực đề tài Xin chân thành cảm ơn người! Tóm tắt nội dung luận văn Cuộc gọi làm phiền ngày trở nên nghiêm trọng thu hút ý đáng kể từ nhà cung cấp viễn thông tác hại lớn tài trải nghiệm người dùng Các hệ thống chống gọi làm phiền phải đối mặt với hai thách thức lớn: khả mở rộng liệu hành vi gian lận người gọi làm phiền để cố gắng vượt qua hệ thống Luận văn trình bày giải pháp kỹ thuật để cố gắng giải thách thức Tác giả đề xuất hai phương pháp phát số điện thoại làm phiền gồm phương pháp sử dụng thuật toán Extreme Gradient Boosting phương pháp dựa đồ thị sử dụng Graph Neural Network Đồng thời, tác giả đề xuất phương pháp Semi-supervised learning kết hợp thuật toán Co-train phương pháp Active learning để cải thiện hiệu suất phân loại tối ưu khả mở rộng liệu Triển khai tập liệu thu thập từ ứng dụng chặn gọi làm phiền có tên Icaller Kết việc triển khai thể tính hiệu phương pháp đề xuất Từ khóa: SPIT, XGBoost, Graph Neural Networks, Semi-Supervised learning, Co-train, Active learning Hà Nội, ngày 11 tháng 10 năm 2022 Giảng viên hướng dẫn Kí ghi rõ họ tên Học viên Kí ghi rõ họ tên Mục lục Mở đầu 11 Chương 1: Cơ sở lý thuyết 12 1.1 1.2 1.3 Máy học 12 1.1.1 Tổng quan 12 1.1.2 Phương pháp Học kết hợp 13 1.1.3 Phương pháp Học chủ động 16 Mạng nơ-ron nhân tạo 17 1.2.1 Cấu trúc mạng nơ-ron 17 1.2.2 Thuật toán lan truyền ngược 19 Phương pháp dựa đồ thị 21 1.3.1 Đồ thị 21 1.3.2 Nhúng đồ thị 22 Chương 2: Mô hình đề xuất 24 2.1 Thuật tốn XGBoost 24 2.2 Kiến trúc Graph Neural Network 28 2.3 Thuật toán Đồng đào tạo 32 2.4 Mơ hình kết hợp thuật toán Đồng đào tạo phương pháp Học chủ động Chương 3: Cài đặt thực nghiệm đánh giá 34 38 3.1 Phân tích thiết kế hệ thống 38 3.2 Dữ liệu 41 3.3 Kết thực nghiệm 46 Tổng kết 50 Chỉ mục 51 Tài liệu tham khảo 55 Danh sách hình vẽ 1.1 Thuật tốn Đóng bao [15] 14 1.2 Thuật toán Tăng cường [15] 15 1.3 Thuật toán xếp chồng [15] 15 1.4 Lấy mẫu khơng chắn tìm thấy mẫu gần với ranh giới định [20] 1.5 16 Lấy mẫu đa dạng tìm thấy mẫu khác biệt tối đa với mẫu đào tạo có [20] 17 1.6 Nơ-ron nhân tạo 18 1.7 Các hàm kích hoạt thường dùng: (a) Hàm Sigmoid; (b) Hàm ReLU hàm Softplus; (c) Hàm Tanh [27] 19 1.8 Mạng perceptron nhiều lớp [10] 20 1.9 Hình A Đồ thị mạng xã hội Zachary Karate Club; Hình B Hình ảnh hai chiều nút nhúng tạo từ đồ thị [34] 23 2.1 Thuật toán Gradient Boosting Machine 26 2.2 Khám phá vùng lân cận chia sẻ thông tin nút [34] 29 2.3 Phương pháp tổng hợp nút lân cận [34] 30 2.4 Kiến trúc HybridGNNs 32 2.5 Thuật toán Đồng đào tạo 33 2.6 Thuật toán Co2AL 37 3.1 Ứng dụng Icaller chặn gọi làm phiền 39 3.2 Lược đồ quan hệ bảng liệu sở liệu Icaller 40 3.3 Luồng hệ thống phát số điện thoại làm phiền 41 3.4 Tỉ lệ loại mà người dùng báo cáo 42 3.5 Phân tích liệu báo cáo 42 3.6 Mẫu liệu nhật ký gọi 43 3.7 Số lượng gọi theo thời điểm 44 3.8 Trung bình gọi có danh bạ loại số điện thoại 3.9 45 Số lượng gọi gọi đến loại số điện thoại 45 3.10 Độ xác phân loại thuật toán so sánh thay đổi số lượng phiên huấn luyện gắn nhãn tăng lên 48 Danh sách bảng 3.1 Cấu trúc ghi nhật ký liệu 43 3.2 Mô tả 15 đặc trưng đầu vào cho mơ hình 46 3.3 Kết mơ hình XGBoost 47 3.4 Kết hai mơ hình 48 Bảng ký hiệu chữ viết tắt True positive TP False positive FP True negative TN False negative FN Convolutional Neural Network CNN Recurrent Neural Network RNN Long short-term memory LSTM Graph Neuron Network GNN Extreme Gradient Boosting XGBoost Gradient Tree Boosting GTB Hybrid Graph Neuron Network HybridGNN Bước 1: Database nhận liệu từ Client Bước 2: AI Service phân loại số điện thoại trả kết lưu Database Bước 3: Hệ thống lấy 70% số điện thoại làm phiền mà AI Service phân loại Quy trình lặp lại Hình 3.3 Hình 3.3: Luồng hệ thống phát số điện thoại làm phiền 3.2 Dữ liệu Hiện nay, Icaller nhận trăm báo cáo ngày Tỉ lệ báo cáo số điện thoại Spam (số điện thoại làm phiền) Notspam (số điện thoại bình thường) thể Hình 3.4 Ngồi ra, số lượng số điện thoại báo cáo lượng phản hồi số phân tích cách lấy liệu tuần, kết thể Hình 3.5 41 Hình 3.4: Tỉ lệ loại mà người dùng báo cáo Hình 3.5: Phân tích liệu báo cáo Để cung cấp đầu vào cho mô hình Máy học, thơng tin lịch sử gọi thu thập thể Hình 3.6: 42 Hình 3.6: Mẫu liệu nhật ký gọi Các thông tin lịch sử gọi giải thích Bảng 3.1 sau: Trường thông tin member_phone phone type time in_contact duration Mô tả Số điện thoại người dùng Số điện thoại liên hệ với người dùng Loại gọi: - Cuộc gọi đến mà người dùng nhận - Cuộc gọi mà người dùng gọi - Cuộc gọi đến bị nhỡ - Cuộc gọi bị nhỡ Thời gian diễn gọi Một giá trị nhị phân cho biết số có danh bạ người dùng hay không Thời lượng gọi Bảng 3.1: Cấu trúc ghi nhật ký liệu Tiền xử lý liệu Dữ liệu nhận tập ghi gọi đến gọi thiết bị điện thoại người dùng Tuy nhiên có nhiều vấn đề khiến liệu nhận khơng hồn tồn xác, ví dụ trình sử dụng điện thoại đặc biệt điện thoại cảm ứng, người dùng dễ vơ tình bấm nhầm phím chữ ký tự đặc biệt #, %, &, Để mơ hình học tốt liệu cần làm "sạch" trước cho vào thuật tốn Q trình gồm việc xóa kí tự mã vùng đầu số, xóa số có kí tự đặc biệt, xóa số có chiều dài nhỏ lớn 18 ký tự, số điện thoại có độ dài khơng hợp lệ 43 Kỹ thuật trích xuất đặc trưng Sau làm liệu, số đặc trưng làm đầu vào cho thuật toán nghiên cứu phát triển chứng minh hữu ích Các biểu đồ cung cấp thêm kiến thức đặc trưng chọn Hình 3.7: Số lượng gọi theo thời điểm Hình 3.7 thể số lượng gọi người gửi Spam thực làm việc cao so với gọi người khác Các số điện thoại Spam có số lượng gọi giảm dần vào ngày cuối tuần (thứ bảy chủ nhật) không giống số thường Điều hợp lý hầu hết người gọi làm phiền làm việc cho tổ chức, hầu hết số họ có lịch trình làm việc từ khoảng sáng đến chiều Các số lưu danh bạ người dùng có mối quan hệ với họ có khả khơng có khả số điện thoại Spam, tơi xem xét cách gán biến nhị phân 1, có nghĩa số khơng có danh bạ ngược lại Để làm cho việc quan sát có ý nghĩa hơn, Hình 3.8 thể tỷ lệ số điện thoại có danh bạ số bình thường cao rõ rệt so với số điện thoại Spam, đặc trưng tốt mơ hình phân loại 44 Hình 3.8: Trung bình gọi có danh bạ loại số điện thoại Những người gọi làm phiền cố gắng thực nhiều gọi tốt để tối đa hóa suất họ, điều dẫn đến họ có nhiều gọi người khác (Hình 3.9) Bên cạnh đó, thời gian gọi người gọi làm phiền người bình thường theo cách giải thích Hình 3.9: Số lượng gọi gọi đến loại số điện thoại Như từ đặc điểm gọi cho thấy khác người gọi làm phiền người bình thường Từ đặc điểm đó, 15 đặc trưng trích xuất giúp biểu diễn tập liệu ban đầu tốt cho vấn đề phân loại, call_to, call_in, call_to_miss, call_in_miss, avg_duration_call_to, avg_duration_call_in, avg_incontact nhiều nghiên cứu chứng minh tính hiệu [18], [28], [30], [21] Ngoài 45 đặc trưng lại đề xuất với phân tích trên, tất thể Bảng 3.2 Đặc trưng call_to call_in call_to_miss call_in_miss avg_duration_call_to avg_duration_call_in avg_incontact in_hour avg_success total_redial caller_outdegree caller_indegree frequency total_frequency_to total_frequency_in Mô tả Số lượng gọi Số lượng gọi đến Số lượng gọi nhỡ Số lượng gọi đến nhỡ Trung bình thời lượng gọi Trung bình thời lượng gọi đến Trung bình gọi có danh bạ người dùng Tỉ lệ gọi hành (7 a.m - p.m) Tỉ lệ gọi thành công (>20 giây) Cuộc gọi gần người gọi có số với gọi hay không Số lượng người gọi gọi số điện thoại khác Số lượng người nhận nhận số điện thoại khác Tổng tần suất gọi đến gọi (tính giây) cho thành viên điện thoại Tổng tần suất gọi (tính giây) Tổng tần suất gọi đến (tính giây) Bảng 3.2: Mô tả 15 đặc trưng đầu vào cho mơ hình 3.3 Kết thực nghiệm Các mơ hình đề xuất thực nghiệm liệu mô tả phần trên, đầu vào thông tin số điện thoại, đầu kết nhị phân dự đoán số điện thoại có phải số điện thoại làm phiền hay không với "Spam" "NotSpam" Kết thực nghiệm sau: Mơ hình sử dụng thuật tốn XGBoost Như trình bày trên, mơ hình sử dụng thuật tốn XGBoost chọn làm mơ hình phân loại độ xác cao mơ 46 hình sử dụng phương pháp đồ thị, kết chứng minh Tập liệu dùng để huấn luyện với 15 đặc trưng gồm: • 15000 số điện thoại bình thường • 15000 số điện thoại làm phiền Tập liệu thử nghiệm với 15 đặc trưng thu thập từ lịch sử gọi tuần gồm: • 31000 số điện thoại bình thường • 1300 số điện thoại làm phiền Kết mơ hình sử dụng thuật toán XGBoost thể Bảng 3.3 Từ kết cho thấy mơ hình phân loại số điện thoại làm phiền tốt hồn tồn ứng dụng vào thực tế Bảng 3.3: Kết mơ hình XGBoost Accuracy Precision Recall AUC Kết huấn luyện 0.96 0.93 0.94 0.96 Kết thử nghiệm 0.99 0.9 0.94 0.98 Thuật toán Co2AL Các thử nghiệm thực liệu thu thập Hai loại liệu gồm: Đối với phương pháp dựa tính năng, liệu lịch sử gọi 5000 số điện thoại Spam 5000 số điện thoại NotSpam với 15 đặc trưng trình bày Đối với HybridGNNs, đầu vào gồm tập nút tập liệu lịch sử gọi phương pháp dựa đặc trưng, tập cạnh gồm 15 đặc trưng mối quan hệ người gọi người nhận thu thập 47 Vì ICaller khơng có quyền truy cập vào sở hạ tầng viễn thông nhà cung cấp viễn thông, điều làm cho việc thu thập liệu đồ thị bị thiếu hụt mối quan hệ gọi gọi người người dùng, dẫn đến đồ thị thưa khiến chất lượng phân loại không tốt so với phương pháp sử dụng thuật toán XGBoost Tuy nhiên, kết cho thấy việc tiếp cận đồ thị triển vọng cần nỗ lực nghiên cứu thảo luận thêm Với tập liệu nhỏ, kết phân loại hai mơ hình thể Bảng 3.4 Bảng 3.4: Kết hai mơ hình XGBoost HybridGNNs Accuracy F1 score 0.89 0.89 0.81 0.8 Kết hợp hai mơ hình triển khai thuật tốn Co2AL, hiệu suất thuật toán so sánh với phương pháp Học chủ động thuật toán SSLCA Kết thể hình 3.10 Hình 3.10: Độ xác phân loại thuật toán so sánh thay đổi số lượng phiên huấn luyện gắn nhãn tăng lên Kết cho thấy SSLCA có xu hướng làm giảm chất lượng mơ hình sau vài vòng lặp, điều chủ yếu bước Đồng đào tạo thuật 48 toán Kết tốt nhận từ thuật toán đề xuất Như vậy, thuật tốn Co2AL cải thiện chất lượng mơ hình so với phương pháp Học chủ động thuật toán SSLCA 49 Tổng kết Phương pháp sử dụng thuật toán Extreme Gradient Boosting chứng minh tính ứng dụng việc phát số điện thoại làm phiền, từ ngăn chặn gọi làm phiền giúp nâng cao trải nghiệm bảo vệ người dùng Việc sử dụng phương pháp dựa đồ thị, đặc biệt với kiến trúc Hybrid Graph Neuron Networks tận dụng mối quan hệ người nhận người gọi, điều mà hầu hết phương pháp phát số điện thoại làm phiền trước không đề cập đến ICaller khơng có quyền truy cập vào sở hạ tầng viễn thông nhà cung cấp viễn thông, điều làm cho việc thu thập liệu đồ thị bị thiếu hụt mối quan hệ gọi gọi người khác người dùng, dẫn đến đồ thị thưa khiến chất lượng phân loại không tốt so với phương pháp sử dụng thuật toán XGBoost Tuy nhiên, kết cho thấy việc tiếp cận đồ thị triển vọng cần nỗ lực nghiên cứu thảo luận thêm Bên cạnh đó, luận văn tác giả trình bày thuật tốn Học bán giám sát có tên Co-train to Actice learning để khai thác liệu không gán nhãn, giải thách thức khả mở rộng liệu Kết thí nghiệm chứng minh thuật tốn có khả cải thiện chất lượng mơ hình cho kết tốt so với phương pháp Học chủ động thuật toán SSLCA Trong tương lai, mơ hình dựa đồ thị nghiên cứu phát triển mặt liệu kiến trúc Các kiến trúc GNN Graph Attention Network kiến trúc mạnh đáng quan tâm gần 50 Chỉ mục AdaBoost, 12 VGG, 22 XGBoost, 12, 51, 53, 54 GoogleNet, 22 LightGBM, 12 RNN, 22,23 Sigmoid, 19 LSTM, 23 Tanh, 19 GRU, 23 ReLU, 20 DeepWalk, 25 softplus, 20 Node2Vec, 25 learning rate, 21 LINE, 25 CNN, 22 TADW, 25 FNN, 22 GNN, 27, 32, 35, 36 LetNet5, 22 HybridGNNs, 36, 52, 54 AlexNet, 22 SSLCA, 52,53, 54 MLP, 19, 31 51 Tài liệu tham khảo [1] Aditya Grover & Jure Leskovec, “node2vec: Scalable Feature Learning for Networks”, CoRR, Vol abs/1607.00653, 2016 [2] Avrim Blum & Tom Mitchell, “Combining Labeled and Unlabeled Data with Co-Training”, 1998, 92–100 [3] Bryan Perozzi, Rami Al-Rfou & Steven Skiena, “DeepWalk: Online Learning of Social Representations”, CoRR, Vol abs/1403.6652, 2014 [4] Burr Settles Active Learning Literature Survey Computer Sciences Technical Report 1648 University of Wisconsin–Madison, 2009 URL : http://axon.cs.byu.edu/~martinez/classes/ 778/Papers/settles.activelearning.pdf [5] Cheng Yang, Zhiyuan Liu, Deli Zhao, Maosong Sun & Edward Y Chang, “Network Representation Learning with Rich Text Information”, 2015, 2111–2117 [6] David H Wolpert, “Stacked generalization”, Neural Networks, Vol 5; (2), 1992, 241–259 [7] G Bebis & M Georgiopoulos, “Feed-forward neural networks”, IEEE Potentials, Vol 13; (4), 1994, 27–31 [8] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye & Tie-Yan Liu, “Lightgbm: A highly efficient gradient boosting decision tree”, Advances in neural information processing systems, Vol 30, 2017, 3146–3154 52 [9] Hiya, Unwanted Calls Explained: Scam Numbers vs Spam Risk Calls, URL : https : / / blog hiya com / unwanted - calls - explained-difference-spam-scam/ [10] javatpoint, Multi-layer Perceptron in TensorFlow, URL: https : //www.javatpoint.com/multi- layer-perceptronin-tensorflow [11] Jerome Friedman, “Stochastic Gradient Boosting”, Computational Statistics & Data Analysis, Vol 38, 2002, 367–378 [12] Jerome H Friedman, “Greedy function approximation: A gradient boosting machine.” The Annals of Statistics, Vol 29; (5), 2001, 1189– 1232 [13] Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan & Qiaozhu Mei, “LINE: Large-scale Information Network Embedding”, CoRR, Vol abs/1503.03578, 2015 [14] Jiawei Han, Micheline Kamber & Jian Pei Data mining concepts and techniques, third edition 2012 URL: http://www.amazon de/Data-Mining-Concepts-Techniques-Management/ dp / 0123814790 / ref = tmm _ hrd _ title _ ? ie = UTF8 & qid=1366039033&sr=1-1 [15] kdnuggets, Many Heads Are Better Than One: The Case For Ensemble Learning, URL: https://www.kdnuggets.com/2019/ 09/ensemble-learning.html [16] L C Jain & L R Medsker, Recurrent Neural Networks: Design and Applications, CRC Press, Inc., USA, 1999 [17] Leo Breiman, “Bagging Predictors”, Machine Learning, Vol 24; (2), 1996, 123–140 [18] Mohamed Nassar, Oussema Dabbebi, Rémi Badonnel & Olivier Festor, “Risk Management in VoIP Infrastructures using Support Vector Machines”, Proceedings of the 2010 International Conference on Network and Service Management, CNSM 2010, 2010, 48–55 [19] Paul Munro, Backpropagation, Springer US, Boston, MA, 2010 53 [20] R Munro & R Monarch, Human-in-the-Loop Machine Learning: Active Learning and Annotation for Human-centered AI, Manning, 2021 [21] Randa Jabeur Ben Chikha, Tarek Abbes & Adel Bouhoula, “A SPIT detection algorithm based on user’s call behavior”, 2013, 1–5 [22] Robert E Schapire “Explaining adaboost” In: Empirical inference Springer, 2013, 37–52 [23] Robert E Schapire, “The Strength of Weak Learnability”, Mach Learn., Vol 5; (2), 1990, 197–227 [24] S B Kotsiantis, G E Tsekouras & P E Pintelas, “Bagging Model Trees for Classification Problems”, 2005, 328–337 [25] Sebastian Ruder, “An overview of gradient descent optimization algorithms”, CoRR, Vol abs/1609.04747, 2016 [26] Springer US, Random Subspaces, Boston, MA, 2010 [27] Stuart Russell & Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall Press, USA, 2009 [28] Yu-Sung Wu, Saurabh Bagchi, Navjot Singh & Ratsameetip Wita, “Spam detection in voice-over-IP calls through semi-supervised clustering”, 2009 IEEE/IFIP International Conference on Dependable Systems & Networks, 2009, 307–316 [29] Tao Zhang, Wuyin Lin, Andrew Vogelmann, Minghua Zhang, Shaocheng Xie, Yi Qin & Jean-Christophe Golaz, “Improving Convection Trigger Functions in Deep Convective Parameterization Schemes Using Machine Learning”, Journal of Advances in Modeling Earth Systems, Vol 13, 2021 [30] Tetsuya Kusumoto, Eric Y Chen & Mitsutaka Itoh, “Using Call Patterns to Detect Unwanted Communication Callers”, 2009, 64–70 [31] Tianqi Chen & Carlos Guestrin, “XGBoost: A Scalable Tree Boosting System”, 2016, 785–794 [32] Tin Kam Ho, “Random decision forests”, Vol vol 1, 1995, 278–282 54 [33] Vietnamnet, Vietnam wins big in the "battle" against scam, spam calls, URL: https : / / vietnamnet / en / vietnam wins - big - in - the - battle - against - scam - spam calls-759248.html [34] William L Hamilton, Rex Ying & Jure Leskovec, “Representation Learning on Graphs: Methods and Applications”, CoRR, Vol abs/1709.05584, 2017 [35] Y LeCun, B Boser, J S Denker, D Henderson, R E Howard, W Hubbard & L D Jackel, “Backpropagation Applied to Handwritten Zip Code Recognition”, Neural Computation, Vol 1; (4), 1989, 541– 551 [36] Yihao Zhang, Junhao Wen, Xibin Wang & Zhuo Jiang, “Semi-supervised learning combining co-training with active learning”, Expert Systems with Applications, Vol 41; (5), 2014, 2372–2378 [37] Zhi-Hua Zhou, Ensemble Learning, Springer US, Boston, MA, 2009 [38] Zhi-Hua Zhou, “Semi-supervised learning by disagreement”, 2008, 93–93 55 ... cho số lượng người lớn lúc Có nhiều giải pháp khác phát triển thị trường để chặn gọi làm phiền Một số giải pháp phân tích gọi làm phiền người gọi cho nhà cung cấp dịch vụ để phàn nàn số số điện... Tỉ lệ gọi thành công (>20 giây) Cuộc gọi gần người gọi có số với gọi hay không Số lượng người gọi gọi số điện thoại khác Số lượng người nhận nhận số điện thoại khác Tổng tần suất gọi đến gọi (tính... người dùng Số điện thoại liên hệ với người dùng Loại gọi: - Cuộc gọi đến mà người dùng nhận - Cuộc gọi mà người dùng gọi - Cuộc gọi đến bị nhỡ - Cuộc gọi bị nhỡ Thời gian diễn gọi Một giá trị