(Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet (Luận án tiến sĩ) Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2018 i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS PHẠM BẢO SƠN TS TÂN HẠNH Hà Nội – Năm 2018 ii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thực Các số liệu kết trình bày luận án trung thực, chưa công bố tác giả hay cơng trình khác Tác giả Dương Trần Đức iii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công nghệ Thông tin, Ban Lãnh đạo Học viện Cơng nghệ Bưu Viễn thơng, Q Thầy Cô giúp trang bị kiến thức, tạo điều kiện thuận lợi cho tơi suốt q trình thực Luận án Đồng thời, xin bày tỏ lòng cảm ơn chân thành sâu sắc tới PGS TS Phạm Bảo Sơn TS Tân Hạnh, người tận tình khuyến khích hướng dẫn q trình thực để tơi hồn thành Luận án Xin chân thành cảm ơn đồng nghiệp, nhà khoa học, thầy cô giáo công tác Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu Viễn thơng, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội động viên, hỗ trợ tơi q trình thực Luận án Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, người ln động viên, khuyến khích, chỗ dựa tinh thần cho thời gian thực Luận án iv MỤC LỤC Trang TRANG PHỤ BÌA i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH VẼ viii DANH MỤC CÁC TỪ VIẾT TẮT ix MỞ ĐẦU 1 LÝ DO LỰA CHỌN ĐỀ TÀI MỤC TIÊU CỦA LUẬN ÁN 3 PHẠM VI NGHIÊN CỨU 4 CÁC ĐÓNG GÓP CỦA LUẬN ÁN BỐ CỤC CỦA LUẬN ÁN CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH VĂN BẢN 1.1.1 Giới thiệu 1.1.2 Đặc điểm văn trực tuyến 1.1.3 Các dạng thức phân tích tác giả văn 1.1.4 Các kỹ thuật phân tích 11 1.1.5 Các đặc trưng nhận diện 15 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH HÀNH VI 24 1.2.1 Giới thiệu 24 1.2.2 Tập đặc trưng hành vi 25 1.2.3 Các kỹ thuật phân tích 28 1.2.4 Nhận xét đánh giá 29 v 1.3 CÔNG CỤ THỰC NGHIỆM 30 1.4 KẾT LUẬN CHƯƠNG 31 CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT 33 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN 34 2.1.1 Giới thiệu 34 2.1.2 Phương pháp 35 2.1.3 Thực nghiệm 40 2.1.4 Kết luận 47 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG 47 2.2.1 Giới thiệu 47 2.2.2 Phương pháp 48 2.2.3 Thực nghiệm 49 2.2.4 Kết luận 61 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT 62 2.3.1 Giới thiệu 62 2.3.2 Tổng quan nghiên cứu phân tích tác giả sử dụng đặc trưng dựa từ vựng 63 2.3.3 Âm tiết vần tiếng Việt 66 2.3.4 Phương pháp 68 2.3.5 Thực nghiệm 70 2.3.6 Kết luận 78 2.4 KẾT LUẬN CHƯƠNG 79 CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 81 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU 82 3.1.1 Giới thiệu 82 3.1.2 Phương pháp 82 3.1.3 Thực nghiệm 87 vi 3.1.4 Kết luận 93 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY 94 3.2.1 Giới thiệu 94 3.2.2 Phương pháp 95 3.2.3 Thực nghiệm 101 3.3 KẾT LUẬN CHƯƠNG 106 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 107 KẾT LUẬN 107 HƯỚNG NGHIÊN CỨU TIẾP THEO 109 DANH MỤC CƠNG TRÌNH CÔNG BỐ 110 TÀI LIỆU THAM KHẢO 112 PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT 125 1.1 ĐẶT VẤN ĐỀ 125 1.2 MÔ TẢ HỆ THỐNG 126 1.2.1 Sơ đồ hệ thống 126 1.2.2 Chức Thu thập liệu 126 1.2.3 Chức Xử lý liệu 127 1.2.4 Chức Trích chọn đặc trưng 128 1.2.5 Chức Xây dựng mơ hình nhận diện 129 1.2.6 Chức Xây dựng dịch vụ nhận diện 129 1.2.7 Chức Ứng dựng Web thử nghiệm sử dụng dịch vụ 129 1.3 XÂY DỰNG HỆ THỐNG 130 1.3.1 Mô đun Thu thập liệu 130 1.3.2 Mô đun Xử lý liệu trích chọn đặc trưng 130 1.3.4 Mô đun Xây dựng dịch vụ nhận diện 133 1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ 133 1.4 KẾT LUẬN 135 vii DANH MỤC BẢNG BIỂU Bảng 1.1 Các đặc trưng dựa theo phong cách 19 Bảng 2.1 Các đặc trưng 39 Bảng 2.2 Thống kê tập liệu huấn luyện 41 Bảng 2.3 Kết xác định đặc điểm tác giả viết diễn đàn 44 Bảng 2.4 Kết thực nghiệm sử dụng đặc trưng nâng cao 55 Bảng 2.5 Kết thuật toán SMO sau điều chỉnh tham số 58 Bảng 2.6 Những đặc trưng nội dung (từ nội dung) quan trọng 60 Bảng 2.7 Cấu trúc âm tiết tiếng Việt 68 Bảng 2.9 Các đặc trưng 70 Bảng 2.10 Kết xác định đặc điểm tác giả sử dụng đặc trưng vần âm tiết 71 Bảng 2.11 Các vần âm tiết quan trọng nhận diện tác giả 73 Bảng 3.2 Các đặc trưng chung 84 Bảng 3.3 Các đặc trưng dựa sản phẩm 85 Bảng 3.3 Các đặc trưng dựa sản phẩm chuyển tiếp 85 Bảng 3.4 Thống kê liệu 88 Bảng 3.5 Ma trận chi phí 90 Bảng 3.6 Kết thực nghiệm thuật toán khác (chưa áp dụng kỹ thuật hỗ trợ) 91 Bảng 3.8 Kết thực nghiệm áp dụng thêm kỹ thuật hỗ trợ 92 Bảng 3.9 Các đặc trưng sản phẩm/loại sản phẩm riêng rẽ 95 Bảng 3.10 Các đặc trưng nâng cao 100 Bảng 3.11 Kết thực nghiệm sử dụng ClassBalancer kết hợp CosSensitiveClassifier với ma trận chi phí 1:3 102 Bảng 3.12 Kết phân loại sau lựa chọn đặc trưng tối ưu tham số 105 viii DANH MỤC HÌNH VẼ Hình 2.2 Độ xác nhận diện số lượng đặc trưng khác 59 Hình 3.1 Biểu diễn dạng danh mục sản phẩm/loại sản phẩm xem 96 Hình 3.2 Biểu diễn dạng lượt xem có loại sản phẩm mức A 97 Hình 3.3 Biểu diễn dạng lượt xem có nhiều loại sản phẩm mức A 97 Hình Sơ đồ tổng quát hệ thống 127 Hình Giao diện mơ đun xử lý liệu trích chọn đặc trưng 131 Hình Giao diện mơ đun Xây dựng mơ hình nhận diện 132 Hình Giao diện mơ đu thử nghiệm nhận diện tác giả văn 132 Hình Mã nguồn dịch vụ Web xác định đặc điểm tác giả 134 Hình Giao diện ứng dụng Web sử dụng dịch vụ 134 Hình Mã nguồn mơ đun ứng dụng Web sử dụng dịch vụ 135 ix DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt BAC Balanced Accuracy Độ đo xác cân BMR Bayesian Multinomial Regression Hồi quy đa thức Bayes BN Bayesian Networks Mạng Bayes BNC British National Corpus Kho ngữ liệu quốc gia Anh BPN Back Propagation Network Mạng truyền ngược DT Decision Tree Cây định EG Exponential Gradient Gradient mũ EM Expectation Maximization Cực đại hóa kỳ vọng ID Information Gain Độ lợi thông tin IRS Information Retrieval Similarity Độ tương tự trích xuất thơng tin JAX-RS Java API for RESTful Web Services Giao diện lập trình ứng dụng Java cho dịch vụ Web REST JSON Javascript Object Notion KLS Kullback–Leibler Similarity Độ tương tự Kullback–Leibler National Institute of Standards Viện Tiêu chuẩn Công nghệ and Technology Quốc gia (Hoa Kỳ) – Pacific Asia Knowledge Discovery and Data Mining Hội nghị Phát tri thức Khai phá liệu Châu Á TBD NIST PAKDD 122 Vietnamese texts, In Proceedings of Traitement Automatique des Langues Naturelles (TALN-2010) 92 Phuong, T.M., and Phuong, D.V (2014), Gender Prediction Using Browsing History, In Proceedings of the 2014 International Conference Knowledge and Systems Engineering, pp 271-283 93 Rangel, F and Rosso, P (2013), Use of language and author profiling: Identification of gender and age, Natural Language Processing and Cognitive Science, 177 94 Sanderson, C and Guenter, S (2006), Short text authorship attribution via sequence kernels, Markov chains and author unmasking: An investigation, In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, pp 482-491 95 Savoy, J (2012), Authorship attribution based on specific vocabulary, ACM Transactions on Information Systems (TOIS), 30(2), p.12 96 Schapire, R.E (2003), The boosting approach to machine learning: An overview, In Nonlinear estimation and classification, pp 149-171 97 Schler, J., Koppel, M., Argamon, S and Pennebaker, J.W (2006), Effects of Age and Gender on Blogging, In AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs, 6, pp 199-205 98 Sebastiani, F (2002), Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34(1), pp 1–47 99 Stamatatos, E (2006), Authorship attribution based on feature set subspacing ensembles, International Journal on Artificial Intelligence Tools, 15(05), pp.823-838 100 Stamatatos, E., Fakotakis, N and Kokkinakis, G (2000), Automatic text categorization in terms of genre and author, Computational linguistics, 26(4), pp.471-495 123 101 Stamatatos, E., Fakotakis, N and Kokkinakis, G (2001), Computer-based authorship attribution without lexical measures, Computers and the Humanities, 35(2), pp.193-214 102 Stein, S., Argamon, S (2006), A mathematical explanation of Burrows’s Delta, In the Proceedings of the Digital Humanities Conference, Paris 103 Tang, C., Ross, K., Saxena, N and Chen, R (2011), What’s in a name: a study of names, gender inference, and gender behavior in facebook, In International Conference on Database Systems for Advanced Applications, pp 344-356 104 Tang, G (2007), Cross-linguistic analysis of Vietnamese and English with implications for Vietnamese language acquisition and maintenance in the United States, Journal of Southeast Asian American Education and Advancement, 2(1), p.3 105 Uzuner, Ö and Katz, B (2005), A comparative study of language models for book and author recognition, In International Conference on Natural Language Processing, pp 969-980 106 De Vel, O., Anderson, A., Corney, M and Mohay, G (2001), Mining e-mail content for author identification forensics, ACM Sigmod Record, 30(4), pp.5564 107 De Vel, O (2000), Mining e-mail authorship, In Proc Workshop on Text Mining, ACM International Conference on Knowledge Discovery and Data Mining (KDD’2000) 108 Vietnamese Language and Speech Processing, https://vlsp.hpda.vn 109 Volkova, S and Yarowsky, D (2014), Improving gender prediction of social media users via weighted annotator rationales, In NIPS 2014 Workshop on Personalization 124 110 Weren, E.R., Kauer, A.U., Mizusaki, L., Moreira, V.P., de Oliveira, J.P.M and Wives, L.K (2014), Examining multiple features for author profiling, Journal of Information and Data Management, 5(3), p.266 111 Whitelaw, C., Patrick, J and Herke-Couchman, M (2006), Identifying interpersonal distance using systemic features, In Computing attitude and affect in text: Theory and applications, pp 199-214 112 Witten, I H., Frank, E (2000), Data Mining: Practical Machine Learning Tools with Java Implementations, Morgan Kaufmann, San Francisco 113 Ying, J.J.C., Chang, Y.J., Huang, C.M and Tseng, V.S (2012), Demographic prediction based on users mobile behaviors, Mobile Data Challenge 114 Zhang, C and Zhang, P (2010), Predicting gender from blog posts, Technical Report, University of Massachusetts Amherst, USA, pp 1-10 115 Zhao, Y and Zobel, J (2005), Effective and scalable authorship attribution using function words, In Asia Information Retrieval Symposium, pp 174-189 116 Zhao, Y., Zobel, J and Vines, P (2006), Using relative entropy for authorship attribution, In Asia Information Retrieval Symposium, pp 92-105 117 Zheng, R., Li, J., Chen, H and Huang, Z (2006), A framework for authorship identification of online messages: Writing‐style features and classification techniques, Journal of the American Society for Information Science and Technology, 57(3), pp.378-393 118 Zheng, R., Qin, Y., Huang, Z and Chen, H (2003), Authorship analysis in cybercrime investigation, In International Conference on Intelligence and Security Informatics, pp 59-73 125 PHỤ LỤC XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT Phần trình bày việc xây dựng hệ thống thử nghiệm dịch vụ xác định đặc điểm tác giả văn tiếng Việt Internet Như nói phần trước, xác định đặc điểm tác giả văn có nhiều ứng dụng thực tế lĩnh vực thương mại (hỗ trợ quảng cáo trực tuyến đối tượng, phân tích ý kiến khách hàng, phát triển sản phẩm, v.v.), lĩnh vực an ninh (hỗ trợ điều tra tội phạm trực tuyến) Do văn từ nguồn khác thuộc loại khác trích chọn đặc trưng giống nhau, việc xây dựng hệ thống thử nghiệm xác định đặc điểm tác giả văn khả thi Đối với lĩnh vực xác định đặc điểm người dùng dựa hành vi, việc trích chọn đặc trưng hành vi người dùng hệ thống có tính chất phụ thuộc hệ thống (chẳng hạn hệ thống TMĐT có phân loại sản phẩm/cách đặt mã sản phẩm khác nhau), chưa xây dựng thử nghiệm hệ thống cho lĩnh vực Các phần có bố cục sau Phần nêu vấn đề cần giải Phần mô tả chức hệ thống Phần trình bày xây dựng, triển khai hệ thống số giao diện minh họa Phần trình bày kết luận 1.1 ĐẶT VẤN ĐỀ Một số hệ thống hoạt động mạng Internet diễn đàn, mạng xã hội, trao đổi trực tuyến, v.v có nhu cầu việc xác định đặc điểm người dùng thông qua phân tích văn người dùng để lại hệ thống Tuy nhiên, số trường hợp, hệ thống chưa có nhiều liệu mẫu số văn người dùng để lại hệ thống chưa nhiều khơng nhiều văn có thơng tin đặc điểm người dùng để dùng để làm mẫu phân tích Trong trường hợp khác, thu thập số lượng mẫu đáng kể để phân tích việc xây dựng hệ thống nhận diện riêng từ nguồn mẫu có cộng với nguồn khác tốn 126 nguồn lực, mẫu chưa có tính tổng qt cho kết khơng tốt nhận diện trường hợp Trong bối cảnh đó, hệ thống xác định đặc điểm tác giả văn hoạt động độc lập cung cấp chức xác định đặc điểm tác giả tin gửi đến dạng dịch vụ giải pháp hữu ích Hệ thống xây dựng theo mơ hình tận dụng mẫu từ nhiều nguồn khác cung cấp chức nhận diện dạng giao diện lập trình ứng dụng (API) hệ thống khác có nhu cầu xác định đặc điểm tác giả văn gửi yêu cầu theo định dạng cho trước tới nhận kết trả hệ thống Ngoài ra, hệ thống cho phép hệ thống khác xây dựng mơ hình riêng liệu nhằm khai thác tính đặc thù hệ thống 1.2 MÔ TẢ HỆ THỐNG 1.2.1 Sơ đồ hệ thống Hình cho thấy sơ đồ tổng quát thành phần hệ thống 1.2.2 Chức Thu thập liệu Mơ đun có nhiệm vụ thu thập liệu mẫu (các tin) từ hệ thống mạng Internet Các liệu thu thập có thông tin đặc điểm người viết giới tính, độ tuổi, nghề nghiệp, vùng miền để dùng làm nhãn huấn luyện Các hệ thống thu thập liệu mẫu hệ thống có tham gia trao đổi văn người dùng diễn đàn, mạng xã hội, trang web cho phép người dùng bình luận/nêu ý kiến v.v Trong ứng dụng này, thu thập liệu từ số diễn đàn tiếng Việt phổ biến diễn đàn Otofun (otofun.net), Webtretho (webtretho.com.vn), Tinhte (tinhte.vn) Các liệu thu thập sau lưu trữ sở liệu để sử dụng cho bước 127 Internet Thu thập liệu Ứng dụng Web Ứng dụng di động Ứng dụng desktop Dữ liệu thô Xử lý liệu Dịch vụ xác định đặc điểm tác giả Trích chọn đặc trưng Tập véc tơ đặc trưng Lưu trữ véc tơ đặc trưng Dữ liệu huấn luyện Xây dựng mơ hình Mơ hình nhận diện Hình Sơ đồ tổng quát hệ thống 1.2.3 Chức Xử lý liệu Sau liệu thu thập, số bước xử lý cần thực để làm liệu, đồng thời số thao tác khác bổ sung/chỉnh sửa nhãn thủ công, xử lý mặt ngôn ngữ học tiến hành 1.2.3.1 Tiền xử lý liệu Do liệu từ thu thập tự động chứa thơng tin nhiễu ký tự đặc thù ứng dụng, ký tự lỗi, số tin chứa nhiều ký tự đặc biệt chữ số, tin chứa thông tin tác giả viết (do tham khảo từ nguồn khác, trích dẫn người khác), v.v thao tác tiền xử lý 128 phát lọc bỏ phần liệu gây nhiễu cần thiết để đảm bảo tính xác khách quan liệu Ngồi ra, thơng tin tác giả thu thập thiếu khơng xác (do hệ thống khơng có chế xác minh thông tin người dùng tự cung cấp), số thao tác rà soát, bổ sung điều chỉnh nhãn thủ công thực 1.2.3.2 Tách từ gán nhãn từ loại Ngoài thao tác xử lý thông thường, số thao tác xử lý mặt ngôn ngữ thực nhằm phục vụ cho hoạt động trích chọn đặc trưng Do có số đặc trưng liên quan đến từ loại từ, thao tác tách từ gán nhãn từ loại áp dụng Việc tách từ tiếng Việt không đơn giản số ngôn ngữ khác (như tiếng Anh) Từ tiếng Việt có nhiều từ ghép, từ ghép chứa nhiều cụm ký tự (cách dấu cách) Do vậy, việc tách từ tiếng Việt không đơn tách cụm ký tự phân cách dấu cách câu mà cịn phải dựa tính chất ngôn ngữ học khác Gán nhãn từ loại thao tác tiếng Việt Có nhiều từ loại phổ biến danh từ, động từ, tính từ v.v Trong ứng dụng sử dụng 18 từ loại phổ biến làm đặc trưng nhận diện 1.2.4 Chức Trích chọn đặc trưng Dữ liệu sau xử lý thực trích chọn đặc trưng cần thiết cho huấn luyện phân loại Tại bước này, thao tác thống kê ký tự, loại ký tự, loại từ, độ dài từ, độ đa dạng từ vựng, tần suất từ chức năng, từ nội dung v.v thực Trong ứng dụng này, sử dụng tập đặc trưng đầy đủ bao gồm đặc trưng dựa phong cách kết hợp với đặc trưng dựa nội dung trình bày phần 3.2 Các véc tơ đặc trưng sau trích chọn lưu trữ với nhãn tương ứng vào tập liệu huấn luyện sử dụng để xây dựng nên mơ hình nhận diện 129 1.2.5 Chức Xây dựng mơ hình nhận diện Mơ hình nhận diện xây dựng tập liệu huấn luyện tạo bước trước thuật tốn học máy SVM, Bayesian Networks, Decision Tree Mơ hình sau xây dựng xong lưu trữ máy tính để phục vụ cho q trình nhận diện liệu sau Ngoài việc xây dựng mơ hình nhận diện từ tập liệu có sẵn trên, ứng dụng cho phép xây dựng mô hình từ liệu cung cấp tức thời Theo đó, liệu mẫu cung cấp q trình nhận diện mơ hình xây dựng tức thời dựa liệu sử dụng cho hoạt động nhận diện liệu 1.2.6 Chức Xây dựng dịch vụ nhận diện Mơ hình sau xây dựng xong sử dụng để nhận diện liệu Theo đó, viết chưa rõ đặc điểm tác giả nhận diện mơ hình để xác định đặc điểm tác giả viết Như nói trên, mơ đun thực công việc nhận diện liệu xây dựng theo chế dịch vụ Web (Web service) nhằm cung cấp cách thức thuận tiện cho hệ thống khác sử dụng mơ hình Dịch vụ Web phương pháp để ứng dụng chủ khách giao tiếp thơng qua Web giao thức HTTP (HyperText Transfer Protocol) Theo Hiệp hội World Wide Web (W3C), dịch vụ Web cung cấp phương tiện chuẩn để thực tương tác ứng dụng chạy nhiều tảng khác Các dịch vụ Web đơn giản kết hợp với để cung cấp dịch vụ phức tạp tinh xảo Sau dịch vụ xây dựng xong, ứng dụng từ tảng khác gửi yêu cầu sử dụng dịch vụ tới nhận phản hổi đáp ứng yêu cầu định dạng 1.2.7 Chức Ứng dựng Web thử nghiệm sử dụng dịch vụ Ứng dụng xác định đặc điểm tác giả văn sau xây dựng triển khai dạng dịch vụ Web theo kiểu RESTful truy cập tới hệ 130 thống khách nhiều tảng khác tảng Web, tảng di động, tảng ứng dụng desktop v.v Trong phạm vi luận án, xây dựng ứng dụng Web thử nghiệm sử dụng dịch vụ Chức ứng dụng Web tiếp nhận liệu từ phía người sử dụng, đóng gói gửi yêu cầu tới dịch vụ xác định đặc điểm tác giả, đồng thời nhận kết trả thị cho người dùng xem Ngoài ra, ứng dụng Web có tính tiếp nhận phản hồi độ xác dịch vụ tiếp nhận liệu mẫu để cải thiến mơ hình nhận diện 1.3 XÂY DỰNG HỆ THỐNG 1.3.1 Mô đun Thu thập liệu Để thực việc thu thập liệu từ diễn đàn, xây dựng thu thập liệu tự động Web (Web Crawler) sử dụng Scapy Scrapy framework viết Python cho phép thu thập rút trích liệu từ website cách hiệu quả, kể website khơng có API cho việc thu thập liệu thô Sử dụng Scrapy, Spider tạo để thực thu thập liệu tự động, đồng thời chạy định kỳ cập nhật liệu mới, lưu trữ kết thu thập dạng tệp XML Tệp sau rút trích thơng tin vào đưa vào CDSL phục vụ cho việc xử lý trích chọn đặc trưng 1.3.2 Mơ đun Xử lý liệu trích chọn đặc trưng Mơ đun Xử lý liệu trích chọn đặc trưng xây dựng ngôn ngữ Java Mô đun cho phép nhận liệu thô đầu vào dạng tệp XML, Excel, trực tiếp từ CSDL, sau thực thao tác tiền xử lý văn xử lý mặt ngơn ngữ học nói trước thực trích chọn đặc trưng Hình cho thấy giao diện mô đun xử lý lưu trữ tập liệu huấn luyện Để thực thao tác xử lý ngôn ngữ học, sử dụng thư viện tách từ gán nhãn từ loại vnTokenizer vnTagger có sẵn xây dựng từ nghiên cứu [90], [91] 131 Hình Giao diện mơ đun xử lý liệu trích chọn đặc trưng 1.3.3 Mơ đun Xây dựng mơ hình nhận diện Để xây dựng mơ hình nhận diện, chúng tơi sử dụng thư viện thuật tốn học máy cơng cụ Weka [112] để xây dựng mơ hình tập liệu xây dựng Thư viện thuật toán học máy Weka cung cấp gói weka.classifiers.* gói giúp tạo lập điều khiển tập liệu weka.core.Instance weka.core.Attribute Hình cho thấy giao diện mơ đun Xây dựng mơ hình nhận diện Mơ hình nhận diện sau xây dựng xong lưu trữ dạng tệp theo định dạng thư viện weka (ARFF) dùng để nhận diện đặc điểm liệu Trong mô đun này, xây dựng chức cho phép nhận diện thử nghiệm hệ thống cục thơng qua giao diện chương trình hình 132 Hình Giao diện mơ đun Xây dựng mơ hình nhận diện Hình Giao diện mơ đu thử nghiệm nhận diện tác giả văn 133 1.3.4 Mô đun Xây dựng dịch vụ nhận diện Về mặt kỹ thuật, dịch vụ Web xây dựng theo nhiều cách khác Tuy nhiên, chia dịch vụ Web thành loại: dịch vụ Web dựa chuẩn SOAP (Simple Object Access Protocol) dịch vụ Web theo kiểu RESTful (Representational State Transfer) Dịch vụ Web dựa SOAP có thiết kế phức tạp phù hợp với ứng dụng lớn, dịch vụ Web kiểu RESTful có thiết kế đơn giản phù hợp với ứng dụng gọn nhẹ Trong mô đun này, lựa chọn sử dụng dịch vụ Web kiểu RESTful tính chất ứng dụng khơng có kiến trúc phức tạp Để thống mặt công nghệ, lựa chọn Java API for RESTful Web Services (JAX-RS) để xây dựng dịch vụ xác định đặc điểm tác giả văn mơ hình xây dựng JAX-RS giao diện lập trình ứng dụng dựa ngơn ngữ Java để giúp tạo dịch vụ Web kiểu RESTful Dịch vụ Web RESTful chấp nhận nhiều loại định dạng đầu vào kết trả XML, Json, Text v.v Do tham số đầu vào cho dịch vụ nội dung tin cần xác định đặc điểm tác giả nên dịch vụ Web mô đun có đầu vào kiểu định dạng văn đầu có định dạng Json (do có đầu dự đoán mặt đặc điểm tác giả) Hình cho thấy phần mã nguồn dịch vụ Web xác định đặc điểm tác giả văn 1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ Sau dịch vụ Web xác định đặc điểm tác giả xây dựng triển khai, hệ thống từ nhiều tảng khác Web, tảng di động, ứng dụng desktop v.v yêu cầu sử dụng dịch vụ theo chuẩn dịch vụ Web RESTful Trong ứng dụng này, xây dựng mô đun Web thử nghiệm dịch vụ Web xác định đặc điểm tác giả Mô đun xây dựng công nghệ Java JSP/Servlet triển khai máy chủ Web Glassfish 4.0 Hình giao diện phần mã nguồn mô đun ứng dụng Web sử dụng dịch vụ 134 Hình Mã nguồn dịch vụ Web xác định đặc điểm tác giả Hình Giao diện ứng dụng Web sử dụng dịch vụ 135 Hình Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ 1.4 KẾT LUẬN Trong chương này, phát triển hệ thống xác định đặc điểm tác giả văn dựa công nghệ dịch vụ Web Hệ thống bao gồm chức từ thu thập liệu mẫu tự động Internet, tiến hành xử lý, trích chọn lưu trữ đặc trưng, huấn luyện mơ hình cung cấp dịch vụ xác định đặc điểm tác giả theo mơ hình dịch vụ Web RESTful sử dụng công nghệ JAX-RS Với dịch vụ cung cấp, hệ thống nhiều tảng khác yêu cầu sử dụng dịch vụ theo chuẩn giao tiếp thống Bên cạnh đó, chúng tơi xây dựng hệ thống Web thử nghiệm sử dụng dịch vụ công nghệ Java JSP/Servlet Ứng dụng nhận thông tin đầu vào từ phía người dùng tin, tiến hành đóng gói yêu cầu, gửi tới dịch vụ Web xác định đặc điểm tác giả, nhận kết trả hiển thị cho người dùng Theo chế này, ứng dụng xây dựng tảng công nghệ hỗ trợ giao chuẩn dịch vụ Web RESTful gửi yêu cầu tới dịch vụ nhận kết phản hồi Trong tương lai, ứng dụng cải tiến theo hướng thu thập thêm liệu để huấn luyện để xây dựng mơ hình có khả xử lý đầu vào đa dạng Ngoài ra, hệ thống thử nghiệm loại văn viết diễn đàn Do đó, hệ thống mở rộng thu thập thêm nhiều loại liệu khác để xây dựng 136 mơ hình đặc thù theo loại văn blog, email, mạng xã hội, bình luận/đánh giá, v.v ... án PHẠM VI NGHIÊN CỨU Xác định đặc điểm người dùng lĩnh vực rộng, khía cạnh loại người dùng đặc điểm người dùng Luận án xác định đối tượng người dùng nghiên cứu người dùng mạng Internet (là người. ..i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN... thống mạng di động, v.v Luận án thực nghiên cứu hai lĩnh vực: xác định đặc điểm tác giả văn xác định đặc điểm người dùng dựa hành vi Các nghiên cứu xác định đặc điểm tác giả văn thực văn tiếng