MỘT số PHƯƠNG PHÁP học máy xác ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET ( Luận án tiến sĩ)MỘT số PHƯƠNG PHÁP học máy xác ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET ( Luận án tiến sĩ)MỘT số PHƯƠNG PHÁP học máy xác ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET ( Luận án tiến sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2018 i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS PHẠM BẢO SƠN TS TÂN HẠNH Hà Nội – Năm 2018 ii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thực Các số liệu kết trình bày luận án trung thực, chưa công bố tác giả hay cơng trình khác Tác giả Dương Trần Đức iii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công nghệ Thông tin, Ban Lãnh đạo Học viện Cơng nghệ Bưu Viễn thơng, Q Thầy Cô giúp trang bị kiến thức, tạo điều kiện thuận lợi cho tơi suốt q trình thực Luận án Đồng thời, xin bày tỏ lòng cảm ơn chân thành sâu sắc tới PGS TS Phạm Bảo Sơn TS Tân Hạnh, người tận tình khuyến khích hướng dẫn q trình thực để tơi hồn thành Luận án Xin chân thành cảm ơn đồng nghiệp, nhà khoa học, thầy cô giáo công tác Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu Viễn thơng, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội động viên, hỗ trợ tơi q trình thực Luận án Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, người ln động viên, khuyến khích, chỗ dựa tinh thần cho thời gian thực Luận án iv MỤC LỤC Trang TRANG PHỤ BÌA i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH VẼ viii DANH MỤC CÁC TỪ VIẾT TẮT ix MỞ ĐẦU 1 LÝ DO LỰA CHỌN ĐỀ TÀI MỤC TIÊU CỦA LUẬN ÁN 3 PHẠM VI NGHIÊN CỨU 4 CÁC ĐÓNG GÓP CỦA LUẬN ÁN BỐ CỤC CỦA LUẬN ÁN CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH VĂN BẢN 1.1.1 Giới thiệu 1.1.2 Đặc điểm văn trực tuyến 1.1.3 Các dạng thức phân tích tác giả văn 1.1.4 Các kỹ thuật phân tích 11 1.1.5 Các đặc trưng nhận diện 15 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THƠNG QUA PHÂN TÍCH HÀNH VI 24 1.2.1 Giới thiệu 24 1.2.2 Tập đặc trưng hành vi 25 1.2.3 Các kỹ thuật phân tích 28 1.2.4 Nhận xét đánh giá 29 v 1.3 CÔNG CỤ THỰC NGHIỆM 30 1.4 KẾT LUẬN CHƯƠNG 31 CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT 33 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN 34 2.1.1 Giới thiệu 34 2.1.2 Phương pháp 35 2.1.3 Thực nghiệm 40 2.1.4 Kết luận 47 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG 47 2.2.1 Giới thiệu 47 2.2.2 Phương pháp 48 2.2.3 Thực nghiệm 49 2.2.4 Kết luận 61 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT 62 2.3.1 Giới thiệu 62 2.3.2 Tổng quan nghiên cứu phân tích tác giả sử dụng đặc trưng dựa từ vựng 63 2.3.3 Âm tiết vần tiếng Việt 66 2.3.4 Phương pháp 68 2.3.5 Thực nghiệm 70 2.3.6 Kết luận 78 2.4 KẾT LUẬN CHƯƠNG 79 CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 81 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU 82 3.1.1 Giới thiệu 82 3.1.2 Phương pháp 82 3.1.3 Thực nghiệm 87 vi 3.1.4 Kết luận 93 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY 94 3.2.1 Giới thiệu 94 3.2.2 Phương pháp 95 3.2.3 Thực nghiệm 101 3.3 KẾT LUẬN CHƯƠNG 106 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 107 KẾT LUẬN 107 HƯỚNG NGHIÊN CỨU TIẾP THEO 109 DANH MỤC CƠNG TRÌNH CÔNG BỐ 110 TÀI LIỆU THAM KHẢO 112 PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT 125 1.1 ĐẶT VẤN ĐỀ 125 1.2 MÔ TẢ HỆ THỐNG 126 1.2.1 Sơ đồ hệ thống 126 1.2.2 Chức Thu thập liệu 126 1.2.3 Chức Xử lý liệu 127 1.2.4 Chức Trích chọn đặc trưng 128 1.2.5 Chức Xây dựng mơ hình nhận diện 129 1.2.6 Chức Xây dựng dịch vụ nhận diện 129 1.2.7 Chức Ứng dựng Web thử nghiệm sử dụng dịch vụ 129 1.3 XÂY DỰNG HỆ THỐNG 130 1.3.1 Mô đun Thu thập liệu 130 1.3.2 Mô đun Xử lý liệu trích chọn đặc trưng 130 1.3.4 Mô đun Xây dựng dịch vụ nhận diện 133 1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ 133 1.4 KẾT LUẬN 135 vii DANH MỤC BẢNG BIỂU Bảng 1.1 Các đặc trưng dựa theo phong cách 19 Bảng 2.1 Các đặc trưng 39 Bảng 2.2 Thống kê tập liệu huấn luyện 41 Bảng 2.3 Kết xác định đặc điểm tác giả viết diễn đàn 44 Bảng 2.4 Kết thực nghiệm sử dụng đặc trưng nâng cao 55 Bảng 2.5 Kết thuật toán SMO sau điều chỉnh tham số 58 Bảng 2.6 Những đặc trưng nội dung (từ nội dung) quan trọng 60 Bảng 2.7 Cấu trúc âm tiết tiếng Việt 68 Bảng 2.9 Các đặc trưng 70 Bảng 2.10 Kết xác định đặc điểm tác giả sử dụng đặc trưng vần âm tiết 71 Bảng 2.11 Các vần âm tiết quan trọng nhận diện tác giả 73 Bảng 3.2 Các đặc trưng chung 84 Bảng 3.3 Các đặc trưng dựa sản phẩm 85 Bảng 3.3 Các đặc trưng dựa sản phẩm chuyển tiếp 85 Bảng 3.4 Thống kê liệu 88 Bảng 3.5 Ma trận chi phí 90 Bảng 3.6 Kết thực nghiệm thuật toán khác (chưa áp dụng kỹ thuật hỗ trợ) 91 Bảng 3.8 Kết thực nghiệm áp dụng thêm kỹ thuật hỗ trợ 92 Bảng 3.9 Các đặc trưng sản phẩm/loại sản phẩm riêng rẽ 95 Bảng 3.10 Các đặc trưng nâng cao 100 Bảng 3.11 Kết thực nghiệm sử dụng ClassBalancer kết hợp CosSensitiveClassifier với ma trận chi phí 1:3 102 Bảng 3.12 Kết phân loại sau lựa chọn đặc trưng tối ưu tham số 105 viii DANH MỤC HÌNH VẼ Hình 2.2 Độ xác nhận diện số lượng đặc trưng khác 59 Hình 3.1 Biểu diễn dạng danh mục sản phẩm/loại sản phẩm xem 96 Hình 3.2 Biểu diễn dạng lượt xem có loại sản phẩm mức A 97 Hình 3.3 Biểu diễn dạng lượt xem có nhiều loại sản phẩm mức A 97 Hình Sơ đồ tổng quát hệ thống 127 Hình Giao diện mơ đun xử lý liệu trích chọn đặc trưng 131 Hình Giao diện mơ đun Xây dựng mơ hình nhận diện 132 Hình Giao diện mơ đu thử nghiệm nhận diện tác giả văn 132 Hình Mã nguồn dịch vụ Web xác định đặc điểm tác giả 134 Hình Giao diện ứng dụng Web sử dụng dịch vụ 134 Hình Mã nguồn mơ đun ứng dụng Web sử dụng dịch vụ 135 ix DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt BAC Balanced Accuracy Độ đo xác cân BMR Bayesian Multinomial Regression Hồi quy đa thức Bayes BN Bayesian Networks Mạng Bayes BNC British National Corpus Kho ngữ liệu quốc gia Anh BPN Back Propagation Network Mạng truyền ngược DT Decision Tree Cây định EG Exponential Gradient Gradient mũ EM Expectation Maximization Cực đại hóa kỳ vọng ID Information Gain Độ lợi thông tin IRS Information Retrieval Similarity Độ tương tự trích xuất thơng tin JAX-RS Java API for RESTful Web Services Giao diện lập trình ứng dụng Java cho dịch vụ Web REST JSON Javascript Object Notion KLS Kullback–Leibler Similarity Độ tương tự Kullback–Leibler National Institute of Standards Viện Tiêu chuẩn Công nghệ and Technology Quốc gia (Hoa Kỳ) – Pacific Asia Knowledge Discovery and Data Mining Hội nghị Phát tri thức Khai phá liệu Châu Á TBD NIST PAKDD ... cứu luận án PHẠM VI NGHIÊN CỨU Xác định đặc điểm người dùng lĩnh vực rộng, khía cạnh loại người dùng đặc điểm người dùng Luận án xác định đối tượng người dùng nghiên cứu người dùng mạng Internet. ..i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN... thống mạng di động, v.v Luận án thực nghiên cứu hai lĩnh vực: xác định đặc điểm tác giả văn xác định đặc điểm người dùng dựa hành vi Các nghiên cứu xác định đặc điểm tác giả văn thực văn tiếng