Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)Dự đoán giới tính người dùng mạng xã hội dựa trên nội dung bài viết (LV thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TRƯƠNG CÔNG HẢI DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA TRÊN NỘI DUNG BÀI VIẾT LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TRƯƠNG CƠNG HẢI DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA TRÊN NỘI DUNG BÀI VIẾT CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TỪ MINH PHƯƠNG HÀ NỘI - 2017 i LỜI CAM ĐOAN Luận văn thành trình học tập nghiên cứu em giúp đỡ, khuyến khích quý thầy cô sau năm em theo học chương trình đào tạo Thạc sĩ, chuyên ngành Khoa học máy tính trường Học viện Cơng nghệ Bưu Viễn thơng Em cam đoan cơng trình nghiên cứu riêng em Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp Tác giả (Ký ghi rõ họ tên) Trương Công Hải ii LỜI CÁM ƠN Em xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Cơng nghệ Bưu Viễn thông giúp đỡ, tạo điều kiện tốt cho em trình học tập nghiên cứu chương trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới thầy PGS TS Từ Minh Phương tận tình hướng dẫn, giúp đỡ động viên em để hoàn thành tốt luận văn với đề tài “DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI DỰA TRÊN NỘI DUNG BÀI VIẾT“ Do vốn kiến thức lý luận kinh nghiệm thực tiễn cịn nên luận văn khơng tránh khỏi thiếu sót định Em xin trân trọng tiếp thu ý kiến thầy, để luận văn hồn thiện Trân trọng cám ơn Tác giả (Ký ghi rõ họ tên) Trương Công Hải iii MỤC LỤC MỞ ĐẦU Chương - GIỚI THIỆU BÀI TOÁN DỰ ĐỐN GIỚI TÍNH 1.1 Giới thiệu tốn dự đốn giới tính 1.1.1 Mở đầu .3 1.1.2 Bài tốn dự đốn giới tính 1.1.3 Ứng dụng tốn dự đốn giới tính 1.2 Các phương pháp dự đốn giới tính .5 1.3 Các phương pháp dự đốn giới tính dựa viết người dùng 1.3.1 Dự đốn giới tính sử dụng viết từ blog .7 1.3.2 Dự đoán giới tính sử dụng liệu từ thơng điệp twitter phương pháp hồi quy 1.4 Kết luận chương Chương - KỸ THUẬT HỌC MÁY SVM VÀ ÁP DỤNG TRONG DỰ ĐỐN GIỚI TÍNH NGƯỜI DÙNG MẠNG XÃ HỘI 10 2.1 Phạm vi toán .10 2.2 Đặc trưng văn biểu diễn 11 2.2.1 Đặc trưng văn 11 2.2.2 Biểu diễn văn 12 2.3 Kỹ thuật học máy SVM 19 2.3.1 Ý tưởng 19 iv 2.3.2 Cơ sở lý thuyết 20 2.3.3 Bài toán phân lớp với SVM 21 2.3.4 Các bước phương pháp SVM .26 2.3.5 Ưu điểm phương pháp SVM phân lớp liệu 26 2.4 Kết luận chương 27 Chương - THỰC NGHIỆM VÀ ĐÁNH GIÁ 28 3.1 Thu thập mô tả liệu 28 3.1.1 Thu thập liệu 28 3.1.2 Mô tả liệu đầu vào 33 3.2 Các tiêu chuẩn đánh giá 34 3.3 Phương pháp thực nghiệm 35 3.4 Tiền xử lý liệu .36 3.4.1 Tách từ .36 3.4.2 Lọc từ điển 38 3.5 Kết thực nghiệm 39 3.6 Kết luận chương 46 KẾT LUẬN 47 Kết đạt 47 Hạn chế 47 Hướng phát triển 47 DANH MỤC TÀI LIỆU THAM KHẢO 49 v DANH MỤC TỪ VIẾT TẮT STT Tiế ng Anh Từ viết tắt Tiế ng Viêṭ SVM Support vector machine Máy vector hỗ trợ NB Naïve Bayes Thuật toán Nave Bayes kNN K–Nearest Neighbor TF Term Frequency IDF Inverse Document Frequency Unigram Unigram 1-gram Bigram Bigram 1-gram 2-gram Trigram Trigram 1-gram, 2-gram 3-gram API 10 Status Status 11 Tweet Tweet 12 NLP Natural Language Processing Application Programming Interface Thuật toán K – Láng giềng gần Tần số xuất từ Tần số nghịch từ tập văn Giao diện lập trình ứng dụng Bài đăng người dùng mạng xã hội Facebook Bài đăng người dùng mạng xã hội Twitter Xử lý ngôn ngữ tự nhiên vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1: Danh sách tập văn D gồm câu C1 C2 12 Bảng 2.2: Danh sách từ điển unigram 13 Bảng 2.3: Danh sách từ điển bigram 13 Bảng 2.4: Danh sách từ điển trigram .14 Bảng 2.5: Danh sách từ điển unigram với trọng số xuất từ 16 Bảng 2.6: Danh sách từ điển unigram với trọng số TF-IDF .18 Bảng 2.7: Danh sách từ điển unigram với trọng số Binary 19 Bảng 3.1: Thống kế danh sách Status theo người dùng viết 33 Bảng 3.2: Thống kế số lượng từ tập liệu 38 Bảng 3.3: Danh sách file theo định dạng liblinear .38 Bảng 3.4: Kết độ xác tập liệu theo Status .39 Bảng 3.5: Kết độ xác tập liệu theo người dùng 41 Bảng 3.6: Kết độ xác tập liệu với 10,000 Status .44 Bảng 3.7: Kết độ xác tập liệu với 50,000 Status .44 Bảng 3.8: Kết độ xác tập liệu với 100,000 Status 44 Bảng 3.9: Kết độ xác tập liệu với 150,000 Status 45 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Quy trình tốn dự đốn giới tính Hình 1.2: Ví dụ hồi quy tuyến tính Hình 2.1: Siêu phẳng phân chia liệu học thành lớp + – với khoảng cách biên lớn 20 Hình 2.2: Minh họa tốn phân lớp phương pháp SVM 22 Hình 2.3: Tập liệu phân chia có nhiễu 23 Hình 2.4: Tập liệu khơng phân chia tuyến tính 24 Hình 2.5: Ví dụ biểu diễn tập liệu không gian chiều 25 Hình 3.1: Graph API cho phép lấy thơng tin người dùng 28 Hình 3.2: Access_token người dùng Facebook 29 Hình 3.3: Minh họa cách lấy danh sách Status Facebook 30 Hình 3.4: Tạo project để hỗ trợ lấy nhiều danh sách Status .31 Hình 3.5: Định dạng dòng file csv chứa status lấy 31 Hình 3.6: File full_status.csv chứa tất Status lấy 32 Hình 3.7: Minh họa Status cần phải loại bỏ 33 Hình 3.8: Quy trình tách từ 37 Hình 3.9: File vn_tokenizer_status.csv chứa danh sách Status sau chạy qua vnTokenizer 38 Hình 3.10: Biểu đồ thể kết theo trọng số 40 Hình 3.11: Biểu đồ thể kết theo tập từ điển 41 Hình 3.12: Biểu đồ thể kết theo trọng số tập liệu theo người dùng 42 viii Hình 3.13: Biểu đồ thể kết theo tập từ điển tập liệu theo người dùng 43 Hình 3.14: Biểu đồ kết độ xác trung bình tập liệu .46 36 - Định dạng file: Định dạng file liệu huấn luyện file kiểm tra là: :: Trong đó: : giá trị đích tập huấn luyện Đối với việc phân lớp số nguyên xác định lớp Với tốn dự đốn giới tính label có hai giá trị nam -1 nữ : số nguyên Là thứ tự từ từ điển : trọng số index Nếu value = khơng cần phải ghi - Cách sử dụng: Trong luận văn em sử dụng kỹ thuật đánh giá 10-fold Cross validation cần dùng train với câu lệnh sau: train –v 10 training_set_file Trong đó: training_set_file: file huấn luyện -v 10: có nghĩa sử dụng 10-fold Cross validation Ví dụ với Bảng 3.5 file huấn luyện sau: -1 1:1 2:1, 3:1 4:1 5:1 6:1 1:2 2:1 5:1 6:1 7:1 8:1 9:1 3.4 Tiền xử lý liệu Sau có liệu em tiến hành tiền xử lý liệu với bước tách từ lọc từ điển 3.4.1 Tách từ Danh sách tập liệu Status Tiếng Việt cần phải tách từ trước xây dựng từ điểm với mơ hình n-gram 37 Tiếng Việt có đặc điểm từ từ đơn từ ghép khoảng trắng khơng dấu hiệu phân cách từ Việc phân tách câu thành tập hợp từ có ý nghĩa quan trọng cho kết dự đốn Em xây dựng mơđun tách từ cách sử dụng thư viện vnTokenizer Thư viện viết JAVA với độ xác tách từ theo cơng bố tác giả khoảng từ 96% đến 98% Hình 3.8: Quy trình tách từ Input: câu văn lưu dạng tệp Output: chuỗi đơn vị từ tách Ví dụ sau minh họa kết giai đoạn tách từ: Văn nguồn: “Để thực rút trích tự động tóm tắt phân lớp văn với máy học vectơ hỗ trợ văn cần biểu diễn dạng thích hợp” Văn sau giai đoạn tách từ: “Để có_thể thực_hiện rút trích tự_động tóm_tắt cũng_như phân lớp văn_bản với máy học vectơ hỗ_trợ văn_bản cần biểu_diễn dạng thích_hợp” Trong q trình đưa file liệu chạy qua vnTokenizer có số Status khơng tách từ bị loại bỏ Danh sách Status sau chạy lưu vào file csv có tên vn_tokenizer_status.csv 38 Hình 3.9: File vn_tokenizer_status.csv chứa danh sách Status sau chạy qua vnTokenizer 3.4.2 Lọc từ điển Với liệu gồm nhiều Status danh sách từ điểm lớn có nhiều từ khơng có ý nghĩa việc dự đốn, làm chậm trình xử lý Để giảm bớt từ điển em loại bỏ từ có số lần xuất lần ký từ đơn “a”, “!”, “#”… thay chữ số thành #digit Bảng 3.2 thống kê số lượng danh sách từ điển tương ứng với mơ hình n-gram Bảng 3.2: Thống kế số lượng từ tập liệu Từ điển Tống số lại Tập từ điển unigram 12,923 Tập từ điển bigram 370,663 Tập từ điển trigram 1,230,451 Trung bình 538,012 Sau có từ điển em tìm trọng số tương ứng tạo file định dạng Liblinear Với từ điển tạo file với trọng số tương ứng số lần xuất hiện, TF-IDF Binary Tổng cộng có file sau: Bảng 3.3: Danh sách file theo định dạng liblinear 39 Số thứ tự Tên file Mô tả Unigram_count.libsvm Bộ từ điển unigram với trọng số xuất từ Unigram_tfidf.libsvm Bộ từ điển unigram với trọng số TF-IDF Unigram_binary.libsvm Bộ từ điển unigram với trọng số Binary Bigram_count.libsvm Bộ từ điển bigram với trọng số xuất từ Bigram_tfidf.libsvm Bộ từ điển bigram với trọng số TF-IDF Bigram_binary.libsvm Bộ từ điển bigram với trọng số Binary Trigram_count.libsvm Bộ từ điển trigram với trọng số xuất từ Trigram_tfidf.libsvm Bộ từ điển trigram với trọng số TF-IDF Trigram_binary.libsvm Bộ từ điển trigram với trọng số Binary 3.5 Kết thực nghiệm Chạy file máy tính có cấu hình: Hệ điều hành: Destop Windows 10 Vi xử lý: Intel Core i5 Bộ nhớ RAM: 16 GB Môi trường: Java Liblinear phiên 2.11 Kết độ xác Bảng 3.4: Bảng 3.4: Kết độ xác tập liệu theo Status Count Binary Tf-Idf Trung bình Unigram 69.41% 69.57% 70.05% 69.68% Bigram 66.96% 67.19% 69.78% 67.98% Trigram 67.65% 67.76% 70.00% 68.47% Trung bình 68.01% 68.17% 69.95% 68.71% 40 Hàng dọc danh sách tập từ điển hàng ngang danh sách trọng số tương ứng Bảng 3.4 cho thấy độ xác cao 70.05% với tập từ điển unigram trọng số TF-IDF Kết độ xác thấp 66.96% thuộc tập từ điển bigram với trọng số lần xuất từ Chênh lệch độ xác cao thấp 3.09% Trung bình độ xác file 68.71% 70.50% 70.05% 70.00% 69.57% 69.41% 69.50% 69.78% 70.00% 69.00% 68.50% 68.00% 67.76% 67.65% 67.50% 67.19% 66.96% 67.00% 66.50% 66.00% 65.50% 65.00% count binary unigram bigram tf-idf trigram Hình 3.10: Biểu đồ thể kết theo trọng số Theo hình 3.10 ta thấy xét theo trọng số TF-IDF cho kết tốt trung bình 69.95% đến trọng số Binary 68.17% số lần xuất 68.01% 41 70.50% 70.05% 70.00% 69.41% 69.50% 70.00% 69.78% 69.57% 69.00% 68.50% 67.65% 67.76% 68.00% 67.50% 66.96% 67.00% 67.19% 66.50% 66.00% 65.50% 65.00% unigram bigram count binary trigram tf-idf Hình 3.11: Biểu đồ thể kết theo tập từ điển Ngược lại xét tập từ điển unigram cho kết tốt trung bình 69.68% đến trigram 68.47% cuối đến từ điển bigram 67.98% biểu đồ hình 3.11 Nếu Bảng 3.4 cho thấy độ xác việc dự đốn giới tính người dùng Status riêng rẽ Việc dự đoán toàn Status người dùng cho kết bảng sau: Bảng 3.5: Kết độ xác tập liệu theo người dùng Unigram Bigram Trigram Trung bình Count Binary Tf-Idf Trung bình 93.87% 90.89% 77.83% 87.53% 91.32% 76.42% 86.94% 91.85% 75.99% 86.74% 91.35% 76.75% 87.07% 93.08% 92.38% 93.11% 42 Bảng 3.5 cho thấy độ xác cao 93.87% với tập từ điển unigram trọng số lần xuất Kết độ xác thấp 75.99% thuộc tập từ điển trigram với trọng số TF-IDF Chênh lệch độ xác cao thấp 17.88% Trung bình độ xác file 87.07% 100.00% 93.87% 93.08% 92.38% 90.89% 91.32% 90.00% 77.83% 76.42% 80.00% 75.99% 70.05% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% count binary unigram bigram tf-idf trigram Hình 3.12: Biểu đồ thể kết theo trọng số tập liệu theo người dùng Theo hình 3.12 ta thấy xét theo trọng số độ lệch khác xa trung bình 4.87% trọng số lần xuất từ cho kết tốt trung bình 93.11% đến trọng số Binary 91.35% thấp TF-IDF 76.75% 43 100.00% 93.87% 93.08% 91.32% 90.89% 92.38% 91.85% 90.00% 80.00% 77.83% 76.42% 75.99% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% unigram bigram count binary trigram tf-idf Hình 3.13: Biểu đồ thể kết theo tập từ điển tập liệu theo người dùng Nếu xét tập từ điển độ chênh lệch nhỏ 0.62% unigram cho kết tốt trung bình 87.53% đến bigram 86.94% cuối đến từ điển bigram 86.74% biểu đồ Hình 3.13 Từ Bảng 3.4 Bảng 3.5 cho thấy Nếu dự đoán theo Status trọng số TF-IDF cho kết tốt theo người dùng kết khơng phải tốt mà trọng số Binary Điều cho thấy mức độ quan trọng từ với việc dự đoán theo Status phụ thuộc vào việc từ tồn tập liệu Status Cịn theo người dùng, việc người có nhiều Status mức độ quan trọng từ tập liệu thấp từ xuất gần người dùng có, việc dự đốn phụ thuộc vào số lượng sử dụng từ người dùng Để đánh giá số lượng tập liệu ảnh hưởng đến độ xác việc dự đốn em chia tập liệu gốc thành tập nhỏ ngẫu nhiên với số lượng Status tập 10000, 50000, 100000, 150000 Với bước thực tương tự tập liệu ban đầu em thu kết với phương pháp 10-fold Cross validation sau: 44 Bảng 3.6: Kết độ xác tập liệu với 10,000 Status Count Binary Tf-Idf Trung bình Unigram 61.57% 62.53% 64.10% 62.73% Bigram 61.66% 61.96% 64.15% 62.59% Trigram 62.00% 62.16% 64.45% 62.87% Trung bình 61.74% 66.22% 64.23% 62.73% Theo Bảng 3.6 độ xác cao 64.45% tập từ điển trigram với trọng số TF-IDF thấp 61.57% tập từ điển unigram với trọng số lần xuất từ, độ chênh lệch hai độ xác 2.88% Độ xác trung bình tập liệu 62.73% Bảng 3.7: Kết độ xác tập liệu với 50,000 Status Count Binary Tf-Idf Trung bình Unigram 65.99% 66.08% 67.11% 66.39% Bigram 64.77% 64.77% 67.35% 65.63% Trigram 65.19% 65.21% 67.45% 65.95% Trung bình 65.32% 65.35% 67.30% 65.99% Theo Bảng 3.7 giống tập liệu 10,000 Status, độ xác cao thuộc tập từ điển trigram với trọng số TF-IDF 67.45% thấp 64.77% hai file với tập từ điển bigram với trọng số lần xuất Binary, độ chênh lệch hai độ xác 2.68% Độ xác trung bình tập liệu 65.99% Bảng 3.8: Kết độ xác tập liệu với 100,000 Status 45 Count Binary Tf-Idf Trung bình Unigram 67.68% 67.97% 68.68% 68.11% Bigram 65.90% 66.10% 68.39% 66.80% Trigram 66.43% 66.64% 68.72% 67.26% Trung bình 66.67% 66.90% 68.60% 67.39% Theo Bảng 3.8, độ xác cao thuộc tập từ điển trigram với trọng số TF-IDF 68.72% thấp 65.90% tập từ điển bigram với trọng số lần xuất hiện, độ chênh lệch hai độ xác 2.82% Độ xác trung bình tập liệu 67.39% Bảng 3.9: Kết độ xác tập liệu với 150,000 Status Count Binary Tf-Idf Trung bình Unigram 68.59% 68.78% 69.45% 68.94% Bigram 66.51% 66.63% 69.29% 67.48% Trigram 67.13% 67.24% 69.58% 67.98% Trung bình 67.41% 67.55% 69.44% 68.13% Theo Bảng 3.9, độ xác cao thuộc tập từ điển trigram với trọng số TF-IDF 69.58% thấp 66.51% tập từ điển bigram với trọng số lần xuất hiện, độ chênh lệch hai độ xác 3.07% Độ xác trung bình tập liệu 68.13% 46 Độ xác 70.00% 69.00% 68.00% 67.00% 66.00% 65.00% 64.00% 63.00% 62.00% 61.00% 60.00% 59.00% 68.13% 68.71% 67.39% 65.99% 62.59% 10,000 50,000 100,000 150,000 216,872 Độ xác Hình 3.14: Biểu đồ kết độ xác trung bình tập liệu Hình 3.14 cho thấy độ xác tỉ lệ thuận với số lượng liệu Status Số lượng lới độ xác cao Chênh lệch tập liệu lớn tập nhỏ 10,000 Status 6.12% Độ lệch trung bình tập liệu 1.53% 3.6 Kết luận chương Chương đưa tiêu chuẩn đánh giá phương pháp thực nghiệm tập liệu thu thập Các giai đoạn tiền xử lý liệu để xây dựng lên file đánh giá Cuối kết thực nghiệm 47 KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu giải tốn dự dốn giới tính người dùng mạng xã hội dựa nội dung viết nói chung thực nghiệm với mạng xã hội Facebook nội dung viết tiếng Việt Bài toán tảng cho nhiều ứng dụng quan trọng để dự đốn giới tính người dùng nói riêng thơng tin khác nói chung Những kết mà luận văn đạt được: Nghiên cứu tìm hiểu tốn dự đốn giới tính, trình bày số phương pháp dự đốn giới tính nghiên cứu trước Phân tích đặc điểm nội dung viết tiếng Việt phục vụ cho trình tiền xử lý Tìm hiểu áp dụng cơng cụ tiền xử lý liệu đầu vào Nghiên cứu tìm hiểu thuật tốn Support Vector Machine hai lớp Xây dựng chương trình lấy nội dung viết người dùng mạng xã hội Facebook Xây dựng chương trình huấn luyện kiểm thử với liệu lấy Hạn chế Hạn chế số lượng chất lượng liệu ảnh hưởng đến kết dự đoán Luận văn tập trung lấy liệu dự đốn giới tính người dùng mạng xã hội Facebook chưa thực nghiệm mạng xã hội khác Twitter, Youtube… Hướng phát triển 48 Xây dựng liệu lớn hoàn chỉnh, phong phú mạng xã hội khác Cải thiện hiệu suất, tăng tốc độ xử lý với liệu lớn Xây dựng hệ thống dự đốn giới tính người dùng mạng xã hội hoàn chỉnh 49 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh [01] Do Viet Phuong and Tu Minh Phuong “Gender Prediction Using Browsing History” KSE (1) 2013: 271-283 [02] Argamon, S., M Koppel, J Fine & A R Shimoni (2003) Gender, genre, and writing style in formal written texts Text, 23 [03] Popescu, A & G Grefenstette (2010) Mining user home location and gender from Flickr tags In Proc of ICWSM-10, pp 1873–1876 [04] Katja Filippova User Demographics and Language in an Implicit Social Network [05] Claudia Peersman, Walter Daelemans, Leona Van Vaerenbergh Predicting Age and Gender in Online Social Networks [06] RE Fan, KW Chang, CJ Hsieh, XR Wang, CJ Lin "LIBLINEAR: A library for large linear classification" Journal of machine learning research (Aug), 1871-1874 [07] PENG Qiu-fang, LIU Yang – Research of gender prediciton based on SVM with E-commerce data Available from: http://lxbwk.njournal.sdu.edu.cn/EN/abstract/abstract3503.shtml [08] Mendenhall's studies of word-length distribution in the works of Shakespeare and Bacon Available from: https://academic.oup.com/biomet/article-abstract/62/1/207/220350/Mendenhalls-studies-of-word-length-distribution [09] De Vel, O., Anderson, A., Corney, M., Mohay, G M (2001) Mining e-mail content for author identification forensics SIGMOD Record 30(4), pp 55-64 [10] Argamon, S., Koppel, M., Fine, J and Shimoni, A (2003) Gender, Genre, and Writing Style in Formal Written Texts, Text 23(3), August 50 [11] Argamon, S., Koppel, M., Pennebaker, J and Schler, J (2008) Automatically Profiling the Author of an Anonymous Text, Communications of the ACM [12] Burger, J D., J Henderson, G Kim & G Zarrella (2011) Discriminating gender on Twitter In Proc of EMNLP-11, pp 1301–1309 [13] Nowson, S & J Oberlander (2006) The identity of bloggers: Openness and gender in personal weblogs In Proceedings of the AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, Stanford, CA, 27-29 March 2006, pp 163–167 [14] Yan, X & L Yan (2006) Gender classification of weblogs authors In Proceedings of the AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs, Stanford, CA, 27-29 March 2006, pp 228–230 Website tham khảo [15] https://developers.facebook.com [16] https://www.csie.ntu.edu.tw/~cjlin/liblinear/ [17] http://restfb.com [18] http://mccormickml.com/2013/08/01/k-fold-cross-validation-with-matlabcode/ ... luyện dự đoán dựa nội dung viết mạng xã hội Facebook 2 Chương 3: Xây dựng bước để thực nghiệm cho toán dự đoán giới tính người dùng mạng xã hội dựa nội dung viết Lấy liệu từ viết mạng xã hội Facebook,... tốn dự đốn giới tính người dùng mạng xã hội dựa nội dung viết mạng xã hội Facebook Dữ liệu viết Facebook đăng Status có nội dung văn người dùng trang cá nhân Chúng ta chia thành kiểu tốn nhỏ: Dự. .. người dùng đọc tin tức sử dụng liệu lịch sử truy cập đọc tin tức, trường hợp người dùng mạng xã hội dự đốn dự nội dung người dùng viết, bình luận 1.1.3 Ứng dụng toán dự đoán giới tính Trên giới