Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,69 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHẠM TIẾN PHÚC PHÂN LOẠI NHÓM TUỔI NGƯỜI DÙNG MẠNG Xà HỘI NGÀNH: KHOA HỌC MÁY TÍNH Mà NGÀNH: 60480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS.TS Quản Thành Thơ Cán chấm nhận xét 1: TS Lê Thanh Vân Cán chấm nhận xét 2: TS Nguyễn Thị Thanh Sang Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS.TS Dương Tuấn Anh Thư ký: TS Võ Thị Ngọc Châu Phản biện 1: TS Lê Thanh Vân Phản biện 2: TS Nguyễn Thị Thanh Sang Ủy viên: TS Nguyễn Đức Dũng Xác nhận Chủ tịch Hội đồng đánh giá Luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG PGS.TS Dương Tuấn Anh TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Tiến Phúc MSHV:7140253 Ngày, tháng, năm sinh: 04/08/1978 Nơi sinh: Cần Thơ Ngành: Khoa học Máy tính Mã số : 60480101 I TÊN ĐỀ TÀI: PHÂN LOẠI NHÓM TUỔI NGƯỜI DÙNG MẠNG Xà HỘI II NHIỆM VỤ VÀ NỘI DUNG: Phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt: - Nghiên cứu lý thuyết mạng xã hội, ngôn ngữ sử dụng mạng xã hội, mối liên hệ nhóm tuổi đặc trưng ngôn ngữ sử dụng mạng xã hội - Nghiên cứu phương pháp phân loại nhóm tuổi người dùng mạng xã hội - Đề xuất phương pháp phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt - Hiện thực, đánh giá phân tích kết thực nghiệm III NGÀY GIAO NHIỆM VỤ : 15/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/6/2018 V CÁN BỘ HƯỚNG DẪN : PGS TS Quản Thành Thơ Tp HCM, ngày 17 tháng năm 2018 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT PGS.TS Quản Thành Thơ ii LỜI CẢM ƠN Trước hết, tơi xin bày tỏ lịng biết ơn chân thành sâu sắc đến Thầy hướng dẫn tôi, PGS.TS Quản Thành Thơ Trong suốt trình làm luận văn, bận, Thầy tận tình, kiên nhẫn dẫn, hỗ trợ thực Sự hướng dẫn, hỗ trợ quý báu thầy động lực to tớn để tơi hồn thành luận văn Tơi xin chân thành cảm ơn tận tình giảng dạy giúp đỡ tất quý Thầy Cô trường Đại học Bách Khoa thành phố Hồ Chí Minh, đặc biệt thầy cô khoa Khoa học Kỹ thuật Máy tính Tơi xin chân thành cảm ơn Công ty Cổ phần Younet Social Media giúp đỡ, hỗ trợ công nghệ liệu cho trình nghiên cứu thực đề tài Tôi xin gửi lời cảm ơn đến Ban lãnh đạo Sở Thông tin Truyền thông thành phố Cần Thơ, Trung tâm Công nghệ Thông tin Cần Thơ, nơi công tác, tạo điều kiện thuận lợi cho thời gian tham gia học tập Cuối cùng, tơi xin cảm ơn gia đình bạn bè, đồng nghiệp ủng hộ, động viên suốt q trình học tập hồn thành luận văn iii TÓM TẮT Ngày nay, Internet mạng xã hội Facebook, Twitter, Zalo … phổ biến gần trở thành phần sống hàng ngày nhiều người Không phương thân, mạng xã hội phương tiện để người tìm kiếm thơng tin, chia sẻ liên kết người Tuy nhiên, nhiều nguyên nhân, người dùng không cập nhật đầy đủ vào hồ sơ cá nhân, cung cấp thơng tin giả tính riêng tư nên che dấu thông tin gây nên khó khăn xác định sử dụng thơng tin Mục tiêu đề tài thực phương pháp sử dụng máy học vector hỗ trợ (Support Vector Machines - SVM) để xác định phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa nội dung mà người dùng dùng hình thức văn ngắn, ngơn ngữ biến thể lệch chuẩn Vì đề tài hữu ích đề xuất phương pháp sở dựa số thông tin người dùng để khai phá thơng tin ẩn khác nhằm phục vụ yêu cầu khác ABSTRACT Today, Internet and Social networks such as Facebook, Twitter, Zalo … are very popular with peoples It became part of the fabric of everyday life around the world We have the ability to see what others are doing, often within seconds of them doing it Or even better, browsing, searching, and linking tool Peoples will be yourself on Social networks However, user may be not submit fulfill their information, using fake account, or they set their profile to private mode The purpose of this thesis is using Support Vector Machines (SVM) to classify groups of user social network using Vietnamese language The classifier process information via short messages and nonstandard language variations It would therefore be useful if user profiles can be checked on the basis of text analysis, and false profiles recovered for other requirements iv LỜI CAM ĐOAN Tôi xin cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, nội dung trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường khác TP HCM, ngày 17 tháng năm 2018 Phạm Tiến Phúc v DANH MỤC TỪ VIẾT TẮT Từ viết tắt Diễn giải MXH Mạng xã hội kNN k Nearest Neighbors LR Linear Regression CNNs Convolutional Neural Network DT Decision Trees BoW Bag of Word SVM Support Vector Machines TF-IDF Term Frequency – Inverse Document Frequency vi DANH SÁCH CÁC BẢNG STT Bảng Bảng 1.1 Bảng 2.1 Bảng 2.2 Bảng 3.1 Bảng 4.1 Bảng 4.2 Bảng 4.3 Bảng 4.4 Bảng 4.5 10 Bảng 4.6 11 4.7-4.13 Tên bảng Thống kê cụm từ tìm kiếm mạng xã hội Phân bố đặc trưng w tập văn Các kernel hỗ trợ thư viện Sklearn Xác định nhóm tuổi đề tài Cấu trúc tập liệu huấn luyện kiểm tra Cấu trúc tập liệu huấn luyện kiểm tra, sau tiền xử lý Phân bổ độ tuổi toàn 10949 tài khoản tập huấn luyện 2000 tài khoản tập kiểm tra Thống kê số lượng đặc trưng tập liệu sau vector hóa Thơng số tìm kiếm tham số tối ưu Danh sách 45 đặc trưng hàng đầu nhóm Số lượng mẫu phân loại sai nhóm Trang 19 25 28 38 39 41 42 42,43 45,46 46-50 DANH SÁCH CÁC HÌNH Hình 10 11 Hình 1.1 Hình 1.2 Hình 1.3 Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 2.5 Hình 2.6 Hình 2.7 Hình 2.8 Tên hình Mức độ phổ biến trang mạng xã hội toàn giới tính đến tháng 8/2017 Thống kê số liệu sử dụng internet mạng xã hội 10 quốc gia thành phố có số người dùng Facebook lớn giới, Ví dụ mơ hình mạng xã hội nhỏ Dữ liệu thông tin người dùng dạng cấu trúc JSON Ví dụ ngơn ngữ sử dụng mạng xã hội Trang 5 12 13 14 16 Biểu diễn văn dạng vector Biểu diễn văn dạng vector Bag of Word 17 18 Biểu diễn văn dạng vector tfidf 20 Siêu phẳng phân cách h phân chia tập Siêu phẳng với lề cực đại cho SVM phân 21 tách liệu thuộc hai lớp vii 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Hình 2.9 Hình 2.10 Hình 2.11 Hình 3.1 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.6 Hình 4.7 Hình 4.8 Hình 4.9 Hình 4.10 Hình 4.11 Hình 4.12 Hình 4.13 Hình 4.14 29 30 31 Hình 4.15 Hình 4.16 Minh họa tốn phân lớp, với liệu khơng nhiễu Minh họa toán phân lớp, với liệu có nhiễu Minh họa tốn phân lớp, khơng thể phân chia tuyến tính Mơ hình hệ thống xử lý Biểu tượng sklearn Đăng ký tài khoản nhà phát triển phục vụ cho việc thu thập liệu từ Facebook Sử dụng trình Graph API thu thập liệu từ Facebook Mã truy cập người dùng mã truy cập ứng dụng Facabook Graph API Graph API hỗ trợ truy xuất thông tin liên quan đến người dùng Thu thập tuổi người dùng phục vụ gán nhãn trình huấn luyện mơ hình phân loại Khơng thể lấy thông tin ngày sinh người dùng thiết lập chế độ bảo vệ Phân chia tập liệu Phân bố độ tuổi 939 tài khoản tập huấn luyện Phân bố độ tuổi 10949 tài khoản tập huấn luyện Phân bố độ tuổi 939 tài khoản tập kiểm tra Phân bổ độ tuổi 2000 tài khoản tập kiểm tra Bộ liệu sau xử lý, chia tách Kết thực thi giải thuật tập liệu 700 tài khoản huấn luyện 300 tài khoản kiểm tra Kết thực thi tập liệu huấn luyện 939 tài khoản với thông số tối ưu Kết thực thi tập liệu huấn luyện 5362 tài khoản 2642 kiểm tra với thông số tối ưu viii 22 23 24 29 34 35 35 36 36 37 37 38 39 40 40 41 42 43 44 44 MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv ABSTRACT iv DANH MỤC TỪ VIẾT TẮT vi DANH SÁCH CÁC BẢNG vii DANH SÁCH CÁC HÌNH vii CHƯƠNG TỔNG QUAN 1.1 Giới thiệu 1.2 Bài toán phạm vi 1.3 Những kết nghiên cứu liên quan 1.3.1 Nghiên cứu nước 1.3.2 Các nghiên cứu quốc tế 1.4 Kết đạt đóng góp 10 CHƯƠNG 12 CƠ SỞ LÝ THUYẾT 12 2.1 Mạng xã hội 12 2.2 Ngôn ngữ sử dụng mạng xã hội 13 2.3 Mối liên hệ nhóm tuổi đặc trưng ngơn ngữ sử dụng mạng xã hội 14 2.4 Biểu diễn văn 15 2.5 Kỹ thuật TF – IDF (Term Frequency x Inverse Document Frequency) 16 2.6 Mơ hình ngơn ngữ n-gram 18 2.7 Lựa chọn đặc trưng 18 2.8 Phương pháp Support Vector Machine - SVM 20 2.8.1 SVM tuyến tính 20 2.8.2 Phân lớp nhị phân 21 2.8.3 Hàm nhân kernel 24 2.8.4 Chiến thuật phân loại nhiều lớp 25 2.8.5 Kiểm tra chéo (Cross validation) 26 2.9 Phương pháp đánh giá 26 2.9.1 Các độ đo 26 2.9.2 Accuracy 27 2.9.3 Precision Recall 27 2.9.4 F1-score 27 2.9.5 Precision-recall cho toán phân lớp nhiều lớp 27 4.6 Phân tích kết 4.6.1 Ma trận Confusion_matrix Actual[472 21 140 24] [130 120 352 45] [ 23 296 123 220] [ 19 258 48 351] A B C D Predict Từ kết ma trận confusion matrix ta thấy việc phân nhầm lớp lớp liền kề cao so với lớp có độ tuổi tách biệt Ngồi có phân nhầm sang nhóm cách (A -> C) 4.6.2 Thống kê unigram 45 đặc trưng tiêu biểu nhóm STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 A sốc bao_gồm tài vc mơ_ước quảng_cáo ui tiền_bạc võ công_nghệ vật_chất trang_phục giảm_giá rộng_rãi ném vạn siêu_thị công độc_đáo ánh_sáng quanh thể_hiện tài_chính hiệu sắt ty vị nâng giành hồng nấm B gởi hanh đại_diện yeu duc new_year nhà_thờ thi đồng_nghiệp �� thơ that toi sinh_viên phật khoa kỉ_niệm o nhieu loi an_lành phụ_huynh quê ? ca doanh_nghiệp xóm of bai tốt_đẹp C loan vua sở trương rác trung_tâm hà_nội ngài the hy_vọng tài_sản nang quý_khách trò đề_nghị trinh thuyền httpicon_9 con_cái xã liên_lạc sinh thuận tự_hào at chào_đón thưởng_thức bui la cty kế_hoạch 45 D sa muon vua thọ he bậc dat từ_thiện ơn lái_xe quang gap ông_bà giang giao_thừa tham ma tạ vườn nhung hưởng rừng tinh sáu tài_sản thich mời cám_ơn hùng gi chay 32 33 34 35 36 37 38 39 40 41 42 43 44 45 mảng cám_ơn đáy đám_cưới tiêu_dùng giao vững ga thủ căng_thẳng chân_thành group cơ_bản hệ bốn �� giao_thừa �� lầy tuoi đồn học_sinh xứ tt trại mơn việt_nam thanh_thản sâu_sắc tài_khoản thánh khách_sạn thu trọng lâm vi cung rang huế gđ sáu dung hieu bien kính kiều lai nho cơ_quan tuoi thoi ấm_áp loan nhà_hàng hien Bảng 4.6 Danh sách 45 đặc trưng hàng đầu nhóm 4.6.3 Phân tích mẫu liệu phân loại nhầm nhóm Để đánh giá phân tích tìm cách nâng cao khả phân loại hệ thống ta thực phân tích mốt mẫu phân loại sai Ta lựa chọn số lượng mẫu sai >50 mẫu để tìm hiểu đặc trưng chung mẫu bị phân loại sai nhóm có độ tập trung cao 4.6.3.1 STT 10 11 12 13 14 15 16 17 18 19 20 Số lượng mẫu nhóm A phân nhầm nhóm B Nội dung 2524 (^-^) the community of english speakers engli 2110 (^-^)\r\n• để khơng nói thêm � 467 (^-^)\r\n giấc mơ lại bên đừng tan nh 2350 (^-^)\r\nchỉ cần ta đứng nơi chờ em (^-^)\ 1363 (^-^)\r\nchúc mừng sinh nhật bố nhá chả có 1156 (^-^)\r\nserum thẢo dƯỢc hoÀng cung k ml� � � 1765 (^-^)\r\nem vừng nhi � (^-^)\r\nmột nửa gia 1829 (^-^)\r\nĐã online bạn icon_ \r\n 1172 (^-^)\r\nhá há ảo tung chão icon_21))(^-^)\r\n 1870 (^-^)\r\n� � tuyỂn khÁch sỈ toÀn quỐc� � \r\nc 1103 (^-^)\r\ncó người mua cho uống uống chùa lúc n 2087 (^-^)\r\ncông việc bố thanh 487 (^-^)\r\n� � � � � � hot hot hot xe chủ 16 (^-^)\r\nthật khơng thể tin hôm 640 (^-^)\r\nvỀ sỐ lƯỢng khÁch cẦn inbox e giao nh 2500 (^-^) lan lan nhung nguyễn boutique - quần áo 1570 (^-^)\r\n� (^-^)\r\ncịn sót chú(^-^)\r 1856 (^-^)\r\nset hoa dây von nhẹ nhàng\r\n� hàng 1091 (^-^)\r\ntrời buồn tâm trạng lúc 1914 (^-^)\r\nhàng nhiều lắm lun\r\nkhác Bảng 4.7 Dữ liệu phân loại sai từ A sang B 46 4.6.3.2 STT 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Số lượng mẫu nhóm B phân nhầm nhóm A Nội dung 9333 (^-^)\r\nxỉn cmnr (^-^)\r\nkhai trương \r\n hi 6346 (^-^)\r\nĐợi mẹ soạn nhạc lâu ngủ trướ 7834 (^-^)\r\nson l oreal riche riche lipstick m 7248 (^-^)\r\nĐẹp túi thêu dáng vali cực 8062 (^-^)\r\nlâu bỏ bê e đăng n 6436 (^-^)\r\n khách hàng quan tâm đến thứ họ c 5253 (^-^)\r\nbày đặt ngủ nướng đồ icon_21)(^-^)\r\ 6550 (^-^)\r\nĐag hót mặt bự nek chế hồng vân bao a 5755 (^-^)\r\nsaturday nice️️️(^-^)\r\nĐi chơi l 7920 (^-^)\r\nnghệ thuật chợ thưở 9428 (^-^) bghouse thích ngắm xe je t aime art nam 8180 (^-^)\r\ncả nhà mừng bưởi thức có tí tuổ 6646 (^-^)\r\nhi người thời gian vừa qua shop v 8749 (^-^)\r\nbuổi sáng ciao cf (^-^)\r\nhuong th 8016 (^-^)\r\nsự kì diêu đây\r\nĐộc quyền angela 5365 (^-^)\r\n Đơn hàng vừa nhận hôm qua gử 9644 (^-^) khéo tay hay làm zen furniture - xưởng 9327 (^-^)\r\nlàm hoạ sĩ để làm (^-^)\r\n em chư 5711 (^-^)\r\nlên \r\n bama diamondedition_Đàmv 8261 (^-^)\r\nhại mắt đêm khuya k làm nên kì tích � Bảng 4.8 Dữ liệu phân loại sai từ B sang A 4.6.3.3 STT 10 11 12 13 14 15 16 17 18 Số lượng mẫu nhóm B phân nhầm nhóm C Nội dung (^-^)\r\ntÂm sỰ ĐÊm phia\r\ncũng không định vi 6637 (^-^)\r\nload (^-^)\r\nthú vui (^-^)\r\noh 8184 (^-^)\r\ntrẻ trâu nè(^-^)\r\nsiêu quậy ngủ kiể 5739 (^-^)\r\nlịch cn trống suất khách yêu 7562 (^-^)\r\nlàm năm gom hết tiền lương đủ mu 5348 (^-^)\r\n-Đúng sinh đơi quấn qch với 8431 (^-^)\r\ntrang phỤc biỂu diỄn tÂy sƠn hân 8438 (^-^)\r\ncả nhà thấy ẻ xinh ko ngày mai ẻ chín 5420 (^-^)\r\nsản phẩm dove men care sản phẩm dà 7792 (^-^)\r\ncũng cố gắng \r\nmà ko biết 6129 (^-^)\r\nsỐ phÁt sÓng thỨ - chƯƠng trÌnh tƯ vẤ 7474 (^-^)\r\nĐúng ghê(^-^)\r\nquảng cáo c 5242 (^-^)\r\nfull máy văn phòng core i bảo 6909 (^-^)\r\ngốc chụp lạ kg biết ️(^- 8057 (^-^)\r\nÁo pull quần jean thái cho bé (^-^)\r 6322 (^-^)\r\ntrời ạ(^-^)\r\nđúng k ta(^-^)\r\nnhớ 6492 (^-^)\r\nlễ em í icon_13(^-^)\r\ncuộc đời 6750 (^-^)\r\ngiao lưu nhẹ với thủ seagame ( 47 19 20 21 9312 (^-^)\r\nĐà lạt mộng mơ - kì nghỉ thú vị kỉ ni 9135 (^-^)\r\ntất dịng vÍ travel may tay ch 7188 (^-^)\r\nlỚp mos cẤp tỐc ( tuần) \r\n\r\ntrung Bảng 4.9 Dữ liệu phân loại sai từ B sang C 4.6.3.4 STT 10 11 12 13 14 15 16 17 18 19 20 21 Số lượng mẫu nhóm C phân nhầm nhóm B Nội dung 2584 (^-^)\r\ni m using these products \r\nthese ar 2709 (^-^)\r\nĐẹp trai chụp kiểu đẹp kakak 4209 (^-^)\r\n hènha brutal(^-^)\r\nicon_ (^-^)\r\n 4313 (^-^)\r\nsay day dứt cõi lòng \r\ncảm phiêu bồ 2985 (^-^)\r\ndam be mat me danh cho mua he nhe kha 3635 (^-^)\r\nbớt nghe bớt nói bớt nhìn\r\nĐể tâm t 3083 (^-^)\r\nkhơng dịp mà q vòng 4136 (^-^)\r\ntrò chơi mới(^-^)\r\ncắt tối may 3243 (^-^)\r\nmien dong ds que toi moi(^-^)\r\nnhan 3699 (^-^)\r\nhai chi em nhu hai cô tiên(^-^)\r\nth 4755 (^-^)\r\nang probinsyano●\r\nwanted� 3681 (^-^)\r\nlà nhỉ? người giải giúp dr 4344 (^-^)\r\nchan cam on tat ca cac anh chi 3081 (^-^)\r\nchuẩn bị du lịch(^-^)\r\nnên đọc(^ 4809 (^-^)\r\ncầy tơ (^-^)\r\nĂn tết độc lập cù 4700 (^-^)\r\nwhere did you sleep last night -nirva 3379 (^-^)\r\nchang trai va co gai cua toi icon_13( 2817 (^-^)\r\n thầm mùa xuân cảm ơn người chụp 4975 (^-^) ladbible son ho hoa tuyết tien tran van 4495 (^-^)\r\nreceiver teac av-g \r\nhàng korea xuấ 4977 (^-^) xu ken shop nội thất ơtơ bình dương thi Bảng 4.10 Dữ liệu phân loại sai từ C sang B 4.6.3.5 STT 10 11 12 13 Số lượng mẫu nhóm C phân nhầm nhóm D Nội dung 5105 (^-^) giảm cân bích phương gốm sứ bát tràng t 4965 (^-^) truyền hình kiên giang tuan cu minh tua 5045 (^-^) hội săn voucher nghỉ dưỡng sniper strik 4413 (^-^)\r\nlễ đơn sơ 4613 (^-^)\r\nĐại lễ vía Đức phật a di mi Đà vào ng 4134 (^-^)\r\nĐảo lý sơn mùa tỏi chín\r\n\r\nkhám p 3076 (^-^)\r\n giỚi rĂn cho ngƯỜi chỒng tỐt\r\n\r\n 3941 (^-^)\r\nbo học thi học kỳ năm học - (^-^) 4833 (^-^)\r\nvề đâu mái tóc người thương 3038 (^-^)\r\nlâu lâu có dịp gặp mà nhóm m 4488 (^-^)\r\nlễ vinh danh top thương hiệu tiêu biể 4231 (^-^)\r\nmới mà dì cháu khác xưa ch 3051 (^-^)\r\nĐà lạt lập đông hoa vàng vừa nở\r 48 14 15 16 17 18 19 20 21 4085 5075 4053 4805 3464 4946 3597 4901 (^-^)\r\nsuu tam lai cua may ae cac ban tham k (^-^) lê thị hồng hải f b bar knowledge café (^-^)\r\ntap alich tham mo co sau va vien (^-^)\r\nmô phật rắn con(^-^)\r\nchùa phổ quan (^-^)\r\ncty cần tuyển tài xế xe nâng làm việc (^-^) quang cần lê đỉnh minh hoa nguyen the h (^-^)\r\n tờ ₫ công trái k(^-^)\r\n tờ ₫ công (^-^)\r\nhet tet roi tiep tuc cay cuoc thoiico Bảng 4.11 Dữ liệu phân loại sai từ C sang D 4.6.3.6 Số lượng mẫu nhóm D phân nhầm nhóm C STT 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Nội dung (^-^)\r\nnhau thoi(^-^)\r\nlau lau lau thi ta 9815 (^-^)\r\nthầy giảng hay tuyệt (^-^)\r\nhọc 10059 (^-^)\r\nĐá bóng thua mà có cảm 9891 (^-^)\r\nlong hổ hội (^-^)\r\nhãy ước mơ bi 9945 (^-^)\r\nĐã làm lần không ( 10256 (^-^)\r\nĐẻ thoải gà mái ️� ️\r\nĐể 11618 (^-^)\r\nkhi niềm tin lòng tin đánh 11611 (^-^)\r\nhôm sinh nhật bạn yêu\r\nchúc bạn 11124 (^-^)\r\nta on me chung nhà an(^-^)\r\ 9907 (^-^)\r\nnhóm sản xuất phim chưa rời ghế n 10900 (^-^)\r\nstreetdance (^-^)\r\nvắng tết q 10439 (^-^)\r\nhaizzzzz nguoi moi- sach moi (^-^)\r\ 10689 (^-^)\r\nnguyễn nguyễn nhật Đoan trangc on e l 11523 (^-^)\r\nicon_13 10385 (^-^)\r\nhaha chế cho tui điểm danh (^-^)\ 10621 (^-^)\r\nsinh nhật trai(^-^)\r\ncám ơn 10960 (^-^)\r\nchúc mừng chị em ngày chúc chị em l 11235 (^-^)\r\nvay tÍn chẤp- vay khÔng cẦn thẾ chẤp� 10036 (^-^)\r\nsan fam cịn khuyen kg có màu 10011 (^-^)\r\nhơm mẹ rời qua đ 11797 (^-^) bí kiếp phụ nữ việt đá muối massage góc Bảng 4.12 Dữ liệu phân loại sai từ D sang C 4.6.3.7 STT 43 44 45 46 47 48 49 Số lượng mẫu nhóm B phân nhầm nhóm D Nội dung 5255 (^-^)\r\ntrị an - thạnh phú - hcm\r\nhotlin 9374 (^-^)\r\nĐủ kiểu thích ib trực tiếp 9622 (^-^) bien hoa young số hố - iapple hóng 8041 (^-^)\r\nĐại gia đà nẵng quê (^-^)\r\nsửu n 6896 (^-^)\r\nthe beauty is everywhere moment of br 6523 (^-^)\r\nĐây thật sản phẩm khó với tơi b 5384 (^-^)\r\nvua lam vua nghe nhạc ne nice day nh 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 9009 8897 8049 6330 8556 9741 5355 6707 6810 6423 8070 5243 7948 9446 (^-^)\r\nhài (^-^)\r\nchiều h nhà hàng (^-^)\r\ncông an đâu(^-^)\r\ncon gái(^- (^-^)\r\n (^-^)\r\nnhìn bác thật phúc hậu � � (^-^)\r\nkhu liÊn hỢp thỂ thao ban me sport (^-^)\r\ntrời mưa bạn làm j ae rãnh qua ch (^-^) muhammed durdu şaziye sayan burj khalif (^-^)\r\nhappy birthday chúc cháu gái cưng (^-^)\r\nlove my mom (^-^)\r\nhinh the k (^-^) (^-^)\r\nĐam xinh hem � � � � (^-^)\r\nnữa nhe (^-^)\r\nicon_13)(^-^)\r\ne muon tìm hiểu biển (^-^)\r\nĐi bán hàng chạy ngang chùa nghỉ trưa (^-^)\r\ntesttttt(^-^)\r\ntest(^-^)\r\nokokko( (^-^)\r\ntam kỳ chỗ mô bán chè thái ngon mọ (^-^) trung tâm việt nhật - đại học sư phạm k Bảng 4.13 Dữ liệu phân loại sai từ B sang D Từ kết bảng 4.7,4.8, 4.9, 4.10, 4.11, 4.12 ta thấy nguyên nhân cho việc phân loại sai phân bố độ tuổi nhóm có biên gần Ví dự nhóm A tuổi 22, 23, 24 người nhóm B tuổi 25, 26, 27 có khả sử dụng ngơn ngữ sở thích giống Vì dẫn đến việc nhiễu Từ bảng 4.13 từ B sang nhóm D Có thể tập liệu thực đơn lấy từ mạng xã hội chưa qua bước tiền xử lý, độ nhiễu liệu cao Trong tập liệu có nhiều tài khoản tồn đăng tin bán hàng, độ đa dạng sử dụng ngơn ngữ khơng có Bên cạnh đó, việc tiền xử lý chưa tốt nên biểu tượng mã, việc chuyển đổi chữ thường nhiều từ bị lỗi Để giải vấn đề tác giả tiếp tục lọc đưa đặc trưng thu thập bị nhiễu vào danh sách stopword để loại bỏ xóa hẳn tài khoản danh sách huấn luyện kiểm tra Thực thêm giải thuật lọc danh sách đặc trưng có độ IDF cao (xuất nhiều văn toàn tập) để đưa vào stopword 50 CHƯƠNG TỔNG KẾT 5.1 Kết luận Nghiên cứu phân loại tuổi người dùng mạng xã hội nhằm xác định thông tin cá nhân nhóm tuổi người dùng mạng xã hội dựa ngôn ngữ văn tiếng Việt đề tài có giá trị có mức ứng dụng thực tiễn Do đặc điểm ngôn ngữ tiếng Việt ngôn ngữ sử dụng mạng xã hội nên việc tìm phương pháp phân loại nhóm tuổi với kết tin cậy quan trọng Phương pháp phân loại nhóm tuổi dựa vào giải thuật SVM với kết phân loại có độ xác cao giải thuật phân loại khác KNN, Decision Tree, hay Naive Bayes ngôn ngữ tiếng Việt Tuy nhiên, kết chưa cao so với ngôn ngữ tiếng Anh Qua trình thực nghiệm với tham số khác nhau, số lượng liệu kiểm tra khác cho thấy kết ban đầu đáng khích lệ sở để nâng cao độ xác chương trình, để tìm kiếm tham số tối ưu mơ hình thực thách thức thời gian tài nguyên xử lý Kết chương trình cho thấy, độ xác chương trình phụ thuộc lớn vào đặc trưng liệu nhóm Việc thu thập đặc trưng người dùng mạng xã hội nhiều giúp cho việc xác định kết cao Như việc việc thu thập thói quen, sở thích, nhóm tham gia, kiện tham gia, trang fanpage tham gia Kết chương trình địi hỏi thực mơ hình liệu lớn hơn, với nhiều tài khoản hơn, việc tiền xử lý liệu đóng vai trò quan trọng việc nâng cao kết phân loại Tuy nhiên, trình thực đề tài dù hỗ trợ, nhiên để có liệu có đầy đủ hành vi sở thích người dùng lớn từ 10000 tài khoản gặp khó khăn, ảnh hưởng việc nâng cao tính tổng qt mơ hình q trình huấn luyện, góp phần vào việc cải tiến kết tính tốn Ưu điểm phương pháp - Dễ dàng thực thi chương trình 51 - Có hỗ trợ tốt thư viện có sẵn Nhược điểm phương pháp: - Phụ thuộc lớn vào tập liệu, độ xác gán nhãn, đặc trưng độ tuổi - Chương trình thực thi chậm, tiêu tốn nhiều tài nguyên, lượng văn có số chiều lớn ảnh hưởng đến tốc độ xử lý 5.2 Những kết đạt Luận văn đáp ứng mục tiêu đặt khả sử dụng giải thuật SVM phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt 5.3 Hướng phát triển - Nghiên cứu đặc điểm, thông tin văn text mà người dùng tiếng Việt trao đổi trình bày, làm sở tăng đặc trưng để phân loại nhóm tuổi - Thử nghiệm với liệu lớn 10.000 tài khoản - Tiền xử lý liệu cập nhật danh sách đặc trưng nhiễu tập huấn luyện - Thu thập thêm đặc trưng người dùng như: trang tham gia, kiện tham gia - Vì thời gian hạn tài nguyên hạn chế nên q trình làm luận văn chúng tơi chưa áp dụng giải pháp - Nghiên cứu hướng tiếp cận giải thuật deep learning mạng nơron tích chập vào tốn phân loại nhóm tuổi 52 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1] VNNIC, http://vnta.gov.vn/thongke/Trang/dulieuthongke.aspx# [2] Số liệu thống kê, http://nhipsongso.tuoitre.vn/nhip-song-so/viet-nam-dungthu-7-the-gioi-ve-so-nguoi-dung-facebook-20170714103459444.htm [3] Nghị định số 72/2013/NĐ-CP 15 tháng 07 năm 2013 Chính phủ Quản lý, cung cấp, sử dụng dịch vụ internet thông tin mạng [4] Số liệu thống kê mức độ phổ biến trang mạng xã hội toàn giới năm 2017 https://www.statista.com/statistics/272014/global-socialnetworks-ranked-by-number-of-users/ [5] Số liệu thống kê người sử dụng internet mạng xã hội tính cơng bố tháng 01 năm 2017 https://www.smartinsights.com/social-mediamarketing/social-media-strategy/new-global-social-media-research/ [6] PGS.TS Hà Quang Thụy ThS Trần Mai Vũ, Phân tích khai phá mạng xã hội, Đại học Công nghệ Hà Nội, 2016 [7] Khổng Bùi Trung, Phân loại giới tính người dùng mạng xã hội dựa vào tin nhắn văn WORD2VE, Đại học Quốc gia Hà Nội, 2016 [8] Trương Cơng Hải, Dự đốn giới tính người dùng mạng xã hội dựa vào nội dung văn bản, Học viện cơng nghệ bưu viễn thơng Hà Nội, 2017 [9] Vũ Thị Thu Hương, Phát cộng đồng sử dụng thuật toán Conga khai phá quan điểm cộng đồng mạng xã hội, Đại học Quốc gia Hà Nội (2016) [10] TS Nguyễn Hữu Tuân, Xây dựng hệ thống nhận dạng mặt tự động sử dụng LPQ, Trường Đại học Hàng hải Hải Phòng, 2016 [14] GS.TS Trần Hữu Luyến, Mạng xã hội: khái niệm, đặc điểm, tính năng, áp lực ý nghĩa (2014) Trường đại học Ngoại ngữ quốc gia Hà Nội [15] GS.TS Nguyễn Văn Khang, Một số vấn đề ngôn ngữ mạng tiếng Việt, Kỷ yếu cơng trình khoa học 2015 - Phần II, Đại học Thăng Long [18] Nguyễn Minh Quang, Phân loại văn định, Luận văn thạc sĩ, Trường Đại học Bách Khoa thành phố Hồ Chí Minh, 2004 53 [21] Nguyễn An Nhơn, Phân loại văn theo chủ đề phương pháp Support Vector Machines kết hợp với kỹ thuật hỗ trợ, Luận văn thạc sĩ, Trường Đại học Bách Khoa thành phố Hồ Chí Minh, 2005 TÀI LIỆU TIẾNG ANH [11] Nina Cesare, Christan Grant, Elaine O Nsoesie, Detection of User Demographics on Social Media: A Review of Methods and Recommendations for Best Practices, Department of Sociology, University of Washington, Institute for Health Metrics and Evaluation, University of Washington, School of Computer Science, University of Oklahoma, 2016 [12] Rita Georgina Guimaraes, Renata L Rosa, Denise De Gaetano, Demóstenes Z.Rodriguez, Age Groups Classification in Social Network Using Deep Learning, https://ieeexplore.ieee.org, 2017 [13] Thorsten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, Lecture Notes in Computer Science 1398, 137-142, 1998 [16] Jian Hu, Hua-Jun Zeng, Hua Li, Cheng Niu, Zheng Chen, Prediction Based on User’s Browsing Behavior, ACM 978-1-59593-654-7/07/0005, 2007 [17] Sara Rosenthal, Kathleen McKeown, Age Prediction in Blogs: A Study of Style, Content, and Online Behavior in Pre- and Post-Social Media Generations, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 763–772, Portland, Oregon, June 1924, 2011 [18] Tony Ojeda, Rebecca Bilbro, Benjamin Bengfort, Applied Text Analysis with python, O’reilly Media, Inc, 2018 [20] William B Cavnar and John M Trenkle, N-Gram-Based Text Categorization In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Page 161-175 1994 [28] P S Ludu, Inferring gender of a Twitter user using celebrities it follows, ArXiv Prepr ArXiv14056667, 2014 [29] Digital in 2017: A study of Internet, Social Media, and Mobile use throughout the region of Southeast Asia https://wearesocial.com/specialreports/digital-southeast-asia-2017 54 [30] Anand Rajaraman, Jure Leskovec, and Jeffrey D Ullman, Mining of Massive Datasets, 2014 [31] Charu C Aggarwal Editor, IBM Thomas J Watson Research Center, Social Network Data Analytics, Springer [32] United Nations, Provisional Guidelines on Standard International Age Classifications, 1982 WEBSITE: [19] http://www.tfidf.com/ [22] https://www.dtreg.com/solution/view/20, https://docs.opencv.org/3.3.1/d4/db1/tutorial_py_svm_basics.html, SVM - Support Vector Machines [23] http://scikit-learn.org/ [24 ] Van-Duyet Le, Danh sách stopword tiếng Việt, 2015, https://blog.vietnamlab.vn [25] Thư viện liệu lập trình, https://developers.facebook.com/tools/explorer [26] Susan Li, https://towardsdatascience.com/@actsusanli [27 ] Vũ Hữu Tiệp, https://machinelearningcoban.com 55 PHỤ LỤC CÁC GIẢI THUẬT CỦA CHƯƠNG TRÌNH Giải thuật tiền xử lý chia tập liệu Đọc file liệu Xóa bỏ dịng khơng đầy đủ thơng tin For -> hết file Đọc dịng liệu lấy cột tuổi, cột nội dung post, nội dung like Từng nội dung post Tìm kiếm thay biểu tượng cảm xúc imotion chuỗi đại diện icon_số_tương ứng biểu tượng danh sách Xóa bỏ ký tự đặc biệt Gom nhiều khoản trắng thành Chuyển đổi sang chữ thường Ghi liệu text vào thư mục tương ứng Data = [] For 1-> nhóm For -> số mẫu Đọc file liệu nhóm Data.append ({ 'age_category': topic, 'post': dataContent }) if i == số mẫu muốn tạo break else: i += Ghi file liệu vừa tạo Giải thuật tách từ Danh sách post = câu dòng liệu ngăn cách delimiter Token=[] For 1-> danh sách post Chuyển đổi văn sang chữ thường Token.append (sử dụng ViTokenizer tách từ câu) 56 Giải thuật tìm kiếm tham số tối ưu Đọc file liệu tập huấn luyện, tập test Encode liệu sang utf-8 vectorize = TfidfVectorizer() model = SVC() estimator = Pipline(vectorize, model) estimator = GridsearchCV (từng tham số: [các tham số C model], [các tham số ngưỡng mindf ,maxdfcủa tfidf] [các tham số kernel model], [các tham số n-gram tfidf] ) Estimator.fit (X-train, Y-train) Estimator.predict(X-test) Hiển thị tham số trình thực thi tham số tốt Giải thuật xử lý Stopword Đọc dòng liệu file tự điển stopword Danh sách stopword=[] For –> cuối file Encode Unicode liễu Nếu từ đơi, từ nối với _ Thêm từ xử lý vào danh sách Stopword Giải thuật xử lý phân loại Đọc liệu file train, test sử dụng file chia tỷ lệ 7:3 để thử mơ giảm thời gian xử lý tập liệu For 1-> cuối tập liệu Vector hóa từ Gọi hàm tách từ Lượt bỏ stopword Tính tdifd 57 Ngram Lựa chọn đặc trưng Gọi phương pháp thống kê Chi2 Gọi giải thuật phân lớp SVM In kết theo độ đo ma trận confustion Giải thuật thống kê đặc trưng nhóm Đọc liệu file train, test sử dụng file chia tỷ lệ 7:3 để thử mơ giảm thời gian xử lý tập liệu For 1-> cuối tập liệu Vector hóa từ Gọi hàm tách từ Lượt bỏ stopword Tính tdifd Ngram Hiển thị số lượng đặc trưng danh sách tên nhóm = unique(tập nhãn) for i=1-> danh sách tên nhóm Thống kê chi2 Danh sách đặc trưng = vector tfidf.get_feature_names())[=chỉ sô Chi2] Hiển thị thống kê kết hợp số lượng ( cho n-gram, cho bigram, ) Giải thuật phân tích liệu phân nhóm sai Đọc kết ma trận confusion (y_test, y_predict) For i=1-> danh sách nhóm For j=1-> danh sách nhóm If i!=j and confusion > ngưỡng cần thống kê Hiển thị cột “post “ tập liệu tài dịng có y_test = j and y_predict=i 58 LÝ LỊCH TRÍCH NGANG Họ tên: PHẠM TIẾN PHÚC Giới tính: nam Sinh ngày tháng năm: 04/08/1978 Nơi sinh: Cần Thơ Nơi nay: 28/35E, đường Huỳnh Phan Hộ, phường Trà An, quận Bình Thủy, thành phố Cần Thơ Dân tộc: Kinh Tơn giáo: khơng Ngày vào Đồn TNCS HCM: 26/3/1992 Ngày vào Đảng CSVN: 01/5/2008 QUÁ TRÌNH ĐÀO TẠO Năm 1997 đến 2002: sinh viên CNTT, Khoa Công nghệ thông tin, trường Đại học Cần Thơ Năm 2014 đến 2018: học viên cao học ngành Khoa học máy tính, khoa Khoa học Kỹ thuật máy tính trường Đại học Bách Khoa TPHCM Q TRÌNH CƠNG TÁC Năm 2001 đến 7/2002: lập trình viên cơng ty Phần mềm Thịnh Phát Năm 2002 đến 2012: Phòng Đào tạo, Trung tâm Công nghệ Phần mềm thành phố Cần Thơ Năm 2012 đến 2016: Phịng HCQT, Trung tâm Cơng nghệ Phần mềm – Sở Thông tin Truyền thông thành phố Cần Thơ Năm 2016 đến nay: Phịng HCTH, Trung tâm Cơng nghệ thông tin Truyền thông– Sở Thông tin Truyền thông thành phố Cần Thơ 59 ... mạng xã hội, mối liên hệ nhóm tuổi đặc trưng ngơn ngữ sử dụng mạng xã hội - Nghiên cứu phương pháp phân loại nhóm tuổi người dùng mạng xã hội - Đề xuất phương pháp phân loại nhóm tuổi người dùng. .. TÊN ĐỀ TÀI: PHÂN LOẠI NHÓM TUỔI NGƯỜI DÙNG MẠNG Xà HỘI II NHIỆM VỤ VÀ NỘI DUNG: Phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngơn ngữ tiếng Việt: - Nghiên cứu lý thuyết mạng xã hội, ngôn ngữ... phương pháp để dự đoán tuổi người dùng mạng xã hội - Xây dựng phân lớp cho liệu thuộc nhiều nhóm tuổi người dùng mạng xã hội khác nhau, thay đổi độ tuổi cần phân loại - Đánh giá phân tích liệu liên