Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 227 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
227
Dung lượng
1,99 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HỘI MƠ HÌNH HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI - 2021 ii BỘ THÔNG TIN VÀ TRUYỀN THƠNG HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN THỊ HỘI MƠ HÌNH HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 9.48.01.048 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ PGS.TS ĐÀM GIA MẠNH HÀ NỘI - 2021 i LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận án: “Mô hình hành vi quan tâm người dùng mạng xã hội” cơng trình nghiên cứu riêng tôi, hướng dẫn khoa học PGS.TS.Trần Đình Quế PGS.TS.Đàm Gia Mạnh Tất tài liệu tham khảo sử dụng luận án nêu rõ nguồn gốc danh mục tài liệu tham khảo Tất kết quả, số liệu sử dụng luận án trung thực chưa người khác cơng bố cơng trình khoa học Hà Nội, ngày TM TẬP THỂ HƯỚNG DẪN KHOA HỌC PGS.TS Trần Đình Quế tháng năm 2021 TÁC GIẢ LUẬN ÁN Nguyễn Thị Hội ii LỜI CẢM ƠN Trong q trình hồn thành luận án này, tơi thầy hướng dẫn tận tình bảo Tơi xin kính gửi lịng biết ơn sâu sắc đến thầy PGS.TS Trần Đình Quế, thầy tận tình hướng dẫn trình định hướng nghiên cứu, đặt vấn đề nghiên cứu, phương pháp nghiên cứu khoa học, cơng việc cụ thể trình bày báo khoa học, báo cáo luận án Tơi bày tỏ lịng biết ơn sâu sắc đến thầy PGS.TS Đàm Gia Mạnh, thầy tận tình giúp đỡ thường xun động viên khích lệ tơi, hướng dẫn cách viết tỉ mỉ, hướng tiếp cận hồn thiện báo cáo luận án Tơi xin chân thành cảm ơn Ban lãnh đạo Học viện Cơng nghệ Bưu Viễn thơng, thầy Khoa Đào tạo Sau đại học động viên, giúp đỡ tạo điều kiện thuận lợi cho suốt q trình thực luận án Tơi xin cảm ơn thầy cô Khoa Công nghệ thông tin có nhiều đóng góp q báu giúp tơi hồn thiện luận án, tận tình hướng dẫn, động viên thầy cô giúp tự tin đường nghiên cứu khoa học Tơi cảm thấy thật học hỏi nhiều kỹ nghiên cứu, thu nhận nhiều kiến thức sau năm tháng học tập nghiên cứu sở đào tạo Học viện Luận án khơng thể hồn thành tốt khơng có hỗ trợ tạo điều kiện thuận lợi từ Ban giám hiệu Trường Đại học Thương mại thầy cô Khoa Hệ thống thông tin kinh tế Thương mại điện tử thầy cô Bộ môn Công nghệ thông tin Đặc biệt cám ơn bạn sinh viên K50S, K51S K52S hỗ trợ việc thu thập liệu phục vụ cho trình thực nghiệm Con xin cảm ơn mẹ, chồng hai anh chị gia đình, đặc biệt em trai PGS.TS Nguyễn Mạnh Hùng, ln động viên, giúp đỡ, khích lệ góp ý cho luận án hồn thành Tác giả luận án Nguyễn Thị Hội iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT vii CÁC KÝ HIỆU viii DANH MỤC BẢNG BIỂU ix DANH MỤC HÌNH xi MỞ ĐẦU Tính cấp thiết luận án Mục tiêu luận án nội dung nghiên cứu Mục tiêu luận án Nội dung nghiên cứu luận án Đối tượng nghiên cứu phạm vi nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu Các phương pháp nghiên cứu: Thu thập liệu thực nghiệm đánh giá Kịch thực nghiệm 10 Phương pháp đánh giá 11 Những đóng góp luận án 12 Bố cục luận án 13 CHƯƠNG 1: TỔNG QUAN VỀ HÀNH VI, QUAN TÂM VÀ MƠ HÌNH NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI 15 1.1 Mạng xã hội hành vi người dùng mạng xã hội 15 1.1.1 Mạng xã hội 15 1.1.2 Dữ liệu mạng xã hội 17 1.1.3 Người dùng cộng đồng người dùng mạng xã hội 19 1.1.4 Mơ hình người dùng mạng xã hội 21 1.1.5 Quan tâm người dùng mạng xã hội 23 1.1.6 Chủ đề trang mạng xã hội 24 1.1.7 Hành vi người dùng mạng xã hội 24 1.2 Phát chủ đề quan tâm người dùng mạng xã hội 25 1.2.1 Phát biểu toán câu hỏi nghiên cứu 25 1.2.2 Ứng dụng phát quan tâm người dùng mạng xã hội 27 1.3 Các nghiên cứu liên quan đến toán 28 iv 1.3.1 Các hướng tiếp cận toán 1.3.2 Các bước xây dựng hồ sơ quan tâm người dùng 1.3.3 Những nội dung nghiên cứu mạng xã hội 1.3.4 Hướng nghiên cứu luận án 1.4 Xử lý liệu văn ngắn mạng xã hội 1.4.1 Biểu diễn tiền xử lý văn 1.4.2 Véctơ hóa dựa TF.IDF 1.5 Kết luận CHƯƠNG 2: MƠ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1 MƠ HÌNH NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1.1 Biểu diễn véctơ viết TF.IDF 2.1.2 Biểu diễn người dùng véctơ 2.1.3 Độ đo tương tự độ tương quan hai đối tượng 2.1.4 Độ tương tự hai người dùng theo nội dung viết 2.2 MƠ HÌNH QUAN TÂM CỦA NGƯỜI DÙNG THEO CHỦ ĐỀ 2.2.1 Biểu diễn véctơ trọng số chủ đề 2.2.2 Xây dựng chủ đề mạng xã hội 2.2.3 Biểu diễn véctơ nội dung viết theo chủ đề 2.2.4 Độ quan tâm người dùng theo chủ đề mạng xã hội 2.2.5 Tương tự quan tâm theo chủ đề người dùng 2.3 TƯƠNG QUAN GIỮA TƯƠNG TỰ NGƯỜI DÙNG VÀ QUAN TÂM 2.3.1 Mối tương quan tương tự quan tâm người dùng 2.3.2 Xác định độ quan tâm vấn đề tương quan 2.3.3 Thảo luận kết 2.4 KẾT LUẬN CHƯƠNG 3: MƠ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA TRÊN BÀI VIẾT MỞ RỘNG 3.1 XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT 3.2 MƠ HÌNH BÀI VIẾT MỞ RỘNG 3.2.1 Mơ hình viết 3.2.2 Biểu diễn viết véctơ 3.2.3 Độ tương tự hai viết mở rộng 3.3 MƠ HÌNH NGƯỜI DÙNG THEO BÀI VIẾT MỞ RỘNG 3.3.1 Biểu diễn người dùng theo viết mở rộng 3.3.2 Độ tương tự hai người dùng theo mơ hình viết mở rộng 3.4 QUAN TÂM CỦA NGƯỜI DÙNG THEO MƠ HÌNH BÀI VIẾT MỞ RỘNG 100 v 3.4.1 Biểu diễn viết theo chủ đề 100 3.4.2 Xác định mối tương quan người dùng chủ đề 100 3.4.3 Độ tương tự quan tâm người dùng theo chủ đề 101 3.5 TƯƠNG QUAN GIỮA TƯƠNG TỰ NGƯỜI DÙNG VÀ QUAN TÂM 101 3.5.1 Bài toán xác định tương quan tương tự người dùng chủ đề 101 3.5.2 Thực nghiệm đánh giá 102 3.5.3 Thảo luận kết thực nghiệm 111 3.6 KẾT LUẬN 113 CHƯƠNG 4: HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO HÀNH VI TRÊN MẠNG XÃ HỘI 115 4.1 HÀNH VI CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 115 4.1.1 Hành vi phân loại hành vi người dùng mạng xã hội 115 4.1.2 Phát quan tâm người dùng dựa hành vi .119 4.1.3 Nhóm hay cộng đồng người dùng mạng xã hội 122 4.2 MƠ HÌNH NGƯỜI DÙNG THEO HÀNH VI 123 4.2.1 Mơ hình biểu diễn người dùng 123 4.2.2 Biểu diễn mơ hình người dùng véc tơ trọng số .127 4.2.3 Độ tương tự hai người dùng theo hành vi 130 4.3 QUAN TÂM CỦA NGƯỜI DÙNG THEO MÔ HÌNH HÀNH VI 133 4.3.1 Biểu diễn mơ hình hành vi người dùng theo không gian chủ đề 133 4.3.2 Xác định chủ đề quan tâm theo hành vi 134 4.3.3 Độ tương tự quan tâm người dùng theo chủ đề 135 4.4 TƯƠNG QUAN GIỮA TƯƠNG TỰ NGƯỜI DÙNG VÀ QUAN TÂM 136 4.4.1 Bài toán xác định tương quan tương tự người dùng chủ đề 136 4.4.2 Thực nghiệm đánh giá 136 4.4.3 Thảo luận kết thực nghiệm 143 4.5 SO SÁNH VỚI MỘT SỐ MƠ HÌNH KHÁC 145 4.5.1 Các mơ hình so sánh 145 4.5.2 Các bước thực 148 4.5.3 Kết so sánh mơ hình thảo luận 151 4.6 KẾT LUẬN 152 KẾT LUẬN 154 Những kết nghiên cứu luận án 154 Ý nghĩa khả ứng dụng vào thực tiễn 156 Những vấn đề hạn chế luận án 157 Hướng nghiên cứu 157 DANH MỤC CÁC CƠNG TRÌNH NGHIÊN CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 159 vi TÀI LIỆU THAM KHẢO PHỤ LỤC PHỤ LỤC A: MỘT SỐ THUẬT NGỮ SỬ DỤNG TRÊN MẠNG XÃ HỘI PHỤ LỤC B: THỰC NGHIỆM LỰA CHỌN THUẬT TỐN TÍNH GIÁ TRỊ CHO THỂ LOẠI, QUAN ĐIỂM VÀ CẢM XÚC PL2.1 Một số thuật toán gán nhãn liệu văn thực nghiệm PL2.2 Kịch thực nghiệm tham số đầu PL2.3 Kết thực nghiệm PHỤ LỤC C: DANH MỤC CÁC TỪ DỪNG SỬ DỤNG TRONG LUẬN ÁN xxiii xvi Bảng PL2.3: Độ xác F1- score ngữ liệu 20 NewsGroups Nhãn alt.atheism comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x misc.forsale rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci.crypt sci.electronics sci.med sci.space soc.religion.christian talk.politics.guns talk.politics.mideast talk.politics.misc talk.religion.misc Trung bình nhãn Kết giá trị F1- score thu từ ngữ liệu 20 NewsGroups trình bày Bảng PL2.3 Từ kết cho thấy, thuật toán C45 đạt giá trị F1- score cao 18/20 nhãn, thuật toán SVM đạt giá trị F1- score cao hai nhãn lại: “soc.religion.christian” “talk.politics.mideast” xvii 100 95 90 85 80 Accuracy F1-score 75 70 65 60 CNN T2V MNB NB SVM KNN C45 RF Hình PL2.1: So sánh Accuracy F1- score 20 NewsGroups Tổng hợp kết thực nghiệm từ liệu 20 NewsGroups cho thấy thuật toán C45 cho kết tốt nhất, thuật toán RF, SVM, MNB So sánh kết thực nghiệm độ xác Accuracy F1-score thuật toán ngữ liệu 20 NewsGroups minh họa Hình PL2.1 Kết độ xác Accuracy từ ngữ liệu cảm xúc SemEval2017 trình bày Bảng PL2.4 Bảng PL2.4: Độ xác thuật toán ngữ liệu SemEval-2017 Nhãn anger fear joy sadness Trung bình nhãn Từ kết cho thấy thuật toán SVM đạt giá trị Accuracy cao 3/4 nhãn, thuật toán RF cho giá trị Accuracy cao nhãn lại “joy” Kết trung bình tất nhãn, thuật toán SVM cho giá trị Accuracy cao nhất, thuật toán RF MNB xviii Bảng PL2.5: F1 - score thuật toán ngữ liệu SemEval-2017 Nhãn anger fear joy sadness Trung bình nhãn Tổng hợp kết F1- score từ ngữ liệu cảm xúc SemEval-2017 trình bày Bảng PL2.5 Từ kết cho thấy rằng, thuật toán SVM đạt giá trị F1- score cao hai nhãn “joy” “sadness” Kết trung bình tất nhãn ngữ liệu thuật toán SVM cho kết F1-score cao nhất, thuật toán RF MNB 90 85 80 75 70 65 60 55 50 45 40 C Hình PL2.2: So sánh Accuracy F1- score SemEval-2017 Tổng hợp kết từ ngữ liệu cảm xúc SemEval-2017 thuật tốn SVM cho kết tốt nhất, thuật toán RF MNB Riêng trường hợp thuật toán C45 cho kết tốt với liệu 20 NewsGroups, với liệu cảm xúc gọi văn ngắn SemEval-2017, thuật tốn C45 cho kết khơng cao, chí thấp thuật toán xem xét So sánh kết thực nghiệm độ xác Accuracy F1-score thuật toán ngữ liệu SemEval-2017 minh họa Hình PL2.2 xix Bảng PL2.6: Độ xác thuật toán ngữ liệu viết luận án Nhãn Chính trị Đời sống – Xã hội Giáo dục Khoa học – Công nghệ Kinh doanh Thời Văn hóa – Giải trí Pháp luật Thể thao Sức khỏe Trung bình nhãn Với hai ngữ liệu chủ đề cảm xúc xây dựng từ liệu thu thập thực tế luận án, kết độ xác Accuracy từ ngữ liệu chủ đề luận án trình bày Bảng PL2.6 Từ kết cho thấy thuật toán MNB đạt giá trị Accuracy cao 7/10 nhãn, thuật toán RF cho giá trị Accuracy cao hai nhãn “Khoa học – công nghệ” “Thời sự”, cịn thuật tốn CNN cho kết cao nhãn “Kinh doanh” Xét kết trung bình tất nhãn, thuật tốn MNB cho giá trị Accuracy cao nhất, thuật toán C45, CNN SVM Kết F1- score thu từ ngữ liệu chủ đề luận án trình bày Bảng PL2.7 Từ kết cho thấy thuật toán MNB đạt giá trị F1- score cao 8/10 nhãn Thuật toán W2V đạt giá trị F1- score cao hai nhãn “Thời sự” “Pháp luật” Thuật toán NB cho giá trị F1- score cao nhãn “Kinh doanh” Xét kết trung bình tất nhãn ngữ liệu chủ đề thuật tốn MNB cho giá trị F1- score cao nhất, thuật toán W2V C45 xx Bảng PL2.7: Kết F1- score ngữ liệu viết luận án Nhãn Chính trị Đời sống – Xã hội Giáo dục Khoa học – Công nghệ Kinh doanh Thời Văn hóa – Giải trí Pháp luật Thể thao Sức khỏe Trung bình nhãn 80 70 60 50 Accuracy F1-score 40 30 20 CNN T2V MNB NB SVM KNN C45 RF Hình PL2.3: So sánh Accuracy F1- score liệu chủ đề luận án Tổng hợp kết từ liệu chủ đề luận án thuật tốn MNB cho kết cao nhất, thuật toán cho kết xếp xỉ W2V C45 Thuật toán C45 thuật toán SVM cho kết tốt liệu 20 NewsGroups SemEval-2017 lại không cho kết cao liệu chủ xxi đề luận án So sánh kết thực nghiệm độ xác Accuracy F1-score thuật toán ngữ liệu chủ đề luận án minh họa Hình 3.6 Bảng PL2.8: Độ xác thuật tốn ngữ liệu cảm xúc luận án Nhãn Anger Disgust Fear Joy Love Sad Other Trung bình nhãn Kết thu độ xác Accuracy từ ngữ liệu cảm xúc luận án trình bày Bảng PL2.8 Kết cho thấy thuật toán MNB đạt giá trị Accuracy cao 5/7 nhãn Thuật toán W2V cho giá trị Accuracy cao hai nhãn lại “Fear” “Other” Xét kết trung bình tất nhãn, thuật toán MNB cho giá trị Accuracy cao nhất, thuật toán W2V thuật toán SVM Bảng PL2.9: F1- score thuật toán ngữ liệu cảm xúc luận án Nhãn Anger Disgust Fear Joy Love Sad Other Trung bình nhãn xxii 70 60 50 40 Accuracy F1-score 30 20 10 CNN T2V MNB NB SVM KNN C45 RF Hình PL2.4: So sánh Accuracy F1- score liệu cảm xúc luận án Tổng hợp kết từ liệu cảm xúc luận án cho thấy thuật toán MNB cho kết cao nhất, thuật toán NB thuật toán W2V Tương tự kết liệu chủ đề luận án, thuật toán C45 SVM cho kết tốt liệu 20 NewsGroups SemEval-2017 lại không cho kết cao liệu cảm xúc luận án So sánh kết thực nghiệm độ xác Accuracy F1-score thuật tốn ngữ liệu cảm xúc luận án minh họa Hình PL2.4 Từ kết Accuracy F1-score thu ngữ liệu thực nghiệm, xét kết thực nghiệm, luận án lựa chọn sử dụng thuật toán MNB để gán nhãn hay xác định đặc trưng chủ đề, đặc trưng cảm xúc đặc trưng quan điểm viết mơ hình đề xuất luận án phần sau xxiii PHỤ LỤC C: DANH MỤC CÁC TỪ DỪNG SỬ DỤNG TRONG LUẬN ÁN a lô ba ba ngày biết biết buổi ngày bác bán cấp bên bị bước khỏi chừ nhiêu bằng bị bỏ khơng bỏ nhỏ bỏ xa nhiên thuộc cao sang cha cho cho chung lại chuyện mày chúng tơi chưa chưa kể chắc người xxiv chịu chưa chọn bên nghe lị cách nước cịn có có có phải có đáng cùng cắt cơ hội nghĩ thảy cảm thấy cần cụ thể như có dành dành dù dì dùng cho nước dạ dẫn dễ dễ dễ thấy cách giảm giống người giữ lấy gây cho gì gần ngày xxv gặp hay biết hay hiểu hết hết hết họ xa hỗ trợ nên khoảng khơng khác khác khách khó làm khó thấy khơng khơng có khơng dùng khơng ngồi khơng thể không để kể loại tay phải làm làm lại làm nên làm làm lự lâu lên cao lên số lúc lúc sáng lúc lượng từ lại giống lại lấy có lấy lại lấy thêm lấy để lần lần tìm lời mang nặng mà khơng mạnh mọi thứ lần cách xxvi vài mợ ngay nghe nghe nhìn nghe thấy nghe nghĩ nguồn ngày ngày người khách ngồi khơng nhanh lên nhiều nhà khó nhà việc nhìn chung nhìn xuống chơi sau luật sinh đán nhận làm nhận nhằm để nhớ nhờ chuyển những muốn nên người nói bơng nói lại nói riêng nói trước nói đến nơi nơi nước nặng xxvii phía phải phải phải lời phần phần việc nước qua lần quan trọng quay lại quá tay đáng ra ngơi ý riêng rồi sang sau sau so sáng số cụ thể số thiếu sử dụng tanh ăn không thay đổi theo tin thuộc từ tháng tháng thì thơi thích tự thường thường tính xxviii thảo thấy cấp thật tốt lại thế thơi thời điểm thực tế t khói trong tránh tình trạng trước trước ngày trước trả trực tiếp nhiên tuổi tên tênh tìm tính tăng thêm tại tạo ý tắp tốt mối tới tức từ từ từ phần tự cao veo vài nhà vào gặp xxix ví vơ vàn vượt vậy phần vừa qua xa gần xin xồnh xoạch xử lý ông ông ăn ăn làm ăn sáng tay điểm đáng đáng số đâu có tuổi đưa chuyện đưa tới đảm bảo đầy tuổi đặt mức đến đến gần đến đến xxx đồng thời đủ điều ơi ở ứừ ừừ ... luận án 13 CHƯƠNG 1: TỔNG QUAN VỀ HÀNH VI, QUAN TÂM VÀ MƠ HÌNH NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI 15 1.1 Mạng xã hội hành vi người dùng mạng xã hội 15 1.1.1 Mạng xã hội. .. liên quan đến đề tài luận án mạng xã hội, liệu mạng xã hội, người dùng cộng đồng người dùng mạng xã hội, chủ đề quan tâm người dùng mạng xã hội Ngoài ra, nghiên cứu liên quan đến đề tài luận án. .. MẠNG XÃ HỘI 115 4.1.1 Hành vi phân loại hành vi người dùng mạng xã hội 115 4.1.2 Phát quan tâm người dùng dựa hành vi .119 4.1.3 Nhóm hay cộng đồng người dùng mạng xã hội 122 4.2 MÔ HÌNH NGƯỜI