Mô hình đồ thị học sâu kết hợp xác suất cho bài toán phân loại chủ đề bài viết mạng xã hội

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình đồ thị học sâu kết hợp xác suất cho toán phân loại chủ đề viết mạng xã hội ĐINH XUÂN TRƯỜNG Truong.DXCBC19010@sis.hust.edu.vn Ngành Hệ thống thông tin Giảng viên hướng dẫn: PGS TS Phạm Văn Hải Viện: Công nghệ thông tin truyền thông HÀ NỘI, 07/2021 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Đinh Xn Trường Đề tài luận văn: Mơ hình đồ thị học sâu kết hợp xác suất cho toán phân loại chủ đề viết mạng xã hội Chuyên ngành: Hệ thống thông tin Mã số SV: CBC19010 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 30/07/2021 với nội dung sau: Sửa lại ánh xạ tài liệu tham khảo để ánh xạ phù hợp sửa lại lỗi đánh máy: − Chỉnh sửa bổ sung ánh xạ tài liệu tham khảo danh mục Tài liệu tham khảo − Chỉnh sửa lỗi đánh máy soạn thảo Luận thành Luận văn − Đồng thuật ngữ BayesianGCN BayesianGNN thành Bayesian-GCNN − Bổ sung danh mục từ viết tắt danh mục ký hiệu Bổ sung chỉnh sửa nội dung Chương luận văn: − Chỉnh sửa mục 1.2.2 Phát biểu mơ tả tốn bổ sung mơ tả tốn bao gồm đầu vào đầu toán phân loại bán giám sát chủ đề viết − Chỉnh sửa mục 1.2.4 Mục tiêu nghiên cứu bổ sung chỉnh sửa mục tiêu giải toán học bán giám sát đồ thị cho toán phân loại chủ đề viết mạng xã hội Chỉnh sửa mục 1.2.5 Cấu trúc luận văn cập nhật lại cấu trúc luận văn thành bốn phần Bổ sung chỉnh sửa nội dung Chương luận văn: − − Chỉnh sửa mục 2.1.3 Xây dựng mơ hình phân loại bán giám sát loại bỏ phần trùng lặp đề cập mục 1.2.3 − Nội dung lý thuyết Chương cũ chuyển sang phần 2.7.10 Mạng nơron đồ thị với xác suất Bayes 2.8 Xây dựng đồ thị viết mạng xã hội Bổ sung chỉnh sửa nội dung Chương luận văn: − Chỉnh sửa nội dung Chương việc chuyển phần mơ tả mơ hình Chương sang Chương bỏ hẳn Chương cũ − Bổ sung trình tiền xử lý liệu mục 3.1.3 Tiền xử lý liệu tiếng Việt bổ sung số lượng từ dừng sử dụng bước xử lý liệu viết mục 3.1.4 Xây dựng mơ hình đồ thị bổ sung bước tạo liệu đồ thị − Chỉnh sửa nội dung mục 3.2 Cấu hình tham số mơi trường thử nghiệm bổ sung thông số môi trường thử nghiệm tham số mơ hình thực nghiệm bổ sung độ F1-score − Chỉnh sửa nội dung mục 3.3 Kết thực nghiệm bổ sung mô tả liệu nhãn, viết dataset, bổ sung hình ảnh kết thực nghiệm mơ hình với số accuracy, loss F1score Ngày, 30 tháng 08 năm 2021 Giáo viên hướng dẫn Tác giả luận văn PGS TS Phạm Văn Hải Đinh Xuân Trường CHỦ TỊCH HỘI ĐỒNG TS Vũ Tuyết Trinh ĐỀ TÀI LUẬN VĂN Biểu mẫu Đề tài/Luận văn tốt nghiệp theo quy định Viện, nhiên cần đảm bảo giáo viên giao đề tài ký ghi rõ họ tên Trường hợp có giáo viên hướng dẫn ký tên Giáo viên hướng dẫn Ký ghi rõ họ tên LỜI CAM ĐOAN Tôi – Đinh Xuân Trường - cam kết luận văn cơng trình nghiên cứu thân tôi, hướng dẫn PGS.TS Phạm Văn Hải Các kết công bố báo cáo trung thực, chép cá nhân, tổ chức công bố khác Tất trích dẫn tham chiếu rõ ràng Ngày 24 tháng 07 năm 2021 Tác giả luận văn: Đinh Xuân Trường Xác nhận người hướng dẫn LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền thơng nói riêng thầy giáo, giáo thuộc trường Đại học Bách khoa Hà Nội nói chung dạy dỗ, truyền đạt kiến thức tạo điều kiện cho em suốt trình học tập trường Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn PGS TS Phạm Văn Hải, giảng viên môn Hệ thống Thông Tin, quan tâm, hướng dẫn tận tình thầy em tích lũy nhiều kiến thức chun mơn, đồng thời thầy tạo điều kiện cho em suốt q trình làm luận văn Những thời điểm khó khăn nhất, thầy giúp đỡ động viên để em hoàn thiện nghiên cứu luận văn Em xin gửi lời cảm ơn đến gia đình, người thân, bạn bè đồng nghiệp động viên tinh thần, chia sẻ giúp đỡ em nhiều học tập sống Do vốn kiến thức cịn hạn chế, luận văn khơng thể tránh khỏi thiếu sót, khiếm khuyết, kính mong q thầy xem xét góp ý để luận văn em hoàn thiện Em xin chân thành cảm ơn! Học viên: Đinh Xuân Trường, CBC19010, khoá 2019B, lớp CLC2019B TÓM TẮT NỘI DUNG LUẬN VĂN Những năm gần đây, mạng xã hội phát triển vô mạnh mẽ cung cấp cho người dùng không gian để trao đổi, chia sẻ tạo viết, bình luận với đa dạng chủ đề khác Lượng lớn liệu người dùng tạo dẫn đến yêu cầu cấp thiết quản lý khối lượng lớn nội dung, vấn đề tìm kiếm liệu, truy xuất thơng tin nhận diện ngữ cảnh để khai thác phân tích liệu Phân loại chủ đề viết mạng xã hội vấn đề thực tiễn có ý nghĩa quan trọng tảng cho toán phân tích mạng xã hội Bên cạnh đó, nghiên cứu gần mơ hình học sâu giúp giải nhiều vấn đề phức tạp thực tiễn xử lý ảnh, xử lý âm xử lý ngôn ngữ tự nhiên Đồng thời, hướng tiếp cận học sâu cho liệu liệu dạng đồ thị lý thuyết xác suất mang lại nhiều hiệu khai thác khía cạnh liên kết liệu toán học bán giám sát Các phương pháp tiếp cận toán phân loại viết mạng xã hội, thường xem xét viết văn độc lập dẫn đến không khai thác triệt để mối liên hệ đồ thị chúng Do đó, cách tạo đồ thị có nút viết liên kết viết tạo chúng Người viết, Nhóm Trang fanpage mạng xã hội, luận văn tìm hiểu mơ hình thực nghiệm cho tốn phân loại chủ đề bán giám sát viết tập liệu thu thập từ mạng xã hội Facebook Luận văn trình bày với mục tiêu làm chủ mơ hình đồ thị học sâu Bayesian phương pháp tương tự cho toán phân loại nút bán giám sát, áp dụng mơ hình cho tốn phân loại viết đánh giá so sánh để chứng minh tính hiệu mơ hình lựa chọn phân loại chủ đề mạng xã hội Định hướng nghiên cứu phát triển mơ hình cho tốn phân tích hành vi, dự đốn liên kết gợi ý nội dung cho người dùng mạng xã hội tương lai HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG GIỚI THIỆU 11 1.1 1.2 Giới thiệu chung 11 1.1.1 Phân loại chủ đề viết mạng xã hội 11 1.1.2 Lợi ích phân loại chủ đề viết mạng xã hội 11 1.1.3 Các yếu tố ảnh hưởng 11 Động lực mục tiêu nghiên cứu 12 1.2.1 Động lực nghiên cứu 12 1.2.2 Phát biểu mơ tả tốn 12 1.2.3 Nghiên cứu liên quan 13 1.2.4 Mục tiêu nghiên cứu 14 1.2.5 Cấu trúc luận văn 15 CHƯƠNG CƠ SỞ LÝ THUYẾT 16 2.1 2.2 Bài toán phân loại văn 16 2.1.1 Chuẩn bị liệu 16 2.1.2 Xử lý liệu trích rút thuộc tính liệu 16 2.1.3 Xây dựng mơ hình phân loại bán giám sát 17 Lý thuyết đồ thị 18 2.2.1 Khái niệm đồ thị 18 2.3 Ứng dụng đồ thị 19 2.4 Đặc điểm liệu đồ thị 19 2.5 Một số tốn điển hình đồ thị 20 2.6 2.7 2.5.1 Phân loại nút 20 2.5.2 Dự đoán liên kết 20 2.5.3 Phân cụm phát cộng đồng 21 2.5.4 Phân loại đồ thị 21 Mơ hình học sâu 22 2.6.1 Mạng nơron nhân tạo 22 2.6.2 Mạng nơron tích chập 24 Các mạng đồ thị học sâu 24 2.7.1 Ý tưởng mạng đồ thị học sâu 24 2.7.2 Vectơ nhúng 25 2.8 2.7.3 Bước ngẫu nhiên 25 2.7.4 Bước sâu 26 2.7.5 Mạng nơron tích chập đồ thị 26 2.7.6 Phương pháp học biểu diễn quy nạp đồ thị lớn GraphSage 27 2.7.7 Mạng tích chập đồ thị phân cấp 28 2.7.8 Định lý Bayes 29 2.7.9 Mạng nơron Bayes 29 2.7.10 Mạng nơron đồ thị với xác suất Bayes 30 Xây dựng đồ thị viết mạng xã hội 33 CHƯƠNG PHƯƠNG PHÁP TIẾN HÀNH VÀ THỰC NGHIỆM 37 3.1 Phương pháp tiến hành 37 3.1.1 Kịch tiến hành 37 3.1.2 Thu thập liệu 37 3.1.3 Tiền xử lý liệu tiếng Việt 39 3.1.4 Xây dựng mơ hình đồ thị 41 3.2 Cấu hình tham số mơi trường thử nghiệm 44 3.3 Kết thực nghiệm 46 KẾT LUẬN 57 DANH MỤC HÌNH VẼ Hình 2.1: Đặc điểm khác biệt liệu đồ thị 19 Hình 2.2: Bài tốn phân loại nút 20 Hình 2.3: Bài tốn dự đốn liên kết 21 Hình 2.4: Phân cụm phát cộng đồng 21 Hình 2.5: Bài tốn phân loại đồ thị lĩnh vực hóa dược [32] 22 Hình 2.6 Nơron nhân tạo [33] 22 Hình 2.7: Các hàm kích hoạt [34] 23 Hình 2.8: Kiến trúc mạng nơron [35] 23 Hình 2.9: Nhân chập 2D [36] 24 Hình 2.10: Học sâu đồ thị [38] 25 Hình 2.12: Mạng nơron tích chập đồ thị [38] 27 Hình 2.13: GraphSage [42] 28 Hình 2.14: Hierarchical Graph Convolutional Networks [43] 29 Hình 2.15: Các bước thực mơ hình Bayesian-GCNN 31 Hình 2.16: Kiến trúc hai lớp GCN mơ hình 33 Hình 2.17: Kiểu liệu mạng lưới trích dẫn báo khoa học Cora [47] 33 Hình 2.18: Mối quan hệ Nhóm, Người dùng Bài viết 35 Hình 2.19: Mối quan hệ Nhóm, Trang Bài viết 35 Hình 2.20: Mối quan hệ Bài viết sau tạo đồ thị 36 Hình 3.1: Các chủ đề mạng xã hội Facebook 37 Hình 3.2: Xây dựng thuộc tính cho thực thể 38 Hình 3.3: Dữ liệu thu thập triển khai dạng đồ thị 39 Hình 3.4: Danh sách từ dừng 40 Hình 3.5: Bài viết mạng xã hội Facebook 40 Hình 3.6: Dữ liệu xử lý 41 Hình 3.7: Gán nhãn liệu cho viết 41 Hình 3.8: Dữ liệu viết thu từ Nhóm có Id 1928483250746491 43 Hình 3.9: Tạo từ điển cho viết thu thập 43 Hình 3.10: Tạo thuộc tính cho viết 43 Hình 3.11: Tạo kết nối đỉnh đồ thị viết 44 Hình 3.12: Tạo tập nhãn y 44 Hình 3.13: Tổ chức file liệu 44 Hình 3.14: Dữ liệu sau thu thập biểu diễn 46 Hình 3.15: Kết thực nghiệm với Dataset 47 Hình 3.16: Dữ liệu tập Dataset 49 Hình 3.17: Kết thực nghiệm với Dataset 50 Dữ liệu Dataset sau thu thập xử lý thành đồ thị dạng file pickle có liệu tổng hợp Bảng 3.6 trực quan hóa Hình 3.14 Bộ liệu Dataset thực nghiệm mơ hình với kết mơ tả Hình 3.15: GCNN Accuracy GCNN Loss HGCN Accuracy HGCN loss GraphSage Accuracy GraphSage Loss Bayesian-GCNN Accuracy Bayesian-GCNN Loss Hình 3.15: Kết thực nghiệm với Dataset 47 Dựa vào hình 3.15 Bảng 3.7 ta thấy với thực nghiệm liệu Dataset bốn nhãn mơ hình Bayesian-GCNN cho hiệu cao so với mơ hình khác hai độ đo Accuracy F1-Score 0.78 0.71 Hai mơ hình GCN HGCN cho kết tương đương hai số 0.7 0.65 GraphSage cho kết vượt trội đặc biệt Hình 3.15 GraphSage có tốc độ hội tụ nhanh 100 epoch Bayesian có hàm mát giảm nhanh epoch có giá trị thấp, nhiên lại không ổn định tốn nhiều thời gian trình lấy mẫu MMSBM Bảng 3.7: Bảng đánh giá mơ hình với Dataset Mơ hình Dataset Loss Accuracy F1-score GCN 1.38539 0.7060 0.6501 HGCN 1.95504 0.7070 0.6549 GraphSage 1.31410 0.7300 0.7089 Bayesian-GCNN 0.92175 0.7833 0.7133 Dataset 2: Với nhãn với 21 Nhóm Nhóm chủ đề Science & Tech, Nhóm từ chủ đề Entertainment, Nhóm chủ đề Travel, Nhóm chủ đề Sport Nhóm chủ đề Business: Trong đó: tỷ lệ nhãn tương ứng với chủ đề 15%, 19.5%, 17%, 22%, 12.5% 14% bảng Bảng 3.8: Bảng liệu Dataset Nhãn Business Entertainment (4) (5) Travel (3) Sport (2) Science & Tech (1) Other (0) Số lượng viết 883 1137 981 1292 733 814 Tỷ lệ nhãn 15% 19.5% 17% 22% 12.5% 14% 48 Hình 3.16: Dữ liệu tập Dataset Dữ liệu Dataset sau thu thập xử lý thành đồ thị dạng file pickle Hình 3.13 có liệu tổng hợp Bảng 3.9 trực quan hóa hình 3.16 Dữ liệu Dataset Hình 3.16 phân bố rải rác chủ đề với 5840 viết thành vòng tròn lớn chủ đề tập trung với mật độ cao trung tâm chủ đề khác phân bố rải rác thành ba cụm bên cụm trung tâm Điều cho thấy ta mở rộng chủ đề với Người dùng hay Trang hoạt động nhiều nhóm khác viết thường có xu hướng tạo chủ đề gần gũi với du lịch thể thao, nhóm thường có xu hướng tập trung gần Bảng 3.9: Tổng hợp liệu đồ thị viết Dữ liệu Facebook Số lượng Số lượng nút 5.840 Số lượng cạnh 157.632 Số từ từ điển 6127 Số lớp chủ đề Bộ liệu Dataset thực nghiệm kiểm chứng mô hình mơ tả chi tiết độ đo tổng thể accuracy f1-score Hình 3.17 đây: 49 GCNN Accuracy HGCN Accuracy GCNN Loss HGCN Loss GraphSage Loss GraphSage Accuracy Bayesian-GCNN Accuracy Bayesian-GCNN Loss Hình 3.17: Kết thực nghiệm với Dataset 50 Dựa vào Hình 3.17 Bảng 3.10 ta thấy với thực nghiệm liệu Dataset nhãn với liệu lớn mơ hình Bayesian-GCNN mặc kết Accuracy cao GrapSage 2.7% lại thấp GraphSage số F1 score Điều chứng tỏ GraphSage ổn định tăng số nhãn q trình dự đốn Bảng 3.10: Bảng đánh giá mơ hình với Dataset Mơ hình Dataset Loss Accuracy F1-score GCN 0.74127 0.71427 0.6951 HGCN 1.87675 0.78600 0.7568 GraphSage 0.98331 0.80120 0.8001 Bayesian-GCNN 1.21745 0.82833 0.7812 Dataset 3: Với 12 nhãn với 34 Nhóm Nhóm chủ đề Science & Tech, Nhóm từ chủ đề Sport, Nhóm chủ đề Travel, Nhóm chủ đề Education Nhóm chủ đề Business, Nhóm chủ đề Parenting, Nhóm chủ đề Beauty, Nhóm chủ đề Food, Nhóm chủ đề Health, nhóm chủ đề Entertainment Nhóm chủ đề Vehicle Dữ liệu Dataset sau thu thập xử lý thành đồ thị dạng file pickle Hình 3.13 có liệu tổng hợp Bảng 3.11 trực quan hóa hình 3.18 Bảng 3.11: Tổng hợp liệu đồ thị viết Dữ liệu Facebook Số lượng Số lượng nút 29.572 Số lượng cạnh 354.383 Số từ từ điển 8234 Số lớp chủ đề 12 51 Bộ liệu Dataset thực nghiệm kiểm chứng mơ hình mơ tả chi tiết độ đo tổng thể accuracy f1-score Hình 3.19 Hình 3.18: Dữ liệu tập Dataset Dựa vào hình 3.19 Bảng 3.12 ta thấy với thực nghiệm liệu Dataset 12 nhãn mơ hình Bayesian-GCNN GraphSage có tương đương hai số F1-score Accuracy Các mơ hình HGCN GCN tỏ hiệu từ 2-4% Nhìn chung hai số mơ hình với Dataset có phần tốt so với hai liệu tăng thêm nhóm liệu Về xu hướng HGCN có xu hướng hàm mát giảm nhanh ổn định epoch cịn Bayesian-GCNN lại ổn định sau 200 epoch cập nhật mơ hình với việc lấy mẫu đồ thị 52 GCNN Accuracy GCNN Loss HGCN Accuracy HGCN Loss GraphSage Accuracy GraphSage Loss Bayesian-BGCNN Accuracy Bayesian-BGCNN Loss Hình 3.19: Kết thực nghiệm với Dataset 53 Bảng 3.12: Bảng đánh giá mơ hình với Dataset Model Dataset Loss Acc F1-score GCN 1.28987 0.76700 0.7371 HGCN 1.82684 0.80621 0.7843 GraphSage 0.73281 0.82385 0.8285 Bayesian-GCNN 0.6741 0.82310 0.8183 Dataset 4: Với 20 nhãn với 77 Nhóm Nhóm chủ đề Science & Tech, Nhóm từ chủ đề Sport, Nhóm chủ đề Travel, Nhóm chủ đề Education Nhóm chủ đề Business, Nhóm chủ đề Parenting, Nhóm chủ đề Beauty, Nhóm chủ đề Food, Nhóm chủ đề Health, Nhóm chủ đề Animal, nhóm chủ đề Civic Community, Nhóm chủ đề Buy Sell, Nhóm Recruitment, , Nhóm từ chủ đề Entertainment, nhóm Relationship Nhóm chủ đề Vehicle Hình 3.20: Dữ liệu Dataset Dữ liệu Dataset sau thu thập xử lý thành đồ thị dạng file pickle Hình 3.13 có liệu tổng hợp Bảng 3.13 trực quan hóa hình 3.20 54 Bảng 3.13: Tổng hợp liệu đồ thị viết Dữ liệu Facebook Số lượng Số lượng nút 62.652 Số lượng cạnh 886.759 Số từ từ điển 11243 Số lớp chủ đề 20 Dataset thực nghiệm mơ hình với accuracy f1-score Hình 3.21: GCNN Accuracy GCNN Loss HGCN Accuracy HGCN Loss GraphSage Accuracy GraphSage Loss Bayesian-GCNN Accuracy Bayesian-GCNN Loss Hình 3.21 Kết thực nghiệm với Dataset 55 Dựa vào hình 3.21 Bảng 3.14 ta thấy với thực nghiệm liệu Dataset 20 nhãn mơ hình Bayesian-GCNN cho thấy hiệu số Accuracy xấp xỉ 87% cao so với mơ hình khách GraphSage, HGCN GCN 2%, 5% 6% Đối với số F1-score đạt giá trị cao so với phương pháp khác Bảng 3.14: Bảng đánh giá mơ hình với Dataset Mơ hình Dataset Loss Acc F1-score GCN 1.12221 0.80100 0.7934 HGCN 1.50853 0.81999 0.8197 GraphSage 1.32944 0.84698 0.8241 Bayesian-GCNN 0.83175 0.86833 0.8231 Tổng hợp kết liệu ta có bảng tổng hợp mơ sau: Bảng 3.15: Bảng tổng hợp so sánh mơ hình Mơ hình Dataset Acc F1score Dataset Acc F1score Dataset Acc F1score Dataset Acc F1score GCN 0.7060 0.6501 0.71427 0.6951 0.76700 0.7371 0.80100 0.7934 HGCN 0.7070 0.6549 0.78600 0.7568 0.80621 0.7843 0.81999 0.8197 GraphSage 0.7300 0.7089 0.80120 0.8001 0.82385 0.8285 0.84698 0.8241 BayesianGCNN 0.7833 0.7133 0.82833 0.7812 0.82310 0.8183 0.86833 0.8231 Tổng hợp kết từ Bảng 3.14 cho thấy Bayesian-GCNN hiệu tốt cho nhãn 4, 20, tương đương với GraphSage thực cho 12 nhãn Dựa vào Bảng 3.15: ta thấy rõ Bayesian-GCNN mang lại hiệu gần tốt với trường hợp ta mở rộng đồ thị kích thước đồ thị từ nhãn lên 20 nhãn Độ xác gần 86%, đặc biệt với nhãn đạt Accuracy 0.7833 khoảng cách độ xác xa so với phương pháp GCN, HGCN, GraphSage mở rộng mơ hình ta mở rộng thêm liệu cho nhãn đơn cử với liệu nhãn ta có nhóm chủ đề Sport, liệu nhãn ta có nhóm chủ đề Sport, điều giải thích lý mở rộng mơ hình nhiều nhãn độ xác lại cao nguyên nhân bổ sung thêm liệu cho nhãn so với liệu nhãn 56 KẾT LUẬN Kết luận Luận văn trình bày với mục tiêu làm chủ mơ hình đồ thị học sâu BayesianGCNN phương pháp cho toán phân loại nút bán giám sát, áp dụng mơ hình cho tốn phân loại viết cách tạo đồ thị có nút viết liên kết viết tạo chúng Người viết, Nhóm Trang mạng xã hội Luận văn tìm hiểu mơ hình thực nghiệm cho toán phân loại chủ đề viết tập liệu thu thập từ mạng xã hội Facebook Bằng sử dụng phương pháp học bán giám sát đồ thị với mạng học sâu Bayesian-GCNN so sánh với phương pháp phân loại học bán giám sát đồ thị, bao gồm GraphSAGE, HGCN GCN bốn kịch liệu 4, 6, 12 20 nhãn chủ đề Luận văn giải toán phân loại chủ đề viết từ mạng xã hội Facebook cho ngơn ngữ Tiếng Việt Với cách cận tốn tập trung vào Bài viết công khai Người dùng Trang tạo trang cá nhân Nhóm cơng khai Có thể kết luận cấu trúc đồ thị hữu ích cho độ xác phân loại mối quan hệ nguồn gốc viết với chủ đề viết có mối liên hệ chặt chẽ giúp thực phân tích viết trực tuyến tự động đánh giá thực nghiệm cho thấy hiệu suất phân loại chủ đề viết sử dụng mơ hình Bayesian-GCNN so với thuật toán khác mở rộng số lượng nút đồ thị với độ xác lên đến gần 87% với số nhãn lên đến 20 nhãn chủ đề Định hướng phát triển tương lai Trong tương lai, luận văn mở rộng cách tiếp cận mơ hình Bayes đồ thị cho toán liệu xã hội dự đoán mối quan hệ, khám phá cộng đồng, định hướng nghiên cứu phát triển mơ hình cho tốn phân tích hành vi, dự đốn liên kết gợi ý nội dung cho người dùng mạng xã hội 57 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] TÀI LIỆU THAM KHẢO Jotikabukkana, P., Sornlertlamvanich, V., Manabu, O and Haruechaiyasak, C Social media text classification by enhancing wellformed text trained model Journal of ICT Research and Applications, 10(2), 177 196 (2016) HaCohen-Kerner, Y., Rosenfeld, A., Sabag, A and Tzidkani, M., 2018 Topic-based classification through unigram unmasking Procedia Computer Science, 126, pp.69-76 HaCohen-Kerner, Y., Miller, D and Yigal, Y., 2020 The influence of preprocessing on text classification using a bag-of-words representation PloS one, 15(5), p.e0232525 Aggarwal, C.C and Zhai, C., 2012 A survey of text classification algorithms In Mining text data (pp 163-222) Springer, Boston, MA Kaur, M and Bansal, M., 2016, December Text classification using clustering techniques and PCA In 2016 Fourth International Conference on Parallel, Distributed and Grid Computing (PDGC) (pp 642-646) IEEE Pavlinek, M and Podgorelec, V., 2017 Text classification method based on self-training and LDA topic models Expert Systems with Applications, 80, pp.83-93 Cardona, L.A.S., Vargas-Cardona, H.D., Navarro González, P., Cardenas Peña, D.A and Orozco Gutiérrez, Á.Á., 2020 Classification of Categorical Data Based on the Chi-Square Dissimilarity and t-SNE Computation, 8(4), p.104 Shah, K., Patel, H., Sanghvi, D and Shah, M., 2020 A comparative analysis of logistic regression, random forest and KNN models for the text classification Augmented Human Research, 5(1), pp.1-16 Kim, S.B., Han, K.S., Rim, H.C and Myaeng, S.H., 2006 Some effective techniques for naive bayes text classification IEEE transactions on knowledge and data engineering, 18(11), pp.1457-1466 Colas, F and Brazdil, P., 2006, August Comparison of SVM and some older classification algorithms in text classification tasks In IFIP International Conference on Artificial Intelligence in Theory and Practice (pp 169-178) Springer, Boston, MA Su, J and Zhang, H., 2006, July A fast decision tree learning algorithm In Aaai (Vol 6, pp 500-505) Li, C., Zhan, G and Li, Z News text classification based on improved BiLSTM-CNN In 2018 9th International Conference on Information Technology in Medicine and Education (ITME), 890 893 (2018) Bruna, J., Zaremba, W., Szlam, A and LeCun, Y Spectral networks and locally connected networks on graphs arXiv preprint arXiv:1312.6203 Frasconi, P., Gori, M and Sperduti, A., 1998 A general framework for adaptive processing of data structures IEEE transactions on Neural Networks, 9(5), pp.768-786 58 [15] Scarselli, F., Gori, M., Tsoi, A.C., Hagenbuchner, M and Monfardini, G The graph neural network model IEEE Transactions on Neural Networks, 20(1), 61 80 (2008) [16] Zhu, R., Zhao, K., Yang, H., Lin, W., Zhou, C., Ai, B., Li, Y and Zhou, J., 2019 Aligraph: a comprehensive graph neural network platform arXiv preprint arXiv:1902.08730 [17] Huang, L., Ma, D., Li, S., Zhang, X and Wang, H., 2019 Text level graph neural network for text classification arXiv preprint arXiv:1910.02356 [18] Van Nguyen, K., Van Huynh, T., Nguyen, D.V., Nguyen, A.G.T and Nguyen, N.L.T., 2020 New vietnamese corpus for machine reading comprehension of health news articles arXiv preprint arXiv:2006.11138 [19] Python Vietnamese Toolkit, https://github.com/trungtv/pyvi [20] Open-source Vietnamese Natural Language Process Toolkit, https://github.com/undertheseanlp/underthesea [21] Sethy, A and Ramabhadran, B., 2008 Bag-of-word normalized n-gram models In Ninth Annual Conference of the International Speech Communication Association [22] Zhang, W., Yoshida, T and Tang, X., 2011 A comparative study of TF* IDF, LSI and multi-words for text classification Expert Systems with Applications, 38(3), pp.2758-2765 [23] Goldberg, Y and Levy, O., 2014 word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method arXiv preprint arXiv:1402.3722 [24] Patel, A., Sands, A., Callison-Burch, C and Apidianaki, M., 2018 Magnitude: A fast, efficient universal vector embedding utility package arXiv preprint arXiv:1810.11190 [25] Adadi, A and Berrada, M., 2018 Peeking inside the black-box: a survey on explainable artificial intelligence (XAI) IEEE access, 6, pp.5213852160 [26] Kadhim, A.I., 2019 Survey on supervised machine learning techniques for automatic text classification Artificial Intelligence Review, 52(1), pp.273-292 [27] Van Engelen, J.E and Hoos, H.H., 2020 A survey on semi-supervised learning Machine Learning, 109(2), pp.373-440 [28] Subramanya, A and Bilmes, J., 2008, October Soft-supervised learning for text classification In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (pp 1090-1099) [29] Triguero, I., García, S and Herrera, F., 2015 Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study Knowledge and Information systems, 42(2), pp.245-284 [30] Alam, F., Joty, S and Imran, M., 2018, June Graph based semi-supervised learning with convolution neural networks to classify crisis related tweets In Twelfth International AAAI Conference on Web and Social Media [31] CS224W: Machine Learning with Graphs, Stanford / Winter 2021, http://web.stanford.edu/class/cs224w/ 59 [32] Ying, R., Bourgeois, D., You, J., Zitnik, M and Leskovec, J., 2019 Gnnexplainer: Generating explanations for graph neural networks Advances in neural information processing systems, 32, p.9240 [33] Chakraverty, S., Sahoo, D.M and Mahato, N.R., 2019 Mcculloch–Pitts neural network model In Concepts of Soft Computing (pp 167-173) Springer, Singapore [34] Agarap, A.F., 2018 Deep learning using rectified linear units (relu) arXiv preprint arXiv:1803.08375 [35] Hopfield, J.J., 1988 Artificial neural networks IEEE Circuits and Devices Magazine, 4(5), pp.3-10 [36] Albawi, S., Mohammed, T.A and Al-Zawi, S., 2017, August Understanding of a convolutional neural network In 2017 International Conference on Engineering and Technology (ICET) (pp 1-6) Ieee [37] Henaff, M., Bruna, J and LeCun, Y Deep convolutional networks on graph structured data arXiv preprint arXiv:1506.05163 (2015) [38] Zhou, J., Cui, G., Hu, S., Zhang, Z., Yang, C., Liu, Z., Wang, L., Li, C and Sun, M., 2020 Graph neural networks: A review of methods and applications AI Open, 1, pp.57-81 [39] Cai, H., Zheng, V.W and Chang, K.C.C., 2018 A comprehensive survey of graph embedding: Problems, techniques, and applications IEEE Transactions on Knowledge and Data Engineering, 30(9), pp.1616-1637 [40] Abu-El-Haija, S., Perozzi, B., Al-Rfou, R and Alemi, A., 2017 Watch your step: Learning node embeddings via graph attention arXiv preprint arXiv:1710.09599 [41] Hamilton, W.L., Ying, R and Leskovec, J., 2017 Representation learning on graphs: Methods and applications arXiv preprint arXiv:1709.05584 [42] Hamilton, W., Ying, Z and Leskovec, J Inductive representation learning on large graphs In: Advances in neural information processing systems, pp 1024 1034 (2017) [43] Hu, F., Zhu, Y., Wu, S., Wang, L and Tan, T., 2019 Hierarchical graph convolutional networks for semi-supervised node classification arXiv preprint arXiv:1902.06667 [44] Zhang, Y., Pal, S., Coates, M and Ustebay, D Bayesian graph convolutional neural networks for semi-supervised classification In Proceedings of the AAAI Conference on Artificial Intelligence, Vol 33, 5829 5836 (2019) [45] Peixoto, T.P., 2014 Efficient Monte Carlo and greedy heuristic for the inference of stochastic block models Physical Review E, 89(1), p.012804 [46] Airoldi, E.M., Blei, D.M., Fienberg, S.E and Xing, E.P., 2008 Mixed membership stochastic blockmodels Journal of machine learning research [47] Sen, P., Namata, G., Bilgic, M., Getoor, L., Galligher, B and Eliassi-Rad, T., 2008 Collective classification in network data AI magazine, 29(3), pp.93-93 60 [48] List Vietnamese stopwords https://.com//vietnamese-stopwords [49] Chicco, D and Jurman, G., 2020 The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation BMC genomics, 21(1), pp.1-13 61 ... • Luận văn giải toán học bán giám sát đồ thị cho tốn phân loại viết mạng xã hội • Trình bày phương pháp ý tưởng tạo đồ thị viết mạng xã hội thành đồ thị đầu vào cho toán phân loại bán giám sát... vấn đề quản lý nội dung viết quy mô lớn, tìm kiếm truy xuất thơng tin vấn đề liên quan đến việc phân tích khai phá liệu đồ thị mạng xã hội 1.1.1 Phân loại chủ đề viết mạng xã hội Phân loại chủ đề. .. tượng Hình 2.4: Phân cụm phát cộng đồng 2.5.4 Phân loại đồ thị Một toán phân loại liệu đồ thị toán sử dụng toàn đồ thị đầu vào để phân loại dự đốn đặc tính đồ thị Bài tốn sử dụng rộng rãi điển hình

Định dạng
Số trang	66
Dung lượng	1,75 MB

Tài liệu tham khảo	Loại	Chi tiết
[20] Open-source Vietnamese Natural Language Process Toolkit, https://github.com/undertheseanlp/underthesea	Link
[31] CS224W: Machine Learning with Graphs, Stanford / Winter 2021, http://web.stanford.edu/class/cs224w/	Link
[1] Jotikabukkana, P., Sornlertlamvanich, V., Manabu, O. and Haruechaiyasak, C. Social media text classification by enhancing well- formed text trained model. Journal of ICT Research and Applications, 10(2), 177--196. (2016)	Khác
[2] HaCohen-Kerner, Y., Rosenfeld, A., Sabag, A. and Tzidkani, M., 2018. Topic-based classification through unigram unmasking. Procedia Computer Science, 126, pp.69-76	Khác
[3] HaCohen-Kerner, Y., Miller, D. and Yigal, Y., 2020. The influence of preprocessing on text classification using a bag-of-words representation.PloS one, 15(5), p.e0232525	Khác
[4] Aggarwal, C.C. and Zhai, C., 2012. A survey of text classification algorithms. In Mining text data (pp. 163-222). Springer, Boston, MA	Khác
[5] Kaur, M. and Bansal, M., 2016, December. Text classification using clustering techniques and PCA. In 2016 Fourth International Conference on Parallel, Distributed and Grid Computing (PDGC) (pp. 642-646).IEEE	Khác
[6] Pavlinek, M. and Podgorelec, V., 2017. Text classification method based on self-training and LDA topic models. Expert Systems with Applications, 80, pp.83-93	Khác
[7] Cardona, L.A.S., Vargas-Cardona, H.D., Navarro González, P., Cardenas Peủa, D.A. and Orozco Gutiộrrez, Á.Á., 2020. Classification of Categorical Data Based on the Chi-Square Dissimilarity and t-SNE.Computation, 8(4), p.104	Khác
[8] Shah, K., Patel, H., Sanghvi, D. and Shah, M., 2020. A comparative analysis of logistic regression, random forest and KNN models for the text classification. Augmented Human Research, 5(1), pp.1-16	Khác
[9] Kim, S.B., Han, K.S., Rim, H.C. and Myaeng, S.H., 2006. Some effective techniques for naive bayes text classification. IEEE transactions on knowledge and data engineering, 18(11), pp.1457-1466	Khác
[10] Colas, F. and Brazdil, P., 2006, August. Comparison of SVM and some older classification algorithms in text classification tasks. In IFIP International Conference on Artificial Intelligence in Theory and Practice (pp. 169-178). Springer, Boston, MA	Khác
[11] Su, J. and Zhang, H., 2006, July. A fast decision tree learning algorithm. In Aaai (Vol. 6, pp. 500-505)	Khác
[12] Li, C., Zhan, G. and Li, Z. News text classification based on improved Bi- LSTM-CNN. In 2018 9th International Conference on Information Technology in Medicine and Education (ITME), 890--893. (2018)	Khác
[13] Bruna, J., Zaremba, W., Szlam, A. and LeCun, Y. Spectral networks and locally connected networks on graphs. arXiv preprint arXiv:1312.6203	Khác
[14] Frasconi, P., Gori, M. and Sperduti, A., 1998. A general framework for adaptive processing of data structures. IEEE transactions on Neural Networks, 9(5), pp.768-786	Khác
[16] Zhu, R., Zhao, K., Yang, H., Lin, W., Zhou, C., Ai, B., Li, Y. and Zhou, J., 2019. Aligraph: a comprehensive graph neural network platform. arXiv preprint arXiv:1902.08730	Khác
[17] Huang, L., Ma, D., Li, S., Zhang, X. and Wang, H., 2019. Text level graph neural network for text classification. arXiv preprint arXiv:1910.02356	Khác
[18] Van Nguyen, K., Van Huynh, T., Nguyen, D.V., Nguyen, A.G.T. and Nguyen, N.L.T., 2020. New vietnamese corpus for machine reading comprehension of health news articles. arXiv preprint arXiv:2006.11138	Khác
[21] Sethy, A. and Ramabhadran, B., 2008. Bag-of-word normalized n-gram models. In Ninth Annual Conference of the International Speech Communication Association	Khác