1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHẢO sát XU THẾ THAY đổi CHỦ đề QUAN tâm của một CỘNG ĐỒNG TRONG MẠNG xã hội THEO THỜI GIAN

90 72 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 10,89 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐỖ THIỆN VŨ Ngành: Khoa Học Máy Tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ PHÚC HỒ CHÍ MINH - Năm 2016 LỜI CÁM ƠN Trước tiên, xin gửi lời cảm ơn tới thầy hướng dẫn luận văn tôi, PGS TS Đỗ Phúc, tạo điều kiện, động viên giúp đỡ hồn thành tốt luận văn Trong suốt q trình nghiên cứu, thầy kiên nhẫn hướng dẫn, quan tâm, giúp đỡ, thảo luận đưa dẫn, đề nghị cho luận văn Sự hiểu biết sâu sắc khoa học, kinh nghiệm thầy tiền đề giúp tơi đạt thành tựu kinh nghiệm quý báu Xin cám ơn q Thầy Cơ, Khoa Khoa Học Máy Tính, Phịng sau đại học, Trường đại học Công Nghệ Thông Tin tận tình truyền đạt kiến thức năm tơi học tập Với vốn kiến thức tiếp thu q trình học khơng tảng cho q trình nghiên cứu luận văn mà cịn hành trang q báu để tơi bước vào đời cách vững tự tin Tôi xin cảm ơn bạn bè gia đình ln bên tơi, cổ vũ động viên tơi lúc khó khăn để vượt qua hoàn thành tốt luận văn Tơi xin chân thành cảm ơn! TP Hồ Chí Minh, tháng năm 2016 Đỗ Thiện Vũ LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học PGS.TS Đỗ Phúc Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung luận văn TP Hồ Chí Minh, tháng năm 2016 Tác giả luận văn Đỗ Thiện Vũ MỤC LỤC LỜI CÁM ƠN .3 LỜI CAM ĐOAN .4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10 TÓM TẮT 12 CHƯƠNG 1: TỔNG QUAN .13 TÍNH THIẾT THỰC CỦA ĐỀ TÀI .13 CÁC KHÁI NIỆM CƠ BẢN 13 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 15 MỤC ĐÍCH VÀ NỘI DUNG LUẬN VĂN 17 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 18 BỐ CỤC LUẬN VĂN 18 GIỚI THIỆU MẠNG XÃ HỘI 19 KẾT CHƯƠNG .23 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 24 KHAI PHÁ DỮ LIỆU 24 KỸ THUẬT XỬ LÝ VĂN BẢN 25 2.1 Đặc điểm từ vựng tiếng Việt .25 2.2 Tiền xử lí liệu .26 2.3 Tách từ tiếng Việt .27 2.3.1 Giới thiệu 27 2.3.2 Phương pháp so khớp cực đại MM .27 MÔ HÌNH PHÂN TÍCH CHỦ ĐỀ ẨN VÀ GÁN NHÃN CHỦ ĐỀ .28 3.1 Giới thiệu mơ hình phân tích chủ đề ẩn .28 3.2 Mơ hình LDA 29 3.2 Thuật toán Gibbs Sampling cho mơ hình LDA 33 2.3 Gán nhãn chủ đề .34 2.3.1 Giới thiệu 34 2.3.2 Phương pháp Naive Bayes 35 GIẢI THUẬT GOM CỤM 39 3.1 Khái niệm 39 3.2 Các kiểu liệu toán gom cụm 40 3.3 Các độ đo 42 3.4 Thuật Toán K-Means 43 3.5 Thuật toán Multi K-Means .47 KHAI PHÁ LUẬT DÃY 48 4.1 Giới thiệu 48 4.1.1 Một số khái niệm luật kết hợp 48 4.1.2 Thuật toán Apriori khai phá luật kết hợp 49 4.1.4 Một số khái niệm phương pháp khai phá luật dãy 53 4.2 Thuật toán khai phá luật dãy GSP 55 KẾT CHƯƠNG .60 CHƯƠNG XÂY DỰNG HỆ THỐNG VÀ THU THẬP DỮ LIỆU .61 MƠ HÌNH HỆ THỐNG 61 1.1 Quá trình tìm chủ đề 61 1.3 Quá trình gom cụm .63 1.4 Quá trình khai phá luật dãy 63 1.5 Triết lý việc dùng thuật toán 63 THU THẬP DỮ LIỆU 64 2.1 Giới thiệu NodeXL 64 2.2 Một số tính điển hình NodeXL 64 2.3 Thu thập liệu Facebook với NodeXL 65 2.4 Nguồn liệu 67 2.4.1 Dữ liệu huấn luyện 67 2.4.2 Dữ liệu GroupFacebook 68 CHƯƠNG 4: THỬ NGHIỆM VÀ THỰC NGHIỆM .69 THỬ NGHIỆM: 69 1.1 Thử nghiệm mơ hình LDA gán nhãn chủ đề .69 1.1.1 Dữ liệu thử nghiệm .69 1.1.2 Môi trường cơng cụ tích hợp 69 1.1.3 Quá trình thực .69 1.1.4 Kết đánh giá .70 1.2 Thử nghiệm gom cụm Multi-Kmeans 72 1.2.1 Môi trường công cụ 72 1.2.2 Quá trình thực .72 1.3 Thử nghiệm với thuật toán GSP .75 1.3.1 Dữ liệu thử nghiệm .75 1.3.2 Môi trường công cụ 75 1.1.3 Quá trình thực .75 1.4 Kết luận thử nghiệm 78 THỰC NGHIỆM .79 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88 KẾT QUẢ ĐẠT ĐƯỢC .88 1.1 Về mặt khoa học .88 1.2 Về mặt thực tiễn 88 HẠN CHẾ .89 HƯỚNG PHÁT TRIỂN 89 TÀI LIỆU THAM KHẢO 90 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT o ANCT: An ninh trị o CSDL: Cơ sở liệu o CNTT: Công nghệ thông tin o KHKT: Khoa học kỹ thuật o KPDL: Khai phá liệu o MXH: Mạng xã hội o TDTT: Thể dục thể thao o YTGD: Y tế giáo dục o API: Application Programming Interface o ART: Author-Recipient-Topic o DBLP: DataBase systems and Logic Programming o IGATEC: Internet and Genetics Algorithm based Text Categorization o GS: Gibbs Sampling o GSP: Generalized Sequential Patterns o KNN: K–Nearest Neighbor o LDA: Latent Dirichlet Allocation o LLSF: Linear Least Squares Fit o LRMM: Left Right Maximum Matching o LSA: Latent Semantic Analysis o NB: Naïve Bayes o PLSA: Probabilistic Latent Semantic Analysis o SD: Sequence Database o SPADE: Sequential Pattern Discovery using Equivalent Class o SVM: Support Vector Machine o SNA: Social Network Analysis o TBL: Transformation – Based Learning DANH MỤC CÁC BẢNG Bảng 1: Thống kê người dùng mạng xã hội lớn giới 21 Bảng 1: Các qui ước ký hiệu mơ hình LDA 31 Bảng 2: Các qui ước NB 35 Bảng 3: Số lượng từ tập huấn luyện 37 Bảng 4: Tần suất từ đặc trưng 37 Bảng Giá trị xác suất từ đặc trưng theo chủ đề 38 Bảng 6: CSDL TDB 51 Bảng 7: Kết tập luật kết hợp 52 Bảng 8: CSDL minh họa khái niệm luật dãy 53 Bảng 9: CSDL minh họa thuật toán GSP 57 Bảng 10: Phân tích GSP ứng viên C2 có phần tử 57 Bảng 11: Phân tích GSP ứng viên C2 có phần tử 58 Bảng 12: Minh họa dãy phổ biến chiều dài phần tử 58 Bảng 13: Minh họa dãy phổ biến chiều dài phần tử 59 Bảng 1: Thời gian lần thử nghiệm .70 Bảng 2: Thử nghiệm lần .71 Bảng 3: Thử nghiệm lần .71 Bảng 4: Thử nghiệm lần .71 Bảng 5: Kết thử nghiệm Multi-Kmeans 73 Bảng 6: Kiểm tra thực tế CSDL 78 Bảng 7: Môi trường công cụ thực nghiệm .79 Bảng 8: Tổng kết thời gian thực nghiệm .80 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Cấu trúc mạng xã hội .19 Hình 1: Mơ hình khai phá liệu 25 Hình 2: Mơ hình LDA 30 Hình 3: Quá trình sinh tài liệu mơ hình LDA 31 Hình 4: Quá trình sinh tài liệu 32 Hình 5: Thuật tốn LDA Gibbs Sampling 33 Hình 6: Ma trận liệu 40 Hình 7: Ma trận phân biệt .40 Hình 8: Thuật tốn K-means 44 Hình 9: Các bước thuật tốn K-means 44 Hình 10: CSDL ví dụ K-means .45 Hình 11: Bước k-means 45 Hình 12: Bước k-means 45 Hình 13: Bước thuật toán K-means 46 Hình 14: Bước thuật toán K-means 46 Hình 15: Bước dừng thuật tốn K-means .47 Hình 16: Thuật toán Multi K-Means .48 Hình 17: Thuật tốn Apriori 50 Hình 18: Độ phức tạp thuật tốn Apriori 51 Hình 19: Mơ tả q trình tìm tập phổ biến Apriori 52 Hình 20: Thuật toán GSP 55 Hình 21: Minh họa phân tích GSP 59 Hình 1: Mơ hình hệ thống .61 Hình 2: Cấu trúc mạng xã hội .65 Hình 3: Giao diện kết nối MXH 65 Hình 4: Giao diện Import liệu MXH Facebook .66 Hình 5: Đăng nhập Facebook 66 10 Hình 6: Danh sách người dùng .67 Hình 7: Dữ liệu huấn luyện 68 Hình 8: Dữ liệu Group Facebook 68 Hình 1: CSDL thử nghiệm K-means .72 Hình 2: Kết gom cụm chưa tối ưu 74 Hình 3: Kết gom cụm tối ưu 74 Hình 4: CSDL thử nghiệm GSP 75 Hình 6: Dãy bệnh tật phổ biến 76 Hình 5: Tham chiếu mã ICD 76 Hình 7: Chủ đề quan tâm cộng đồng .81 Hình 8: Chủ đề theo thời gian .82 Hình 9: Danh sách gom cụm 83 Hình 10: Một khối thơng tin cá nhân 83 Hình 11: Dãy phổ biến chủ đề theo thời gian .84 Hình 12: Trích chọn thơng tin nhanh 85 Hình 13: Trích chọn nhanh đối tượng trội 86 Hình 14: Menu song ngữ Anh-Việt 86 Hình 15: Danh sách lưu trữ sàng lọc 87 11 nhóm danh sách mắc bệnh cảm giác da với mã bệnh R20.1  Dãy phổ biến : Tất bệnh nhân nhóm mắc bệnh mã R 20.1 mắc bệnh với mã bệnh E78 Nói cách khác là: Tất bệnh nhân nhóm danh sách mắc bệnh cảm giác da có mã ICD R20.1, bệnh tật xuất kèm sau bệnh rối loạn chuyển hóa lipoprotein mã bệnh E78  Dãy phổ biến : Tất bệnh nhân nhóm mắc bệnh rối loạn chuyển hóa lipoprotein  Dãy phổ biến < E78, R20.1 >: Nếu bệnh nhân nhóm mắc bệnh E78 chuyển biến sang bệnh R20.1  Dãy phổ biến 5: < E78, R20.1, E78 >: Bệnh nhân mắc bệnh E78 chuyển biến sang bệnh R20.1 sau tái phát bệnh E78  Dãy phổ biến 6, 7, 8, 9, 10: Bệnh nhân mắc bệnh E78 cịn tái phát bệnh E78 sau Các thơng tin dãy phổ biến hữu ích cho bệnh viện việc định dự trù thuốc men chẩn đốn nhanh bệnh tật cho bệnh nhân, Ngồi hệ thống thông tin bệnh tật phổ biến khứ xuất tương lai gần Độ xác: Phương pháp kiểm tra độ xác dùng kết phân tích thuật toán GSP so sánh với xuất (độ hỗ trợ) dãy phổ biến thực tế có CSDL Kết kiểm tra thể qua bảng 4.6: 77 Bảng 6: Kiểm tra thực tế CSDL Dãy Tỷ lệ xác 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 4/4 (100%) 10 4/4 (100%) 1.4 Kết luận thử nghiệm Mục tiêu việc thử nghiệm đánh giá độ tin cậy liệu huấn luyện, mơ hình phân tích chủ đề gán nhãn chủ đề, giải thuật gom cụm, giải thuật GSP công cụ sử dụng việc triển khai mơ hình Qua việc thử nghiệm mơ phân tích chủ đề gán nhã chủ đề đạt độ xác 87,3% Thuật toán Multi-kmean cho kết gom cụm tối ưu kết tốt nhiều so với thuật toán K-means gom cụm cho nhiều kết khác qua lần chạy khác việc khởi tạo k cụm ngẫu nhiên Giải thuật GSP khai thác dãy phổ biến theo thời gian cơng cụ tích hợp hồn tồn đáng tin cậy, Với kết thử nghiệm trên, sử dụng mơ hình, giải thuật trình bày làm sở để triển khai mơ hình tổng quát khai phá xu chủ đề quan tâm cộng đồng mạng xã hội Sau phần thực nghiệm mơ hình hệ thống chung 78 Thực nghiệm  Môi trường công cụ thực nghiệm Môi trường công cụ phát triển mô tả qua bảng sau (bảng 4.7): Bảng 7: Môi trường cơng cụ thực nghiệm HẠNG MỤC MƠ TẢ CPU Core i5 2.67 GHz RAM 4G Hệ điều hành Windows 64 bit Công cụ lập trình Eclipse Luna 4.4 Mơi trường Mơi trường Java (Jkd 1.7) Server Apache - Tomcat 8.0 CSDL lưu trữ SQL Server 2012 Struts-Hibernate-Html Thư viện hỗ trợ Web theo mơ hình MVC 10 Bootstrap Thư viện hỗ trợ giao diện, hiệu ứng tích hợp hiển thị điện thoại di động 11 Công cụ VnTokenizer Tách từ tiếng Việt 12 Công cụ JGibbLDA 1.0 Phân tích chủ đề ẩn 13 Cơng cụ Java-ML 0.1.7 Thư viện thuật tốn gom cụm mơi trường Java 14 Công cụ Spmf 2.6 Thư viện thuật tốn khai phá luật dãy mơi trường Java STT  Đầu vào Gồm nguồn liệu trình bày mục 1, chương 3: - Dữ liệu huấn luyện: gồm chủ đề An Ninh Chính Trị, Khoa Học Kỹ Thuật, Thể Dục Thể Thao, Văn Hóa Nghệ Thuật, Y Tế Giáo Dục 79 - Dữ liệu Group Facebook: Tên trang RaoVat24h, tổng tin (post) 4107 tin (post), tổng user 1279 user  Đầu - Các chủ đề quan tâm thành viên theo thời gian (hình 4.7, hình 4.8) với giá trị phân phối xác suất chủ đề - Danh sách thành viên nhóm gom cụm theo tiêu chí khác qua thơng tin cá nhân (profile) thành viên (hình 4.9) - Xu chủ đề quan tâm nhóm theo thời gian (hình 4.11)  Tồng kết thời gian thực nghiệm Thời gian trình thực nghiệm tổng kết sau (bảng 4.8): Bảng 8: Tổng kết thời gian thực nghiệm STT Thời gian Hạng mục Thu thập liệu 180800 giây (48 giờ) Tiền xử lý tách từ tiếng Việt 7200 giây (2 ) Phân tích chủ đề ẩn gán nhãn chủ đề 60 giây Gom cụm Multi-Kmeans giây Phân tích xu chủ đề GSP giây  Một số tính mở rộng ứng dụng Hệ thống mở rộng số tính để tạo nhìn tổng thể, biết cộng đồng quan tâm khứ, đâu xu hướng thông tin đâu hướng lên tương lai gần thông qua giao diện sau: - Trích chọn thơng tin nhanh (hình 4.12) - Tìm kiếm theo mã id Facebook, theo tên hiển thị, theo giới tính, theo giá trị xác suất chủ đề (hình 4.12, hình 4.13) - Lọc lưu trữ đối tượng (hình 4.12, hình 4.13, hình 4.14) - Hiển thị nhanh đối tượng theo chủ đề trội (hình 4.13) 80 - Hiển thị nhanh thơng tin cá nhân thành viên liên kết tới trang Facebook thành viên (hình 4.10)  Hỗ trợ giao diện song ngữ Anh-Việt (hình 4.14) Diễn giải số hình giao diện ứng dụng thực nghiệm Hình 7: Chủ đề quan tâm cộng đồng Hình 4.7 biểu đồ mơ tả kết đầu hệ thống trình tìm chủ đề hệ thống Qua q trình phân tích, hệ thống tìm chủ đề phân phối xác suất tin Chủ đề tin giá trị xác suất chủ đề lớn Tương tự, chủ đề quan tâm thành viên chủ đề mang giá trị xác suất trung bình lớn phân phối xác suất tin thành viên Cuối chủ đề quan tâm nhóm hay cộng đồng chủ đề có giá trị trung bình phân phối xác suất lớn chủ đề quan tâm thành viên nhóm cộng đồng Hình 4.2 biểu đồ dạng Piechart mô tả chủ đề quan tâm cộng đồng tất thành viên có CSDL Trong đó, chủ đề quan tâm An ninh trị (màu xanh) chiếm 30,8 %, Khoa học kỹ thuật (màu đỏ) chiếm 53%, Y tế giáo dục (màu tím) chiếm 16,3% Từ biểu đồ, ta biết chủ trội cộng đồng Khoa học kỹ thuật, chủ đề An ninh trị sau Y tế giáo dục 81 Hình 8: Chủ đề theo thời gian Hình 4.8 kết đầu hệ thống trình tìm chủ đề Giống hình 4.7 trên, nhờ vào truy vấn giá trị trung bình phân phối xác suất chủ đề quan tâm thành viên khoảng gian tháng, ta có biểu đồ dạng linechart hình 4.8 Trong đó, trục đứng biểu diễn giá trị phân phối xác suất trung bình tin thành viên, trục ngang biểu diễn thời gian tháng Từ biểu đồ này, việc biết chủ đề trội cộng đồng, ta biết diễn biến chủ đề lại thay đổi theo hàng tháng nào, biết cộng đồng quan tâm khứ, đâu xu hướng qua tâm Chẳng hạn như: Chủ đề Khoa học kỹ thuật cộng đồng quan tâm nhiều trội tháng 5, tháng 8, tháng 1; Chủ đề An ninh trị bị suy giảm tháng tăng dần tới tháng năm sau; Chủ đề Y tế giáo dục trội tháng suy giảm tháng 1; 82 Tương tự, ứng dụng xuất biểu đồ danh sách thành viên với chủ đề quan tâm theo thời gian thống kê theo ngày, theo năm Hình 9: Danh sách gom cụm Hình 4.9 biểu đồ dạng bublechart, biểu đồ kết đầu trình gom cụm hệ thống Trong biểu đồ, chấm tròn nhỏ đối tượng (thành viên), đối tượng biểu diễn dạng không gian chiều gồm thông tin kèm theo nhóm, mã id CSDL, giá trị khoảng cách tới trọng tâm, giá trị xác suất chủ đề quan tâm Trục đứng giá trị xác suất chủ đề quan tâm đối tượng, trục ngang khoảng cách độ đo đối tượng tới trọng tâm Hình 10: Một khối thơng tin cá nhân 83 Ngoài kết gom cụm biểu diễn dạng danh sách khối (hình 4.10) Mỗi nhóm danh sách khối đối tượng Mỗi khối chứa thơng tin trích gọn nhanh đối tượng Hình 11: Dãy phổ biến chủ đề theo thời gian Hình 4.11 kết đẩu trình khai phá luật dãy hệ thống Trong dãy chủ đề phân tích dãy chủ đề quan tâm thành viên nhóm Các kết dãy phổ biến thể quan tâm khứ, đâu xu hướng thông tin đâu hướng lên tương lai gần Chẳng hạn dãy phổ biến [AnNinhChinhTri, KhoaHocKyThuat -> AnNinhChinhTri] Thông tin dãy phổ biến thể thành viên khác thuộc nhóm quan tâm chủ đề An ninh trị chủ đề Khoa học kỹ thuật có xu hướng quan tâm chủ đề An ninh trị tương lai gần Mỗi dãy phổ biến thông tin hữu ích hỗ trợ cho việc định có tính khoa học 84 Hình 12: Trích chọn thơng tin nhanh Hình 4.12 tính mở rộng ứng dụng giúp cho việc trích chọn thơng tin nhanh Trong menu trái giúp hiển thị nhanh danh sách đối tượng theo chủ đề quan tâm, danh sách nhóm Ngồi cịn có thêm tính tìm kiếm nhanh đối tượng qua việc nhập giá trị tìm kiếm gợi ý tìm kiếm Các danh sách trích lọc nhanh hiển thị theo dạng danh sách khối gồm thơng tin trích lọc cá nhân đối tượng Hiển thị với danh sách biểu đồ biểu diễn thơng tin đầu hệ thống 85 Việc trích chọn nhanh thông tin giúp cho việc sàng lọc lưu trữ đối tượng hiệu hơn, hệ thống diễn biến chủ đề quan tâm tạo nhìn tổng quan hon Hình 13: Trích chọn nhanh đối tượng trội Hình 4.13 tính mở rộng ứng dụng giúp trích chọn đối tượng trội dựa theo giá trị xác suất trội chủ đề quan tâm Các danh sách đối tượng thị theo dạng danh sách khối với hiệu ứng trượt để hiển thị danh sách tự động Hình 14: Menu song ngữ Anh-Việt 86 Hình 4.14 banner trang web chứa thơng tin tiêu đề chức ứng dụng Trong có mở rộng tính tự điển hỗ trợ hiển thị thông tin giao diện chế độ ngôn ngữ tiếng Anh tiếng Việt Hình 15: Danh sách lưu trữ sàng lọc Hình 4.15 nơi hiển thị lưu trữ đối tượng sàng lọc, có hỗ trợ tính xóa, sửa giúp việc lưu trữ thuận lợi 87 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT QUẢ ĐẠT ĐƯỢC 1.1 Về mặt khoa học Luận văn tiến hành phân tích, tìm hiểu quy trình khai phá liệu mạng xã hội phát xu chủ đề quan tâm cộng đồng mạng xã hội Nắm phương pháp mô hình tốn học như: - Mơ hình LDA để tìm chủ đề ẩn tập tài liệu, tài liệu tương ứng với tập nội dung trao đổi mạng xã hội - Phương pháp phân lớp tài liệu Native Bayes để phân lớp chủ đề ẩn mơ hình LDA - Phương pháp gom cụm, cụ thể thuật toán K-means, Multi-Kmeans để gom cụm người dùng mạng xã hội theo tiêu chí khác - Phương pháp khai phá luật dãy, thuật tốn tìm hiểu GSP giúp tìm dãy chủ đề phổ biến theo thời gian Ngồi ra, luận văn tìm hiểu kỹ thuật tảng khác như: Xử lí tiếng Việt, luật kết hợp thuật tốn Apriori Trình bày ví dụ cụ thể thử nghiệm thuật tốn cơng cụ sử dụng Trích dẫn đầy đủ sở lý thuyết sử dụng 1.2 Về mặt thực tiễn - Luận văn giải vần đề đặt Tìm kiếm, trích chọn thơng tin mạng xã hội theo chủ đề giúp có nhìn tổng thể, biết quan tâm khứ, đâu xu hướng thông tin đâu hướng lên tương lai gần Khai phá thông tin theo hướng chủ đề mạng xã hội giúp xếp lại thông tin theo dõi thông tin tốt - Xây dựng ứng dụng có khả phân tích sâu liệu cộng đồng mạng xã hội theo hướng chủ đề quan tâm người dùng theo thời gian Tìm diễn biến trình phát triển theo thời gian chủ đề 88 đó, chủ đề bật, thời điểm chủ đề cụ thể đạt đỉnh cao nhất, chủ đề suy giảm … - Hệ thống trích chọn thơng tin nhanh xác, giúp cho việc định cách kịp thời, khoa học Có thể nói, cơng cụ hữu ích cho việc khai thác thông tin mạng xã hội HẠN CHẾ - Hệ thống chưa kết nối truy xuất liệu trực tiếp đến sở liệu trang mạng xã hội Do cần khoảng thời gian để khai phá kho liệu - Một số công đoạn hệ thống chưa hoàn toàn tự động, vấn đề cần thời để hệ thống hoàn thiện - Số lượng chủ đề huấn luyện giới hạn, cần nhiều thời gian cho việc phát triển thêm số lượng chủ đề - Độ xác q trình tìm chủ đề chưa cao phụ thuộc nhiều vào liệu huấn luyện HƯỚNG PHÁT TRIỂN - Hoàn thiện cải tiến hệ thống thông qua việc thu nhận đánh giá phản hồi người dùng chất lượng thông tin khai thác theo hướng chủ đề - Kết nối tự động trực tiếp vào trang mạng xã hội để phân tích - Xây dựng liệu huấn luyện đa dạng phong phú đạt hiệu phân tích cao - Mơ hình LDA hướng phát triển lên mơ hình ART để tăng hiệu quả, đầy đủ khái quát cho việc thực phân tích chủ đề - Phương pháp khai phá luật dãy dựa Apriori phát triển lên phương pháp phát triển mẫu để tối ưu không gian ứng viên việc phát dãy phổ biến 89 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Lê Hòa An (2013), “Nghiên Cứu Về Hành Vi Sử Dụng Facebook Của Con Người”, Tạp chí khoa học ĐHSP TPHCM số 49 [2] Hồ Trung Thành, PGS TS Đỗ Phúc (2014), “Mơ Hình Tích Hợp Khám Phá, Phân Lớp Và Gán Nhãn Chủ Đề Tiếp Cận Theo Mơ Hình Chủ Đề”, tạp chí Khoa học Công nghệ ĐHQG-HCM (12-2014) [3] TS, Đỗ Phúc (2009), “Giáo trình khai thác liệu”, Đại học quốc gia TP HCM, Đại học CNTT [4] TS Phan Xuân Hiếu (2009), "SP 8,3- Hệ phân loại từ Việt”, Nhánh đề tài KC01,01/06-10 KH-CN cấp nhà nước [5] TS Nhâm Phong Tuân (2014), “Nghiên Cứu Ứng Dụng Mạng Xã Hội Facebook Trong Việc Đổi Mới Giảng Dạy Tại Trường Đại Học”, TCKTĐN số 68 Tiếng Anh [6] Andrew Y Ng, David M Blei and Michael I Jordan (2003), “Latent Dirichlet Allocation” [7] B Walsh (2004), “Markov Chain Monte Carlo and Gibbs Sampling” [8] Chih-Hao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm” [9] Christopher D Manning, Hinrich Schutze (1998), “Foundations Of Statistical Natural Language Processing” [10] Jiawei Han and Micheline Kamber (2006), Data Mining: Concepts and Techniques 2nd ed, University of Illinois at Urbana-Champaign [11] Lars Backstorm, Dan Hunttenlocber, Jon Kleinberg (2006) ,“Group Formation in Large Social Networks” [12] LeiTang, HuanLiu (2010), “Toward Collective Behavior Prediction via Social Dimension Extraction” 90 [13] MacQueen (1967), “Some Methods for Classification and Analysis of Multivariate Observations” [14] M.Vasudevan, M.Tamilarsi ME (2012), “Collective Behavior Prediction in Social Media: A survey” [15] Manish Gupta and Jiawei Han (2012), “Approaches for Pattern Discovery Using Sequential Data Mining” [16] R Agrawal and R Srikant (1996), “Mining Sequential Patterns” [17] T Hofmann (1999), “Probabilistic Latent Semantic Analysis” [18] Y, Zhao and G, Karypis (2002), “Criterion functions for document clustering” [19] Verma, Dr Devarshi Mehta (2014), Sequential Pattern Mining: A Comparison between GSP, SPADE and Prefix SPAN Internet [20] Wikipedia (2012), “Mạng xã hội”, [Truy cập ngày 26/03/2016] Lấy từ: URL: http://vi.wikipedia.org/wiki/Mạng_xã_hội [21] Maxreading (2016) “Đặc điểm tiếng Việt”, [Truy cập ngày 26/03/2016] Lấy từ: URL: http://www.maxreading.com/sach -hay/dai-cuong-ve-tiengviet/dac-diem-tieng-viet-29201.html 91 ... luận văn khảo sát xu thay đổi chủ đề quan tâm cộng đồng mạng xã hội Để đạt mục tiêu này, luận văn trình bày mơ hình khảo sát xu thay đổi chủ đề quan tâm theo thời gian người dùng mạng xã hội Để... chia nhỏ cộng đồng như: nhóm giới tính nam, nhóm giới tính nữ, nhóm quan tâm chủ đề A, nhóm quan tâm chủ đề B,… 13 2.3 Chủ đề quan tâm Chủ để quan tâm mạng xã hội vấn đề miêu tả quan tâm, sở thích... thay đổi chủ đề quan tâm cộng đồng mạng xã hội theo thời gian Mục đích phân chia thành nội dung sau: 4.1.1 Nội dung 1: Xác định gán nhãn chủ đề Là xác định chủ đề quan tâm, chủ đề quan tâm cá

Ngày đăng: 23/12/2018, 06:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w