Xây dựng hệ thống phân tích mạng xã hội theo chủ đề và ứng dụng vào mạng xã hội trong trường đại học = building a topic based social network analysis sytem and applying to the social network in
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 133 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
133
Dung lượng
6,45 MB
Nội dung
MỤC LỤC Tóm tắt Abstract DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ Chương 1: Tổng quan 1.1.Giới thiệu 1.2.Mục tiêu đề tài 1.3.Nội dung thực 1.4.Kết cơng bố 1.5.Đăng ký giải pháp hữu ích 1.6 Kết đào tạo 1 Chương 2:Xây dựng ontology chủ đề trao đổi trường đại học 2.1 Giới thiệu 2.2 Xây dựng từ khóa chung cho chủ đề 2.3 Phương pháp tách từ gán nhãn từ loại 2.4 Xây dựng ontology khái niệm trường đại học 10 14 15 Chương 3: Mơ hình hóa tài liệu theo chủ đề 3.1 Mơ hình tài liệu theo chủ đề 3.2 Mơ hình tài liệu theo tác giả 3.3 Mơ hình tài liệu theo tác giả- chủ đề 3.4 Kết luận Tài liệu tham khảo 20 27 28 29 29 Chương 4: Phát chủ đề trao đổi thông tin mạng xã hội 4.1 Giới thiệu 4.2 Mơ hình author-recipient-topic (ART) 4.3 Gán nhãn tự động cho chủ đề 4.4 Kết thử nghiệm đánh giá gán nhãn chủ đề 4.5 Xây dựng mơ hình TART Tài liệu tham khảo 31 32 33 35 37 45 Chương 5: Tìm người có ảnh hưởng theo chủ đề mạng xã hội 5.1 Giới thiệu 5.2 Lan truyền ảnh hưởng mạng xã hội 5.3 Lan truyền theo chủ đề 5.4.Tìm người có ảnh hưởng theo chủ đề 5.5.Kết thử nghiệm 5.6 Kết luận Tài liệu tham khảo 46 47 52 52 53 56 56 i Chương 6: Phát chủ đề yêu thích chủ đề bật mạng xã hội 6.1 Bài toán chủ đề u thích Tài liệu tham khảo 6.2 Bài tốn tìm chủ đề bật Tài liệu tham khảo 58 67 69 79 Chương 7: Phát cộng đồng mạng xã hội theo chủ đề 7.1 Giới thiệu 7.2 Khám phá cộng đồng theo thời gian 7.3 Khám phá mạng SOM 7.4 Gom cụm mạng SOM 7.5.Thử nghiệm khám phá cộng đồng theo chủ đề 7.6 Kết luận Tài liệu tham khảo 80 81 82 83 88 94 95 Chương 8: Hiện thực mạng xã hội trường học mạng xã hội ELGG 8.1 Giới thiệu 8.2 Mơ hình hệ thống mạng xã hội ELGG 8.3 Cơ sở liệu hệ thống mạng xã hội ELGG 8.4 Hiện thực mạng xã hội ELGG 8.5 Sử dụng mạng ELGG 8.6 Phân tích mạng xã hội ELGG 96 96 99 106 114 119 Chương 9: Tổng kết đề tài 126 ii TÓM TẮT Đề tài tập trung vào việc phân tích, khai phá liệu từ nội dung thông tin trao đổi mạng xã hội qua phát chủ đề trao đổi thơng tin mạng xã hội, phát phần tử trội theo chủ đề, phát cộng đồng theo chủ đề Đề tài nghiên cứu giải nội dung sau: Nội dung 1: Phân lớp chủ đề trao đổi trên mạng xã hội Mỗi chủ đề đặc trưng tập từ khóa Để giải tốn phát chủ đề thơng điệp trao đổi mạng xã hội, mơ hình LDA, Author-Recipient-Topic (ART) giải thuật gán nhãn tự động cho chủ đề sử dụng Chúng phát triển mơ hình phân tích chủ đề theo thời gian Temporal Author-RecipientTopic (TART) cho phép khám phá chủ đề actor giai đoạn Nội dung 2: Tìm kiếm phần tử gây ảnh hưởng mạng xã hội Chúng nghiên cứu xác định chuyên gia (người có ảnh hưởng lớn nhất) theo chủ đề Chúng tơi sử dụng mơ hình lan truyền, tính xác suất ảnh hưởng người dùng lên người dùng khác Từ mơ hình lan truyển xác suất ảnh hưởng, phát triển kỹ thuật nhằm xác định người có ảnh hưởng lớn theo chủ đề Nội dung 3: Phân loại node mạng xã hội Bài toán phát biểu sau: cho đồ thị mạng G có chứa hai tập K U theo K tập phần tử cá nhân G biết tính chất cần quan tâm U tập chưa biết tính chất cần quan tâm Vấn đề làm lấy thơng tin từ phần tử biết tính chất cần quan tâm K để dự báo tính chất chưa biết phần tử U Đây toán phân lớp đối tượng mạng Dựa giải thuật Fast Algorithm để gán nhãn nới lỏng dựa giải thuật phân lớp lập, phát triển giải thuật để giải tốn Bên cạnh đó, chúng tơi dùng lý thuyết lão hóa để khám phá chủ đề bật, nhiều người quan tâm mạng xã hội Nội dung 4: Phát cộng đồng qua gom cụm node mạng xã hội Mỗi actor mạng xã hội biểu diễn vector có thành phần phân bố xác suất chủ đề quan tâm actor Chúng tơi dùng mơ hình TART để tạo vector thể quan tâm actor Sau đó, chúng tơi dùng mạng SOM để phát actors có chung chủ để quan tâm Nội dung 5: Chúng xây dựng mạng xã hội triển khai chức phân tích mạng xã hội xây dựng ABSTRACT In this project, we focus on the analysis of the information content exchanging on social networks and discover the topics of exchange information, find the key elements and community of topics We have studied the following contents: Contents #1: Classify topics of the exchange information on social network Each topic is represented by a set of keywords To solve the problem of detecting the topics of messages exchanged on social networks, we selected a combination of tools to extract terms, model of social network analysis such as LDA, Author - Recipient Topic (ART) and automatic topic labeling We have developed the model named Temporal Author-Recipient-Topic (TART), this model can discover the topics of actor over time period Content #2: Find the most influential users in social network We use the propagation model, calculate the user's influence probabilities to anther users For the propagation model and influence probabilities, we have developed the method to find the most influential users in social network Content #3: Classify nodes in social networks The problem is stated as follows: given a network graph G with two sets K and U, K is the set of elements of actors with known characteristics and U is the set of actors with unknown characteristics The problem is how we can get information from the elements with known characteristics in K to predict the characteristics of unknown elements in U This is the problem of object classification We based on Fast Algorithm for relaxation labeling and iterative classification algorithm, we develop algorithm to solve the problem Besides, we use the aging theory to discover hot topics on social network These topics are interesting for many actors on social networks Content #4: Detecting the communities through the cluster on social networks Each actor in the social network is represented by a vector with component is the probability distribution of the preferred topics of that actor We use the TART model to produce vector expressing preference of actors Then, we use the SOM network to detect the clusters of actors with the common interest Content #5: We built a social networking and implemented the topic based social network analysis functions DANH MỤC BẢNG Bảng 2.1 Kết bước cải tiến tiền xử lý liệu 15 Bảng 4.1: Kết phân loại chủ đề so với thực tế 2000 viết 35 Bảng 4.2 Quá trình thực phân lớp gán nhãn phương pháp SVM 36 Bảng 4.3 Danh sách chủ đề gán nhãn 37 Bảng 4.4 Giải thích ký hiệu sử dụng mơ hình TART 38 Bảng 4.5 Kết khám phá gán nhãn chủ đề 42 Bảng 4.6 Kết phân tích chủ đề “hoạt động đồn hội” 42 Bảng 4.7 Kết phân tích chủ đề “quản lý đào tạo” 43 Bảng 4.8 Kết phân tích chủ đề “tuyển dụng việc làm” 44 Bảng 5.1 Ma trận văn bản-tác giả-người nhận-thời gian 54 Bảng 5.2 Phân bố từ theo chủ đề 54 Bảng 5.3 Phân bố thông điệp theo chủ đề 54 Bảng 5.4 Phân bố thông điệp theo hành động chủ đề 55 Bảng 5.5 Xác suất ảnh hưởng theo hành động chủ đề 55 Bảng 5.6 Nhóm người dùng ảnh hưởng cho chủ đề (các loại hợp đồng) 56 Bảng 6.1 Năm chủ đề nhiều tác giả yêu thích 62 Bảng 6.2 Ma trận thể hỗn độn 63 Bảng 6.3 So sánh kết dự báo kết gốc chủ đề “K0003” 63 Bảng 6.4: Kết thử nghiệm cho chủ đề “K0003” với ngưỡng khác 64 Bảng 6.5: Kết thử nghiệm cho chủ đề “K0004” với ngưỡng khác 64 Bảng 6.6: Kết thử nghiệm cho chủ đề “K0019” với ngưỡng khác 65 Bảng 6.7 Mức độ trung bình cho chủ đề 66 Bảng 6.8 : Kết phân loại dựa 2.000 viết 78 Bảng 6.9 So sánh tổng quan cải tiến mà đề tài thực 78 Bảng 7.1 Ma trận phân bố từ chủ đề (TxV) 89 Bảng 7.2 Ma trận phân bố chủ đề theo tác giả (AxT) 89 Bảng 7.3 Ma trận phân bố chủ đề theo người nhận (RxT) 89 Bảng 7.4 Ma trận phân bố chủ đề theo thời gian (TxT) 89 Bảng 7.5 Vector quan tâm chủ đề người dùng 90 Bảng 7.6 Vector quan tâm chủ đề người dùng 90 Bảng 7.7 Tập liệu vector chủ đề quan tâm người dùng tháng 12- 91 2008 Bảng 7.8 Tập liệu vector chủ đề quan tâm người dùng tháng 01- 91 2009 Bảng 7.9 Độ đo F-cho tập Triple (hàm rời rạc) 94 DANH MỤC HÌNH VẼ Hình 2.1 Cấu trúc chủ đề sinh viên quan tâm trường đại học Hình 2.2 Các từ khóa cho chủ đề học tập 10 Hình 2.3 Các từ khóa cho chủ đề thực tập việc làm 11 Hình 2.4 Các từ khóa cho chủ đề hoạt động 12 Hình 2.5 Các từ khóa cho chủ đề tình cảm 12 Hình 2.6 Các từ khóa cho chủ đề đời sống xã hội 13 Hình 2.7 Qui trình phát triển ontology 16 Hình 2.8 Các phân lớp 17 Hình 2.9 Mẫu ví dụ thực thể giảng viên thuộc lớp người 17 Hình 2.10 Mơ hình xây dựng ontology lĩnh vực giáo dục đại học 18 Hình 2.11 Một phần ontology giáo dục đại học cài đặt quản lý 19 phần mềm Protégé Hình 3.1 Minh họa lý bệnh đau lưng mạng Bayes 21 Hình 3.2 Ví dụ hoạt động mơ hình LDA 22 Hình 3.3 Mơ hình Latent Dirichlet Allocation 24 Hình 3.4 Mơ hình tài liệu theo tác giả 27 Hình 3.5 Mơ hình tác giả – chủ đề 29 Hình 4.1 Mơ hình sinh ART 33 Hình 4.2 Mơ hình tổng qt hệ thống khám phá chủ đề phân lớp 34 Hình 4.3 Biểu đồ thể kết phân loại chủ đề 2000 viết 36 Hình 4.4 Mơ hình sinh TART 38 Hình 4.5 Mơ hình tổng qt thực mơn hình TART phân tích thay 40 đổi mối quan tâm chủ đề người dùng mạng thay đổi theo thời gian Hình 5.1 Q trình tính xác suất ảnh hưởng từ tập tin action log mạng 47 xã hội Hình 5.2 Mơ hình tính xác suất ảnh hưởng 48 Hình 5.3 Mơ hình hệ thống đề xuất 53 Hình 6.1 Ví dụ mạng đồng tác giả 59 Hình 6.2 Các quan hệ tác giả 60 Hình 6.3 Phương trình đường cong ROC cho chủ đề “K0003” 65 Hình 6.4 Phương trình đường cong ROC cho chủ đề “K0004” 65 Hình 6.5 Phương trình đường cong ROC cho chủ đề “K0019” 66 Hình 6.6 : Mô tả kết phát chủ đề bật 76 Hình 6.7 : Mơ tả kết phát chủ đề bật theo thời gian thực 77 Hình 7.1 Mơ hình khám phá cộng đồng người dùng theo chủ đề phân tích 82 xu thay đổi chủ đề quan tâm yêu thích người dùng Hình 7.2 Cấu trúc SOM 83 Hình 7.3 Cập nhật neuron chiến thắng neuron lân cận vùng 86 vector nhập đánh dấu x Những đường liền đậm đường chấm tương đương với trước sau cập nhật neuron chiến thắng Hình 7.4 Khám phá cộng đồng áp dụng phương pháp mạng Kohonen 88 Hình 7.5 Kết khám phá cộng động hiển thị tập neurons lớp 92 Kohonen Hình 7.6 Kết khám phá cộng đồng lớp Kohonen khoảng 92 thời gian năm từ 12-2008 đến 01-2010 với 100 neurons lớp Hình 7 Độ đo F với hàm tôpô tương ứng 94 CHƯƠNG TỒNG QUAN Chương trình bày tổng quan đề tài nghiên cứu kết thực 1.1 GIỚI THIỆU Các nghiên cứu kết hợp phân tích cấu trúc mạng xử lý ngôn ngữ tự nhiên hướng phân tích mạng xã hội Hiện thơng tin trao đổi mạng xã hội phong phú Do nhu cầu phân tích, khai phá liệu từ nội dung thông tin trao đổi mạng xã hội qua phát chủ đề trao đổi, phát phần tử chủ đề bật, phát chuyên gia, phát cộng đồng theo chủ đề vấn đề cấp thiết Các nghiên cứu xử lý văn tiếng Việt biểu diễn văn tiếng Việt, phân lớp văn bản, gom cụm văn vận dụng vào tốn phân tích nội dung thông tin trao đổi mạng xã hội Việc tích hợp xử lý ngơn ngữ tự nhiên vào phân tích mạng xã hội mở khả nắm bắt chủ đề trao đổi, phần tử trội theo chủ đề, gom cụm theo chủ đề… từ nắm thơng tin trao đổi mạng xã hội, phân tử trội lan truyền thông tin theo chủ đề, cộng đồng quan tâm đến chủ đề Đây toán hữu ích tiếp thị, kinh doanh, quản lý qua mạng xã hội 1.2 MỤC TIÊU CỦA ĐỀ TÀI Nghiên cứu, phát triển kỹ thuật dựa học máy xử lý ngôn ngữ tự nhiên để: - Phát chủ đề trao đổi thông điệp mạng xã hội Tìm kiếm phần tử có nhiều ảnh hưởng mạng xã hội qua chủ đề trao đổi Phân loại chủ đề yêu thích, chủ đề bật mạng xã hội Phát cộng đồng mạng xã hội dựa thông tin trao đổi theo thời gian Xây dụng mạng xã hội trường học phân tích mạng xã hội 1.3 NỘI DUNG ĐÃ THỰC HIỆN 1.3.1 Nội dung 1: Phát chủ đề trao đổi trên mạng xã hội Hiện mạng xã hội, cá nhân (actor) thường trao đổi thông tin qua thơng điệp Vấn đề đặt tìm chủ đề trao đổi cá nhân mạng xã hội Mỗi chủ đề tập khái niệm có liên quan đến vấn đề Chúng tơi dùng mơ hình Topic Modeling, chủ đề đặc trưng tập từ khóa kèm xác suất xuất từ khóa chủ đề Để giải tốn phát chủ đề thông điệp trao đổi mạng xã hội, chúng tơi sử dụng mơ hình Latent Dirichlet Allocation (LDA), mơ hình AuthorRecipient-Topic (ART) giải thuật gán nhãn chủ đề phương pháp SVM Để gán nhãn chủ đề tiềm ẩn thông điệp trao đổi, xây dựng ontology chủ đề trường đại học phục vụ cho việc gán nhãn chủ đề Do chủ đề thay đổi theo thời gian, chúng tơi phát triển mơ hình phân tích chủ đề theo thời gian đặt tên TART (Temporal Author Recipient) Kết thực nội dung trình bày chương báo cáo Các kết nghiên cứu nội dung công bố báo khoa học sau: Ho Trung Thanh, Do Phuc (2015), Analyzing Users’ Interests with the Temporal Factor Based on Topic Modeling, In the Proceedings of ACIIDS conference 2014, March 23-25, Bali, Indonesia, pp 106-115, ISBN 978-331915704-7 Hồ Trung Thành, Đỗ Phúc (2014), Mơ hình tích hợp khám phá, phân lớp gán nhãn tiếp cận theo mơ hình chủ đề, Tạp chí Phát triển Khoa học-Công nghệ tập 7, số K4-2014, tr 73-85, ISSN 1859-0128 Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt lĩnh vực giáo dục đại học, Tạp chí khoa học cơng nghệ, Viện Hàn Lâm Khoa học Công nghệ Việt Nam, Tập 52, Số 1B, tr 89-100, ISSN 0866 708X Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based on Topic Modeling, IEEE RIVF, Hanoi, Vietnam, pp 119-122, ISBN 978-14799-1350-3 1.3.2 Nội dung 2:Tìm kiếm người có ảnh hưởng mạng xã hội Tốc độ phát triển Internet giúp người tiếp cận thông tin giới cách nhanh chóng Tuy nhiên, với khối lượng thơng tin khổng lồ không ngừng phát triển, xuất nhiều cơng cụ hỗ trợ tìm kiếm hữu hiệu Google, Bing, Yahoo!Search Các công cụ phần đáp ứng yêu cầu người dùng kết trả không phù hợp với mong muốn Ví dụ, gõ từ khóa “Data Mining” khơng mong muốn tìm tài liệu có chứa từ mà cịn muốn tìm chủ đề có liên quan lĩnh vực Vấn đề tiếp theo, sau tìm chủ đề liên quan, xác định chuyên gia (người có ảnh hưởng lớn nhất) theo chủ đề Nhằm mục đích xây dựng cơng cụ hỗ trợ học tập, nghiên cứu cơng trình khoa học chuyên gia hàng đầu, sử dụng mơ hình ACT để khám phá chủ đề mơ hình TAP để phân tích tầm ảnh Site name: Tên website (ta nhập tùy ý, ví dụ UIT Social network) Site email Address: duythanhcse@gmail.com Site URL: http://localhost:8081/elgg/ Data Directory: Đây thư mục quan trọng phép User tải liệu lên Server (hình ảnh, tập tin…) ta đặt tên data cấp full quyền Default Site Access: ta để Public Sau ta cung cấp thông tin bấm Next để qua bước Bước 5: Tạo tài khoản quản trị hệ thống 111 Ở bước cấu hình tài khoản quản trị hệ thống Display name: Cung cấp thông tin hiển thị hệ thống Email Address: duythanhcse@gmail.com User name: duythanhcse Password password again ta cần nhập giống phải có chiều dài ký tự Bấm Next để tiến hành cấu hình tạo tài khoản quản trị, hệ thống tiến hành tạo sau qua bước Bước 6: Bước kết thúc trình cài đặt 112 Đến ta thành công, bấm Go to Site để chạy tới website ta vừa cấu hình thành cơng (giao diện tương tự sau): 113 8.5 SỬ DỤNG MẠNG ELGG Mạng giáo dục Elgg hệ thống hoàn chỉnh, với nhiều tính Với mục tiêu đề án chúng tơi trình bày chức sau: Đăng ký/đăng nhập tài khoản tham gia mạng giáo dục Để đăng ký/đăng nhập tài khoản tham gia mạng giáo dục elgg, từ trang chủ ta vào mục Login hình đây: Nếu có tài khoản mạng giáo dục nhập thơng tin bấm Log in, cịn chưa có tài khoản đăng nhập nhấn nút Register, hệ thống xuất hình chi tiết đăng nhập: Sau nhập thông tin đầy đủ hình trên, nhấn nút Register để đăng ký tài khoản, lúc ta tham gia mạng giáo dục Tạo User Profile cho actor 114 Hệ thống mạng giáo dục ELGG cho phép người sử dụng chỉnh sửa Profile, cập nhật thông tin liên quan sau đăng nhập thành công Sau đăng nhập, để tạo User Profile, ta vào mục Setting hệ thống hiển thị hình User Profile sau: Ở hình Setting trên, người sử dụng tồn quyền thay đổi thông tin như: Blogs (các đăng user diễn đàn), Bookmarks (các đánh dấu ghi nhớ nhanh), Files (các tập tin), Pages (các trang diễn đàn), Profile (Thay đổi thông tin Profile), Notifications (các thông báo)… Tạo nhóm kết nối bạn bè Để tạo nhóm tham gia học tập kết nối nhóm, sau đăng nhập ta vào mục Groups, hệ thống liệt kê danh sách nhóm tạo trước đó: Để tạo nhóm ta bấm vào “Create new group”, hệ thống hiển thị hình chi tiết q trình tạo nhóm mời bạn bè tham gia nhóm: 115 Màn hình cho phép tạo nhóm, sửa nhóm mời bạn bè tham gia (Invite friends): Màn hình cho phép mời bạn bè tham gia nhóm học: Chọn danh sách bạn bè muốn mời nhấn Invite để mời Để tạo mối quan hệ bạn bè với thành viên mạng giáo dụ, hệ thống cho phép tìm kiếm mời kết bạn (chọn Add Friend hình đây): Để xem danh sách bạn bè kết nối, hệ thống mạng giáo dục Elgg cung cấp chức đầy đủ sau (bấm vào biểu tượng vòng tròn bạn bè, mục bên phải hình cho phép tùy chọn xem thông tin): 116 Tạo Blogger Để tạo Blogs, hệ thống cho phép tạo cách vào mục Blogs/chọn Add Blog Post: Ở hình trên, hệ thống liệt kê Blog xếp giảm dần theo thời gian giúp người tham gia diễn đàn dễ đọc thông tin, nhấn add blog post để tạo mới: 117 Nhập liệu nhấn Save để chấp nhận tạo Blog, kết quả: Xem thông điệp trao đổi Actor Hệ thống cho phép xem thông điệp trao đổi tương tác mạng như: Xem tin, bàn luận (comment), thích (like)…: 118 Đây thông tin quan trọng mà đề án sử dụng: Những mối quan tâm Actor mạng, mối quan hệ actor… 8.6 PHÂN TÍCH MẠNG XÃ HỘI ELGG 8.6.1.Trích lọc liệu từ hệ thống mạng xã hội Hệ thống cung cấp chức truy suất liệu từ mạng giáo dục Elgg, ứng với tài khoản tham gia mạng giáo dục có danh sách đăng, bình luận, quan tâm…: Dữ liệu xử lý (từ dừng, từ vô nghĩa, link …) làm đưa vào hệ thống, từ lấy phân tích chủ đề trao đổi Mạng giáo dục Elgg lưu trữ mối quan hệ thành viên (friend hay followings, followers), hệ thống cung cấp chức trích lọc mối quan hệ: 119 Dữ liệu q trình phân tích sử dụng mơ hình ART, TART để tìm vector đặc trưng u thích, từ hỗ trợ cho việc gom cụm cộng đồng: 8.6.2.Gom cụm thông điệp trao đổi Từ kết đạt (Ma trận Vector chủ đề yêu thích) ta tiến hành dùng giải thuật KMeans, Khonen để thực thi gom cụm Chúng thử nghiệm với k=2, k=3, k=4, k=5, k=6, , k=10… để có sở so sánh tương quan kết gom cụm Hệ thống sử dụng kỹ thuật đa tiến trình để thực trình gom cụm, giúp cho phần mềm chạy mượt mà ta làm cơng việc khác hệ thống bận gom cụm Ngoài hệ thống cịn trình diễn cộng đồng mạng giúp ta dễ nhận dạng cụm: 120 Mỗi cụm phân biệt màu khác nhau, tài khoản có mối quan hệ bạn bè nối với Cụm có đặc điểm node cố gắng tập trung xung quanh node trung tâm Trong hình minh họa ta có cụm với tài khoản có tầm ảnh hưởng nhất: Vũ Hồng Qn, Hồng Bảo Duy, Vũ Phương, Trần Anh Tuấn vẽ hình lớn Hệ thống cung cấp gom cụm theo dạng lưới để dễ thống kê: Sau gom cụm thành công, hệ thống cung cấp chức thống kê số người theo cụm, thống kê phân bố chủ đề theo cụm: 121 8.6.3 Phân tích chủ đề theo mơ hình TART Hệ thống đồng thời cung cấp phân tích liệu theo mơ hình TART đề tìm phân bố chủ đề theo thời gian: Kết từ mơ hình TART tạo Vector đầu vào cho giải thuật gom cụm Kohonen: 122 8.6.4 Phát cộng đồng actor theo chủ đề mạng Kohonen Ứng với Noron mạng Kohonen, hệ thống cung cấp chức thống kê số người mạng, chủ đề quan tâm Noron: Việc sử dụng hai giải thuật gom cụm K-Means mạng Kohonen giúp cho hệ thống có thêm phép so sánh kết gom cụm, từ có giải pháp tối ưu cho cụm 123 CHƯƠNG TỔNG KẾT ĐỀ TÀI Đề tài hoàn thành mục tiêu đề nghiên cứu, đào tạo, triển khai ứng dụng nội dung đăng ký Dựa việc phân tích mơ hình xử lý thơng điệp mơ hình LDA, ART chúng tơi phát triển mơ hình TART cho phép phép phân tích chủ đề theo thời gian gán nhãn chủ đề theo chủ đề ontology khái niệm trường đại học Chúng phát triển mô hình SOM cho phép khám phá cộng đồng actor theo chủ đề mạng xã hội Các thông điệp đưa vào mơ hình thơng điệp tiếng Việt chúng tơi tiền xử lý, sau sử dụng công cụ tách từ, gán nhãn từ loại tiếng Việt thơng dụng Bên cạnh đó, chúng tơi nghiên cứu tốn tìm chủ đề u thích chủ đề bật dựa việc cải tiến giải thuật truyền thống áp dụng lý thuyết lão hóa Chúng tơi phát triển phương pháp tìm người có ảnh hưởng lớn dựa mơ hình lan truyền xác suất ảnh hưởng qua thời gian phúc đáp thông điệp cá nhân mạng xã hội Chúng nghiên cứu thực chức phân tích mạng xã hội theo chủ đề vào mạng xã hội trường đại học dựa phần mềm tạo mạng xã hội ELGG Về công bố khoa học, công bố 03 báo khoa học tạp chí quốc tế, 04 báo khoa học tạp chí nước, 04 báo khoa học kỷ yếu hội thảo quốc tế tổ chức nước thuộc hệ thống Springer, IEEE Tổng số công bố 11 báo khoa học vượt tiêu đăng ký báo khoa học Chúng xây dựng mạng xã hội trường học dựa hệ phần mềm mã nguồn mở ELGG hệ phần mềm phân tích mạng xã hội Bên cạnh thơng qua đề tài đào tạo 01 nghiên cứu sinh thực luận án tiến sĩ chuẩn bị bảo vệ, 06 thạc sĩ bảo vệ thành công luận văn thạc sĩ, 06 kỹ sư bảo vệ thành công khóa luận tốt nghiệp đại học Chúng tơi tiến hành đăng ký giải pháp hữu ích Sau hồn tất đề tài, chúng tơi nhận thấy, tiếp tục nghiên cứu đề tài theo hướng sau: - Sử dụng mơ hình tính tốn mạnh để phát triển mơ hình LDA cho trường hợp tập liệu thông điệp lớn Một tiếp cận mà chúng tơi dự định tiếp tục nghiên cứu mơ hình tính tốn đám mây với cơng nghệ Map Reduce Hadoop 124 - Xử lý sâu thông điệp tiếng Việt với ngôn ngữ đặc thù mạng xã hội Các thông điệp trộn lẫn nhiều thứ tiếng, tính ngữ nghĩa mơ hình LDA - Dựa chủ đề phát hiện, sâu vào việc phân tích cảm xúc thông điệp theo chủ đề phát - Tiếp tục phát triển chức phân tích mạng xã hội theo nội dung, kết hợp phân tích nội dung với cấu trúc mạng xã hội Trong có tốn truy vết thơng tin, khám phá cộng đồng dựa nội dung trao đổi liên kết mạng xã hội, dự báo hành vi actor mạng xã hội, ứng dụng mạng xã hội việc phân tích, định dựa thông tin trao đổi, 125 ... a combination of tools to extract terms, model of social network analysis such as LDA, Author - Recipient Topic (ART) and automatic topic labeling We have developed the model named Temporal Author-Recipient -Topic. .. hot topics on social network These topics are interesting for many actors on social networks Content #4: Detecting the communities through the cluster on social networks Each actor in the social. .. Sampling in the generative model of Latent Dirichlet Allocation [13] William M Darling (2011), A Theoretical and Practical implementation Tutorial on Topic Modeling and Gibbs Sampling [14] Xiaojin