Trong bài báo này, chúng tôi đề xuất mô hình mới khám phá cộng đồng người dùng trên mạng xã hội dựa theo mô hình chủ đề kết hợp phương pháp mạng Kohonen.Trong đó mô hình đề xuất tập trung khám phá cộng đồng mạng xã hội và phân tích sự thay đổi chủ đề quan tâm của người dùng trong lĩnh vực giáo dục trên mạng xã hội theo từng giai đoạn thời gian.
TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 Một mơ hình khám phá cộng đồng người dùng mạng xã hội Hồ Trung Thành Đỗ Phúc Khoa Hệ thống thông tin, Trường Đại học Kinh tế - Luật, ĐHQG-HCM, thanhht@uel.edu.vn Trường Đại Học Công Nghệ Thông Tin, ĐHQG-HCM, phucdo@uit.edu.vn (Bản nhận ngày 13 tháng 04 năm 2015, hoàn chỉnh sửa chữa ngày 08 tháng 04 năm 2016) TÓM TẮT Xu phát triển công nghệ ngày nội dung trao đổi biết cộng đồng xuất nhiều loại hình truyền thơng mạng xã người dùng có hành vi thể hội dẫn đến thay đổi hành vi người nội dung chủ đề mà người dùng quan tâm trao xã hội hình thành cộng đồng trực đổi thông điệp Trong báo này, tuyến Hành vi người thay đổi dẫn đến nhiều đề xuất mơ hình khám phá cộng hình thức kinh doanh, tiếp thị, dịch vụ kể đồng người dùng mạng xã hội dựa theo mô lĩnh vực giáo dục, an ninh, trị hình chủ đề kết hợp phương pháp mạng thay đổi theo từ cách tiếp cận việc quản Kohonen.Trong mơ hình đề xuất tập trung lý người dùng Cộng đồng người dùng mạng xã khám phá cộng đồng mạng xã hội phân tích hội ảnh hưởng chi phối hành vi, thói quen thay đổi chủ đề quan tâm người dùng người dùng tham gia vào cộng đồng Chính lĩnh vực giáo dục mạng xã hội theo giai vậy, khám phá cộng đồng mạng xã hội từ nhiều đoạn thời gian nguồn liệu khác thơng qua việc phân tích Từ khóa: chủ đề, mơ hình chủ đề, khám phá cộng đồng, phân tích thay đổi, mạng Kohonen, TART GIỚI THIỆU Cộng đồng tập thể sống làm việc môi trường [2][8][15][23] [24] Cộng đồng mạng xã hội tập hợp cá nhân tương tác thông qua phương tiện truyền thơng cụ thể, có khả vượt qua ranh giới địa lý trị để theo đuổi lợi ích hay mục tiêu chung Một loại hình cộng đồng ảo phổ biến cộng đồng mạng xã hội.Trong phạm vi nghiên cứu này, đề cập đến cộng đồng người sử dụng mạng xã hội Hình Cộng đồng mạng xã hội1 Có thể định nghĩa, cộng đồng nhóm người dùng mạng xã hội có tương tác http://treeintelligence.com/en/influence-and-viralization-networks/ Trang 81 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 thường quan tâm đến chủ đề thảo luận nhóm nhóm khác [11][14] [23] Trong nghiên cứu này, tập hợp cộng đồng mạng ký hiệu C cộng đồng xét ký hiệu c, ∈ Xác suất điều kiện cộng đồng người dùng biểu thị cho mức độ tham gia, quan tâm chủ đề người dùng cộng đồng [23] Cụ thể, p(c|u) xác suất cộng đồng c có chứa người dùng u[2] (xem cơng thức (1)) Như vậy, người dùng u thuộc hay nhiều cộng đồng (1) ( | )=1 ∈ Chủ đề quan tâm người dùng thường thay đổi, điều dẫn đến cộng đồng mạng xã hội thường thay đổi theo Việc chi phối dẫn đến thay đổi cộng đồng mạng có ngun nhân chính: (1) hình thành hay thay đổi từ nhóm bạn bè biết trước kết bạn mạng thông qua giới thiệu bạn bè kết bạn; (2) thơng qua sở thích người dùng mạng kết bạn với quan tâm đến chủ đề dựa nội dung thông điệp mà người dùng quan tâm trao đổi Như vậy, mối quan hệ cộng đồng mạng thông qua sở thích xem mạng lưới với liên kết thành viên mối quan hệ thể mạng xã hội [1][2][3][9][10] Bởi thơng tin nội dung thuộc tính thành viên mạng xã hội Những nội dung thông tin tồn dạng văn bản, hình ảnh, Cùng cộng đồng mạng quan tâm trao đổi nhiều chủ đề giai đoạn thời gian chủ đề có nhiều cộng đồng quan tâm trao đổi Nhiệm vụ nghiên cứu đặt làm để khám phá nhằm tìm cộng đồng mạng quan tâm đến chủ đề thông qua nội dung thông điệp trao đổi tập người dùng cộng Trang 82 đồng chủ đề cụ thể có cộng đồng quan tâm trao đổi? Một thách thức đặt cộng đồng mạng thường xuyên thay đổi thành phần mạng theo thời gian, chẳng hạn như: thay đổi số thành viên công đồng, chủ đề mà cộng đồng quan tâm trao đổi, Chính vậy, thành phần thay đổi cộng đồng mạng thường liên quan đến hay nhiều chủ đề mà cộng đồng mạng quan tâm, số lượng thành viên tham gia cộng đồng, mức độ quan tâm đến chủ đề thời điểm, đặc biệt thay đổi cộng đồng mạng ảnh hưởng nhiều vào hành vi, quan tâm trao đổi thành viên cộng đồng Điều thu hút nhiều nhà nghiên cứu quan tâm nhằm phân tích truy vết thơng tin lan truyền để tìm nguồn gốc thơng tin người đăng (gửi) [11][30] hay tìm ảnh hưởng người hay chủ đề quan trọng để phục vụ cho chiến lược phát triển quản lý cộng đồng người dùng mạng xã hội công ty, tổ chức hay quốc gia; hiểu người dùng để thực chiến lược marketing hiệu quả, quảng bá ngành nghề môi trường đào tạo lĩnh vực giáo dục, Để khám phá cộng đồng người dùng theo chủ đề theo giai đoạn thời gian, nghiên cứu chúng tơi tiếp cận theo mơ hình chủ đề nhằm khai thác khả phân tích nội dung tìm chủ đề nội dung thơng điệp với tập từ đặc trưng cho chủ đề [4][5][10][27][28] tiếp tục khai thác hiệu mơ hình TART khám phá cộng đồng theo chủ đề quan tâm người dùng có yếu tố thời gian đề xuất giới thiệu nghiên cứu [16] Bên cạnh việc khai thác hiệu mơ hình TART, nghiên cứu chúng tơi đề xuất mơ hình khám phá cộng đồng người dùng mạng xã hội phương pháp huấn luyện mạng Kohonen [17][27] kết hợp với mơ hình TART Tiếp sau đó, chúng tơi tập trung phân tích thay TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 đổi chủ đề thành viên cộng đồng theo giai đoạn thời gian [3] đề xuất ba thành phần C, U, T mơ hình Các phần báo: phần trình bày nghiên cứu liên quan, phần trình bày mơ hình đề xuất khám phá cộng đồng người dùng mạng xã hội vàkhảo sát thay đổi chủ đề quan tâm người dùng cộng đồng theo giai đoạn thời gian, phần trình bày thử nghiệm kết quả, phần kết luận, hướng phát triển cuối tài liệu tham khảo Mục đích hai mơ hình rút trích cộng đồng người dùng theo chủ đề dựa liệu, trao đổi mạng xã hội Mơ hình dựa mạng Bayesian Gibb sampling Tuy nhiên, độ phức tạp Gibb sampling, nên nhóm tác giả đề xuất ý tưởng đưa Gibb sampling kết hợp với việc lọc entropy để lưu vết trình thực lấy mẫu lọc từ, từ giúp cho q trình thực mơ hình khơng cần quan tâm đến từ xét đến từ khơng có nghĩa CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Mơ hình Group-Topic (GT) Mơ hình GT [1] quan tâm đến phương pháp gom nhóm người dùng theo chủ đề dựa thuộc tính nội dung trao đổi thành viên mạng Áp dụng mơ hình chủ đề với yếu tố bổ sung nhóm (group) với phương pháp học khơng giám sát, mơ hình GT xem thành viên có mối quan hệ với thành viên khác mạng thành viên có hành vi kiện liên kết nội dung văn với kiện Hơn nữa, mơ hình GT cho kiện tương ứng với chủ đề T Chính vậy, nhóm thành viên cấu trúc mạng (hay nhóm thành viên) không tồn lâu mà thay đổi chủ đề khác kiện khác [1] Nghiên cứu chi tiết mơ hình GT đề xuất phương pháp khám phá nhóm thành viên mạng theo chủ đề tiếp cận theo phương pháp mạng Bayesian 2.2 Mơ hình Community-User-Topic (CUT) Trong nghiên cứu [3], nhóm tác giả giới thiệu mơ hình CUT (C công đồng – U người dùng – T chủ đề), tập trung nghiên cứu đề xuất phương pháp khám phá cộng đồng dựa nội dung trao đổi [3] đề xuất hai mơ hình thuộc CUT CUT1 CUT2 Mơ hình CUT1 CUT2 khác biệt vị trí tham số z αdi Kết hợp phương pháp mơ hình xác suất khám phá cộng đồng, nhóm tác giả 2.3 Mơ hình Community-Author-RecipientTopic (CART) Trong nghiên cứu [2], nhóm tác giả giới thiệu mơ hình CART (Cộng đồng – Tác giả Người nhận - Chủ đề), mô hình thử nghiệm hệ thống liệu Enron email Mơ hình rằng, thảo luận, trao đổi thành viên phạm vi cộng đồng có liên quan đến thành viên khác cộng đồng Mơ hình ràng buộc tất thành viên có liên quan chủ đề thảo luận email thuộc cộng đồng, thành viên giống chủ đề khác gắn với cộng đồng khác So sánh với mơ hình bao gồm CUT, mơ hình CART lập luận chặt chẽ để nhấn mạnh cách mà chủ đề mối quan hệ ảnh hưởng đến cấu trúc cộng đồng mạng vấn đề khám phá công đồng mạng theo chủ đề Mơ hình CART [2] cố gắng nghiên cứu khám phá cộng đồng kết hợp nghiên cứu dựa nội dung thông điệp mà thành viên cộng đồng mạng trao đổi Mơ hình CART gồm thành phần C, A, R T Trong đó, C cộng đồng người dùng, R người nhận thông điệp, A người gửi thông điệp, Z chủ đề, W từ thuộc chủ đề Z (hình 2) [2] Trang 83 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 Hình Mơ hình CART [2] Mơ hình CART thực theo bước sau đây: Sinh liệu email ed, cộng đồng cd chọn ngẫu nhiên Dựa cộng đồng cd, người gửi ad tập người nhận chọn Sinh từ , liệu email, người nhận , chọn theo cách ngẫu nhiên từ tập người nhận Dựa cộng đồng cd, người gửi ad người nhận , chủ đề , chọn Từ , chọn dựa chủ đề , Kỹ thuật Gibb sampling cho mơ hình CART sau: ( , , , , ) , | ) = ( ) (, ( | ) , , ∈ ( , | , , , ) (2) Trong đó, tập quan sát người nhận R, tập người nhận cần tìm (chọn từ ) and chủ đề tiềm ẩn thứ i tương ứng với từ thứ i , liệu d, Nd tập từ liệu 2.4 Nhận định động nghiên cứu Trong nghiên cứu giới thiệu, nghiên cứu [1][2][3][13] trình bày số nghiên cứu khác [6][7][24][25][26] đạt hiệu trình khám phá cộng đồng mạng dựa phân tích nội dung thơng điệp Tuy nhiên, nghiên cứu chưa quan tâm nhiều Trang 84 đến yếu tố thời gian chưa quan tâm đến việc phân tích thay đổi chủ đề quan tâm người dùng thuộc cộng đồng theo thời gian Bởi vì, thay đổi chủ đề quan tâm người dùng mạng ảnh hưởng đến thay đổi chủ đề quan tâm cộng đồng thay đổi thành phần cộng đồng mạng, chẳng hạn khu vực địa lý hình thành cộng đồng, số thành viên tham gia, thời gian chủ đề mà cộng đồng quan tâm trao đổi Bên cạnh đó, vấn đề phân tích phân bố chủ đề cộng đồng mạng theo thời gian, phân bố chủ đề quan tâm cộng đồng, với chủ đề quan tâm nhiều người dùng thay đổi sao, điều chưa nghiên cứu quan tâm Hơn nữa, nghiên cứu chủ yếu tập trung khám phá cộng đồng mạng tập ngữ liệu văn tiếng Anh, việc khai thác tập ngữ liệu văn tiếng Viết có nhiều khó khăn đặc biệt hệ thống Tree Bank tiếng Việt chưa bao quát hết hệ thống từ tiếng Việt, từ ghép, từ đa nghĩa, MƠ HÌNH KHÁM PHÁ CỘNG ĐỒNG 3.1 Mạng Kohonen Mạng Kohonen GS Teuvo Kohonen phát triển vào năm 1980 [17][27] ứng dụng vào toán gom cụm phẳng Mạng Kohonen hay gọi phương pháp mạng SOM (Self-Oganizing Maps) biết đến cho việc gom cụm liệu mà không cần định trước số cụm điều hồn tồn phù hợp xác định trước số cộng đồng (số cụm) mạng xã hội mà số cộng đồng phụ thuộc vào q trình phân tích chủ đề quan tâm đề xuất sau q trình học liệu, ngồi mạng Kohonen có khả biểu diễn trực quan khối văn hình máy tính thơng qua lớp Kohonen 2D [12][19][20][22] Xác định phù hợp thơng qua nhiều khảo sát cơng trình nghiên cứu liên quan, áp dụng phương pháp giải thuật gom cụm để khám phá cộng đồng mạng theo chủ đề, chúng tơi chọn TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SOÁ K2- 2016 phương pháp mạng Kohonen cho hướng nghiên cứu Mạng Kohonen gom cụm liệu mà không cần định trước số cụm (tương quan cụm liệu nghiên cứu cộng đồng mạng theo chủ đề, tập ngữ liệu thông điệp vô lớn, đa chiều cộng đồng mạng lớn nên việc xác định trước số cụm - cộng đồng mạng vơ khó khăn)[12][21][22][25] Ngồi ra, mạng Kohonen có khả biểu diễn trực quan khối văn bản, chủ đề thông qua lớp Kohonen 2D [12][13][22] lân cận neuron chiến thắng Giải thuật cập nhật lại trọng số vector trọng neuron chiến thắng tất neurons nằm vùng lân cận neuron chiến thắng Để xác định vùng lân cận neuron chiến thắng hay gọi vùng chiến thắng (winning region) ta dùng hàm lân cận (neighborhood function) áp dụng Hàm mô tả sau: Mục tiêu mạng Kohonen ánh xạ vector đầu vào có N chiều thành đồ với chiều [12][15][19][20] Những vector gần không gian đầu vào gần đồ lớp mạng Kohonen Một mạng Kohonen bao gồm lưới node đầu N node đầu vào.Vector đầu vào chuyển đến node đầu (hình 3) Mỗi liên kết đầu vào đầu mạng Kohonen tương ứng với trọng số.Tổng đầu vào nơron lớp Kohonen tổng trọng đầu vào nơron Trong đó, khoảng cách từ neuron lân cận đến neuron chiến thắng r2 h ( r , t ) exp 2 ( t = ( − ) +( (3) ) (4) − ) Và ( ): hàm sử dụng cho việc xác định không gian lân cận neuron chiến thắng với số lần lặp, giá trị σ giảm dần [29] ( )= (5) Trong đó, ( số, = √ , t số lần lặp) Dưới trình bày dạng đơn giản nhóm hàm mạng lân cận (topological neighborhood function): ℎ( , ) = − ( ) ( ) (6) Áp dụng hàm Mexican để xác định vùng lân cận neuron chiến thắng cho vector nhập, trọng số neron cập nhật sau: ( , ) Hình Cấu trúc mạng Kohonen2 Neuron chiến thắng xác định cách tìm neuron có khoảng cách ngắn tập kết Trong trường hợp này, neuron chiến thắng (winning neuron) , = , Khi ta được: , = , = , với Dmin = 0.4582 Với k1 = k2 = số (dòng, cột) neuron chiến thắng Sau xác định neuron chiến thắng, bước xác định vùng = (, ) + ( )ℎ( , ) − ∀ ∈ ℕ, ≤ (, ) (7) ≤ Trong đó, : chiều neuron trọng (vector trọng) : số chủ đề quan tâm ( , ) : giá trị neuron trọng thứ k dòng , cột http://homepage.ntlworld.com/richard.clark/rs_kohonen.html Trang 85 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 (, ) : giá trị xét neuron trọng thứ k dòng , cột ℎ( , ): kết hàm mạng lân cận với số lần lặp, r khoảng cách neuron xét neuron chiến thắng : giá trị vector học thứ k thời gian Cụ thể tập vector chủ đề quan tâm người dùng (xem bảng 2) t µ Ψ T Hàm ( ) hàm ấn định tốc độ học, giá trị hàm giảm dần theo số lần lặp t Nếu neuron chiến thắng hay neuron lân cận với neuron chiến thắng, trọng vector cập nhật, ngược lại neuron không cập nhật Tại bước lặp phương pháp Kohonen định chọn neuron có vector trọng tương tự với vector nhập điều chỉnh vector trọng lân cận để làm cho chúng gần với vector nhập Giải thuật Tìm neuron chiến thắng (winning neuron) [19][20][25] Đầu vào: v, SOM Trong v vector huấn luyện (vector nhập) Đầu ra: neuron chiến thắng (winning neuron) Hình Mơ hình TART đề xuất [25] Trong q trình thực mơ hình TART, hệ thống lưu lại ma trận để phân tích mối quan tâm người dùng mạng, bao gồm: T (chủ đề) x W (từ), A (tác giả) x T (chủ đề), R (người nhận) x T (chủ đề) and T (chủ đề) x T (thời gian) Dựa ma trận, ta có phân bố chủ đề từ Φzw, phân bố chủ đề thời gian Ψzt, phân bố tác giả chủ đề ϴaz, phân bố giữ người nhận chủ đề ϴrz Phân bố ma trận xác định biểu thức sau (8), (9), (10) (11): az Xử lý: Bắt đầu Khởi tạo = ( , [0,0]); Khởi tạo = [0,0]; ặ = 0 đế ( ) ặ = 0 đế ( ) > ( , Nếu [ , ]) Thì = ( , [ , ]); = [ , ]; Trả chiến thắng Kết thúc 3.2 Mơ hình Temporal – Author – Receipent – Topic (TART) Mơ hình TART (hình 4) chúng tơi đề xuất giới thiệu [25], có phần mục tiêu khám phá chủ đề quan tâm người dùng mạng xã hội theo giai đoạn Trang 86 zt m az z ( m az ) n zt t ( n zt ) zw rz n zw w (n zw ) (8) (9) (10) z ( mrz ) (11) mrz 3.3 Mơ hình đề xuất tổng qt Chúng tơi đề xuất mơ hình khám phá cộng đồng mạng dựa theo theo mơ hình chủ đề có yếu tố thời gian Trong đó, thơng qua kết khảo sát, phân tích đánh giá mơ hình liên quan trọng lĩnh vực khám phá cộng đồng, chọn phương pháp huấn luyện Kohonen; (2) huấn luyện Kohonen kết hợp cải tiến tập liệu đầu vào (là kết từ mơ hình TART [25]), tập vector chủ đề quan tâm người dùng theo giai đoạn thời gian Từ đó, khai thác cộng đồng theo chủ đề quan tâm thể neurons lớp Kohonen Mơ hình thực khám phá cộng đồng thông qua phương pháp gom cụm vector chủ đề TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 quan tâm người dùng theo giai đoạn thời gian thực theo mơ hình hình Mơ hình gồm mơ-đun chính: - Chuẩn hố vector đầu vào: chuẩn hoá liệu đầu vào phù hợp với liệu huấn luyện mạng Kohonen - Khám phá cộng đồng sử dụng mạng Kohonen: áp dụng phương pháp Kohonen để gom cụm người dùng theo chủ đề quan tâm, cụm cộng đồng quan tâm đến chủ đề tương ứng với neuron lớp Kohonen - Khảo sát thay đổi thành viên chủ đề quan tâm cộng đồng dựa phân tích liên hệ lớp Kohonen “Tài học phí”, “Tình bạn Tình yêu”, “Đoàn hội” “Đào tạo” tổng số 20 chủ đề thuộc hệ thống chủ đề xây dựng [31]) Khảo sát chủ đề khoảng thời gian tháng 12-2008 đến tháng 01-2010 Tập vector nhập xây dựng chuẩn từ kết mô hình TART Trong giai đoạn thời gian, ta có vector chủ đề quan tâm người dùng khác Chẳng hạn: với người dùng u1: khoảng thời gian từ t1 đến t2 vector chủ đề người dùng quan tâm ( , , ) , ∈ khoảng thời gian t2 đến t3 ta có vector ( , , ) Một cách tổng quát, người dùng có vector chủ đề quan tâm thời điểm t ( ) = < , , , … , Như vậy, ta có bảng vector Dữ liệu đầu vào (Kết mơ hình TART – Trong đó, tâp trung khai thác tập vector người dùng quan tâm chủ đề theo thời gian) ’ Hình Mơ hình khám phá cộng đồng người dùng theo chủ đề khảo sát thay đổi chủ đề quan tâm yêu thích người dùng Đầu vào: tập vector người dùng quan tâm trao đổi chủ đề từ kết mơ hình TART [25] Thành phần vector người dùng bao gồm chủ đề mà người dùng quan tâm, xác suất quan tâm thời gian mà người dùng trao đổi chủ đề Đầu ra: tập cộng đồng người dùng theo chủ đề cụ thể khoảng thời gian KẾT QUẢ THỬ NGHIỆM VÀ THẢO LUẬN 4.1 Dữ liệu thử nghiệm Thử nghiệm mơ hình đề xuất với tập 2055 vector chủ đề quan tâm 194 người dùng quan tâm trao đổi 10 chủ đề (khảo sát ngẫu nhiên 10 chủ đề “Cơ sở vật chất dịch vụ”, “Học tập Thi”, “Hợp tác quốc tế”, “Kiểm định chất lượng”, “Nghiên cứu khoa học”, “Sinh hoạt đời sống”, “Thư viện giáo trình”, “Thể dục thể thao”, ”Tuyển dụng việc làm”, “Tuyển sinh“, chủ đề quan tâm người dùng sau: Bảng Vector quan tâm chủ đề người dùng Người dùng Thời gian ti Thời gian tj u1 01-11-2008 30-11-2008 ( , , ) u2 01-02-2009 28-02-2009 ( , , ) u3 01-04-2009 30-04-2009 ( , , ) u1 01-02-2009 28-02-2009 ( , , ) ( , , ) Hay cách biểu diễn khác vector chủ đề quan tâm người dùng: Bảng Vector quan tâm chủ đề người dùng Người Chủ đề Chủ đề Chủ đề dùng Xác suất quan tâm Thời gian ti – t j u1 0.85246 0.0 0.772527 01-11-2008 – 30-11-2008 u2 0.85000 0.86956 0.676793 01-02-2009 – 28-02-2009 u3 0.62417 0.34132 0.893421 01-04-2009 – 30-04-2009 u1 0.52345 0.52341 0.834212 01-02-2009 – 28-02-2009 Trang 87 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 Bảng mẫu vector chủ đề quan tâm người dùng mạng, tập vector đầu vào cho trình huấn luyện mạng Kohonen Mẫu vector nhập bao gồm người dùng quan tâm đến chủ đề khoảng thời gian t1-t2, t2-t3 t3-t4 Mục tiêu trình huấn luyện Kohonen gom cụm vector chủ đề quan tâm người dùng Như vậy, với ( , ) ta có lớp Kohonen ( , ) Đây mảng chiều (hình 6).Và với tính chất cụm trên, lớp Kohonen ta có danh sách cụm: {C1, C2, C3, C4, ,Ck} Trong đó, cụm Ci có chứa vector chủ đề neuron chiến thắng tương ứng 4.2 Khám phá cộng đồng mạng xã hội Trong phần trình bày kết thử nghiệm khám phá cộng đồng người dùng mạng xã hội theo giai đoạn thời gian Phần tập trung vào mơ-đun (1) (2) mơ hình hình Hình thể kết trình huấn luyện Kohonen khám phá cộng đồng người dùng mạng theo thời gian với số neuron lớp 100, thử nghiệm tập 2055 vector nhập thuộc 194 người dùng quan tâm trao đổi 10 chủ đề Khảo sát khoảng thời gian từ 12-2008 đến 01-2010 Số neuron lớp đánh số thứ tự 100 tương ứng 100 neurons (hình 6) Việc xác định số lượng neuron lớp Kohonen tuỳ chọn không làm ảnh hưởng đến kết khám phá cộng đồng Mỗi neuron lớp tương ứng với cộng đồng người dùng quan tâm trao đổi chủ đề giai đoạn thời gian Với neuron, màu sắc đậm nhạt tương ứng với số lượng người dùng nhiều hay tham gia vào cộng đồng Màu sắc neuron đậm đại diện cho số người cộng đồng nhiều neuron có màu nhạt cộng đồng khơng có người dùng (hiển thị màu trắng) điều thể cộng đồng không tồn Trang 88 Hình Kết khám phá cộng động hiển thị tập neurons lớp Kohonen Từ lớp Kohonen hình 6, chúng tơi tiếp tục khảo sát trình bày kết khảo sát thay đổi chủ đề người dùng quan tâmtrong cộng đồng theo giai đoạn thời gian (hình 7) Hình Khảo sát thay đổi chủ đề quan tâm người dùng cộng đồng Hình trình bày kết phân tích thay đổi chủ đề quan tâm người dùng cộng động từ tháng 12/2008 đến tháng 07/2009 Khảo sát 10 chủ đề, ta thấy chủ đề mức độ thường xuyên tháng tăng cao tháng 04, 05/2009 chiếm đa số người dùng thuộc cộng đồng chủ đề“Tuyển sinh”, “Thể dục thể thao” “Tình bạn, tình yêu” Số lượng cộng đồng giảm dần khoảng thời gian tháng 06 07/2009 Trong tháng 07/2009 có cộng đồng khám phá, cộng đồng có số người dùng nhiều cộng đồng chủ đề “Thể dục thể thao” tháng 07/2009 cộng động chủ đề “Hợp tác quốc tế” TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 Trên hình 8, neuron (cộng đồng) số 23 (vị trí 4, 2) có 80 người dùng quan tâm đến chủ đề Hợp tác quốc tế (hình 8) Đây cộng đồng có số lượng người dùng đơng tất cộng đồng lại khoảng thời gian khảo sát Huấn luyện mạng Kohonen với tập vector chủ đề quan tâm (bảng 3) Ta có lớp tập neurons (tương ứng neuron cụm người dùng theo chủ đề đề cụ thể) theo thời gian tháng 12-2008 (hình 9) Hình Kết khám phá cộng đồng lớp Kohonen khoảng thời gian tháng 04-2009 Mỗi ô hiểu thị hình thể neuron lớp Hình Các cộng đồng tham gia trao đổi chủ đề cụ thể tháng 12-2008 Bảng Tập liệu vector chủ đề quan tâm người dùng tháng 12-2008 Hình rằng, kết lớp Kohonen gồm có cụm (các neuron có màu) Như vậy, tháng 12-2008 có cộng đồng quan tâm đến chủ đề cụ thể từ tập vector nhập Người Chủ đề quan tâm dùng Thời gian U1 U1 U1 U3 Tình bạn tình yêu Đào tạo Học tập thi Thể dục thể thao 12-2008 12-2008 12-2008 12-2008 U4 U4 U4 U14 U14 U14 U20 Tình bạn tình yêu Đào tạo Học tập thi Cơ sở vật chất dịch vụ Học tập Thi Đào tạo Đào tạo 12-2008 12-2008 12-2008 12-2008 12-2008 12-2008 12-2008 U20 U20 Học tập Thi Tình bạn tình yêu 12-2008 12-2008 U36 Tình bạn tình yêu 12-2008 U36 Đào tạo 12-2008 U36 Học tập Thi 12-2008 U36 Thể dục thể thao 12-2008 U43 Tình bạn tình yêu 12-2008 U49 Đào tạo 12-2008 U49 Hợp tác quốc tế 12-2008 Số chủ đề quan tâm 3 Hình 10 thể danh sách cộng đồng danh sách người dùng tham gia chủ đề cụ thể tháng 12-2018 Quan sát ta thấy, cộng đồng người dùng U4 (tương ứng số khoanh tròn) tồn Đều chứng tỏ, người dùng U4 tham gia vào cộng đồng quan tâm trao đổi chủ đề cụ thể 3 Tại cụm số 25 Tại cụm số 17 Tại cụm số Hình 10 Danh sách cộng đồng người dùng theo chủ đề quan tâm tháng 12-2008 dựa lớp Kohonen hình 4.3 Khảo sát thay đổi chủ đề quan tâm thành viên cộng đồng Nội dung tập trung vào phần thử nghiệm mơ hình đề xuất mơ-đun (3) hình Dựa Trang 89 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 lớp Kohonen theo giai đoạn thời gian, khảo sát liên hệ cụm (neurons) lớp Kohonen dựa thành phần cụm như: người dùng, chủ đề quan tâm, xác suất quan tâm số cụm hình thành giai đoạn thời gian Hình 11a Cộng đồng tham gia tháng 02/2009 Hình 11b Cộng đồng tham gia tháng 03/2009 Hình 11c Cộng đồng tham gia tháng 04/2009 Hình 11 Cộng đồng lớp Kohonen giai đoạn thời gian nhiên, mức độ tham gia vào cộng đồng chủ đề “Học tập thi” Điều phần cho thấy khoảng thời gian khảo sát trên, việc trao đổi vấn đề học tập, sinh viên tham gia trao đổi mạng xã hội có ý kiến vấn đề học tập Quan sát hình 13, thấy co giãn số lượng thành viên cộng đồng theo giai đoạn thời gian Trong đó, cộng đồng chủ đề “Học tập thi”, thời điểm tháng 12-2008 số thành viên tham gia 16 đến tháng 01-2009 số thành viên tham gia cộng đồng 4, tháng 06-2009 đến tháng 07-2009 khơng tồn cộng đồng quan tâm đến chủ đề Khảo sát liệu, thấy giai đoạn tháng 07-2009 người dùng mạng tham gia trao đổi chủ đề “Hợp tác quốc tế” chủ yếu Quan sát hình 12, tháng 02-2009 có cộng đồng tham gia trao đổi mạng Trong đó, cộng đồng quan tâm đến chủ đề “Hợp tác quốc tế” với số người tham gia theo tháng 6, 10 30 Cộng đồng quan tâm đến chủ đề “Tuyển sinh” với số lượng người tham gia 13, 30 56 Cộng đồng quan tâm đến chủ đề “Học tập thi” 5, 16 Hình 13 Sự thay đổi thành viên cộng đồng mạng xã hội theo chủ đề giai đoạn thời gian từ tháng 12-2008 đến tháng 07-2009 Hình 12 Cộng đồng mạng theo chủ đề khoảng thời gian tháng 02, 03 04/2009 dựa lớp Kohonen hình 11 Trong đơn vị thời gian, mức độ tham gia cộng đồng chủ đề người dùng mạng có thay đổi Cộng đồng quan tâm đến chủ đề “Tuyển sinh” có số thành viên tham gia lại chiếm ưu so với cộng đồng lại.Tuy Trang 90 Tuy nhiên, đến tháng 02-2009 số thành viên lại giảm xuống Đối với cộng đồng quan tâm đến chủ đề “Hợp tác quốc tế”, tháng 04-2009 có số thành viên tham gia 24 đến tháng 05-2009 số lại giảm xuống thành viên Khảo sát chủ đề “Tuyển sinh” ta thấy đỉnh điểm cộng đồng chủ đề tháng 04-2009 56 thành viên tham gia qua tháng 05, 06 07 khơng tồn công đồng Riêng cộng đồng với chủ đề quan tâm “Hợp tác quốc tế” tương đối ổn định suốt thời gian khảo sát hình 13 từ tháng 122008 đến tháng 07-2009 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 Như vậy, việc co giãn số lượng thành viên cộng đồng tượng tham gia rời khỏi cộng đồng thành viên cộng đồng Nghĩa thời điểm ti có nhiều hay số thành viên cộng đồng so với thời điểm ti-1 hay ti+1 4.4 Đánh giá kết Theo Brew C [26] đề nghị phương pháp đánh giá gom cụm sau: tương ứng với cụm kết gom cụm hệ thống ta tính giá trị độ đo F-measure với tất cụm gom tay Chọn giá trị F-measure cao loại cụm Tiếp tục công việc trên, cho cụm lại Tổng giá trị Fmeasure cao hệ thống gom cụm xác Bảng trình bày kết F-measure, với m = cụm k =6 cụm Bảng Kết tính giá trị F-Measure gom cụm tay (người) máy Máy (k) /Người (m) m0 m1 m2 m3 m4 k0 0.43 0.15 0.84 0.52 0.68 k1 0.67 0.61 0.00 0.16 0.00 k2 0.00 0.36 0.51 0.62 0.16 k3 0.72 0.00 0.55 0.55 0.34 k4 0.81 0.73 0.25 0.00 0.72 0.19 0.00 0.15 0.29 0.36 0.81 0.73 0.84 0.62 0.72 k5 MAX Tổng MAX cho gom cụm Kohonen vector: 0.81 + 0.73 + 0.84 + 0.62 + 0.72 = 3.72 Giá trị tổng max F-measuare bảng 3.71 tương ứng 74% Giá trị theo đánh giá cao, điều chứng tỏ phương pháp đề xuất gom cụm người dùng phương pháp mạng Kohonen dựa tập vector chủ đề quan tâm theo thời gian có độ xác cao KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Đóng góp nghiên cứu tổng hợp thành nội dung chính: Đề xuất mơ hình khám phá cộng đồng mạng xã hội dựa theo mơ hình chủ đề có yếu tố thời gian Mơ hình đề xuất khơng cần phải xác định trước số cộng đồng (số cụm) điều hồn tồn phù hơp với tính chất mạng xã hội biết số lượng cộng đồng tồn cộng đồng thường xuyên thay đổi Trong đó, chúng tơi tập trung khai thác kết hợp phương pháp mạng Kohonen kết hợp mơ hình TART [25] Phương pháp thực gồm phần chính: (1) chuẩn hoá chọn kết tập vector chủ đề quan tâm người dùng mạng xã hội, tập vector đầu vào trình huấn luyện mạng Kohonen, (2) đề xuất mơ hình áp dụng phương pháp huấn luyện mạng Kohonen để khám phá cộng đồng người dùng quan tâm đến chủ đề cụ thể gọi cộng đồng mạng theo chủ đề Trong đó, mơ hình khám phá chủ đề theo giai đoạn thời gian cộng đồng mạng quan tâm, mức độ quan tâm; tính phân bố chủ đề theo cộng đồng mạng Thách thức đặc nghiên cứu khám phá cộng đồng theo chủ đề dựa nội dung trao đổi mạng xã hội cộng đồng thường xuyên thay đổi chủ đề quan tâm thay đổi thành viên tham gia cộng đồng mạng xã hội Khảo sát thay đổi chủ đề quan tâm người dùng cộng đồng mạng xã hội theo giai đoạn thời gian dựa liên hệ lớp Kohonen Điều giúp cho việc theo dõi thay đổi quan tâm người dùng mạng xã hội chịu ảnh hưởng thay đổi chủ đề quan tâm cộng đồng mà người dùng tham gia Trang 91 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 5.2 Hướng phát triển Kết báo nghiên cứu này tảng cho nghiên cứu sau tìm kiếm người quan trọng cộng đồng mạng, phân tích ảnh hưởng lan truyền chủ đề tìm kiếm nguồn gốc thơng tin mạng xã hội Lời cám ơn: Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh (VNU-HCM) đề tài mã số B2013-26-02 A New Model for Discovering Communities of Users on Social Network Thanh Ho Phuc Do Faculty of Information System, University of Economics and Law, VNU-HCM University of Information Technology, VNU-HCM ABSTRACT The trend of technological development and increasing varieties of social media lead to the changes in people’s behaviors in society and forming online communities Changes of human’s behaviors make many models of business, marketing, services and even the field of education, security, politicsl change from approaches to user management Community of users on social networks influence behaviors, habits of each user involved in the community Therefore, exploring community on social networks from many different data sources via analyzing exchanged contents will help know the user community’s behaviors which are reflected in the content and topics that users are interested in discussing in messages In this paper, we propose a new model of discovering communities of users on social networks based on the topic model combined with Kohonen network In the proposed model, we focus on discovering communities of users on social networks and analyzing the interested topics change of online community in each period of time The proposed model is experimented with a set of vectors in interested topics of online users in higher education field Keywords: topic, topic model, discovering communities, analyzing changes, Kohonen Network, TART Trang 92 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 19, SỐ K2- 2016 TÀI LIỆU THAM KHẢO [1] X Wang, N Mohanty, and A McCallum (2006) Group and topic discovery from relations and their attributes Advances in Neural Information Processing Systems 18, pp 1449-1456 [2] N Pathak, C DeLong, A Banerjee, and K Erickson (2008), Social topic models for community extraction In The 2nd SNAKDD Workshop, volume [3] D Zhou, E Manavoglu, J Li, C.L Giles, and H Zha (2006), Probabilistic models for discovering e-communities In WWW ’06: Proceedings of the 15th international conference on World Wide Web, page 182 ACM, pp 173-182 [4] István Bíró, Jácint Szabó (2008), Latent Dirichlet Allocation for Automatic Document Categorization, Research Institute of the Hungarian Academy of Sciences Budapest, pp 430-441 [5] Andrew McCallum, Andr´es Corrada, Xuerui Wang (2004), The Author-RecipientTopic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email, Department of Computer Science, University of MA [6] Michal Rosen-Zvi, Thomas Griffths et al (2004), Probabilistic AuthorTopic Models for Information Discovery, 10th ACM SigKDD, Seattle, pp 306-315 [7] Alexandru Berlea1, Markus Döhring, Nicolai Reuschling (2009), Content and communication based sub-community detection using probabilistic topic models, IADIS International Conference Intelligent Systems and Agents [8] Wenjun Zhou, Hongxia Jin, Yan Liu (2012), Community Discovery and Profiling with Social Messages, KDD’12, August 12–16, 2012, Beijing, China, pp 388-396 [9] Chunshan Li, William K Cheung, Yunming Ye, Xiaofeng Zhang, Dianhui Chu, Xin Li (2014), The Author-Topic-Community model for author interest profiling and community discovery, Springer-Verlag London 2014, pp 74-85 [10] The Anh Dang, Emmanuel Viennet (2012), Community Detection based on Structural and Attribute Similarities, ICDS 2012 : The Sixth International Conference on Digital Society, pp 7-14 [11] Yang Zhou, Hong Cheng, Jeffrey Xu Yu (2009), Graph Clustering Based on Structural/Attribute Similarities, VLDB ‘09, August 24-28, 2009, Lyon, France, pp 718729 [12] Do Phuc, Mai Xuan Hung (2008), Using SOM based Graph Clustering for Extracting Main Ideas from Documents, RVIF 2008, pp 209-214 [13] Kohonen T and Honkela T (2007), Kohonen network, http://www.scholarpedia.org/article/Kohone n_network [14] Zhijun Yin et al (2012), Latent community Topic Analysis: Integration of Community Discovery with Topic Modeling, ACM Transactions on Intelligent Systems and Technology, pp 1-21 [15] Kaski, S., Honkela, T., Lagus, K., and Kohonen T.WEBSOM self-organizing maps of document collections Neurocomputing, volume 21, (1998), pp 101-117 [16] Thanh Ho, Phuc Do (2015), Analyzing Users’ Interests with the Temporal Factor Based on Topic Modeling, 23-25 March 2015, Indonesia, Springer, pp 106-115 [17] Teuvo Kohonen (1982), Self-Organized Formation of Topologically Correct Feature Maps, Biol Cybern 43, SpringerVerlag,npp 59-69 Trang 93 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol.19, No.K2 - 2016 [18] Kohonen, T (1982) Self-organized formation of topologically correct feature maps.Biological Cybernetics, 43:59-69 [19] Kohonen T (1984) Self-Organization and Associative Memory, Springer, Berlin [20] Kohonen, T (2001) Self-Organizing Maps Extended edition Springer [21] Kohonen, T., Kaski, S and Lappalainen, H (1997) Self-organized formation of various invariant-feature filters in the adaptivesubspace SOM Neural Computation, 9: 1321-1344 [22] Kohonen, T and Somervuo, P (2002) How to make large self-organizing maps for nonvectorial data Neural Networks 15(8-9), pp 945-952 [23] Tianbao Yang, Yun Chi, Shenghuo Zhu, Yihong Gong, Rong Jin (2011), Detecting communities and their evolutions in dynamic social networks—a Bayesian approach, Mach Learn 82, Springer, pp 157–189 [24] Ding Zhou, Isaac Councill, Hongyuan Zha, C Lee Giles (2007), Discovering Temporal Communities from Social Network Documents, IEEE ICDM, pp 745-750 [25] Tran Quang Hoa, Vo Ho Tien Hung, Nguyen Le Hoang, Ho Trung Thanh, Do Phuc (2014), Finding the Cluster of Actors in Social Network based on the Topic of Messages, ACIIDS 04/2014, ThaiLan Springer, pp 183-190 [26] Brew C, Schulte im Walde (2002) Spectral Clustering for German Verbs, In Proc of the Trang 94 Conf in Natural Language Proocessing, Philadenphia, PA, pp 117-124 [27] Yan Liu, Alexandru N.M et al (2009), TopicLink LDA: Joint Models of Topic and Author Community, Proceedings of the 26 th International Conference on Machine Learning, ACM, pp 665-672 [28] Mr inmaya Sachan, et al (2012), Using Content and Interactions for Discovering Communities in Social Networks, International World Wide Web Conference Com-mittee (IW3C2), Lyon, France, pp 331-340 [29] B Magomedov, "Self-Organizing Feature Maps (Kohonen maps)," November 2006 [Online] Available: http://www.codeproject.com/Articles/16273 /Self-Organizing-Feature-Maps-Kohonenmaps [30] Nguyen Le Hoang, Do Phuc, et al (2013), Predicting Preferred Topics of Authors based on Co-Authorship Network, The 10th IEEE RIVF International Conference on Computing and Communication Technologies, IEEE, pp 70-75 [31] Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt lĩnh vực giáo dục đại học, Tạpchí Khoa học Cơng nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam, Tập 52, số 1B, pp 89-100 [32] Tom Fawcett (2005), Introduction to ROC Analysis, Elsevier B.V., Available online www.sciencedirct.com ... ứng 4.2 Khám phá cộng đồng mạng xã hội Trong phần trình bày kết thử nghiệm khám phá cộng đồng người dùng mạng xã hội theo giai đoạn thời gian Phần tập trung vào mô- đun (1) (2) mơ hình hình Hình. .. đề quan tâm người dùng mạng xã hội, tập vector đầu vào q trình huấn luyện mạng Kohonen, (2) đề xuất mơ hình áp dụng phương pháp huấn luyện mạng Kohonen để khám phá cộng đồng người dùng quan tâm... đề xuất mơ hình khám phá cộng đồng người dùng mạng xã hội phương pháp huấn luyện mạng Kohonen [17][27] kết hợp với mơ hình TART Tiếp sau đó, chúng tơi tập trung phân tích thay TẠP CHÍ PHÁT TRIỂN