Phát triển các phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội

MỤC LỤC

Mục tiêu của luận án

Như đa trình bày, mục tiêu của Luận án này là nghiên cứu, phát triển, cai tiến một số phương pháp nâng cao hiệu qua trong việc dự báo lan truyền thông tin trên mạng xa hội, nằm trong chủ đề lớn là nâng cao hiệu qua phân tich mạng xa.

Các đóng góp của luận án

Bố cục Luận án

Nâng cao tốc độ dự báo lan truyền thông tin

Nâng cao độ chính xác dự báo lan truyền thông tin

Mạng xã hội và lan truyền thông tin trên mạng xã hội 1. Mạng xã hội

- Trong phân tich (lý thuyết đồ thị), mạng xã hội là một cấu trúc xã hội bao gồm các cá nhân hay tổ chức, thường được biểu diễn bằng các nút, cùng với các quan hệ xã hội, tương ứng với các cạnh/liên kết giữa các nút. Đến nay, nhiều nghiên cứu đa được thực hiện để tìm hiểu quá trình này, từ bài toán khai phá dữ liệu để phát hiện chủ đề được quan tâm, phát hiện điểm nóng, nhận diện người dùng có anh hương trong mạng xa hội đến việc phân tich, nghiên cứu mô hình lan truyền thông tin.

Hình 1.1. Lan truyền thơng tin
Hình 1.1. Lan truyền thơng tin

Các lĩnh vực nghiên cứu trong phân tích mạng xã hội 1. Khai phá dữ liệu mạng xã hội

Việc nghiên cứu các quá trình lan truyền trong mỗi hoàn canh cụ thể là nền tang giúp con người có thể giai quyết các vấn đề liên quan đến sự lan truyền trong thực tế như: sự lan truyền của dịch bệnh (trong y học, dịch tễ học), sự lan truyền các ý kiến, tư tương giữa các cá. Ngoài những thông tin cá nhân, người dùng còn bị lộ lọt những thông tin như nội dung bài đăng, nội dung chia sẻ, vị tri người dùng, các thông tin của tổ chức mà người dùng đang tham gia đến những đối tượng không mong muốn chia sẻ.

Hình 1.2. Bài toán phát hiện cấu trúc cộng đồng học viên của trường đại học
Hình 1.2. Bài toán phát hiện cấu trúc cộng đồng học viên của trường đại học

Phát biểu bài toán phát triển một số phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội

Toàn bộ việc thử nghiệm được thực hiện trên máy tinh hiệu năng cao của trường Đại học Công nghệ và kết qua nghiên cứu bao gồm ca ma nguồn thuật toán được đăng công khai trên Github9. Nghiên cứu về vấn đề này, Nghiên cứu sinh đa tham gia cùng với nhóm nghiên cứu của Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, kết qua đa xây dựng được một mô hình dự báo lan truyền thông tin kết hợp được ca yếu tố anh hương từ bên ngoài xa hội.

Các hướng nghiên cứu liên quan

Kwak và đồng sự [37] xem xét anh hương người dùng đến việc lan truyền thông tin bằng cách xem xét cấu trúc mạng và sử dụng biến thể của thuật toán PageRank để xếp hạng người dùng có anh hương trên mạng xa hội Twitter và sự theo dừi (follow) qua lại của người dựng. Việc xem xét anh hương bên ngoài đa chứng minh được tác động đến người dùng trong mạng xa hội, tuy nhiên, hướng nghiên cứu này xem xét việc người dùng tiếp nhận thông tin bên ngoài, khác với hướng của Nghiên cứu sinh là xem xét anh hương bên ngoài tác động đến việc thông tin truyền giữa những người dùng.

Phương pháp đề xuất

Từ các xác suất đa tinh, xây dựng Cây lan truyền “có kha năng nhất” cho một nội dung cụ thể để ước tinh kich thước lan truyền trong quá trình lan truyền thông tin. Hơn nữa, các yếu tố tác động đến người dùng chỉ có anh hương trong một thời gian nhất định, đòi hỏi phai đánh giá liên tục hành vi người dùng và nội dung lan truyền.

Một số lý thuyết cơ bản 1. Đồ thị

- Thành phần liên thông: đồ thị vô hướng có thành phần liên thông là một đồ thị con trong đó giữa hai đỉnh bất kì đều có đường đi đến nhau và không thể. Tính toán song song là kiểu tính toán trong đó nhiều phép tính được tiến hành một cách đồng thời dựa trên nguyên tắc những bài toán lớn được chia thành nhiều bài toán nhỏ hơn có thể tiến hành đồng thời [55].

Hình 1.4. Một số kiểu đồ thị cơ bản
Hình 1.4. Một số kiểu đồ thị cơ bản

NÂNG CAO TỐC ĐỘ DỰ BÁO LAN TRUYỀN THÔNG TIN

Một số khái niệm liên quan 1. Các phép toán trên đồ thị

Duyệt theo chiều rộng trước (Breadth-First Search - BFS) là giải thuật để duyệt cấu trúc dữ liệu đồ thị cho phép từ một đỉnh trong đồ thị, gọi là đỉnh gốc, khám phá tất cả các đỉnh liền kề có cùng độ sâu so với nút gốc trước khi chuyển đến các đỉnh ở độ sâu tiếp theo [81]. Phương pháp duyệt BFS cho phép giai quyết được rất nhiều bài toán đồ thị, chẳng hạn như: kiểm tra kha năng hai phia của đồ thị; tìm đường đi ngắn nhất về số cạnh giữa hai đỉnh; tinh luồng cực đại trong mạng theo phương pháp Ford- Fulkerson; xây dựng hàm lỗi theo giai thuật Aho-Corasick,. Để chứng minh hiệu qua của việc rút gọn trong bài toán lan truyền thông tin, dựa trên phương pháp và thư viện NDlib trong [90], chúng ta sẽ thử nghiệm quá trình lan truyền thông tin trên một số đồ thị ngẫu nhiên bằng mô hình SIR và so sánh với quá trình đó khi đồ thị đa được rút gọn.

Thứ ba, để có thể khai thác được hiệu năng của CPU đa lừi, phương án song song hóa quá trình tinh toán Độ trung tâm trung gian BC của Luận án là thi hành song song các phép tinh BC trên các đỉnh khác nhau chứ không phai song song quá trình duyệt và tinh đường đi ngắn nhất từ một đỉnh đến tất ca các đỉnh còn lại (SSSP).

Hình 2.2. Ví dụ về duyệt theo chiều sâu trước
Hình 2.2. Ví dụ về duyệt theo chiều sâu trước

Thực nghiệm và kết quả 1. Dữ liệu thực nghiệm

Để đánh giá hiệu năng của giai pháp, Nghiên cứu sinh đa tiến hành cài đặt hai bộ công cụ tiêu biểu trong phân tich đồ thị mạng xa hội quy mô lớn là TeexGraph và NetworKit cùng giai thuật đề xuất (với tên gọi Red-Bet) trên hạ. Trong quá trình nghiên cứu, ban đầu Nghiên cứu sinh chỉ đưa ra phương án song song hóa quá trình tinh toán độ trung tâm trung gian BC và đề xuất giai pháp với tên gọi bigGraph. Kết qua trên cho thấy, giai thuật Red-Bet kết hợp việc rút gọn đồ thị và song song hóa cho thời gian thi hành nhỏ hơn so với giai thuật bigGraph trong ca bốn trường hợp.

Hệ số tăng tốc của giải thuật Red-Bet khi số luồng thay đổi Cuối cùng, đó là việc chứng minh phương pháp của Luận án mang lại hiệu năng tinh toán tốt hơn (hay thời gian tinh toán nhỏ hơn) so với hai bộ công cụ TeexGraph và NetworKit.

Bảng 2.5. So sánh thời gian tính tốn BC trước và sau khi rút gọn
Bảng 2.5. So sánh thời gian tính tốn BC trước và sau khi rút gọn

NÂNG CAO ĐỘ CHÍNH XÁC DỰ BÁO LAN TRUYỀN THÔNG TIN

Một số khái niệm liên quan

Đây là quá trình chung cho sự lan truyền thông tin rời rạc, tuy vậy quy luật lan truyền từ St-1 tới St trong các mô hình cụ thể lại khác nhau. Mô hình này cũng là một mô hình lan truyền thông tin rời rạc giống mô hình LT tuy nhiên chúng tạo ra tập các đỉnh kich hoạt theo một quy tắc khác. Ý tương lan truyền trong mô hình IC xuất phát từ thực tế rằng thông tin có thể lan truyền dọc theo các đường đi trong một mạng lưới.

Các mô hình cạnh trực tuyến ứng với LT, IC và các kết qua của Kempe, Chen là tiền đề cho các tác gia sau này xây dựng các thuật toán cho các bài toán lan truyền thông tin.

Hình 3.1. Ví dụ cho mơ hình LT
Hình 3.1. Ví dụ cho mơ hình LT

Nâng cao độ chính xác dự báo lan truyền thông tin

Tuy nhiên, trong phương pháp nghiên cứu lan truyền thông tin, tốc độ lan truyền chịu anh hương của quan hệ người dùng được xác định dựa trên mối quan hệ xa hội và tương tác lịch sử giữa những người dùng được đưa ra trong nhật ký hoạt động H. Qua nghiờn cứu, theo dừi, các đặc trưng cá nhõn hay thói quen của người dùng có thể liên quan chặt chẽ với sơ thich, sự quan tâm của họ đối với nội dung Người dùng không thể chấp nhận bất kỳ nội dung gì mà phai xem sự quan tâm của họ đến đâu. Vi dụ, một tin đồn ngoài đời thực hay trên các phương tiện truyền thông đại chúng như báo chi và truyền hình có thể dễ dàng tiếp cận mọi người trên mạng xa hội và gây anh hương đến hành vi của người dùng đối với một sự kiện hoặc thông tin.

Tuy nhiên, nếu chúng ta xem xét các giai đoạn lan truyền phát triển nhanh, kich thước lan truyền lớn, có thể kết luận rằng anh hương bên ngoài có tồn tại và thậm chi anh hương của chúng vẫn có thể tồn tại ngay ca sau một thời gian dài.

Bảng 3.1. Ví dụ về nhật ký hoạt động
Bảng 3.1. Ví dụ về nhật ký hoạt động

Thực nghiệm và kết quả 1. Dữ liệu thực nghiệm

Từ cây lan truyền ta có thể xác định bậc lan truyền, số người dùng tiếp nhận thông tin và đường đi của thông tin. Bộ dữ liệu phân loại các meme theo từng chủ đề và gán mỗi meme m cho một bậc thông tin tm là thời gian khi các trang web đề cập đến meme m. Trong Luận án, Nghiên cứu sinh sử dụng phép đo kich thước lan truyền để đánh giá mô hình đề xuất, dựa vào xác suất lan truyền giữa những người dùng, ta có thể tinh gần đúng kich thước lan truyền chinh xác bằng cách liên tục mô phỏng quá trình lan truyền và lấy mẫu kich thước lan truyền ơ mỗi bước thời gian.

Đầu tiên, ta tiến hành thực nghiệm việc ước tinh kich thước lan truyền và kich thước cây có kha năng nhất của các phương pháp trong trường hợp khi chưa xét đến anh hương từ bên ngoài.

Dữ liệu Mơ hình
Dữ liệu Mơ hình