MỤC LỤC
Như đa trình bày, mục tiêu của Luận án này là nghiên cứu, phát triển, cai tiến một số phương pháp nâng cao hiệu qua trong việc dự báo lan truyền thông tin trên mạng xa hội, nằm trong chủ đề lớn là nâng cao hiệu qua phân tich mạng xa.
Các đóng góp của luận án
Bố cục Luận án
Nâng cao tốc độ dự báo lan truyền thông tin
- Trong phân tich (lý thuyết đồ thị), mạng xã hội là một cấu trúc xã hội bao gồm các cá nhân hay tổ chức, thường được biểu diễn bằng các nút, cùng với các quan hệ xã hội, tương ứng với các cạnh/liên kết giữa các nút. Đến nay, nhiều nghiên cứu đa được thực hiện để tìm hiểu quá trình này, từ bài toán khai phá dữ liệu để phát hiện chủ đề được quan tâm, phát hiện điểm nóng, nhận diện người dùng có anh hương trong mạng xa hội đến việc phân tich, nghiên cứu mô hình lan truyền thông tin.
Việc nghiên cứu các quá trình lan truyền trong mỗi hoàn canh cụ thể là nền tang giúp con người có thể giai quyết các vấn đề liên quan đến sự lan truyền trong thực tế như: sự lan truyền của dịch bệnh (trong y học, dịch tễ học), sự lan truyền các ý kiến, tư tương giữa các cá. Ngoài những thông tin cá nhân, người dùng còn bị lộ lọt những thông tin như nội dung bài đăng, nội dung chia sẻ, vị tri người dùng, các thông tin của tổ chức mà người dùng đang tham gia đến những đối tượng không mong muốn chia sẻ.
Toàn bộ việc thử nghiệm được thực hiện trên máy tinh hiệu năng cao của trường Đại học Công nghệ và kết qua nghiên cứu bao gồm ca ma nguồn thuật toán được đăng công khai trên Github9. Nghiên cứu về vấn đề này, Nghiên cứu sinh đa tham gia cùng với nhóm nghiên cứu của Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, kết qua đa xây dựng được một mô hình dự báo lan truyền thông tin kết hợp được ca yếu tố anh hương từ bên ngoài xa hội.
Kwak và đồng sự [37] xem xét anh hương người dùng đến việc lan truyền thông tin bằng cách xem xét cấu trúc mạng và sử dụng biến thể của thuật toán PageRank để xếp hạng người dùng có anh hương trên mạng xa hội Twitter và sự theo dừi (follow) qua lại của người dựng. Việc xem xét anh hương bên ngoài đa chứng minh được tác động đến người dùng trong mạng xa hội, tuy nhiên, hướng nghiên cứu này xem xét việc người dùng tiếp nhận thông tin bên ngoài, khác với hướng của Nghiên cứu sinh là xem xét anh hương bên ngoài tác động đến việc thông tin truyền giữa những người dùng.
Từ các xác suất đa tinh, xây dựng Cây lan truyền “có kha năng nhất” cho một nội dung cụ thể để ước tinh kich thước lan truyền trong quá trình lan truyền thông tin. Hơn nữa, các yếu tố tác động đến người dùng chỉ có anh hương trong một thời gian nhất định, đòi hỏi phai đánh giá liên tục hành vi người dùng và nội dung lan truyền.
- Thành phần liên thông: đồ thị vô hướng có thành phần liên thông là một đồ thị con trong đó giữa hai đỉnh bất kì đều có đường đi đến nhau và không thể. Tính toán song song là kiểu tính toán trong đó nhiều phép tính được tiến hành một cách đồng thời dựa trên nguyên tắc những bài toán lớn được chia thành nhiều bài toán nhỏ hơn có thể tiến hành đồng thời [55].
Duyệt theo chiều rộng trước (Breadth-First Search - BFS) là giải thuật để duyệt cấu trúc dữ liệu đồ thị cho phép từ một đỉnh trong đồ thị, gọi là đỉnh gốc, khám phá tất cả các đỉnh liền kề có cùng độ sâu so với nút gốc trước khi chuyển đến các đỉnh ở độ sâu tiếp theo [81]. Phương pháp duyệt BFS cho phép giai quyết được rất nhiều bài toán đồ thị, chẳng hạn như: kiểm tra kha năng hai phia của đồ thị; tìm đường đi ngắn nhất về số cạnh giữa hai đỉnh; tinh luồng cực đại trong mạng theo phương pháp Ford- Fulkerson; xây dựng hàm lỗi theo giai thuật Aho-Corasick,. Để chứng minh hiệu qua của việc rút gọn trong bài toán lan truyền thông tin, dựa trên phương pháp và thư viện NDlib trong [90], chúng ta sẽ thử nghiệm quá trình lan truyền thông tin trên một số đồ thị ngẫu nhiên bằng mô hình SIR và so sánh với quá trình đó khi đồ thị đa được rút gọn.
Thứ ba, để có thể khai thác được hiệu năng của CPU đa lừi, phương án song song hóa quá trình tinh toán Độ trung tâm trung gian BC của Luận án là thi hành song song các phép tinh BC trên các đỉnh khác nhau chứ không phai song song quá trình duyệt và tinh đường đi ngắn nhất từ một đỉnh đến tất ca các đỉnh còn lại (SSSP).
Để đánh giá hiệu năng của giai pháp, Nghiên cứu sinh đa tiến hành cài đặt hai bộ công cụ tiêu biểu trong phân tich đồ thị mạng xa hội quy mô lớn là TeexGraph và NetworKit cùng giai thuật đề xuất (với tên gọi Red-Bet) trên hạ. Trong quá trình nghiên cứu, ban đầu Nghiên cứu sinh chỉ đưa ra phương án song song hóa quá trình tinh toán độ trung tâm trung gian BC và đề xuất giai pháp với tên gọi bigGraph. Kết qua trên cho thấy, giai thuật Red-Bet kết hợp việc rút gọn đồ thị và song song hóa cho thời gian thi hành nhỏ hơn so với giai thuật bigGraph trong ca bốn trường hợp.
Hệ số tăng tốc của giải thuật Red-Bet khi số luồng thay đổi Cuối cùng, đó là việc chứng minh phương pháp của Luận án mang lại hiệu năng tinh toán tốt hơn (hay thời gian tinh toán nhỏ hơn) so với hai bộ công cụ TeexGraph và NetworKit.
Đây là quá trình chung cho sự lan truyền thông tin rời rạc, tuy vậy quy luật lan truyền từ St-1 tới St trong các mô hình cụ thể lại khác nhau. Mô hình này cũng là một mô hình lan truyền thông tin rời rạc giống mô hình LT tuy nhiên chúng tạo ra tập các đỉnh kich hoạt theo một quy tắc khác. Ý tương lan truyền trong mô hình IC xuất phát từ thực tế rằng thông tin có thể lan truyền dọc theo các đường đi trong một mạng lưới.
Các mô hình cạnh trực tuyến ứng với LT, IC và các kết qua của Kempe, Chen là tiền đề cho các tác gia sau này xây dựng các thuật toán cho các bài toán lan truyền thông tin.
Tuy nhiên, trong phương pháp nghiên cứu lan truyền thông tin, tốc độ lan truyền chịu anh hương của quan hệ người dùng được xác định dựa trên mối quan hệ xa hội và tương tác lịch sử giữa những người dùng được đưa ra trong nhật ký hoạt động H. Qua nghiờn cứu, theo dừi, các đặc trưng cá nhõn hay thói quen của người dùng có thể liên quan chặt chẽ với sơ thich, sự quan tâm của họ đối với nội dung Người dùng không thể chấp nhận bất kỳ nội dung gì mà phai xem sự quan tâm của họ đến đâu. Vi dụ, một tin đồn ngoài đời thực hay trên các phương tiện truyền thông đại chúng như báo chi và truyền hình có thể dễ dàng tiếp cận mọi người trên mạng xa hội và gây anh hương đến hành vi của người dùng đối với một sự kiện hoặc thông tin.
Tuy nhiên, nếu chúng ta xem xét các giai đoạn lan truyền phát triển nhanh, kich thước lan truyền lớn, có thể kết luận rằng anh hương bên ngoài có tồn tại và thậm chi anh hương của chúng vẫn có thể tồn tại ngay ca sau một thời gian dài.
Từ cây lan truyền ta có thể xác định bậc lan truyền, số người dùng tiếp nhận thông tin và đường đi của thông tin. Bộ dữ liệu phân loại các meme theo từng chủ đề và gán mỗi meme m cho một bậc thông tin tm là thời gian khi các trang web đề cập đến meme m. Trong Luận án, Nghiên cứu sinh sử dụng phép đo kich thước lan truyền để đánh giá mô hình đề xuất, dựa vào xác suất lan truyền giữa những người dùng, ta có thể tinh gần đúng kich thước lan truyền chinh xác bằng cách liên tục mô phỏng quá trình lan truyền và lấy mẫu kich thước lan truyền ơ mỗi bước thời gian.
Đầu tiên, ta tiến hành thực nghiệm việc ước tinh kich thước lan truyền và kich thước cây có kha năng nhất của các phương pháp trong trường hợp khi chưa xét đến anh hương từ bên ngoài.