Cuối cùng, đó là việc chứng minh phương pháp của Luận án mang lại hiệu năng tính toán tốt hơn (hay thời gian tính toán nhỏ hơn) so với hai bộ công cụ TeexGraph và NetworKit. Do kích thước của Bộ dữ liệu DBLP (DS4) và Youtube (DS5) lớn, thời gian thi hành lâu nên ta chỉ tính tốn độ trung tâm trung gian với
số luồng song song là 36 luồng (số luồng tối đa trên hệ thống tính toán) để so sánh, đánh giá hiệu năng giữa Red-Bet với TeexGraph, NetworKit. Bảng 2.8 minh hoạ thời gian trung bình của 10 lần thi hành quá trình tính độ trung tâm trung gian của ba giải pháp nêu trên:
Bộ dữ liệu Red-Bet TeexGraph NetworKit
DS1 0.22 0.31 0.56
DS2 0.70 0.84 1.70
DS3 94.20 110.58 234.12
DS4 2193.54 2694.78 4823.47 DS5 50977.15 68744.80 90522.30
Bảng 2.8. Thời gian tính tốn BC với 5 bộ dữ liệu của ba giải pháp (giây)
Biểu diễn chi tiết thời gian tính độ trung tâm trung gian BC của ba giải pháp được minh họa tại Hình 2.10:
Hình 2.10. Biểu diễn thời gian tính tốn BC với 5 bộ dữ liệu của ba giải pháp
Bảng kết quả 2.8 và hình 2.10 đã chứng minh phương pháp của Luận án mang lại hiệu năng tính toán tốt hơn rõ ràng so với hai bộ công cụ TeexGraph và NetworKit. Hệ số tăng tốc của giải thuật Red-Bet so với hai bộ công cụ TeexGraph và NetworKit được định lượng cụ thể ở Bảng 2.9:
Datasets Red-Bet /TeexGraph Red-Bet /NetworKit DS1 1,41 2.55 DS2 1.2 2.43 DS3 1.17 2.49 DS4 1.23 2.2 DS5 1.35 1.76
Bảng 2.9. Hệ số tăng tốc của Red-Bet so với TeexGraph và NetworKit khi tính tốn BC
Bảng 2.9 cho thấy hệ số tăng tốc của giải thuật Red-Bet so với TeexGraph, NetworKit là 1,2 đến 1,41 lần khi so với TeexGraph và 1,76 đến 2.55 lần khi so với NetworKit.
2.5. Kết luận Chương II
Trong Chương II, Nghiên cứu sinh trình bày phương pháp nâng cao tớc độ tính toán, phân tích phục vụ dự báo lan truyền thông tin nhờ vào hai kỹ thuật là rút gọn đồ thị và song song hóa q trình tính toán Độ trung tâm trung gian. Cụ thể, đó là kết hợp quá trình rút gọn đờ thị dựa trên thay thế các đỉnh tương đương bậc 1 và song song hóa các phép tính SSSP trong thuật toán của Brandes khi tính toán Độ trung tâm trung gian với mơ hình lập trình l̀ng song song trên CPU và sử dụng bộ thư viện CilkPlus. Độ phức tạp về thời gian của giải thuật đề xuất là
𝑂(|𝑉|∗|𝐸|
𝑡 ), trong đó t là số luồng thi hành song song.
Giải thuật Red-Bet đưa ra đã được thử nghiệm với một số bộ dữ liệu của được công bố bởi SNAP. Kết quả thử nghiệm cho thấy phương pháp của Luận án hiệu quả hơn bộ công cụ TeexGraph từ 1,2 đến 1,41 lần và so với bộ công cụ NetworKit là từ 1,76 đến 2,55 lần.
3. Chương III. NÂNG CAO ĐỘ CHÍNH XÁC DỰ BÁO LAN TRUYỀN THÔNG TIN
3.1. Đặt vấn đề
Một q trình lan truyền thơng tin xảy ra khi một phần thông tin từ cá nhân này sang cá nhân khác trong mạng. Để có thể xử lý được bài toán dự báo lan truyền thông tin ta phải nắm được cấu trúc cơ bản của việc lan truyền, xác định các yếu tố ảnh hưởng đến việc lan truyền, cụ thể chúng ta phải xem xét quyết định kích hoạt (chấp nhận) thông tin của người dùng và cả các mối quan hệ xã hội khi các kích hoạt này xảy ra từ đó xác định được kích thước lan truyền thông tin.
Như đã đánh giá ở chương I, định lượng xác suất người dùng chấp nhận một nội dung trên mạng xã hội trực tuyến là một nhiệm vụ khó khăn do đây là vấn đề mạng tính chủ quan cao, việc quyết định phụ thuộc vào nhiều yếu tố và không thể xác định chính xác cơ chế thúc đẩy người dùng thực hiện các hành động. [92] xác định các yếu tố ảnh hưởng đến quyết định chấp nhận nội dung của người dùng bao gờm: nhóm ́u tớ người dùng (hoạt động của người dùng, tỷ lệ bài viết, số lượng bạn, số người theo dõi, số bài viết được nhắc đến); nhóm quan hệ (quan hệ xã hội, quan hệ bạn bè, quan hệ theo dõi, đồng quan điểm bài viết), sở thích của người dùng với chủ đề. Trong phạm vi Luận án, Nghiên cứu sinh tính xác suất chấp nhận thông tin của người dùng (hay xác suất lan truyền) dựa trên 03 thông số ảnh hưởng quan hệ người dùng, ảnh hưởng sở thích với nội dung và ảnh hưởng từ bên ngồi để tăng độ chính xác dự báo.
Đối với xác suất chấp nhận thông tin dựa trên quan hệ người dùng, về cơ bản, vấn đề này tương ứng với bài tốn mơ hình truyền bệnh [93] khi người bị lây nhiễm tiếp xúc với người chưa lấy nhiễm và trên thực tế, vấn đề đã được nghiên cứu trong các lĩnh vực như dịch tễ học trong nhiều thập kỷ qua. Tuy nhiên, với bài tốn lan truyền thơng tin trên mạng xã hội trực tuyến là bài toán phức tạp hơn nhiều do kích thước mạng ngày càng lớn, hơn nữa, quan hệ người dùng rất đa dạng và việc lan truyền thơng tin cịn phụ thuộc vào các mới quan hệ đó. Vì vậy, cần phải cải tiến phương pháp tính xác xuất của bài tốn truyền bệnh để tính tốn chính xác hơn cơ chế lan truyền thông tin trên các mạng xã hội. Phương án của Nghiên cứu sinh đó là kết hợp mối quan hệ và lịch sử hoạt động của người dùng,
cùng với đó phân biệt giữa lan truyền sơ cấp và thứ cấp để từ đó xác định ảnh hưởng từ quan hệ người dùng đến việc lan truyền thơng tin. Ngồi ra, xem xét ảnh hưởng của sở thích người dùng với nội dung, ta sẽ xác định được ảnh hưởng chủ quan người dùng đối với việc chấp nhận nội dung lan truyền trên mạng xã hội.
Đối với ảnh hưởng khách quan từ bên ngoài đến quyết định chấp nhận nội dung lan truyền giữa những người dùng, có thể nói, trong các nghiên cứu trước đây chỉ trình bày ảnh hưởng bên ngoài đến quyết định chấp nhận một nội dung hay chủ đề, chưa giải quyết được việc ảnh hưởng đến quyết định những nội dung lan truyền của người dùng. Phương pháp của Luận án xét đến ảnh hưởng này và kết hợp với ảnh hưởng từ mối quan hệ và sở thích người dùng để tính tốn xác suất một cách chính xác nhất.
Bên cạnh đó, việc nâng cao độ chính xác trong dự báo lan truyền thơng tin địi hỏi phải xác định kích thước lan truyền. Một số nghiên cứu liên quan tập trung vào vấn đề này như ước tính xác suất dựa trên lấy mẫu, sử dụng mơ hình hời quy hay phân loại... Luận án cũng đề xuất phương pháp ước tính kích thước lan truyền trong quá trình lan truyền thơng tin bằng cách xây dựng Cây lan truyền “có khả năng nhất” cho một nội dung cụ thể dựa trên các xác suất đã tính.
Như vậy, trong Chương III của Luận án, Nghiên cứu sinh sẽ trình bày một phương pháp giúp nâng cao độ chính xác dự báo lan truyền thơng tin với hai nội dung chính:
1. Tính xác suất chấp nhận thông tin của người dùng (hay xác suất lan truyền) dựa trên 03 thông số: ảnh hưởng quan hệ người dùng, ảnh hưởng sở thích với nội dung và ảnh hưởng từ bên ngoài.
2. Xây dựng Cây lan truyền “có khả năng nhất” cho một nội dung cụ thể dựa trên các xác suất đã tính.
Bớ cục của Chương sẽ được trình bày như sau: Sau phần Đặt vấn đề sẽ là phần trình bày một sớ khái niệm về mơ hình lan truyền thơng tin. Tiếp theo là phương pháp nâng cao độ chính xác dự báo lan truyền thơng tin, sau đó là thử nghiệm và đánh giá kết quả của phương pháp khi so sánh với một sớ phương pháp hiện có. Ći cùng là phần Kết luận tổng hợp nội dung của Chương.
3.2. Một số khái niệm liên quan
3.2.1. Mơ hình lan truyền thơng tin rời rạc
Trên mơ hình này, mạng xã hội được biểu diễn bằng một đồ thị có hướng
G=(V, E), trong đó V là tập hợp các đỉnh của đồ thị biểu diễn tập hợp tất cả người
dùng trên mạng xã hội với số đỉnh |V| = n, E là tập hợp các cạnh của đồ thị, biểu diễn liên kết giữa người dùng trong mạng xã hội.
Việc biểu diễn mạng xã hội cũng có thể dùng đồ thị vô hướng, tuy nhiên đờ thị vơ hướng có thể xem là một đờ thị có hướng mà tất cả các cạnh đều tồn tại chiều ngược lại. Do đó, để tổng quát hóa, ta dùng đồ thị có hướng để biểu diễn một mạng xã hội. Khái niệm liên kết trong các mạng xã hội cũng khơng giớng nhau (ví dụ đới với Facebook thì liên kết tương ứng với quan hệ bạn bè, với Twitter thì liên kết tương ứng với chức năng theo dõi).
Ngồi ra đới với đờ thị G = (V, E), ta dùng các ký hiệu Nou t(u) và Nin(u)
tương ứng là tập hợp các đỉnh hàng xóm đi ra và đi vào đỉnh u, dou t(u) và din(u) tương ứng với bậc đi ra và đi vào của đỉnh u. Các thành phần của mơ hình lan truyền thơng tin rời rạc được mô tả như sau:
- Tập hạt giống: Thông tin ban đầu được lan truyền từ tập người dùng đầu gọi là tập hạt giống S ⊆ V.
- Trạng thái của các đỉnh: Mỗi đỉnh v ∈ V có thể có một trong hai trạng
thái khơng kích hoạt (inactive) và kích hoạt (active, hay bị ảnh hưởng). Trạng thái kích hoạt của một nút v nghĩa là người dùng bị ảnh hưởng bởi thông tin mới, ý tưởng mới hoặc sản phẩm mới lan truyền qua mạng từ tập S, trong khi trạng thái khơng kích hoạt có nghĩa là chưa chấp nhận, chưa bị thuyết phục bởi thông tin, ý tưởng, hoặc thông tin về sản phẩm.
- Q trình lan truyền thơng tin: Q trình lan truyền thơng tin theo thời gian rời rạc hoạt động theo các bước thời gian rời rạc với thời gian t = 0, 1, ... Gọi tập các đỉnh St ⊆ V là tập hợp các nút đã kích hoạt tại thời điểm t. Quá trình lan truyền giữa bước t và t + 1 theo một hàm (luật lan truyền) như sau:
Q trình lan truyền thơng tin dừng lại tại thời điểm t nếu không có đỉnh nào kích hoạt thêm ở bước t + 1, tức là St = St + 1.
- Hàm ảnh hưởng σ(S): là sớ lượng đỉnh kích hoạt (ảnh hưởng) sau quá
trình lan truyền thơng tin từ tập hạt giống S.
Đây là quá trình chung cho sự lan truyền thơng tin rời rạc, tuy vậy quy luật lan truyền từ St-1 tới St trong các mơ hình cụ thể lại khác nhau.
3.2.2. Mơ hình Ngưỡng tuyến tính (LT)
Mơ hình này là một trường hợp của mơ hình lan truyền thơng tin rời rạc được đề xuất trong [15]. Trong mơ hình LT, mỗi cạnh e = (u, v) ∈ E có một trọng sớ w(u, v) là một sớ thực dương biểu diễn cho các tần số tương tác, trao đổi giữa hai người dùng. Các trọng số thỏa mãn điều kiện chuẩn hóa:
∑ 𝑤(𝑢, 𝑣) ≤ 1, ∀𝑣 ∈ 𝑉 𝑢∈𝑁𝑖𝑛(𝑣)
(8)
Q trình lan truyền thơng tin theo các bước rời rạc t = 0, 1, 2, .... Mỗi một đỉnh u có một ngưỡng kích hoạt du được chọn ngẫu nhiên trong khoảng [0,1]. Quá trình lan truyền thông tin từ tập hạt giống S diễn ra như sau:
- Tại bước t = 0, tất cả các đỉnh thuộc S đều bị kích hoạt, tức là S0 = S. - Tại bước t ≥ 1, tất cả các đỉnh u ở trạng thái khơng kích hoạt sẽ bị kích hoạt nếu tổng trọng sớ ảnh hưởng tại bước đó lớn hơn ngưỡng kích hoạt du, tức là:
∑ 𝑤(𝑣, 𝑢) ≥ 𝑑𝑢
𝑣∈𝑁𝑖𝑛(𝑢)∩𝑆𝑡−1
(9)
- Khi một đỉnh ở trạng thái kích hoạt, nó sẽ giữ ngun trạng thái đó. Quá trình lan truyền kết thúc khi giữa hai bước khơng có thêm đỉnh nào bị kích hoạt.
Mơ hình LT thể hiện hành vi “ngưỡng” của người dùng trong khi chịu sự ảnh hưởng của người dùng khác. Khi các ảnh hưởng lớn hơn ngưỡng “chịu đựng” thì người đó sẽ chịu ảnh hưởng. Nó cũng biểu diễn cho quá trình nhận thức, tiếp nhận thơng tin của người dùng trên mạng xã hội.
Tuy vậy, các ngưỡng kích hoạt của các cá nhân thường khó được xác định và ln thay đổi. Do vậy, trong mơ hình này ngưỡng kích hoạt du được chọn ngẫu
nhiên trong khoảng [0,1]. Việc chọn ngưỡng này đảm bảo khả năng kích hoạt của một đỉnh tỷ lệ với tổng ảnh hưởng đến của các đỉnh hàng xóm.
Hình 3.1. Ví dụ cho mơ hình LT
Hình 3.1 là một ví dụ q trình lan truyền thơng tin trên mơ hình LT. Giả sử tập hạt giống S = {A}, mỗi đỉnh có các ngưỡng kích hoạt và mỗi cạnh có trọng sớ tương ứng. Q trình lan truyền thơng tin diễn ra như sau:
- Tại bước điểm t = 0, S0 = S = {A}.
- Tại bước điểm t = 1, tổng trọng số ảnh hưởng đến đỉnh B là 0.8 lớn hơn ngưỡng dB = 0.5 do vậy B bị kích hoạt. Đỉnh C có tổng trọng sớ ảnh hưởng 0.3 <
dC= 0.6 nên khơng bị kích hoạt. Ta có S1 = {A, B}
- Tại bước điểm t = 2, tổng trọng số ảnh hưởng đến đỉnh C là 0.7 lớn hơn ngưỡng dC = 0.6 do vậy C bị kích hoạt. Đỉnh D có tổng trọng số ảnh hưởng 0.3 <
dD= 0.4 nên khơng bị kích hoạt. Ta có S2 = {A, B, C}.
- Tại bước t = 3, tổng trọng số ảnh hưởng đến đỉnh D là 0.5 lớn hơn ngưỡng dD = 0.4 do vậy D bị kích hoạt. S3 = {A, B, C, D}.
- Tại bước t = 4, tổng trọng số ảnh hưởng đến đỉnh E là 0.3 nhỏ hơn ngưỡng
3.2.3. Mơ hình bậc độc lập (IC)
Bậc độc lập IC là mơ hình có liên quan tới mơ hình dịch bệnh (epidemic models) [93]. Đặc trưng chính của mơ hình IC là q trình lan truyền thơng tin dọc theo các cạnh của đồ thị một cách độc lập với nhau.
Trong mơ hình IC, mỗi cạnh (u, v) ∈ E được gán một xác suất ảnh hưởng
p(u, v) ∈ [0,1] biểu diễn mức độ ảnh hưởng của đỉnh u với đỉnh v. Mơ hình này
cũng là một mơ hình lan truyền thơng tin rời rạc giớng mơ hình LT tuy nhiên chúng tạo ra tập các đỉnh kích hoạt theo một quy tắc khác. Cụ thể, quá trình lan truyền thơng tin từ tập hạt giống S diễn ra như sau:
- Tại thời điểm t = 0, chỉ có tập hạt giớng trong trạng thái kích hoạt, tức là
S0 = S.
- Tại thời điểm t ≥ 1, đầu tiên ta gán St = St-1. Mỗi đỉnh u ∈ St-1 có một cơ hội duy nhất để kích hoạt đến đỉnh v ∈ Nout(u) với xác suất thành công là p(u, v). Nếu thành công ta thêm v vào tập St và nói rằng u đã ảnh hưởng v tại thời điểm t. Một cách tương tự với các đỉnh cịn lại chưa được kích hoạt.
- Khi một đỉnh ở trạng thái kích hoạt, nó sẽ giữ ngun trạng thái. Q trình lan truyền kết thúc khi giữa hai bước khơng có thêm đỉnh nào bị kích hoạt.
Q trình kích hoạt theo xác suất p(u, v) có thể được thực hiện theo phương
pháp quay bánh xe xổ số.
Hình 3.2 là một ví dụ của q trình lan truyền thơng tin trên mơ hình IC. Tập đỉnh hạt giống là S = {A}, trên mỗi cạnh biểu diễn các xác suất lan truyền tương ứng. Quá trình lan truyền thông tin diễn ra như sau:
- Tại bước t = 0, S0 = S = {A}.
- Tại bước t =1, đỉnh A kích hoạt B và C với xác suất là 0.8 và 0.3. Giả sử
B được kích hoạt. Ta có S1 = {A, B}.
- Tại bước t = 2, tương tự đỉnh B kích hoạt đỉnh D và C với xác suất thành công là 0.3 và 0.4. Đỉnh A khơng được kích hoạt đỉnh C vì đã thực hiện ở lần
trước. Giả sử trong trường hợp này C được kích hoạt, ta có S2 = {A, B, C}. - Tại bước t = 3, tương tự, đỉnh B, C kích hoạt D với xác suất 0.3 và 0.2. Trong trường hợp này nếu D khơng bị kích hoạt thì q trình lan truyền có thể dừng lại ngay.
Ý tưởng lan truyền trong mơ hình IC xuất phát từ thực tế rằng thơng tin có thể lan truyền dọc theo các đường đi trong một mạng lưới. Có thể nói nếu giữa