Hình dạng cây lan truyền

Một phần của tài liệu (Luận án tiến sĩ) một số phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội (Trang 85 - 107)

Trong đó, u0, u1, ... un là người dùng tiếp nhận nội dung tại các thời điểm t1, t2,... tn. Từ cây lan truyền ta có thể xác định bậc lan truyền, số người dùng tiếp nhận thông tin và đường đi của thông tin.

3.4. Thực nghiệm và kết quả

3.4.1. Dữ liệu thực nghiệm

Trong phạm vi Luận án, Nghiên cứu sinh sử dụng ba bộ dữ liệu:

- Bộ dữ liệu mô phỏng (DS1): bộ dữ liệu do nhóm nghiên cứu Viện Công nghệ thông tin phát triển, sử dụng chương trình Kronecker [99] với phương pháp tạo dữ liệu được mô tả trong [100], [101], [102] để tạo 10 đờ thị có cấu trúc “lõi -

u0 u1 u2 u3 u4 u5 u6 t0 t1 t2

ngoại vi” mô phỏng các cấu trúc và vết lan truyền thông tin trong các mạng thế giới thực, với các tham số [0,9 0,5; 0,5 0,3] bao gồm khoảng 8192 nút và 25600 cạnh. Sau đó, lấy mẫu phân phối chủ đề K-chiều cho mỗi nút của đồ thị từ phân phối Dirichlet đối xứng K-chiều bằng cách gán cho mỗi nút j một biến ngẫu nhiên phân phối đờng đều θj ∊ (0,1]K. Vì giá trị θ < 1, nên các nội dung được tạo tập trung nhiều hơn vào một tập con nhỏ các chủ đề. Đối với việc tạo bậc, lấy mẫu một nội dung từ phân phối Dirichlet, sau đó áp dụng các bậc độc lập rời rạc theo thời gian để tạo ra một tập gồm 5000 lần thông tin được lan truyền.

- Bộ dữ liệu meme (DS2): dữ liệu các meme (quan niệm, hành vi) được theo dõi sự lan truyền trên 170 triệu trang web truyền thông và blog phổ biến [103]. Bộ dữ liệu phân loại các meme theo từng chủ đề và gán mỗi meme m cho một bậc thông tin tm là thời gian khi các trang web đề cập đến meme m.

- Bộ dữ liệu Tencent Weibo (DS3): dữ liệu từ blog Tencent Weibo của Trung Quốc với 200 triệu người dùng được phát hành bởi KDD Cup 2012.

3.4.2. Phương pháp thực nghiệm

Để so sánh, đánh giá hiệu quả của một phương pháp dự báo lan truyền thông tin, có thể sử dụng một số phép đo khác nhau như: đo kích thước lan truyền (hay số lượng người dùng lan truyền thông tin) [37], [104], [105]; sử dụng các số liệu liên quan đến các biểu đồ khối như tần số [37], [105]; sử dụng mối tương quan của các sự kiện [37]; hay sử dụng độ trễ thời gian giữa các thông tin lan truyền [106]. Trong Luận án, Nghiên cứu sinh sử dụng phép đo kích thước lan truyền để đánh giá mơ hình đề xuất, dựa vào xác suất lan truyền giữa những người dùng, ta có thể tính gần đúng kích thước lan truyền chính xác bằng cách liên tục mơ phỏng quá trình lan truyền và lấy mẫu kích thước lan truyền ở mỗi bước thời gian.

Tiếp theo so sánh hiệu suất của phương pháp đề xuất với một sớ mơ hình phổ biến hiện nay:

- Mơ hình bậc độc lập IC: xác định xác suất lan truyền của một nội dung đơn giản là dựa trên xác suất lan truyền trước đó, không xem xét ảnh hưởng quan hệ người dùng hay sở thích với nội dung. Đối với một cặp nút u và v, xác suất lan

truyền được tính là puv = 1/din(v) trong đó din(v) là bậc vào của nút v, như trong [94], [97].

- Mơ hình tương tác người dùng UI: có xem xét ảnh hưởng quan hệ người dùng [107].

- Mơ hình hời quy RM: ước tính kích thước lan truyền bằng cách hồi quy các tính năng dựa trên người dùng, nội dung và thời gian [108].

Để so sánh các phương pháp, ta áp dụng sai số tương đối để thấy kích thước lan truyền ước tính từ “sự thật cơ bản”. Các sai số tương đối của lan truyền ước tính được tính như sau:

|Ỵ(𝑆)

𝐼(𝑆) − 1|.100% (29)

Trong đó Ỵ(S) là kích thước lan truyền ước tính của tập hạt giống S theo các phương pháp và I(S) là sự thật cơ bản cho S. Trong các thực nghiệm, để đơn giản, tập S chỉ có 1 nút.

Tiếp theo là đánh giá việc sử dụng các phương pháp để tạo ra Cây lan truyền có khả năng nhất (cây có xác suất cao nhất). Do mơ hình RM chỉ có thể ước tính kích thước lan truyền, nên sẽ loại ra khỏi thực nghiệm. Đối với phương pháp đề xuất, mơ hình IC và UI, để cơng bằng, ta “tỉa” lại cây bằng cách sử dụng ngưỡng

θ: bất kỳ cạnh nào có xác suất lan truyền dưới θ sẽ bị loại bỏ khỏi cây. Trong thực

nghiệm, ta đặt θ = 50% và so sánh kích thước của các cây ước tính với cây lan truyền thực tế.

3.4.3. Kết quả thực nghiệm

Với các dữ liệu, ta sẽ sử dụng 5000 lần thông tin được lan truyền. Trong đó, sử dụng 4000 lần thông tin lan truyền để tính toán các tham số trong các công thức tính xác suất, sau đó sử dụng 1000 lần lan truyền để thử nghiệm, tính tốn kết quả theo các phương pháp và so sánh với thực tế lan truyền

Đầu tiên, ta tiến hành thực nghiệm việc ước tính kích thước lan truyền và kích thước cây có khả năng nhất của các phương pháp trong trường hợp khi chưa xét đến ảnh hưởng từ bên ngoài. Lưu ý, trong tất cả các thực nghiệm, giá trị của

α trong Công thức (23) được đặt bằng 0,5. Kết quả thực nghiệm được thể hiện

trong bảng sau:

Dữ liệu Mơ hình

Sai số tương đối trung bình (%) Ước tính kích thước

lan truyền Kích thước cây có khả năng nhất

DS1

IC 33.53 37.75

UI 24.74 29.67

RM 25.12 -

Phương pháp đề xuất 22.31 26.53

DS2

IC 35.56 39.21

UI 27.34 31.67

RM 27.65 -

Phương pháp đề xuất 22.15 27.22

DS3

IC 36.42 40.32

UI 28.46 32.92

RM 29.27 -

Phương pháp đề xuất 24.19 29.37

Bảng 3.2. So sánh hiệu suất của các phương pháp chưa xét ảnh hưởng bên ngoài ngoài

Như chúng ta có thể thấy trong bảng 3.2, phương pháp đề xuất của Luận án có sai sớ tương đới trung bình thấp hơn (hay hiệu quả ước tính vượt trội hơn) ba phương pháp cịn lại đới với tất cả các bộ dữ liệu trong việc ước tính kích thước lan truyền và tạo cây có khả năng nhất. Hình 3.5 thể hiện trực quan khi so sánh sai sớ tương đới trung bình của các phương pháp:

Hình 3.6. Biểu diễn chi tiết hiệu suất của các phương pháp chưa xét ảnh hưởng bên ngoài

Tiếp theo, ta thêm yếu tớ bên ngồi ảnh hưởng đến xác suất lan truyền của các mơ hình. Ta sẽ kiểm tra ảnh hưởng này bằng cách sử dụng 5% các bậc lớn nhất từ bộ dữ liệu Meme và Tencent Weibo (do Bộ dữ liệu mô phỏng không thể xét đến ảnh hưởng bên ngoài). Kết quả thực nghiệm được đưa ra trong bảng sau:

Dữ liệu Mơ hình

Sai số tương đối trung bình (%) Ước tính kích

thước lan truyền Kích thước cây có khả năng nhất

DS2

IC 42.60 47.32

UI 34.47 37.65

RM 32.53 -

Phương pháp đề xuất 23.86 28.82

DS3

IC 43.24 46.12

UI 35.61 37.89

RM 29.87 -

Phương pháp đề xuất 26.10 30.17

Bảng 3.3. So sánh hiệu suất của các phương pháp khi xuất hiện ảnh hưởng bên ngoài

Kết quả trong Bảng 3.3 cho thấy, khi ước tính kích thước lan truyền và tạo cây có khả năng nhất có xuất hiện ảnh hưởng bên ngoài, các phương thức hiện có

như IC, UI và RM không thể tính đến yếu tố này và do đó, phải đối mặt với sự suy giảm đáng kể về độ chính xác dự đoán (sai số tăng mạnh). Phương pháp đề xuất vẫn hoạt động tốt với độ chính xác dự đoán chỉ giảm nhẹ. Hình 3.6 thể hiện trực quan khi so sánh sai số tương đới trung bình của các phương pháp:

Hình 3.7. Biểu diễn chi tiết hiệu suất của các phương pháp khi xuất hiện ảnh hưởng bên ngoài

3.5. Kết luận chương III

Trong Chương III, Nghiên cứu sinh trình bày phương pháp nâng cao độ chính xác trong việc dự báo lan truyền thông tin trên các mạng xã hội trực tuyến theo mơ hình IC phổ biến. Phương pháp của Luận án đó là việc tính xác suất chấp nhận thông tin của người dùng (hay xác suất lan truyền) dựa trên 03 thông số: ảnh hưởng quan hệ người dùng, ảnh hưởng sở thích với nội dung và ảnh hưởng từ bên ngoài. Trong đó, ảnh hưởng quan hệ người dùng được xác định dựa trên lịch sử hoạt động và có xét đến lan truyền sơ cấp và thứ cấp. Luận án cũng đưa ra phương pháp xây dựng cây lan truyền “có khả năng nhất” cho một nội dung cụ thể dựa trên các xác suất đã tính với xác suất tạo cây là 𝑃(𝑇) = ∏(𝑢,𝑣)∈𝐸(𝑇)𝑝𝑢𝑣.

Phương pháp đề xuất đã được thử nghiệm trên ba bộ dữ liệu mô phỏng, Meme, Tencent Weibo và so sánh với ba mơ hình phổ biến hiện nay là mơ hình bậc độc lập IC, mơ hình tương tác người dùng UI, mơ hình hời quy RM. Kết quả

thực nghiệm cho thấy phương pháp đề xuất của Luận án hiệu quả hơn ba phương pháp cịn lại đới với cả ba bộ dữ liệu trong việc dự đoán kích thước lan truyền và tạo cây có khả năng nhất. Trong trường hợp xét đến ảnh hưởng từ bên ngoài, phương pháp của Luận án có hiệu quả vượt trội hơn.

KẾT LUẬN CHUNG Các đóng góp chính

Thực tế cho thấy hiện nay, việc phân tích, dự báo lan truyền thông tin trên mạng xã hội là vấn đề nhận được nhiều sự quan tâm do vừa có giá trị nghiên cứu, vừa có giá trị ứng dụng thực tiễn. Xuất phát từ nhu cầu thực tế của công tác, Nghiên cứu sinh đã tiến hành nghiên cứu và tổng hợp trong Luận án này để giải quyết hai bài toán quan trọng: một là nâng cao tớc độ tính tốn dự báo lan truyền thơng tin và hai là nâng cao độ chính xác dự báo lan truyền. Với định hướng đó, Nghiên cứu sinh đã tiến hành xác lập mục tiêu và các nội dung nghiên cứu chính của luận án (đã trình bày ở Chương I). Qua các kết quả cả về lý thuyết, Thuật tốn lẫn thực nghiệm đã được trình bày cụ thể trong Luận án, có thể khẳng định rằng toàn bộ mục tiêu và các nội dung nghiên cứu đề ra đã được hoàn thành, với các đóng góp chính bao gồm:

1. Đề xuất phương pháp nâng cao tớc độ phân tích, tính tốn phục vụ dự báo lan truyền thông tin dựa trên việc kết hợp hai kỹ thuật: Rút gọn đồ thị dựa trên thay thế các đỉnh tương đương bậc 1 giúp loại bỏ những đỉnh “không quan trọng” và làm cho việc tính toán trên đồ thị đơn giản và hiệu quả hơn; Song song hóa quá trình tính toán Độ trung tâm trung gian (Betweenness Centrality) với bản chất là việc song song hóa các phép tính SSSP trong thuật tốn tính Độ trung tâm trung gian của Brandes với mơ hình lập trình l̀ng song song trên CPU và sử dụng bộ thư viện CilkPlus.

2. Đề xuất phương pháp nâng cao độ chính xác dự báo lan truyền thơng tin trên mạng xã hội theo mơ hình bậc độc lập IC (Independent Cascade) bằng cách tính xác suất chấp nhận thơng tin của người dùng (hay xác suất lan truyền) dựa trên 03 thông số: ảnh hưởng quan hệ người dùng, ảnh hưởng sở thích với nội dung và ảnh hưởng từ bên ngoài. Từ các xác suất đã tính, xây dựng cây lan truyền “có khả năng nhất” cho một nội dung cụ thể để ước tính kích thước lan truyền trong q trình lan truyền thơng tin.

Cụ thể, đới với kỹ thuật rút gọn đờ thị đó là quá trình xác định các đỉnh tương đương bậc 1, tức là các đỉnh treo deg(v) = 0 có chung một đỉnh liền kề.

Việc duyệt đồ thị sử dụng phương pháp BFS và được lồng ghép vào pha duyệt đồ thị của Thuật toán Brandes. Cuối cùng, chọn một đỉnh duy nhất làm đại diện, hay tức là xóa các đỉnh tương đương và để lại một đỉnh duy nhất.

Đới với kỹ thuật song song hóa, đó là việc thi hành song song các phép tính Độ trung tâm trung gian trên các đỉnh khác nhau để khai thác được hiệu năng của CPU đa lõi. Sử dụng bộ thư viện Cilkplus với trọng tâm là vector

reducerBC[v] trong bộ thư viện Cilkplus để cập nhật tương tranh giá trị BC

của đỉnh v khi thi hành song song. Ngồi ra, đới với dữ liệu được biểu diễn

theo phương pháp danh sách liền kề và lưu trữ dưới dạng mảng.

Đới với bài tốn tính xác suất chấp nhận thơng tin của người dùng (hay xác suất lan truyền), đó là việc xác định ảnh hưởng từ mối quan hệ người dùng (được xác định dựa trên lịch sử hoạt động) và có xét đến lan truyền sơ cấp và thứ cấp; ảnh hưởng từ sở thích, quan tâm của người dùng đới với nội dung; ảnh hưởng từ bên ngồi đến qút định của người dùng. Ći cùng là xây dựng cây lan truyền “có khả năng nhất” cho một nội dung cụ thể dựa trên các xác suất đã tính với xác suất tạo cây là 𝑃(𝑇) = ∏(𝑢,𝑣)∈𝐸(𝑇)𝑝𝑢𝑣.

Tiến hành thực nghiệm cho thấy, phương pháp nâng cao tớc độ tính tốn dự báo lan truyền của Luận án đã mang lại hiệu quả hơn so với bộ công cụ TeexGraph từ 1,2 đến 1,41 lần và so với bộ công cụ NetworKit là từ 1,76 đến 2,55 lần khi thực nghiệm với một số bộ dữ liệu của được công bố bởi SNAP. Phương pháp nâng cao độ chính xác dự báo lan truyền thông tin của Luận án mang lại hiệu quả hơn, sai số thấp hơn hay độ chính xác cao hơn ba mơ hình phổ biến hiện nay là mơ hình bậc độc lập IC, mơ hình tương tác người dùng UI, mơ hình hời quy RM trong việc dự đoán kích thước lan truyền và tạo cây có khả năng nhất đối với ba bộ dữ liệu mô phỏng, Meme, Tencent Weibo. Đặc biệt hiệu quả hơn nữa khi xét đến ảnh hưởng từ bên ngoài.

Toàn bộ các cơng trình nghiên cứu của Luận án đều được công bố hoặc chờ công bố và xuất bản trong các kỷ yếu hội thảo, tạp chí có chỉ mục trong SCOPUS.

Hạn chế của luận án

gian nghiên cứu, những nghiên cứu trong Luận án cũng còn nhiều điểm chưa thể giải quyết hoặc chưa được đề cập đến. Một số điểm hạn chế này có thể được liệt kê dưới đây:

- Nghiên cứu của về tăng tớc độ trên đờ thị của Luận án cịn chưa thể tiến hành với những đồ thị mạng xã hội có quy mô siêu lớn như Facebook với hơn hai tỷ đỉnh và hơn nghìn tỷ cạnh. Nguyên nhân xuất phát từ giới hạn các bộ dữ liệu thực được công bố công khai cịn hạn chế với những dữ liệu quy mơ lớn và năng lực hệ thống tính toán mà Nghiên cứu sinh có thể sử dụng cũng không thể cho phép xử lý được với những dữ liệu quy mơ siêu lớn như vậy. Ngồi ra, việc rút gọn chỉ tối ưu trong phạm vi của Luận án.

- Nghiên cứu về dự báo lan truyền thông tin ước tính ảnh hưởng bên ngoài trong một bước thời gian và giả định rằng ảnh hưởng vẫn có tác động và giữ nguyên cho bước thời gian tiếp theo. Do đó, nó chưa thể được sử dụng để dự đoán sớm với dữ liệu lan truyền cập nhật liên tục khi phân tích những dữ liệu lớn.

Hướng phát triển tương lai

Toàn bộ những hạn chế đã nêu trên đều được Nghiên cứu sinh xác định sẽ là những nghiên cứu được chú trọng tiến hành trong thời gian tới, cụ thể:

- Với vấn đề nâng cao tớc độ dự báo lan truyền thơng tin, có thể tập trung mở rộng phương pháp để nâng cao tớc độ tính tốn của các phép đo khác trong phân tích đồ thị mạng xã hội như độ trung tâm gần, độ trung tâm eigenvector, độ trung tâm Pagerank..., đờng thời tiến hành phân tích những đờ thị phức tạp hơn ứng dụng vào các bài toán phát hiện điểm nóng, phát hiện cộng đờng, hay bài tốn dự báo lan truyền thông tin,...

- Với vấn đề nâng cao hiệu quả dự báo lan truyền, tiếp tục nghiên cứu sâu hơn về các khía cạnh ảnh hưởng bên ngồi có thể tác động đến quá trình lan truyền. Tức là kiểm tra ảnh hưởng bên ngoài làm thay đổi cấu trúc lan truyền và sử dụng sự thay đổi cấu trúc này để dự đoán hình dạng và kích thước lan truyền. - Chứng minh kết quả thực nghiệm của Luận án có thể ứng dụng vào hệ

Một phần của tài liệu (Luận án tiến sĩ) một số phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội (Trang 85 - 107)

Tải bản đầy đủ (PDF)

(107 trang)