Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,47 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - DƯƠNG NGỌC SƠN MỘT SỐ PHƯƠNG PHÁP NÂNG CAO HIỆU QUẢ DỰ BÁO LAN TRUYỀN THÔNG TIN TRÊN MẠNG XÃ HỘI Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội - 2022 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: TS Nguyễn Như Sơn TS Nguyễn Ngọc Cương Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Vào hồi… ngày tháng năm 20 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Trong thời đại công nghệ thông tin phát triển nay, việc sử dụng Internet trở nên phổ cập Thống kê Hootsuite We Are Social cho thấy, tính đến tháng 1/2020, tổng lượng người dùng Internet toàn giới đạt 4,54 tỷ Ngày có nhiều người sử dụng Internet đồng nghĩa với việc gia tăng nhu cầu sử dụng mạng xã hội Các số thống kê cho thấy lượng người dùng mạng xã hội nói chung toàn giới chạm ngưỡng xấp xỉ 3,8 tỷ chiếm 49% dân số Con người dành nhiều thời gian cho việc sử dụng Internet nói chung mạng xã hội nói riêng với nhu cầu sử dụng mạng xã hội lớn vậy, lượng thông tin mạng xã hội lớn Trong năm vừa qua, có nhiều nhà khoa học nhiều cơng trình nghiên cứu phân tích thơng tin mạng xã hội để khai thác nguồn liệu lớn Một số hướng nghiên cứu phân tích thơng tin mạng xã hội kể đến khai phá liệu mạng xã hội (phân tích hành vi, phát điểm nóng, tư vấn xã hội ); phân tích mơ hình liệu đồ thị (nghiên cứu lý thuyết đồ thị, phép đo, tính toán đồ thị, ); phát cộng đồng (phân tích cấu trúc cộng đồng mạng xã hội, mối quan hệ tương tác cộng đồng); an tồn thơng tin (bảo mật thông tin, phát thông tin sai lệch ) phân tích, dự báo lan truyền thơng tin Ngồi việc nghiên cứu, phân tích thơng tin mạng xã hội cịn có ý nghĩa thực tiễn Hiện nay, nhiều quan, doanh nghiệp có nhu cầu sử dụng hệ thống phân tích thơng tin mạng xã hội để phục vụ cho mục đích khác Ví dụ doanh nghiệp kinh doanh cần phân tích xu hướng lựa chọn hàng hóa người tiêu dùng, sở thích người dùng sản phẩm thị trường Các quan báo chí quan tâm đến chủ đề nóng quan tâm để tập trung khai thác Các doanh nghiệp cung cấp dịch vụ quan tâm đến thái độ, mức độ hài lòng người dùng dịch vụ cụ thể Bộ Thông tin Truyền thơng có nhu cầu việc đảm bảo an ninh thông tin quản lý luồng thông tin lan truyền mạng xã hội Bộ Công an có nhu cầu việc phân tích thơng tin, phát thơng tin sai thật, tìm kiếm nguồn phát tán thông tin, dự báo thông tin lan truyền để có phương án đấu tranh, xử lý Xuất phát từ thực tế trình làm việc, Nghiên cứu sinh tiếp xúc sử dụng trực tiếp số hệ thống phân tích thơng tin mạng xã hội đơn vị, tổ chức, doanh nghiệp ngồi nước Mỗi hệ thống có tính năng, đặc điểm riêng, nhiên, thực số nhiệm vụ như: thu thập thơng tin công khai mạng xã hội Facebook, Youtube, Twitter, bao gồm thông tin cá nhân (họ tên, ngày sinh, sở thích), danh sách bạn bè, viết, chia sẻ, quan tâm với chủ đề, thái độ, cảm xúc với nội dung, thông tin hội nhóm mà người dùng tham gia Từ đó, tổng hợp thơng tin, đưa phân tích chủ đề nóng, nội dung quan tâm với thái độ tích cực/tiêu cực, xác định người dùng có sức ảnh hưởng, xây dựng sơ đồ mối quan hệ người dùng quan trọng dự báo lan truyền thông tin Qua q trình sử dụng, có nhiều yêu cầu đặt để phát triển, cải tiến hệ thống bật hai nội dung đáng quan tâm, để tăng tốc độ phân tích, tính tốn dự báo lan truyền thơng tin việc phân tích thơng tin mạng xã hội nhiều thời gian thi hành dù cài đặt máy tính hiệu cao tăng độ xác việc dự báo lan truyền thông tin mạng xã hội Qua thời gian nghiên cứu, tìm hiểu, Nghiên cứu sinh xác định vấn đề trọng tâm để giải hai nội dung nêu Thứ nhất, mạng xã hội thường mơ hình hóa thành đồ thị với đỉnh cạnh, việc phân tích, dự báo lan truyền thông tin mạng xã hội phụ thuộc nhiều vào việc tính tốn phép đo đồ thị Với đặc điểm mạng xã hội số lượng người dùng ngày nhiều, mối quan hệ phức tạp, tương ứng với số đỉnh số cạnh đồ thị lớn, việc tính tốn đồ thị nhiều thời gian Việc tăng tốc độ phân tích, dự báo lan truyền thơng tin thực nhiều tiến trình, có việc tăng tốc độ tính tốn tham số phục vụ việc dự báo lan truyền Đây vấn đề nhiều nhà khoa học quan tâm thực tế, có nhiều nghiên cứu nhằm cải thiện việc tính tốn này, bật số phương pháp như: rút gọn đồ thị, tính xấp xỉ độ đo, song song hóa phép đo sử dụng công cụ phân tích siêu máy tính Trong q trình nghiên cứu, Nghiên cứu sinh có hội làm việc với nhóm nghiên cứu trường Đại học Cơng nghệ - Đại học Quốc gia Hà Nội phương án mà Nghiên cứu sinh đưa phạm vi Luận án kết hợp hai số phương pháp bao gồm rút gọn đồ thị song song hóa q trình tính tốn phép đo Độ trung tâm trung gian Độ trung tâm trung gian độ đo quan trọng việc xác định độ quan trọng người mạng xã hội, Saraswathi (2020) sử dụng Độ trung tâm trung gian để xác định đối tượng cần khoanh vùng sớm để chủ động ngăn chặn lây lan virus SARS-CoV-2 Toàn việc thử nghiệm thực máy tính hiệu cao trường Đại học Cơng nghệ kết nghiên cứu bao gồm mã nguồn thuật tốn đăng cơng khai Github Thứ hai, để tăng độ xác việc dự báo lan truyền thông tin mạng xã hội vấn đề khó để định lượng Về chất dự báo lan truyền thông tin việc tính tốn xác suất lan truyền thơng tin, từ tính gần kích thước (bậc) lan truyền Muốn tăng độ xác dự báo lan truyền, ta phải giảm sai số so sánh với kích thước lan truyền ước tính từ “sự thật bản” Như vậy, từ đầu, việc tính tốn xác suất lan truyền thơng tin phải xác Phần lớn mơ hình giới xây dựng dựa hai nguồn liệu đầu vào ảnh hưởng người dùng với (thông tin lịch sử tương tác) ảnh hưởng từ sở thích người dùng Tuy nhiên, dựa hai nguồn chưa thể đảm bảo tính xác mơ hình dự báo Điều bắt nguồn từ chất mơ hình dự báo xây dựng dựa lý thuyết đồ thị hàm số khác với đồ thị hàm số thông thường, đỉnh cạnh mạng xã hội giá trị ngẫu nhiên mang tính cá nhân, chẳng hạn người chọn đọc hay không đọc viết này, chia sẻ không chia sẻ thông tin bị nhiều yếu tố tác động, ảnh hưởng từ ngồi mạng xã hội tác động chiếm phần không nhỏ Nghiên cứu vấn đề này, Nghiên cứu sinh tham gia với nhóm nghiên cứu Viện Cơng nghệ thơng tin - Viện Hàn lâm Khoa học Công nghệ Việt Nam, kết xây dựng mơ hình dự báo lan truyền thông tin kết hợp yếu tố ảnh hưởng từ bên xã hội Kết nghiên cứu ứng dụng đề tài cấp Viện Hàn lâm “Xây dựng hệ thống giám sát dự báo thông tin lan truyền mạng xã hội Việt Nam” Mục tiêu nghiên cứu Mục tiêu Luận án nghiên cứu, phát triển, cải tiến số phương pháp nâng cao hiệu việc dự báo lan truyền thông tin mạng xã hội, nằm chủ đề lớn nâng cao hiệu phân tích mạng xã hội phục vụ cơng tác nghiên cứu khả ứng dụng vào thực tế Kết Luận án phải giải 02 vấn đề nâng cao tốc độ (hay giảm thời gian) tính tốn, phân tích thơng tin phục vụ dự báo lan truyền thơng tin tăng độ xác (hay giảm thiểu sai số) dự báo lan truyền thông tin mạng xã hội Với mục tiêu đặt ra, luận án thu kết sau: 1) Đề xuất phương pháp nâng cao tốc độ tính tốn, phân tích phục vụ dự báo lan truyền thơng tin mạng xã hội Đóng góp trình bày Chương luận án 2) Đề xuất phương pháp nâng cao độ xác dự báo lan truyền thơng tin Đóng góp trình bày Chương luận án CHƯƠNG TỔNG QUAN VỀ LAN TRUYỀN THÔNG TIN TRÊN MẠNG XÃ HỘI 1.1 Khái niệm mạng xã hội Mạng xã hội đóng vai trị quan trọng việc truyền bá thông tin quy mô lớn Đến nay, nhiều nghiên cứu thực để tìm hiểu trình này, từ tốn khai phá liệu để phát chủ đề quan tâm, phát điểm nóng, nhận diện người dùng có ảnh hưởng mạng xã hội đến việc phân tích, nghiên cứu mơ hình lan truyền thông tin Mạng xã hội cho phép hàng tỷ người dùng Internet toàn giới kết nối, đăng truyền tải nội dung Người dùng tiếp xúc thành phần tạo nguồn thông tin lớn Việc truyền bá thông tin tạo tác động mạnh mẽ, ví dụ việc tạo sóng cách mạng Facebook vụ việc mùa xuân Ả Rập năm 2010 hay gây tác động Twitter bầu cử tổng thống Hoa Kỳ năm 2008, Do tác động mạng xã hội đời sống thực, trọng tâm nghiên cứu gần tập trung vào việc phát cộng đồng khai thác thơng tin có giá trị từ lượng liệu khổng lồ Các kiện diễn phát triển nhanh mạng xã hội, việc nắm bắt, tìm hiểu dự đoán kiện vấn đề quan tâm nhiều đối tượng khác từ tổ chức, doanh nghiệp đến nhà nghiên cứu Thực tế cho thấy việc nắm bắt mối quan hệ cộng đồng mạng xã hội phát triển mạng xã hội giúp điều chỉnh hành vi dự báo kiện tốt việc phân tích tối ưu hóa hiệu kinh doanh cách tạo chiến dịch tiếp thị xã hội; điều chỉnh hành vi cộng đồng người dùng thơng qua cá nhân có sức ảnh hưởng xã hội; hay việc phân tích biểu tình từ giải vấn đề an ninh ngăn chặn công khủng bố, dự báo nguồn thơng tin có tác động xấu đến xã hội Do đó, phát triển kỹ thuật mơ hình để phát cộng đồng, nắm bắt phát triển mạng xã hội lan truyền thông tin mạng xã hội chủ đề mà nhà nghiên cứu quan tâm năm gần 1.2 Các lĩnh vực nghiên cứu phân tích mạng xã hội - Khai phá liệu mạng xã hội: ứng dụng lĩnh vực như: phân tích hành vi, phát điểm nóng tư vấn xã hội - Phân tích mơ hình liệu đồ thị: ứng dụng việc quản lý liệu quy mô lớn liệu mạng xã hội - Phát cộng đồng: từ mạng xã hội cho trước, phát cấu trúc cộng đồng tìm hiểu mối quan hệ cá nhân, từ giải tốn cá nhân/hay mối quan hệ ảnh hưởng đến cấu trúc toàn mạng xã hội - Dự báo lan truyền thơng tin: q trình mà đổi thông tin truyền đạt qua kênh định theo thời gian thành viên mạng xã hội - An tồn thơng tin: giải vấn đề rị rỉ thơng tin, hạn chế khử nhiễm thông tin sai lệch 1.3 Bài toán nâng cao hiệu dự báo lan truyền thông tin mạng xã hội Lan truyền q trình mà đổi thơng tin truyền đạt qua kênh định theo thời gian thành viên mạng xã hội Có ba yếu tố quan trọng trình là: thành viên mạng xã hội, tương tác lẫn kênh truyền thông Việc nghiên cứu q trình lan truyền hồn cảnh cụ thể tảng giúp người giải vấn đề liên quan đến lan truyền thực tế như: lan truyền dịch bệnh (trong y học, dịch tễ học), lan truyền ý kiến, tư tưởng cá nhân xã hội, phát tán virus mạng máy tính, lan truyền thơng tin mạng xã hội Lan truyền thơng tin tốn phân tích mạng xã hội điển hình với nhiều ứng dụng tiềm giới thực Ví dụ: sử dụng để dự đốn kiện xã hội lớn Mùa xuân Ả Rập; để tăng hiệu suất phản hồi sản phẩm, dịch vụ; để tối đa hóa hiệu quảng cáo tới người dùng Tuy nhiên, để đưa kết dự báo lan truyền thông tin tốn khó nhiều thời gian Một nguyên nhân dẫn đến việc nhiều thời gian mạng xã hội ngày lớn, số lượng người dùng ngày nhiều, mối quan hệ phức tạp, mơ hình hóa dạng đồ thị để tính tốn số lượng đỉnh (người dùng) số lượng cạnh (mối quan hệ) lớn làm cho q trình tính tốn phức tạp Từ đó, nhiều nghiên cứu đưa để tăng tốc độ phân tích, dự báo lan truyền thơng tin Ngồi ra, lan truyền thơng tin tính tốn dựa xác suất, mạng xã hội, xác suất phụ thuộc vào nhiều yếu tố ảnh hưởng mối quan hệ người truyền tin người tiếp nhận thông tin, mối quan tâm người tiếp nhận thông tin ảnh hưởng từ mơi trường xã hội bên ngồi Vì việc làm tăng độ xác dự báo lan truyền thông tin mạng xã hội nhiều nhà nghiên cứu quan tâm 1.4 Các hướng nghiên cứu liên quan 1.4.1 Nâng cao tốc độ dự báo lan truyền thông tin Rút gọn đồ thị phương pháp hiệu số nghiên cứu giảm thời gian phân tích, tính tốn tham số phục vụ dự báo lan truyền thông tin Bản chất việc rút gọn đồ thị loại bỏ/thay đỉnh, cạnh không cần thiết/không quan trọng để thu đồ thị gọn giữ đỉnh quan trọng tính chất cần thiết đồ thị Feder (1995) Adler (2001) đề cập đến việc rút gọn phương pháp nén đồ thị Trong đó, Feder đưa phương pháp nén cách sử dụng thuật toán phân vùng cho đồ thị lưỡng phân; Adler đưa tốn nén tốn tìm bao trùm tối thiểu Về bản, phương pháp nén đồ thị cho kết đồ thị gọn hơn, nhiên, thường phục vụ cho tốn lưu trữ đồ thị (dữ liệu cấu trúc) Ngoài ra, tốn phân tích mạng xã hội với liệu thay đổi liên tục, phương pháp nén đồ thị khơng phù hợp việc chuyển đổi liên tục đồ thị gốc đồ thị nén không khả thi Gilbert (2004) đưa số phương pháp rút gọn đồ thị với thuật toán KeepOne, KeepAll phương pháp xóa đỉnh thừa RVE (Redundant Vertex Elimination) Trong đó, thuật tốn KeepOne tương tự phương pháp Adler, tức tìm bao trùm tối thiểu cho đồ thị Thuật toán cho phép giữ tối đa số đỉnh quan trọng đỉnh nằm đỉnh quan trọng đó, nhiên, nhược điểm lớn thuật tốn khơng bảo toàn đường ngắn hai đỉnh Ngược lại với nó, KeepAll thuật tốn cho phép giữ lại đường ngắn đỉnh quan trọng lại xóa tương đối nhiều đỉnh nằm chúng Có thể nói, hai thuật tốn có điểm mạnh riêng phù hợp trường hợp định (ví dụ KeepOne phù hợp với toán quy hoạch mạng, KeepAll phù hợp với tốn tìm đường ngắn giao thơng), nhiên, chúng khơng phù hợp cho tốn phân tích mạng xã hội RVE phương pháp gần với việc phân tích, tính tốn mạng xã hội, phương pháp cho phép loại bỏ đỉnh có chung đỉnh lân cận liền kề Phương pháp thường áp dụng rút gọn mạng truyền thông với việc loại bỏ nút dự phịng khơng cần thiết, áp dụng phân tích mạng xã hội, xóa đỉnh khơng quan trọng, cần lưu ý bên cạnh đỉnh quan trọng có chung liền kề, số bị loại bỏ Luận án Dũng (2019) đưa phương pháp rút gọn dựa thay đỉnh tương đương (đỉnh treo đỉnh sườn), sau tính độ trung tâm trung gian đồ thị rút gọn Ưu điểm phương pháp đồ thị gọn Tuy nhiên, với việc thay đổi nhiều đồ thị gốc, phương pháp áp dụng với đồ thị nhỏ cỡ 100-1000 đỉnh, 500-5000 cạnh thực nghiệm Song song hóa phép đo phương pháp nhiều nhà nghiên cứu quan tâm tính hiệu việc giảm thời gian tính tốn đồ thị Hạnh (2018) nghiên cứu sát với ý tưởng Nghiên cứu sinh với việc áp dụng song song hóa q trình tính tốn Độ trung tâm gần sâu vào việc cấu trúc lại liệu Phương pháp có hiệu rõ ràng, nhiên so với hướng Nghiên cứu sinh nêu kết hợp với việc rút gọn đồ thị ứng dụng việc tăng tốc độ dự báo lan truyền thông tin phương pháp Hạnh khơng áp dụng Bernaschi (2015), Fan (2017) McLaughlin (2018) có ý tưởng giống với Nghiên cứu sinh đưa giải pháp nâng cao tốc độ tính Độ trung tâm trung gian cách song song hóa q trình tính tốn sử dụng xử lý đồ hoạ GPU Việc sử dụng GPU mang lại hiệu cao việc tăng tốc độ tính tốn, nhiên GPU phù hợp để sử dụng với việc tính tốn đồ thị tĩnh, khơng có thay đổi Ngồi ra, giải pháp song song hóa với GPU sử dụng giải thuật tính tốn Độ trung tâm trung gian Brandes giống với ý tưởng Nghiên cứu sinh, đó, tương lai, Nghiên cứu sinh có tính toán với việc kết hợp sử dụng GPU để áp dụng cho phương pháp Đối với phương pháp tính xấp xỉ, Mahmoody (2016) Riondato (2016) đưa ý tưởng tính nhanh xấp xỉ Độ trung tâm trung gian dựa kỹ thuật lấy mẫu Theo phương pháp này, số đường ngắn lấy mẫu ngẫu nhiên, từ áp dụng thuật tốn để ước tính khoảng cách đỉnh tính gần Độ trung tâm trung gian Tuy nhiên, phân tích đồ thị mạng xã hội, việc lấy mẫu ngẫu nhiên khơng phải lúc xác làm đánh giá Wei (2016) đề xuất sử dụng công cụ GraphLab Apache Giraph hạ tầng tính tốn phức tạp hệ thống máy tính cụm hay siêu máy tính hiệu cao Có thể thấy, cơng cụ thiết kế để phân tích, tính tốn mạng quy mơ lớn đến hàng nghìn tỷ cạnh Tuy nhiên, chúng không thực hiệu tốn tính tốn với mạng thực cỡ không lớn Facebook, Youtube với số lượng đỉnh nhỏ 232 Ngoài phương pháp trên, để cải thiện hiệu tính tốn đồ thị thường sử dụng phương pháp song song hố cơng cụ NetworKit hay công cụ TeexGraph để phục vụ phân tích mạng xã hội quy mơ lớn Các cơng cụ sử dụng mơ hình song song chia sẻ nhớ sử dụng thư viện OpenMP để song song hố q trình tính tốn độ đo có Độ trung tâm trung gian Trong Luận án, Nghiên cứu sinh sử dụng hai công cụ làm thước đo để đánh giá hiệu phương pháp 1.4.2 Nâng cao độ xác dự báo lan truyền thông tin Để đưa phương án giải tốn tăng độ xác dự báo lan truyền thơng tin địi hỏi phải xem xét ảnh hưởng khác lan truyền thông tin Kwak (2010) xem xét ảnh hưởng người dùng đến việc lan truyền thông tin cách xem xét cấu trúc mạng sử dụng biến thể thuật tốn PageRank để xếp hạng người dùng có ảnh hưởng mạng xã hội Twitter theo dõi (follow) qua lại người dùng Haveliwala (2002) sử dụng loạt vector PageRank để tính điểm số quan trọng theo truy vấn đến trang, từ xác định ảnh hưởng nội dung cụ thể đến việc lan truyền thông tin Weng (2010) xem xét kết hợp ảnh hưởng người dùng nội dung cách sử dụng thuật toán TwitterRank, phần mở rộng PageRank, để đo lường ảnh hưởng người dùng Twitter, có tính tốn đến tương đồng chủ đề nội dung mà người dùng đăng tải Tuy nhiên, vấn đề phương pháp cấu trúc mạng tương đối tĩnh so với hoạt động người dùng mạng xã hội, ứng dụng phương pháp chủ yếu thử nghiệm mạng xã hội Twitter với cấu trúc quan hệ theo dõi chiều Myers (2012) Wu (2015) xem xét ảnh hưởng xu hướng bên ngoài, Myers nghiên cứu việc tiếp nhận thơng tin truyền thơng bên ngồi người dùng so sánh với thông tin truyền qua liên kết người dùng để đánh giá ảnh hưởng đến việc truyền bá thông tin; Wu kết hợp ảnh hưởng xu hướng bên ngồi với mơ tả xã hội dựa chủ đề đề xây dựng mơ hình lan truyền thơng tin dựa chủ đề từ ứng dụng dự báo lan truyền Việc xem xét ảnh hưởng bên chứng minh tác động đến người dùng mạng xã hội, nhiên, hướng nghiên cứu xem xét việc người dùng tiếp nhận thơng tin bên ngồi, khác với hướng Nghiên cứu sinh xem xét ảnh hưởng bên ngồi tác động đến việc thơng tin truyền người dùng Dự đốn kích thước lan truyền hay kích thước bậc lan truyền thơng tin nội dung nhiều nhà nghiên cứu tiếp cận theo nhiều hướng khác Cohen (2014), Kempe (2003) Lucier (2015) ước tính kích thước lan truyền thơng qua lấy mẫu tức sử dụng số lượng mẫu cố định để ước tính kích thước dự kiến bậc, Cohen Kempe sử dụng thuật tốn tham lam tính xấp xỉ kích thước bậc; Lucier sử dụng phương pháp lấy mẫu với hạ tầng tính tốn phân tán MapReduce Hướng nghiên cứu có ứng dụng cụ thể ước tính tổng số lượt bình chọn cho báo, ước tính số lượng cụm từ tin tức giờ, ước tính tổng số lượng sử dụng hash-tag ngày Tuy nhiên, mạng xã hội, thơng thường khơng có kích thước mẫu phù hợp với tất mạng Bakshy (2009), Szabo (2010), Jenders (2013) Kupavskii (2012) dự đốn kích thước lan truyền cách xác định số hàm tương quan với biến phụ thuộc kích thước lan truyền xác suất kích hoạt Sau đó, Bakshy Szabo sử dụng hồi quy tuyến tính cịn Jenders Kupavskii sử dụng thuật tốn phân loại để ước tính giá trị biến phụ thuộc Về bản, hồi quy phân loại hai phương pháp Học có giám sát (Supervised Learning), đó, phương pháp hướng nghiên cứu khác với Luận án Nghiên cứu sinh muốn sử dụng kết xác suất kích hoạt đưa phương pháp ước tính kích thước lan truyền để tăng độ xác dự báo 1.5 Phương pháp đề xuất Từ phân tích nêu trên, Luận án, Nghiên cứu sinh đề xuất hai phương pháp để giải hai toán đặt Thứ nhất, sử dụng kỹ thuật rút gọn đồ thị song song hóa q trình tính tốn Độ trung tâm trung gian để giảm thời gian phân tích, tính tốn phục vụ việc dự báo lan truyền thông tin Cụ thể, dựa ý tưởng phương pháp xóa đỉnh thừa RVE, Nghiên cứu sinh đưa phương pháp rút gọn phù hợp phân tích đồ thị mạng xã hội rút gọn đồ thị dựa việc thay đỉnh tương đương bậc Nghĩa là, trình rút gọn, ta xét đến đỉnh treo deg(v) = 1, sau đó, q trình duyệt đồ thị, xác định đỉnh treo có tập liền kề giống nhau, ta lựa chọn đỉnh làm đại diện thay cho đỉnh lại Kết quả, với đồ thị gọn giảm bớt thời gian cho việc tính tốn đồ thị xét đến đỉnh không quan trọng Dựa nghiên cứu Zhang (2020) Hinz (2011) chứng minh ảnh hưởng Độ trung tâm trung gian đỉnh đồ thị đến tiếp nhận lan truyền thông tin, Nghiên cứu sinh tiến hành song song hóa phép tính thuật tốn tính Độ trung tâm trung gian Brandes với mơ hình lập trình luồng song song CPU, sử dụng thư viện CilkPlus Có ba lưu ý, việc rút gọn làm giảm quy mô đồ thị thay đổi kết tính tốn phép đo, nhiên đảm bảo giữ nguyên tính chất “quan trọng” đỉnh trung tâm; hai tính tốn đồ thị với số lượng đỉnh cạnh lớn, có việc tính Độ trung tâm trung gian tốn khó việc song song, số kỹ thuật xử lý, Luận án giải vấn đề này; ba phạm vi Luận án xét đến đơn đồ thị - kết nối - có hướng - khơng trọng số, điều mô tả rõ Chương II Luận án Thứ hai, đề xuất phương pháp nâng cao độ xác dự báo lan truyền thơng tin cách đưa phương pháp tính xác suất chấp nhận thông tin người dùng (hay xác suất lan truyền) mạng xã hội theo mơ hình Bậc độc lập dựa 03 thông số: quan hệ người dùng, sở thích với nội dung ảnh hưởng từ bên ngồi Từ xác suất tính, xây dựng Cây lan truyền “có khả nhất” cho nội dung cụ thể để ước tính kích thước lan truyền q trình lan truyền thơng tin Lưu ý định lượng xác suất người dùng chấp nhận nội dung mạng xã hội trực tuyến nhiệm vụ khó khăn vấn đề mạng tính chủ quan cao, việc định phụ thuộc vào nhiều yếu tố khơng thể xác định xác chế thúc đẩy người dùng thực hành động Hơn nữa, yếu tố tác động đến người dùng có ảnh hưởng thời gian định, đòi hỏi phải đánh giá liên tục hành vi người dùng nội dung lan truyền Vì vậy, phương pháp Luận án xem xét đến hai yếu tố, kiểm tra lịch sử tương tác người dùng xác định ảnh hưởng mối quan hệ người dùng tác động đến việc định chấp nhận nội dung; hai định lượng tác động ảnh hưởng bên đến việc người dùng chấp nhận nội dung CHƯƠNG NÂNG CAO TỐC ĐỘ DỰ BÁO LAN TRUYỀN THƠNG TIN 2.1 Mở đầu Như trình bày Chương 1, việc tính tốn để đưa kết lan truyền thơng tin tốn phức tạp nhiều thời gian Để tăng tốc độ dự báo lan truyền thơng tin thực nhiều cơng đoạn, tiến trình khác nhau, có việc tăng tốc độ hay giảm thời gian tính tốn tham số phục vụ việc dự báo lan truyền Dựa ứng dụng lý thuyết đồ thị, rút gọn đồ thị phương pháp đơn giản hiệu việc giảm thời gian tính tốn tham số phục vụ việc phân tích nói chung dự báo lan truyền nói riêng Việc loại bỏ đỉnh cạnh không quan trọng đồ thị làm q trình tính tốn đơn giản gọn gàng Điều quan trọng ta phải chứng minh phương pháp rút gọn không làm ảnh hưởng đến mơ hình chung đồ thị Bên cạnh đó, việc tăng tốc thực cơng đoạn tính tốn tham số phục vụ phân tích, dự báo Trong tốn phân tích đồ thị, tham số thiết yếu cần phải xác định độ trung tâm với mục đích để xác định đỉnh quan trọng (trung tâm) đồ thị Xác định độ trung tâm giúp xác định tâm vùng dịch bệnh, nút mạng lưới Internet hay người có ảnh hưởng mạng xã hội Kumar (2021) chứng minh ảnh hưởng tầm quan trọng việc tính toán độ trung tâm toán dự báo phát tán dịch bệnh lan truyền thông tin Trong phép đo độ trung tâm, bên cạnh Độ trung tâm bậc, Độ trung tâm gần, Độ trung tâm vector riêng, Độ trung tâm trung gian (Betweenness Centrality - BC) độ đo quan trọng, có giá trị việc xác định đỉnh cầu nối trung gian xác lập mối quan hệ (đường đi) ngắn đỉnh khác Độ trung tâm trung gian Freeman đưa khái niệm từ năm 1977, đó, ơng đỉnh có xác suất cao nằm đường ngắn đỉnh chọn ngẫu nhiên có Độ trung tâm trung gian cao Zhang (2020) Hinz (2011) chứng minh ảnh hưởng Độ trung tâm trung gian việc tiếp nhận lan truyền thơng tin người dùng Để tính Độ trung tâm trung gian cho tất đỉnh đồ thị G, ta phải giải tốn tìm đường ngắn tất cặp đỉnh G, tức giải toán All-Pairs Shortest Path (APSP) Một số phương pháp giải tốn APSP kể đến giải thuật FloydWarshall, giải thuật Johnson giải thuật Brandes So với việc tính APSP giải thuật Floyd-Warshall (độ phức tạp tính tốn O(|V|3)) giải thuật Johnson (với độ phức tạp O(|V|2log(|V|) + |V||E|)) giải thuật Brandes với độ phức tạp thời gian O(|V||E|) đồ thị không trọng số O(|V||E| + |V| log(|E|)) đồ thị có trọng số phương án hiệu Thuật toán giải thuật Brandes với đồ thị không trọng số minh hoạ Thuật toán 2.1 đây: Thuật tốn 2.1 Giải thuật tính Độ trung gian trung tâm Brandes Input: Đồ thị G = (V,E) tổ chức theo mảng vector Edges[][] Data: queue Q ← empty, stack S khởi tạo rỗng chứa |V| đỉnh; dist[v]: khoảng cách từ đỉnh nguồn đến v; Pred[v]: danh sách đỉnh đường ngắn từ đỉnh nguồn đến v; σ[v]: số đường ngắn từ đỉnh nguồn đến v; δ[v]: số đường ngắn từ nguồn qua v; Output: BC[.] với v ∈ V 1: foreach s = to Edges.size() 2: foreach v ∈ V Pred[v] ← empty list; dist[v] ← ∞; σ[v] ← 0; 3: dist[s] ← 0; σ[s] ← 1; Q.push(s); 4: while Q not empty 5: v ← Q.pop(); S.push(v); 6: foreach w ∈ Edges[v] 7: if dist[w] == ∞ then dist[w] ← dist[v] + 1; Q.push(w); 8: if dist[w] == dist[v] + then σ[w] ← σ[w] + σ[v]; Pred[w].push_back(v); 9: end 10: end 11: foreach v ∈ V δ[v] ← 0; 12: while S not empty 13: w ← S.pop(); 𝜎[𝑣] 14: for v ∈ Pred[w] δ[v] ← δ[v] + 𝜎[𝑤].(1+ δ[w]); 15: if w ≠ s then BC[w] ← BC[w] + δ[w]; 16: end 17: end 18: return BC[.]; Mặc dù so với hai giải thuật cịn lại, giải thuật Brandes có độ phức tạp thời gian thấp việc tính xác Độ trung tâm trung gian, nhiên, với đặc điểm mạng xã hội đồ thị với số lượng thành viên (số đỉnh) số lượng quan hệ (số cạnh) lớn, việc tính tốn nhiều thời gian Trong Chương II Luận án, Nghiên cứu sinh trình bày phương pháp giúp nâng cao tốc độ tính tốn dự báo lan truyền thơng tin cách tích hợp hai ý tưởng: Kỹ thuật rút gọn đồ thị dựa thay đỉnh tương đương bậc Kỹ thuật song song hóa q trình tính Độ trung tâm trung gian thuật toán Brandes với mơ hình lập trình luồng song song CPU sử dụng thư viện CilkPlus 2.2 Nâng cao tốc độ dự báo lan truyền thông tin 2.2.1 Rút gọn đồ thị Việc trình rút gọn đồ thị phải xác định đỉnh tương đương bậc Bậc nghĩa đỉnh treo deg(v) = tương đương nghĩa chúng phải có tập đỉnh liền kề Г(v) trùng Và chúng đỉnh bậc (có đỉnh liền kề nhất) nên nói việc ta cần làm tìm đỉnh treo có chung đỉnh liền kề Để thực điều này, ta cần tiến hành trình duyệt đồ thị Trong xem xét việc sử dụng phương pháp duyệt theo chiều rộng trước (BFS) hay duyệt theo chiều sâu trước (DFS), nhận thấy pha thuật tốn tính BC Brandes mà cải tiến việc duyệt theo chiều rộng trước Vì vậy, tiến hành lồng ghép việc rút gọn đồ thị vào pha duyệt đồ thị tức sử dụng phương pháp BFS Sau xác định đỉnh tương đương trên, việc thay chúng hiểu chọn đỉnh làm đại diện, hay tức xóa đỉnh tương đương để 11 10 1.29 1.32 1.31 1.30 1.23 1.25 1.25 1.24 1.24 1.24 1.25 1.26 1.18 1.19 1.18 1.20 Bảng So sánh thời gian lan truyền (s) 2.2.2 Song song hóa q trình tính tốn độ trung tâm trung gian Trước hết, để biểu diễn đồ thị có ba phương pháp chính, là: danh sách cạnh, ma trận liền kề danh sách liền kề Trong đồ thị quy mô tương đối lớn, phương pháp danh sách cạnh đơn giản việc tính tốn đồ thị chèn, xóa đỉnh khó; phương pháp ma trận liền kề sử dụng giới hạn kích thước nhớ Do đó, phù hợp phương pháp danh sách liền kề Như vậy, liệu đỉnh, đồ thị G = (V, E), đỉnh gán giá trị từ đến |V| - Đối với liệu cạnh, vector đỉnh xếp để biểu diễn cạnh đồ thị, hay liệu cạnh biểu diễn mảng vector Thứ hai, việc tính Độ trung tâm trung gian BC theo phương pháp Brandes phụ thuộc phần lớn vào trình duyệt đồ thị BFS Để giảm kích thước hàng đợi duyệt, duyệt đỉnh u, sử dụng mảng Maps mà vị trí bit thứ v thể trạng thái duyệt hay chưa đỉnh v Hàng đợi Queue tổ chức để lưu giá trị khoảng cách ngắn từ u đến đỉnh duyệt Queue Do kích thước hàng đợi Queue mảng đánh dấu duyệt Maps lớn (có số phần tử bẳng V) nên việc cấp phát nhớ nhiều thời gian Vì vậy, ta cấp phát trước nhớ chứa mảng tương ứng với số luồng thi hành song song Thứ ba, để khai thác hiệu CPU đa lõi, phương án song song hóa q trình tính tốn Độ trung tâm trung gian BC Luận án thi hành song song phép tính BC đỉnh khác khơng phải song song q trình duyệt tính đường ngắn từ đỉnh đến tất đỉnh lại (SSSP) Cách tiếp cận cho phép việc duyệt SSSP thực luồng chuyên biệt, từ cải thiện tốc độ truy cập nhớ cache Thứ tư, thư viện để song song hóa kể đến CilkPlus, OpenMP Pthread, A Leist A Gilman (2010) thực nghiệm chứng minh thư viện CilkPlus cho hệ số tăng tốc tốt so với OpenMP Pthread Theo đó, sử dụng thư viện Cilkplus để cài đặt q trình tính tốn song song Cuối cùng, nói tính tốn đồ thị với số lượng đỉnh cạnh lớn, có việc tính Độ trung tâm trung gian BC tốn tương đối khó việc song song Nguyên nhân Pha thuật tốn q trình tích lũy u cầu phải có kỹ thuật điều khiển đồng thời để xử lý liệu tích lũy từ luồng song song Trong trình nghiên cứu, thử nghiệm, Luận án, Nghiên cứu sinh thêm vào vector reducerBC[v] thư viện Cilkplus Về mặt kỹ thuật, reducer cho phép tạo biến tích lũy riêng cho luồng kết hợp biến tích lũy riêng luồng dẫn đến kết theo thứ tự luồng kết thúc Tức vector reducerBC[v] cho phép cập nhật tương tranh giá trị BC đỉnh v thi hành song song với thư viện Cilkplus Từ đó, Độ trung tâm trung gian BC thi hành song song minh họa giải thuật kết hợp với rút gọn đồ thị sau đây: Thuật toán 2.3 Giải thuật kết hợp Input: Đồ thị G = (V,E) Data: queue Q ← empty, stack S khởi tạo rỗng chứa |V| đỉnh; dist[v]: khoảng cách từ đỉnh nguồn đến v; Pred[v]: danh sách đỉnh đường ngắn từ đỉnh nguồn đến v; 12 σ[v]: số đường ngắn từ đỉnh nguồn đến v; δ[v]: số đường ngắn từ nguồn qua v; reducerBC[v]: vector chứa giá trị BC đỉnh v cho phép cập nhật tương tranh thi hành song song với thư viện Cilk Plus; Output: BC[.] với v ∈ V /* thi hành song song sử dụng thư viện CilkPlus */ 1: for s = to Edges.size() /* Pha Duyệt đồ thị */ 2: dist[s] ← 0; σ[s] ← 1; Q.push(s); 3: foreach v ∈ V Pred[v] ← empty list; dist[v] ← ∞; σ[v] ← 0; 4: while Q not empty 5: v ← Q.pop(); S.push(v); /* Rút gọn đồ thị */ 6: foreach w ∈ Edges[v] && Edges[w].Size() = 7: if u ∈ Edges[v] && Edges[u].Size() = then 8: Edges[v] ← Edges[v]\{u} /* xóa u khỏi danh sách liền kề v */ 9: Edges[u] = {} /* xóa đỉnh u */ 10: end 11: foreach w ∈ Edges[v] 12: if dist[w] == ∞ then dist[w] ← dist[v] + 1; Q.push(w); 13: if dist[w] == dist[v] + then σ[w] ← σ[w] + σ[v]; Pred[w].push_back(v); 14: end /* Pha Tích lũy */ 15: foreach v ∈ V δ[v] ← 0; 16: while S not empty 17: w ← S.pop(); 𝜎[𝑣] 18: for v ∈ Pred[w] δ[v] ← δ[v] + 𝜎[𝑤].(1+ δ[w]); 19: if w ≠ s then reducerBC[w] ← reducerBC[w] + δ[w]; 20: end 21: end 22: reducerBC.move_out(BC); 23: return BC[.]; Thuật tốn 2.3 cho phép song song hóa q trình tính tốn Độ trung tâm trung gian theo phương pháp Brandes, sử dụng thư viện Cilkplus Thuật toán kết hợp với việc rút gọn đồ thị (điều kiện thỏa mãn kết hợp trình bày mục 2.2.3 đây) Có thể |𝑉|∗|𝐸| thấy, độ phức tạp thời gian giải thuật 𝑂( ) Tức là, triển khai giải thuật 𝑡 với luồng t = 1, tương đương độ phức tạp giải thuật Brandes 𝑂(|𝑉 | ∗ |𝐸 |) Tuy nhiên, giải thuật thi hành song song với t luồng, độ phức tạp thời gian giải thuật giảm t lần 2.2.3 Phương pháp kết hợp hai kỹ thuật Phương pháp Luận án kết hợp hai kỹ thuật rút gọn đồ thị song song hóa q trình tính tốn Độ trung tâm trung gian, lồng ghép q trình rút gọn đồ thị vào pha duyệt đồ thị thuật tốn tính Độ trung tâm trung gian Tuy nhiên, để thực điều này, ta phải chứng minh hai nội dung nêu trên, thứ nhất, đỉnh rút gọn đỉnh không quan trọng, việc rút gọn không ảnh hưởng đến mơ hình chung đồ thị; thứ hai, độ quan trọng đỉnh trung tâm bảo toàn Để chứng minh điều này, thử nghiệm đồ thị đơn giản với 19 đỉnh, 28 cạnh Hình đây: 13 Hình Đồ thị trước rút gọn Áp dụng cơng thức tính độ trung tâm trung gian BC độ trung tâm gần CC, ta thu kết Bảng 2: Vertice BC A B 24 C 71 D E CC 0.24 0.24 0.36 0.31 0.29 Vertice BC 49 F 24 G H 176 I J 163 CC 0.37 0.35 0.44 0.31 0.45 Vertice BC K 133 10 L 10 M N O CC 0.42 0.37 0.37 0.31 0.31 Vertice BC P 66 Q R S CC 0.32 0.33 0.25 0.25 Bảng Kết tính BC CC trước rút gọn Như vậy, H đỉnh có độ trung tâm trung gian cao BC[H]=176 (sau đến đỉnh J K), J đỉnh có độ trung tâm gần cao CC[J]=0,45 (sau đến đỉnh H K) Với đồ thị đơn giản cỡ nhỏ, trực quan ta thấy đỉnh A B đỉnh tương đương bậc 1, tương tự đỉnh R S đỉnh tương đương bậc Áp dụng phương pháp rút gọn đồ thị đề xuất, ta thu đồ thị sau rút gọn Hình 4: Hình Đồ thị sau rút gọn Áp dụng công thức tính Độ trung tâm trung gian BC Độ trung tâm gần CC với đồ thị sau rút gọn, ta thu kết Bảng 3: Vertice BC A B 14.67 C 35 D E CC Vertice BC CC Vertice BC 0.24 37.67 0.38 F K 98 14.67 0.36 G L 0.37 H 140 0.47 M 0.31 0.33 I N 0.30 J 129 0.48 O CC Vertice BC 0.44 P 0.39 30 Q 0.39 R 0.32 S 0.33 CC 0.33 0.33 0.25 - Bảng Kết tính BC CC trước rút gọn Sau rút gọn, H đỉnh có độ trung tâm trung gian cao BC[H]=140 (sau 14 đến đỉnh J K), J đỉnh có độ trung tâm gần cao CC[J]=0,48 (sau đến đỉnh H K) Ngoài ra, NCS đặt ngưỡng cho phép chênh lệch giá trị độ trung tâm Δ=30% Với kết từ bảng 2.2 bảng 2.3 cho thấy, độ chênh lệch độ trung tâm sau rút gọn đỉnh