1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội

69 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 5,66 MB

Nội dung

(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội(Luận văn thạc sĩ) Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề trên mạng xã hội

BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VI MẠNH TUYÊN Vi Mạnh Tuyên NGHIÊN CỨU PHƯƠNG PHÁP NGĂN CHẶN PHÁT TÁN HỆ THỐNG THÔNG TIN THÔNG TIN SAI LỆCH ĐA CHỦ ĐỀ TRÊN MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH 2021 Hà Nội – 2021 BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Vi Mạnh Tuyên NGHIÊN CỨU PHƯƠNG PHÁP NGĂN CHẶN PHÁT TÁN THÔNG TIN SAI LỆCH ĐA CHỦ ĐỀ TRÊN MẠNG XÃ HỘI Chuyên ngành : Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC : TS TRẦN ĐỨC NGHĨA TS NGUYỄN VIỆT ANH Hà Nội – 2021 LỜI CAM ĐOAN Tôi Vi Mạnh Tuyên, học viên khóa 2019B, ngành Máy tính, chun ngành Hệ Thống Thơng Tin Tơi xin cam đoan luận văn “Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề mạng xã hội” tơi nghiên cứu, tìm hiểu thực hướng dẫn TS Trần Đức Nghĩa TS Nguyễn Việt Anh Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2021 Tác giả Vi Mạnh Tuyên LỜI CẢM ƠN Lời cảm ơn trân trọng em muốn dành tới thầy cô Học viện khoa học công nghệ Việt Nam, Viện công nghệ thông tin, Viện Hàn lâm khoa học cơng nghệ Việt Nam tận tình giảng dạy truyền đạt kiến thức quý báu, tạo môi trường học tập, nghiên cứu khoa học nghiêm túc suốt thời gian vừa qua, giúp em có kiến thức chuyên môn tảng để làm sở lý luận khoa học cho luận văn Đặc biệt em xin chân thành cảm ơn hai thầy TS Trần Đức Nghĩa TS Nguyễn Việt Anh định hướng, dìu dắt hướng dẫn em suốt trình làm luận văn, bảo thầy giúp em tự tin nghiên cứu vấn đề giải toán cách khoa học Em xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt Nam - Viện Hàn lâm khoa học công nghệ Việt Nam tạo điều kiện cho em học tập làm luận văn cách thuận lợi Trong trình học tập thực luận văn, thực với tinh thần nghiêm túc, chắn khơng tránh khỏi thiết sót Em mong thông cảm bảo tận tình thầy bạn Hà Nội, ngày tháng năm 2021 Tác giả Vi Mạnh Tuyên MỤC LỤC DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ DANH MỤC BẢNG BIỂU 10 MỞ ĐẦU 1 Động lực nghiên cứu 2 Mục tiêu luận văn Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Giới thiệu chung mạng xã hội (MXH) 1.1.1 Đặc điểm MXH 1.1.2 Lợi ích tác động MXH 1.2 Tác hại thông tin sai lệch MXH 11 1.2.1 Định nghĩa thơng tin sai lệch tính chất thơng tin sai lệch 11 1.2.2 Tác hại thực trạng phát tán thông tin sai lệch MXH 13 1.3 Mơ hình ngưỡng tuyến tính (Linear Threshold – LT) 17 1.4 Mô hình Ngưỡng tuyến tính đa chủ đề (Multiple Topics Linear Threshold – MT-LT) 20 1.5 Kết luận chương 24 CHƯƠNG NGĂN CHẶN THÔNG TIN SAI LỆCH ĐA CHỦ ĐỀ TRÊN MẠNG XÃ HỘI 25 2.1 Đặt vấn đề 25 2.2 Bài tốn ngăn chặn thơng tin sai lệch đa chủ đề 27 2.2.1 Mơ hình định nghĩa toán 27 2.2.2 Biểu diễn mạng xã hội 31 2.2.3 Tập liệu sử dụng 32 2.3 Thuật toán Tham lam cải tiến IGA (Impove Greedy Algorithm) 33 2.4 Thuật toán tham lam mở rộng GEA (Greedy Extension Algorithm) 38 2.5 Kết luận chương 43 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 44 3.1 Cài đặt thử nghiệm 44 3.1.1 Mục đích thử nghiệm 44 3.1.2 Cài đặt tham số 45 3.2 Đánh giá hiệu thuật toán thiết lập chi phí đơn vị 45 3.3 Đánh giá hiệu thuật tốn chi phí chung 48 3.4 So sánh thời gian chạy 50 3.4.1 So sánh thời gian chạy thuật toán cài đặt chi phí đơn vị 50 3.4.2 So sánh thời gian chạy thuật toán cài đặt chi phí chung 52 3.5 Kết luận chương 53 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 56 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt MT-LT Từ chuẩn Multiple Topics Linear Diễn giải Mơ hình Ngưỡng tuyến tính đa chủ đề Threshold LT Linear Threshold Mơ hình Ngưỡng tuyến tính IC Independent Cascade Mơ hình Bậc độc lập Social Network Mạng xã hội Multiple Topics and Đa chủ đề ràng buộc ngân sách MXH MMTB Budget Constraint GEA Greedy Extension Tham lam mở rộng Algorithm IGA Impove Greedy Algorithm Tham lam cải tiến DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.3.1 Mơ tả q trình lan truyền thơng tin mơ hình với t = 18 Hình 1.3.2 Mơ tả q trình lan truyền thơng tin mơ hình LT với t = 19 Hình 1.3.3 Mơ tả q trình lan truyền thơng tin mơ hình LT với t = 20 Hình 1.4.1 Mơ tả q trình lan truyền thơng tin mơ hình MT- LT với t = 22 Hình 1.4.2 Mơ tả q trình lan truyền thơng tin mơ hình MT- LT với t = 23 Hình 1.4.3 Mơ tả q trình lan truyền thơng tin mơ hình MT- LT với t = 23 Hình 2.2.1.1 Xây dựng mơ hình suy giảm từ Knapsack thành MMTB 30 Hình 2.2.3.1 Tập liệu mạng Epinions 33 Hình 2.4.1 Ước tính cập nhật 𝑓𝑇𝑖 ⊙ {𝑢}, 𝐻𝑖 cách sử dụng gốc 41 Hình 3.2 a Hiệu thuật toán với thiết lập 𝑐(𝑣)=1 tập liệu mạng NetHepP 46 Hình 3.2 b Hiệu thuật tốn với thiết lập 𝑐(𝑣)=1 tập liệu mạng Gnutella 47 Hình 3.2 c Hiệu thuật tốn với thiết lập 𝑐(𝑣)=1 tập liệu mạng Epinions 47 Hình 3.3 a Hiệu thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Gnutella 48 Hình 3.3 b Hiệu thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng NetHepP 49 Hình 3.3 c Hiệu thuật tốn với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Epinions 49 Hình 3.4 a Thời gian chạy thuật toán với thiết lập 𝑐(𝑣)=1 tập liệu mạng Gnutella 50 Hình 3.4 b Thời gian chạy thuật toán với thiết lập 𝑐(𝑣)=1 tập liệu mạng NetHepP 51 Hình 3.4 c Thời gian chạy thuật tốn với thiết lập 𝑐(𝑣)=1 tập liệu mạng Epinions 51 Hình 3.4 d Thời gian chạy thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Gnutella 52 Hình 3.4 e Thời gian chạy thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng NetHepP 53 Hình 3.4 f Thời gian chạy thuật tốn với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Epinions 53 DANH MỤC BẢNG BIỂU Bảng Bảng ký hiệu Bảng Tập liệu 44 3.1.2 Cài đặt tham số Vì khó xác định xác trọng số ảnh hưởng đỉnh 𝑢 đỉnh 𝑣 đồ thị 𝐺, nên nghiên cứu trước [20, 24, 26], nghiên cứu giả định tập cạnh vào đỉnh bị nhiễm thông tin sai lệch có đóng góp việc kích hoạt đỉnh lân cận, tham số thiết lập sau: • Trọng số cạnh (𝑢, 𝑣) là: 𝑤(𝑢, 𝑣) = , với Nin(𝑣) tập đỉnh |Nin(𝑣)| vào đỉnh 𝑣 • ∑𝑢∈𝑁𝑖𝑛 (𝑣) 𝑤(𝑢, 𝑣) = Mỗi cạnh có đóng góp việc kích hoạt đỉnh 𝑣 • 𝑝𝑣𝑖 𝛾𝑣𝑖 khởi tạo ngẫu nhiên phạm vi [0,1] • Chi phí cho việc chặn đỉnh 𝑐(𝑣), 𝑣 ∈ 𝑉 khởi tạo ngẫu nhiên khoảng [1.0, 3.0] • Nguồn phát tán thơng tin sai lệch 𝑆: 𝑆1 = 𝑆2 = 𝑆3 = 100 Trong trường hợp chi phí giống hệt nhau, tác giả tiến hành đặt 𝑐(𝑣 ) = Phương pháp mô MC thuật tốn thực để tính tốn gần kết Đối với thuật tốn IGA, mơ MC thực để ước tính kết hàm mục tiêu 𝜎( ) Thuật toán GEA cập nhật nhanh chóng với giá trị hàm mục tiêu dựa phép duyệt sâu sử dụng cấu trúc mẫu số trung bình gần tất 𝑇𝑖 Tất thuật toán lập trình ngơn ngữ Python Các thử nghiệm thực hệ điều hành Linux với CPU Intel Core i7 – 8550U 1.8Ghz, RAM 8GB DDR4 2400MHz 3.2 Đánh giá hiệu thuật toán thiết lập chi phí đơn vị Để đánh giá hiệu thuật toán IGA GEA, tác giả tiến hành số thử nghiệm điều kiện thiết lập chi phí cho việc ngăn chặn đỉnh Trong thiết lập chi phí đơn vị, chi phí cho việc chặn đỉnh 𝑐(𝑣) cho tất tập liệu Ngân sách 𝐵 cài đặt cho thay đổi từ đến 100 Hiệu 45 đo dựa kết trung bình hàm khuếch tán 𝜎 (𝐺, 𝑆, 𝐴) cơng thức Hình 3.2a, 3.2b, 3.2c cho thấy kết tất thuật toán Khi ngân sách tăng lên, số lượt kích hoạt trung bình đồ thị tăng theo Có thể thấy, với thiết lập 𝑐(𝑣)=1, GEA có hiệu tốt nhất, IGA hai thuật toán hoạt động tốt Random Degree với biên độ lớn Lý Degree sử dụng thuộc tính cấu trúc liên kết mạng xã hội mà khơng thể xem xét trình tác động đỉnh nguồn cịn Random thêm đỉnh ngẫu nhiên vào tập đỉnh chặn giới hạn ngân sách Trong hình 3c, buộc phải dừng IGA sớm ngân sách lớn 40 việc tính tốn nhiều thời gian Hình 3.2 a Hiệu thuật tốn với thiết lập 𝑐(𝑣)=1 tập liệu mạng NetHepP 46 Hình 3.2 b Hiệu thuật tốn với thiết lập 𝑐(𝑣)=1 tập liệu mạng Gnutella Hình 3.2 c Hiệu thuật toán với thiết lập 𝑐(𝑣)=1 tập liệu mạng Epinions 47 3.3 Đánh giá hiệu thuật tốn chi phí chung Trong thử nghiệm này, tác giả giữ nguyên ngân sách 𝐵 thay đổi từ đến 100 thiết lập chi phí chung, chi phí cho việc chặn đỉnh 𝑐(𝑣) phạm vi [1.0, 3.0] cho tất tập liệu Trong hình 3.3 a, 3.3 b, 3.3 c, hai thuật toán GEA IGA hoạt động tốt thuật toán Random Degree Thuật toán GEA hiệu từ 1,1 đến 2,24 lần so với thuật toán IGA hiệu tới 121 lần so với thuật toán Degree xét số lượt kích hoạt trung bình Trong q trình thử nghiệm, tiến hành dừng IGA sớm với ngân sách lớn 40 tập liệu mạng Epinions thuật toán nhiều thời gian (lâu 72 giờ) Hình 3.3 a Hiệu thuật tốn với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Gnutella 48 Hình 3.3 b Hiệu thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng NetHepP Hình 3.3 c Hiệu thuật toán với thiết lập 𝑐(𝑣)∈ [1.0, 3.0] tập liệu mạng Epinions 49 3.4 So sánh thời gian chạy Cuối cùng, tác giả tiến hành so sánh thuật toán IGA, GEA, Random Degree với thời gian chạy chúng Hình 3.4 a, 3.4 b, 3.4 c Hình 3.4 d, 3.4 e, 3.4 f hiển thị thời gian chạy thuật toán thiết lập chi phí đơn vị chi phí chung tập liệu Thời gian chạy tăng lên ngân sách 𝐵 tăng lên Việc lấy kết thời gian chạy thuật toán thực đồng thời với thử nghiệm đánh giá hiệu thuật toán mục 3.2 3.3 3.4.1 So sánh thời gian chạy thuật tốn cài đặt chi phí đơn vị Để thể rõ hiệu suất thuật toán này, tác giả thử nghiệm thời gian chạy thuật tốn theo chi phí đơn vị (tất chi phí xóa bỏ đỉnh 𝑐(𝑣) 1) tất tập liệu Hình 3.4 a, 3.4 b, 3.4 c hiển thị kết tất thuật tốn cài đặt chi phí đơn vị Hình 3.4 a Thời gian chạy thuật toán với thiết lập 𝑐(𝑣)=1 tập liệu mạng Gnutella 50 ... CÔNG NGHỆ Vi Mạnh Tuyên NGHIÊN CỨU PHƯƠNG PHÁP NGĂN CHẶN PHÁT TÁN THÔNG TIN SAI LỆCH ĐA CHỦ ĐỀ TRÊN MẠNG XÃ HỘI Chuyên ngành : Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH... Máy tính, chun ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn ? ?Nghiên cứu phương pháp ngăn chặn phát tán thông tin sai lệch đa chủ đề mạng xã hội? ?? tơi nghiên cứu, tìm hiểu thực hướng dẫn TS... niệm mạng xã hội, lợi ích tác động mạng xã hội Định nghĩa thơng tin sai lệch tính chất thông tin sai lệch đề cập đến Tác giả phân tích tác hại thực trạng phát tán thông tin sai lệch mạng xã hội

Ngày đăng: 27/03/2022, 21:06

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w