Nghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí

Nghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phíNghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí

Giới thiệu về mạng xã hội

Các thành phần cơ bản của mạng xã hội

- Người dùng: Mỗi người dùng là một thực thể trên SN, thực thể này có thể là cá nhân, doanh nghiệp hoặc tổ chức nào đó, gọi chung là người dùng hay dân cư mạng Ví dụ đối với Facebook người dùng có thể là một tài khoản cá nhân hoặc một nhóm có cùng sở thích (group) hoặc một trang người hâm mộ (fanpage), vv…

- Liên kết: Trong một SN liên kết thể hiện mối quan hệ và sự ảnh hưởng giữa những người dùng Khái niệm liên kết trong mỗi SN là khác nhau Ví dụ, với Facebook, Zalo thì liên kết tương ứng với quan hệ bạn bè, với Instagram liên kết tương ứng với chức năng “theo dõi”, còn với Tiktok liên kết tương ứng với “follow”, vv…

- Thông tin: Trên mạng xã hội người dùng tự tạo nội dung thông tin và chia sẻ thông tin đến các thành viên khác theo các hình thức khác nhau. Thông tin trên SN có thể là: bài viết, hình ảnh, âm thanh, video, đoạn tin ngắn (blog), vv có nội dung thuộc nhiều lĩnh vực khác nhau như: bài viết về chủ đề thể thao, giải trí, âm nhạc hoặc bài viết về chủ đề kinh tế, chính trị, vv

- Tương tác: Thể hiện sự tương tác giữa những người dùng trên SN tạo ra mối quan hệ qua lại và hiểu biết lẫn nhau Khái niệm “tương tác” được hiểu là sự phản hồi của người dùng đối với các thông tin của người dùng khác lan truyền trên mạng xã hội, điều này được thể hiện thông qua việc: chia sẻ, đăng bài, theo dõi, bình luận, vv…

Một số đặc trưng chung của mạng xã hội

- Đặc trưng thế giới nhỏ: Trong một số nghiên cứu đã chỉ ra rằng, đối với các mạng xã hội lớn khoảng cách trung bình kết nối giữa hai người dùng nhỏ hơn 6 Đây được coi là đặc trưng thế giới nhỏ của SN [32], [33] Với đặc trưng thế giới nhỏ, thông tin dễ dàng lan truyền giữa những người dùng nhờ tính kết nối nhanh chóng.

- Đặc trưng tập nhân: Căn cứ vào cấu trúc và sự vận động của mọi mạng xã hội đều chịu sự ảnh hưởng của một số người dùng quan trọng (người có chức sắc, địa vị hay người nổi tiếng, vv ) Những người dùng này có bậc cao, được gọi là nút trung tâm hay nút nhân [34], “bậc” ở đây là số nút khác có liên kết với người dùng đó Các SN luôn chứa một lượng lớn những nút có bậc cao, bao quanh các nút này là các nút có bậc thấp hơn và quanh những nút có bậc thấp hơn lại là các nút có bậc thấp hơn nữa, cứ như vậy tạo thành một hệ thống phân cấp Các nút nhân đóng vai trò quan trọng trong việc kết nối luồng thông tin trong SN Trong mạng xã hội nếu loại bỏ một nút thuộc tập nhân ra khỏi mạng thì sẽ phân chia mạng thành các nhóm cô lập và khi một nút mới thêm vào mạng thường có xu hướng kết nối đến những nút có bậc cao. Điều này lý giải tại sao người nổi tiếng thường được mời làm quảng cáo và người nổi tiếng cũng có thể bị lợi dụng để lan truyền thông tin sai lệch, vv…

- Đặc trưng cấu trúc cộng đồng: Tương tự như trong xã hội thực trong

SN luôn tồn tại các nhóm hoạt động khác nhau như: nhóm bạn bè có cùng sở thích, nhóm các nhà khoa học cùng nghiên cứu về một lĩnh vực, các câu lạc bộ thích văn hóa, thể thao, vv… Các nhóm này gọi là các cộng đồng trực tuyến Trong mạng xã hội được phân chia thành các cộng đồng lớn nhỏ khác nhau, bên trong các cộng lớn có những cộng đồng con nhỏ hơn Trong một cộng đồng các nút có mật độ kết nối lớn hơn so với các nút bên ngoài cộng

� đồng Một người dùng có thể tham gia một hoặc nhiều cộng đồng khác nhau hoặc không thuộc cộng đồng nào Như vậy trong mỗi mạng xã hội tồn tại hai loại cấu trúc cộng đồng là: cộng đồng chồng chéo và cộng đồng tách rời Việc nghiên cứu tính chất cấu trúc cộng đồng trong SN có nhiều ứng dụng trong khoa học và thực tiễn.

- Đặc trưng phân bố lũy thừa: Phân bố bậc của các nút trong mạng được mô tả bởi hàm �(�), hàm này xác định xác suất của một nút có bậc là �. Phân bố bậc của một mạng theo lũy thừa nếu xác suất một nút có bậc là � được xác định là � � = 1 , với 2 < � < 3 Hiện nay, hầu hết các mạng xã

� hội đều có phân bố bậc lũy thừa [35].

Lợi ích của mạng xã hội

Các nhà cung cấp dịch vụ trên mạng xã hội tận dụng tối đa các tính năng của SN để mang lại nhiều nhất lợi ích cho người dùng, góp phần đáng kể vào sự phát triển của nền kinh tế toàn cầu. Ứng dụng kinh doanh Các mạng xã hội ngày nay đóng vai trò quan trọng trong hoạt động của các công ty, doanh nghiệp Các hoạt động quảng cáo sản phẩm, lấy ý kiến phản hồi của người dùng, giao dịch với khách hàng, đối tác, vv đều có thể thực hiện dễ dàng và thuận lợi trên các tiện ích của SN Trong các hoạt động này, hoạt động quảng cáo sản phẩm thông qua các dịch vụ trên SN đang đạt được nhiều thành công và thu hút sự quan tâm nghiên cứu của nhiều nhà khoa học Vì vậy, thông tin và các tính năng của sản phẩm được quảng bá nhanh chóng và toàn diện đến người dùng mạng xã hội.

Tìm kiếm mối quan hệ Trong thời đại ngày nay con người có ít thời gian dành cho bản thân và mở rộng các mối quan hệ mới Sử dụng các dịch vụ trên SN, người dùng có thể tìm kiếm các mối quan hệ mình quan tâm cũng như duy trì các mối quan hệ đã có Người dùng chỉ cần sử dụng các dịch vụ trên SN để giữ mối liên lạc với người thân, bạn bè và đồng nghiệp của họ Họ có thể trò chuyện, trao đổi thông tin, tương tác với nhau trên SN thay cho gặp nhau trực tiếp Đặc biệt trong đại dịch Covid-19 vừa qua, các mối quan hệ trên mạng xã hội càng trở nên thuận tiện và hữu ích hơn khi mọi người bị hạn chế tiếp xúc trực tiếp với nhau. Ứng dụng đối với các hoạt động của tổ chức, chính phủ Các mạng xã hội ngày nay đã mang lại nhiều lợi ích trong các hoạt động chính trị và xã hội. Chẳng hạn như trong cuộc cách mạng ở Ai Cập năm 2011, các mạng Twitter và Facebook đã đóng vai trò quan trọng trong việc kết nối các cá nhân và nhóm nổi dậy Các nhóm hoạt động ở Ai Cập đã đưa kế hoạch hoạt động cho nhóm người của họ trên các mạng này, đưa ra các bằng chứng cho cộng đồng về sự tàn bạo của chính phủ qua các ảnh và video Ngoài ra, trên các SN còn cho phép chính phủ giám sát ý kiến của người dân trong các hoạt động văn hóa, chính trị hoặc các hiệu ứng xã hội khác. Ứng dụng trong giáo dục và học tập trực tuyến Mạng xã hội ngày nay có nhiều ứng dụng trong lĩnh vực giáo dục và học tập trực tuyến Các nền tảng mạng xã hội cho phép các giáo viên và học sinh chia sẻ thông tin, tài liệu, video học tập và tương tác với nhau trong môi trường giảng dạy và học tập trực tuyến.

Truyền thông và phát thanh trực tuyến Mạng xã hội đã trở thành công cụ hữu ích để truyền thông và phát thanh trực tuyến Các nền tảng SN cho phép các tổ chức truyền thông và phát thanh quảng cáo các chương trình, tin tức, sự kiện và các nội dung khác cho khán giả của mình.

Mặt trái của mạng xã hội

Phát tán virus, mã độc Mạng xã hội là môi trường rất thuận lợi cho sự phát tán virus, mã độc Các virus, mã độc là phần mềm độc hại được chủ động phát triển nhằm thực hiện mục đích của kẻ tấn công như: Đánh cắp dữ liệu,phá hoại dữ liệu, nghe nén, thu thập thông tin cá nhân của người dùng, thực hiện các hành vi lừa đảo, vv… Nguy cơ này ngày càng bùng phát trong thời gian gần đây.

Một nguy cơ nữa đang bùng phát cùng với sự phát triển của SN đó là thư rác Nội dung của thư rác thường là các thông tin quảng cáo, chứa virus hoặc địa chỉ các trang Web không chính thống bằng nhiều hình thức khác nhau như: gửi thông điệp, hình ảnh, bình luận trên các trang Web có nhiều người theo dõi, vv

Lừa đảo trên mạng xã hội Mục đích của các đối tượng sử dụng cách thức này nhằm đánh cắp thông tin cá nhân của người dùng bằng cách giả mạo một người đáng tin cậy trên mạng Những kẻ lừa đảo có thể tấn công vào tài khoản của người dùng và chiếm quyền đăng nhập vào tài khoản của họ sau đó tiến hành các hoạt động trái phép như: tống tiền, giả mạo thông tin, thu thập thông tin từ người thân của nạn nhân, vv Một số nghiên cứu gần đây cho thấy người dùng SN ngày càng bị lừa đảo bởi hình thức này cao hơn do bản chất tương tác của SN giống như một xã hội thực Trong thời gian gần đây, hoạt động lừa đảo trên SN có xu hướng tăng nhanh Theo báo cáo của hãng Microsoft, các cuộc tấn công lừa đảo nhắm vào người sử dụng trên các trang mạng xã hội chiếm 84,5%.

Sự phát tán thông tin sai lệch Thông tin sai lệch là những thông tin giả mạo, không chính thống [36] Đây là một thách thức lớn đối với cộng đồng người dùng sử dụng các dịch vụ trên SN tại tất cả các quốc gia Nó có thể ảnh hưởng trực tiếp đến từng cá nhân và còn có thể gây ra những tổn hại về chính trị, kinh tế, văn hóa và nhận thức của cộng đồng Như thông tin sai lệch về bùng phát dịch bệnh “Ebola” đã gây ra sự hoang mang cho dân chúng [37], hay theo các nghiên cứu gần đây, “thông tin sai lệch” đã gây ảnh hưởng tới kết quả cuộc bầu cử tổng thống Mỹ vào năm

Nhằm ngăn chặn sự phát tán và tác hại của “thông tin sai lệch”, các quốc gia phát triển đã xây dựng hệ thống ngăn chặn thông tin giả mạo Một số quốc gia đã yêu cầu các hãng cung cấp dịch vụ trên mạng xã hội cam kết loại bỏ “thông tin sai lệch”.

Các mô hình lan truyền thông tin trên mạng xã hội

Mô hình lan truyền thông tin rời rạc

Mô hình lan truyền thông tin rời rạc trên SN được biểu diễn bằng một đồ thị có hướng G = (V, E) với các thành phần như sau:

- V là tập hợp các nút của đồ thị biểu diễn tập hợp tất cả người dùng trên mạng xã hội với số nút |V | = n.

- E là tập hợp các cạnh của đồ thị, biểu diễn liên kết giữa các người dùng trong mạng xã hội với số cạnh |�| = �. Để biểu diễn SN ta cũng có thể dùng đồ thị vô hướng, nhưng ta có thể xem là một đồ thị có hướng mà tất cả các cạnh đều có cạnh hướng ngược lại Do đó để không mất tính tổng quát, NCS dùng đồ thị có hướng để biểu diễn một mạng xã hội trong các nghiên cứu.

Khái niệm “liên kết” trong các SN thường là khác nhau Cụ thể đối với mạng Facebook thì liên kết tương ứng với quan hệ bạn bè, với mạng Instagram tương ứng với chức năng “theo dõi” vv Đối với đồ thị G = (V, E), Mỗi nút � ∈ � có tập nút vào, ký hiệu

�� = {�|(�, � ) ∈ �} và tập nút ra, ký hiệu �� = {�|(�, �)

∈ �} Bậc vào và bậc ra của nút � được ký hiệu là ��(�) = |��

� | và �𝑜�(�) |�� | Trong luận án, để thuận lợi trong cách gọi tên NCS coi một mạng xã hội như một đồ thị.

Các thành phần trong mô hình lan truyền thông tin rời rạc được mô tả như sau:

- Tập nguồn (tập hạt giống) Thông tin đầu tiên được phát tán từ tập người dùng đầu gọi là tập nguồn S, S ⊆ V.

- Trạng thái của các nút Với mỗi nút � ∈ � có thể ở một trong hai trạng thái kích hoạt (active) và không kích hoạt (inactive) Nút v ở trạng thái kích hoạt khi người dùng bị ảnh hưởng bởi thông tin mới, sản phẩm mới hoặc ý tưởng mới lan truyền trên mạng từ tập nguồn S, ở trạng thái không kích hoạt tức là chưa chấp nhận, chưa bị thuyết phục bởi thông tin, ý tưởng hoặc thông tin về sản phẩm Trong luận án, hai thuật ngữ bị ảnh hưởng và kích hoạt là như nhau tùy từng ngữ cảnh.

- Quá trình lan truyền thông tin Quá trình lan truyền thông tin theo thời gian rời rạc hoạt động theo các bước thời gian rời rạc Cụ thể với thời gian t = 0, 1, Gọi tập các nút S t ⊆ V là tập hợp các nút đã được kích hoạt tại thời điểm t Quá trình lan truyền từ bước t đến bước t + 1 theo một hàm (luật lan truyền) như sau:

Quá trình lan truyền thông tin dừng lại tại thời điểm t nếu không còn bất kỳ nút nào kích hoạt thêm ở bước t + 1, nghĩa là S t = S t+1

- Hàm ảnh hưởng (hàm mục tiêu) Hàm σ(S) là số lượng nút kích hoạt

(ảnh hưởng) sau quá trình lan truyền thông tin từ tập nguồn S.

Trên đây là quá trình chung cho sự lan truyền thông tin rời rạc, tuy nhiên quy luật lan truyền thông tin từ S t−1 tới S t trong mỗi mô hình cụ thể lại khác nhau Tiếp theo luận án trình bày hai mô hình lan truyền thông tin LT (Linear threshold) và IC (Independent Cascade) Đây là hai mô hình cơ bản được sử dụng rộng rãi trong các công trình nghiên cứu Trong luận án hai mô hình cơ bản cũng được NCS sử dụng.

1.2.2 Mô hình Ngưỡng tuyến tính (Linear threshold - LT)

Mô hình ngưỡng tuyến tính là một trong hai mô hình lan truyền thông tin được đề xuất năm 2003 [3], là một trong những mô hình ngẫu nhiên rời rạc vì thông tin được lan truyền theo các bước thời gian rời rạc và các tham số được chọn ngẫu nhiên Trong mô hình LT, mỗi nút có một ngưỡng kích hoạt phụ thuộc theo thời gian (thông tin càng cũ thì càng khó ảnh hưởng) Tất cả các nút hàng xóm đã bị kích hoạt (nhiễm) thông tin của một nút sẽ cố gắng kích hoạt nút đó Khi tổng ảnh hưởng của các nút hàng xóm vượt quá ngưỡng kích hoạt thì nút đó sẽ bị kích hoạt Một nút hàng xóm có nhiều lần cố gắng kích hoạt nút hàng xóm của nó cho đến khi nút đó bị nhiễm thì thôi, hoặc khi quá trình lan truyền kết thúc Mô hình LT được mô tả chi tiết như sau:

Trong mô hình LT, mỗi cạnh của đồ thị e = (u, v) ∈ E có một trọng số w(u, v) là một số thực dương biểu diễn ảnh hưởng của nút u đến nút v, nếu

�, � ∉ � thì � �, � = 0 Các trọng số thỏa mãn điều kiện chuẩn hóa: Σ

Tức là tổng trọng số các nút � đến nút � ≤ 1, ∀� ∈ � Quá trình lan truyền thông tin theo các bước t = 0, 1, 2, Mỗi một nút u có một ngưỡng kích hoạt θ u được chọn ngẫu nhiên trong khoảng [0, 1] Quá trình lan truyền thông tin trong mô hình LT từ tập nguồn S diễn ra như sau:

- Bước 1: t = 0, tất cả các nút thuộc S đều bị kích hoạt, nghĩa là S 0 = S.

- Bước tiếp theo: t ≥ 1, tất cả các nút u đang ở trạng thái không kích hoạt sẽ bị kích hoạt nếu tổng trọng số ảnh hưởng tại bước đó lớn hơn ngưỡng kích hoạt θ u , nghĩa là: Σ

- Các nút khi đã ở trạng thái kích hoạt, nó sẽ giữ nguyên trạng thái đó trong các bước tiếp theo Quá trình lan truyền kết thúc khi giữa hai bước không có thêm nút mới nào được kích hoạt.

Mô hình LT thể hiện hành vi ngưỡng của con người khi chịu sự tác động của các cá nhân khác trong cộng đồng Khi các tác động lớn hơn ngưỡng chịu đựng thì người đó sẽ bị ảnh hưởng Điều này cũng biểu diễn cho quá trình nhận thức và tiếp nhận thông tin của người dùng trên SN.

Tuy nhiên, các ngưỡng kích hoạt của các nút trong đồ thị thường khó xác định và luôn thay đổi giá trị Do đó trong mô hình này ngưỡng kích hoạt θ u được chọn ngẫu nhiên trong khoảng [0, 1] Việc chọn ngưỡng phải đảm bảo khả năng kích hoạt của một nút tỷ lệ với tổng ảnh hưởng của các nút lân cận.

Hình 1.1 Ví dụ lan truyền thông tin cho mô hình LT Hình 1.1 là ví dụ lan truyền thông tin cho mô hình LT Giả sử tập nguồn S ={a}, mỗi nút trong đồ thị có một ngưỡng kích hoạt và mỗi cạnh có trọng số tương ứng Quá trình lan truyền thông tin trên mô hình LT diễn ra như sau:

- Bước tiếp theo t = 1, tổng trọng số ảnh hưởng đến nút b là 0.8 lớn hơn ngưỡng θ b = 0.5 do đó nút b bị kích hoạt Nút c có tổng trọng số ảnh hưởng

0.3 < θ c = 0.6 nên không bị kích hoạt Ta có S 1 = {a, b}.

- Tại bước t = 2, nút c được kích hoạt Bởi vì tổng trọng số ảnh hưởng đến nút c là 0.7 > θ c = 0.6 Khi đó ta có S 2 = {a, b, c}.

- Tại bước t = 3, nút d được kích hoạt Bởi vì tổng trọng số ảnh hưởng đến nút d là 0.3+0.2 = 0.5 > θ d = 0.4, ta có S 3 = {a, b, c, d}.

- Tại bước t = 4, không có nút nào được kích hoạt thêm, quá trình lan truyền kết thúc.

1.2.3 Mô hình Bậc độc lập ( Independent Cascade - IC)

Mô hình lan truyền thông tin IC [3] cũng là mô hình ngẫu nhiên rời rạc.Đặc trưng của mô hình IC là quá trình lan truyền thông tin dọc theo các cạnh một cách độc lập Trong mô hình IC mỗi nút chưa bị kích hoạt thông tin sẽ bị kích hoạt một cách độc lập bởi từng nút lân cận đã bị kích hoạt với một xác suất nhất định Khác với mô hình LT, mỗi nút trên mô hình IC chỉ có một cơ hội duy nhất để kích hoạt một nút khác trong đồ thị Mô hình IC thường được dùng trong nghiên cứu ảnh hưởng và trong dự báo Chi tiết mô hình IC được mô tả như sau:

Trong mô hình IC, mỗi cạnh trong đồ thị (�, �) ∈ � được gán một xác suất ảnh hưởng �(�, �) ∈ [0, 1] Xác suất �(�, �) biểu diễn mức độ ảnh hưởng của nút � với nút � Nếu (�, �) ∉ �, thì �(�, �) = 0 Mỗi nút trong đồ thị cũng chỉ có thể nhận một trong hai trạng thái kích hoạt hoặc không kích hoạt.

Mô hình IC cũng là một mô hình lan truyền thông tin rời rạc tuy nhiên chúng tạo ra tập các nút kích hoạt theo một nguyên tắc khác Cụ thể quá trình lan truyền thông tin từ tập nguồn S diễn ra như sau:

- Tại bước t = 0, chỉ có các nút trong tập nguồn S ở trạng thái kích hoạt, nghĩa là S 0 = S.

Mô hình cạnh trực tuyến (LE)

Hàm ảnh hưởng của tập nguồn S là:

Mô hình cạnh trực tuyến và các kết quả trên được sử dụng nhiều trong các nghiên cứu và cũng được sử dụng trong các công bố của luận án.

Một số bài toán lan truyền thông tin trên mạng xã hội

Cực đại ảnh hưởng (Influence Maximization - IM)

Bài toán cực đại ảnh hưởng xuất phát từ yêu cầu chọn một tập người dùng để bắt đầu SI làm cho số người bị ảnh hưởng bởi thông tin lan truyền trên SN đạt cực đại Bài toán IM ứng dụng trong tiếp thị sản phẩm (viral marketing), ngăn chặn thông tin sai lệch, phân tích ảnh hưởng trên SN, vv Mục tiêu của IM là chọn một tập nguồn (tập hạt giống) để bắt đầu quá trình lan truyền thông tin về sản phẩm sao cho thông tin ảnh hưởng nhiều nhất đến người dùng trên SN Tập nguồn là những người dùng được chọn để các doanh nghiệp cung cấp các sản phẩm mẫu để dùng thử miễn phí Kempe và các cộng sự [3] là những người đầu tiên phát biểu bài toán IM trên hai mô hình IC và

LT Tiếp theo bài toán IM được nghiên cứu rộng rãi và mở rộng theo nhiều hướng khác nhau [5]-[9], [13], [14], [40], [44] - [46], [49], [50] Bài toán IM được phát biểu như sau: Định nghĩa 1.4: (Cực đại ảnh hưởng - IM [3])

- Cho SN G = (V, E) trên mô hình phát tán thông tin M , số nguyên dương k > 0.

- Tìm tập S ⊆ V, |S| = k sao cho hàm ảnh hưởng σ(S) lớn nhất?

Thách thức khi giải quyết bài toán IM là chúng thuộc lớp NP-Khó [3] và tính toán hàm mục tiêu (hàm ảnh hưởng σ(S)) thuộc lớp bài toán #P-Khó

[5], [6] Đây là những thách thức đặt ra đối với nhóm bài toán lan truyền thông tin.

Kempe [3] đề xuất áp dụng phương pháp mô phỏng Mote-Carlo với số lần mô phỏng đủ lớn để ước lượng được hàm mục tiêu trong trường hợp này. Trong phiên bản mở rộng Kempe và các cộng sự [51] đã chỉ ra rằng nếu số lần mô phỏng ảnh hưởng từ tập nguồn S ít nhất bằng Ω �� (n là số nút của đồ thị) thì sẽ thu được ước lượng �^(�) thỏa mãn Pr[(1− � )σ(S) ≤

�^(�) ≤ (1+ �)σ(S)] với xác suất ít nhất là 1−δ.

Tuy nhiên, Kempe đã chỉ ra hàm mục tiêu σ(S) có tính chất đơn điệu tăng và là hàm submodular Tính chất này cho phép ta áp dụng thuật toán tham lam để đạt được một tỷ lệ xấp xỉ là 1 − 1/e Do tính ứng dụng cao của

IM trong thực tế nên IM đã và đang thu hút được nhiều sự quan tâm của các nhà khoa học.

Phát hiện thông tin (Information Detection - ID)

Giả sử đã biết trước tập người dùng � bị nghi ngờ lan truyền thông tin,mục tiêu của bài toán ID là tìm tập � để đặt giám sát sao cho khả năng phát hiện thông tin từ tập người dùng � là lớn nhất Bài toán này có ứng dụng trong phát hiện thông tin sai lệch (MisInformation - MI) và phát hiện nguồn lan truyền MI, đánh giá xu hướng, quan điểm người dùng trên SN Một số nghiên cứu tiêu biểu: [52]–[67], vv…

Ngăn chặn ảnh hưởng (Influence Blocking - IB)

Bài toán ngăn chặn ảnh hưởng IB ngược lại với IM, bài toán IB nhằm mục đích hạn chế sự phát tán, lan truyền thông tin từ một nguồn tin biết trước. Mục tiêu của các bài toán IB nhằm hạn chế sự lan truyền của MI trên SN, bao gồm: thông tin sai lệch, phát tán virus, thư rác, các tư tưởng cực đoan, thông tin không chính thống, vv

Các phương pháp để hạn chế ảnh hưởng của nguồn phát tán cho trước bao gồm:

- Loại bỏ người dùng hoặc tập liên kết: phương pháp này loại bỏ tập nút hoặc cạnh để miễn nhiễm với ảnh hưởng [66]-[69].

- Tẩy nhiễm thông tin: chọn tập nút nguồn để phát tán các ảnh hưởng tích cực nhằm chống lại ảnh hưởng của thông tin tiêu cực [18],

Các bài toán ngăn chặn ảnh hưởng thuộc nhóm bài toán tối ưu tổ hợp có độ phức tạp là NP-khó [3] trên các mô hình SI rời rạc và tính toán hàm mục tiêu thuộc lớp bài toán #P-khó [6], [40].

1.3.3.1 Vô hiệu hóa người dùng hoặc tập liên kết: Phương pháp này là loại bỏ tập người dùng hoặc tập liên kết hoặc tiêm vắc xin vào tập nút hoặc tập cạnh để miễn nhiễm thông tin sai lệch (MI) Tuy có nhiều khái niệm khác nhau, nhưng chiến lược này được hiểu rằng: Trên SN sẽ có một tập người dùng bị cô lập, MI lan truyền đến trước tập người dùng này và dừng lại, không thể lan truyền tiếp đến các người dùng khác Tập người dùng này được xem như là hàng rào chắn, ngăn chặn lan truyền MI đến những người dùng tiếp theo.

Khalil và các cộng sự [75] là những người đầu tiên nghiên cứu các bài toán này, họ nghiên cứu loại bỏ tập k cạnh (edge deletion) sao cho ảnh hưởng từ nguồn S cho trước đạt giá trị nhỏ nhất, tức là tìm tập cạnh X, |X| = k sao cho hàm ảnh hưởng của S khi loại tập cạnh X σ(S \ X) đạt giá trị cực tiểu Đồng thời cỏc tỏc giả chứng minh hàm mục tiờu σ(S \ã) là supermodular và đơn điệu giảm Căn cứ vào kết quả này, các tác giả đề xuất thuật toán tham lam tìm tập lời giải X, thỏa mãn điều kiện h(X) ≥ (1 - 1/e - �)h(X), với h(X) = σ(S) − σ(S\X).

Về góc độ dịch tễ, một số nghiên cứu đã sử dụng phương pháp tiêm vắc xin miễn nhiễm vào tập các cạnh hoặc nút để miễn nhiễm với các thông tin sai lệch [66] - [68], [76], [77] Yang và các cộng sự trong [77] đã nghiên cứu bài toán DAVA (Data-Aware Vaccination) với yêu cầu tiêm vắc xin vào k nút

“vào tập người dùng” trong một SN để ngăn chặn sự phát tán của tập nút đã nhiễm dịch bệnh I 0 trên mô hình IC Các tác giả chứng minh đây là bài toán thuộc lớp NP-Khó và hàm mục tiêu không có tính chất submodular Do đó không thể áp dụng thuật toán tham lam với tỷ lệ xấp xỉ 1 − 1/e Các tác giả đề xuất ba thuật toán heuristic DAVA, DAVA-Fast và DAVA-prun cho bài toán DAVA, kết quả thực nghiệm của các tác giả cho thấy các thuật toán đề xuất cho kết quả tốt hơn các thuật toán trước Kế thừa hướng nghiên cứu này, Song và các cộng sự đã mở rộng bài toán DAVA bằng việc thêm yếu tố thời gian lan truyền dịch bệnh [73].

Trong mô hình lan truyền thông tin LT, các tác giả Zhang và các cộng sự

[68] nghiên cứu bài toán phân phối vắc xin đến từng nhóm các cạnh để điều

� khiển sự phát tán của dịch bệnh Các tác giả chỉ ra hàm mục tiêu là submodular và đề xuất thuật toán tham lam với tỷ lệ xấp xỉ với tỷ lệ 1 − 1/e.

Một chiến lược khác với việc loại bỏ nút ra khỏi mạng để hạn chế thông tin MI được phát tán từ một nguồn cho trước là đặt các máy giám sát Trong nghiên cứu của Zhang và các cộng sự [67], máy giám sát có hai chức năng là: phát hiện thông tin lan truyền và ngăn chặn thông tin sai lệch. Để hạn chế MI từ một nguồn S cho trước trên SN, Các tác giả Zhang và các cộng sự [67] đề xuất bài toán τ -MP Bài toán này tìm tập nút nhỏ nhất để đặt giám sát trong khoảng cách δ từ nguồn S sao cho ảnh hưởng của S tới nút quan trọng r cho trước nhỏ hơn τ Các tác giả chỉ ra thuật toán đề xuất cho bài toán này không đảm bảo tỷ lệ xấp xỉ.

1.3.3.2 Tẩy nhiễm thông tin: Chọn tập người dùng lan truyền thông tin

“tốt” để chống lại ảnh hưởng của MI, phương pháp này có thể gọi là ảnh hưởng cạnh tranh Nghĩa là cùng lúc trên mạng sẽ có hai luồng thông tin trái ngược nhau, thông tin “tốt” và MI cùng cạnh tranh để được lan truyền tiếp hoặc bị chặn lại Theo phương pháp này, trong các nghiên cứu xác suất ảnh hưởng của thông tin “tốt” thường được ưu tiên hơn.

Giả sử đã có sự xuất hiện của thông tin MI trên SN, nghĩa là một số người dùng đã bị ảnh hưởng bởi MI Ý tưởng chính của phương pháp này tìm một số người dùng để khởi tạo sự lan truyền thông tin tốt, thông tin chính thống để hạn chế MI, gọi là phương pháp tẩy nhiễm thông tin [61] Theo hướng này, các nghiên cứu chủ yếu tập giải quyết vấn đề trong trường hợp nguồn MI đã được biết trước Khởi đầu là nghiên cứu [61], các tác giả đề xuất mô hình MCIC (Multi – Campaign Independent Cascade) cho phép đồng thời nhiều nguồn thông tin có thể lan truyền cùng lúc trên SN Bên cạnh đó, trong

[3], các tác giả nghiên cứu bài toán TIB (Temporal Influence Blocking) để hạn chế MI theo thời gian trễ Tác giả trong [41], nghiên cứu bài toán � � với mục tiêu chọn tập nguồn nhỏ nhất để bắt đầu lan truyền thông tin tốt tẩy nhiễm thông tin MI.

Tuy theo 02 hướng khác nhau, nhưng các phương pháp trên đều tập trung tối ưu hóa vị trí và kích thước của tập nút cần loại bỏ khỏi mạng hoặc để lan truyền thông tin “tốt” Một nhược điểm của các nghiên cứu trên là xem xét

MI dưới dạng tổng quát, nghĩa là mọi MI đều có ảnh hưởng như nhau trên SN,điều này khác với thực tế rằng thông tin theo từng chủ đề (lĩnh vực) có ảnh hưởng đến mỗi người dùng là khác nhau.

Một số bài toán khác trên mạng xã hội

- Cực đại ảnh hưởng với nhiều chủ đề: Bài toán cực đại ảnh hưởng với nhiều chủ đề [26] là một biến thể của bài toán cực đại ảnh hưởng, trong đó mỗi đỉnh của đồ thị đại diện cho một người dùng và mỗi chủ đề sẽ ứng với một tập hợp các đỉnh thuộc lời giải Với sự đa dạng về thông tin trên mạng xã hội hiện nay, các nhóm người dùng có xu hướng chỉ quan tâm đến một hoặc một vài chủ đề nhất định, việc tiếp nhận và lan truyền thông tin vì thế mà cũng trở nên phức tạp hơn do cùng một lúc nhiều chủ đề được lan truyền trong cộng đồng Mục tiêu của bài toán là chọn ra một tập con người dùng sao cho mục tiêu lan truyền thông tin đến họ sẽ ảnh hưởng lớn nhất đến nhiều chủ đề khác nhau.

Việc có thêm yếu tố nhiều chủ đề (sau đây được gọi là k chủ đề để giúp cho việc giải thích được dễ dàng hơn) sẽ tạo ra thách thức không nhỏ trong việc xây dựng mô hình lan truyền thông tin, lời giải và hàm mục tiêu, cụ thể:

+ Lời giải bài toán có thêm tính chất k chủ đề có nghĩa là các tập đỉnh được lựa chọn trong tập lời giải sẽ được phân nhóm theo chủ đề, không có sự trùng lặp giữa hai nhóm bởi vì một đỉnh chỉ được chọn lan truyền một chủ đề duy nhất.

+ Mô hình lan truyền thông tin sẽ có tính chất k chủ đề, việc lan truyền từ người dùng này đến người dùng khác sẽ có thêm yếu tố dựa trên chủ đề tác động.

+ Việc tính toán hàm mục tiêu sẽ cần tính thêm yếu tố ảnh hưởng của chủ đề được lan truyền, hàm tính toán sẽ phức tạp hơn.

- Phát hiện cộng đồng: Bài toán phát hiện cấu trúc cộng đồng (Community

Structure) là tìm hiểu mối liên hệ giữa các người dùng bên trong cộng đồng cũng như giữa các cộng đồng với nhau, mối liên hệ đó ảnh hưởng thế nào đến cấu trúc của toàn SN? Nó liên quan chặt chẽ đến bài toán phân cụm nhằm phát hiện các khu vực có liên kết dày đặc [78] và bài toán tiếp thị sản phẩm theo các nhóm khách hàng cùng sở thích Các công bố về phát hiện cấu trúc cộng đồng có thể kể đến là [19], [79] trong nghiên cứu này các tác giả đề xuất thuật toán phân tách Girvan-Newman theo độ trung gian cạnh Girvan Newman, các tác giả trong [31] đề xuất thuật toán chia nút, gán nhãn, vv…

- Dự đoán liên kết mạng: Bài toán dự đoán liên kết mạng là dự đoán các mối quan hệ có thể xuất hiện ở tương lai trong quá trình mở rộng và phát triển của SN Các công bố về dự đoán liên kết điển hình là [80], [81] trong các nghiên cứu này các tác giả trình bày hai phương pháp dự đoán liên kết theo độ đo tương tự dựa trên cấu trúc cây Các tác giả trong [82] đã đưa ra khái niệm

“liên kết âm” và “liên kết dương” Trong các mối quan hệ người thân, bạn bè là liên kết dương, còn các mối quan hệ đối đầu, thù địch là liên kết âm. Nghiên cứu này có nhiều ứng dụng trong đánh giá sản phẩm trực tuyến trust/distrust như Epinions.com hay Slashdots.org.

- Khai phá dữ liệu: Cùng với sự bùng nổ về thông tin, SN đang trở thành một kho dữ liệu khổng lồ, phức tạp và thường xuyên cập nhật trong thời gian ngắn Vì vậy, cần phải có những kỹ thuật khai phá dữ liệu phù hợp để có thể trích xuất ra những thông tin hữu ích phục vụ các mục đích khác nhau. Ứng dụng của khai phá dữ liệu bao gồm: Tư vấn xã hội, phân tích hành vi người dùng, giám sát sự kiện, quản lý thương hiệu, giúp các doanh nghiệp, công ty theo dõi, giám sát mức độ thâm nhập, sức lan tỏa, ảnh hưởng của thương hiệu trên SN, vv…

- Tiến hóa động trên mạng: SN luôn có tính động không ngừng biến đổi theo thời gian bằng cách bổ sung hoặc loại bỏ nút và các liên kết trong SN

[35] Chính những lý do này dẫn đến sự thay đổi cấu trúc trong SN Các nhà khoa học tập trung giải quyết các câu hỏi: Các luật chi phối sự tiến hóa của

SN là gì? Mô hình nào là phù hợp để giải thích sự tiến hóa của SN? Cấu trúc cộng đồng được sinh ra trong SN như thế nào, điều gì sẽ làm cho một cộng đồng có thể thu hẹp hoặc mở rộng? Các nghiên cứu điển hình về tiến hóa động như [82], [83], vv…

- Tính riêng tư trên mạng: SN là cộng đồng mở, tuy nhiên không phải vì thế mà mất đi tính riêng tư của người dùng Thông tin cá nhân có thể bị lộ lọt bao gồm: e-mail, tin nhắn, địa chỉ, cơ quan, sở thích, bạn bè vv Đây là những thông tin mà các đối tượng có thể lợi dụng để phục vụ cho các mục đích riêng của chúng Ngoài những thông tin cá nhân, người dùng còn có thể bị lộ lọt những thông tin như: nội dung bài đăng, nội dung chia sẻ, vị trí người dùng, các thông tin của tổ chức mà người dùng đang tham gia, vv Việc bảo vệ tính riêng tư của người dùng là vấn đề được sự quan tâm của nhiều nhà khoa học trong thời gian gần đây, đó là các nghiên cứu trong [84]–[86] vv…

Bài toán tối ưu tổ hợp và một số phương pháp giải các bài toán tối ưu tổ hợp

Bài toán tối ưu tổ hợp

Định nghĩa 1.5: (Tối ưu tổ hợp - CO [3]) Mỗi bài toán CO ứng với một bộ (�,

�, Ω), trong đó � là tập hữu hạn trạng thái (lời giải tiềm năng hay phương án), � là hàm mục tiêu xác định trên �, còn Ω là tập các ràng buộc Mục tiêu của bài toàn này là tìm cực đại hoặc cực tiểu hàm số � trên tập �: ��(��):

Mỗi lời giải tiềm năng � ∈ � thỏa mãn các ràng buộc Ω gọi là lời giải chấp nhận được.

Mỗi bài toán CO đều có thể đưa ra một tập hữu hạn gồm � thành phần

� = {�1, , ��} sao cho mỗi lời giải chấp nhận được � trong � đều biễu diễn được nhờ liên kết các thành phần trong nó. Để giải các bài toán CO có thể được thực hiện thông qua việc tìm kiếm trong không gian trạng thái Tuy nhiên tồn tại nhiều bài toán mà việc tìm lời giải tối ưu là rất khó (NP-khó, NP-đầy đủ) do vấn đề bùng nổ tổ hợp Do đó các phương pháp giải gần đúng thường được các nhà khoa học sử dụng để giải các bài toán CO.

Phân loại các lớp bài toán trong tối ưu tổ hợp

Trong lý thuyết độ phức tạp tính toán việc phân lớp bài toán là một vấn đề đã và đang là một thách thức lớn đối với các nhà khoa học Để biết một bài toán khó giải hay dễ giải là hết sức cần thiết trong nghiên cứu các thuật toán để giải quyết nó Sau đây luận án nêu lại một số định nghĩa về phân lớp bài toán [90], những kiến thức này được sử dụng trong các bài toán SI và được sử dụng trong các nghiên cứu của luận án. Định nghĩa 1.6: (Lớp bài toán P, NP)

- Lớp P (Polynomial-time): là lớp các bài toán giải được bằng thuật toán đơn định trong thời gian đa thức.

- Lớp NP (Non-Deterministic Polynomial-time): là lớp các bài toán giải được bằng thuật toán không đơn định trong thời gian đa thức.

Trong đó, thuật toán đơn định là thuật toán mà các phép toán của nó đều là phép toán đơn định (cho ra một kết quả duy nhất).

Một bài toán thuộc lớp P thì cũng thuộc lớp NP (� ⊆ ��) Tuy nhiên các bài toán thuộc lớp NP có thuộc lớp P không? Đây là câu hỏi vẫn chưa có câu trả lời chính xác Theo các nhà nghiên cứu, cho đến nay vẫn chưa có một thuật toán đơn định nào có thể giải được một bài toán NP trong thời gian đa thức, nhưng cũng chưa thể chứng minh được là không tồn tại thuật toán đó,nghĩa là câu hỏi � ≠ �� hay không cũng chưa có câu trả lời Hiện nay các nhà nghiên cứu vẫn đang giả thuyết � ≠ �� và giả thuyết này đang được sử dụng rộng rãi trong lý thuyết về độ phức tạp tính toán [91].

Trong lý thuyết độ phức tạp tính toán phép dẫn là một công cụ phổ biến để chứng minh độ phức tạp của một bài toán. Định nghĩa 1.7: (Phép dẫn) Bài toán B được gọi là dẫn về được bài toán A một cách đa thức, kí hiệu B ≺ A Nghĩa là nếu có thuật toán đơn định để giải bài toán A thì cũng có thuật toán đơn định để giải bài toán B. Định nghĩa này có nghĩa là bài toán A “phức tạp hơn” bài toán B, hay nói cách khác bài toán B “không phức tạp bằng” bài toán A Phép dẫn “≺” có tính chất bắc cầu, nghĩa là: nếu B ≺ A và A ≺ C thì B ≺ C Căn cứ vào khái niệm phép dẫn, một số lớp bài toán tiếp theo được định nghĩa như sau: Định nghĩa 1.8: (Lớp bài toán NP-khó) Bài toán A được gọi là NP-khó (NP-

Hard) nếu ∀� ∈ �� thì � ≺ �. Định nghĩa 1.9: (Lớp bài toán NP-đầy đủ) Bài toán � được gọi là NP-đầy đủ

(NP-Complete) nếu A là bài toán NP-khó và � ∈ �� Nghĩa là bài toán NP- đầy đủ là bài toán NP-khó nằm trong lớp NP và lớp bài toán NP-đầy đủ bao gồm tất cả các bài toán NP-đầy đủ. Định nghĩa 1.10: (Lớp bài toán #P) là lớp bài toán xác định các hàm �(x) bằng với số đường đi từ cấu hình ban đầu tới một cấu hình chấp nhận được trong máy Turing không đơn định trong thời gian đa thức theo kích cỡ của đầu vào x. Định nghĩa này nói rằng, lớp bài toán #P là lớp bài toán yêu cầu tìm số lời giải thỏa mãn một yêu cầu nào đó mà mỗi lời giải có thể được tính toán trong thời gian đa thức theo thuật toán không đơn định. Định nghĩa 1.11: (Lớp bài toán #P-khó) là lớp bài toán thuộc #P và NP-Khó.

Một số phương pháp giải bài toán tối ưu tổ hợp

Việc giải bài toán CO có kích thước nhỏ có thể dùng thuật toán vét cạn để tìm phương án tối ưu Tuy nhiên, các bài toán SI trên SN thường có kích thước lớn do đó tìm lời giải tối ưu là rất khó Ngoài ra, các bài toán lan truyền ρ ρ thông tin trên SN thường thuộc lớp NP-khó [90] Theo các nghiên cứu đã công bố chưa có thuật toán nào tìm ra lời giải đúng cho bài toán CO với thời gian đa thức, chỉ có thể tìm lời giải gần đúng hoặc đủ tốt cho các bài toán đó. Đã có nhiều phương pháp được đề xuất để giải quyết bài toán này, trong đó có các phương pháp phổ biến được dùng là: Phương pháp xấp xỉ, phương pháp Monte Carlo, phương pháp Heuristic Đây cũng là các phương pháp mà luận án sử dụng trong các công bố.

Phương pháp xấp xỉ là phương pháp đưa ra thuật toán đạt kết quả xấp xỉ một tỷ lệ nào đó so với lời giải tốt nhất Giả sử ta cần tìm lời giải tối ưu bài toán lan truyền thông tin dưới dạng CO thuộc lớp NP-khó, NP-đầy đủ với mục tiêu tìm hàm cực đại �: � → ℝ+, trong đó � là không gian lời giải của bài toán Gọi OPT (Optimal) là lời giải tối ưu của bài toán Thuật toán xấp xỉ được định nghĩa như sau: Định nghĩa 1.12: (Thuật toán xấp xỉ [92]) Thuật toán xấp xỉ � cho lời giải là s

⊆ S có tỷ lệ xấp xỉ (approximation ratio) là ρ> 0 nếu nó thực hiện trong thời gian đa thức theo kích cỡ đầu vào của bài toán và tỷ lệ tối ưu thỏa mãn:

Trong trường hợp cần tìm hàm � cực tiểu, thì tỷ lệ tối ưu được định nghĩa như sau:

Tỷ lệ tối ưu ρ đảm bảo lời giải của một thuật toán trong trường hợp xấu nhất Tỷ lệ tối ưu rất quan trọng trong việc thiết kế các thuật toán xấp xỉ Nếu bài toán tìm cực đại thì � < 1 , còn bài toán tìm cực tiểu thì � > 1 Trong trường hợp nếu thuật toán � vẫn đạt xấp xỉ nhưng không thỏa mãn thời gian thực hiện là đa thức, thì � đảm bảo tỷ lệ xấp xỉ (approximation guarantee), ký hiệu là ρ-xấp xỉ.

Có rất nhiều phương pháp trong thuật toán xấp xỉ để giải bài toán SI, như thuật toán tổ hợp (combinatorics), quy hoạch tuyến tính (linear programming), thuật toán tham lam vv Trong đó, thuật toán tham lam (Greedy algorithms) là thuật toán được dùng phổ biến nhất bời vì thuật toán tham lam đơn giản, có tính ứng dụng cao, độ phức tạp về thời gian thấp Một phương pháp hay được áp dụng nhất là tìm ra hàm tham lam � có thuộc tính đơn điệu tăng và submodular, khi đó thuật toán tham lam có thể đạt xấp xỉ

(1 − 1/�) [3] Các tác giả trong [93] đã đưa ra thuật toán cho bài toán đa nguồn với tỉ lệ xấp xỉ 1 − 1/�–�, � ∈ (0,1), thuật toán tham lam trong [94] cho tỷ lệ xấp xỉ (1 − 1/ �) so với phương án tối ưu Tính chất submodular và supermodular của hàm mục tiêu rất quan trọng trong việc xác định tỷ lệ xấp xỉ của các thuật toán, tính chất submodular và supermodular được định nghĩa như sau: Định nghĩa 1.13: (Tính chất Submodular và Supermodular [3]) Cho tập hữu hạn phần tử V và một hàm �: 2 � ⟼ ℝ (2 V là họ các tập con của V), với bất kỳ hai tập con �, � ⊆ V thì:

1 Hàm � được gọi là submodular nếu:

2 Hàm � được gọi là supermodular nếu:

Như vậy, nếu hàm � là hàm submodular thì với mọi � ⊆ � ⊆ � và � ∈

� \ �, ta có: �(� ∪ {�}) − �(�) ≥ �(� ∪ {�}) − �(�) Điều này có nghĩa là thêm một phần tử vào tập � sẽ có lợi hơn thêm nó vào tập lớn hơn � Như vậy thêm càng sớm càng tốt.

Kempe và các cộng sự [3] đã chứng minh rằng các mô hình lan truyền thông tin trên SN như mô hình LT và mô hình IC có tính chất submodular,nghĩa là giá trị của một tập người dùng được chọn để phát tán thông tin sẽ giảm dần khi số lượng người dùng được chọn tăng lên Điều này có nghĩa rằng việc chọn ra một tập người dùng lớn hơn sẽ không đem lại giá trị tăng thêm một cách đáng kể tương ứng.

Phương pháp Monte Carlo (MC) còn gọi là phương pháp mô phỏng hay còn gọi là phương pháp thử thống kê Ý tưởng chính của phương pháp MC là xấp xỉ một kỳ vọng à của X bởi trung bỡnh cộng kết quả của nhiều lần thử nghiệm độc lập, trong đó các biến ngẫu nhiên � có cùng phân phối Trong nhiều trường hợp khi bài toán có hàm mục tiêu phức tạp và không gian tìm kiếm không giới hạn thì không thể áp dụng các phương pháp xấp xỉ, lúc này

MC là một phương pháp hiệu quả.

Heuristic là một phương pháp được thiết kế dựa trên kinh nghiệm để giải một bài toán nhanh hơn khi các phương pháp cổ điển quá chậm hoặc để tìm một giải pháp gần đúng khi các phương pháp cổ điển không tìm được bất kỳ giải pháp chính xác nào Do đó để giải quyết các bài toán NP-khó thì phương pháp heuristic là một lựa chọn phổ biến Heuristic cho ra lời giải gần đúng trong thời gian chấp nhận được Ngoài ra, phương pháp Metaheuristic cũng được sử để giải quyết bài toán CO Tiền tố “meta” trong tên của lớp thuật toán này nói rằng nó ở mức cao hơn so với các thuật toán heuristics. Thuật toán Metaheuristic xác định một phương pháp tính toán nhằm tối ưu hóa một vấn đề bằng cách lặp đi lặp lại để cải thiện một giải pháp ứng viên liên quan đến một thước đo chất lượng nhất định Nó được sử dụng trong các giải thuật di truyền, tối ưu đàn kiến, vv…

Trong khoa học máy tính, thuật toán luồng là lớp các thuật toán được thiết kế để xử lý dữ liệu trong môi trường dữ liệu được tiếp nhận lần lượt.Trong môi trường này, dữ liệu được xử lý dưới dạng chuỗi liên tục, không thể lưu trữ toàn bộ dữ liệu vào bộ nhớ và thường không thể truy cập lại dữ liệu đã xử lý.

Thuật toán luồng thường được áp dụng trong các ứng dụng xử lý dữ liệu lớn, trong đó dữ liệu được tạo ra liên tục và cần được xử lý ngay lập tức để đưa ra kết quả trong thời gian thực Các ví dụ về ứng dụng của thuật toán luồng bao gồm phân tích luồng truyền thông, phân tích dữ liệu Web, phát hiện bất thường, xử lý dữ liệu trực tuyến, và nhiều ứng dụng khác.

Hình 1.4 mô tả cơ bản về cách hoạt động của thuật toán luồng Dữ liệu được cung cấp dưới dạng luồng và được đọc lần lượt theo thứ tự Mỗi đợt xử lý có thể bao gồm một hoặc nhiều phần tử dữ liệu, việc này giúp tránh việc phải nạp tất cả dữ liệu cùng một lúc vào bộ nhớ máy tính dẫn đến không tối ưu Ngoài ra kết quả của thuật toán luồng được xây dựng hoàn thiện dần dựa theo lượng dữ liệu mà thuật toán đã xử lý xong Điều này có nghĩa là thuật toán luồng có thể đưa ra được các kết quả liên tục theo luồng dữ liệu đầu vào.

Các tính chất quan trọng của thuật toán luồng bao gồm:

- Xử lý dữ liệu liên tục: Thuật toán luồng được thiết kế để xử lý dữ liệu trong môi trường dòng dữ liệu, nghĩa là dữ liệu được tạo ra liên tục và cần được xử lý ngay lập tức để đưa ra kết quả trong thời gian thực.

- Bộ nhớ giới hạn: Các thuật toán luồng được thiết kế để hoạt động trong bộ nhớ giới hạn, thường là một lượng nhỏ so với lượng dữ liệu đầu vào.

Do đó, chúng phải được thiết kế để xử lý dữ liệu một cách tối ưu, đảm bảo độ chính xác và tính khả thi của kết quả.

- Độ chính xác: Thuật toán luồng có thể không đưa ra kết quả chính xác

Các nghiên cứu liên quan

Các nghiên cứu liên quan trong nước 4 6

Tác giả Phạm Văn Cảnh [95] đã nghiên cứu các bài toán: Ngăn chặn thông tin sai lệch với ràng buộc về ngân sách và thời gian (MMR), Ngăn chặn thông tin sai lệch với mục tiêu cho trước (TMB), Tối đa ảnh hưởng cạnh tranh với ràng buộc về thời gian và ngân sách (BCIM) và Phát hiện thông tin sai lệch tổng quát (GMD) Cụ thể là:

1 Nghiên cứu các tính chất, độ phức tạp của bài toán MMR trên mô hình LT, mô hình DTLT Phát triển các thuật toán hiệu quả cho bài toán MMR bao gồm các thuật toán xấp xỉ, thuật toán heuristic.

2 Nghiên cứu các tính chất, độ phức tạp của toán TMB trên hai mô hình IC và LT Phát triển các thuật toán hiệu quả cho bài toán TBM trên hai mô hình này.

3 Nghiên cứu bài toán BCIM là bài toán tổng quát của CIM Đề xuất thuật toán xấp xỉ cho bài toán BCIM trên mô hình TCLT Mở rộng kết quả nghiên cứu CIM trên mô hình DTLT.

4 Đề xuất thuật toán SBMD có tỷ lệ xấp xỉ 1 − 1/e − với xác suất ít nhất bằng 1−δ, , δ  (0, 1) cho bài toán GMD Các thực nghiệm trên dữ liệu thực chỉ ra hiệu quả nổi trội của thuật toán đề xuất với các thuật toán mới nhất hiện nay.

Tác giả Phạm Văn Dũng [96] đã nghiên cứu các bài toán: Phát hiện nguồn thông tin sai lệch trên mạng xã hội với ngân sách tối thiểu (MBD) và Ngăn chặn thông tin sai lệch nhiều chủ đề trên mạng xã hội có ràng buộc về ngân sách (MBMT) Đây là 02 bài toán được cho dưới dạng tối ứu tổ hợp

NP-khó trên mô hình lan truyền thông tin Tính toán hàm mục tiêu là #P-khó và hàm này có tính chất đơn điệu và submodular Dựa trên những tính chất này, tác giả đề xuất một số giải pháp hiệu quả để giải quyết đối với từng bài toán Các giải pháp được đánh giá dựa trên thực nghiệm đối với các bộ dữ liệu của mạng xã hội thực, kết quả cho thấy các thuật toán được đề xuất vượt trội hơn các thuật toán khác trên tất cả các tiêu chí được đưa ra để so sánh Cụ thể là:

1 Đề xuất phương pháp hiệu quả cho bài toán ngân sách tối thiểu phát hiện nguồn thông tin sai lệch, đảm bảo các tỷ lệ xấp xỉ lớn hơn một ngưỡng cho trước, bao gồm thuật toán phát hiện thông tin sai lệch dựa trên mẫu phát hiện (SMD) và thuật toán phát hiện thông tin sai lệch dựa trên độ quan trọng của mẫu phát hiện (ISMD) đều đạt xác suất tìm kiếm lớn hơn ngưỡng cho trước với nguồn ngân sách tối thiểu.

2 Đề xuất mô hình và phương pháp giải quyết bài toán ngăn chặn thông tin sai lệch nhiều chủ đề trên mạng xã hội trực tuyến có ràng buộc về chi phí, bao gồm: Mô hình ngưỡng tuyến tính nhiều chủ đề (MTLT), thuật toán tham lam cải tiến (IGA) cho tỷ lệ xấp xỉ (1 − 1/√�) và thuật toán tham lam mở rộng (GEA) không cho tỷ lệ xấp xỉ nhưng cải thiện được tốc độ thực hiện đối với các mạng nhỏ và vừa.

Các nghiên cứu liên quan bài toán cực đại ảnh hưởng 4 7

Kempe và cộng sự [3] lần đầu tiên nghiên cứu vấn đề tối đa hóa ảnh hưởng (IM) lấy cảm hứng từ việc khai thác ảnh hưởng giữa những người dùng trong mạng xã hội để tiếp thị lan truyền Họ xây dựng IM như một bài toán tối ưu hóa rời rạc theo hai mô hình khuếch tán thông tin bậc độc lập (IC) và ngưỡng tuyến tính (LT) Họ đã chứng minh rằng IM có thể được tính gần đúng trong một tỷ lệ 1-1/e+ϵ với ϵ  (0, 1) và đề xuất một thuật toán tham lam cung cấp tỷ lệ xấp xỉ 1-1/e-ϵ cho ϵ> 0.

Sau đó, Chen và cộng sự [5], [6] chứng minh rằng để tính toán chính xác mức độ lan truyền ảnh hưởng của một tập hạt giống cho trước là bài toán thuộc lớp #P-Hard Do đó, mặc dù nhiều thuật toán heuristics đã được đề xuất để giải quyết vấn đề này trong các mạng lớn, chúng vẫn không giữ được giá trị gần đúng tỷ lệ 1-1/e-ϵ Một thuật toán heuristics nhanh gọi là PMIA do Chen và các cộng sự đề xuất [97] với ý tưởng chính của thuật toán này là xây dựng một đồ thị không chu trình có hướng để ước tính ảnh hưởng theo mô hình IC. Để giữ tỷ lệ 1-1/e-ϵ, nghiên cứu về phương pháp xấp xỉ tiếp tục được tiến hành Borgs và cộng sự [46] lần đầu tiên trình bày một thuật toán xấp xỉ 1-1/e-ϵ với xác suất ít nhất là 1-δ với độ phức tạp là O(kl 2 (m + n)log 2 n/ϵ 3 ) bằng cách giới thiệu mô hình lấy mẫu ảnh hưởng ngược (RIS) Mô hình này đã hình thành nền tảng cho sự phát triển thuật toán sau này [98]-[100] Kể từ đó, nhiều công trình đã nghiên cứu các thuật toán có thể mở rộng cho IM trong bối cảnh tiếp thị lan truyền Các tác giả trong [14] đã nghiên cứu bài toán khái quát về các vấn đề IM và BIM, được gọi là tiếp thị truyền thông có mục tiêu và nhận thức về chi phí (CTVM) Trong công trình này, mỗi nút u có chi phí tùy ý c(u) và lợi ích b(u) và mục tiêu của CTVM là chọn một tập hợp hạt giống trong một ngân sách nhất định để tổng lợi ích được tối đa hóa. Trong bài toán CTVM, ta có thể thiết lập các thông số tối đa hóa ảnh hưởng trên một nhóm người dùng mục tiêu nhất định nhưng không thể đồng thời tối đa hóa ảnh hưởng tới tất cả người dùng trong mạng như trong trường hợp của bài toán IMP Sau đó, một số công trình cải thiện tỷ lệ xấp xỉ cũng như khả năng mở rộng của CTVM đó là các thuật toán trong [101], [102].

Gần đây, có nhiều biến thể của bài toán IM đã được nghiên cứu Công trình [16] đã nghiên cứu bài toán tối đa ảnh hưởng theo các chủ đề, trong đó các cạnh được liên kết với trọng số ảnh hưởng của chủ đề Bài toán này nhằm mục đích tìm ra một tập hợp k người dùng có ảnh hưởng tối đa đến người dùng theo một chủ đề cho trước Tuy nhiên, các thuật toán được đề xuất không cung cấp bất kỳ đảm bảo lý thuyết nào Biến thể của IM theo vị trí khoảng cách và địa lý cũng được quan tâm do các mạng xã hội ngày nay có thể thu thập thông tin này từ người dùng [15].

Bên cạnh đó, một số công trình nghiên cứu vấn đề Tối đa hóa ảnh hưởng cạnh tranh (CIM), tức là xem xét IM trong sự cạnh tranh của nhiều đối thủ [4], [17]-[22] Chen và cộng sự [97] nghiên cứu CIM trong bối cảnh cuộc đấu tranh giữa thông tin chính thức và tiêu cực dựa trên với giả định rằng thông tin tiêu cực thường hấp dẫn hơn thông tin chính thức Một số tác giả đã xem xét vấn đề dưới nhiều trường hợp khác nhau trong tiếp thị lan truyền, chẳng hạn như đề xuất một bài toán nhận thức về khoảng cách [15], mở rộng mô hình LT để phản ánh cạnh tranh [17].

Gần đây, một số tác giả đã nghiên cứu việc lựa chọn các nút hạt giống trong mạng xã hội để ảnh hưởng đến các nhóm của người dùng hoặc cộng đồng thay vì cá nhân [103]-[106] Họ lập luận rằng trong các tình huống thực tế tạo ra tác động đến các nhóm có lợi hơn các cá nhân trong một mạng lưới. Tsang và cộng sự [103] đề xuất nghiên cứu bài toán Tối đa hóa nhóm công bằng với hai tiêu chí bao gồm tối đa công bằng và sự đa dạng Trong khi sự công bằng tối đa nhằm tối đa hóa ảnh hưởng tối thiểu tới các nút bất kỳ trên mỗi nhóm, tiêu chí đa dạng phản ánh sự tối đa ảnh hưởng trong mỗi nhóm riêng biệt Gần đây hơn, các tác giả trong [104] đã đề xuất các thuật toán chính xác cho các bài toán trên dựa trên quy hoạch toán học Tuy nhiên họ chỉ giải quyết trên một tập mẫu cụ thể.

Tuy đã có nhiều công bố liên quan đến bài toán IM những vẫn còn nhiều thách thức đặt ra, các nghiên cứu liên quan chưa xem xét đến ràng buộc ưu tiên của tập hạt giống Trong thực tế có những tập người dùng ưu tiên quan trọng như những người nổi tiếng, ngôi sao ca nhạc, các nhà chính trị, vv…Trong quá trình lan truyền thông tin nếu dựa trên các ràng buộc của tập ưu tiên thì sẽ đạt được hiệu quả cao để lan truyền thông tin trên mạng xã hội. Đây là cơ sở để luận án đề xuất bài toán “Cực đại ảnh hưởng với ràng buộc ưu tiên trên mạng xã hội”.

Các nghiên cứu liên quan bài toán cực đại ảnh hưởng lan truyền thông tin nhiều chủ đề

Mặc dù các bài toán về tối đa hóa thường là NP-Khó [3], chúng đã được nghiên cứu rộng rãi vì vai trò quan trọng của chúng trong tối ưu hóa tổ hợp và học máy.

Các nghiên cứu đầu tiên về hàm k-submodular được khởi xướng bởi Singh và các cộng sự [29], tuy nhiên các tác giả chỉ tập trung giải quyết bài toán tối đa ảnh hưởng cho trường hợp k = 2.

Ward cùng cộng sự [106] lần đầu tiên nghiên cứu về bài toán tối ưu hàm k-submodular không ràng buộc, trong trường hợp đặc biệt với chi phí của mọi phần tử bằng 1 và B = n và đưa ra một thuật toán tham lam xác định với độ chính xác xấp xỉ 1/3 Tiếp đó, các đồng tác giả ở [17], giới thiệu thuật toán tham lam ngẫu nhiên, cải thiện được tỉ lệ chính xác lên �

2�−1 bằng cách áp dụng một phân phối xác suất cho việc lựa chọn phần tử mang lại biên ảnh hưởng với xác suất lớn hơn.

Nghiên cứu của Hiroki Oshima trong [17] đã có cải tiến làm giảm thiểu tính ngẫu nhiên ở [123] nhưng lại phải đánh đổi bằng việc tăng số lời gọi hàm mục tiêu cần thực hiện lên O(n 2 k 2 ).

Việc tối ưu hàm k-submodular đã được nghiên cứu thêm với nhiều điều kiện ràng buộc khác nhau Oshaka cùng cộng sự [26] là những người đầu tiên nghiên cứu về tối ưu hàm k-submodular đơn điệu với ràng buộc về kích thước của lời giải Bằng việc áp dụng chiến lược tham lam, các tác giả đã đưa ra thuật toán với tỉ lệ xấp xỉ 1/2 đối với ràng buộc kích thước của toàn bộ lời giải và tỉ lệ xấp xỉ 1/3 đối với ràng buộc kích thước cho từng tập con trong lời giải.Tuy nhiên, thuật toán của nhóm tác giả chỉ áp dụng được cho trường hợp hàm f đơn điệu, trong trường hợp hàm f không đơn điệu không cho ra được lời giải như mong đợi.

Tương tự, các tác giả trong [107] chỉ ra được một chiến lược lựa chọn tham lam với tỉ lệ xấp xỉ là 1/2 áp dụng cho bài toán ràng buộc matroid và cũng chỉ giới hạn áp dụng trong trường hợp hàm f là một hàm đơn điệu.

Cũng giải quyết cho trường hợp ràng buộc matroid, các tác giả trong

[28] tiếp đó đưa ra một thuật toán tiến hóa đa mục tiêu cho trường hợp hàm f là hàm có tính chất k-submodular Thuật toán được đề xuất đưa ra được lời giải với tỉ lệ xấp xỉ là 1/2 với độ phức tạp về số lời gọi hàm mục tiêu là O(kn log 2 B).

Gần đây, Nguyen cùng cộng sự [25] đã nghiên cứu thêm về việc tối ưu hàm k-submodular với ràng buộc về giới hạn kích thước trên toàn bộ lời giải có độ nhiễu và đưa ra được hai thuật toán luồng với tỉ lệ xấp xỉ là �(� 1 −

� −2 �) khi hàm f đơn điệu và �(� 1 − � −3 �) khi hàm f không đơn điệu.

Zheng cùng cộng sự [108] cũng đã nghiên cứu về vấn đề tối ưu hàm k- submodular với ràng buộc về kích thước của tập lời giải và giới thiệu một hàm xấp xỉ của hàm mục tiêu f, từ đó đề xuất một thuật toán tham lam mới tối ưu lời giải trên hàm xấp xỉ.

Zhang cùng cộng sự [109] lần đầu tiên nghiên cứu về việc tối đa ảnh hưởng hàm k-submodular với ràng buộc về chi phí cho phần tử tập thứ i trong lời giải, nhóm tác giả đã đưa ra được thuật toán với độ xấp xỉ 1 (1 − 1 ), độ

5 � phức tạp O(kn 2 ) về số lời gọi hàm mục tiêu Tuy nhiên, tỉ lệ xấp xỉ này chỉ được đảm bảo khi hàm f là hàm đơn điệu.

Gần đây hơn Tang và cộng sự [110] đã đề xuất thuật toán xấp xỉ (1 −

1 )/2 với O(n 4 k 3 ) độ phức tạp của truy vấn cho cực đại k-submodular dưới

Tuy nghiên, những thuật toán này không thể áp dụng vào bài toán “cực đại ảnh hưởng lan truyền thông tin nhiều chủ đề với chi phí giới hạn” của luận án bởi trong bài toán được đề ra chi phí để thêm mỗi phần tử vào tập lời giải là khác nhau Bên cạnh đó, luận án mong muốn đề xuất một thuật toán mang tính chất tổng quát hơn, có thể áp dụng cho cả hai trường hợp hàm f đơn điệu và không đơn điệu, đồng thời xử lý dữ liệu đầu vào như một thuật toán luồng đã đề cập.

Thuật toán luồng là một trong những phương pháp hiệu quả để giải quyết bài toán tối ưu hàm k-submodular với nhiều dạng ràng buộc khác nhau về lời giải [23, 26, 111, 112] Việc vận dụng thuật toán luồng tỏ ra hiệu quả đối với các bài toán có bộ dữ liệu lớn và tính chất sinh ra dữ liệu liên tục. Việc đề xuất một thuật toán mới có các tính chất của thuật toán luồng áp dụng cho việc giải quyết vấn đề mà NCS đưa ra được kế thừa và truyền cảm hứng từ cách tiếp cận và các ý tưởng mới trong [23], [111] Trong đó, cách tiếp cận đề giải quyết bài toán là xây dựng lời giải một cách hoàn thiện dần, việc lựa chọn một phần tử để thêm vào lời giải được dựa vào biên độ mà phần tử giúp hàm mục tiêu gia tăng ảnh hưởng thêm, phần tử có đóng góp biên độ lớn nhất sẽ được lựa chọn đưa vào tập lời giải.

CỰC ĐẠI ẢNH HƯỞNG VỚI RÀNG BUỘC ƯU TIÊN T RÊN MẠNG XÃ HỘI

Đặt vấn đề

Ngày nay mạng xã hội đã trở thành nền tảng quan trọng trong giao tiếp cũng như thương mại điện tử Các công ty và doanh nghiệp đã tận dụng sự lan truyền thông tin nhanh chóng nhờ hiệu ứng “truyền miệng” giữa những người bạn trên mạng xã hội để tiếp thị lan truyền thông tin Ví dụ: Các công ty có thể cung cấp một số công ty với các sản phẩm mẫu miễn phí cho một vài người dùng với mục đích để họ quảng bá thông tin về sản phẩm trên các SN. Bài toán cực đại ảnh hưởng (IM) [3] là vấn đề then chốt trong tiếp thị lan truyền thông tin, đã được nghiên cứu rộng rãi trong thập kỷ này do giá trị của nó trong kinh doanh, tiếp thị lan truyền thông tin Về cơ bản, IM nhằm mục đích tìm một số nút được ảnh hưởng ở thời điểm ban đầu (được gọi là tập nguồn) trong mạng xã hội để bắt đầu quá trình lan truyền ảnh hưởng sao cho có thể ảnh hưởng đến nhiều nút nhất Kempe và cộng sự [3] lần đầu tiên nghiên cứu IM như một bài toán tối ưu tổ hợp trên hai mô hình lan truyền thông tin IC và LT Vì bài toán IM là NP-Khó, họ đã thiết kế một thuật toán tham lam với tỷ lệ xấp xỉ (1 − 1 ) Bài toán IM không chỉ có vai trò quan trọng

� trong thương mại tiếp thị lan truyền [14], [113] mà còn là nền tảng của các ứng dụng khác nhau trong nhiều lĩnh vực như kiểm soát dịch bệnh trên mạng xã hội [79], [114] - [117], giám sát mạng xã hội [118], [119], hệ thống khuyến nghị [120], vv Do đó Bài toán IM đã được nghiên cứu rộng rãi trong những năm gần đây [6], [7], [14], [16], [17], [79], [97], [98], [121], [122].

Mặc dù bài toán IM có rất nhiều ứng dụng trong tiếp thị lan truyền thông tin, nhưng các nghiên cứu trước đây đã bỏ qua việc xem xét tác động đến những người dùng ưu tiên có thể đóng vai trò quan trọng đối với hiệu quả của các chiến dịch tiếp thị lan truyền thông tin Trên thực tế, các công ty thường ưu tiên những khách hàng tiềm năng như những người có khả năng tài chính hoặc phù hợp với sản phẩm của họ.

Ví dụ: Một công ty sản xuất tã trẻ em có xu hướng giới thiệu sản phẩm cho những phụ nữ đã kết hôn từ 20 đến 45 tuổi Giả sử rằng họ có một số dữ liệu về tài khoản người dùng trên mạng xã hội, họ sẽ đưa ra một chương trình khuyến mại với số lượng quà tặng phù hợp cho những khách hàng tiềm năng của họ là nữ giới đã kết hôn qua mạng xã hội này Nếu ta chỉ quan tâm đến số lượng cá thể bị ảnh hưởng như trong bài toán IM, chúng ta sẽ không đánh giá tác động đến những người dùng tiềm năng và dẫn đến việc lựa chọn sai tập nguồn (tập hạt giống) Hình 2.1 cho thấy một ví dụ trong trường hợp này. Mạng này chứa 8 nút và 9 cạnh, tập ưu tiên là {b, d} và trọng số của mỗi cạnh (hoặc xác suất ảnh hưởng) được gán giá trị là 1 Xét trường hợp khi chi phí k = 1 (số nút nguồn), tối ưu giải pháp của IM là {f} ảnh hưởng đến

6 nút bao gồm {f, d, g, c, e, h} ngoại trừ b Do đó, IM không thể có hiệu lực đối với tất cả các nút ưu tiên.

Hình 2.1 Ví dụ cho thấy sự khác biệt giữa IM và IMP Thúc đẩy bởi những thực tế trên, chương này luận án nghiên cứu bài toán cực đại ảnh hưởng với ràng buộc ưu tiên (IMP), có tính đến ràng buộc ưu tiên đối với quá trình ảnh hưởng.

Với mạng xã hội G = (V, E), tập hợp ưu tiên U ⊂ V, chi phí k và ngưỡng ưu tiên T (T ≤ k), mục tiêu của bài toán IMP là tìm tập nguồn S có kích thước k để nó có ảnh hưởng đến U ít nhất là T và tổng ảnh hưởng đến các nút trong mạng là cực đại Trên thực tế IMP phù hợp hơn IM Bên cạnh đó bài toán IMP khái quát bài toán IM Tuy nhiên, bài toán này phải đối mặt với những thách thức phức tạp do hạn chế về ràng buộc ưu tiên Để giải quyết vấn đề này, NCS đề xuất 02 thuật toán xấp xỉ là IG và IGS IG đáp ứng đảm bảo về mặt lý thuyết dựa trên việc sửa đổi thuật toán tham lam truyền thống trong

[7], [17], [44], [123] IGS là một giải pháp hiệu quả thuật toán xấp xỉ ngẫu nhiên dựa trên phương pháp lấy mẫu Thuật toán này kết hợp hai kỹ thuật mới. Đầu tiên, NCS đề xuất khái niệm ảnh hưởng ngược có mục tiêu (TRR) bằng cách sửa đổi kỹ thuật lấy mẫu ảnh hưởng ngược (RR) [7], [17], [44], [123] để ước tính mức độ ảnh hưởng từ tập hợp nguồn đến một tập hợp nhất định đặt ràng buộc ưu tiên Thứ hai, luận án phát triển một chiến lược mới để chọn một bộ nguồn phù hợp với ràng buộc ưu tiên và đặt số lượng mẫu để đưa ra sự đảm bảo về mặt lý thuyết.

Mô hình và Phát biểu bài toán

Trong phần này NCS giới thiệu về mô hình mạng và mô hình phát tán thông tin IC [3] Theo mô hình IC, NCS chính thức phát biểu bài toán cực đại ảnh hưởng với ràng buộc ưu tiên (IMP).

2.2.1 Mô hình mạng và mô hình IC

Gọi G = (V, E) là đồ thị có hướng biểu diễn một mạng xã hội có tập nút

V và tập cạnh có hướng E, |V| = � và |E| = � Gọi N in (v) và N out (v) là các hàng xóm đi vào và đi ra của một nút v Kí hiệu của S và S ∗ đại diện cho một tập nguồn tương ứng là một nghiệm và một nghiệm tối ưu của IMP Trong đó OPT

= � � ∗ là hàm ảnh hưởng của một giải pháp tối ưu.

Trong mô hình IC, mỗi cạnh e = (u, v) E có xác suất ảnh hưởng p(u, v)

 (0,1) biểu diễn cho việc truyền thông tin từ u đến v Giả sử một công ty đang muốn tìm � người dùng trong mạng để đưa các sản phần dùng thử và muốn họ quảng bá các thông tin tốt về sản phẩm trên mạng xã hội, như chia sẻ, tạo bài đăng, gửi tin nhắn đến bạn bè của họ, vv Số lượng sản phẩm dùng thử này chính là chi phí để quảng bá sản phẩm Mỗi nút v  V có hai trạng thái kích hoạt hoặc không kích hoạt biểu diễn trạng thái của người dùng bị ảnh hưởng hoặc không bị ảnh hưởng bởi thông tin Với một tập nguồn S ⊆

V, quá trình khuếch tán từ S xảy ra theo các bước rời rạc t = 0, 1 , ., như sau:

- Tại bước t = 0, tất cả các nút trong S đều được kích hoạt.

- Tại bước t ≥ 1, đối với một nút u đã được kích hoạt trong các bước trước đó, nó có một cơ hội duy nhất để kích hoạt mỗi láng giềng chưa bị kích hoạt v với xác suất thành công p(u, v) Một nút đã kích hoạt vẫn giữ nguyên trạng thái kích hoạt cho đến khi quá trình khuếch tán kết thúc.

- Quá trình lan truyền kết thúc khi không còn nút nào được kích hoạt thêm ở bước tiếp theo.

Kempe và cộng sự [3] đã cho thấy rằng mô hình IC tương đương với mô hình LE và ước tính số lượng các nút ảnh hưởng có thể được thực hiện như sau Đầu tiên tạo đồ thị mẫu g từ đồ thị G bằng cách chọn mỗi cạnh e=(u, v)E, một cách độc lập, với xác suất p(u, v) và không chọn cạnh (u, v) với xác suất 1- p(u, v) Xác suất để sinh ra đồ thị mẫu g từ G (ký hiệu là g ∼ G) là:

Trong phương trình này, E(g) là tập hợp cạnh của g Số lượng đồ thị mẫu là 2 |�| Hàm ảnh hưởng của tập nguồn S trong đồ thị G được tính như sau:

Trong đó R(g, S) ký hiệu tập các nút có thể truy cập được từ S trong g Đối với tập hợp các nút ưu tiên U, hàm ảnh hưởng độ lan truyền của S đến U được tính như sau:

Trong đó R(g, S U) ký hiệu tập hợp các nút trong U có thể tới từ S trong đồ thị g Kempe và cộng sự [3] cũng chỉ ra rằng �( ∙ ) là một hàm đơn điệu và hàm submodular, tức là với bất kỳ A ⊂V và v V \A, ta có:

�(� + � ) ≥ �(�) (2.4) và với mọi A ⊆B ⊂V, và v V \B, ta có:

� � + � − � � ≥ � � + � − � � (2.5)Chỳng ta cũng dễ dàng nhận thấy rằng U(ã) là một hàm đơn điệu và hàm submodular.

2.2.2 Phát biểu bài toán Để làm rõ vấn đề nghiên cứu, luận án phát biểu bài toán cực đại ảnh hưởng với ràng buộc ưu tiên (IMP) như sau: Định nghĩa 2.1: (Bài toán IMP): Cho đồ thị G = (V, E) theo mô hình IC, một số nguyên dương k (chi phí), tập ưu tiên U ⊂ V và ngưỡng T (ngưỡng đạt được trong tập ưu U) với T ≤ k, T ≤ |U| Bài toán IMP yêu cầu tìm tập nguồn S

⊂ V, với |S| ≤ k và ��(�) ≥ � sao cho mức độ lan truyền ảnh hưởng �(�) là cực đại, tức là tìm S là giải pháp cho bài toán tối ưu hóa sau:

Bài toán yêu cầu tìm k người dùng ảnh hưởng nhất, phải thỏa mãn ràng buộc luôn chọn tối thiểu T người dùng trong tập ưu tiên U Luận án giải quyết trường hợp tổng quát khi k ≤ T, tức là ngoài chọn T người dùng ưu tiên, người ra quyết định có thể chọn k - T người dùng ảnh hưởng khác Tuy vậy, với trường hợp k < T, thì thuật toán quay về giống với thuật toán tham lam trong trường hợp bài toán IM và có thể áp dụng các phân tích đã có với bài toán IM với tỷ lệ xấp xỉ của lời giải là 1-1/e Thuật toán đề xuất trong luận án có thể hoạt động tốt và đưa ra tỷ lệ xấp xỉ gần với 1-1/e trong trường hợp này.

Bài toán IMP trở thành bài toán IM khi U là rỗng Do đó bài toán IM là một trường hợp đặc biệt của IMP và bài toán IMP cũng là NP-Khó Ngoài ra, việc tính toán hàm ảnh hưởng từ tập nguồn được chứng minh là #P-Khó [97].

Vì vậy việc tìm ra giải pháp cho bài toán trong thời gian cho phép một vấn đề khó và thú vị.

Thuật toán tham lam tích hợp

Phần này luận án đề xuất Thuật toán tham lam tích hợp (IG), dựa trên việc thay đổi thuật toán tham lam truyền thống [3] để giải quyết các vấn đề đơn điệu và submodular đảm bảo tỷ lệ xấp xỉ cho lời giải Chi tiết của thuật toán được mô tả trong Thuật toán 2.1.

Giả sử S 1 là lời giải của bài toán tìm số nút nhỏ nhất sao cho ảnh hưởng đến tập ưu tiên lớn hơn ngưỡng T và S 2 là một lời giải của bài toán IM.

Thuật toán này sửa đổi thuật toán tham lam gốc [3] bằng cách kết hợp hai giải pháp trên.

- Ý tưởng của thuật toán: Thuật toán được chia thành hai giai đoạn. Giai đoạn đầu: thuật toán tìm ra giải pháp S 1 bằng chiến lược tham lam.

Trong mỗi vòng lặp, thuật toán chọn một nút u có ảnh hưởng tăng thêm lớn nhất đối với U vào S 1 cho đến khi ��(�1) ≥ � Vì T < k, |S 1 | ≤ T < k Ký hiệu t = k - |S 1 | là chi phí còn lại.

Giai đoạn hai: Thuật toán tìm giải pháp ứng cử viên S 2 cho IM với chi phí còn lại t bằng cách sử dụng phương pháp tham lam Trong mỗi vòng lặp i, nó chọn một nút u có độ gia tăng ảnh hưởng là lớn nhất Nếu u đã thuộc S 1 , thuật toán tăng t lên 1 Giai đoạn 2 kết thúc khi hết chi phí còn lại.

Cuối cùng, thuật toán trả về nghiệm S hợp nhất S 1 và S 2 Dễ dàng khẳng định rằng |S| = k, và t > k - T ≥ 1 vì k > T Định lý 2.1 cho thấy sự đảm bảo gần đúng của thuật toán IG.

- Các bước thực hiện thuật toán

Bước 1: Khởi tạo giá trị ban đầu

Khởi tạo các giải pháp S 1 ← ∅, S 2 ← ∅

Bước 2: Thực hiện giai đoạn 1 (Chiến lược tham lam cho tập ưu tiên U để chọn giải pháp S 1 )

Trong mỗi vòng lặp, thuật toán chọn một nút u có ảnh hưởng tăng thêm lớn nhất đối với U vào S 1 (dòng 3-4) cho đến khi ��(�1) ≥ �.

Tính chi phí còn lại t ← k − |S 1 |

Bước 3: Thực hiện giai đoạn 2 (tiếp tục chiến lược tham lam cho thuật toán IM với chi phí t còn lại để chọn giải pháp S 2 )

Trong mỗi vòng lặp i, thuật toán chọn một nút u có độ gia tăng ảnh hưởng là lớn nhất (dòng 8) Nếu u đã thuộc S 1 , thuật toán tăng t lên 1 (dòng 9-

Giai đoạn 2 kết thúc khi hết chi phí còn lại.

Bước 4: Đưa ra kết quả cuối cùng

Thuật toán trả về nghiệm S hợp nhất S 1 và S 2

Thuật toán 2.1: Thuật toán tham lam tích hợp IG

/*U:tập ưu tiện, k:tập hạt giống, T:Ngưỡng đạt được trong tập ưu tiên*/

/* Đoạn 1: Chiến lược tham lam cho tập ưu tiên */

/* Đoạn 2: Tham lam cho IM với chi phí còn lại*/

15 return S, t. Định lý 2.1 Thuật toán IG trả về (S, t), trong đó S là nghiệm khả thi và t ≥ 1,

Tỷ lệ xấp xỉ trong trường hợp xấu nhất 1/k khi t = 1.

Chứng minh: Kí hiệu � ∗ = {s 1 , s 2 , , s k } là một giải pháp tối ưu của bài toán

IM cho dữ liệu đầu vào của Thuật toán IG (đồ thị G và chi phí k) Rõ ràng, ta có � � ∗ ≥ � � ∗ Sau khi kết thúc giai đoạn thứ hai, giả sử rằng S 2

= { � 1 , � 2 , …, � � }, � � = { � 1 , � 2 , …, � � } và � 0 = ∅ Trong giai đoạn thứ hai,

2 �� thuật toán liên tục chọn một nút u có độ gia tăng ảnh hưởng là lớn nhất và do hàm �(ã) là đơn điệu và submodular [3], vỡ vậy ta cú:

Do đó, với bất kỳ i = 0, , t - 1, ta có

Trừ hai số hạng bất đẳng thức cho � � ∗ , ta có:

Sắp xếp lại các số hạng của bất đẳng thức trên, ta có

Kết hợp với �2 = ∅ và � ∅ = 0, ta có

Vì ��(�1) ≥ � và � = �1 ∪ �2, S là nghiệm khả thi của IMP, và

� � ∗ (2.13) Định lý được chứng minh!

Mặc dù Thuật toán 2.1 có thể cung cấp một đảm bảo gần đúng, nhưng

� nó không thể hoạt động với mạng xã hội thực do việc tính hàm ảnh hưởng σ(S) là #P-hard theo mô hình IC [97] Để vượt qua thách thức này, luận án đề xuất một thuật toán ngẫu nhiên với đảm bảo xấp xỉ dựa trên việc kết hợp IG với kỹ thuật lấy mẫu.

Thuật toán lấy mẫu dựa trên tham lam tích hợp

Trong phần này luận án trình bày một thuật toán hiệu quả cho bài toán IMP có tên là thuật toán lấy mẫu dựa trên tham lam tích hợp (IGS) Thuật toán có thể cung cấp sự đảm bảo về mặt lý thuyết Ngoài ra luận án cho thấy rằng thuật toán IGS cũng có thể được áp dụng cho các mạng xã hội lớn trong thực nghiệm.

2.4.1 Công cụ ước tính hàm ảnh hưởng Đầu tiên luận án tóm tắt lại khái niệm về bộ ảnh hưởng ngược (Reachable Reverse - RR) [44] để ước lượng hàm ảnh hưởng σ(ã) Trờn cơ sở đó, luận án đề xuất bộ khái niệm ảnh hưởng ngược có mục tiêu (Targeted Reachable Reverse - TRR) để ước tính hàm ảnh hưởng σ U (S) Sau đó đề xuất thuật toán IGS và đưa ra các phân tích lý thuyết dựa trên căn cứ thống kê. Định nghĩa 2.2: (Tập hợp Reachable Reverse (RR) [46]) Cho đồ thị G = (V,

E) theo mô hình IC Một tập RR ngẫu nhiên R j được tạo ra từ G bằng cách:

- Chọn một nút nguồn u với xác suất 1

- Tạo một đồ thị mẫu g từ G và trả về R j dưới dạng các nút có thể truy cập từ u trong g.

Trong đó R j là tập các mẫu RR với nút nguồn u cho đồ thị mẫu g. Đối với tập RR ngẫu nhiên R j , hãy xác định một biến ngẫu nhiên X g (S)

= min{1, |R g ∩ S|} Borgs và cộng sự [46] cho thấy rằng các mẫu RR có thể được sử dụng để ước tính hàm ảnh hưởng bằng cách áp dụng Bổ đề sau.

Bổ đề 2.1 [46] Với tập nỳt S ⊆V bất kỳ, ta cú σ(S) = n ã [X g (S)].

Cho một tập RR ngẫu nhiên trong tập mẫu ℛ và một tập nút S, ta có thể tính gần đúng giá trị của σ(S) bởi �^(S) được xác định như sau:

Việc tạo tập RR có thể được thực hiện bằng cách sử dụng thuật toán IM trong [7], [17], [44], [100], [123] Thuật toán chung để tạo tập ảnh hưởng ngược (RR) R j được mô tả trong Thuật toán 2.2 Thuật toán này đầu tiên chọn một nút u với xác suất 1 để thêm vào R j Thuật toán sử dụng một hàng đợi Q

� để lưu trữ các nút đã truy cập Ban đầu u được thêm Q Tiếp theo thuật toán theo truy xuất từng nút v trong Q và chọn một nút x với xác suất p(x, v) (dòng

6) Nếu thành công nó sẽ thêm x vào Q và R j Quá trình này diễn ra cho đến khi hàng đợi Q rỗng.

Thuật toán 2.2: [46] Tạo mẫu RR theo mô hình IC Input: Đồ thị G = (V, E) theo mô hình IC

1 Chọn một nút nguồn u với xác suất 1

2.Khởi tạo hàng đợi Q = {u} và R j = u �

3.while Q is not empty do

6 Với xác suất p(x, v): Q.push(x) và R j ← R j ∪{u}

Tiếp theo luận án giới thiệu định nghĩa của khái niệm ảnh hưởng ngược có mục tiêu (Targeted Reachable Reverse -TRR) trên cơ sở sửa đổi khái niệm bộ mẫu RR. Định nghĩa 2.3: (Tập ảnh hưởng ngược có mục tiêu (Targeted Reachable Reverse

- TRR)) Cho đồ thị G=(V, E) theo mô hình IC Một tập TRR ngẫu nhiên

� � được tạo ra từ G bằng cách:

- Chọn một nút nguồn u ∈U với xác suất 1

- Tạo một đồ thị mẫu g từ G và trả về � � dưới dạng các nút có thể truy cập từ u trong g.

Trong đó � � là tập các mẫu TRR với nút nguồn u cho đồ thị mẫu g.

Luận án định nghĩa một biến ngẫu nhiên ��(�) = min{1, | � � ∩ S|}

Tương tự như Bổ đề 2.1, Bổ đề 2.2 cho thấy rằng ta có thể sử dụng giá trị của

Bổ đề 2.2 Với tập nỳt S ⊆V bất kỳ, ta cú σ U (S)= |U|ã [��(�)].

Chứng minh: Kí hiệu � � (�) là mẫu TRR với nút nguồn u cho đồ thị mẫu g, ta có:

Sự chuyển đổi từ đẳng thức thứ hai sang đẳng thức thứ ba xuất phát từ định nghĩa của � � (�) và từ đẳng thức thứ ba sang thứ tư rồi đến thứ năm là do sự phân bố của việc chọn nút u làm một nút nguồn.

Cho một tập mẫu TRR trong ℛ và một tập hợp nút S, ta xác định một giá trị gần đúng của ��(�) như sau:

Từ Bổ đề 2.2, ta cú thể đưa ra một xấp xỉ tốt của �� (ã) khi số lượng mẫu TRR đủ lớn Chúng ta có thể sử dụng lại Thuật toán 2.2 để tạo tập TRR

� � bằng một sửa đổi NCS thay thế dòng 1 trong thuật toán 2.2 bằng cách chọn nút nguồn u ∈U với xác suất 1

� và giữ nguyên phần còn lại.

2.4.2 Mô tả thuật toán và phân tích lý thuyết

Thuật toán lấy mẫu dựa trên tham lam tích hợp (IGS) được trình bày chi tiết trong Thuật toán 2.3 Thuật toán IGS dùng kỹ thuật lấy mẫu và cần các phân tích xác suất liên quan để đảm bảo chất lượng lời giải về lý thuyết.

- Ý tưởng của thuật toán Đầu tiên IGS tạo ra N u tập hợp mẫu đảo ngược có mục tiên TRR (Targeted Reverse Reachable) và đặt các giải pháp S 1 , S 2 là rỗng Tiếp theo thuật toán chia làm 2 giai đoạn.

Giai đoạn 1: Thuật toán tìm ra giải pháp ứng viên S 1 bằng cách sử dụng chiến lược tham lam S 1 thu được thỏa mãn ràng buộc ưu tiên ��(�1) ≥ T với xác suất ít nhất là 1-δ.

Giai đoạn 2: Chọn giải pháp ứng viên S 2 với chi phí còn lại t để mức độ lan truyền ảnh hưởng là cực đại Thuật toán thiết lập các tham số � 1 , t max , N max và tạo ra N 1 tập hợp mẫu đảo ngược RR (Reverse Reachable) Sau đó, thuật toán kiểm tra chất lượng của giải pháp ứng viên S 2

Cuối cùng thuật toán trả về nghiệm S hợp nhất S 1 và S 2

- Các bước thực hiện thuật toán Bước 1: Khởi tạo giá trị ban đầu.

IGS tạo ra N u tập hợp mẫu đảo ngược có mục tiên TRR (dòng 1) và khởi tạo các giải pháp S 1 ← ∅, S 2 ← ∅.

Bước 2: Thực hiện giai đoạn 1 (tìm ra giải pháp ứng viên S 1 ).

Thuật toán tìm ra giải pháp ứng viên S 1 với kích thước nhỏ nhất sao cho

�^(S) ≥ (1 + α)T bằng cách sử dụng chiến lược tham lam với hàm tiềm năng

Trong mỗi vòng lặp, thuật toán chọn một nút u có giá trị gia tăng lớn nhất của hàm tiềm năng (dòng 4) cho đến khi �^(S) ≥ (1 + α)T.

Giải pháp ứng viên S 1 thu được trong giai đoạn này thỏa mãn ràng buộc ưu tiên ��(�1) ≥ T với xác suất ít nhất là 1 - δ

Bước 3: Thực hiện giai đoạn 2 (tiếp tục chiến lược tham lam với chi phí t còn lại để chọn giải pháp S 2 ).

Trong giai đoạn này thuật toán chọn giải pháp ứng cử viên S 2 với chi phớ cũn lại (t= k - |S 1 |) để mức độ lan truyền ảnh hưởng σ(ã) là cực đại.

Bước 3.1: Thuật toán thiết lập các tham số �1, t max , N max (dòng 7-10) và tạo ra N 1 tập hợp mẫu RR ℛ2 (dòng 11).

Phần chính của giai đoạn này hoạt động trong một số vòng lặp (dòng 12-27) cho đến khi đáp ứng điều kiện dừng (dòng 22).

Bước 3.2: Trong mỗi vòng lặp, thuật toán tìm một giải pháp ứng viên

S 2 bằng một chiến lược tham lam Thuật toán chọn một nút u có ảnh hưởng xấp xỉ tăng dần tối đa �^(ã) trờn ℛ2 (dũng 15) cho đến khi t nỳt được chọn.

Tương tự như thuật toán IG, nếu u đã thuộc S 1 , thuật toán tăng t thêm 1 (dòng 17) Sau đó, thuật toán kiểm tra chất lượng của giải pháp ứng viên S 2

Bước 3.3: Thuật toán tính toán các hàm ��(S 2 , ℛ2, δ)-cận dưới của σ(S 2 ), và F u (S 2 , ℛ2 , δ)-cận trên của một giải pháp tối ưu đối với bài toán IMP

(dòng 21) Các hàm này đảm bảo tiêu chí thống kê, được khẳng định trong các

Nếu nghiệm S 2 đáp ứng điều kiện gần đúng (dòng 22), thuật toán trả về

S 2 Nếu không, thuật toán sẽ chuyển sang vòng lặp tiếp theo và dừng lại khi số lượng mẫu TRR ít nhất là N max (dòng 27).

Thuật toán trả về nghiệm S hợp nhất S 1 và S 2

Phân tích lý thuyết nhằm mục đích chứng minh thuật toán IGS May mắn thay, chuỗi các biến ngẫu nhiên X g (S) và ��(�) được xây dựng từ các mẫu

RR và TRR có thể được hiển thị để tạo thành một martingale. l n

Thuật toán 2.3: Thuật toán lấy mẫu dựa trên tham lam tích hợp (IGS) Input: Đồ thị G = (V, E), U ⊂ V, k, T, � , α, δ ∈ (0, 1)

/ *U:tập ưu tiên, k:tập hạt giống, T:ngưỡng đạt được,  : sai số, α: hằng số thiết lập mẫu,

1 Tạo một tập các bộ N U = (2 + 2 α)|

11 Tạo ra N 1 tập hợp mẫu RR ℛ2

26 End mẫu RR và thêm chúng vào ℛ2

�� = Với bất kỳ biến ngẫu nhiên nào X g (S) ∈ [0, 1], cho biến ngẫu nhiên Σ � (� � (�) − à), ∀� ≥ 1, trong đú à = [��] Cho dóy cỏc biến ngẫu

�=1 � nhiên M 1 , M 2 , ta có [ ��|�1, , ��−1 ] = [ ��−1 ] + [ � � (�) - à] = [��−1] Do đú, M 1 , M 2 , là một dạng martingale [124] Tương tự, �� cũng là một dạng martingale Do đó, áp dụng bất đẳng thức sau đây [124]:

Bổ đề 2.3 Nếu M 1 , M 2 , là một dạng martingale, |M 1 | ≤ a, |M j − M j-1 | ≤ a cho j ∈[1, i] và

Trong đú Var[ã] ký hiệu phương sai của một biến ngẫu nhiờn Sau đú với bất kỳ λ nào ta có:

(2.16) Áp dụng Bổ đề này với |M 1 | = | � 1 (�) | ≤ 1, |M j − M j−1 | = | � � (�) −

= Var[� � (�) − à]= Var[X g (S)], và Var[X g (S)] ≤ à(1 − à) ≤ à, ta cú:

Tương tự, -M 1 ,…, -M i , cũng tạo thành một Martingale, do đó áp dụng Bổ đề 2.3, ta có:

Cho λ = �à ℛ và đặt nú vào hai bất đẳng thức trờn (2.17), (2.18) ta cú:

Bổ đề sau đây cho thấy cận dưới của ảnh hưởng của nghiệm ứng viên S 1

Bổ đề 2.4 Nghiệm ứng viên S 1 thu được trong giai đoạn 1 của Thuật toán 2.3 thỏa mãn Pr[��(�1) ≥ T] ≥ 1 − δ.

= 1 Σ � � � � = ^� � (� 1 ) ≥ (�+��) Áp dụng (2.20) cho tập ℛ1, ta có

Giả sử rằng biến cố à^� ≤ (1 - α)à� xảy ra, ỏp dụng (2.19) cho tập ℛ1, ta có: Pr[ ��(�1) ≤ T] ≤ Pr ��(�1) ≤

� Giả sử rằng |S 1 | = k 1 , có nhiều nhất (� 1 ) khả năng cho các nghiệm ứng viên S 1 Vì thế

Bổ đề 2.5 (Giới hạn dưới) Với bất kỳ δ ∈ (0, 1), tập mẫu RR ℛ, đặt c = ln , và

Do đó, biến cố sau xảy ra với xác suất ít nhất là 1 - δ

Chúng ta xét hai trường hợp sau:

Giải bất phương trỡnh trờn cho à, ta thu được: à ≥ à^ + − (2.26)

Kết hợp hai trường hợp trờn và thay à = �(�) , à^ �^(� ) ta thu được điều

Bổ đề 2.6 (Giới hạn trên) Với mọi δ ∈ (0, 1), trong vòng lặp t của Thuật toán 2.3, ký hiệu ℛ � là tập các mẫu RR với N t = ℛ� , � � là nghiệm ứng

2 2 viên của giai đoạn 2, và

Chứng minh: Đặt λ = 2�à��, ỏp dụng bất đẳng thức (2.18) ta cú:

Do đó biến cố sau xảy ra với xác suất ít nhất là 1 - δ:

Giải bất phương trỡnh bậc hai ở trờn cho à, ta thu được giới hạn trờn của à là: à ≤ max à^, à^ + 1 − �

Ký hiệu S 0 = arg max S, |S| ≤ k �^(�), trong đó �^ được tính trên ℛ �

Kể từ giai đoạn của thuật toán 2.3 chọn một giải pháp ứng viên bằng một chiến lược tham lam Tương tự như Định lý 2.1, ta có:

� vào (2.28) rồi kết hợp với (2.29) ta có:

Bổ đề được chứng minh!

Dựa trên phân tích lý thuyết ở trên, Định lý sau đây đảm bảo xấp xỉ của thuật toán IGS. Định lý 2.2 Thuật toán 2.3 cung cấp nghiệm S và một số nguyên t, thỏa mãn:

Chứng minh: Vì S = S 1 ∪ S 2 và Bổ đề 2.4 ta có:

Xét hai trường hợp sau:

Trường hợp 1: Nếu thuật toán dừng với điều kiện |ℛ � | ≥ N max , áp dụng (2.19) với tập S ∗ và ℛ2, ta có:

�� ≤ �2 (2.32) Áp dụng xác suất hợp để các biến cố (2.31) và (2.32) xảy ra với xác suất nhiều nhất là δ 1 + δ 1 = δ/3 Giả sử rằng chúng không xảy ra ta có: σ(� � ) ≥

Do đó, trong trường hợp này, thuật toán đáp ứng đảm bảo gần đúng với xác suất ít nhất là 1 - δ/3.

Trường hợp 2: Nếu thuật toán dừng ở bất kỳ vòng lặp i nào, i = 1, 2 , ,i max

Tại vòng lặp này, điều kiện ở dòng 19 được thỏa mãn, áp dụng Bổ đề 2.5 và

Bổ đề 2.6, điều sau xảy ra với xác suất ít nhất là 1 - 2i max δ 2 = 1 - 2δ/3: σ (� � )

Kết hợp trường hợp trên, thuật toán thỏa mãn điều kiện tỷ lệ xấp xỉ với xác suất ít nhất là 1 - δ/3 - 2δ/3 = 1 - δ.

Thực nghiệm và đánh giá kết quả

Trong phần này luận án thực nghiệm và so sánh thuật toán IGS với các phương pháp cực đại ảnh hưởng khác về ảnh hưởng nói chung, ảnh hưởng đến các nút ưu tiên, thời gian chạy và sử dụng bộ nhớ Bộ dữ liệu bao gồm một số cơ sở dữ liệu mạng với hàng nghìn hoặc thậm chí hàng triệu nút và cạnh (Bảng 2.1).

Bảng 2.1 Thống kê của bộ dữ liệu

Cơ sở dữ liệu Số nút Số cạnh Loại Bậc trung bình netHEPT [15] 15K 59K Có hướng 4.1

ENRON [15] 37K 184K Có hướng 5 netPHY [15] 37K 181K Có hướng 13.4

Tất cả các thực nghiệm đều thực hiện trên máy cài đặt Hệ điều hành Linux có cấu hình là 2× CPU Xeon(R) Intel(R) E5-2697 v4 @ 2,30GHz và 4 × 16 GB DIMM ECC DDR4 @ 2400MHz.

- So sánh thuật toán: Vì IMP là phiên bản mở rộng của IM, luận án so sánh thuật toán IGS với một số thuật toán IM tiên tiến nhất bao gồm: DSSA

[7], BCT [14], OPIM-C [100] Ngoài ra, luận án sử dụng thuật toán cơ bản Degree, là cơ sở chung cho các bài toán cực đại ảnh hưởng.

Các thuật toán DSSA, BCT, OPIM-C và Degree không xem xét đến ràng buộc ưu tiên, không sử dụng mẫu ảnh hưởng ngược có mục tiêu (TRR) chỉ sử dụng mẫu ảnh hưởng ngược (RR).

Trong bài toán IMP, có hai yếu tố tác động đến giải pháp trong thực tế đó là: chi phí (k) của việc chọn nút nguồn (S) và tập hợp ưu tiên của các nút (U) Do đó hai yếu tố này cũng ảnh hưởng đến các thuật toán trên Từ nhận xét trên, NCS tiến hành thực nghiệm theo hai cài đặt: thay đổi k và T cố định; thay đổi T và cố định k.

- Tập dữ liệu thực nghiệm: Để thực nghiệm, NCS chọn 5 loại cơ sở dữ liệu từ nhiều nguồn khác nhau: NetHept, NetPhy, DBLP là mạng trích dẫn, Email-Enron là mạng truyền thông [7] và Twitter Retweet là mạng xã hội trực tuyến [125] Tóm tắt về các bộ dữ liệu được mô tả trên Bảng 2.1 Các cơ sở dữ liệu này được thực nghiệm vì chúng được sử dụng phổ biến trong các bài toán lan truyền thông tin, đặc biệt các cơ sở dữ liệu này cũng được sử dụng trong các thuật toán hiện đại nhất mà NCS đang so sánh.

- Cài đặt tham số: Đồ thị được định dạng là mỗi cạnh e=(u, v) ∈E có trọng số w(u, v) = 1

� �� (�) trong đó ��(�) là bậc của nút v, thiết lập này theo các nghiên cứu [7], [44], [45]. Đối với trường hợp đầu tiên, k được gán lần lượt là 150, 160, 170, 180,

190 và 200, trong khi T cố định là 100 Ngoài ra tập U được tạo ra với 200 nút. Đối với trường hợp thứ hai, giá trị của k được cố định là 500 Tập U khoảng 1000 nút NCS thay đổi giá trị của T tăng từ 100 đến 500 Trong tất cả các thực nghiệm, NCS thiết lập  = 0.1, δ = 1/n và α = 0.01 theo thiết lập của các thuật toán cực đại ảnh hưởng IM [7], [44], [45].

Luận án cài đặt thuật toán IGS để so sánh với các thuật toán hiện đại như DSSA [7], BCT [14], OPIM-C [100] và Degree, sau đó tính toán mức độ lan truyền ảnh hưởng đến tất cả các nút và đến tập ưu tiên U ⊂ V Kết quả được thể hiện trong các bảng và hình sau.

Hình 2.2 So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu netHEPT với k=150 → 200, T=100 và U =200.

Hình 2.3 So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu ENRON với k=150 → 200, T=100 và U =200.

Hình 2.4 So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu netPHY với k0 → 200, T0 và U 0.

Hình 2.5 So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu DBLP với k0 → 200, T0 và U 0.

Hình 2.6 So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu RETWEET với k0 → 200, T0 và U 0.

- Giá trị hàm ảnh hưởng: Các hình 2.2 đến hình 2.6 và Bảng 2.2 cho thấy thuật toán IGS hoạt động tốt hơn các thuật toán so sánh khi tác động đến các nút ưu tiên theo một ngưỡng T nhất định.

Các hình 2.2 đến hình 2.6 cung cấp thông tin về các giá trị ảnh hưởng trong trường hợp k thay đổi từ 150 thành 200, U bao gồm 200 nút và ngưỡng

T cố định là 100 Các thuật ngữ “infU”, “inf ” có nghĩa là các ảnh hưởng tương ứng đến việc thiết lập U(σ U (S)) và tới tất cả các nút (σ(S)) Đầu ra của các thuật toán này khác nhau trên các cơ sở dữ liệu khác nhau.

Nhìn vào các thanh màu đỏ, ta có thể thấy thuật toán IGS ảnh hưởng đến tập hợp U xấp xỉ gấp đôi giá trị của ngưỡng T trên hầu hết các cơ sở dữ liệu ngoại trừ cơ sở dữ liệu Re-Tweet nhưng vẫn cao hơn T.

Ngược lại, ảnh hưởng đến U của phần còn lại biến động mạnh theo cơ sở dữ liệu Các thuật toán DSSA và BCT ảnh hưởng đến U hơn T trên cơ sở dữ liệu netHEPT và ENRON, nhưng chúng có hiệu quả khá thấp trên cơ sở dữ liệu khác Các thuật toán OPIM-C và Degree thường ảnh hưởng đến U thấp hơn so với T.

Bên cạnh đó giá trị hàm ảnh hưởng σ(S) của thuật toán BCT cao nhất trên cơ sở dữ liệu netHEPT, trong khi IGS luôn đứng đầu trong tất cả các trường hợp khác Nhìn chung các giá trị hàm ảnh hưởng σ(S) của DSSA, OPIM-C và Degree có điểm tương đồng với nhau.

Bảng 2.2 mô tả thực nghiệm trong khi thay đổi T từ 100 đến 500, cố định k = 500 và mở rộng U lên đến 1000 nút Cài đặt này là để kiểm tra trường hợp khi U lớn và khi ngưỡng T tăng dần Chắc chắn điều kiện k ≥ T phải được duy trì nên ta cố định k = 500 Nhìn vào các giá trị in đậm, ta có thể thấy mặc dù U và S đều lớn và T tăng dần, ảnh hưởng đến U của thuật toán IGS luôn cao hơn đáng kể so với T, thậm chí lên đến hơn chục lần.

Các thuật toán DSSA, BCT và OPIM-C cũng cho kết quả đầu ra vượt ngưỡng T trong nhiều trường hợp, nhưng chúng vẫn có giá trị thấp hơn T 500 trên các cơ sở dữ liệu netPHY, DBLP và RETWEET Giá trị hàm ảnh hưởng σ U (S) của thuật toán Degree thấp nhất, đặc biệt chỉ là 22.77 trên cơ sở dữ liệu Re-Tweet.

Bảng 2.2 So sánh về σ(S) và σU(S) giữa IGS và các thuật toán khác với k = 500, U = 1000 và T = 100 → 500. σ(S) 5,666.16 14,267.40 1,865.92 54,033.50 17,307.70 σ U ( S ) 1,482.04 1,075.77 1,192.84 1,271.62 511.08 σ(S) 5,581.34 14,162.20 1805.26 53,553.90 18,581.50 σ U ( S ) 1,478.93 1,079.74 1,175.32 1,267.52 491.35 σ(S) 5,645.40 14,284.80 1,773.33 53,240.50 19,459.10

CỰC ĐẠI ẢNH HƯỞNG BÀI TOÁN LAN TRUYỀN THÔNG

Đặt vấn đề

Việc tối đa hóa hàm k-submodular đã thu hút rất nhiều sự chú ý vì nó có tiềm năng trong việc giải quyết các vấn đề tối ưu hóa tổ hợp khác nhau, chẳng hạn như cực đại ảnh hưởng [25], [26], [28], [126], vị trí cảm biến [26],

[126], lựa chọn tính năng [29] và thông tin tối đa hóa phạm vi bảo hiểm [28].

Ngoài trường hợp không bị hạn chế [3], [27], [107], [127] các nhà nghiên cứu cũng giải quyết vấn đề dưới sự hạn chế về kích thước [25], [26],

[28], [100], ràng buộc matroid [100], [108] và ràng buộc knapsack [30],

[110] Tuy nhiên, những vấn đề này không bao gồm một số ứng dụng thực tế tùy chỉnh từng phẩn tử theo yêu cầu chi phí của nó cũng như giới hạn chi phí. Luận án sẽ thảo luận về ứng dụng sau:

Cực đại hưởng với k chủ đề trong điều kiện chi phí giới hạn Trong mạng xã hội theo một mô hình lan truyền thông tin với k chủ đề Mỗi người dùng trong

SN có một chi phí để bắt đầu lan truyền thông tin của một chủ đề, chi phí này cho thấy mức độ khó để có thể lan truyền được thông tin trên SN Với chi phí B, chúng ta xem xét vấn đề tìm một tập hợp người dùng (tập hợp nguồn), mỗi người dùng ban đầu chấp nhận một chủ đề, với tổng chi phí là tối đa B để tối đa hóa số lượng người dùng được kích hoạt bởi ít nhất một chủ đề.

Trong ứng dụng trên, các hàm mục tiêu là k-submodular [25], [26],

[126] Mặc dù đã cố gắng tìm ra một giải pháp cực đại hàm k-submodular, các nghiên cứu đã không đề cập đến trường hợp mỗi phần tử sẽ có chi phí khác nhau khi được thêm vào các bộ giải pháp khác nhau với chi phí hạn chế là B Được thúc đẩy bởi thực tế đó, trong chương này NCS nghiên cứu một vấn đề mới có tên là “Cực đại ảnh hưởng lan truyền thông tin nhiều chủ đề với chi phí giới hạn” (BkIM), được định nghĩa như sau. Định nghĩa 3.1: (Bài toán BkIM) Cho một tập hữu hạn V, một chi phí B và một hàm k-submodular f: (k + 1) V ↦ ℝ+ Bài toán yêu cầu tìm lời giải s (S 1 , S 2 , … , S k )  (k + 1) V , trong đó phần tử e ∈ V có chi phí c i (e) > 0 khi được thêm vào S i , với tổng chi phí c(s) = Σ � ∈

≠ �}, với [k] = {1, 2, …, k} là không gian lời giải của bài toán tối đa ảnh hưởng với nhiều chủ đề.

Ngoài ra, sự gia tăng liên tục của dữ liệu đầu vào làm cho dữ liệu đầu vào không thể được lưu trữ toàn bộ trong bộ nhớ máy tính Do đó điều quan trọng là phải đưa ra các thuật toán luồng (streaming algorithm) cho bài toán BkIM Thuật toán luồng là một trong những phương pháp hiệu quả để giải quyết bài toán tối ưu hàm submodular với nhiều dạng ràng buộc khác nhau. Việc vận dụng thuật toán luồng tỏ ra hiệu quả đối với các bài toán có bộ dữ liệu lớn và tính chất sinh ra dữ liệu liên tục, trong đó thuật toán luồng nhận từng phần tử một cách tuần tự và chỉ giữ một số lượng nhỏ phần tử trong bộ nhớ tại bất kỳ thời điểm nào Sau khi quét (duyệt qua tập dữ liệu) một hoặc một vài lần, cách tiếp cận đề giải quyết bài toán là xây dựng lời giải một cách hoàn thiện dần, việc lựa chọn một phần tử để thêm vào lời giải được dựa vào biên độ mà phần tử giúp hàm mục tiêu gia tăng ảnh hưởng thêm, phần tử có đóng góp biên độ lớn nhất sẽ được lựa chọn đưa vào tập lời giải Cuối cùng thuật toán có thể trả về một giải pháp với lời giải được đảm bảo [112], [126],[128].

Các ký hiệu

Phần này NCS trình bày các ký hiệu được sử dụng trong chương và các tính chất của hàm k-submodular.

Cho một tập hữu hạn V và một số nguyên k cho x=(X 1 ,X 2 ,….,X k ), y (Y 1 ,Y 2 ,…,Y k ) ∈ (k + 1) V ta xác định ��(x) = X i , supp(x) = ⋃�∈[�]�� , X i được gọi là tập hợp thứ i của x và tập k rỗng được định nghĩa là 0= (∅,…,∅).

∈ X i , ta viết x( e) = i; nếu e ∉ ⋃� ∈ [�] X i , ta viết x(e) =0 và i thì được gọi là vị trí của e; thêm vào e ∉ supp( x) thành �� có thể được biểu diễn bởi x ⊔

(e,i) Trong trường hợp �� = {e}, và �� = ∅, ∀ j ≠ �, ta ký hiệu x bằng (e,i), kí hiệu x ⊑ y nếu �� ⊆ �� cho tất cả i ∈ [k].

Nghiên cứu của Ohsaka và Yoshida [26] đã chỉ ra rằng hàm mục tiêu của bài toán lan truyền thông tin nhiều chủ đề là một hàm có tính chất đơn điệu và k-submodular Tính chất k-submodular là một tính chất quan trọng trong lý thuyết tối ưu hóa, đặc biệt là các bài toán có tính chất nhiều chủ đề và được áp dụng cho nhiều bài toán khác nhau. Định nghĩa 3.2: (Tính chất của k-submodular) Một hàm f : (k + 1) V ↦ ℝ+ là k-submodular n u ế cho b t kỳ ấ x = (X 1 , X 2 , , X k ) và y = (Y 1 , Y 2 , , Y k )∈(k +

� ≠� Định nghĩa 3.3: (Hàm k-submodular đ n đi u) ơ ệ Một hàm f : (k + 1) V ↦ ℝ+ là đơn điệu nếu với bất kì x ∈ (k + 1) V , e ∉ supp(x) và i ∈ [k], ta có:

(3.2) Cho một hàm k-submodular f : (k + 1) V ↦ ℝ+ từ Ward và Zinvý [37], k-submodular của f tức là điểm cận của tập hợp đó,

△�,� �(�) ≥ △�,� �(�) (3.3) Với bất kì x, y ∈ (k + 1) V với x ⊑ y, e ∉ supp(y) và i ∈ [k], và tính đơn điệu theo cặp,

△�,� �(�) + △�,� �(�) ≥ 0 (3.4) Với bất kì x ∈ (k + 1) V với e ∉ supp(x) và i, j ∈ [k] với i≠ j.

Trong phần này NCS giả định rằng f được chuẩn hóa, tức là f(0)=0 và mỗi phần tử e có chi phí dương ��(�) khi được thêm vào tập hợp thứ i và tổng chi phí của k tập hợp x là:

Luận án định nghĩa β là tỷ lệ lớn nhất của các chi phí khác nhau của một yếu tố, tức là:

� Để không mất tính tổng quát, trong chương này NCS giả định rằng mọi phần tử e đều thỏa mãn ��(�) ≥ 1, ∀i ∈ [k] và ��(�) ≤ B vì nếu không ta có thể loại bỏ nó một cách đơn giản Luận án chỉ xét k ≥ 2 vì nếu k=1, hàm k- submodular trở thành hàm submodular.

Thuật toán luồng tất định khi β = 1

Trong phần này NCS xây dựng thuật toán luồng tất định cho trường hợp đặc biệt khi β = 1, tức là mỗi phần tử có cùng chi phí cho tất cả các tập con ��(�)=��(�), ∀e ∈V, i ≠ j Để đơn giản, ta ký hiệu c(e)=��(�)��(�). Ý tưởng chính của thuật toán là ta chọn từng phần tử quan sát được e dựa trên việc so sánh giữa tỷ lệ f trên tổng chi phí ở giải pháp hiện tại và ngưỡng được đặt trước và ta sử dụng biến toàn cục ( �� , �� ) được định nghĩa như sau:

�∈�, � ∈ � �((�, �)) (3.5) Để có được giải pháp cuối cùng Trước tiên, luận án giả định rằng giải pháp tối ưu đã biết và sau đó loại bỏ giả định này bằng cách sử dụng phương pháp trong [128].

3.3.1 Thuật toán luồng tất định với giá trị tối ưu đã biết

Trước tiên NCS trình bày một phiên bản đơn giản hóa của thuật toán luồng tất định khi giá trị tối ưu đã biết Ký hiệu o giải pháp tối ưu và opt f(o), thuật toán có đầu vào là v với v ≤ opt, một tham số � ∈ (0,1] và các giá trị chi phí của từng phần tử e khi được thêm vào lời giải là c(e) Vai trò của các tham số này sẽ được làm rõ trong phiên bản chính Các chi tiết của thuật toán được trình bày đầy đủ trong Thuật toán 3.1.

Về cơ bản, thuật toán sẽ thực hiện một vòng lặp duyệt qua lần lượt từng phần tử e và quyết định lựa chọn thêm phần tử e vào S i của tập lời giải hay không dựa vào hai yếu tố trong thời điểm hiện tại, đó là chi phí còn lại và ngưỡng đóng góp của phần tử khi thêm vào tập lời giải, cụ thể � (� � ⊔(�,� ' )) ≥

� � Ngoài ra, thuật toán thiết lập thêm một biến toàn cục (e max , i max ) để liên

� tục tìm phần tử cho kết quả ảnh hưởng lớn nhất, sử dụng kết quả này để đưa ra lời giải cuối cùng sau khi hoàn thành vòng lặp.

- Các bước thực hiện của thuật toán.

Bước 1: Khởi tạo các biến số

Thuật toán khởi tạo lời giải s 0 ← 0, lần lặp thứ t ← 0 và giá trị (��𝑔 ,

Bước 2: Thực hiện vòng lặp

+ Với mỗi phần tử e được xét đến, thuật toán cập nhật giá trị của (��𝑔,

��) để liên tục tìm phần tử cho kết quả ảnh hưởng lớn nhất.

+ Tiếp đó, thuật toán kiểm tra nếu có thêm phần tử e thì tổng chi phí c(s t ) + c(e) đã vượt quá giới hạn chi phí cho phép B hay chưa.

+ Nếu chi phí giới hạn vẫn được cho phép, thuật toán sẽ tìm một vị trí � '

∈ [k] để f(� � ⊔ (e, � ' )) tối ưu nhất và thêm (e, � ' ) vào � � nếu � (� � ⊔(�,� ' )) ≥ � �

+ Ngược lại, thuật toán sẽ bỏ qua phần tử e và chuyển qua xét phần tử tiếp theo.

Thuật toán dựa vào tính chất đơn điệu hoặc không đơn điệu của hàm mục tiêu để có thể đưa ra kết quả cuối cùng như sau:

+ Nếu f đơn điệu, trả về arg �� ∈ {�� ,(� �� , � �� )} f( s ).

+ Nếu f không đơn điệu, trả về arg �� ∈ {� � :� ≤�,(� �� , �

Trước khi đi vào phần chứng minh, luận án định nghĩa các ký hiệu sau:

- (� � , � � ) là phần tử thứ j được thêm vào vòng lặp chính của thuật toán.

- � � = {� 1 , � 1 ), …, (� � , � � ) là một giải pháp khi thêm phần tử j vào vòng lặp chính của thuật toán.

- � �−1/2 : Nếu � � ∈ supp(o) thì � �−1/2 = � �−1 ⊔ ( � � ,o( � � )), nếu � � ∉ supp(o) thì � �−1/2 = � �−1

- u t = {(u 1 , j 1 ), (u 2 , j 2 ), …, (u r , j r )}: là một tập hợp các phần tử nằm trong o t nhưng không nằm trong s t , r = |supp(u t )|.

Thuật toán 3.1: Thuật toán luồng tất định với lựa chọn đã biết opt

Input: một hàm f k-submodular , B > 0,� ∈ (0,1], v với v ≤ opt

/* B:chi phí, v:ước lượng giá trị tối ưu, α:tham số tối ưu tỷ lệ xấp xỉ */

14: return arg �� ∈ {�� ,(� �� , � �� )} f(s) nếu f đơn điệu, arg �� ∈ {� � :� ≤�,(� �� , � �� )} f(s) nếu f không đơn điệu;

Sau đây luận án phân tích đảm bảo gần đúng của Thuật toán 3.1 Bằng cách khai thác quan hệ giữa �, � � và � � , ta thu được Bổ đề sau.

Bổ đề 3.1 Ký hiệu � � phép cộng cuối cùng vào vòng lặp chính của Thuật toán 3.1.

+ Nếu f không đơn điệu thì v - f(� � ) ≤ 2 f (� � ).

Chứng minh: Căn cứ vào kết quả khi phân tích mối quan hệ giữa � � , � � , � trong [107] Chúng ta xem xét 2 trường hợp sau:

Trường hợp 1 : Nếu f đơn điệu, theo tính chất k-submodular của f lưu ý rằng f (�) = f (� 0 ) ta thu được:

Trường hợp 2 : Nếu f không đơn điệu, ta tiếp tục xem xét các trường hợp phụ sau:

- Nếu � � ∉ supp(�), chọn một số nguyên l ∈ [k] với l ≠ � � và � � dưới dạng tập hợp k-set như sau: � � (e) = � � (e), ∀ e ∈ V ∖{� � }và � � (e) = l, ta có:

≤ f (� � ) − f (� �−1 ) (do sự đơn điệu theo cặp)

- Nếu � � ∈ supp(�) Ở trường hợp này, nếu � �−1 (� � ) = � � Do tính chất đơn điệu theo cặp của f, tồn tại � ' ∈ [k] với f (� �−1 ⊔ (� � , � ' )) ≥ 0 Do đó,

Tổng hợp lại ta có �(� �−1 ) − �(� � ) ≤ 2�(� � ) −2� (� �−1 ) cho trường hợp không đơn điệu Do đó

Bổ đề 3.1 đóng vai trò quan trọng để phân tích sự gần đúng của thuật toán, được phát biểu trong Định lý sau: Định lý 3.1 Thuật toán 3.1 là một thuật toán luồng duyệt dữ liệu một lần và trả về một giải pháp s thỏa mãn:

- Nếu f đơn điệu, f(s) ≥ min { � , 1 − � } � biểu thức vế phải đạt giá trị cực đại là �

- Nếu f không đơn điệu, f(s) ≥ min { � , 1 − � } � biểu thức vế phải đạt giá trị cực đại là �

Chứng minh: Chúng ta quan sát thấy rằng một phần tử e ∈ supp(�) không thuộc supp( � � ) nếu không e không vượt qua điều kiện ở dòng 8 và việc bổ sung nó gây ra tổng chi phí của � � vượt quá B Ký hiệu e ∈supp( �) là một phần tử tồi nếu nó vượt qua điều kiện ở dòng 8 của Thuật toán 3.1 nhưng tổng chi phí vượt quá B, tức là có số nguyên i ∈ [k] thỏa mãn:

Trong đó � �� là giải pháp ứng viên thu được ngay trước khi e đến.

Trường hợp 1: Không có phần tử tồi.

Bằng cách áp dụng Bổ đề 3.1, ta thu được :

≤ � (� � ) + � �. Điều này có nghĩa là �(� � ) ≥ 1 −� �

Trường hợp 2: Nếu một phần tử tồi e thoát ra, có một số nguyên i ∈ [k] thỏa mãn �(� �� ⊔ (�,�))

�(� �� ⊔ (�, �)) ≤ �(� �� ) + f (e,i) Điều đó có nghĩa là:

> �� 2 Kết hợp hai trường hợp trên, ta được �(�) = min cực đại là 1 � khi � = 1

Nếu � không đơn điệu, với các đối số tương tự như trường hợp đơn điệu, ta có �(�) = min , v. Định lý được chứng minh!

3.3.2 Thuật toán luồng tất định

NCS đã trình bày thuật toán luồng tất định trong trường hợp β = 1, sử dụng lại cấu trúc của Thuật toán 3.1 nhưng loại bỏ giả định rằng lựa chọn opt đã biết.

- Ý tưởng của thuật toán Thuật toán luồng tất định được xây dựng dựa trên ý tưởng của Thuật toán 3.1 nhưng bỏ đi giả thiết về giá trị opt cho trước Vì vậy, trước khi đi vào vòng lặp chính duyệt qua các phần tử, thuật toán luồng tất định cần tính được xấp xỉ giá trị opt rồi từ đó đi tìm lời giải dựa trên Thuật toán 3.1 với giá trị opt vừa tìm được Việc tính xấp xỉ giá trị opt dựa trên phát hiện m ≤ opt ≤ Bm, với m = ��∈�,�∈ � � ((�, �)). Định nghĩa m = ��∈�,�∈ � � ((�, �)), ta có m ≤ opt ≤ n ∙ m Do đó NCS sử dụng giá trị v = 1 + � ' � với m ≤ 1 + � ' � ≤ n ∙ m, j∈

ℤ + để đoán giá trị opt bằng cách chỉ ra rằng tồn tại v thỏa mãn 1 + � ' opt ≤ v

Tuy nhiên, nhằm mục đích tìm ra m, cần phải yêu cầu có ít nhất một lần vượt qua V Vì vậy NCS điều chỉnh phương pháp cập nhật động, được đề xuất lần đầu tiên bởi [111] và sau đó được sử dụng tối ưu hóa cho các thuật toán luồng �� và k- �� [23], [25], [112].

Nó cập nhật m = max {m, ��∈ � f ((e, i))} với phần tử e đã được quan sát, để xác định phạm vi của giá trị tối ưu đoán được.

Phương pháp này có thể giúp thuật toán duy trì ước tính tốt của giải pháp tối ưu nếu phạm vi đó dịch chuyển về phía trước khi các phần tử tiếp theo được quan sát Luận án thực hiện điều này bằng cách sử dụng các biến � � � và � để lưu

� � trữ giải pháp thực nghiệm và số lượng các phần tử của nó đối với j.

NCS đặt giá trị của � bằng cách sử dụng Định lý 3.1 cung cấp giá trị gần đúng tốt nhất Giá trị của � ' được đặt thành nhiều lần � để giảm độ phức tạp nhưng vẫn đảm bảo các tỷ lệ xấp xỉ Chi tiết về thuật toán được trình bày trong Thuật toán 3.2.

- Các bước thực hiện thuật toán.

Bước 1: Khởi tạo giá trị ban đầu

Khởi tạo giá trị của α và ϵ′ dựa trên tính chất đơn điệu, không đơn điệu của hàm �, cụ thể:

+ Khởi tạo � ← 1 , � ' ← 4� nếu � đơn điệu và � ← 2 , � ' ← 5� nếu �

+ Khởi tạo giá trị ban đầu (��, ��) ← (∅,1) và mảng các tham số t j

Bước 2: Thực hiện vòng lặp

Với mỗi phần tử e được xét đến, thuật toán cập nhật giá trị của (��,

��) để liên tục tìm phần tử có giá trị ảnh hưởng lớn nhất.

Bước 2.1 Tính xấp xỉ giá trị opt

Ta khai triển giá trị opt = 1 + � ' � và dựa vào phát hiện � ((� , � ))

≤ �� ≤ Bf ((��, ��)) để có thể tìm được một tập hợp O các giá trị j ∈ ℤ + là một số nguyên tương ứng với một giá trị xấp xỉ opt tìm được.

Bước 2.2 Với mỗi giá trị xấp xỉ opt tìm được, thuật toán quyết định có thêm phần tử đang xét vào lời giải hay không.

Với mỗi giá trị j tìm được tương ứng với một giá trị xấp xỉ opt, thuật toán thực hiện kiểm tra có nên thêm phần tử e hiện tại vào tập lời giải tương ứng với giá trị xấp xỉ opt được suy ra từ j.

+ Trước tiên điều kiện về chi phí cho phép được kiểm tra dựa trên công thức c (� � � ) + c (e) ≤ B.

+ Sau đó kiểm tra ngưỡng tiêu chuẩn để có thể thêm phần tử e vào tập

� � lời giải bằng việc so sánh � (� � ⊔

Thuật toán dựa vào tính chất đơn điệu hoặc không đơn điệu của hàm mục tiêu để có thể đưa ra kết quả cuối cùng như sau:

+ Nếu hàm f đơn điệu, trả về arg �𝑔 �� f (s).

+ Nếu hàm f không đơn điệu, arg �𝑔 �� f (s).

Thuật toán 3.2: Thuật toán luồng tất định

/*B:chi phí,: sai số đối với tỷ lệ xấp xỉ , α:tham số tối ưu tỷ lệ xấp xỉ */

21: return arg �𝑔 �� f (s) nếu f đơn điệu,

�∈{(� � ;�∈�),(� �� , � �� )} arg �𝑔 �� f (s) nếu f không đơn điệu;

Sau đây, NCS sẽ phân tích độ phức tạp và tỉ lệ xấp xỉ của Thuật toán 3.2 Ta có Bổ đề sau.

Bổ đề 3.2 Sau khi kết thúc vòng lặp chính của Thuật toán 3.2, tồn tại một số j

 ℤ + mà v = 1 + � ' � ∈ O thỏa mãn 1 + � ' opt ≤ v ≤ opt.

Cho m=f(��, ��), bởi vì � − �� của f, ta có:

� (�, �(�)) ≤ � ∙ � Đặt j= �� 1 + � ' �� , ta có v = 1 + � ' ≤ opt ≤ n ∙ m và v ≥ 1 + � ' �� 1 + � ' ��−1

Hiệu suất của Thuật toán 3.2 được khẳng định trong Định lý sau: Định lý 3.2 Thuật toán 3.2 là một thuật toán luồng duyệt dữ liệu một lần có độ phức tạp truy vấn O( �� ), độ phức tạp không gian O( � �� ) và cung

� � cấp tỉ lệ gần đúng là 1 – ϵ khi f đơn điệu và 1 – ϵ khi f không đơn điệu.

Chứng minh: Độ lớn của O nhiều nhất là 1 �� , tìm mỗi � � � cần nhiều nhất

O(kn) truy vấn và � � � gồm nhiều nhất n phần tử Do đó, độ phức tạp của truy vấn là O( �� ) và tổng độ phức tạp của không gian là O( � �� ).

Theo Bổ đề 3.2, tồn tại một số nguyên j ∈ ℤ + mà � = 1 + � ' � ∈ O Áp dụng Định lý 3.1 cho trường hợp đơn điệu ta có:

� � � và không đơn điệu có :

� � � Định lý được chứng minh!

Thuật toán luồng ngẫu nhiên cho trường hợp tổng quát

Vì trong trường hợp này, mỗi phần tử có nhiều chi phí khác nhau làm cho bài toán trở nên khó khăn hơn và chúng ta không thể áp dụng các thuật toán trước đây NCS đề xuất một thuật toán luồng duyệt dữ liệu một lần cung cấp tỷ lệ gần đúng như mong đợi cho bài toán BkIM Cốt lõi của thuật toán, NCS đề xuất một phân phối xác suất mới để chọn vị trí cho từng phần tử để thiết lập mối quan hệ giữa �, � � và � � (Bổ đề 3.3) và phân tích hiệu suất của thuật toán Bên cạnh đó, thuật toán cũng sử dụng ngưỡng được xác định trước để lọc các phần tử có giá trị cao vào ứng cử viên của giải pháp và giá trị ảnh hưởng tối đa để đưa ra giải pháp cuối cùng.

Tương tự như phần trước, trước tiên NCS giới thiệu một phiên bản đơn giản hóa của thuật toán luồng khi biết trước giải pháp tối ưu.

3.4.1 Thuật toán luồng ngẫu nhiên với giá trị tối ưu đã biết

Thuật toán này cũng nhận các đầu vào � ∈ (0,1) và v ≤ opt NCS sử dụng cùng các kí hiệu như phần 3.3 Thuật toán này cũng yêu cầu một lần vượt qua V Thuật toán khởi tạo tập hợp k rỗng � 0 và sau đó cập nhật giải pháp sau một lần vượt qua V Khác với Thuật toán 3.1, đối với e ∈ V được quan sát, thuật toán tìm một tập J có chứa một số vị trí thỏa mãn tổng chi phí tối đa

B và cung cấp tỉ lệ gia tăng của hàm mục tiêu trên chi phí ít nhất của một ngưỡng nhất định, nghĩa là:

Những ràng buộc này giúp thuật toán loại bỏ các vị trí có tỷ lệ thấp. Nếu J ≠ ∅, thuật toán đặt e vào tập i của � � với xác suất:

�� (�) Đồng thời, thuật toán tìm giá trị ảnh hưởng lớn nhất (��, �� ) bằng cách cập nhật giá trị cực đại từ tập hợp các phần tử được quan sát Như

Thuật toán 3.2, thuật toán cũng sử dụng (��, ��) như một trong những giải pháp ứng cử và tìm ra giải pháp tốt nhất trong số chúng Chi tiết đầy đủ của thuật toán này được mô tả trong Thuật toán 3.3.

Thuật toán 3.3: Thuật toán luồng ngẫu nhiên với giá trị tối ưu đã biết

Input: Một hàm � k-��, B > 0, � ∈ (0,1), v với v ≤ opt

/* B:chi phí, v:ước lượng giá trị tối ưu, α:tham số tối ưu tỷ lệ xấp xỉ */

15: lấy một vị trí i ∈ J với xác suất �

20: return arg �� ∈ {�� ,(� �� , � �� )} f(s) nếu f đơn điệu, arg �� ∈ {� � :� ≤�,(� �� , � �� )} f(s) nếu f không đơn điệu;

Ký hiệu e ∈ supp(�) là một phần tử tồi nếu:

Trong đó � �� là giải pháp đề xuất thu được ngay khi e đến.

Bổ đề 3.3 cung cấp mối quan hệ giữa �, � � , và � � đóng một vai trò quan trọng để phân tích hiệu suất của thuật toán.

Bổ đề 3.3 Giả sử rằng không có phần tử tồi Trong Thuật toán 3.3 ta có:

- Nếu f không đơn điệu thì: f (� � − 1 ) − �� ( � ) ≤ 2� 1

Chứng minh: Để chứng minh Bổ đề 3.3 ta xem xét các trường hợp sau:

Trường hợp 1: nếu f đơn điệu Nếu J = ∅ thuật toán trả về � � hiện tại nên ta xem xét trường hợp J ≠ ∅ Chúng ta tiếp tục xem xét hai trường hợp phụ sau đây:

Trường hợp 1.1: � � ∉ supp (�), Do tính đơn điệu của f ta có: f (� � − 1 ) − �(� � ) ≤ 0 < �

Trường hợp 1.2: Nếu � � ∈ supp(�) Ta sử dụng các kí hiệu � � , � � − 1/2 ,

� � , � �− 1/2 như trong phần 3.2 và định nghĩa � � , � � , � ∗ như sau: � � (e) = � � (e),

∀e ∈ V \ {� � } và � � (� � ) = l; � � = � �−1 ⊔ (� � , �); � ∗ = � (� � ) Vì không có phần

� � tử tồi, ta có hai trường hợp phụ sau đây:

|J| > 1 Trong trường hợp này ta có:

(Bằng cách áp dụng bất đẳng thức AG − GM)

� (� �−1 ) + � �∗ (�) � , thì �� ∗ ≤ ��, ∀ l ∈ J Tương tự như biến đổi từ (3.14) thành (3.15), ta có:

Trường hợp 2: Nếu f không đơn điệu, tương tự với trường hợp đơn điệu, ta chỉ xét J ≠ ∅ và có hai trường hợp sau:

Trường hợp 2.1: Nếu � � ∉ supp(�), ta xét hai trường hợp con:

- Nếu tồn tại l ∈ [k] \ J thỏa mãn � (� �−1 ⊔ (� � ,� ∗ ) − � (� �−1 )

� � (� � ) < �� và c (� �−1 ) + ��(�) ≤ B thì �� ≤ �� ∀ x ∈ J Bởi tính đơn điệu từng cặp và tính chất k- �� của f , ta thu được:

- Nếu không tồn tại số nguyên l ∈ [k] \ J, ta xác định một hoán vị � : J

(Bằng cách áp dụng bất đẳng thức AG − GM)

Trường hợp 2.2: Nếu e j  supp(o) Tương tự trường hợp đơn điệu với chú ý rằng f(� �−1 ) = �(� � ), ta xem xét hai trường hợp sau:

∗ (�)< � , thì �� ∗ ≤ ��, ∀ l ∈ J Áp dụng biến đổi như trường hợp 2.1, ta có

Kết hợp tất cả các trường hợp, Bổ đề 3.3 đã được chứng minh!

� Định lý 3.3 Thuật toán 3.3 trả về một nghiệm s thỏa mãn:

� Vế phải được cực đại thành � khi � = 2

- Nếu f không đơn điệu thì � � ≥ ��

� Vế phải được cực đại thành 3+2�− �

Chứng minh: Nếu f là đơn điệu, ký hiệu e t là phép cộng cuối cùng trong vòng lặp chính của thuật toán, ta xét hai trường hợp con như sau:

Trường hợp 1: Không có phần tử tồi e Bằng cách áp dụng Bổ đề 3.3, ta thu được:

1−� � 1+� �−� Điều này chứng tỏ rằng � � � ≥

Trường hợp 2: Tồn tại phần tử tồi e Đặt � ∗ = �(�) ta có:

Kết hợp hai trường hợp trên ta được � � ≥ ��

Nếu f không đơn điệu, tương tự như trường hợp đơn điệu và kết hợp với Bổ đề 3.3, ta chứng minh được Định lý 3.3.

3.4.2 Thuật toán luồng ngẫu nhiên

Trong phần này luận án loại bỏ giả định rằng giải pháp tối ưu đã biết và trình bày thuật toán luồng ngẫu nhiên sử dụng lại cấu trúc của Thuật toán 3.3.

Tương tự như Thuật toán 3.2, ta sử dụng phương pháp trong [111] để ước lượng opt NCS giải định rằng � đã biết trước Điều này là khả thi vì ta có thể tính giá trị của � là O(kn) Bây giờ ta đặt � theo các tính chất của f để mang lại hiệu suất tốt nhất của thuật toán Thuật toán cập nhật liên tục O

← {� | � ((��, �� )) ≤ 1 + � � ≤ Bf ((��, ��)), j ∈ ℤ + } để ước tính giá trị ảnh hưởng cực đại và sử dụng � � � và� để lưu các giải pháp ứng cử viên,

� � j được cập nhật bằng cách sử dụng phân phối xác suất như trong Thuật toán

3.3 với 1 + � � như một ước tính của giải pháp tối ưu Cuối cùng, thuật toán

� so sánh tất cả các giải pháp thực nghiệm để chọn giải pháp tốt nhất Chi tiết của thuật toán được trình bày trong Thuật toán 3.4.

Thuật toán 3.4: Thuật toán luồng ngẫu nhiên

/*B:ngân sách, : sai số đối với tỷ lệ xấp xỉ , α:tham số tối ưu tỷ lệ xấp xỉ */

16: Chọn vị trí i ∈ J với xác suất �

21: return arg �𝑔 � � f (s) nếu f đơn điệu,

�∈{(� � ;�∈�),(� �� , � �� )} arg �� ∈{(� � : �∈�, �≤�),(� �� , � �� )} f (s) nếu f không đơn điệu;

� Định lý 3.4 Thuật toán 3.4 là thuật toán luồng ngẫu nhiên duyệt dữ liệu một lần có độ phức tạp truy vấn là �( ��

� log �) , độ phức tạp không gian là

− �)opt Vế phải được cực đại thành ( �

- Nếu f không đơn điệu thì � � ≥ (��

− �)opt Vế phải được cực đại thành ( � − �)opt khi � = 2

Theo Bổ đề 3.2, tồn tại j ∈ ℤ + mà � = 1 + � � ∈ � thỏa mãn 1 +

� opt ≤ � ≤ opt Tương tự chứng minh Định lý 3.2, ta dễ dàng chỉ ra được độ phức tạp truy vấn và không gian của Thuật toán 3.4 Sử dụng các lập luận tương tự của chứng minh Định lý 3.3, đối với trường hợp đơn điệu:

− �)opt và nếu � = 2 , ta có:

� − �)opt. Đối với trường hợp không đơn điệu, ta cũng thu được chứng minh bằng cách áp dụng các lập luận tương tự.

Nhận xét 1 : Trong trường hợp β = 1, thuật toán trả về một tỷ lệ xấp xỉ là

5−2/�−� khi � không đơn điệu trong kỳ vọng.

Do đó, các tỷ lệ xấp xỉ này tốt hơn so với Thuật toán 3.2 trong kỳ vọng.

Thực nghiệm và đánh giá

Phần thực nghiệm của luận án nhằm giải quyết được các mục tiêu sau:

- So sánh hiệu quả của thuật toán luồng tất định (Thuật toán 3.2), thuật toán luồng ngẫu nhiên (Thuật toán 3.4) với thuật toán tham lam [26] trong ứng dụng giải quyết bài toán “Cực đại ảnh hưởng với k chủ đề với ràng buộc chi phí” Các tiêu chí được chọn để so sánh trên ba chỉ số chính bao gồm: giá trị của hàm ảnh hưởng, số lời gọi hàm mục tiêu và thời gian chạy của từng thuật toán.

- Đánh giá tác động của các giá trị khởi tạo làm đầu vào cho các Thuật toán đề xuất đến kết quả đầu ra của thuật toán như giá trị hàm ảnh hưởng, số lời gọi hàm mục tiêu, thời gian chạy bằng cách thay đổi các giá trị khác nhau của ϵ trong thực nghiệm.

- Bên cạnh đó, NCS còn cho thấy sự đánh đổi giữa chất lượng giải pháp và số lượng truy vấn của các thuật toán với các cài đặt khác nhau của �.

Vì không thể áp dụng các thuật toán hiện có cho bài toán Cực đại ảnh hưởng hàm k-�� trực tiếp với bài toán BkIM, NCS điều chỉnh thuật toán Tham lam gần đây [26] với một số sửa đổi Đây là thuật toán phù hợp nhất với bài toán BkIM để làm đối tượng so sánh, đối chiếu về hiệu năng với các thuật toán đề xuất.

Cụ thể, thuật toán tham lam lần lượt duyệt qua các phần tử và quyết định thêm phần tử (e, i) vào lời giải hiện tại s nếu việc thêm phần tử này vào tạo nên sự ảnh hưởng lớn nhất cho giá trị hàm mục tiêu, cụ thể được tính bởi công thức �(� ⊔ (�,�)) − �(�) Thuật toán sẽ dừng lại khi không còn phần tử nào

� � (�) có thể thêm vào lời giải hiện tại (giới hạn về chi phí) hoặc tất cả các phần tử e đã được xem xét. Độ phức tạp về số lời gọi hàm mục tiêu (độ phức tạp truy vấn) của thuật toán tham lam là O(k 2 n 2 ) Chi tiết các bước của thuật toán được thể hiện trong Thuật toán 3.5.

Qua nghiên cứu kỹ thuật toán liên quan, NCS và các cộng sự đã chọn thuật toán gần nhất và có thể áp dụng cho bài toán BkIM trong [26] (thuật toán 1), trong đó có điều chỉnh để xử lý với chi phí của mỗi phần tử nhưng vẫn giữ tư tưởng của thuật toán Ngoài ra, NCS sử dụng các thuật toán cơ sở thường dùng cho bài toán IM là thuật toán chọn bậc cao nhất của mỗi đỉnh (Degree) trong thực nghiệm.

Thuật toán 3.2 và 3.4 dựa trên ý tưởng tham lam ngưỡng, tức là chọn các đỉnh có tỷ số giá trị gia tăng của hàm mục tiêu đối với chi phí đủ lớn (lớn hơn một ngưỡng tại mỗi vòng lặp) Nhờ các giá trị ngưỡng này, tại một vòng lặp thuật toán có thể chọn nhiều phần từ cùng một lúc nhưng vẫn đảm bảo đạt được chất lượng lời giải tốt.

Tư tưởng này khác với thuật toán tham lam trong [26] Thuật toán tham lam tại mỗi vòng lặp chỉ chọn một phần tử có tỷ số lợi ích về hàm mục tiêu và lợi ích là lớn nhất Do đó phương pháp đề xuất trong luận án nhanh hơn đáng kể so với tham lam và cũng cho giá trị hàm mục tiêu tốt hơn.

Thuật toán 3.5: Thuật toán tham lam [26]

3.5.3 Cực đại ảnh hưởng với k chủ đề bị hạn chế về chi phí Đầu tiên NCS tóm tắt lại mô hình lan truyền thông tin, được gọi là mô hình Ngưỡng tuyến tính (LT) [3], [25] và sau đó định nghĩa bài toán Cực đại ảnh hưởng với k chủ đề bị hạn chế về chi phí (Influence Maximization with k topics subject to the budget constraint - IMkB) theo mô hình này.

Trong mô hình LT mạng xã hội được mô hình hóa bằng đồ thị có hướng G = (V,E), trong đó V, E biểu diễn cho một tập hợp người dùng và một tập hợp các liên kết tương ứng Mỗi cạnh (u, v)∈ E được gán trọng số

� � (�, �) �∈[�] ,trong đó mỗi w i (u, v) biểu diễn cho sự ảnh hưởng từ u đến v đối với chủ đề thứ i Mỗi nút u ∈ V có ngưỡng ảnh hưởng với chủ đề i, ký hiệu là � � (u), được chọn ngẫu nhiên thống nhất trong [0,1] Cho một tập nguồn s=(S 1 , S 2 , …, S k ) ∈(k+1) v , thông tin việc lan truyền chủ đề i diễn ra theo các bước rời rạc t = 0, 1, như sau Tại bước t = 0, tất cả các nút trong

S i đều hoạt động theo chủ đề i Tại bước t ≥ 1, một nút u sẽ hoạt động nếu Σnút hoạt động � � � (�, �) ≥ � � (�).

Quá trình lan truyền thông tin về chủ đề i kết thúc ở bước t nếu không có nút hoạt động mới trong bước này và quá trình lan truyền của một chủ đề là độc lập với chủ đề khác Ký hiệu σ(s) là số lượng nút được kích hoạt sẽ trở thành hoạt động ở ít nhất một trong k chủ đề sau quá trình khuếch tán sẽ tạo ra k-set s nguồn, tức là: σ( s ) = ∪ �∈[�] � � (

Trong đó �� (� � ) là một biến ngẫu nhiên biểu diễn cho tập hợp những người dùng đang hoạt động cho chủ đề i với nguồn � � Bài toán IMkB được định nghĩa chính thức như sau: Định nghĩa 3.4: (Bài toán IMkB) Giả sử rằng mỗi người dùng u có một chi phí c i (u) cho chủ đề thứ i, điều này cho thấy mức độ khó ban đầu để gây ảnh hưởng đến người tương ứng đối với chủ đề đó Với chi phí B, bài toán yêu cầu tìm một tập nguồn s với c(s) ≤ � sao cho σ(s) là cực đại.

NCS sử dụng bộ dữ liệu mạng xã hội Facebook từ SNAP (2020) Mạng chứa 4.039 nút và 88.234 cạnh Trọng số � � (�, �) �∈[�] của cạnh (u, v) được chọn ngẫu nhiên từ tập trong đó d v bậc của v ,� �(�) 2 ,

theo công bố gần đây [25],

Do tớnh toỏn của σ(ã) là #P-hard [6], NCS điều chỉnh phương phỏp lấy mẫu ở [25], [46] để đưa ra một ước lượng �^(ã) với một xấp xỉ (λ, δ) là:

Kết luận chương

Chương này nghiên cứu bài toán BkIM, tổng quát hóa bài toán “Cực đại ảnh hưởng lan truyền thông tin nhiều chủ đề với chi phí giới hạn” bằng cách xem xét chi phí của từng phần tử và chi phí giới hạn NCS đề xuất hai thuật toán luồng duyệt dữ liệu một lần với đảm bảo có thể chứng minh được. Cốt lõi của các thuật toán là khai thác mối quan hệ giữa các giải pháp đề xuất và giải pháp tối ưu bằng cách phân tích các đại lượng trung gian và sử dụng phân phối xác suất mới sau đó so sánh giá trị đóng góp (mục tiêu cận biên trên mỗi chi phí) đến một ngưỡng thích hợp nhất định. Để xem xét hiệu suất của các thuật toán đề xuất trong thực tế, NCS tiến hành thực nghiệm trên ứng dụng “Cực đại ảnh hưởng với k chủ đề bị hạn chế về chi phí” Kết quả thực nghiệm đã chỉ ra rằng các thuật toán đề xuất không chỉ trả về các giải pháp tốt về yêu cầu chất lượng mà còn có số lượng truy vấn nhỏ hơn đáng kể so với thuật toán tham lam tiên tiến nhất.

Alg.3.4 (0.1) Alg.3.4 (0.2) Alg.3.4 (0.3) Tham lam

Tiêu đề	Nghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí
Tác giả	Vũ Chí Quang
Người hướng dẫn	TS Nguyễn Như Sơn, PGS.TS Ngô Quốc Dũng
Trường học	Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Chuyên ngành	Hệ thống Thông tin
Thể loại	Luận án Tiến sĩ
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	159
Dung lượng	3,54 MB