Bài toán tối ưu tổ hợp và ứng dụng trên một số mô hình lan truyền thông tin

59 Trang 8 DANH SÁCH BẢNG Trang 9 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt BCIM Budgeted Competitive Influence Maximization problem Bài toán tối đa ảnh hưởng cạnh tr

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VONGPRATHOUM Phouthasone

BÀI TOÁN TỐI ƯU TỔ HỢP VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, năm 2021

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BÀI TOÁN TỐI ƯU TỔ HỢP VÀ ỨNG DỤNG

TRÊN MỘT SỐ MÔ HÌNH LAN TRUYỀN THÔNG TIN

Chuyên ngành : Khoa học máy tính

Mã số chuyên ngành : 848 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Trương Hà Hải, TS Nông Thị Hoa

Thái Nguyên, năm 2021

Trang 3

LỜI CAM ĐOAN

Tôi xin được cam đoan: luận văn trên đề tài “Bài toán tối ưu tổ hợp và ứng dụng trên một số mô hình lan truyền thông tin” là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn nhiệt tình của TS Trương Hà Hải và TS Nông Thị Hoa

Các kết quả và số liệu trình bày trong luận văn là hoàn toàn trung thực,

các nội dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận văn này đã được ghi rõ nguồn trong phần tài liệu tham khảo

Thái Nguyên, ngày 30 tháng 11 năm 2021

Người thực hiện

Trang 4

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới tập thể các

Cô hướng dẫn, TS Trương Hà Hải và TS Nông Thị Hoa Tôi vô cùng biết ơn

TS Trương Hà Hải, mặc dù rất bận rộn nhưng luôn dành thời gian quan tâm và hướng dẫn tôi hoàn thành các nghiên cứu của mình Cô luôn động viên và khích

lệ tôi vượt qua những thử thách trong khoa học cũng như trong cuộc sống Nhờ

có những động viên, khích lệ, và những tài liệu quý báu mà cô cung cấp, tôi mới

có thể hoàn thành luận văn của mình Các cô đã cho tôi nhiều kinh nghiệm quý báu trong nghiên cứu và cuộc sống giúp tôi vững tin vượt qua những khó khăn trong suốt quá trình nghiên cứu

Tôi xin chân thành cảm ơn các thầy, cô thuộc khoa Công nghệ thông tin, trường Đại học Công nghệ Thông tin và Truyền thông, Thái Nguyên đã tận tình giảng dạy cho tôi trong quá trình học tập Trong thời gian học tập tôi cũng đã nhận được sự quan tâm, góp ý, hỗ trợ quý báu của quý thầy cô, bạn bè và người thân

Cuối cùng, luận văn này sẽ không hoàn thành được nếu thiếu sự động viên về mọi mặt của gia đình Từ tận đáy lòng, tôi xin gửi lời cảm ơn chân thành đến bố mẹ tôi, những người đã vất vả để tôi có được ngày hôm nay Tôi xin gửi lời cảm ơn và biết ơn chân thành tới bố mẹ của tôi, những người đã luôn ủng hộ, giúp đỡ và khích lệ tôi vượt qua những khó khăn trong học tập cũng như trong cuộc sống, những người luôn là động lực về tinh thần giúp tôi vững bước trong quá trình học tập, nghiên cứu và mọi khó khăn trong cuộc cuộc sống Tôi xin cảm ơn tất cả những người thân trong gia đình đã luôn ủng hộ, chia sẻ những khó khăn đối với tôi

Do giới hạn kiến thức và khả năng lý luận của bản thân còn nhiều thiếu sót và hạn chế, kinh mong sự chỉ dẫn và đóng góp của các thầy, cô để bài luận văn của tôi được hoàn thiện hơn Tôi xin chân thành cảm ơn

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH SÁCH HÌNH VẼ v

DANH MỤC CÁC TỪ VIẾT TẮT vii

MỞ ĐẦU 1

CHƯƠNG 1 : CƠ SỞ LÝ THUYẾT 4

1.1 Bài toán tối ưu tổ hợp 4

1.2 Phân loại các bài toán tối ưu tổ hợp 5

1.2.1 Quy hoạch tuyến tính 6

1.2.2 Quy hoạch tham số 7

1.2.3 Quy hoạch phi tuyến 8

1.2.4 Quy hoạch rời rạc 9

1.2.5 Quy hoạch đa mục tiêu 9

1.3 Tổng quan về mạng xã hội 11

1.3.1 Đặc điểm của mạng xã hội 13

1.3.2 Những lợi ích của mạng xã hội 14

1.3.3 Những tác hại của mạng xã hội 16

1.4 Các mô hình phát tán (lan truyền) thông tin trên mạng xã hội 18

1.5 Kết luận chương 19

CHƯƠNG 2 : MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁN TỐI ƯU TỔ HỢP 20

2.1 Thuật toán xấp xỉ 20

2.1.1 Mô tả thuật toán 20

2.1.2 Khái niệm phủ đỉnh 22

2.1.3 Bài t oán tập phủ và các phương pháp giải 22

2.2 Phương pháp Monte-Carlo 25

2.2.1 Bài toán tìm giá trị cực đại 25

2.2.2 Bài toán ước lượng kỳ vọng của một biến ngẫu nhiên 26

2.2.3 Thu ật toán heuristic cấu trúc 28

2.2.4 Thuật toán Metaheuristic 28

2.3 K ết luận chương 29

CHƯƠNG 3 : MỘT SỐ BÀI TOÁN LAN TRUYỀN THÔNG TIN TRÊN MẠNG XÃ HỘI 31

Trang 6

3.1 Bài toán tối ưu hóa ảnh hưởng 31

3.1.2 Các thuật toán cho bài toán tối đa ảnh hưởng (IM) 33

3.1.3 Một số biến thể của bài toán tối đa ảnh hưởng 38

3.2 Bài toán ngăn chặn ảnh hưởng (IB) 39

3.2.1 Loại bỏ tập người dùng và liên kết 40

3.2.2 Tẩy nhiễm thông tin 41

3.3 Một số mô hình phát tán thông tin trên MXH 42

3.3.1 Mô hình bậc độc lập (Indepedence Cascade : IC) 42

3.3.2 Mô hình ngưỡng tuyến tính (Linear Threshold : LT) 45

3.3.3 Thử nghiệm mô hình lan truyền ngưỡng tuyến tính LT 47

3.4 Thuật toán SIMPATH trên mô hình ngưỡng tuyến tính 50

3.4.1 Quá trình thực hiện thuật toán SIMPATH 51

3.4.2 Kết quả thử nghiệm [14] 57

3.5 Kết luận chương 61

KẾT LUẬN 63

TÀI LIỆU THAM KHẢO 65

Trang 7

DANH SÁCH HÌNH VẼ

Hình 1.1: Một mô hình đồ thị của mạng xã hội 12

Hình 2.1: Một số thí dụ về phủ đỉnh 22

Hình 3.1: Mô tả bài toán 31

Hình 3.2: Ví dụ quá trình lan truyền thông tin trên mô hình IC 44

Hình 3.3: Ví dụ quá trình lan truyền thông tiin trên mô hình LT 46

Hình 3.4: Ma trận kề của mạng đồ thị 47

Hình 3.5: Thủ tục chính của chương trình 48

Hình 3.6: Chương trình ảnh hưởng của việc lan truyền thông tin trên MXH dựa vào mô hình LT 49

Hình 3.7: Kết quả các đỉnh đã được kích hoạt 49

Hình 3.8: Mô hình lan truyền thông tin từ hai đỉnh hạt giống ban đầu 50

Hình 3.9: Ảnh hưởng của Tối ưu hóa lớp phủ đỉnh (Vertex Cover Optimization) trên thời gian chạy của lần lặp đầu tiên của SIMPATH (logarithmic scale) 59

Hình 3.10: Kích thước của Vertex Covers cho bốn tập dữ liệu (logarithmic scale) 60

Trang 8

DANH SÁCH BẢNG

Bảng 3.1: Thống kê của dữ liệu 58 Bảng 3.2: Hiệu quả của thuật toán SIMPATH 59 Bảng 3.3: Ngưỡng η |𝑺|=50 61

Trang 9

DANH MỤC CÁC TỪ VIẾT TẮT

BCIM Budgeted Competitive

Influence Maximization problem

Bài toán tối đa ảnh hưởng cạnh tranh với ngân sách và thời gian giới hạn

CIM Competitive Influence

Maximization problem

Bài toán tối đa ảnh hưởng cạnh tranh

IC Independence Cascade Mô hình bậc độc lập

IM Influence Maximization Cực đại ảnh hưởng

LT Linear Threshold Mô hình nghưỡng tuyến tính

OPT Optimal Solution Lời giải tối ưu

QHD Dynamic Programming Quy hoạch động

QHDMT Multi - purpose Programming Quy hoạch đa mục tiêu

QHPT Non Linear programming Quy hoạch phi tuyến

QHTS Parameter Programming Quy hoạch tham số

QHTT Linear Programming Quy hoạch tuyến tính

TTSL Wrong information Thông tin sai lệch

TUTH Combinatorial Optimization Tối ưu tổ hợp

Bảng giải thích ký hiệu

𝑏𝑢,𝑣 Ảnh hưởng đến trọng lượng trên cạnh (𝑢, 𝑣)

𝛶𝑆,𝑣 Xác suất 𝑣 kích hoạt nếu 𝑆𝑆 là tập hạt ban đầu

σ(S) Mức độ lan truyền ảnh hưởng dự kiến đạt được bởi tập hạt giống 𝑆𝑆

Nin (v) Tập những hàng xóm - trong của 𝑣

Nout (v) Tập những hàng xóm - ngoài của 𝑣

P = (v1 , , vm Đường đi đơn giản từ 𝑣1 đến 𝑣𝑚

P(u, v) Tập của tất cả các đường đi đơn giản từ nút 𝑢 đến nút

𝜂 Ngưỡng cắt tỉa

ℓ Giá trị nhìn trước

Trang 10

MỞ ĐẦU

Tối ưu tổ hợp là lớp các bài toán thường gặp trong đời sống cũng như trong các hệ thống thông tin và là một trong những đối tượng nghiên cứu chính của Khoa học máy tính Chẳng hạn như: tìm đường đi ngắn nhất nối hai điểm trên một đồ thị đã cho, lập kế hoạch phân phối nguồn hàng tới nơi tiêu thụ với chi phí cực tiểu, lập thời khóa biểu cho giáo viên và học sinh thuận lợi nhất, định tuyến cho các gói dữ liệu trong Internet hay các bài toán trong lĩnh vực tin sinh học v.v Đây là bài toán có nhiều ứng dụng trong thực tiễn và lý thuyết tổ hợp đã đóng góp một phần đáng kể trong việc xây dựng những thuật toán hữu hiệu

Trong thời đại bùng nổ thông tin hiện nay, mỗi người đều có thể tiếp nhận một lượng thông tin rất lớn, có thể trao đổi thông tin với nhau một cách nhanh chóng bất chấp khoảng cách về địa lý và thời gian Trong bối cảnh đó, các chủ

đề nghiên cứu về bài toán tối ưu tổ hợp trên các mô hình lan truyền thông tin với nhu cầu của người dùng mạng xã hội như: sự tương tác thông tin, cập nhật thông tin nhanh chóng, thời gian lan truyền tin ngắn,…dẫn tới nhóm các bài toán lan

truyền thông tin (information diffusion problem) trên các mạng xã hội được xây

dựng dưới dạng các bài toán tối ưu tổ hợp Việc nghiên cứu các bài toán này và ứng dụng của nó là rất thiết thực Hơn nữa, với sự mở rộng qui mô các mạng xã hội (hàng tỷ người dùng) cần có những thuật toán hoặc cách tiếp cận hiệu quả cho các bài toán này để nâng cao tính thực tiễn của chúng

Vì vậy, đề tài luận văn được lựa chọn là nghiên cứu về lớp các bài toán tối ưu tổ hợp và ứng dụng trên một số mô hình lan truyền thông tin với mục

đích tối ưu hóa ảnh hưởng của đối tượng trên mạng xã hội để lan truyền thông tin một cách hiệu quả nhất Đây là một bài toán thời sự, có ý nghĩa và trong quá trình nghiên cứu bài toán này, các nhà khoa học đã tìm ra nhiều kết quả có ý nghĩa:

Trang 11

1 Tối đa hiệu quả ảnh hưởng (Influencer Maximization - IM) được nghiên cứu bởi các nhà khoa học như Kempe, Richardson…, là bài toán tìm kiếm một tập con nhỏ các nút (còn gọi là tập hạt giống) trong mạng xã hội để lan truyền thông tin một cách hiệu quả nhất Bài toán này yêu cầu lựa chọn một số lượng nhỏ người sử dụng ban đầu để bắt đầu thông tin và ảnh hưởng đến bạn bè của họ trong mạng xã hội sao cho số lượng người sử dụng đạt cực đại Vấn đề là chọn

ai làm người sử dụng ban đầu để kết quả thu được có sự ảnh hưởng đến số lượng người sử dụng lớn nhất trong mạng, dẫn đến vấn đề tìm kiếm các đối tượng có ảnh hưởng lớn trong mạng xã hội Trong thực tế, bài toán này nảy sinh từ nhu cầu tiếp thị sản phẩm, tối đa hóa lợi ích của doanh nghiệp trong quảng bá sản phẩm thông qua các cách thức tiếp thị lan truyền, Tuy nhiên cũng có những thách thức đặt ra khi giải quyết vấn đề này đó là: các mạng xã hội có qui mô lớn,

có cấu trúc kết nối phức tạp và luôn biến đổi theo thời gian hoặc biến đổi theo

trường hợp có nhiều đối thủ cạnh tranh [8]

2 Ngăn chặn ảnh hưởng (Influence Blocking-IB): Mục tiêu của bài toán này là hạn chế sự phát tán, lan truyền thông tin của một nguồn tin cho trước,

hoặc bắt đầu lan truyền thông tin tốt sao cho ảnh hưởng của thông tin xấu (hoặc thông tin đối lập) đạt giá trị cực tiểu Có thể hiểu đây là bài toán có mục tiêu

ngược với bài toán tối đa ảnh hưởng Có hai hướng tiếp cận cho nhóm bài toán này là:

- Lan truyền thông tin tốt để hạn chế các thông tin xấu (tẩy nhiễm tin)

- Loại bỏ tập các đỉnh hoặc cạnh đóng vai trò quan trọng để hạn chế ảnh hưởng của một nguồn phát tán thông tin cho trước

Ngày nay, khi số người dùng trên MXH ngày càng tăng thì các thông tin trên MXH ngày càng tác động mạnh mẽ cộng đồng người dùng qua đó gián tiếp ảnh hưởng đến công chúng trong thế giới thực Vì vậy các bài toán này được nghiên cứu ngày càng rộng rãi [8]

Mục tiêu của đề tài là:

Trang 12

- Tìm hiểu tổng quan về bài toán tối ưu tổ hợp, một số phương pháp hiệu quả cho việc tìm lời giải đối với lớp các bài toán tối ưu tổ hợp thuộc lớp NP-Khó; nghiên cứu về mạng xã hội, vấn đề lan truyền thông tin trên mạng xã hội

- Nghiên cứu các bài toán Tối đa ảnh hưởng (IM), ngăn chặn ảnh hưởng(IB) trên mạng xã hội, các giải pháp hiệu quả để giải quyết và ứng dụng trong thực tiễn

Bố cục của luận văn được chia thành 3 chương như sau:

Phần mở đầu: Giới thiệu khái quát về đề tài, mục tiêu, đối tượng, phạm

vi nghiên cứu, ý nghĩa khoa học và xã hội mang lại thông qua việc giải quyết các vấn đề được nêu trong đề tài

Phần nội dung:

Chương 1: Cơ sở lý thuyết về bài toán tối ưu tổ hợp và mạng xã hội (MXH) Chương này trình bày các kiến thức tổng quan về bài toán tối ưu tổ hợp

và phân loại các bài toán tối ưu tổ hợp Ngoài ra còn nêu ra tổng quan của mạng

xã hội (MXH), các mô hình phát tán thông tin thường được sử dụng để giải quyết các bài toán về lan truyền thông tin

Chương 2: Một số phương pháp giải bài toán tối ưu tổ hợp Chương

này trình bày một số phương pháp thường được sử dụng trong giải bài toán tối

ưu tổ hợp, làm cơ sở cho việc nghiên cứu một số phương pháp giải bài toán lan

truyền thông tin

Chương 3: Một số bài toán lan truyền thông tin trên mạng xã hội

Chương này nghiên cứu bài toán tối đa ảnh hưởng và ngăn chặn ảnh hưởng, một

số phương pháp và thuật toán giải bài toán tối đa ảnh hưởng trên MXH

Phần kết luận: Trình bày kết quả mà luận văn đạt được và hướng phát triển cho quá trình nghiên cứu

Trang 13

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT

Chương này trình bày các kiến thức tổng quan về bài toán tối ưu tổ hợp và phân loại lớp các bài toán tối ưu tổ hợp; trình bày tổng quan về mạng xã hội

bài toán về lan truyền thông tin

1.1 Bài toán tối ưu tổ hợp

Tối ưu hóa tổ hợp (TUTH) là một trường con của tối ưu hóa toán học có liên quan đến nghiên cứu hoạt động, lý thuyết thuật toán và lý thuyết độ phức tạp tính toán Nó có các ứng dụng quan trọng trong một số lĩnh vực, bao gồm trí tuệ nhân tạo, máy học, lý thuyết đánh giá, kỹ thuật phần mềm, toán học ứng dụng và khoa học máy tính lý thuyết

TUTH là một chủ đề bao gồm việc tìm kiếm một đối tượng tối ưu từ một tập hợp hữu hạn các đối tượng Trong nhiều vấn đề như vậy, tìm kiếm toàn diện

là không thể tìm được Nó hoạt động trên phạm vi của những vấn đề tối ưu hóa, trong đó tập hợp các giải pháp khả thi là rời rạc hoặc có thể được rút gọn thành rời rạc, và trong đó mục tiêu là tìm ra giải pháp tốt nhất Các bài toán điển hình

là bài toán người bán hàng lưu động (travelling salesman problem "(TSP)), bài toán cây bao trùm tối thiểu (minimum spanning tree problem (MST)) và bài toán

cái túi [8]

Một cách tổng quát, mỗi bài toán TUTH có thể phát biểu như sau: Cho một

bộ ba (𝑆𝑆, 𝑓𝑓, Ω), trong đó S là tập hữu hạn trạng thái (lời giải tiềm năng hay phương án), f là hàm mục tiêu xác định trên S, còn Ω là tập các ràng buộc Mỗi phương án s ∈ S thỏa mãn các ràng buộc Ω gọi là phương án (hay lời giải) chấp nhận được Mục đích của ta là tìm phương án chấp nhận được s∗ tối ưu hóa toàn cục hàm mục tiêu f Chẳng hạn với bài toán cực tiểu thì f(s∗) ≤ f(s) với mọi phương án chấp nhận được s

Trang 14

Trong thực tế đời sống và trong các hệ thống thông tin, ta thường gặp nhiều bài toán tối ưu quan trọng có dạng như một số bài toán tối ưu kinh điển như sau:

Bài toán Người bán hàng (TSP): cho vị trí của N thành phố khác nhau, hãy

tìm con đường ngắn nhất có thể để đến thăm mỗi thành phố đúng một lần

Thùng - Đóng gói: cho một bộ N đối tượng, mỗi đối tượng có một kích thước s i xác định, tìm cách xếp chúng vào càng ít thùng (mỗi thùng cỡ B) càng tốt

Lập lịch trình thực hiện công việc: đưa ra một tập hợp các công việc phải

thực hiện và một bộ công cụ hạn chế mà các công việc này có thể được thực hiện, tìm lịch trình cho những công việc nên được thực hiện khi nào và bằng những công cụ nào giúp giảm thiểu tổng thời gian cho đến khi tất cả các công việc đã được hoàn thành

Boolean Satisfiability: tìm cách gán giá trị cho một tập hợp các biến boolean để thỏa mãn một biểu thức boolean đã cho (Một hàm mục tiêu phù hợp

có thể là số mệnh đề thỏa mãn nếu biểu thức có dạng CNF)

Việc giải các bài toán tối ưu tổ hợp được thực hiện thông qua việc tìm kiếm tập các phương án, tuy nhiên không gian của các phương án khả thi thường quá lớn dẫn đến sư bùng nổ tổ hợp, vì vậy rất khó để tìm kiếm một cách toàn diện bằng các thuật toán tối ưu thuần túy Trong một số trường hợp, các vấn đề có thể được giải quyết chính xác bằng cách sử dụng kỹ thuật nhánh cận Tuy nhiên, trong các trường hợp khác, không có thuật toán chính xác nào khả thi và thường phải sử dụng các thuật toán Heuristic

Do vậy các phương pháp giải gần đúng thường dược các nhà nghiên cứu áp dụng để giải các bài toán loại này

1.2 Phân loại các bài toán tối ưu tổ hợp

Một trong những phương pháp hiển nhiên nhất để giải bài toán tối ưu là phương pháp vét cạn: Tính giá trị hàm mục tiêu f(x) trên tất cả các phương án, sau đó so sánh các giá trị tính được để tìm ra giá trị tối ưu và phương án tối ưu của bài toán Thực hiện theo phương pháp trên gặp rất nhiều khó khăn ngay cả

Trang 15

khi kích thước của bài toán (số biến n và số ràng buộc m) là không lớn, bởi vì tập D thông thường gồm một số rất lớn các phần tử, trong nhiều trường hợp còn

là không đếm được

Vì vậy, người ta đã nghiên cứu về mặt lý thuyết để có thể tách ra từ bài toán tổng quát thành các lớp bài toán dễ giải Các nghiên cứu lý thuyết đó thường là:

hàm ràng buộc, các biến số, các hệ số );

của cực trị;

- Tính chất của các đối tượng nghiên cứu

Dựa vào tính chất của các thành phần bài toán và đối tượng nghiên cứu để người ta phân loại các bài toán tối ưu (hay bài toán quy hoạch) như sau:

1.2.1 Quy hoạch tuyến tính

Quy hoạch tuyến tính (QHTT, còn được gọi là tối ưu hóa tuyến tính) là một phương pháp để đạt được kết quả tốt nhất (chẳng hạn như lợi nhuận tối đa hoặc chi phí thấp nhất) trong một mô hình toán học mà các đối tượng của nó được biểu diễn bằng các mối quan hệ tuyến tính Qui hoạch tuyến tính là một trường hợp đặc biệt của qui hoạch toán học (hay còn gọi là tối ưu hóa toán học)

QHTT là một kỹ thuật để tối ưu hóa hàm mục tiêu tuyến tính, tuân theo các ràng buộc về bình đẳng tuyến tính và bất bình đẳng tuyến tính Vùng khả thi của nó là một đa giác lồi, là một tập được định nghĩa là giao của nhiều nửa không gian, mỗi nửa không gian được xác định bởi một bất đẳng thức tuyến tính Hàm mục tiêu của nó là một hàm affine (tuyến tính) có giá trị thực được xác định trên khối đa diện này Giải bài toán qui hoạch tuyến tính là tìm một điểm trong đa giác mà hàm này có giá trị nhỏ nhất (hoặc lớn nhất) nếu một điểm như vậy tồn tại [4]

Bài toán QHTT có thể được biểu diễn dưới dạng chính tắc như:

Trang 16

Maximize: 𝑓𝑓(𝑥) = 𝑐𝑇𝑥 Các ràng buộc 𝑔(𝑥) = 𝐴𝑥 ≤ 𝑏 Và 𝑥 ≥ 0 Trong đó x đại diện cho vectơ của các biến (cần xác định), c và b là vectơ

của các hệ số (đã biết), A là ma trận các hệ số (đã biết) và ( )𝑇 là ma trận chuyển vị Biểu thức có giá trị cực đại hoặc cực tiểu được gọi là hàm mục tiêu (trong trường hợp này là 𝑓𝑓(𝑥) = 𝑐𝑇𝑥) Các bất đẳng thức 𝑔(𝑥) = 𝐴𝑥 ≤ 𝑏 và

𝑥 ≥ 0 là các ràng buộc xác định một đa giác lồi mà trên đó hàm mục tiêu được

tối ưu hóa Trong bối cảnh này, hai vectơ có thể so sánh được khi chúng có cùng kích thước

Nếu hàm mục tiêu 𝑓𝑓(𝑥) và tất cả các hàm ràng buộc 𝑔(𝑥), 𝑖 = 1, m là tuyến tính thì bài toán là QHTT

1.2.2 Quy hoạch tham số

Quy hoạchtham số (QHTS) là một kiểu tối ưu hóa toán học, trong đó vấn

đề tối ưu hóa được biểu diễn dưới dạng một hàm của một hoặc nhiều tham số

Đã có những phát triển đáng kể đối với các trường hợp nhiều tham số, sự hiện diện của các biến nguyên cũng như phi tuyến tính Đặc biệt, mối liên hệ giữa qui hoạch tham số và điều khiển dự đoán mô hình được thiết lập vào năm 2000 đã góp phần làm tăng sự quan tâm đến chủ đề này [4]

Trong đó 𝑥 là biến tối ưu hoá, 𝜃 là các tham số, 𝑓𝑓(𝑥, 𝜃) là hàm mục tiêu,

𝑔(𝑥, 𝜃) là biểu thị những ràng buộc, Tập hợp Θ thường được gọi là không gian tham số Các hệ số trong biểu thức của hàm mục tiêu và của các ràng buộc phụ thuộc vào tham số;

Trang 17

Tùy thuộc vào bản chất của 𝑓𝑓(𝑥, 𝜃) và 𝑔(𝑥, 𝜃) và liệu bài toán tối ưu hóa

có các biến số nguyên hay không, các bài toán quy hoạch tham số được phân thành các lớp con khác nhau:

- Nếu có nhiều hơn một tham số, tức là 𝑚 > 1, thì nó thường được gọi là bài toán quy hoạch đa tham số

- Nếu các biến số nguyên có mặt, thì bài toán được gọi là bài toán qui hoạch hỗn hợp số nguyên (đa) tham số

- Nếu các ràng buộc là affine, thì việc phân loại tùy thuộc vào bản chất của hàm mục tiêu trong các bài toán qui hoạch tuyến tính, bậc hai và phi tuyến tính (đa) tham số (hỗn hợp-nguyên) Lưu ý rằng điều này thường giả định rằng các ràng buộc là affine

1.2.3 Quy hoạch phi tuyến

Quy hoạch phi tuyến (QHPT) là quá trình giải quyết một vấn đề tối ưu hóa trong đó một số ràng buộc hoặc hàm mục tiêu là phi tuyến Bài toán tối ưu hóa là tìm điểm cực trị (cực đại, cực tiểu hoặc điểm dừng) của một hàm mục tiêu trên một tập các biến thực chưa biết và có điều kiện để thỏa mãn một hệ phương trình và bất phương trình, được gọi chung là các ràng buộc Đây là lĩnh vực con

của tối ưu hóa toán học giải quyết các vấn đề không tuyến tính

Cho 𝑛, 𝑚 và 𝑝 là các số nguyên dương Gọi 𝑋 là tập con của 𝑅𝑛, đặt 𝑓𝑓,

𝑔𝑖và ℎ𝑗 là các hàm có giá trị thực trên 𝑋 với mỗi 𝑖 thuộc {1, … , 𝑚} và mỗi 𝑗 thuộc {1, … , 𝑝}, với ít nhất một trong số 𝑓𝑓, 𝑔𝑖và ℎ𝑗 là phi tuyến tính

Bài toán tối thiểu hóa phi tuyến là bài toán tối ưu hóa dạng:

Tối thiểu 𝑓𝑓(𝑥) Ràng buộc 𝑔𝑖(𝑥) ≤ 0 với mọi 𝑖 ∈ {1, … , 𝑚}

ℎ𝑗(𝑥) = 0 với mọi 𝑗 ∈ {1, … , 𝑝}

𝑥 ∈ 𝑋

Một bài toán tối đa hóa phi tuyến được định nghĩa theo cách tương tự

Trang 18

1.2.4 Quy hoạch rời rạc

Trong các bài toán quy hoạch tuyến tính, các biến số có thể nhận những giá trị thực không âm Tuy nhiên, trong thực tiễn thường gặp các bài toán mà các biến số chỉ có thể nhận một số hữu hạn hay đếm được giá trị, thường là các giá trị nguyên Chẳng hạn sẽ là vô nghĩa khi đưa ra câu trả lời: cần sản xuất nửa cái bàn hay cần thuê 2,7 cái ô tô để vận chuyển hàng hoá…Trong một số bài toán, chẳng hạn bài toán vận tải với các lượng hàng cung và cầu là các số nguyên, song nhiều bài toán khác thì không phải như vậy Vì thế trong chương này sẽ đề cập đến nội dung và phương pháp giải các bài toán tối ưu trên lưới các điểm nguyên hay trên các tập rời rạc, gọi tắt là bài toán quy hoạch rời rạc hay bài toán quy hoạch nguyên

Bài toán quy hoạch rời rạc có dạng sau:

Tìm cực đại của hàm 𝑓𝑓(𝑥, 𝑦) phụ thuộc hai nhóm biến 𝑥 và 𝑦 với các ràng

buộc có dạng:

𝑔𝑖 (𝑥, 𝑦) ≤ 0, 𝑖 = 1, 2, … , 𝑚, 𝑥 ∈ 𝐷 trong đó, 𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑝), 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑞), 𝑝 > 0, 𝑞 ≥ 0, 𝐷 là tập hữu

hạn các véc tơ p - chiều, còn f, 𝑔𝑖 là nh ững hàm cho trước của n biến số

có bài toán quy hoạch nguyên 0 −1

Nếu q = 0 , nghĩa là chỉ có các biến rời rạc 𝑥1, 𝑥2, … , 𝑥𝑝 thì bài toán được

gọi là bài toán quy hoạch nguyên hoàn toàn Còn nếu q > 0 thì bài toán được gọi

là bài toán nguyên b ộ phận

1.2.5 Quy hoạch đa mục tiêu

Quy hoạch đa mục tiêu (QHĐMT) là một bài toán tối ưu với nhiều mục tiêu, các mục tiêu có ràng buộc chặt chẽ với nhau, đôi khi mâu thuẫn nhau Do

Trang 19

đó trong bài toán tối ưu với nhiều mục tiêu, hầu như không thể đạt được giá trị tốt nhất của tất cả các mục tiêu cùng một lúc Điều này có nghĩa là bài toán sẽ không có lời giải nếu bài toán yêu cầu tìm một phương án để tất cả các mục tiêu đều là tốt nhất Tuy nhiên, ta có thể tìm được lời giải nếu hiểu ý nghĩa của chữ tối ưu theo một cách khác

Đôi khi xảy ra trường hợp một mục tiêu đạt giá trị quá cao trong khi mục tiêu khác lại nhận được giá trị quá thấp Trường hợp này đối với một số bài toán trong thực tế cũng là một điều không mong muốn Và tối ưu theo thứ tự max sẽ

được sử dụng nhằm tránh những trường hợp như thế này

Về mặt toán học, QHĐMT có dạng:

min𝑥∈𝑋 𝑓𝑓(𝑥) = min

Ký hiệu 𝑌 = 𝑓𝑓(𝑋) là ảnh của tập khả thi qua ánh xạ 𝑓𝑓, không gian chứa Y

đươc gọi là không gian mục tiêu (Objective space)

Căn cứ vào các hàm mục tiêu, các hàm ràng buộc, tập khả thi, ta có những

loại bài toán QHĐMT như sau:

- Khi tất cả các hàm mục tiêu và các hàm ràng buộc của tập khả thi là tuyến tính thì bài toán QHĐMT được gọi là bài toán quy hoạch tuyến tính đa

mục tiêu (QHTTĐMT)

Nếu có ít nhất một trong các hàm mục tiêu hoặc các hàm ràng buộc là phi tuyến, bài toán QHĐMT được gọi là bài toán quy hoạch phi tuyến đa mục tiêu (QHPTĐMT)

Trang 20

- Bài toán QHĐMT được gọi là bài toán QHĐMT lồi nếu tất cả các hàm

mục tiêu là hàm lồi và tập khả thi là tập lồi

1.3 T ổng quan về mạng xã hội

Theo từ điển Cambridge1, một mạng xã hội (MXH) là một trang web hoặc chương trình máy tính cho phép mọi người giao tiếp và chia sẻ thông tin trên internet bằng máy tính hoặc các thiết bị di động Những người tham gia vào MXH còn được gọi là cư dân mạng

MXH còn có thể hiểu là mạng của một nhóm người hoạt động và các mối quan hệ gắn kết họ với nhau Những người hoạt động trên mạng có thể là những

cá nhân hoặc tập thể Những người này trao đổi tài nguyên với nhau và chính điều này gắn kết họ với nhau trong một mạng xã hội Mỗi tài nguyên đem trao đổi được xem như là mối liên kết và những cá nhân duy trì mối quan hệ này tương ứng với việc duy trì một cung trong đồ thị mô phỏng mạng xã hội, sức bền của cung này phụ thuộc vào mức độ trao đổi thường xuyên của các cá nhân trong mạng xã hội MXH có nhiều dạng thức và tính năng khác nhau, có thể được trang bị thêm nhiều công cụ mới, và có thể vận hành trên tất cả các nền tảng như máy tính để bàn, máy tính xách tay, máy tính bảng hay điện thoại thông minh MXH cho phép người dùng chia sẻ câu chuyện, bài viết, ý tưởng cá nhân, đăng ảnh, video, đồng thời thông báo về hoạt động, sự kiện trên mạng hoặc trong thế giới thực Nếu như trong mô hình mạng xã hội truyền thống, ví

dụ như sự kiện hội chợ, đã tồn tại từ lâu trong lịch sử thì mạng xã hội trên web giúp người dùng kết nối với những người sống ở nhiều vùng đất khác nhau, ở thành phố khác hoặc trên toàn thế giới tạo nên các cộng đồng ảo cùng nhau chia

Trang 21

60 phần trăm dân số thế giới đã trực tuyến và các xu hướng mới nhất cho thấy hơn một nửa tổng dân số thế giới sẽ sử dụng mạng xã hội vào giữa năm nay

Hình 1.1: Một mô hình đồ thị của mạng xã hội Một cách chung nhất, mạng xã hội là tập hợp các cá nhân với các mối quan

hệ về một hay nhiều mặt gắn kết với nhau Mạng xã hội là một bản đồ của tất cả các mối quan hệ liên quan giữa tất cả các nút đang được nghiên cứu, mạng cũng

có thể được sử dụng để đo vốn xã hội – giá trị mà các nhân được từ mạng xã hội, được hiển thị trong một sơ đồ mạng xã hội, nơi mà các nút là các điểm và quan hệ là các đường

Về mặt toán học, mạng xã hội có thể xem như một hệ thống các điểm (node) gắn với nhau thành một mạng gồm các liên kết (hoặc các cung) Theo hướng tiếp cận này mạng xã hội được xem như mạng phức hợp, hay nói cách khác là một tập các hệ thống được tạo bởi các yếu tố đồng nhất hoặc không đồng nhất kết nối với nhau thông qua sự tương tác khác nhau giữa các yếu tố này và được trải ra trên diện rộng Mạng phức hợp có 2 thuộc tính quan trọng là “hiệu ứng thế giới nhỏ” (small – world effect) và “đặc trưng co dãn tự do” (Scale – free feature)

Vấn đề phát hiện các mối quan hệ trên mạng xã hội, từ đó đưa ra giải pháp tối ưu ảnh hưởng của đối tượng trên MXH là việc tìm kiếm một tập hợp nhỏ các nút (các nút nhân) trong MXH có ảnh hưởng lớn nhất Một phần của MXH được

mô hình hoá thành một đồ thị trong đó các nút mô hình hoá các cá nhân trong

Trang 22

mạng và các cạnh mô hình hoá các mối quan hệ giữa các cá nhân Các nhà phân tích trong lĩnh vực mạng dựa vào quan hệ giữa các thành viên của cộng đồng, các hàng xóm, một nhóm hoặc một lớp để hiểu cách thức các mạng xác định tổng số người hay các nhóm nhỏ bên trong một mạng lớn Cách thức mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, các nhà nghiên cứu dựa vào những mối quan hệ này để phân tích và đưa ra được những kết luận về mối quan hệ giữa người này với người kia, giữa một người với cả cộng đồng hay ảnh hưởng của họ đối với cả cộng đồng ra sao Thông tin tiềm ẩn từ các cộng đồng này rất đa dạng, tuy nhiên để khám phá được nó không hề đơn giản, bởi MXH có sự phối hợp và góp sức của hàng ngàn, thậm chí hàng triệu thành viên, vì thế có thể trích chọn được những thông tin cần thiết từ một cộng đồng rất lớn là vấn đề rất khó khăn

1.3.1 Đặc điểm của mạng xã hội

Nhìn chung có nhiều mô hình mạng xã hội khác nhau, nhưng hầu hết mạng xã hội bao gồm 2 đặc điểm cơ bản chính là:

- Đặc điểm thứ nhất là có sự tham gia trực tuyến của các cá nhân hay các chủ thể

- Đặc điểm thứ hai là mạng xã hội sẽ có các trang web mở, người dùng tự xây dựng nội dung trong đó và các thành viên trong nhóm đấy sẽ biết được các thông tin mà người dùng viết

Ngày nay có rất nhiều các mạng xã hội ,một số các loại mạng xã hội tiêu biểu hay được sử dụng ở nước ta phải đến ở đây là: facebook, zalo, viber, tango, clip.vn ,…

Có thể coi một MXH giống như một xã hội ảo mà mỗi tài khoản là một cá nhân trong thế giới thực Ngoài ra, các MXH có một số đặc điểm nổi bật như sau:

Đặc trưng thế giới nhỏ: người ta đã kiểm chứng được rằng, đối với các

MXH lớn khoảng cách trung bình kết nối giữa hai người dùng bất kỳ nhỏ hơn 6

Trang 23

Đây được coi là đặc trưng “ thế giới nhỏ ” của MXH Với đặc trưng này , thông tin có thể dễ dàng lan truyền giữa các người dùng nhờ tính kết nối nhanh chóng

Đặc trưng tập nhân: mỗi MXH chịu ảnh hưởng lớn của một số các nút

quan trọng Các nút này thường là những nút có bậc cao Ngoài ra sự phân bố các nút có bậc cao cũng có sự phân cấp , tức là bao quanh những nút có bậc cao

là những nút có bậc thấp hơn và tiếp tục như vậy Đặc tính này có nhiều ứng dụng trong truyền thông và đánh giá cấu trúc mạng

Phân bố lũy thừa: các nhà khoa học cũng đã chứng minh được, thông

thường các MXH có phân bố bậc được mô tả bởi hàm 𝑃(𝑘) là xác suất một đỉnh

có bậc là 𝑘 Phân bố này có dạng :

𝑃(𝑘) = 𝑘1𝛼 , 𝛼 > 1 Cấu trúc cộng đồng: trong các MXH , thường xuyên tồn tại các nhóm

cộng đồng có quy mô khác nhau Các cộng đồng có thể hiểu đơn giản là nơi tập trung cao mật độ các liên kết trong mạng Ngoài ra, cũng có những cộng đồng người dùng có cùng đặc điểm (sở thích) Có hai loại cấu trúc cộng đồng là: cộng đồng tách rời và cộng đồng chồng chéo Việc nghiên cứu tính chất về cộng đồng

có nhiều ứng dụng trong khoa học và thực tiễn

1.3.2 Nh ững lợi ích của mạng xã hội

Các nhà cung cấp dịch vụ MXH đã tận dụng các tính năng của MXH để mang lại nhiều lợi ích cho người dùng, đóng góp rất đáng kể vào sự phát triển của nền kinh tế toàn cầu

Lợi ích mà MXH mang lại giúp chúng ta nắm bắt thông tin nhanh nhạy hơn, kết nối được mọi người và cộng đồng Đó cũng là phương tiện truyền thông, kinh doanh rất hiệu quả Mạng xã hội phát triển mở ra một hướng đi mới, mang ý nghĩa tích cực cho những ai biết tận dụng và kiểm soát nó Sử dụng đúng mục đích, MXH sẽ trở thành một kênh giải trí hiệu quả giúp chúng ta thư giãn sau một ngày làm việc căng thẳng

Trang 24

Ứng dụng trong hoạt động kinh doanh: Các MXH đóng một vai trò quan trọng trong hoạt động của các doanh nghiệp Các hoạt động quảng bá sản phẩm, giao dịch với khách hàng, đối tác, khảo sát ý kiến người dùng v.v đều có thể thực hiện một cách dễ dàng và thuận lợi trên nền tảng các dịch vụ MXH Điều này dẫn đến sự phát triển trong toàn bộ các khâu của tiến trình sản xuất hàng hóa

Tìm kiếm các mối quan hệ: Đặc điểm nổi bật của MHX chính là đẩy mạnh quá trình tương tác với bạn bè, người thân Nếu như trước đây các chúng

ta không có điều kiện gặp gỡ người thân, bạn bè, ta phải liên lạc với họ qua điện thoại khiến ta tốn khoản tiền không nhỏ Con người hiện đại có ít thời gian dành cho bản thân và mở rộng các mối quan hệ Nhờ có MXH, người dùng có thể tìm kiếm các mối quan hệ mới cũng như duy trì các mối quan hệ hiện có MXH xuất hiện, giúp ta thoải mái liên hệ với bạn bè, người thân ở bất cứ đâu, chỉ cần bạn

cần sử dụng MXH để giữ liên lạc với bạn bè và đồng nghiệp của họ Họ có thể nói chuyện với nhau, tương tác với nhau trên MXH thay vì gặp nhau trực tiếp

Ứng dụng đối với các hoạt động của chính phủ: Các MXH gần đây đã cho thấy một giá trị lớn trong các phong trào xã hội và chính trị Ví dụ: Trong cuộc cách mạng Ai Cập năm 2011, Facebook và Twitter đều đóng vai trò then chốt trong việc kết nối các cá nhân và tổ chức nổi dậy Các nhà hoạt động Ai Cập đã đưa các thông tin về kế hoạch hoạt động cho nhóm người của họ trên các mạng này Họ cũng đưa ra những bằng chứng cho hàng ngàn người về sự tàn bạo của chính phủ qua các video Ngoài ra, các MXH còn cho phép chính phủ các nước giám sát ý kiến của công chúng trong các hoạt động chính trị hoặc các hiệu ứng

xã hội khác nhau

Nâng cao kỹ năng sống và sự hiểu biết: Trên các trang mạng xã hội ngày càng nhiều trang cung cấp các kiến thức trong cuộc sống, các hội nhóm chia sẻ kiến thức các môn học Ngoài kiến thức học tập thì nhiều kiến thức về nấu ăn,

kỹ năng giao tiếp, chia sẻ cảm xúc, tâm lý, thể thao, sửa chữa, đồ dùng xuất

Trang 25

hiện nhiều trên các trang MXH Thông qua đó, ta có thể dễ dàng tích lũy được rất nhiều kiến thức cần thiết trong cuộc sống

1.3.3 Những tác hại của mạng xã hội

MXH mang đến rất nhiều lợi ích cho mỗi chúng ta, tuy nhiên đi kèm với những lợi ích đó thì mạng xã hội tiềm ẩn không ít nguy cơ và hiểm họa, khiến cho con người gặp phải nhiều vấn đề nan giải và vô cùng phức tạp Vì vậy, cần

hưởng tới chất lượng cuộc sống

Nguy cơ tiếp xúc với các thông tin không chính xác, không lành mạnh Là

một kênh để thu nhận thông tin, tuy nhiên các thông tin trên mạng xã hội đều không được kiểm chứng, dẫn đến cón hiều thông tin không chính xác, sai lệch nội dung hoặc những thông tin“ đùa”,“ câu like”,“ giật tít” làm cho người dùng thường xuyên rơi vào trạng thái căng thẳng, hồi hộp, lo lắng Điều này dẫn đến những rối loạn bệnh lý như rối loạn lo âu, rối loạn stress Một số người trẻ tuổi (dưới 26 tuổi) là độ tuổi chưa định hình phát triển vỏ não, phát triển nhân cách khi sử dụng mạng xã hội Sẽ dẫn tới những rối loạn nhân cách kiểu hoang tưởng, tự đề cao bản thân, chống đối xã hội, tính vị kỷ, ích kỷ, một số có các

hành vi kích động và gây hấn

Sự phát tán virus và thư rác Các MXH cũng là môi trường rất thuận lợi

cho sự phát tán virus, mã độc Các virus là phần mềm độc hại được phát triển nhằm thực hiện mục đích của kẻ tấn công Các trang web trên MXH cũng tập trung vào việc tiêu diệt phần mềm độc hại như bất kỳ ai khác và hầu hết đều có trung tâm bảo mật của riêng họ dành riêng cho việc tìm kiếm và loại bỏ các mối

đe dọa như vậy Tuy nhiên, với bản chất của những loại virus này, người dùng phải chịu một phần trách nhiệm vì virus chỉ được kích hoạt khi có ai đó click vào Ví dụ như: thu thập thông tin của người dùng nhằm truy cập vào thông tin

cá nhân, thực hiện các hành vi lừa đảo v Dưới một môi trường thuận lợi cho việc lây lan nhanh chóng, nguy cơ này càng bùng phát trong thời gian gần đây Một nguy cơ nữa cũng bùng phát cùng với sự phát triển của MXH đó là thư rác,

Trang 26

là nội dung rác không mong muốn xuất hiện trên các dịch vụ MXH, các trang đánh dấu trang xã hội, và bất kỳ trang web nào có nội dung do người dùng tạo (nhận xét, trò chuyện, v.v.) Nó thường là các thông điệp quảng cáo hoặc chứa virus qua nhiều hình thức khác nhau như: gửi thông điệp, bình luận trên các trang được nhiều người theo dõi, đề cập, v.v, có thể được biểu hiện theo nhiều cách, bao gồm tin nhắn hàng loạt, ngôn từ tục tĩu, lăng mạ, lời nói căm thù, liên kết độc hại, đánh giá gian lận, bạn bè giả mạo và thông tin nhận dạng cá nhân

Lừa đảo qua MXH Mục đích của các đối tượng sử dụng phương pháp này

nhằm lấy được những thông tin riêng tư, có giá trị của người dùng bằng cách giả mạo một người đáng tin cậy trên mạng Hoặc kẻ lừa đảo có thể tìm cách tấn công vào tài khoản của người dùng và chiếm quyền đăng nhập vào tài khoản của

họ sau đó tiến hành các hoạt động xấu như tống tiền, giả mạo thông tin, thu thập thông tin từ người thân của nạn nhân, v Những khảo sát gần đây cho thấy rằng người có khả năng bị lừa đảo bởi hình thức này cao hơn do bản chất tương tác của MXH giống như một xã hội thực Trong những năm gần đây, hoạt động này

có xu hướng tăng mạnh Theo báo cáo tình báo an ninh của Microsoft, 84, 5% tất cả các cuộc tấn công lừa đảo nhắm vào người sử dụng trên các trang MXH

Sự phát tán thông tin sai lệch và tin đồn Thông tin sai lệch là những

thông tin giả mạo, không chính xác [7] Có thể nói đây là một trong những thách thức lớn nhất hiện nay đối với cộng đồng người dùng trên MXH và tất cả các quốc gia có sử dụng các dịch vụ MXH Nó không những có thể ảnh hưởng trực tiếp đến từng cá nhân mà còn gây ra những tổn thất về chính trị, nhận thức của cộng đồng và đặc biệt là tổn thất về kinh tế Ví dụ, thông tin sai lệch về sự bùng phát dịch bệnh Ebola trên diện rộng gây ra sự hoang mang cho công chúng, hay theo các điều tra gần đây, thông tin sai lệch gây ảnh hưởng tới cuộc bầu cử tổng thống ở Mỹ vào năm 2016 và ở Pháp vào năm 2017 [7] Thông tin sai lệch cho rằng Tổng thống Obama bị thương sau vụ hỏa hoạn ở nhà trắng gián tiếp gây thiệt hại tới thị trường chứng khoán là 136 tỷ Đô la Để ngăn chặn sự phát tán và tác hại của thông tin sai lệch, nhiều quốc gia đã xây dựng hệ thống chống tin giả

Trang 27

mạo Một số nước cũng đã yêu cầu các tổ chức cung cấp dịch vụ MXH cam kết loại bỏ sự hiện diện của thông tin sai lệch

1.4 Các mô hình phát tán (lan truy ền) thông tin trên mạng xã hội

Sự phát tán, khuếch tán là một quá trình mà một sự đổi mới được truyền đạt qua các kênh nhất định theo thời gian giữa các thành viên của một hệ thống

xã hội (theo Roger) Có ba yếu tố quan trọng trong quá trình này là: thành viên trong hệ thống xã hội, sự tương tác lẫn nhau và các kênh truyền thông Việc nghiên cứu các quá trình phát tán trong mỗi hoàn cảnh cụ thể là nền tảng giúp con người có thể giải quyết các vấn đề liên quan đến sự phát tán trong thực tế

như : sự phát tán của dịch bệnh (trong y học, dịch tễ học), sự phát tán các ý kiến,

tư tưởng giữa các cá nhân trong một xã hội, sự phát tán của virus trên một mạng máy tính, sự phát tán thông tin trên các MXH

Trong các MXH, thông tin được phát tán từ người dùng này đến người dùng khác thông qua nhiều hoạt động tương tác giữa các người dùng như : đăng bài, chia sẻ, bình luận v.v Quá trình này diễn ra tương đối nhanh và có những đặc điểm khác với sự phát tán thông tin truyền thống Việc hiểu rõ quá trình này trên các MXH giúp con người có thể quản trị, điều khiển các thông tin nhằm đảm bảo tính hữu ích của các MXH Với mục đích đó, các nhà khoa học đã mô

tả một cách ngắn gọn lại quá trình phát tán thông tin bằng các mô hình phát tán thông tin (information diffusion models)

Bài toán tối ưu ảnh hưởng của đối tượng trên mạng xã hội được Domingo

và Richardson là những người đầu tiên nghiên cứu tác động giữa người dùng trong việc lan truyền ảnh hưởng tiếp thị về sản phẩm Đây là bài toán thời sự có

ý nghĩa, đặc biệt trong các mạng xã hội về lĩnh vực khoa học Trong đó, việc mô hình hóa quá trình lan truyền thông tin trên mạng là nền tảng trong cách tiếp cận Kempe và các cộng sự [10] đã đề xuất hai mô hình lan truyền thông tin là: Ngưỡng tuyến tính (Linear threshold) và Bậc độc lập (Independent Cascade) Đây là hai mô hình hoạt động theo các bước thời gian rời rạc Kể từ khi được đề xuất, chúng được nhiều tác giả sử dụng như mô hình lan truyền thông tin cơ bản

Trang 28

và phổ biến nhất Ngoài ra, chúng còn được phát triển nghiên cứu theo các biến thể khác nhau để phù hợp hơn với thực tiễn như: biến thể theo thời gian liên tục, biến thể theo khoảng cách, biến thể theo chủ đề được lan truyền ảnh hưởng, vv Tuy vậy, các mô hình phát tán thông tin theo thời gian rời rạc được sử dụng thường xuyên hơn

1.5 Kết luận chương

Trong chương này, luận văn đã trình bày về tổng quát của bài toán tối ưu

tổ hợp và nêu ra các loại của bài toán TUTH bao gồm QHTT, QHTS, QHĐ, QHPT, QHRR và QHDMT; những kiến thức chung về MXH và các mô hình phát tán thông tin trên MXH Trong đó, các mô hình phát tán thông tin là cơ sở cho việc tiếp cận các bài toán lan truyền thông tin, trong đó có hai mô hình cơ bản là IC và LT Hai mô hình này được cộng đồng nghiên cứu sử dụng rộng rãi trong các bài toán lan truyền thông tin Các kiến thức trình bày trong chương này là nền tảng để nghiên cứu nội dung của các chương sau

Trang 29

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁN TỐI ƯU TỔ HỢP

Với các bài toán tối ưu tổ hợp (TUTH) thuộc lớp NP_khó cỡ nhỏ, người

ta có thể tìm được lời giải tối ưu bằng phương pháp vét cạn Tuy nhiên, với các bài toán cỡ lớn thì đến nay chưa thể có thuật toán tìm lời giải đúng với thời gian

đa thức nên chỉ có thể tìm lời giải gần đúng Chương này giới thiệu một số phương pháp giải bài toán tối ưu tổ hợp và nêu ra các thuật toán hiệu quả cho việc tìm lời giải đối với các lớp bài toán TUTH thuộc lớp NP-Khó Các kiến thức này làm cơ sở cho việc nghiên cứu các bài toán lan truyền thông tin ở chương sau

2.1 Thuật toán xấp xỉ

2.1.1 Mô t ả thuật toán

Giả sử ta cần tìm lời giải tối ưu bài toán TUTH thuộc lớp Khó, đầy đủ với mục tiêu tìm hàm 𝑓𝑓: 𝑆𝑆 ⟼ ℝ, trong đó 𝑆𝑆 là không gian lời giải của bài toán Gọi OPT là lời giải tối ưu của bài toán Ta có nghĩa là thuật toán xấp xỉ như sau:

NP-Định nghĩa 2.1.[8] Giả sử ta cần tìm lời giải 𝑠 ∈ 𝑆𝑆 sao cho hàm 𝑓𝑓 đạt giá

trị cực đại Ta nói thuật toán là xấp xỉ 𝒜 cho lời giải là 𝑠 ⊆ 𝑆𝑆 có tỷ lệ xấp xỉ (approximation ratio) là 𝜌 > 0 nếu nó thực hiện trong thời gian đa thức theo kích thước cỡ của dữ liệu đầu vào và thỏa mãn:

𝑓𝑓(𝑠)𝑂𝑃𝑇 ≥ 𝜌Trong trường hợp cần tìm hàm f cực tiểu (tìm giá trị nhỏ nhất), thì tỉ lệ tối

ưu được định nghĩa là:

𝑓𝑓(𝑠)𝑂𝑃𝑇 ≤ 𝜌

Tỷ lệ tối ưu 𝜌 đảm bảo lời giải của một thuật toán trong trường hợp xấu

nhất Giá trị này rất quan trọng trong việc thiết kế các thuật toán xấp xỉ

Trang 30

Trong trường hợp bài toán tìm cực đại 𝜌 < 1 , còn bài toán tìm cực tiểu thì 𝜌 > 1

Tuy vậy, cách tiếp cận này phải chứng minh chặt chẽ và không phải bất

kỳ bài toán nào cũng dễ dàng tìm được những thuật toán xấp xỉ

Ngoài ra, nếu thuật toán 𝐴 không thỏa mãn việc thực hiện trong thời gian

đa thức, thì ta nói 𝐴 đảm bảo tỷ lệ xấp xỉ (approximation guarantee) Các thuật toán đám bảo tỷ lệ xấp xỉ là 𝜌 còn được ký hiệu là 𝜌 -xấp xỉ

Trong mục này, luận văn trình bày một lớp thuật toán xấp xỉ điển hình dựa trên chiến lược tham lam Đây là hai phương pháp được sử dụng trong các bài toán về lan truyền thông tin do các bài toán này thường thuộc lớp NP-Khó, NP-đầy đủ và tính toán hàm mục tiêu trong các lớp bài toán này thường là NP-Khó

Thuật toán tham lam (Greedy Algorithm) là một trong những thuật toán phổ biến và có tính ứng dụng cao bởi tính đơn giản và độ phức tạp về thời gian thấp Nếu hàm tham lam (greedy function) của một thuật toán tham lam có tính chất submodular thì việc phân tích tỉ lệ xấp xỉ trở nên đơn giản hơn nhiều Đây cũng là một trong những tính chất quan trọng đối với các bài toán lan truyền thông tin Dưới đây là một số bài toán điển hình mà hàm mục tiêu có tính chất

đó

Định nghĩa 2.2 (Submodular và Supermodular) Cho tập hữu hạn phần tử

𝒰 và hàm 𝑓𝑓: 2𝒰 ⟼ ℝ, với bất kỳ hai tập con 𝐴, 𝐵 ⊆ 𝒰 thì:

1 𝑓𝑓 được gọi là Submodular nếu:

Trang 31

Định lý 2.1 Xét hàm f Nếu f là submodular thì với mọi 𝐴 ⊆ 𝐵 ⊆ 𝒰 và

Hình 2.1: Một số thí dụ về phủ đỉnh

2.1.3 Bài toán t ập phủ và các phương pháp giải

Định nghĩa 2.3 (Bài toán tập phủ (Set Cover – SC)) Cho trước một tập

vũ trụ 𝒰 có 𝑛 phần tử và một họ 𝐶 tập con của 𝑈 Tìm họ con nhỏ nhất 𝐶′ ⊆ 𝐶 phủ tất cả các phần tử của 𝑈

Định nghĩa hàm phủ 𝑓𝑓(𝐶′) = |⋃𝑆∈𝐶′𝑆𝑆| (tức là tổng phần tử trong 𝐶′) Hàm này là hàm tăng và có tính chất submodular Thật vậy với hai tập 𝐴 ⊆ 𝐵 ⊆

𝐶, ta có 𝑓𝑓(𝐴) + 𝑓𝑓(𝐵) − 𝑓𝑓(𝐴 ∪ 𝐵) là số lượng phần từ trong cả 𝐴 và 𝐵 trong khi

𝐴 ∩ 𝐵 là số phàn từ trong 𝐴 ∩ 𝐵 Do vậy,

𝑓𝑓(𝐴) + 𝑓𝑓(𝐵) − 𝑓𝑓(𝐴 ∪ 𝐵) ≥ 𝑓𝑓(𝐴 ∩ 𝐵)

Trang 32

Xét thuật toán tham lam được mô tả trong thuật toán 1 Trong thuật toán này, trong mỗi vòng lặp, ta chọn một tập con sao cho phủ được nhiều phần tử

chưa được phủ tại thời điểm đó Thuật toán này được chứng minh có tỉ lệ xấp xỉ

là ( 1+ ln 𝑛 ) với 𝑛 = |𝑈| Trong nghiên cứu các bài toán lan truyền thông tin trên MXH Có một số bài toán cũng đã áp dụng kết quả này do có cấu trúc gần

giống nhau Ví dụ , các tác giả đề xuất bài toán tìm tập hạt giống có số người dùng nhỏ nhất để có thể tạo ra ảnh hưởng lớn hơn một ngưỡng 𝜂 Dựa trên các phân tích tương tự đối với SC, họ phát triển thuật toán tham lam có tỷ lệ 1+ ln 𝑄[8]

Algorithm 1: Thuật toán tham lam cho bài toán SC

Định nghĩa 2.4 (Tập phủ có trọng số (Weighted Set Cover - WSC)) Cho

trước một tập vũ trụ 𝒰 có n phần tử, một họ 𝐶 tập con của 𝑈 với hàm trong số 𝑤: 𝐶 → ℚ+ Tìm họ con có khối lượng nhỏ nhất 𝐶′ ⊆ 𝐶 phủ tất cả các phần tử

của 𝑈

Để thiết kế thuật toán xấp xỉ cho bài toán này , ta cần phải thay đổi thuật toán cũ để được tỷ lệ xấp xỉ Trong mỗi vòng lặp, ta chọn một tập con sao cho tỷ

Trang 33

lệ phủ / chi phí là lớn nhất tại thời điểm đó (thuật toán 2) Thuật toán 4 có tỉ lệ

xấp xỉ là (1 + ln 𝑛) Sau đây chúng ta xét một bài toán khác có áp dụng tính chất của hàm mục tiêu là đơn điệu tăng và submodular

Algorithm 2: Thuật toán tham lam cho bài toán WSC

họ con 𝐶′ ⊆ 𝐶 có số phần tử là 𝑘 sao cho phủ nhiều nhất số phần tử của 𝑈

Bài toán này có cấu trúc giống với SC và WSC Tuy nhiên, hàm mục tiêu (yêu cầu) đây là khác nhau Để áp dụng thuật toán tham lam, ta chọn hàm lam tham chính là hàm mục tiêu 𝑓𝑓( ) Thuật toán tham lam đối với bài toán này được trình bày trong thuật toán 3 Khuller và cộng sự đã chỉ ra tỷ lệ tối ưu của thuật toán này là 1– 1/𝑒 [8]

Algorithm 3: Thuật toán tham lam cho bài toán MC

Trang 34

5 end

6 return 𝐶′

Thuật toán này cũng được sử dụng với bài toán cực đại ảnh hưởng được Kempe và các cộng sự đề xuất và cũng cho tỷ lệ xấp xỉ tương tự [8] Ngoài ra nó còn được sử dụng trong các nghiên cứu khác về bài toán cực đại ảnh hưởng

2.2 Phương pháp Monte-Carlo

Phương pháp này còn gọi là phương pháp dò tìm ngẫu nghiên, trong đó ta tạo ra một tập đủ lớn các vector có phân phối trên miền chấp nhận được và lời giải gần đúng là vector ngẫu nghiên có giá trị hàm mục tiêu tốt nhất Phương pháp này dễ sử dụng và hiệu quả khi tìm kiếm lời giải trong một không gian lời giải

2.2.1 Bài toán tìm giá trị cực đại

Trong nhiều trường hợp, ta cần giải bài toán quy hoạch mà hàm mục tiêu

phức tạp, không cho trên một miền giới nội 𝐷 nào đó thì các phương pháp đã nêu không dùng được Khi đó phương pháp monte - carlo là một phương pháp

có hiệu quả Xét bài toán:

Max 𝑓𝑓(𝑥), 𝑥 ∈ 𝐷 ⊂ ℝ𝑛Trong đó hàm mục tiêu 𝑓𝑓 là liên tục, 𝐷 là miền giới nội trong ℝ𝑛, tức là

𝐷 ⊆ ∏ [𝑎𝑛 𝑖, 𝑏𝑖]

𝑖=1 , và với mỗi điểm 𝑥 ∈ ℝ𝑛 ta có thể kiểm tra được 𝑥 có thuộc 𝐷 hay không? Đối với bài toán trên ta tạo một tập đủ lớn 𝑁 vector ngẫu nhiên có phân bố đều trên 𝐷 và chọn véc tơ có hàm mục tiêu lớn nhất để làm lời giải gần đúng Với số bước lặp 𝑁 cho trước, các bước của phương pháp này được mô tả chi tiết trong Thuật toán 4

- Bước 1 Nhập các giá trị 𝑎𝑖, 𝑏𝑖(𝑖 = 1, … , 𝑛) và khởi tạo 𝑗 = 0; 𝑓𝑓 = 𝑚 đủ

nhỏ

- Bước 2 Với mỗi 𝑖 = 1, , 𝑛 tạo số ngẫu nhiên 𝑟𝑖 ∈ [0,1] và tính

𝑦𝑖 = 𝑎𝑖 + 𝑟𝑖(𝑏𝑖 − 𝑎𝑖)

và xác định 𝑦 = (𝑦1, … , 𝑦𝑛)

Trang 35

- Bước 3 Kiểm tra nếu 𝑦 thuộc 𝐷 thì tăng 𝑗: = 𝑗 + 1 và sang bước 4, nếu không thuộc 𝐷 thì trở lại bước 2

- Bước 4 Tính 𝑓𝑓 (𝑦), nếu 𝑓𝑓 (𝑦) > 𝑓𝑓 thì gán 𝑥 = 𝑦 và 𝑓𝑓 = 𝑓𝑓(𝑦) và sang

bước 5, còn khi 𝑓𝑓 (𝑦) ≤ 𝑓𝑓 thì sang bước 5

- Bước 5 Kiểm tra điều kiện kết thúc 𝑗 = 𝑁, nếu đúng thì in kết quả 𝑥 và 𝑓𝑓

tương ứng, chưa đúng thì trở lại bước 2

Thuật toán này có một số đặc điểm sau:

- Nếu ta chạy lại thuật toán thì giá trị khởi tạo của 𝑓𝑓 có thể lấy kết quả của lần chạy trước

- Về điều kiện kết thúc, có thể thay việc đếm số lần lặp bởi điều kiện khác

- Kết quả của mỗi lần chạy không giống nhau

- Thuật toán này thường tốn thời gian chạy nhưng dễ song song hóa để giảm thời gian chạy

- Sự hội tụ Người ta chứng minh được khi 𝑁 dần ra vô hạn thì 𝑓𝑓 hội tụ theo xác suất tới giá trị tối ưu nhưng sự đánh giá tùy thuộc vào từng

trường hợp cụ thể

2.2.2 Bài toán ước lượng kỳ vọng của một biến ngẫu nhiên

Để ước lượng kỳ vọng của một biến ngẫu nhiên 𝑋 trong không gian mẫu

Ω rất lớn, người ta thường dùng phương pháp này để đưa về một giá trị ước lượng đủ tốt theo tiêu chuẩn thống kê

Định nghĩa 2.6 ((𝛿, 𝜖) – xấp xỉ) Cho biến ngẫu nghiên 𝑋 trên không gian

mẫu Ω, 𝜇 là kỳ vọng của 𝑋 Ta nói 𝜇̂ là một (𝛿, 𝜖) - xấp xỉ nếu thỏa mãn:

Pr[(1 − 𝜖)𝜇̂ ≤ 𝜇 ≤ (1 + 𝜖)𝜇̂] ≥ 1 − 𝛿

Để ước lượng giá trị 𝜇̂ cần phải có số lượng lấy mẫu T đủ lớn, [11]

Định lý 2.3 Cho 𝑋 là tổng của dãy biến ngẫu nghiên độc lập nhận giá trị

trong khoảng [0,1], có cùng phân phối và giá trị trung bình là 𝜇 Với 𝛿 > 0, ta

có

Trang 36

Pr[𝑋 − 𝑐𝜇 ≥ 𝛿 𝑐𝜇] exp �−2 + 𝛿�𝛿2Pr[𝑋 − 𝑐𝜇 ≥ −𝛿 𝑐𝜇]exp (−2 + 𝛿)𝛿2Dựa trên định lý này, Dagum và các công sự3 đã thiết kế thuật toán để ước lượng hàm mục tiêu theo (𝛿, 𝜖)-xấp xỉ (thuật toán 4) Ý tưởng chính của thuật toán này sinh các mẫu một cách ngẫu nghiên đến khi giá trị trung bình của mẫu lớn hơn Υ1/𝑁

Algorithm 4: Thuật toán luật dừng (Stopping rule)[8]

Phương pháp này được Nguyen áp dụng để thiết kế hai thuật toán cho IM

là SSA và D - SSA tron g [8] Các tác giả sử dụng phương pháp này để ước lượng ảnh hưởng của tập hạt giống 𝒮 cho trước, sau đó sử dụng như một điều kiện dùng của thuật toán Gần đây, các tác giả trong [8] cải tiến thuật toán 4 cho bài toán ước lượng ảnh hưởng của một tập hạt giống cho trước Thuật toán mới cùng tỷ lệ xấp xỉ theo lý thuyết nhưng ra số lượng mẫu sinh ra trong thuật toán mới ít hơn

3

P Dagum et al An optimal algorithm for monte-carlo estimation, 2000

Trang 37

2.2.3 Thu ật toán heuristic cấu trúc

Một phương pháp rất được ưa chuộng trong việc giải các bài toán Khó là các thuật toán heuristic Những thuật toán này cho kết quả gần đúng trong thời gian chấp nhận được

NP-Trong phương pháp này, lời giải của bài toán TUTH được xây dựng theo cách mở rộng tuần tự Gọi lời giải khởi tạo là 𝐶0, thuật toán từng bước mở rộng ( không quay lui ) lời giải bằng cách thêm vào các thành phần mới theo một cách ngẫu nhiên hoặc tất định dựa trên các quy tắc heuristic đã chọn Các quy tắc heuristic này thường được xây dựng dựa trên các kết quả phân tích lý thuyết đối

với bài toán hoặc kinh nghiệm Sau đây là một ví dụ của thuật toán này với quy

tắc heuristic tham lam Trong thuật toán này, 𝐺𝑟𝑒𝑒𝑑𝑦𝐶𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡(𝑠𝑝) có nghĩa chọn lời giải bổ sung vào 𝑠𝑝 theo quy tắc tham lam 𝑠𝑝𝑐 là kết quả phép toán thêm thành phần 𝑐 vào 𝑠𝑝

Algorithm 5: Thuật toán heuristic cấu trúc tham lam

2.2.4 Thuật toán Metaheuristic

Tiền tố “meta” trong tiếng Hy lạp ở tên của nhóm thuật toán này ám chỉ

nó ở mức cao hơn so với các thuật toán heuristics Một thuật toán metaheuristic

là một lược đồ thuật toán tổng quát ứng dụng cho các bài toán tối ưu khác nhau, với một chút sửa đổi cho phù hợp với từng bài toán Trái ngược với heuristic, meta-heuristic chỉ định một phương pháp tính toán nhằm tối ưu hóa một vấn đề bằng cách lặp đi lặp lại để cải thiện một giải pháp ứng cử viên trong đó có thước

Tiêu đề	Bài Toán Tối Ưu Tổ Hợp Và Ứng Dụng Trên Một Số Mô Hình Lan Truyền Thông Tin
Tác giả	Vongprathoum Phouthasone
Người hướng dẫn	TS. Trương Hà Hải, TS. Nông Thị Hoa
Trường học	Đại học Thái Nguyên
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Thái Nguyên

Định dạng
Số trang	75
Dung lượng	1,32 MB