Nghiên cứu bài toán phân tích mạng xã hội

CƠ SỞ LÝ THUYẾT

Khái niệm về mạng xã hội

Hiện nay, sự phát triển mạnh mẽ của Internet và các công nghệ như thực tế ảo và Internet của vạn vật (IoT) đã tạo ra lượng dữ liệu khổng lồ Do đó, phân tích dữ liệu trở nên ngày càng quan trọng và phát triển Nhiều phương pháp, đặc biệt là phân tích mạng xã hội, có thể giúp chúng ta trích xuất tri thức từ những dữ liệu này.

Mạng xã hội ngày càng trở nên phổ biến, với các nền tảng như Facebook và YouTube thu hút lượng người dùng lớn Những nguồn thông tin từ các tương tác xã hội đóng vai trò quan trọng trong việc phát hiện, theo dõi và đánh giá các sự kiện và hiện tượng Sự đa dạng và khối lượng dữ liệu khổng lồ, cùng với sự thay đổi liên tục theo thời gian, đã làm cho thông tin từ mạng xã hội trở nên đáng tin cậy và có giá trị sử dụng cao Theo nghị định số 72/2013/NĐ-CP ngày 15/7/2013 của Chính phủ, mạng xã hội được định nghĩa là

Mạng xã hội là hệ thống thông tin giúp người dùng kết nối và tương tác, cung cấp các dịch vụ như lưu trữ, tìm kiếm, chia sẻ và trao đổi thông tin Nó bao gồm các dịch vụ như tạo trang thông tin cá nhân, diễn đàn, trò chuyện trực tuyến, cũng như chia sẻ âm thanh, hình ảnh và nhiều hình thức dịch vụ tương tự khác.

Theo John Scott và cộng sự [1][2] đã định nghĩa mạng xã hội như sau:

Mạng xã hội là tập hợp các nút trong một xã hội và được liên kết bởi một hoặc nhiều mối quan hệ

Hình 1.1.Ví dụ cơ bản của mô hình mạng

Như vậy, cấu phần cơ bản của một mạng xã hội gồm hai phần là nút và liên kết - hay gọi là cạnh

Các nút, hay còn gọi là các thành phần của mạng, là những đơn vị kết nối với nhau thông qua các mối quan hệ Trong mạng xã hội, các nút có thể là con người, công ty, trường học, quốc gia, hoặc tính cách Thông tin về các nút thường được thu thập từ các nghiên cứu khoa học tiêu chuẩn, bao gồm nhân khẩu học, thái độ và hành vi, cùng với thông tin về thời điểm hoạt động của nút, điều này có thể thay đổi theo thời gian.

Việc xác định các nút quan trọng trong phân tích mạng là một thách thức lớn Chẳng hạn, khi nghiên cứu về bệnh tim qua mạng xã hội, sự phức tạp và khó khăn trong từng đối tượng nghiên cứu cũng cần được xem xét kỹ lưỡng.

Laumann và cộng sự (1983) [3] đã đề xuất ba cách tiếp cận để giải quyết vấn đề thu thập dữ liệu này

Cách tiếp cận đầu tiên là dựa trên vị trí, trong đó các tác nhân được xem như thành viên của một tổ chức hoặc nắm giữ một vị trí cụ thể.

Bài nghiên cứu sẽ thu thập dữ liệu từ bốn viên, trong đó có thể bao gồm các nhà nghiên cứu và bác sĩ làm việc trong lĩnh vực tim mạch, cũng như các thành viên của hiệp hội chuyên gia nghiên cứu về tim mạch.

Cách tiếp cận thứ hai để xác định ranh giới của mạng là dựa trên sự kiện Ví dụ, có thể nhận diện các nhà nghiên cứu đã tham gia ít nhất hai sự kiện liên quan đến tim mạch trong vòng hai năm qua.

Cách tiếp cận dựa trên mối quan hệ trong nghiên cứu mạng Ego bắt đầu từ một tập nhỏ các nút trong phạm vi quan tâm, sau đó mở rộng ra các cá nhân có liên quan đến những người trong phạm vi đó Ví dụ, các nhà khoa học tham gia hội nghị quan trọng có thể là phạm vi quan tâm, và từ đó, ta sẽ xem xét các mối quan hệ với họ, bao gồm cộng tác viên, đồng sự và đồng tác giả Phương pháp này giúp xác định và phân tích các mối liên hệ trong mạng lưới nghiên cứu một cách hiệu quả.

Ba cách tiếp cận trên không loại trừ lẫn nhau và thông thường, các nhà nghiên cứu sẽ sử dụng kết hợp để xác định phạm vi

Các mối quan hệ trong mạng có thể là mối quan hệ về tình bạn, quan hệ thương mại, liên kết web, trích dẫn, luồng thông tin,…

Theo nghiên cứu của Borgatti và các cộng sự (2009), có bốn phạm trù quan hệ, trong đó sự tương đồng là một yếu tố quan trọng Sự tương đồng xảy ra khi hai nút liên kết với nhau có những đặc điểm giống nhau, chẳng hạn như nhân khẩu học, hành vi, hoặc việc là thành viên trong cùng một tổ chức hoặc nhóm.

Các mối quan hệ xã hội, bao gồm quan hệ họ hàng, bạn bè và tình cảm, là chủ đề thường được nghiên cứu sâu trong lĩnh vực mạng xã hội Nghiên cứu của Casciaro và cộng sự đã chỉ ra tầm quan trọng của những mối quan hệ này trong việc hình thành và duy trì các kết nối xã hội.

(1999) [5] đã xây dựng mạng dựa trên quan hệ cảm xúc (thích hay không) của các đối tượng nghiên cứu

Thứ ba là quan hệ tương tác Điều này đề cập tới quan hệ dựa trên

5 hành vi, chẳng hạn như hai người nói chuyện với nhau, giúp đỡ nhau hoặc có thể người này theo dõi người kia trên mạng xã hội Facebook

Cuối cùng, luồng là mối quan hệ dựa trên sự trao đổi hoặc chuyển đổi giữa các nút Tương tự như tương tác, luồng có thể diễn ra song song với các mối quan hệ xã hội khác, và chúng ta thường giả định rằng những mối quan hệ này cùng tồn tại.

Lịch sử mạng xã hội

Phân tích mạng xã hội được phát triển từ những lý thuyết của các nhà xã hội học nổi bật như Georg Simmel và Émile Durkheim Cả hai tác giả đều nhấn mạnh tầm quan trọng của việc nghiên cứu các mối quan hệ giữa các cá nhân trong xã hội, từ đó góp phần làm sáng tỏ cấu trúc và chức năng của các mối liên kết xã hội.

Mạng xã hội, khái niệm xuất hiện từ đầu thế kỷ XX, đề cập đến các mối quan hệ phức tạp giữa các thành viên trong một xã hội hoặc giữa các cá nhân trên toàn cầu.

Năm 1930, Jacob Moreno và Helen Jennings đã giới thiệu các phương pháp phân tích cơ bản, và đến năm 1954, John Arundel Barnes đã hệ thống hóa thuật ngữ này để chỉ các kiểu ràng buộc, bao gồm những khái niệm truyền thống và khoa học xã hội như nhóm bị ràng buộc (ví dụ: bộ lạc, gia đình) và các phạm trù xã hội (ví dụ: giới tính, dân tộc) Các học giả như Ronald Burt, Kathleen Carley, Mark Granovetter, David Krackhardt, Edward Laumann, Anatol Rapoport, Barry Wellman, Douglas R White và Harrison White đã mở rộng ứng dụng của phân tích mạng xã hội một cách có hệ thống.

Phân tích mạng xã hội đã trở thành công cụ quan trọng trong nghiên cứu tiếp thu ngôn ngữ thứ hai ở nước ngoài Nghiên cứu trong lĩnh vực văn học cũng đã áp dụng phương pháp này, như được thể hiện qua công trình của Anheier, Gerhards và Romo, Wouter.

De Nooy và Burgert Senekal áp dụng Thật vậy, phân tích mạng xã hội đã

6 tìm thấy các ứng dụng trong các lĩnh vực học thuật khác nhau, cũng như các ứng dụng thực tế như chống rửa tiền và khủng bố

Với sự phát triển mạnh mẽ của hệ thống internet hiện nay, phân tích mạng xã hội đang ngày càng trở nên sâu sắc và phát triển trên các nền tảng như Facebook, Twitter, và YouTube.

Một số lý thuyết đồ thị trong phân tích mạng xã hội

Lý thuyết đồ thị, một lĩnh vực nghiên cứu lâu đời, hiện nay có nhiều ứng dụng hiện đại Những tư tưởng cơ bản của lý thuyết này được đưa ra bởi nhà toán học Thụy Sỹ Leonhard Euler vào đầu thế kỷ XVIII.

Phân tích mạng xã hội sử dụng nhiều lý thuyết đồ thị để hiểu rõ hơn về cấu trúc và mối quan hệ giữa các thành viên Bài viết này sẽ giới thiệu một số khái niệm cơ bản trong lý thuyết đồ thị, sau đó sẽ trình bày những lý thuyết quan trọng trong phân tích mạng xã hội.

1.3.1 Định nghĩa đồ thị Đồ thị là một cấu trúc rời rạc bao gồm các đỉnh và các cạnh nối giữa các đỉnh đó

Người ta thường ký hiệu đồ thị G = (V, E)

Trong đó, V là tập các đỉnh (Vertex) và E là tập các cạnh (Edge) Có thể coi E là tập các cặp (u, v) với u và v là hai đỉnh của V

Đồ thị xuất hiện phổ biến trong cuộc sống hàng ngày, chẳng hạn như sơ đồ mạng giao thông, thể hiện mối quan hệ giữa các tuyến đường.

Đồ thị là một công cụ hữu ích để mô tả sự kết nối giữa các máy tính trong mạng internet Ngoài ra, sơ đồ mạng xã hội cũng được xem là một dạng đồ thị, thể hiện mối quan hệ và tương tác giữa người dùng.

Trong lĩnh vực đồ thị học, tồn tại nhiều loại đồ thị khác nhau như đơn đồ thị, đa đồ thị, đồ thị có hướng và đồ thị không hướng Đồ thị G được xác định là đơn đồ thị vô hướng nếu giữa hai đỉnh u và v thuộc tập hợp V không có nhiều hơn một cạnh nối chúng.

Trong đồ thị vô hướng, một cạnh giữa hai đỉnh u và v thuộc tập E (E khác rỗng) có thể tồn tại tối đa một lần Điều này có nghĩa là trong đồ thị vô hướng, các cặp cạnh trong tập E không quan tâm đến thứ tự của các đỉnh Đồ thị G được gọi là đa đồ thị vô hướng nếu giữa hai đỉnh u và v có thể có nhiều hơn một cạnh.

V (V khác rỗng) có thể có nhiều hơn 1 cạnh thuộc E (E khác rỗng) nối từ đỉnh u tới đỉnh v

Mỗi đơn đồ thị đều là một đa đồ thị, nhưng không phải mọi đa đồ thị đều là đơn đồ thị Điều này xảy ra vì trong đa đồ thị có thể tồn tại hai hoặc nhiều cạnh nối giữa một cặp đỉnh nhất định.

Đồ thị G được phân loại thành hai loại: đồ thị vô hướng và đồ thị có hướng Đồ thị vô hướng có các cạnh không có hướng, nghĩa là nếu có cạnh nối giữa hai đỉnh u và v, thì cũng có thể coi đó là cạnh nối giữa v và u Ngược lại, đồ thị có hướng có các cạnh có hướng, cho phép tồn tại cạnh nối từ đỉnh u tới đỉnh v mà không nhất thiết có cạnh nối ngược lại từ v tới u Do đó, tập E trong đồ thị có hướng bao gồm các cặp (u, v) có tính thứ tự.

Trong lý thuyết đồ thị, thứ tự của các đỉnh trong một cạnh có ý nghĩa quan trọng, ví dụ (u, v) không giống với (v, u) trong đồ thị có hướng Các cạnh trong đồ thị có hướng được gọi là các cung, trong khi đồ thị vô hướng có thể được xem như đồ thị có hướng nếu coi mỗi cạnh giữa hai đỉnh u và v tương đương với hai cung (u, v) và (v, u) Ngoài ra, đồ thị cũng được phân loại thành đồ thị đơn và đồ thị đa.

Hình 1.4.Các loại đồ thị cơ bản

Như vậy, ta có thể có đơn đồ thị vô hướng, đơn đồ thị có hướng, đa đồ thị vô hướng, đa đồ thị có hướng

Một số dạng đồ thị đơn vô hướng đặc biệt bao gồm đồ thị vòng, đồ thị đầy đủ, đồ thị hai phía và đồ thị bánh xe Đồ thị vòng C_n (đồ thị chu trình) là một đồ thị vô hướng đơn G = (V, E) với tập đỉnh V = {1, 2, 3,…, n} và tập cạnh E = {(1, 2), (2, 3), …, (n – 1, n), (n, 1)}.

Đồ thị đầy đủ K n là một loại đồ thị vô hướng, trong đó giữa hai đỉnh bất kỳ luôn có cạnh nối Trong khi đó, đồ thị hai phía K m, n là đồ thị có tập đỉnh được phân hoạch thành hai tập con không giao nhau, V = X ∪ Y, với mọi cạnh nối một đỉnh thuộc tập X với một đỉnh thuộc tập Y.

Đồ thị bánh xe W_n (đồ thị vòng) là một loại đồ thị vô hướng đơn giản, được tạo ra từ đồ thị C_(n-1) bằng cách thêm một đỉnh n, nối với n-1 đỉnh của đồ thị C_(n-1).

1.3.3 Cấu phần của đồ thị Đồ thị G = (V, E) với tập đỉnh V = {1, 2, 3, , n} và các tập cạnh

E = {e1, e2, …, en} là một cấu trúc rời rạc, trong đó các tập V và E là những tập hữu hạn, cho phép đánh số thứ tự các phần tử trong tập V và tập E từ 1 đến n.

Hình 1.6 Hình ảnh ví dụ về đồ thị

Cấu phần và tham số cơ bản của đồ thị bao gồm:

Khi có một cặp (u, v) thuộc tập E, ta xác định rằng giữa u và v có một cạnh nối Đỉnh v được gọi là đỉnh kề của đỉnh u, và e = (u, v) được xem là cạnh liên thuộc với các đỉnh u và v Đồng thời, các đỉnh u và v được gọi là điểm đầu mút của cạnh e.

Bậc của đỉnh trong đồ thị vô hướng là số cạnh liên thuộc với chính đỉnh đó và thường được kí hiệu là deg(v)

Bậc của một đỉnh trong đồ thị vô hướng được tính theo công thức sau: deg( ) ( , ) u v = e v u

Trong đó, e(v, u) là cạnh giữa hai đỉnh u và v

Trong đồ thị có hướng, bậc của đỉnh được chia làm bậc vào hoặc bậc ra (in-degree hoặc out-degree) gọi là bán bậc của đỉnh

Bậc vào (ra) của đỉnh trong đồ thị có hướng là số cạnh của đồ thị đi vào (ra) đỉnh đó và kí hiệu là deg + (v) (hoặc deg - (v))

Công thức tính bậc ra trên đồ thị có hướng như sau: deg( ) out ( , ) u v =  e v u

Công thức tính bậc của đỉnh trên đồ thị có hướng là deg(v) = ∑ e(u, v) Đỉnh v được gọi là đỉnh treo khi deg(v) = 1 và là đỉnh cô lập khi deg(v) = 0.

Ngoài ra, ta còn một số khái niệm khác trong đồ thị Đường đi (path)

Một đường đi từ đỉnh u đến đỉnh v trên đồ thị G là một dãy đỉnh từ u 1 , u 2 ,…, u i Trong đó có các cạnh (u, u 1 ), (u 1 , u 2 ), …, (u i , v) ∈ E và i là số lượng

11 cung trên đường đi được gọi là độ dài của đường đi Đỉnh u được gọi là đỉnh đầu và đỉnh v được gọi là đỉnh cuối của đường đi

Một số lý thuyết về tính chất của mạng xã hội

Cấu trúc cơ bản của mạng xã hội tương tự như đồ thị, bao gồm tập các đỉnh và cạnh Tuy nhiên, mạng xã hội có những đặc điểm riêng biệt so với đồ thị thông thường Bài viết này sẽ trình bày một số lý thuyết quan trọng trong lĩnh vực mạng xã hội.

1.4.1 Lý thuyết ràng buộc yếu (strength of weak ties - SWT)

Lý thuyết ràng buộc yếu được đưa ra bởi Granovetter vào năm 1973 [9] Tính chất thứ nhất của SWT đề cập đến tính giống nhau trong mạng xã hội

Theo lý thuyết, mối quan hệ chặt chẽ giữa hai người sẽ dẫn đến việc các vùng xã hội xung quanh họ có xu hướng chồng chéo Chẳng hạn, nếu A kết hôn với B và B là bạn thân của C, thì khả năng A quen biết C sẽ rất cao.

Granovetter giải thích rằng những người có tính chất tương đồng thường hình thành mối quan hệ chặt chẽ với nhau, hiện tượng này được gọi là homophily Homophily thể hiện sự tương đồng giữa các cá nhân trong mạng lưới xã hội Điều này tạo ra một cầu nối yếu, vì khi A và B có nhiều điểm tương đồng, và B lại có nhiều điểm tương đồng với C, thì A và C cũng có khả năng chia sẻ một số đặc điểm chung.

Hình 1.7 Ví dụ minh họa về tính chồng chéo

Một lý thuyết khác về sự bất hòa (Heider, 1958) cho rằng nếu A thích B và B thích C, thì A cũng sẽ muốn thích C để tránh sự bất hòa Điều này thể hiện rõ trong các gia đình, nơi mọi người thường nỗ lực để duy trì sự hòa hợp và gắn kết với nhau.

Tính chất thứ hai của SWT là tính chất bắc cầu, cho thấy mối quan hệ bắc cầu kết nối một cá nhân với những người khác mà họ không có mối quan hệ trực tiếp.

Hình 1.8 Ví dụ minh họa về tính chất bắc cầu Liên kết giữa A và G được gọi là mối liên kết bắc cầu

Theo Granovetter, mối quan hệ chặt chẽ khó có thể cung cấp thông tin mới, vì các mối quan hệ bắc cầu thường không bền vững Nếu A và G có mối quan hệ mạnh, thì G sẽ phải có ít nhất một mối quan hệ yếu với những người khác của A Điều này cho thấy rằng mối liên kết giữa A và G không còn là cầu nối, vì có nhiều con đường khác từ A đến G thông qua những người quen chung Do đó, chỉ những liên kết yếu mới có thể đóng vai trò là mối quan hệ bắc cầu.

Tính chất của mối quan hệ xã hội giải thích tại sao công việc thường được truyền đạt qua người quen hơn là người thân Ở cấp độ nhóm, những nhóm có mối quan hệ bền chặt sẽ có sự gắn kết địa phương mạnh mẽ nhưng gắn kết toàn cầu yếu Ngược lại, nhóm có gắn kết địa phương yếu lại thường có gắn kết toàn cầu mạnh mẽ hơn.

1.4.2 Lỗ trống cấu trúc (Structural holes)

Ngoài ra, còn một lý thuyết khác là lý thuyết về lỗ trống cấu trúc

Khái niệm "lỗ hổng cấu trúc" của Burt (1992) liên quan đến vai trò trung tâm trong mạng xã hội Theo lý thuyết này, một cá nhân đóng vai trò trung gian giữa hai hoặc nhiều nhóm cộng đồng có mối liên hệ chặt chẽ sẽ hưởng lợi thế nhất định trong việc kết nối và tạo ra cơ hội.

Hình 1 9 Hình ảnh minh họa lý thuyết cấu trúc lỗ

Burt cho rằng hình dạng mạng cá nhân của A cung cấp nhiều thông tin hơn so với B, mặc dù cả hai có số lượng mối quan hệ tương đương và giả định trọng số giống nhau Khi B nhận thông tin từ Y, X cũng nhận được thông tin tương tự Tuy nhiên, A có ba nhóm liên kết khác nhau, dẫn đến thông tin mà A nhận được phong phú và đa dạng hơn Do đó, A không chỉ nhận được nhiều thông tin hơn B mà còn có nhiều lỗ trống cấu trúc hơn.

1.4.3 Lý thuyết của Coleman về trung tâm xã hội (Coleman social capital- CSC)

Coleman (1988) lập luận rằng sự thay đổi trong mối quan hệ của những hàng xóm liên kết trực tiếp với nút gốc trong mạng cá nhân sẽ gia tăng vốn xã hội cho nút gốc Ví dụ, một đứa trẻ sẽ được hưởng lợi khi cha mẹ, hàng xóm và giáo viên là bạn bè, từ đó nhận được sự dạy bảo tốt nhất.

Burt (2005) chỉ ra rằng quan điểm cho rằng trẻ em có nhiều mối quan hệ xã hội sẽ giúp chúng nhận được nhiều thông tin là mâu thuẫn Nếu trẻ em có những mối quan hệ hạn chế, lượng thông tin mà chúng tiếp nhận từ xã hội sẽ giảm đi đáng kể.

1.4.4 Tính chất thế giới nhỏ (small- world)

Vào những năm 1950 và 1960, nhiều nhà nghiên cứu đã khám phá và giải thích hiện tượng trùng hợp trong các mối quan hệ quen biết lẫn nhau (De Sola Pool và Kochen, 1978) Họ cho rằng xã hội có thể chứa đựng nhiều mối quan hệ chặt chẽ hơn những gì chúng ta thường nghĩ.

Travers và Milgram (1969) [15] đã thử nghiệm trên cơ sở ủng hộ giải thuyết này Kết quả cho thấy đường đi liên kết giữa hai người ngẫu nhiên tại

Vào năm 1999, Watts và Strogatz đã thực hiện thí nghiệm để khảo sát một câu hỏi tương tự về mạng lưới Kết quả cho thấy rằng việc thêm một số lượng nhỏ các mối quan hệ ngẫu nhiên vào một cụm mạng có thể làm giảm đáng kể khoảng cách giữa các nút, hiện tượng này được gọi là tính chất thế giới nhỏ.

Hình 1.10 Hình vẽ biểu diễn khi tạo một kết nối ngẫu nhiên trong mạng được phân cụm

Theo Watts [17] cho biết có bốn điều kiện khiến tính chất thế giới nhỏ có thể xảy ra với một mạng bất kỳ

Watts nhấn mạnh rằng kích thước của mạng đóng vai trò quan trọng; khi mạng đạt đủ quy mô, kết nối ngẫu nhiên sẽ tiết lộ những điểm thú vị.

Trong nghiên cứu về mạng lưới, chúng ta nhận thấy rằng số lượng nút là tương đối lớn Khi thêm ngẫu nhiên một số cạnh, khoảng cách giữa hai nút bất kỳ giảm xuống rõ rệt Watts chỉ ra rằng mạng lưới thưa thớt, nơi mọi người chỉ kết nối với một phần nhỏ trong tổng số, dẫn đến khoảng cách giữa hai nút bất kỳ lớn hơn Ngược lại, trong mạng lưới dày đặc, khoảng cách giữa các nút sẽ nhỏ hơn Việc thêm các liên kết ngẫu nhiên không đảm bảo sẽ giảm thiểu khoảng cách giữa hai nút trong mạng lưới thưa thớt.

Thu thập thông tin mạng xã hội

Để thu thập dữ liệu thông tin mạng cho phân tích, trước tiên cần xác định loại mạng và loại quan hệ cần phân tích Mạng được chia thành hai loại chính: mạng Ego (mạng cá nhân) và mạng Whole (mạng toàn bộ).

Mạng Whole cung cấp cái nhìn tổng quát về cấu trúc xã hội bằng cách tập trung vào tất cả các nút, thay vì chỉ chú trọng vào một nút duy nhất Các mạng này được xây dựng dựa trên danh sách các nút và dữ liệu về mối quan hệ giữa chúng, như ví dụ về mạng lưới các diễn viên chính từng hợp tác cùng nhau (Watts, 1999) [22].

Mạng Ego, hay còn gọi là mạng cá nhân, là mạng xung quanh một nút cụ thể Mạng này mô tả các mối quan hệ và kết nối của nút đó với những nút khác trong hệ thống.

Mạng Ego của một cá nhân bao gồm 18 mối quan hệ và có thể mở rộng đến bậc thứ hai, tức là những liên kết của các mối quan hệ đó Dữ liệu mạng Ego được trích xuất bằng cách chọn một nút gốc và kiểm tra tất cả các nút liên kết với nút gốc này, hay còn gọi là các nút hàng xóm.

Tiếp theo, ta xem xét tới chế độ trong mạng Mạng có thể chia làm mạng một chế độ - one mode và mạng hai chế độ - two mode

Khi nghiên cứu mạng toàn cầu, chúng ta thường chỉ tập trung vào một loại tính chất của nút, với khả năng kết nối giữa các nút trong mạng Điều này được gọi là mạng một chế độ, trong đó chỉ tồn tại một loại nút Ví dụ điển hình là mạng lưới bạn bè trong trường Đại học Bách Khoa.

Mạng hai chế độ là một khái niệm quan trọng trong nghiên cứu dữ liệu, cho phép xem xét thêm tính chất của đối tượng được thu thập Ví dụ điển hình là tập dữ liệu Davis 'Southern Women, trong đó các đặc điểm của đối tượng được phân tích để hiểu rõ hơn về mối quan hệ giữa chúng Việc áp dụng mạng hai chế độ giúp nâng cao độ chính xác và hiệu quả trong việc khai thác thông tin từ dữ liệu.

Vào năm 1941, một nhóm phụ nữ đã tham gia vào một sự kiện quan trọng Mỗi người phụ nữ sẽ được liên kết với sự kiện đó nếu cô ấy có mặt trong buổi lễ.

Trong phân tích quan hệ, chúng ta cần xem xét loại quan hệ, bao gồm quan hệ có hướng và vô hướng, cũng như có trọng số hoặc không có trọng số Quan hệ có hướng thể hiện mối quan hệ một chiều, như A thích B, trong khi quan hệ vô hướng không quan tâm đến chiều, ví dụ A là bạn của B, tức là B cũng là bạn của A Ngoài ra, quan hệ có trọng số cho phép đo lường sức mạnh của mối quan hệ đó.

Kết luận chương

Mạng xã hội là tập hợp các nút trong xã hội, được kết nối qua nhiều mối quan hệ khác nhau Khái niệm này đã được phát triển và ứng dụng bởi các nhà khoa học xã hội nổi tiếng như Georg Simmel và Émile.

Durkheim từ đầu thế kỷ XX Dần dần, theo thời gian, hệ thống khái niệm và phân tích mạng xã hội dần được hoàn thiện

Mạng xã hội bao gồm các thành phần cơ bản như đồ thị, với tập cạnh và tập nút Tuy nhiên, mạng xã hội còn có những đặc điểm riêng, điển hình là lý thuyết ràng buộc yếu của Granovetter (1973), nhấn mạnh sự chồng chéo hàng xóm giữa hai nút có liên kết mạnh.

Lý thuyết lỗ trống cấu trúc cho thấy rằng các nút có lỗ trống cấu trúc có khả năng tiếp nhận thông tin cao hơn so với các nút có liên kết chặt chẽ Điều này nhấn mạnh tầm quan trọng của việc khai thác các mối quan hệ xã hội để tối ưu hóa việc thu thập và chia sẻ thông tin.

Tính trung tâm xã hội lý giải sự biến đổi của nút gốc khi các nút lân cận thay đổi Tính chất thế giới nhỏ cho thấy số bước đi giữa hai nút bất kỳ trong mạng xã hội lớn là rất ngắn Cuối cùng, mạng không có tỷ lệ, hay còn gọi là mạng phân phối lũy thừa, cho thấy một số nút có nhiều mối quan hệ hơn những nút khác.

Khi thu thập dữ liệu để xây dựng mạng xã hội, cần lưu ý rằng việc lựa chọn thông tin là rất quan trọng Mặc dù có rất nhiều dữ liệu hiện có, việc đưa tất cả vào mạng sẽ dẫn đến thừa thông tin và tốn kém chi phí trong quá trình vận hành mô hình Do đó, cần đánh giá kỹ lưỡng các đối tượng và thuộc tính để đảm bảo hiệu quả trong việc xây dựng mạng.

Tùy thuộc vào mục tiêu nghiên cứu, việc thu thập dữ liệu sẽ khác nhau Chẳng hạn, trong bài toán phát hiện cộng đồng, dữ liệu về nút bao gồm tất cả thành viên trong một nhóm, trong khi dữ liệu về cạnh có thể là các tương tác có hướng hoặc không có hướng giữa các thành viên Trọng số của cạnh có thể được xác định dựa trên tần suất tương tác giữa các thành viên đó.

Để phát hiện giao dịch bất thường, cần xây dựng một đa mạng với nhiều cặp nút, trong đó mỗi cặp có thể có nhiều mối liên kết khác nhau và trọng số không giống nhau.

BÀI TOÁN PHÂN TÍCH MẠNG XÃ HỘI

Phương pháp trích xuất mạng con

Việc xác định các nhóm con gắn kết trong mạng là một bước quan trọng đầu tiên Nhóm con gắn kết bao gồm các tác nhân có mối quan hệ mạnh mẽ, trực tiếp và thường xuyên Các phương pháp này nhằm chính thức hóa khái niệm về nhóm xã hội thông qua các thuộc tính của mạng xã hội Tuy nhiên, do khái niệm nhóm xã hội thường được hiểu một cách chung chung và có nhiều thuộc tính cụ thể liên quan đến tính gắn kết, nên có nhiều định nghĩa khác nhau về nhóm con trong mạng xã hội.

Có bốn đặc điểm quan trọng của nhóm con gắn kết cần lưu ý: Thứ nhất, mối quan hệ tương đương giữa các nút trong nhóm Thứ hai, mức độ gần gũi và khả năng tiếp cận giữa các thành viên Thứ ba, tần suất quan hệ giữa các thành viên trong nhóm Cuối cùng, tần suất tương đối của mối quan hệ giữa các thành viên trong nhóm so với những người không phải là thành viên.

Mối quan tâm chính trong phân tích mạng xã hội là xác định các nhóm cộng đồng quan trọng Những nhóm này là các tập hợp nhỏ hơn của các nút trong đồ thị, có cường độ hoặc tần suất mối quan hệ cao hơn so với các nút khác trong mạng.

Có nhiều cách để xác định nhóm Hầu hết các phương pháp đều xem xét trên thành phần liên thông nhưng theo các cấp độ khác nhau

Mạng xã hội thường bao gồm nhiều nhóm con gắn kết, nơi các thành viên có mối quan hệ chặt chẽ và chia sẻ những đặc điểm tương đồng Trong từng nhóm con này, người ta thường kỳ vọng rằng các thành viên sẽ tương tác nhiều với nhau, tạo nên sự kết nối mạnh mẽ.

Trong bài luận này, tôi sẽ đề cập tới ba nhóm liên thông với ba cấp độ khác nhau: thành phần, k-core và cliques

Các đỉnh có bậc lớn hơn hoặc bằng một được kết nối với ít nhất một hàng xóm, cho thấy rằng chúng không bị cô lập Tuy nhiên, điều này không đảm bảo rằng các đỉnh này kết nối với một đồ thị con nào đó Trong một số trường hợp, mạng lưới có thể bị chia thành nhiều nhóm khác nhau Một nhóm con gắn kết, hay còn gọi là thành phần trong mạng, là tập hợp các đỉnh được nối với nhau trong mạng lưới.

Hình 2.1 Ví dụ về thành phần trong mạng

Trong hình ảnh, một số đỉnh được kết nối với nhau, trong khi một số đỉnh khác thì không Chẳng hạn, đỉnh v2 không kề với bất kỳ đỉnh nào, trong khi bốn đỉnh còn lại có một hoặc hai hàng xóm Nếu coi các cung tròn là đường, ta có thể đi từ đỉnh v5 đến v3 và sau đó từ v3 đến v1 mà không cần xét đến hướng của các cung, cho thấy có một đường dẫn từ v5 đến v1 Ngược lại, từ đỉnh v2, không thể di chuyển đến bất kỳ đỉnh nào khác Để làm rõ vấn đề này và khái niệm về thành phần, chúng ta cần tìm hiểu khả năng tiếp cận của một nút đến nút khác trong mạng.

2.1.1.1 Khả năng tiếp cận Đầu tiên, ta xem xét tới khả năng tiếp cận nhằm xác định một thành phần trong mạng Khả năng tiếp cận được Fleischer và cộng sự vào năm

Kết nối gián tiếp đóng vai trò quan trọng trong việc hình thành cấu trúc mạng Một nút có thể kết nối với nút khác thông qua các liên kết trong biểu đồ Các liên kết này có thể có hướng, từ đó phân chia các thành phần thành "mạnh" và "yếu".

Hình 2.2 Ví dụ khả năng tiếp cận

Trong phần này, tôi sẽ khám phá khái niệm đường đi, bước đi và chu trình trong lý thuyết đồ thị, cùng với các thành phần mạnh và yếu của đồ thị Đường đi được định nghĩa là một chuỗi các nút và cạnh, bắt đầu từ một nút và kết thúc ở một nút khác, tạo ra mối liên hệ gián tiếp giữa hai nút Quan trọng là trong một đường đi, chúng ta không được quay lại hoặc truy cập lại cùng một nút hai lần.

Ví dụ: a => b => c => d được gọi là một đường đi

Một bước đi là bất kỳ chuỗi nút và cạnh nào, và có thể đi ngược lại

Chu trình là một đường dẫn bắt đầu và kết thúc bằng cùng một nút

Trong lý thuyết đồ thị, hai nút được coi là có tính kết nối nếu tồn tại một chuỗi liên kết giữa chúng Khi một đồ thị có ít nhất một chuỗi liên kết nối tất cả các cặp nút, nó được gọi là đồ thị liên thông và được xác định là một thành phần.

Thuật toán SCC được sử dụng để xác định các thành phần trong mạng, với cách tiếp cận là chọn một đỉnh ngẫu nhiên và áp dụng các truy vấn có khả năng truy xuất ngược lại và tiếp tục từ đỉnh đó Hai truy vấn phân vùng đỉnh sẽ tạo ra bốn tập con: các đỉnh được tìm thấy qua cả hai cách, các đỉnh được tìm thấy qua từng cách riêng lẻ, và các đỉnh không được tìm thấy bằng cả hai cách Theo nghiên cứu của Fleischer và cộng sự, phương pháp này giúp tối ưu hóa quá trình phân tích mạng.

24 một thành phần liên thông mạnh phải được thuộc một trong các tập hợp con

Tập hợp con đỉnh mà cả hai lần tìm kiếm đạt được tạo thành một thành phần kết nối chặt chẽ, và thuật toán sẽ tiếp tục đệ quy trên ba tập hợp con còn lại.

Thành phần trong một hệ thống được định nghĩa là tập hợp các cá nhân có mối quan hệ kết nối với nhau, có thể là theo hướng hoặc không có hướng.

Trong đồ thị có cạnh có hướng, tồn tại hai loại thành phần liên thông: thành phần liên thông mạnh và thành phần liên thông yếu.

2.1.1.2 Thành phần liên thông mạnh

Trong đồ thị có hướng, đồ thị con được gọi là liên thông mạnh nếu mọi đỉnh có thể tiếp cận được tất cả các đỉnh khác Điều này có nghĩa là giữa mỗi cặp đỉnh trong đồ thị tồn tại một đường đi theo cả hai hướng Cụ thể, sẽ có một đường đi từ đỉnh đầu tiên đến đỉnh thứ hai và ngược lại, từ đỉnh thứ hai về đỉnh đầu tiên.

Một số thước đo thống kê mô tả đặc trưng cho mạng xã hội

Mạng không chỉ được đánh giá qua các thước đo trên đồ thị mà còn thông qua nhiều chỉ số thống kê khác như đường kính mạng, sức mạnh của các nút và hệ số phân cụm của từng nút.

Một đường đi trong mạng vô hướng hay gọi là đường đi trong đồ thị vô hướng là một chuỗi các đỉnh P = (v 1 , v 2 , …, v n )  V * V * V *…* V

Trong đó, v i tiếp giáp v i+1 với 1  i  n

Một đường như vậy sẽ được gọi là một con đường có độ dài n-1 từ v 1 đến v i

Có thể có nhiều con đường giữa hai đỉnh bất kì Trong đó, con đường ngắn nhất giữa hai đỉnh sẽ được gọi là khoảng cách giữa hai đỉnh

Khoảng cách giữa hai đỉnh của đồ thị được định nghĩa là số cạnh trên đường đi ngắn nhất, được gọi là khoảng cách ngắn nhất và ký hiệu là L.

Nếu hai đỉnh không có đường nối và thuộc về hai thành phần liên thông khác nhau, thì khoảng cách giữa chúng được xem là vô hạn.

Đỉnh cô lập v là đỉnh có khoảng cách lớn nhất với tất cả các đỉnh khác trong đồ thị, được xem như nút xa nhất Đường kính của đồ thị là khoảng cách lớn nhất giữa các cặp đỉnh trong đồ thị Để xác định đường kính, cần tìm khoảng cách ngắn nhất giữa hai đỉnh bất kỳ, và đường kính sẽ là giá trị lớn nhất trong số các khoảng cách ngắn nhất đó.

2.2.2 Sức mạnh của nút trong mạng

Thực tế, trên mạng không chỉ xét tới hướng của cạnh, mà ta còn có thể xét trọng số của cạnh

Trọng số của cạnh là sức mạnh mối quan hệ giữa hai nút Trọng số của cạnh giữa hai nút i và j thường được kí hiệu là w i,j

Một chỉ số quan trọng trong mạng vô hướng là độ mạnh của một nút, được tính toán để đánh giá sức mạnh của nó trong mạng.

Với: s(i) là độ mạnh của đỉnh i w i,j là trọng số giữa hai đỉnh i và j của đồ thị

Trong đồ thị có hướng, mỗi nút i được phân chia thành hai loại độ mạnh: độ mạnh vào (in-strength) s in (i) và độ mạnh ra (out-strength) s out (i) Độ mạnh vào là tổng trọng số của các cạnh đi vào nút i, trong khi độ mạnh ra là tổng trọng số của các cạnh đi ra từ nút i.

Ta tính in-strength của nút i sẽ được tính như sau:

( ) w in j i E ji s i =   với w ji là trọng số của cạnh từ nút j đến nút i

Ta tính in-strength của nút i sẽ được tính như sau:

( ) w out i j E ij s i =   với w i j là trọng số của cạnh từ nút i đến nút j

2.2.3 Hệ số phân cụm mạng

Hệ số đo lường phân cụm mạng C được tính dựa trên mật độ địa phương trung bình, với C v là mật độ mạng cá nhân tại nút v Khái niệm này lần đầu tiên được giới thiệu bởi Holland và Leinhardt vào năm 1971.

Mật độ C được tính theo công thức sau:

Hệ số phân cụm cục bộ C i cho đỉnh v i sẽ được tính như sau trong mạng vô hướng:

Trong mạng có hướng, mật độ được tính như sau:

Trong đó, k i là số đỉnh lân cận của đỉnh i

Một mạng có đặc trưng thế giới nhỏ là mô hình mạng có L tương đối nhỏ và C tương đối lớn.

Bài toán phát hiện cộng đồng trong mạng xã hội

Mạng xã hội hiện diện xung quanh chúng ta qua nhiều nền tảng như Facebook, Twitter và YouTube Việc xây dựng mạng xã hội mang lại nhiều ứng dụng, bao gồm dự đoán liên kết và phát hiện bất thường Trong bài viết này, tôi sẽ tập trung vào bài toán phát hiện cộng đồng, một vấn đề cốt lõi trong phân tích mạng, đóng vai trò quan trọng trong việc xác định cách ứng xử phù hợp với từng nhóm đối tượng mà chúng ta quan tâm.

2.3.1 Giới thiệu bài toán phát hiện cộng đồng

Một mạng được xem là có cấu trúc cộng đồng khi các nút có thể được nhóm thành các tập hợp với mật độ kết nối nội bộ cao Nguyên tắc phát hiện cộng đồng cho rằng hai nút có khả năng kết nối chặt chẽ hơn nếu chúng cùng thuộc một cộng đồng, trong khi kết nối giữa các nút thuộc các cộng đồng khác sẽ yếu hơn.

Trong các loại mạng như mạng máy tính, mạng xã hội và mạng sinh học, có những điểm chung như tính chất thế giới nhỏ và phân bố bậc theo luật lũy thừa Tuy nhiên, mỗi loại mạng lại có cấu trúc cộng đồng riêng biệt.

Hình 2.9 Hình ảnh ví dụ phân cộng đồng

Cộng đồng là một nhóm người tập trung vào một mục đích chung, thường chia sẻ sở thích và quan điểm tương đồng Trên mạng xã hội, cộng đồng có thể bao gồm những người cùng đam mê trong các lĩnh vực như khoa học, xử lý ngôn ngữ tự nhiên hay văn hóa.

Trong lĩnh vực thể thao, cộng đồng được định nghĩa là sự phân vùng của các đỉnh trong mạng Mỗi nút trong mạng sẽ được phân loại vào một cộng đồng cụ thể, điều này phản ánh cách mà hầu hết các phương pháp phát hiện cộng đồng hoạt động Tuy nhiên, có thể xảy ra tình huống mà một nút có thể thuộc về hai hoặc nhiều cộng đồng khác nhau Trong nghiên cứu này, tôi sẽ tập trung vào việc xác định cộng đồng cho mỗi nút một cách duy nhất.

2.3.1.2 Các phương pháp phát hiện cộng đồng

Các nghiên cứu về cộng đồng trong xã hội học đã bắt đầu từ những năm 1920, nhưng sự thiếu hụt công nghệ hiện đại đã cản trở sự phát triển của lĩnh vực này Từ năm 2002, Girvan và Newman đã giới thiệu một phương pháp mới thông qua phân vùng đồ thị, mở ra một hướng đi mới cho nghiên cứu cộng đồng trong hai thập kỷ qua.

Trong nghiên cứu phát hiện cộng đồng, 33 nhà khoa học từ lĩnh vực khoa học máy tính đã tiến hành phân tích sâu về việc sử dụng cấu trúc mạng và thông tin ngữ nghĩa cho cả mạng tĩnh và mạng động, từ mạng nhỏ đến mạng lớn Việc xác định cộng đồng trong mạng ngẫu nhiên gặp nhiều khó khăn do số lượng cộng đồng thường không xác định, cùng với kích thước và mật độ không đồng đều Hiện nay, có nhiều phương pháp khác nhau được phát triển nhằm hỗ trợ phát hiện cộng đồng mạng, với mức độ thành công khác nhau.

Phương pháp cắt tối thiểu là một kỹ thuật trong đó mạng được chia thành các phần xác định trước, thường có kích thước đồng nhất, nhằm giảm thiểu số lượng cạnh giữa các nhóm Một ứng dụng điển hình của phương pháp này là trong bài toán cân bằng tải cho tính toán song song Tuy nhiên, phương pháp cắt tối thiểu không được coi là tối ưu trong việc phát hiện cộng đồng.

Phương pháp phân cụm phân cấp (Hierarchical Clustering) là một kỹ thuật khai thác cấu trúc cộng đồng thông qua ba phương pháp chính: phân chia, cộng gộp và phép lai Phương pháp này sử dụng các thước đo tương tự như độ đo cosine, chỉ số Jaccard, và khoảng cách Hamming để đánh giá sự tương đồng giữa các cặp nút Các nút có độ tương đồng cao sẽ được nhóm lại thành một cộng đồng Hai dạng phân nhóm phổ biến trong phương pháp này là phân cụm liên kết đơn, nơi hai nhóm được coi là riêng biệt nếu tất cả các cặp nút trong các nhóm khác nhau có độ tương đồng thấp hơn một ngưỡng nhất định, và phân cụm liên kết hoàn chỉnh, yêu cầu tất cả các nút trong một cộng đồng phải vượt qua một ngưỡng cụ thể.

Phương pháp tối ưu hóa modularity là một trong những kỹ thuật phổ biến trong việc phát hiện cộng đồng Tính modularity được sử dụng như một hàm để đo lường chất lượng của các cộng đồng trong mạng lưới.

Phương pháp tối đa hóa modularity được sử dụng để phát hiện các cộng đồng trong mạng bằng cách xác định những phần có modularity cao Tuy nhiên, việc tìm kiếm toàn diện trên tất cả các phần của mạng thường gặp khó khăn Do đó, các thuật toán thực tế thường áp dụng các phương pháp tối ưu hóa gần đúng như thuật toán tham lam, mô phỏng (simulated annealing) hoặc tối ưu hóa phổ Những cách tiếp cận này có sự khác biệt về tốc độ và độ chính xác.

Mô hình khối ngẫu nhiên (SBM) trong suy luận thống kê là một công cụ mạnh mẽ, cho phép phân loại các nút vào các cộng đồng và kiểm soát xác suất xuất hiện của chúng Phương pháp này nổi bật với tính nguyên tắc và khả năng giải quyết các vấn đề liên quan đến thống kê cơ bản Đặc biệt, nhiều nghiên cứu hiện nay đều dựa vào mô hình khối ngẫu nhiên để phân tích dữ liệu.

Các phương pháp dựa trên cliques tập trung vào việc xác định các đồ thị con, trong đó mọi nút đều kết nối với nhau Những phương pháp này có khả năng tạo ra các cộng đồng chồng chéo, giúp phân tích mối quan hệ phức tạp trong mạng lưới.

2.3.1.3 So sánh phát hiện cộng đồng và phân nhóm

Theo M.Newman [34] , ta có thể lập luận rằng phát hiện cộng đồng tương tự như phân cụm

Phân cụm là một kỹ thuật trong học máy, giúp nhóm các điểm dữ liệu tương tự dựa trên các thuộc tính chung của chúng Mặc dù có thể áp dụng cho mạng, phân cụm còn là một lĩnh vực rộng lớn hơn trong học máy không giám sát, liên quan đến nhiều loại thuộc tính khác nhau.

Tính năng phát hiện cộng đồng được tối ưu hóa để phân tích mạng dựa vào thuộc tính duy nhất gọi là các cạnh Hơn nữa, các thuật toán phân cụm thường có xu hướng tách rời các nút ngoại vi khỏi các cộng đồng mà chúng thuộc về.

Xác định nút quan trọng trong cộng đồng qua tính trung tâm

Trong lý thuyết đồ thị và phân tích mạng, các chỉ số trung tâm phản ánh số lượng liên kết của một nút Tính trung tâm có nhiều ứng dụng quan trọng, chẳng hạn như xác định người có ảnh hưởng lớn trong mạng xã hội và tìm kiếm những cá nhân siêu lây lan trong bối cảnh dịch bệnh.

Tính trung tâm là khái niệm quan trọng trong việc xác định vị trí của các nút trong mạng Đo lường tính trung tâm giúp chúng ta nhận diện nút nào nằm ở vị trí trung tâm và nút nào nằm ở rìa của mạng Việc phân loại này hỗ trợ trong việc so sánh hai nhóm nút, từ đó hiểu rõ hơn về cấu trúc và chức năng của mạng.

Các chỉ số trung tâm giúp xác định đặc trưng của các đỉnh quan trọng trong mạng Chúng được thể hiện dưới dạng hàm giá trị thực trên các đỉnh của đồ thị, với mục tiêu cung cấp thứ hạng cho các nút quan trọng nhất trong mạng lưới.

Tính quan trọng có nhiều nghĩa, dẫn đến những định nghĩa khác nhau về vị trí trung tâm Có thể xem xét tính trung tâm theo hai hướng: đầu tiên, nó có thể hình thành dựa trên loại luồng trên mạng, cho phép phân loại các vị trí tập trung theo loại luồng được coi là quan trọng.

Cách hiểu thứ hai là xác định sự tham gia của nút vào tính gắn kết của mạng, từ đó phân loại các vị trí dựa trên chỉ số đo lường tính gắn kết.

Các phép đo tính trung tâm thường liên quan đến việc đếm số lượng đường đi qua các đỉnh cụ thể Những thước đo này bao gồm bậc, khoảng cách trung tâm và các thước đo mức độ tập trung khác như vị trí trung tâm.

Trên thực tế, việc xác định chính xác ý nghĩa về 'trung tâm' trong mạng khá phức tạp, nhưng về cơ bản, các nút có vị trí trung tâm thường được coi là những nút quan trọng, đóng vai trò then chốt trong cấu trúc và hoạt động của mạng.

2.4.1 Mức độ trung tâm theo bậc (Degree centrality)

Tính trung tâm trong đồ thị được thể hiện qua mức độ trung tâm theo bậc, phản ánh số lượng mối quan hệ của một nút thông qua số lượng liên kết mà nó sở hữu Khái niệm này giúp xác định sự tập trung của đồ thị Đối với mạng có hướng, mức độ trung tâm được đánh giá qua hai chỉ số riêng biệt là bậc vào và bậc ra.

Hình 2.15 Hình ảnh ví dụ về bậc

Mức độ trung tâm của nút v với đồ thị G (V, E) được tính như sau:

Trong đó, C D là mức độ trung tâm, hay gọi là bậc của nút v. Để tính toán C D (G), ta tính theo các bước sau:

Cho v * là nút có mức độ trung tâm cao nhất trong G

Việc tính toán chỉ số này cho tất cả các nút trong biểu đồ sẽ mất thời gian O(V 2 ) trên ma trận kề dày đặc

Tuy nhiên, đây là thước đo mang tính cục bộ nên một số nút có bậc cao chưa chắc là quan trọng nhất trong mạng

2.4.2 Khoảng cách trung tâm (Closeness centrality)

Trong đồ thị có hướng, khoảng cách trung tâm của một nút được xác định bằng độ dài trung bình của các đường đi ngắn nhất từ nút đó đến tất cả các nút khác trong mạng Nút càng gần trung tâm thì chiều dài đường đi đến các nút khác trong mạng sẽ càng ngắn.

Chỉ số này được phát hiện bởi Alex Bavelas (1950) và được định nghĩa là tác nhân tương hỗ [50] Chỉ số được tính như sau:

Khoảng cách giữa hai điểm x và y được ký hiệu là d(x,y) Khi thảo luận về khoảng cách trung tâm, người ta thường nhắc đến dạng chuẩn hóa của nó, đó là nhân với N, trong đó N đại diện cho số nút trong mạng.

Chỉ số này cho phép ta so sánh giữa các nút trong đồ thị có kích thước khác nhau, đặc biệt trong đồ thị có hướng

2.4.3 Vị trí trung tâm (Betweenness centrality)

Vị trí trung tâm là chỉ số đo lường tính trung tâm của một đỉnh trong mạng, thể hiện qua số lần nút đó hoạt động như cầu nối trên đường đi ngắn nhất giữa hai nút khác Linton Freeman đã giới thiệu chỉ số này nhằm định lượng khả năng kiểm soát giao tiếp trong mạng xã hội Theo ông, những nút có xác suất cao xuất hiện trên đường ngắn nhất giữa hai đỉnh ngẫu nhiên sẽ có chỉ số vị trí trung tâm cao.

Vị trí trung tâm của một đỉnh v trong đồ thị G được tính như sau:

- Trên mỗi cặp đỉnh (s, t), ta tính đường đi ngắn nhất giữa chúng

- Xác định số lượng đường đi ngắn nhất qua đỉnh v

- Tính tổng tỷ lệ trên cặp đỉnh này

Ta có thể tính theo công thức sau: st ( )

Trong đó, σ st là tổng số đường đi ngắn nhất từ nút s tới nút t và σ st (v) là tổng số đường đi ngắn nhất giữa s và t qua v

Chỉ số khoảng cách trung tâm và vị trí trung tâm yêu cầu tính toán đường đi ngắn nhất giữa tất cả các cặp đỉnh trên đồ thị, dẫn đến thời gian tính toán là O(V^3).

Kết luận chương

Mạng xã hội thường được xây dựng từ cơ sở dữ liệu thực tế, tạo thành những mạng lớn và thưa Để áp dụng thuật toán phân tích, cần trích xuất một đồ thị con phù hợp Có nhiều phương pháp để thực hiện việc này, chẳng hạn như trích xuất theo thành phần của mạng, bao gồm đồ thị liên thông mạnh hoặc yếu lớn nhất trong mạng.

Một phương pháp để trích xuất các cliques lớn nhất trong mạng là sử dụng k-cores Clique là đồ thị con mà trong đó mỗi nút đều liên kết với các nút còn lại, nhưng điều kiện này khá chặt chẽ K-cores cho phép xác định đồ thị con liên thông lớn nhất, trong đó mỗi nút có bậc tối thiểu bằng k.

Trong phần tiếp theo, tôi sẽ trình bày các chỉ số thống kê mô tả của mạng, bao gồm khoảng cách, đường kính và sức mạnh của các nút trong mạng Những chỉ số này cung cấp cái nhìn tổng quan và đánh giá ban đầu về mạng đang được phân tích.

Thuật toán Leiden, được cải tiến từ thuật toán Louvain bởi VA.Tragg và cộng sự vào năm 2018, là công cụ hiệu quả trong việc phát hiện cộng đồng trong mạng Thuật toán này tập trung vào việc tối ưu hóa chỉ số modularity, một chỉ số quan trọng giúp đo lường độ mạnh của việc phân chia mạng thành các cộng đồng khác nhau Modularity cũng đóng vai trò là tiêu chí đánh giá cho mô hình bài toán này.

Trong phần thứ tư, tôi thảo luận về các chỉ số đánh giá tính trung tâm của một nút trong mạng Bậc là chỉ số phổ biến nhất để xác định tính trung tâm, với những nút có bậc cao thường có nhiều liên kết Tuy nhiên, bậc cao không phải lúc nào cũng đồng nghĩa với tầm quan trọng Do đó, tôi xem xét thêm hai chỉ số khác là khoảng cách trung tâm và vị trí trung tâm Khoảng cách trung tâm đo lường khoảng cách của một nút đến trung tâm mạng, với những nút gần trung tâm có khả năng quan trọng hơn Vị trí trung tâm thể hiện xác suất của nút nằm trên đường đi ngắn nhất giữa hai nút bất kỳ, và nút có chỉ số này cao cho thấy vị trí trung tâm hơn trong mạng.

MÔ HÌNH THỰC NGHIỆM

Tiêu đề	Nghiên Cứu Bài Toán Phân Tích Mạng Xã Hội
Tác giả	Đặng Thị Kim Dung
Người hướng dẫn	PGS.TS. Nguyễn Thị Kim Anh
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	86
Dung lượng	1,99 MB

Nghiên cứu bài toán phân tích mạng xã hội

CƠ SỞ LÝ THUYẾT

Khái niệm về mạng xã hội

Lịch sử mạng xã hội

Một số lý thuyết đồ thị trong phân tích mạng xã hội

Một số lý thuyết về tính chất của mạng xã hội

Thu thập thông tin mạng xã hội

Kết luận chương

BÀI TOÁN PHÂN TÍCH MẠNG XÃ HỘI

Phương pháp trích xuất mạng con

Một số thước đo thống kê mô tả đặc trưng cho mạng xã hội

Bài toán phát hiện cộng đồng trong mạng xã hội

Xác định nút quan trọng trong cộng đồng qua tính trung tâm

Kết luận chương

MÔ HÌNH THỰC NGHIỆM

Vị trí trung tâm (Betweenness centrality)

Phân phối của bậc vào và bậc ra