Độđo dựa trên các hoạt động chung

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá mạng xã hội dựa trên các bản ghi sự kiện hoạt động của doanh nghiệp (Trang 25 - 33)

Chương 2 Khai phá mạng xã hội

2.2. Các độ đo trong xây dựng đồ thị quan hệ xã hội

2.2.3. Độđo dựa trên các hoạt động chung

Để tính toán độ đo này, trước tiên chúng ta cần thống kê tần suất các cá nhân tham gia vào từng hoạt động[1].

Định nghĩa 2.9():Gọi L là một nhật ký sự kiện. p1∈ P, a1∈ A, c = (c0, c1,…) ∈

L ta có [2]: 1 c 1 0 i c| | p a    1 Nếua( )Cia1p(Ci) p1 0 trong trường hợp khác 1 La1 c L 1 c 1 p   pa

Toán tử △giúp xác định ma trận tần suất thực thi của các hoạt động. Ma trận có hàng P và cột A. Áp dụng định nghĩa 2.9 cho nhật ký sự kiện Bảng 1.1 ta có ma trận tần suất như Bảng 2.2.

Bảng2.2. Ma trận tần xuất thực thi hoạt động

Người thực thi A B C D E An 2 1 1 0 0 Mai 3 1 1 0 0 Duy 0 1 1 0 0 Chi 0 1 1 0 0 Minh 0 0 0 4 0 Nga 0 0 0 1 1

Sau khi có ma trận tần suất, chúng ta có thể tính khoảng cách của những người thực thi bằng cách so sánh các vector tần suất của những người thực thi. Các loại khoảng cách khác nhau có thể được áp dụng tuỳ vào mục đích của độ đo. Khoảng cách Minkowski3được áp dụng khi ta có tính tới tần suất tuyệt đối của các cá nhân, hay khoảng cách Hamming4

khi ta không quan tâm giá trị tuyệt đối của tần suất mà chỉ quan tâm 2 giá trị 1/0 tương ứng cá nhân có/không thực thi

3

https://en.wikipedia.org/wiki/Minkowski_distance

4

hoạt động. Một loại độ đo khác là hệ số tương quan Pearson5

dùng để tìm mối quan hệ giữa các trường hợp[1].

Ta có công thức độ đo tương ứng với các loại khoảng cách giữa những người thực thi như sau đây.

Định nghĩa 2.10 (LM D n, ,LH D,LPC): Gọi L là một nhật ký sự kiện và △L là ma trận tần suất thực thi hoạt động của những người thực thi. Với p1, p2∈ P, n

∈ 1, 2, 3, … [1] 1 2 1 2 1 2 1 2 1 , | ( ) ( )| / , ( ) ( ) ( )/ | A| MD n n n L L L HD L L L a A a A p p p p p p p a a p a a               Với(x y, ) 0, 𝑥 > 0 𝑦 > 0(𝑥 = 𝑦 = 0) 1, trườnghợpkhác 1 2 1 2 1 2 ((( ) )(( ) )) (( ) ) (( ) ) L L PC L L L X Y X Y a A a A a A p p p p p a a p a a                 Với ( 1 L ) / |A|, a A X   pa 2 ( L ) / |A| a A Y  pa Trong đó:  M D n, L

 là công thức độ đo sử dụng khoảng cách Minkowski

o Khi tham số n = 1 thì ta được công thức của khoảng cách Manhattan.

o Khi n = 2 thì khoảng cách là khoảng cách Euclidean6.

H D

L

 là độ đo sử dụng khoảng cách Hamming không chứa tham số nhưng có thể được mở rộng khi áp dụng một số giá trị ngưỡng.

PC

L

 là độ đo với hệ số tương quan Pearson cho giá trị kết quả dao động trong khoảng -1 đến +1. Giá trị khoảng cách giữa những người thực thi càng nhỏ thì hệ số tương quan càng tiến gần tới 1 và càng lớn thì càng tiến

5

https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient

6

dần tới -1.

Trong ví dụ Bảng 2.2,bằng cái nhìn trực quan, ta có thể khoảng cách giữa Mai và Chi (với 2 hoạt động chung) nhỏ hơn giữa Chi và Nga (không có hoạt động chung nào). Áp dụng các công thức tính khoảng cách trên, ta có

 Khoảng cách Minkowski giữa Mai và Chi là 3 và giữa Chi và Nga là 4. Tuy nhiên, nếu Mai thực hiện hoạt động B và C ba lần thì khoảng cách giữa Mai và Chi là 7, tức là so với Mai thì Nga có quan hệ gần gũi hơn với Chi.

 Khoảng cách Hamming cho ra Chi gần với Mai hơn so với gần với Nga bởi khoảng cách Mai-Chi = 1/5, Chi-Nga = 4/5.

 Khoảng cách tính theo hệ số tương quan Pearson thì Mai-Chi = 0.2182 và Chi-Nga = -0.6667.

Như vậy trong trường hợp này, công thức với khoảng cách Hamming và hệ số tương quan Pearson cho ra cùng một nhận định chính xác hơn so với khoảng cách Minkowski.

2.3. Phân tích mạng xã hội

Phân tích mạng xã hội (Social Network Analysis: SNA) là chiến lược nghiên cứu cấu trúc xã hội thông qua lý thuyết mạng và đồ thị[5]. Cách tiếp cận của SNA là coi mạng xã hội như một đồ thị với các nút (thể hiện cho các tác tử, cá nhân trong mạng) và các cạnh thể hiện mối quan hệ giữa những nút mạng, để từ đó tổng hợp dữ liệu và biểu diễn dưới nhiều khía cạnh, góc nhìn khác nhau. Ví dụ, cùng là dữ liệu về hoạt động của một cá nhân trên mạng xã hội facebook, chúng ta có thể đưa ra đồ thị thể hiện mối quan hệ bạn bè trong mạng với nút trung tâm là cá nhân đó, hay đồ thị thể hiện mối quan tâm của cá nhân đó với các loại sản phẩm hàng hóa thông qua dữ liệu tương tác của cá nhân với các mẫu quảng cáo trên facebook…

Đầu vào cho phân tích mạng xã hội là đồ thị quan hệ xã hội. Từ góc nhìn toán học thì đồ thị quan hệ xã hội là đồ thị G(P, R) trong đó P là tập các cá nhân tham gia vào quy trình (người thực thi) và R ⊆ P × P là tập các mối quan hệ giữa các những cá nhân đó. Nếu G vô hướng thì R có tính đối xứng. Nếu đồ thị G có trọng số, G có một hàm W dùng để gán giá trị cho các phần tử của R. Các độ đo dùng cho việc xây dựng đồ thị tôi đã trình bày ở các phần trước. Như đã trình bày ở trên, mục tiêu của phân tích mạng xã hội là đưa ra dữ liệu tổng hợp dưới

các khía cạnh, góc nhìn khác nhau nhằm đánh giá tính chất của mạng hoặc của các nút trong mạng. Chính vì vậy, chúng ta cũng cần tới những độ đo để đánh giá. Trong phần này, tôi xin trình bày một số độ đo quan trọng dùng trong phân tích mạng xã hội là mật độ mạng (network density), độ gần (closeness), độ trung tâm (centrality) và độ trung gian(betweenness).

2.3.1. Mật độmạng

Khi phân tích đồ thị quan hệ xã hội một cách tổng thể, một trong những độ đo quan trọng mà chúng ta cần nhắc tới là mật độ mạng (network density). Mật độmạng là tỉ lệ tương đối của số phần tử thực tế trong R (số cung/cạnh của đồ thị) với số phần tử tối đa có thể có của R [7][8]. Nếu đồ thị là đồ thị có hướng n nút, số kết nối tối đa có thể có là n2. Giá trị của mật độ là một số d thuộc [0,1]. Giá trị càng gần 1 thì mạng càng được coi là dày đặc.

Ví dụ với đồ thị trên Hình 2.1, có 6 nút mạng và 8 liên kết giữa các nút, do đó mật độ d = 8/(6*6) = 0.22.

2.3.2. Độ gần

Thay vì đánh giá tổng thể mạng, độ gần (closeness) dùng để đánh giá các nút trong mạng. Giá trị độ gần của một nút phản ánh mức độ gần gũi của nút đó với các nút khác trong mạng. Nút có độ gần càng cao thì càng có nhiều liên kết (trực tiếp và gián tiếp) tới cácnút khác, và trọng số của các liên kết càng cao (với đồ thị có trọng số)[6][7].

Độ gần gũi dựa trên khái niệm đường trắc địa (geodesic path)và khoảng cách trắc địa(geodesic distance) trong đồ thị. Đường trắc địa từ nút i đến nút j là đường đi ngắn nhất để có thể đi từ nút i đến nút j. Với đồ thị không trọng số, đường trắc địachính là đường đi cần ít cung nối nhất. Với đồ thị có trọng số, đườngtrắc địa là đường đi có tổng trọng số các cung/cạnh là nhỏ nhất. Khoảng cách trắc địa chính là độ dài (tổng số cạnh hoặc tổng trọng số) của đường trắc địa[4].

Định nghĩa 2.11 (Độ gần): Cho đồ thị n đỉnh. Gọi Cc(i) là độ gần của nút thứ i, Di,j là khoảng cáchtrắc địa giữa nút i và nút j[7]. Ta có

, , 1 (j) i j c n k i j k n C D     

gần cũng không có tính đối xứng.

Hình 2.2. Đồ thị minh họa về độ gần của nút trong đồ thị Xét ví dụ mạng trong Hình 2.2, ta thấy: Xét ví dụ mạng trong Hình 2.2, ta thấy:

 Mai là tâm cụm các nút: Giang, Bình, Chi, Dũng, Duy, Minhvà Mai. Như vậyMai có thể tiếp cận các nút này dễ dàng với khoảng cách ngắn. Do đó, Mai có độ gần tương đối cao.

 Tương tự An là tâm cụm các nútChi, Sang, Nga, An nên có độ gần tương đối cao.

 Chi có độ gần lớn nhất bởi ngoài việc kết nối trực tiếp với các nút thì những nút trong cụm mạng của mình (An, Mai, Dũng, Bình) thì nó còn kết nối với tâm của các cụm nút mạng khác (Mai, An).

2.3.3. Độ trung tâm

Khái niệm độ trung tâm bao gồm 2 mức: địa phương (local centrality) và toàn cục (global centrality)[8].

a. Độ trung tâm cục bộ

Khi xét độ trung tâm cục bộ của một nút, ta chỉ tính tới các liên kết trực tiếp đến nút đó. Nút càng có nhiều liên kết trực tiếp thì càng có độ trung tâmcục bộcao. Nếu ta loại bỏ tất cả các nút và các cung không liên kết trực tiếp với nút đang xét, ta thu được một mạng thu nhỏ với nút đang xét làm trung tâm. Khi đó, độ trung tâm cục bộ của nút trung tâm mang cùng ý nghĩa với mật độ mạng của mạng nhỏ vừa thu được[8].

Hình 2.3. Đồ thị minh họa về độ trung tâm cục bộ của nút Với mạng ở Hình 2.3, ta có nhận xét Với mạng ở Hình 2.3, ta có nhận xét

 Chi có độ trung tâm cục bộ tương đối cao vì nó liên kết trực tiếp với 4 nút khác (Bình, Mai, Dũng, An)

 Mai có độ trung tâm cao nhất vì nó liên kết trực tiếp với 6 nút khác. Tuy nhiên ta cũng thấy rằng tuy có độ trung tâm cục bộ cao nhưng Mai không có độ gần không cao bằng Chi bởi nếu muốn tiếp cận các nút thuộc cụm khác,Mai bắt buộc phải đi qua Chi.

b. Độ trung tâm toàn cục

Khác với độ trung tâm cục bộ, độ trung tâm toàn cục tính tới cả các liên kết gián tiếp trong mạng và được tính toán thông qua khoảng cách giữa các nút trong mạng. Khoảng cách được nhắc tới ở đây là khoảng cáchtrắc địa đã được trình bày trong độ gần[7][9]. Ý tưởng chủ đạo ở đây là: nếu một nút có càng nhiềuđường trắc địa chạy qua thì nút càng có độ trung tâm cao. Một ví dụ thực tế của nút có độ trung tâm toàn cục cao là tâm mạng nhện. Xét trên khía cạnh xã hội học thì cá nhân tương ứng với nút ở đây có mối quan hệ mật thiết và rộng với các nút khác trong mạng. Do cùng dựa trên khoảng cách trắc địa nên đôi khi độ trung tâm toàn cục còn được gọi là độ gần trung tâm (closeness centrality). Có nhiều công thức khác nhau, dựa trên tiêu chí khác nhau để đánh giá độ trung tâm toàn cục của một nút. Chỉ số trung tâm Bavelas-Leavitt dựa trên khoảng cáchtrắc địalà một trong số đó.

và Dj,k là khoảng cách trắc địa từ nút j tới nút k. Gọi BL(i) là chỉ số trung tâm Bavelas-Leavitt của nút i, ta có

BL(i) = ( 𝑗 ,𝑘𝐷j,k) / ( 𝑗 ,𝑘𝐷j,i + Di,k)

Ở đây ta thấy rằng giá trị chỉ số đã được chia cho tổng khoảng cách trắc địa từ và tới nút đang xét. Ta có thể chuẩn hoá độ đo này bằng cách đem chia độ trung tâm cho kích thước mạng. Tuy nhiên, ta cũng thấy rằng cả độ trung tâmcục bộ và toàn cục đều phụ thuộc nhưng không tuyến tính vào kích thước của mạng, vì vậy, chúng ta không thể so sánh độ trung tâm giữa các nút thuộc các mạng có kích thước quá khác nhau[8].

2.3.4. Độ trung gian

Độ trung gian thể hiện mức độ thuận lợi về vị trí của nút trong việc tạo kết nối tới các cặp hoặc các nhóm nút khác ở trong mạng. Nếu một nút nằm trên đường nối giữa 2 nút khác, hoặc nằm trên đường kết nối giữa hai cụm nút thì nút đang xét vai đóng trò điểm trung gian kết nối hai nút, hai cụm nút với nhau [10]. Một nút có vai trò cao trong việc kết nối các nút khác thì ta gọi nút đó có độ trung gian cao. Như vậy, nút càng có độ trung gian cao thì:

 Nútnằm ở vị trí quan trọng trong mạng

 Tác động đến nút có ảnh hưởng lớn đến tổng thể mạng

Hình 2.4.Đồ thị minh họa về độ trung gian Nhận xét một cách trực quan ví dụ với mạng trong Hình 2.4, ta có: Nhận xét một cách trực quan ví dụ với mạng trong Hình 2.4, ta có:

 Các nút như Sang, Nga có độ trung tâm bằng 0 vì nó không nằm trên đường nối giữa hai nút nào khác. Việc loại bỏ những nút này chỉ ảnh hưởng tới bản thân nút đó mà thôi.

 Mai và An có độ trung tâm tương đối cao vì nó nằm trên đường kết nối giữa nhiều nút khác (ví dụ Mai nối giữa Duy và Bình, Dũng và Giang…) tạo thành 2 cụm nút mà chúng nằm ở tâm (vai trò trung gian)

 Chi có độ trung tâm cao nhất vì Chi đóng vai trò trung gian kết nối hai cụm nút có tâm là Mai và An và những tác động đến Chi sẽ ảnh hưởng lớn đến cấu trúc mạng. Ví dụ, nếu loại bỏ Chi thì hai cụm mạng hoàn toàn mất kết nối tới nhau.

Công thức của độ trung tâmđược định nghĩa như sau:

Định nghĩa 2.13 (Độ trung gian): Cho đồ thị mạng với n nút. Gọi Cb(ni) là độ đo trung tâm của nút i, gkt(nj) là số đường trắc địa nối giữa nút k và nút t có chứa nút j ở giữa. Ta có Cb(ni) = 𝑛 −2 (𝑛 −1)𝑥𝑥 2 , , ( )j kt k i j k j t kt g n xx g     

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá mạng xã hội dựa trên các bản ghi sự kiện hoạt động của doanh nghiệp (Trang 25 - 33)

Tải bản đầy đủ (PDF)

(51 trang)