CHƯƠNG 2. ỨNG DỤNG MẠNG PHỨC HỢP ĐỂ KHAI PHÁ DỮ LIỆU
2.2. Ứng dụng mô hình để khai phá dữ liệu tương tác người dùng
2.2.3. Kết quả đầu ra và phân tích kết quả
2.2.3.1. Phân tích K-core
Lõi (core) của một hệ thống là một cụm bộ phận đại diện cho các chức năng cơ bản của cả hệ thống. Nói chung, các mạng có thể đƣợc phân tách thành lõi dày đặc và ngoại vi được kết nối lỏng lẻo bằng cách sử dụng phương pháp phân rã mạng. Phân rã K-core dựa trên bậc của nút thường được sử dụng để xác định các tập hợp con cụ thể của mạng, đƣợc gọi là lõi k (k ≥ 1), trong đó k biểu thị mức lõi. Qua phân tích đã tìm ra mạng dữ liệu eGov có chỉ số K-core tối đa
là K=19. Nói cách khác, hệ thống dữ liệu email có 19 lõi nhƣ Hình 2.8. Hình 2.7
là một đồ thị vô hướng có trọng số mô tả sự liên kết giữa các module với nhau. Trong đó các nốt sẽ đại diện cho các module, hai module đƣợc coi là có liên kết với nhau nếu tồn tại đơn vị chung giữa hai module, trọng số của hai module liên kết với nhau đƣợc tính bằng số lƣợng các đơn vị chung giữa hai module. Các nút
có bậc cao sẽ có màu đậm hơn các nốt có bậc thấp và nếu hai module có trọng
số cạnh nối giữa chúng càng cao thì cạnh đó đƣợc vẽ càng đậm. Trong Hình 2.8, các nút có chỉ số K-core thấp sẽ nằm ở vị trí bên rìa của hệ thống và có màu tối. Càng vào bên trong lõi hệ thống, các nốt có chỉ số K-core cao hơn và màu nóng hơn. Nói cách khác, các nút nằm ở bên trong lõi hệ thống có số bậc cao hơn các nút ở xung quanh và nắm vai trò chức năng cơ bản của hệ thống. Bảng 2.2 liệt
kê danh sách 27/47 đơn vị xuất hiện trong lõi của hệ thống, đƣợc sắp xếp theo thứ tự bảng chữ cái và tỉ lệ % tham gia K-core trong cùng của từng đơn vị. Lõi trong cùng gồm 27 đơn vị chức năng bao gồm: Ban Giám hiệu, Khoa, Phòng, Trung tâm, và Viện nghiên cứu là các chức năng chủ chốt của một trường đại học. Nói cách khác, những người nằm trong lõi là đối tượng tác nghiệp chủ chốt của trường đại học.
58
Hình 2.7. Sự liên kết giữa các module trong mạng dữ liệu eGov
Hình 2.8. Mạng dữ liệu Egov đƣợc phân lớp theo chỉ số K-Core
59
Bảng 2.2. Danh sách các đơn vị thuộc vào lõi trong cùng của hệ thống
STT Đơn vị Tỷ lệ %
1 Ban Giám hiệu 25.00
2 Khoa Công nghệ may & Thiết kế thời trang 2.90
3 Khoa Cơ khí 3.80
4 Khoa Công nghệ hoá 8.10
5 Khoa Công nghệ Ôtô 2.70
6 Khoa Công nghệ thông tin 5.00
7 Khoa Điện 2.70
8 Khoa Điện tử 4.60
9 Khoa Du lịch 4.10
10 Khoa Giáo dục thể chất 7.60
11 Khoa Kế toán – Kiểm toán 2.20
12 Khoa Lý luận chính trị - Pháp luật 2.40
13 Khoa ngoại ngữ 1.40
14 Khoa Quản lý kinh doanh 1.90
15 Phòng Đào tạo 68.40
16 Phòng Hợp tác quốc tế 50.00
17 Phòng Khoa học công nghệ 80.00
18 Phòng Tài chính - Kế toán 16.67
19 Phòng Thanh tra giáo dục 11.11
20 Phòng Tổ chức – Hành chính 47.60
21 Trung tâm đánh giá kỹ năng nghề và quan hệ doanh
nghiệp
62.50
22 Trung tâm Công nghệ thông tin 11.70
23 Trung tâm Đào tạo quốc tế 42.80
60
24 Trung tâm Đào tạo sau Đại học 33.33
25 Trung tâm Quản lý chất lƣợng 9.50
26 Trung tâm Việt – Hàn 6.80
27 Viện Công nghệ - HaUI 16.67
2.2.3.2. Phân bố số bậc
Số bậc trung bình của mỗi nút là 19.15, với phương sai = 409.37, độ lệch chuẩn = 20.23, số bậc thấp nhất và cao nhất tương ứng là 1 và 151. Như vậy trung bình mỗi người sẽ tương tác với khoảng 19 người khác, ít nhất là 1 và
nhiều nhất là 151. Biểu đồ Scatter thể hiện sự phân phối các bậc trong mạng lưới nhƣ Hình 2.9. Trong biểu đồ hầu hết các nút có số bậc tập trung từ 1 đến 30. Tuy nhiên vẫn có một số ít các nốt có số bậc trên 60. Như vậy, mạng lưới dữ liệu eGov thuộc dạng mạng Scale-free.
Hình 2.9. Biểu đồ scatter thể hiện sự phân phối các bậc trong mạng ƣới
2.2.3.3. Mối tương quan giữa hệ số phân cụm và số bậc
Hệ số phân cụm (Ci) chỉ ra sự gắn kết cục bộ của một nút hay xác suất để hai người tương tác với một người thứ ba cũng trực tiếp tương tác với nhau. Một
giá trị (Ci) lớn có nghĩa là nốt i có kết nối chặt chẽ với một hệ thống các nút kề
nó hơn. Trong khi đó hệ số phân cụm trung bình (C) đo mật độ của toàn bộ các nút trong mạng. Hệ số phân cụm trung bình (C) của mạng dữ liệu eGov là 0,482.
61
Hệ số phân cụm của một nút phản ánh sự kết nối tới các nút kề với nó. Nếu chọn hai nút kề của một nốt bất kỳ trong mạng dữ liệu eGov thì có khả năng là hai nút
kề đó sẽ kết nối trực tiếp với nhau là 48,2%, do hệ số phân cụm trung bình (C) của mạng dữ liệu eGov là 0,482.
Hình 2.10. Biểu đồ mô tả sự tương quan giữa hệ số phân cụm và số bậc
Theo Hình 2.10, mạng lưới có thể được chia ra làm 02 phần. Phần thứ nhất khi giá trị của số bậc nhỏ hơn 60, có các kết nối dày đặc. Phần thứ hai khi giá trị của số bậc lớn hơn 60, thể hiện sự tương quan âm giữa hệ số phân cụm với số bậc, hệ số phân cụm giảm xuống một cách nhanh chóng, nơi có các kết nối thưa hơn và có xu hướng tuyến tính. Các nút liên kết trực tiếp với các nốt trung tâm thì thường ít tương tác với nhau.