Thực tế cho thấy, với website cụ thể của một trường Đại học chúng tơi có các chun mục chính như sau:
- Tin tức sự kiện - Đào tạo - Giới thiệu - Khoa học công nghệ - Hợp tác phát triển - Tiêu điểm
- Sinh viên
- Con người và thành tựu - Chính trị xã hội - Bản tin Đại học - Đảm bảo chất lượng - Liên hệ - Cán bộ - Tuyển sinh - Nghiên cứu mới - …
Tất nhiên còn nhiều chuyên mục khác và với mỗi một chuyên mục lại cịn có nhiều chun mục con khác nữa.
Bằng thực nghiệm, tơi có thể dễ dàng nhận ra mỗi một chuyên mục có thể có một hoặc nhiều ký hiệu chỉ mục khác nhau. Sử dụng phương pháp thống kê, tôi đã thu gọn 255 ký hiệu chỉ mục thành 24 chuyên mục để quá trình phân cụm được dễ dàng hơn. Sau đó, dữ liệu sẽ được chuyển đổi về dạng vector như bảng 3.2. Nói cách khác, dữ liệu dùng thực nghiệm trong luận văn có 4745 dịng và 24 chiều tương ứng với các chuyên mục của website.
Bảng 3.1. Ví dụ về dữ liệu sau khi chuyển đổi về dạng vector
1 1 1 1 1 1 0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 1 1 1 1 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 1 1 1 1 1 1 0 1 0 1 0 0 1 0 0 1 1 0 1 0 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0
1 1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Mỗi người dùng có thể vào xem một số trang chủ đề cụ thể. Sau khi sử dụng dữ liệu dạng trên để phân cụm, chúng ta sẽ được nhóm các người dùng có cùng chủ đề và số lượng người trong từng nhóm. Điều này sẽ giúp cho việc bố trí trang web được tốt hơn.
3.1.2. Phương pháp đánh giá chất lượng phân cụm
Đối với việc đánh giá kết quả của quá trình phân cụm chúng tơi sử dụng chỉ số Rand Index. Chỉ số Rand Index dùng để so sánh kết quả giữa hai phân cụm P1 và P2 có n điểm dữ liệu. Giả sử a là tổng số cặp xi và xj thuộc cùng một cụm trong cả P1 và P2, b là tổng số cặp xi và xj thuộc hai cụm khác nhau trong cả P1 và P2, chỉ số RI được tính bằng cơng thức sau:
) 1 ( n n b a RI RI sẽ có giá trị từ 0 đến 1, RI càng lớn thì độ chính xác của q trình phân cụm càng lớn. Chúng tơi cũng lưu ý rằng để thực hiện được việc tính tốn chỉ số RI thì chúng ta phải biết nhãn thực của tập dữ liệu.
3.1.3. Thuật toán phân cụm
Như đã trình bày ở chương 2, chúng ta có thể sử dụng các thuật toán phân cụm như Seed K-Means, SSDBSCAN và SSGC. Trong thực nghiệm này chúng tôi sử dụng thuật toán Seed K-Means cho tập dữ liệu web server logs. Chúng tôi sẽ chia ma trận vector trên thành 6 cụm có kích thước khác nhau và chọn ra 6 seed thỏa mãn điều kiện mỗi cụm có ít nhất một seed.
2111 1260 2174
1402 1001 3032