3.2. Kết quả phân cụm trên tập web server logs
Để thực hiện phân cụm với thuật toán Seed K-Means chúng ta cần chọn số lượng cụm cần phân tách và một số điểm lấy làm trọng tâm ở bước khởi động cho thuật toán K-Means.
Chẳng hạn với bộ dữ liệu trên chúng ta phân tách thành 6 cụm, kết quả sẽ như sau: Cum 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 0 0 …
Cum 2 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 … Cum 3 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 … Cum 4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 … Cum 5 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 … Cum 6 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 0 …
Với kết quả như trên chúng ta sẽ thu được kết quả từ chương trình như sau:
Đối với cụm 1:
- Ty le xuat hien thuoc tinh 1 trong cum 1 la: 89.85 %. - Ty le xuat hien thuoc tinh 2 trong cum 1 la: 1.21 %. - Ty le xuat hien thuoc tinh 3 trong cum 1 la: 8.89 %. - Ty le xuat hien thuoc tinh 4 trong cum 1 la: 0 %. - Ty le xuat hien thuoc tinh 5 trong cum 1 la: 1.28 %. - Ty le xuat hien thuoc tinh 6 trong cum 1 la: 0.5 %. - Ty le xuat hien thuoc tinh 7 trong cum 1 la: 0.26 %. - Ty le xuat hien thuoc tinh 8 trong cum 1 la: 0.76 %. - Ty le xuat hien thuoc tinh 9 trong cum 1 la: 0.68 %.
- Ty le xuat hien thuoc tinh 10 trong cum 1 la: 0.55 %. - Ty le xuat hien thuoc tinh 11 trong cum 1 la: 0.6 %. - Ty le xuat hien thuoc tinh 12 trong cum 1 la: 0.13 %. - Ty le xuat hien thuoc tinh 13 trong cum 1 la: 0.34 %. - Ty le xuat hien thuoc tinh 14 trong cum 1 la: 0.05 %. …
Đối với cụm 2:
- Ty le xuat hien thuoc tinh 1 trong cum 2 la: 100 %. - Ty le xuat hien thuoc tinh 2 trong cum 2 la: 7.43 %. - Ty le xuat hien thuoc tinh 3 trong cum 2 la: 12.84 %. - Ty le xuat hien thuoc tinh 4 trong cum 2 la: 100 %. - Ty le xuat hien thuoc tinh 5 trong cum 2 la: 7.09 %. - Ty le xuat hien thuoc tinh 6 trong cum 2 la: 2.7 %. - Ty le xuat hien thuoc tinh 7 trong cum 2 la: 0.68 %. - Ty le xuat hien thuoc tinh 8 trong cum 2 la: 2.03 %. - Ty le xuat hien thuoc tinh 9 trong cum 2 la: 2.03 %. - Ty le xuat hien thuoc tinh 10 trong cum 2 la: 3.04 %. - Ty le xuat hien thuoc tinh 11 trong cum 2 la: 3.38 %. - …
- Tỷ lệ các chủ đề so với tổng sổ lượng các phần tử trong mỗi cụm - Phân bố các thuộc tính nhiều người truy cập, ít người truy cập - Số lượng các truy cập vào nhiều trang khác nhau.
- Mối liên hệ giữa các chủ để cho từng nhóm người truy cập chẳng hạn trong cụm 3 phần lớn các chủ để được truy cập sẽ là chủ đề thứ 4, 18, và 23; trong cụm 6 sẽ là các chủ đề số 1, số 5 và số 17.
3.3. Kết luận
Trong chương này chúng tơi đã thực hiện việc phân cụm cho bài tốn khai phá dữ liệu trên web. Thuật toán được thử nghiệm là Seed KMeans, tương tự cho các thuật toán SSDBSCAN hay SSGC. Các kết quả thực hiện cho thấy nhiều điểm có thể khai thác được thơng tin từ quá trình phân cụm chẳng hạn số lượng các chủ đề cho mỗi cụm, số lượng các truy nhập cho mỗi cụm, mối quan hệ giữa các chủ đề trong từng cụm. Một hướng nghiên cứu tiếp theo nữa là làm sao hiển thị các sơ đồ biểu thị mối quan hệ giữa các chủ đề cũng như mối quan hệ giữa các nhịm người có cùng sở thích truy cập website cũng là một câu hỏi thú vị.
KẾT LUẬN
Những kết quả đã đạt được
Sau khi thực hiện luận văn với chủ đề nghiên cứu về bài toán khai phá dữ liệu web server log bằng phương pháp học máy tôi đã thu được các kết quả sau đây:
- Nắm được quy trình giải bài tốn trong lĩnh vực khai phá dữ liệu và phát hiện tri thức đặc biệt là bài toán khai phá dữ liệu web đối với tập dữ liệu ghi vết người dùng.
- Đã nghiên cứu và nắm bắt các thuật toán cơ bản về phân cụm cũng như phân cụm nửa giám sát. Các thuật toán K-Means, DBSCAN, GC, Seed K-Means, SSDBSCAN, SSGC đã được trình bày trong luận văn. Đã hiểu được bản chất của q trình phân cụm, các khó khăn thách thức đối với bài toán phân cụm và các nghiên cứu về phân cụm nửa giám sát trong thời gian gần đây.
- Đã thực hiện thử nghiệm một số kết quả sử dụng phương pháp học có nửa giám sát cho bài tốn phân cụm dữ liệu log server web. Cụ thể đã hiểu quy trình chuyển dữ liệu về dạng vector từ các vết truy cập người dùng được ghi trên server.
Hướng phát triển tiếp theo của đề tài
Do thời gian và kiến thức còn hạn chế, trong khuôn khổ của luận văn tôi không thể nghiên cứu kỹ và tồn diện bài tốn phân cụm cũng như vấn đề khai phá dữ liệu web. Trong tương lai, một số hướng nghiên cứu mà tôi dự kiến tiếp tục như sau:
- Tiếp tục nghiên cứu và tìm hiểu về lĩnh vực khai phá dữ liệu, đặc biệt là khai phá dữ liệu web.
- Nghiên cứu triển khai hệ thống khai phá dữ liệu web vào thực tế, cho các website ở các lĩnh vực khác.
TÀI LIỆU THAM KHẢO
[1]. Frost, Sullivan: Artificial Intelligence- R&D and Applications. Road Map (Dec 2016).
[2]. https://en.wikipedia.org/wiki/Web_mining [Truy cập tháng 5/2018] [3]. Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu: A Density-
Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In proceeding of SIGKDD Conference on Knowledge Discovery and Data Mining, pp: 226-231, 1996.
[4]. https://www.lip6.fr/actualite/personnes-fiche.php?ident=D819&LANG=vi [5]. http://www.cs.cmu.edu/~./dgovinda/pdf/icml-2001.pdf [Truy cập tháng
5/2018]
[6]. Sugato Basu, Arindam Banerjee, Raymond J. Mooney, Semi-supervised Clustering by Seeding. In proceeding of International Conference on Machine Learning, 2002.
[7]. Levi Lelis, Jörg Sander: Semi-supervised Density-Based Clustering. In proceeding of International Conference on Data Mining, pp: 842-847, 2009. [8]. Vu Viet Vu, An efficient Semi-supervised graph based clustering,
Intelligent Data Analysis, 22 (2018) 297-307.
[9]. https://www.semanticscholar.org/paper/Semi-supervised-Density-Based- Clustering-Lelis-Sander/03827b4aef6809ac90487ef1a9d27048088db413 [10]. Anil K. Jain: Data clustering: 50 years beyond K-means. Pattern
Recognition Letters, vol. 31(8), pp: 651-666, 2010.
[11]. Anand S.S., Mobasher B. Intelligent Techniques for Web Personalization. In: Mobasher B., Anand S.S. (eds) Intelligent
Techniques for Web Personalization. Lecture Notes in Computer Science, vol 3169. Springer, Berlin, Heidelberg, 2005.
[12]. Vũ Việt Vũ, Đỗ Hồng Quân, 2017, Density-based clustering with side information and active learning. In proceeding of International Conference on Knowledge and Systems Engineering, pp. 174-179. [13]. Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu: A Density-
Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. KDD, 1996.
[14]. S. Basu, I. Davidson, and K. L. Wagstaff, Constrained Clustering: Advances in Algorithms, Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, 1st edn., 2008. [15]. W. M. Rand. Objective criteria for evaluation of clustering methods.