Kết quả thử nghiệm

Các thí nghiệm được thực hiện với 5 cặp giá trị β, α khác nhau như phân bố trong bảng 3.2, đó là GDBI, GMDBI, GSS, GMGI và GGI. Đối với thiết lập GSS, áp dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tìm số cụm tốt nhất và cực đại hóa hàm mục tiêu (OFF) gồm giá trị tích lũy tương ứng của nghịch đảo chỉ số cụm phân tán và nghịch đảo chỉ số cụm tạp chất được xác định trong biểu thức 3.10. Chương trình chạy trên máy tính Intel core 2 Duo, 1.4 GHz, 1GB RAM, thử nghiệm trên 5 cặp (β, α) khác nhau cho kết quả như bảng dưới đây:

Bảng 4.2: So sánh kết quả thử nghiệm các thiết lập

Stt

Thiết lập Số cụm tốt nhất OFF tốt nhất chạy (giây) Thời gian

1 GDBI (β=1,α=0) 8 65.861618 ~16 2 GMDBI (β=0.75,α=0.25) 8 55.021214 ~13 3 GSS (β=0.50,α=0.50) 8 88.361618 ~ 11 4 GMGI (β=0.25,α=0.75) 8 33.340405 ~10 5 GGI (β=0,α=1) 7 25.000000 ~7

Đối với GSS (β = 0.5 và α = 1=0.5), thiết lập trọng số bằng nhau cho cả hai giá trị của β và α đem lại kết quả tốt nhất. Khi thiết lập β = 0 và α = 1(trong GGI), ta thấy

giá trị hàm mục tiêu sụt giảm so với ước tính thu được trong GDBI (β = 1 và α = 0). Nguyên nhân là vì không xem xét độ phát tán cụm. Mặt khác, thiết lập β lớn hơn (GMDBI) trong hàm OFF của GA, kết quả tốt hơn khi thiết lập trọng số α cao (GMGI), như thể hiện trong Bảng 4.2. Điều này chứng tỏ việc đặt trọng số cao hơn vào cụm phân tán sẽ thu được kết quả tốt hơn.

Khi hàm mục tiêu đạt giá trị cao nhất (thiết lập GSS) bằng quan sát ta thấy dữ liệu đầu vào chủ yếu được phân thành 3 cụm: Trong đó, cụm 1 thuộc khu đất 1 và 2 gồm các mảnh rộng (1, 4, 7, 12, 14, 17, 20, 29, 32) với chế độ bón phân I và III cho năng suất trung bình ( từ 1.5 tạ/sào – 2.5 tạ/sào). Cụm 2 thuộc khu đất 2, gồm các mảnh ruộng (2, 5, 18, 30) với chế độ bón phân III cho năng cao nhất (trên 2.5 tạ/sào). Cụm 3 thuộc khu đất 1 và 3 gồm các mảnh (3, 6, 13, 19, 26, 31, 38, 40) với chế độ bón phân I , II có năng suất thấp nhất (dưới 1.5 tạ/sào).

Như vậy, bằng cách chuyển đổi biểu diễn dữ liệu đối với các bản ghi trong các bảng tham chiếu với quan hệ một-nhiều vào mô hình không gian vectơ, phương pháp phân cụm sử dụng kỹ thuật phân cụm bán giám sát dựa trên giải thuật di truyền được chứng minh là thành công trên trên bảng dữ liệu với các mối quan hệ một-nhiều. Từ thử nghiệm này ta có thể kết luận: Việc điều chỉnh trọng số của độ phân tán và cụm tạp chất đã ảnh hưởng tới ước lượng chính xác hàm mục tiêu, trong đó cài đặt GSS hoặc GDBI tạo ra một kết quả phân cụm tốt hơn.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Với việc sử dụng thuật phân cụm bán giám sát dựa trên giải thuật di truyền, luận văn đã giới thiệu bài toán tóm tắt dữ liệu quan hệ từ các bảng có quan hệ một- nhiều. Nghiên cứu này chỉ ra quá trình chuyển đổi dữ liệu bằng cách chuyển các đại diện dữ liệu lưu trữ trong cơ sở dữ liệu quan hệ sang định dạng không gian vectơ thích hợp trong phân cụm. Luận văn cũng giới thiệu một phương pháp học bán giám sát để có được các cụm tối ưu. Các kết quả thu được trong nghiên cứu này cho rằng phân cụm tự động bằng cách tối ưu sự kết hợp của cụm phân tán và cụm tạp chất sẽ thu được kết quả tốt so với phân cụm truyền thống. Tuy nhiên, kết quả tốt nhất có thể đạt được bằng cách tối ưu hoá các giá trị kết hợp của cả hai cụm phân tán và cụm tạp chất, bằng cách đặt trọng số bằng nhau vào 2 cụm (GSS).

Trong thời gian tới, tôi sẽ khảo sát mịn hơn cặp giá trị vô hướng (β, α) trong hàm mục tiêu từ đó tìm cách cực đại hóa hàm mục tiêu. Việc áp dụng thuật giải di truyền vào quá trình phân cụm tỏ ra rất hiệu quả, điều này nảy sinh ý tưởng sử dụng giải thuật di truyền ngay từ giai đoạn tạo dữ liệu đầu vào cho thuật toán phân cụm. Một vấn đề tiếp theo là xây dựng tập dữ liệu, đặc biệt là cơ sở dữ liệu về quản lý sinh viên trong trường đại học và quản lý khách hàng trong ngân hàng. Việc cải tiến chất lượng phân cụm cho một tập dữ liệu bất kỳ trong không gian nhiều chiều cũng là vấn đề mà tôi sẽ quan tâm tới.

TÀI LIỆU THAM KHẢO

[1] Basu, B., A. Banerjee and R. Mooney, 2002. Semi-supervised clustering by seeding. Proceedings of the 19th International Conference on Machine

Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA., pp: 27-34.

[2] Blockeel, H. and L. de Raedt, 1998. Top-down induction of first-order logical decision trees. Artif. Intell.

[3] Blockeel, H. and M. Sebag, 2003. Scalability and efficiency in multi-relational data mining. SIGKDD Explorat.

[4] Breiman, L., J. Friedman, T. Olshen and C. Stone, 1984. Classification and Regression Trees. 1st Edn., Wadsworth International, California, ISBN:10: 0412048418, pp: 368.

[5] Davies, D.L. and D.W. Bouldin, 1979. A cluster separation measure. IEEE Trans. Pattern Anal. Mach. Intel., PAMI, 1: 24-227. DOI: 10.1109/TPAMI.1979.4766909 [6] Finn, P.W., S. Muggleton, D. Page and A. Srinivasan, 1998. Pharmacophore

discovery using the inductive logic programming system Progol. Mach.Learn., 30: 241-270. DOI: 10.1023/A:1007460424845

[7] Gautam, G. and B.B. Chaudhuri, 2004. A novel genetic algorithm for automatic clustering. Patt. Recogn. Lett., 25: 173-187. DOI: 10.1016/j.patrec.2003.09. 012 [8] Goldberg, D.E., 1989. Genetic Algorithms-in Search,Optimization and Machine

Learning. 1st Edn., Addison-Wesley Publishing Company Inc.

[9] Holland, J., 1975. Adaptation in Natural and Artificial Systems. 1st Edn., University of Michigan Press.

[10] Kirsten, M. and S. Wrobel, 1998. Relational distance-based clustering. Proceeding of the 8th International Conference on Inductive Logic Programming, July 22-24, Springer-Verlag, London, UK., pp: 261-270.

http://portal.acm.org/citation.cfm?id=742767

[11] Kirsten, M. and S. Wrobel, 2000. Extending K-means clustering to first-order representations. Proceeding of the 10th International Conference on Inductive

Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129. http://portal.acm.org/citation.cfm?id=648000.742935

[12] Krogel, M.A. and S. Wrobel, 2001. Transformation-based learning using multirelational aggregation. Lecturere Notes Comput. Sci.

[13] Lachiche, N. and P. Flach, 2000. A First-Order Representation for Knowledge Discovery and Bayesian Classification on Relational Data. In: Mining, decision Support, Meta-learning and ILP: Forum for Practical Problem Presentation and Prospective Solutions, Pavel, B. and J. Alipio(Eds.). Citeseerx, pp: 49-60.

[14] Laura, E.R. and S. Kilian, 2004. Theoretical comparison between the Gini index and information gain criteria. Ann. Math. Artif. Intell.,41: 77-93.

[15] Rayner, A. and K. Dimitar, 2007. Clustering approach to generalized pattern identification based on multi-instanced objects with DARA. Proceeding of the Communications of the 11th East-European Conference on Advances in Databases and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12.

[16] Rayner, A., 2008. A genetic-based feature construction method for data summarization. Proceeding of the 4th International Conference on Advanced Data Mining and Applications, Oct. 8-10, ACM Press, Chengdu, China, pp: 39-50. http://portal.acm.org/citation.cfm?id=1428392.1428400

[17] Rayner Alfred-Joural of Computer Science 6(7):775-784,2010. Summarizing Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering Techniques

[18] Salton, G. and M. Michael, 1984. Introduction to Modern Information Retrieval. McGraw-Hill, Inc., New York, USA., ISBN: 0070544840.

[19] Srinivasan, A., S. Muggleton, M.J.E. Sternberg and R.D. King, 1996. Theories for mutagenicity: Study in first-order and feature-based induction. Artif. Intell.

[20] Witten, I.H. and E. Frank, 1999. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. 1st Edn., Morgan Kaufmann

Thuật toán phân cụm bán giám sát K-means

Cơ sở dữ liệu quan hệ