Tóm tắtdữliệuquanhệsửdụngphươngpháp
phân cụmbángiámsátdựatrêngiảithuậtdi
truyền
Đỗ Thị Hòa
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS Hoàng Xuân Huấn
Năm bảo vệ: 2011
Abstract: Tổng quan về phâncụmdữ liệu: Giới thiệu cách biểu diễn dữliệu trong
máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối
tượng trong tập dữ liệu, các phươngphápphâncụmdữ liệu. Với mỗi phươngpháp
phân cụm sẽ trình bày một số thuật toán tương ứng. Giảithuậtdi truyền: Tổng quan về
giải thuậtditruyền với các cách biểu diễn dữ liệu, cách xây dựng một giảithuậtdi
truyền và mô tả các phép toán thực hiện trên đó. Phân tích ứng dụng của giảithuậtdi
truyền trong bài toán phân cụm. Tóm tắtdữliệuquanhệsửdụngphươngphápphân
cụm bánbángiámsátdựatrêngiảithuậtdi truyền. Phân tích khái niệm, cấu trúc quan
hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Trình bày thuật toán phân
cụm bángiámsátdựatrêngiảithuậtditruyền để tóm tắtdữ liệu. Kết quả cài đặt thử
nghiệm thuật toán. Chương này trình bày các kết quả thực nghiệm về phươngpháp
tóm tắtdữliệuquanhệsửdụngthuật toán phâncụmbángiámsátdựatrêngiảithuật
di truyền. Cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên
tập dữliệu thử nghiệm về năng suất lúa. Thông qua các nhận xét về giá trị các độ đo
đánh giá, kết quả thực hiện chương trình là khả quan.
Keywords: Phâncụmdữ liệu; Thuật toán; Giảithuậtdi truyền; Công nghệ phần mềm
Content
Trong thời đại hiện nay, cuộc cách mạng về khoa học và công nghệ đã có những bước
phát triển vượt bậc, đánh dấu những mốc son đáng tự hào trong nền văn minh của thế giới.
Đóng góp một phần cho sự thay đổi này, không thể kể không kể đến các ngành đã và đang
được xem là mũi nhọn hiện nay như: Công nghệ thông tin, điện tử và truyền thông, công nghệ
sinh học… với những ứng dụng rộng rãi, đem lại những lợi ích to lớn cho các ngành khoa học
khác và các hệ thống phục vụ cho đời sống, kinh tế, xã hội. Cùng với sự phát triển này, một
lượng dữliệu ngày càng lớn và vô cùng phong phú đã được tạo ra. Với các kho dữliệu khổng
lồ như vậy, các thông tin yêu cầu từ nó không đơn thuần là các số liệu, mà đòi hỏi thêm ở
mức cao hơn là các tri thức có thể hỗ trợ ra quyết định cho người dùng. Đã có rất nhiều các
công trình nghiên cứu về việc tổ chức các kho dữ liệu, các thuật toán nhận dạng mẫu, và phân
lớp ảnh, các hệ thốn thông tin lớn, các hệ hỗ trợ ra quyết định, …được công bố và ứng dụng.
2
Một khái niệm mới là Data mining ra đời và mở ra những xu hướng mới trong công nghệ
khám phá tri thức hiện nay.
Một trong các hướng nghiên cứu của Data mining là Phâncụmdữ liệu. Bài toán phân
cụm dữliệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữliệu thành các tập con, thỏa
mãn điều kiện các đối tượng trong cùng một tập con có độ tương đồng cao, và ngược lại các
đối tượng ở các tập con khác nhau thì có độ tương đồng thấp. Hay nói cách khác, bài toán
phân cụmdữliệu là bài toán khám phá cấu trúc của tập dữ liệu. Tùy theo đặc điểm cấu trúc
của tập dữliệu và mục đích sử dụng, có các phươngphápgiải quyết khác nhau như: Phân
cụm dựa vào phân hoạch, phâncụm theo phân cấp, phâncụmdựa vào mật độ và phâncụm
dựa vào lưới. Trong đó, phươngphápphâncụmbángiámsát đươc ứng dụng khá phổ biến.
Đây là phươngpháp kết hợp giữa học không giámsát và học có giám sát.
Trong việc giải quyết bài toán phân loại trong khai phá dữliệuquan hệ, các phương
pháp truyền thống thường yêu cầu liên kết dữliệu được lưu trong nhiều bảng thành một bảng
duy nhất. Khi đó, bảng dữliệu thu được sẽ có kích thước vô cùng lớn. Để truy vấn, phải sử
dụng các phép toán đại số quanhệ và tối ưu các phép toán này bằng phươngpháp tối ưu truy
vấn heuristic tức là tìm cách thực hiện các phép chiếu, phép chọn trước các phép toán 2 ngôi.
Trong một số trường hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ liệu. Do
đó, chuyển đổi dữliệu trở thành phức tạp và tóm tắtdữliệu thường kém hiệu quả. Mặt khác,
việc áp dụng các phươngpháp tóm tắtdữliệu trong khai phá dữliệu được lưu trên nhiều bảng
có quanhệ một-nhiều thường bị hạn chế do sự phức tạp của lược đồ cơ sở dữ liệu.
Để có thể khắc phục được các vấn đề nêu trên, luận văn sẽ nghiên cứu một phương
pháp tiếp cận: Sửdụng kỹ thuậtphầncụmbángiámsátdựatrêngiảithuậtditruyền để tóm tắt
dữ liệu được lưu trong nhiều bảng. Nghiên cứu này dựatrên ý tưởng nghiên cứu của Rayner
Alfred [17]. Kết quả của thuật toán được áp dụngphâncụm cho dữliệu thử nghiệm năng suất
lúa.
Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn được chia thành 4
chương chính:
Chương I - Tổng quan về phâncụmdữ liệu. Giới thiệu cách biểu diễn dữliệu trong máy
tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong
tập dữ liệu, các phươngphápphâncụmdữ liệu. Với mỗi phươngphápphâncụm sẽ trình bày
một số thuật toán tương ứng.
Chương II – Giảithuậtdi truyền. Chương này trình bày về giảithuậtditruyền với các cách
biểu diễn dữ liệu, cách xây dựng một giảithuậtditruyền và mô tả các phép toán thực hiện
trên đó. Tiếp theo là phân tích ứng dụng của giảithuậtditruyền trong bài toán phân cụm.
Chương III – Tóm tắtdữliệuquanhệsửdụngphươngphápphâncụmbánbángiám
sát dựatrêngiảithuậtdi truyền. Chương này đi sâu phân tích khái niệm, cấu trúc quanhệ
các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Thông qua đó luận văn trình bày thuật
toán phâncụmbángiámsátdựatrêngiảithuậtditruyền để tóm tắtdữ liệu.
3
Chương IV - Kết quả cài đặt thử nghiệm thuật toán. Chương này trình bày các kết quả
thực nghiệm về phươngpháp tóm tắtdữliệuquanhệsửdụngthuật toán phâncụmbángiám
sát dựatrêngiảithuậtdi truyền. Chương trình cài đặt thử nghiệm cho thuật toán được thực
hiện bằng ngôn ngữ C++ trên tập dữliệu thử nghiệm về năng suất lúa. Thông qua các nhận
xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan.
Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên
cứu tiếp theo về các nội dung của luận văn. Mặc dù đã có một môi trường làm việc tương đối
đầy đủ và thuận tiện, nhưng luận văn chắc hẳn sẽ không tránh khỏi có nhiều thiếu sót. Rất
mong được sự đóng góp ý kiến, nhận xét để tôi có thể hoàn thiện được kết quả làm việc của
mình.
References
[1]
Basu, B., A. Banerjee and R. Mooney, 2002. Semi-supervised clustering by seeding.
Proceedings of the 19th International Conference on Machine
Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA.,
pp: 27-34.
[2]
Blockeel, H. and L. de Raedt, 1998. Top-down induction of first-order logical
decision trees. Artif. Intell.
[3]
Blockeel, H. and M. Sebag, 2003. Scalability and efficiency in multi-relational data
mining. SIGKDD Explorat.
[4]
Breiman, L., J. Friedman, T. Olshen and C. Stone, 1984. Classification and
Regression Trees. 1st Edn., Wadsworth International, California, ISBN:10:
0412048418, pp: 368.
[5]
Davies, D.L. and D.W. Bouldin, 1979. A cluster separation measure. IEEE Trans.
Pattern Anal. Mach. Intel., PAMI, 1: 24-227. DOI: 10.1109/TPAMI.1979.4766909
[6]
Finn, P.W., S. Muggleton, D. Page and A. Srinivasan, 1998. Pharmacophore
discovery using the inductive logic programming system Progol. Mach.Learn., 30:
241-270. DOI: 10.1023/A:1007460424845
[7]
Gautam, G. and B.B. Chaudhuri, 2004. A novel genetic algorithm for automatic
clustering. Patt. Recogn. Lett., 25: 173-187. DOI: 10.1016/j.patrec.2003.09. 012
[8]
Goldberg, D.E., 1989. Genetic Algorithms-in Search,Optimization and Machine
Learning. 1st Edn., Addison-Wesley Publishing Company Inc.
[9]
Holland, J., 1975. Adaptation in Natural and Artificial Systems. 1st Edn., University
of Michigan Press.
[10]
Kirsten, M. and S. Wrobel, 1998. Relational distance-based clustering. Proceeding of
the 8th International Conference on Inductive Logic Programming, July 22-24,
Springer-Verlag, London, UK., pp: 261-270.
http://portal.acm.org/citation.cfm?id=742767
4
[11]
Kirsten, M. and S. Wrobel, 2000. Extending K-means clustering to first-order
representations. Proceeding of the 10th International Conference on Inductive
Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129.
http://portal.acm.org/citation.cfm?id=648000.742935
[12]
Krogel, M.A. and S. Wrobel, 2001. Transformation-based learning using
multirelational aggregation. Lecturere Notes Comput. Sci.
[13]
Lachiche, N. and P. Flach, 2000. A First-Order Representation for Knowledge
Discovery and Bayesian Classification on Relational Data. In: Mining, decision
Support, Meta-learning and ILP: Forum for Practical Problem Presentation and
Prospective Solutions, Pavel, B. and J. Alipio(Eds.). Citeseerx, pp: 49-60.
[14]
Laura, E.R. and S. Kilian, 2004. Theoretical comparison between the Gini index and
information gain criteria. Ann. Math. Artif. Intell.,41: 77-93.
[15]
Rayner, A. and K. Dimitar, 2007. Clustering approach to generalized pattern
identification based on multi-instanced objects with DARA. Proceeding of the
Communications of the 11th East-European Conference on Advances in Databases
and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12.
[16]
Rayner, A., 2008. A genetic-based feature construction method for data
summarization. Proceeding of the 4th International Conference on Advanced Data
Mining and Applications, Oct. 8-10, ACM Press, Chengdu, China, pp: 39-50.
http://portal.acm.org/citation.cfm?id=1428392.1428400
[17]
Rayner Alfred-Joural of Computer Science 6(7):775-784,2010. Summarizing
Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering
Techniques
[18]
Salton, G. and M. Michael, 1984. Introduction to Modern Information Retrieval.
McGraw-Hill, Inc., New York, USA., ISBN: 0070544840.
[19]
Srinivasan, A., S. Muggleton, M.J.E. Sternberg and R.D. King, 1996. Theories for
mutagenicity: Study in first-order and feature-based induction. Artif. Intell.
[20]
Witten, I.H. and E. Frank, 1999. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. 1st Edn., Morgan Kaufmann
. toán phân cụm. Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân
cụm bán bán giám sát dựa trên giải thuật di truyền. Phân tích khái niệm, cấu trúc quan
hệ. ứng dụng của giải thuật di truyền trong bài toán phân cụm.
Chương III – Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám
sát dựa trên giải