CHƢƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ
4.4. Đánh giá kết quả thực nghiệm
4.4.1. Về kết hợp FOIL và mơ hình BAN
Trong quá trình thực nghiệm, chúng tơi nhận thấy cài đặt kết hợp giữa FOIL và mơ hình mở rộng của Nạve Bayes là các mơ hình TAN hay BAN địi hỏi thời gian chạy lâu hơn rất nhiều so với hệ thống nFOIL ban đầu. Trong các trường hợp thử nghiệm, độ chính xác trong hệ thống bFOIL cũng khơng cao, với các giả thuyết được sinh ra cĩ số lượng mệnh đề lớn và cĩ các mệnh đề lỗi. Điều này đã được chúng tơi lý giải là do các bộ dữ liệu được thử nghiệm khơng cĩ được các phụ thuộc giữa các đặc trưng hay quan hệ. Như vậy, trong việc kết hợp FOIL và các mở rộng của mơ hình Nạve Bayes như BAN cần được tiếp tục nghiên cứu và thử nghiệm trên nhiều nguồn dữ liệu khác. Đặc biệt là với cơ sở dữ liệu GeoLib, trong thời gian tới chúng tơi sẽ tiếp tục xây dựng trước hết là một tập dữ liệu huấn luyện thỏa mãn cĩ đầy đủ các phụ thuộc giữa các từ khĩa trong các tài liệu, tiến tới mở rộng tập dữ liệu huấn luyện và cả cơ sở dữ liệu GeoLib. Đồng thời vấn đề cải tiến thuật tốn để giảm thời gian chạy của hệ thống cũng là một hướng nghiên cứu cần được quan tâm trong thời gian tới.
4.4.2. Về đề xuất sử dụng ƣớc lƣợng m
Với các thử nghiệm sử dụng ước lượng m trong hệ thống nFOIL, ta thấy hệ thống nFOIL_m1, nFOIL_m3 nhìn chung đạt được kết quả tốt hơn so với hệ thống nFOIL. Trong khi đĩ kết quả của hệ thống nFOIL_m2 lại khơng thực sự tốt bằng hệ thống nFOIL. Điều này cĩ thể lý giải là do tập dữ liệu được thử nghiệm ở đây là các tập dữ liệu khơng cĩ chứa nhiễu, với kích thước mẫu lớn m=10, giá trị của hàm score() sẽ tăng lên tương đối nhiều và mang lại kết quả đánh giá khơng tin cậy. Kết quả thử nghiệm này cũng tương tự với kết quả thử nghiệm ước lượng m trong hệ thống mFOIL khi so sánh với hệ thống FOIL được ghi nhận trong [17; 21]: độ
chính xác của hệ thống sẽ giảm trong các trường hợp giá trị m tăng lên vượt quá một giá trị nào đĩ.
Trong thời gian tới, chúng tơi dự định mở rộng thực nghiệm với thêm nhiều nguồn dữ liệu khác, cĩ thể cĩ chứa nhiễu. Bên cạnh đĩ là việc thử nghiệm thêm với một số các giá trị m đã được thực hiện trong [17, 21] như 0.01, 0.5, 1, 2, 3, 4, 8, 16,….
4.4.3. Về áp dụng kỹ thuật kết hợp FOIL và học thống kê cho bài tốn phân lớp dữ liệu trong cơ sở dữ liệu GeoLib phân lớp dữ liệu trong cơ sở dữ liệu GeoLib
Việc áp dụng cách tiếp cận kết hợp nFOIL và mơ hình Nạve Bayes vào giải quyết bài tốn phân lớp dữ liệu trong cơ sở dữ liệu thư viện tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam đã đạt được những thành cơng nhất định. Với việc sinh được các giả thuyết cĩ độ chính xác tương đối cao trên tập dữ liệu huấn luyện, việc phân lớp dữ liệu dựa trên các giả thuyết này đã cĩ thể được thực hiện. Tuy nhiên, trong các giả thuyết được sinh, khơng tránh khỏi cĩ những mệnh đề khơng chắc đã mang lại kết quả phân lớp chính xác. Điều này là khơng thể tránh khỏi vì bên cạnh việc kích thước của tập dữ liệu huấn luyện cịn là nhỏ thì việc số lượng từ khĩa và tác giả là lớn, mật độ các từ khĩa được sử dụng là khơng đều cũng đều ảnh hưởng đến giả thuyết được học.
Để hồn thành việc phân lớp dữ liệu trong cơ sở dữ liệu GeoLib, chúng tơi dự định thực hiện một số mở rộng trong thời gian tới:
Tăng kích thước của bộ dữ liệu huấn luyện: hiện tại các bộ dữ liệu huấn luyện vẫn là tương đối nhỏ. Việc tăng kích thước bộ dữ liệu huấn luyện sẽ giúp tăng độ chính xác trong việc xây dựng các giả thuyết phân lớp, tuy nhiên đổi lại thời gian chạy của hệ thống sẽ tăng lên do kích thước khơng gian giả thuyết cần tìm kiếm tăng lên. Việc chọn lựa kích thước phù hợp sẽ được lựa chọn dựa trên kết quả thử nghiệm. Bên cạnh đĩ là nhiệm vụ cần xây dựng được bộ dữ liệu huấn luyện với đầy đủ phụ thuộc giữa các từ khĩa,
để cĩ thể kiểm nghiệm kết quả của việc áp dụng hệ thống BAN trên cơ sở dữ liệu GeoLib.
Tiếp tục thử nghiệm với một số tham số m nhằm so sánh kết quả
Nghiên cứu các cách tiếp cận nhằm giảm thời gian thực hiện của các hệ thống.
Tiếp tục theo dõi các hướng tiếp cận mới
Viết modul chương trình tự động đọc các giả thuyết được học và sinh các câu truy vấn cập nhật cho cơ sở dữ liệu Thư viện Địa chất.
KẾT LUẬN
Luận văn “Kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ” đã đạt được những kết quả sau:
Xem xét bài tốn phân lớp dữ liệu đa quan hệ và việc phân lớp dữ liệu đa quan hệ đặt ra tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam. Trình bày cách tiếp cận giải quyết bài tốn phân lớp dữ liệu đa quan hệ dựa trên ILP, cách tiếp cận kết hợp FOIL và mơ hình xác suất NB.
Đề xuất kết hợp FOIL và mơ hình BAN – một mơ hình mở rộng của mơ hình xác suất NB và việc sử dụng ước lượng m trong kết hợp FOIL và NB, FOIL và BAN và các kết quả thực nghiệm thu được trên các đề xuất này.
Đối với bài tốn phân lớp dữ liệu trong cơ sở dữ liệu Thư viện Địa chất tại Trung tâm Thơng tin Lưu trữ Địa chất, Cục Địa chất và Khống sản Việt Nam, luận văn đã trình bày các kết quả thực nghiệm đạt được khi áp dụng cách tiếp cận kết hợp FOIL và mơ hình NB, FOIL và mơ hình BAN và các đề xuất tiếp tục phát triển. Các kết quả đạt được ở đây là khả quan và là cơ sở để thực hiện việc phân lớp tự động.
Những hạn chế và hƣớng phát triển tiếp theo
Trong cài đặt thử nghiệm đề xuất sử dụng kết hợp FOIL và mơ hình BAN, một vấn đề cần được tiếp tục nghiên cứu giải quyết. Đĩ là vấn đề thời gian chạy của hệ thống cũng như việc cần tiếp tục thử nghiệm hiệu quả của kết hợp này trên các nguồn dữ liệu khác. Với đề xuất sử dụng ước lượng m, chúng tơi sẽ tiếp tục thử nghiệm với một số giá trị m khác.
Đối với bài tốn phân lớp dữ liệu trong cơ sở dữ liệu Thư viện Địa chất, Trung tâm Thơng tin Lưu trữ Địa chất đã đạt được những kết quả nhất định. Trong thời gian tới, chúng tơi sẽ cố gắng nâng cao hơn nữa độ chính xác của giả thuyết phân lớp với việc mở rộng kích thước của bộ dữ liệu huấn luyện đồng thời tiếp tục nghiên cứu áp dụng các kỹ thuật khác.
BẢNG THUẬT NGỮ ANH VIỆT
Trong luận văn, chúng tơi sử dụng một số các thuật ngữ tiếng việt tương ứng với các thuật ngữ tiếng Anh. Sau đây là danh sách các thuật ngữ tiếng việt được sử dụng cùng với các thuật ngữ gốc tiếng Anh tương ứng.
Tiếng Việt Tiếng Anh
mẫu (đa) quan hệ (Multi) relational pattern
tăng cường augmented
tri thức nền background knowledge
mệnh đề clause
tồn vẹn completeness
nhất quán consistency
phủ cover
phủ (d.t) coverage
giả thuyết hypothesis
giới hạn ngơn ngữ language bias
dàn lattice
literal literal
khả năng xảy ra lớn nhất maximum likelihood
vị từ predicate
đồ thị tinh lọc refinement graph
phép tốn tinh lọc refinement operator
bao hàm-θ subsume-θ
hạng tử term
TÀI LIỆU THAM KHẢO
[1] C.F. Aliferis, D. Hardin, P. P. Massion (2002) “Machine Learning Models For Lung Cancer Classification Using Array Comparative Genomic Hybridization”. In: Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, page 7-11.
[2] A. Atramentov (2003) “Multi-relational decision tree algorithm -
implementation and experiments”. MS. Thesis. Iowa State University, Ames,
Iowa.
[3] A. Berson, S. Smith, K. Thearling “An Overview of Data Mining Techniques”: http://www.thearling.com/index.htm.
[4] J.Bockhorst, I. Ong (2004) “FOIL-D: Efficiently Scaling FOIL for Multi- relational Data Mining of Large Dataset”,
[5] D. Caragea (2004) “Learning classifiers from distributed, semantically
heterogeneous, autonomous data sources”. Ph.D Thesis. Iowa State
University.
[6] D. Caragea, J. Pathak, J. Bao, A. Silvescu, C. Andorf, D. Dobbs, V. Honavar (2004) “Information Integration and Knowledge Acquisition from Semantically Heterogeneous Biological Data Sources”. In: Proceedings of the 2nd International Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA.
[7] B. Cestnik, I. Bratko (1991) “On estimating probabilities in tree pruning”. In
Proc. Fifth European Working Session on Learning, page 151-163.
Y.Kodratoff, Springer, Berlin.
[8] B. Cestnik (1990) “Estimating probabilities: A crucial task in machine learning”. In Proc. Ninth European Conference on Artificial Intelligence,
[9] B. Cestnik (1990) “Estimating probabilities in machine learning”. Ph D thesis, Faculty of Electrical Engineering and Computer Science, University of Ljubljana, Ljubljana, Slovenia.
[10] P. K. Chan, Wei Fan, A. L. Prodromidis, S. J. Stolfo (1999) “Distributed Data Mining in Credit Card Fraud Detection”. IEEE Intelligent Systems, Bd.
14, Nr. 6, S. 67--74, 1999.
[11] J. Cheng, R. Greiner (1999) “Comparing Bayesian Network Classifiers”. In
Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99), pages 101--107. Morgan Kaufmann Publishers, 1999.
[12] P. Clark, T. Niblett (1989) “The CN2 induction algorithm”. Machine Learning, 3(4): page 261-283.
[13] M.Craven & S.Slattery (1998) “Combining Statiscal and Relational Methods for learning in Hypertext Domains”. In Proc. Eighth International Conference on Inductive Logic Programming, Springer-Verlag.
[14] M.Craven & S.Slattery (2001) “Relational learning with statiscal predicate invention: Better models for hypertext”. Machine Learning, 43(1-2) page 97- 119, 2001.
[15] J. Davis, I. Ong, D. Page, I. Dutra (2004) “Using Bayesian classifiers to combine rules”. In Third workshop on Multi-relational Data Mining (MRDM-2004) in conjunction with the Tenth ACM SIGKDD International Conference of Knowledge Discovery and Data Mining (KDD-2004), Seatle,
Washington, USA.
[16] J. Davis, E. Burnside, D. Page, I. Dutra (2005) “An intergrated approach to learning Bayesian networks of rules”. In Proc. Sixteenth European Conference on Machine Learning (ECML-2005), volume 3720 of Lecture Notes in Computer Science, page 84-95, Springer.
[17] S.Dzeroski (1991) “Handling noise in inductive logic programming”. Master’s thesis, Faculty of Electrical Engineering and Computer Science, University of Ljubljana, Ljubljana, Slovenia.
[18] N.Lavrac & S.Dzeoski (1994) “Inductive Logic Programming: Techniques
and Applications”. Ellis Horwood, Chichester.
[19] S.Dzeoski & N.Lavrac, editor (2001) “Relational Data Mining”. Springer, Berlin.
[20] S.Dzeroski (2003) “Multi-relational data mining: An introduction”, SIGKDD
Explorations 5(1) page 1-16 (2003)
[21] S. Dzeoski & I. Bratko (1992) “Using m-estimate in inductive logic programming”. In Proc. Workshop on Logical Approaches to Machine Learning, Tenth European Conference on Artificial Intelligence, Viena,
Austria.
[22] Charles Elkan (1997) “Nạve Bayesian Learning”. Department of Computer Science - Harvard University.
[23] L. De Ferrari (2005) “Mining housekeeping genes with a Naive Bayes
classifier” Master of Science Thesis, School of Informatics University of
Edinburgh.
[24] P. Flach, N.Lachile (2004) “Nạve Bayesian classification of structure data”.
Machine Learning, 57(3), page 233-269.
[25] N. Friedman, D. Geiger, M. Goldszmidt (1997) “Bayesian Network Classifiers”. Journal of Machine Learning, volume 29, number (2-3), page
131-163.
[26] I. Guyon, J. Weston, S. Barnhill, V. Vapnik (2000) “Gene Selection for Cancer Classification using Support Vector Machines”. Journey of Machine
[27] Thorsten Joachims (2001) “A Statistical Learning Model of Text Classification for Support Vector Machines”. In: Proceedings of {SIGIR}-01,
24th {ACM} International Conference on Research and Development in Information Retrieval.
[28] Eamonn J. Keogh, Michael J. Pazzani (1999) “Learning Augmented Bayesian Classifiers: A Comparison of Distribution-based and Classification-based Approaches”. In: Proceedings of the Seventh International Workshop on Artificial Intelligence and Statistics (Ft. Lauderdale, FL, 1999) page 225-230.
[29] M.Kirsten, S.Wrobel, T.Horvath (2001) “Distance based approaches to Relational Learning and Clustering”. In [19] page 213-232.
[30] S. Kramer & G.Widmer (2001) “Inducing Classification and Regression Tree in First Order Logic”. In [19] pages 140-159.
[31] L.Dehaspe & H.Toivonen (2001) “Discover of Relational Association Rules”. In [19] page 189-212.
[32] N. Landwehr, K. Kersting, L.Raedt (2005) “Integrating Naive Bayes and FOIL”. In Proc. Twentieth National Conference on Artificial Intelligence (AAAI-2005), page 795-800, Pittsburgh, Pennsylvania, USA.
[33] N. Landwehr, K. Kersting, L.Raedt (2007) “Integrating Naive Bayes and FOIL”. In Journal of Machine Learning Research 8, page 481-507.
[34] N. Lavrac (1990) “Principles of knowledge acquisition in expert systems”. Ph D thesis, Faculty of Technical Science, University of Maribor, Maribor, Slovenia.
[35] N.Lavrac, S.Dzeroski, M.Grobenik (1991) “Learning nonrecursive definitions of relation with LINUS”. In Proc. Fifth European Working Session on Learning, page 265-281. Kodratoff, Y., Springer, Berlin.
[36] Xiaoli Li, Bing Liu (2002) “Learning to Classify Texts Using Positive and Unlabeled Data”. In: Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03).
[37] J. Lloyd (1987). “Foundations of Logic Programming”. Springer, Berlin, 2nd editon.
[38] J.Lloyd (1990) editor, “Computational Logic”. Springer, Berlin.
[39] R.Michalski (1983) “A theory and methodology of inductive learning”. In
Machine Learning: An artificial inteligence approach, volume I, page 83-
134, Tioga, Palo Alto, CA.
[40] R. Michalski, I. Mozetic, J. Hong, N. Lavrac (1986) “The multipurpose incremental learning system AQ15 and its testing application on three medical domains”. In Proc. Fifth National Conference on Artificial Intelligence, page 1041-1045. Morgan Kaufmann, San Mateo, CA.
[41] D. Michie, D.J.Spiegelhalter, C.C. Taylor (1994). “Machine Learning,
Neural and Statistical Classification”.
[42] S.Muggleton. (1991) “Inductive logic programming” New Generation Computing, 8(4): page 295-318.
[43] S.Muggleton, editor (1992) “Inductive Logic Programming” Academic Press, London.
[44] J. Neville, D. Jensen, B. Gallagher (2003) “Simple estimators for relational Bayesian classifier”. In Proc. Third IEEE International Conference on Data
mining (ICDM 2003), page 609-612, Melbourne, Florida, USA. IEEE
Computer Society.
[45] K. Nigam, A.K. Mccallum, S. Thrun, T. Mitchell (2000) “Text Classification from Labeled and Unlabeled Documents using EM”. Journal of Machine Learning, volume 39, number 2/3, page 103-134.
[46] C. Phua, D. Alahakoon, V. Lee (2004) “Minority Report in Fraud Detection: Classification of Skewed Data”. ACM SIGKDD Explorations Newsletter Volume 6, Issue 1 (June 2004) Special issue on learning from imbalanced datasets page 50–59.
[47] G. Plotkin (1969) “A note on inductive generalization”. In D. Michie, editor,
Machine Intelligence 5, page 153-163, Edinburgh University Press,
Edinburgh.
[48] U. Pompe, I.Kononenko (1995) “Nạve Bayesian classifier within ILP-R”. In
Proc. of Fifth International Workshop on Inductive Logic Programming (ILP-1995), page 417-436, Tokyo, Japan, 1995.
[49] A. Popescul, H. Ungar, S. Lawrence, M. Pennock (2002) “Towards Structural Logistic Regression: combining relational and Statistical Learning”. Multi-Relational Data Mining Workshop at KDD-2002.
[50] A. Popescul, H. Ungar, S. Lawrence, M. Pennock (2003) “Statiscal Relational Learning for Document Mining”. In Proceedings of IEEE Intermational Conference on Data Mining, ICDM 2003.
[51] J. Quinlan (1990) “Learning logical definitions from relations”. Machine Learning, 5(3): page 239-266.
[52] A. Srinivasan, S. Muggleton, D.King, Sternberg (1996) “Theories for mutagenicity: A study of first-order and feature based induction”. Artificial Intelligence, 85: page 277-299.
[53] R. Tailby, R. Dean, B. Milner, D. Smith (2006) “Email classification for automated service handling”. In: Proceedings of the 2006 ACM symposium on Applied computing, Dijon, France SESSION: Information access and retrieval (IAR) Page 1073 – 1077.
[54] Van Laer & De Raedt (2001) “How to Ugrade Propositional Learners to First Order Logic: A Case Study”. In [19] page 235-261.
[55] X.Yin, J. Han, J. Yang, S. Yu (2006) “Crossmine: Efficient Classification Across Multiple Database Relations”. IEEE Transactions on Knowledge and