Bảng 3. 3. Hiệu năng của mơ hình dự đốn, đánh giá bởi kiểm tra chéo 5 mặt (5-fold cross-validation)
Algorithm TP FP TN FN SEN SPE ACC MCC
Logistic Regression 64 681 9558 98 39.51% 93.35% 92.51% 0.158 Naive Bayes 286 459 8289 1367 17.30% 94.75% 82.44% 0.171 Decision Tree 34 711 9599 57 37.36% 93.10% 92.62% 0.110 k-Nearest Neighbors 85 660 8675 981 7.97% 92.93% 84.22% 0.011 Support Vector Machines 0 745 9656 0 0 92.84% 92.48% 0
Như hiển thị chi tiết ở Bảng 3. 4, mặc dù các thuật tốn khác đều cĩ độ chính xác (ACC) cao hơn thuật tốn Nạve Bayes, tuy nhiên giá trị SEN và SPE lại rất khơng cân bằng, vì vậy trong trường hợp này giá trị MCC được sử dụng như là một thước đo để cĩ hiệu quả nhất quyết định mơ hình nào cĩ hiệu năng dự đốn tốt hơn. Kết quả, mơ hình phân lớp bởi thuật tốn Nạve Bayes (với độ chính xác ACC=82.44%; giá trị MCC=0.171) cĩ hiệu năng tốt nhất.
Ngồi ra, để đánh giá hiệu năng của mơ hình phân lớp dữ liệu, ngồi việc đánh giá chéo 10-fold, tác giả cịn tiến hành đánh giá độc lập bởi bộ dữ liệu Independent Testting.
Bảng 3. 4 Hiệu năng của mơ hình dự đốn, đánh giá bởi dữ liệu kiểm thử độc lập
Algorithm TP FP TN FN SEN SPE ACC MCC
Logistic Regression 9 108 2399 21 30.00% 95.69% 94.92% 0.132 Naive Bayes 52 65 2023 397 11.58% 96.89% 81.79% 0.154 Decision Tree 4 113 2410 10 28.57% 95.52% 95.15% 0.085 k-Nearest Neighbors 33 84 2213 207 13.75% 96.34% 88.53% 0.141 Support Vector Machines 0 117 2420 0 0 95.39% 95.39% 0
Tương tự như phân tích ở Bảng 3. 3, các thơng tin hiển thị ở Bảng 3. 4 cho thấy mơ hình phân lớp thực hiện bởi thuật tốn Nạve Bayes cĩ hiệu năng tốt nhất, đạt độ chính xác
ACC=81.79% và giá trị MCC=0.154.
Kết luận: Thơng qua xây dựng mơ hình phân lớp với một số thuật tốn và đánh giá mơ hình sử dụng 2 phương pháp (đánh giá chéo 10-fold và kiểm thử độc lập sử dụng bộ dữ liệu kiểm thử độc lập) thì mơ hình phân lớp triển khai bởi thuật tốn Nạve Bayes cho thấy hiệu năng tối ưu nhất. Điều này gợi ý rằng, với bài tốn phân lớp, dự đốn vị trí protein SUMOylation, khi tiến hành phân lớp với phần mềm Weka thì mơ hình sinh bởi thuật tốn Nạve Bayes cho thấy độ chính xác tốt nhất, cĩ thể dùng để dự đốn vị trí protein SUMOylation.
KẾT LUẬN
Sau một thời gian làm việc, nghiên cứu dưới sự hướng dẫn tận tình của thầy giáo TS. Nguyễn Văn Núi, tơi đã đạt được các kết quả sau đây:
1. Trình bày đầy đủ và chính xác khái niệm và kiến thức liên quan đến khai phá dữ liệu và phát hiện tri thức; các thuật tốn phân cụm, phân lớp dữ liệu và ứng dụng.
2. Giới thiệu và trình bày cơng cụ phần mềm Weka (Waikato Environment for Knowledge Analysis) - một bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng Java., ứng dụng trong phân lớp, phân cụm dữ liệu.
3. Tìm hiểu các kiến thức liên quan đến SUMOylation và bài tốn phân lớp dữ liệu áp dụng cho phân lớp và dự đốn vị trí SUMOylation sites.
4. Cài đặt, cấu hình phần mềm Weka và tiến hành phân cụm, phân lớp dữ liệu thực hiện trong phân cụm, phân lớp dữ liệu SUMOylation.
Hướng phát triển của luận văn:
Trong thời gian tới, tơi sẽ tiếp tục nghiên cứu sâu hơn về các vấn đề của phân cụm, phân lớp dữ liệu, đặc biệt sẽ nghiên cứu tìm hiểu sâu hơn việc ứng dụng phần mềm Weka để tiến hành phân tích dữ liệu ứng dụng trong các lĩnh vực cụ thể như phân lớp, dự đốn vị trí SUMOylation.
Tiến hành nghiên cứu thêm các thuật tốn phân lớp dữ liệu, tối ưu hĩa các thuật tốn phân lớp dữ liệu, từ đĩ đề xuất mơ hình phân lớp, dự đốn vị trí SUMOylation với độ chính xác cao hơn nữa.
Tiếp tục nghiên cứu tìm hiểu về bài tốn phân lớp, dự đốn vị trí SUMOylation và ứng dụng.
TÀI LIỆU THAM KHẢO Tiếng Việt:
[1]. Lê Văn Phùng, Quách Xuân Trưởng, Khai phá dữ liệu, NXB Thơng tin và truyền thơng, 2012.
Tiếng Anh:
[2]. Anil K. Jain, Richard C. Dubes, “Algorithms for clustering data”, 1988.
[3]. Kaufman and Rousseeuw, “Finding Groups in Data: An Introduction to Cluster Analysis”,1990.
[4]. J.Ross Quinlan, “Programs for machine learning”, 1993.
[5]. Rakesh Agrawal, “Mining Association Rules Between Sets of Items in Large
Databases”,1993.
[6]. Van-Nui Nguyen, Kai-Yao Huang, Julia Tzu-Ya Weng, K. Robert Lai* and Tzong-Yi Lee*, 2016, "UbiNet: an online resource for exploring functional associations and regulatory networks of protein ubiquitylation," DATABASE: The Journal of Biological Databases and Curation, (ISI, 2014 IF: 3.372; 7/57 in MATHEMATICAL & COMPUTATIONAL BIOLOGY).
[7]. Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, K. Robert Lai* and Tzong-Yi Lee*, 2016, "A new scheme to characterize and identify protein ubiquitination sites," IEEE/ACM Transactions on Computational Biology and
Bioinformatics, (ISI, 2014 IF:1.438; 30/122 in STATISTICS &
PROBABILITY).
[8]. Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, Tzu-Hao Chang, Neil
Arvin Bretađa, K. Robert Lai, Julia Tzu-Ya Weng* and Tzong-Yi Lee*, "Characterization and Identification of Ubiquitin Conjugation Sites with E3 Ligase Recognition Specificities," BMC Bioinformatics, Vo. 16 (Suppl. 1), S1. (ISI, 2014 IF:2.576; 10/56 in MATHEMATICAL & COMPUTATIONAL BIOLOGY).