Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu Protein Sumo hóa (Luận văn thạc sĩ)
i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VILAISAK SOPHABMIXAY NGHÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP VÀ ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU PROTEIN SUMO HÓA Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 84 80 10 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN VĂN NÚI THÁI NGUYÊN - 2019 Số hóa Trung tâm Học liệu Cơng nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ii LỜI CAM ĐOAN Luận văn cơng trình nghiên cứu cá nhân tôi, thực hướng dẫn khoa học TS Nguyễn Văn Núi Các số liệu, kết luận nghiên cứu trình bày luận văn hoàn toàn trung thực Học Viên Vilaisak SOPHABMIXAY Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn iii LỜI CẢM ƠN Để hoàn thành đề tài luận văn thạc sĩ cách hoàn chỉnh, bên cạnh nỗ lực cố gắng thân cịn có hướng dẫn nhiệt tình quý Thầy Cô, động viên ủng hộ gia đình bạn bè suốt thời gian học tập nghiên cứu thực luận văn thạc sĩ Xin chân thành bày tỏ lòng biết ơn đến Thầy TS Nguyễn Văn Núi người hết lòng giúp đỡ tạo điều kiện tốt cho em hoàn thành luận văn Xin chân thành bày tỏ lịng biết ơn đến tồn thể q thầy khoa học máy tính nói riêng trường Đại học Công Nghệ Thông Tin Truyền Thông Thái Nguyên nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trường Cuối cùng, xin chân thành cảm ơn đến gia đình, anh chị bạn đồng nghiệp hỗ trợ cho nhiều suốt trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG, BIỂU ix DANH MỤC HÌNH VẼ x MỞ ĐẦU CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Giới thiệu chung 1.1.1 Khái niệm khai phá liệu 1.1.2 Các bước trình phát tri thức 1.2 Tổng quan kỹ thuật khai phá liệu 1.2.1 Khai phá liệu dự đoán 1.2.1.1 Phân lớp 1.2.1.2 Hồi quy 1.2.2 Khai phá liệu mô tả 1.2.2.1 Phân cụm 1.2.2.2 Luật kết hợp 1.3 Phân tích, so sánh với phương pháp khác 1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems) 1.3.2 So sánh với phương pháp thống kê (Statistics) 1.3.3 So sánh với phương pháp học máy (Machine Learning) 10 1.3.4 So sánh với phương pháp học sâu (Deep Learning) 10 CHƯƠNG CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU 12 2.1 Tổng quan phân lớp liệu 13 2.2 Phân lớp liệu định 15 2.2.1 Cây định quy nạp 16 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn v 2.2.2 Cây cắt tỉa 20 2.2.3 Trích luật phân lớp từ định 20 2.2.4 Cải tiến định quy nạp 21 2.2.5 Khả mở rộng định quy nạp 22 2.3 Phân lớp liệu Bayesian 23 2.3.1 Định lý Bayes 24 2.3.2 Phân lớp Bayesian ngây thơ 25 2.3.3 Các mạng belief Bayesian 27 2.3.4 Huấn luyện mạng belief Bayesian 29 2.4 Phân lớp liệu với Random Forest (rừng ngẫu nhiên) 30 2.5 Phân lớp liệu sử dụng máy hỗ trợ vector 33 2.5.1 SVM cho toán phân lớp tuyến tính 33 2.5.2 SVM cho phân lớp phi tuyến 37 2.6 Một số phương pháp phân lớp liệu khác 41 2.6.1 Các classifier k-láng giềng gần 42 2.6.2 Lập luận dựa tình 42 2.7 Vấn đề đánh giá độ xác phương pháp phân lớp liệu 43 2.7.1 Đánh giá độ xác classifier 44 2.7.2 Gia tăng độ xác classifier 45 2.7.3 Độ xác có đủ để đánh giá classifier hay khơng? 46 CHƯƠNG KẾT QUẢ THỬ NGHIỆM 47 3.1 Giới thiệu toán phân lớp liệu protein SUMO hóa (SUMOylation) 48 3.1.1 Giới thiệu protein SUMO hóa (SUMOylation) 48 3.1.2 Thu thập tiền xử lý liệu 48 3.1.3 Trích chọn đặc trưng mã hóa liệu 53 3.2 Giới thiệu phân lớp liệu sử dụng công cụ Weka 55 3.2.1 Thuật toán Hồi quy logistic (Logistic Regression) 56 3.2.2 Thuật toán Naive Bayes 58 3.2.3 Thuật toán Cây định (Decision Tree) 60 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vi 3.2.4 Thuật toán k-Nearest Neighbors 63 3.2.5 Thuật toán Máy hỗ trợ Vector (Support Vector Machines) 65 3.3 Kết phân lớp liệu vị trí protein SUMOylation 68 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Tiếng Việt: 71 Tiếng Anh: 71 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vii DANH MỤC CÁC TỪ VIẾT TẮT TT Từ viết tắt Tên đầy đủ SUMO Small Ubiquitin-like MOdifier KDD SVM Support Vector Machine Máy hỗ trợ vector AAC Amino Axit Composition Đặc trưng: AAC AAPC TP True Positive Đúng liệu Positive FP False Positive Không phải liệu Positive TN True Negative Đúng liệu Negative FN False Negative Không phải liệu Negative 10 SEN Sensitivity: SEN=TP/(TP+FN) 11 SPE 12 ACC 13 MCC Knowlegde Discovery in Databases Amino Axit Pairwise Composition Chú thích Thành phần sửa đổi tương tựa Ubiquitin nhỏ Phát tri thức Đặc trưng: AAPC Tỷ lệ dự đoán liệu Positive Specificity: Tỷ lệ dự đoán liệu SPE=TN/(TN+FP) Negative Accuracy Độ xác Mathews Correlation Coefficient Hệ số tương quan Mathews Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn viii 14 15 16 SUMOylated protein Protein mà có vị trí SUMO hóa SUMO-sites vị trí amino axit Lysine (K) xác định thực nghiệm Lysine SUMO hóa Non-SUMO- KHƠNG PHẢI SUMO hóa sites Lysine Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ix DANH MỤC CÁC BẢNG, BIỂU Bảng Các liệu huấn luyện từ sở liệu khách hang AllElectronics 18 Bảng 2 Dữ liệu mẫu cho lớp mua máy tính 23 Bảng Bảng tổng hợp liệu thu thập từ nguồn khác 48 Bảng Bảng tổng hợp liệu thu sau loại bỏ liệu dư thừa công cụ CD-HIT 52 Bảng 3 Hiệu mô hình dự đốn, đánh giá kiểm tra chéo mặt (5-fold cross-validation) 68 Bảng Hiệu mơ hình dự đốn, đánh giá liệu kiểm thử độc lập 69 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn x DANH MỤC HÌNH VẼ Hinh 1 Quá trình phát tri thức Hinh Tập liệu với lớp: có khơng có khả trả nợ Hinh Phân lớp học mạng nơron cho tập liệu cho vay Hinh Phân cụm tập liệu cho vay vào cụm Hinh Xử lý phân lớp liệu 14 Hinh 2 Cây định cho khái niệm mua máy tính 15 Hinh Thuộc tính tuổi có thơng tin thu cao 19 Hinh Các cấu trúc liệu danh sách thuộc tính danh sách lớp dung SLIO cho liệu mẫu bảng 2.2 23 Hinh a) Mạng belief Bayesian đơn giản, b) Bảng xác suất có điều kiện cho 28 Hinh Mơ hình Rừng ngẫu nhiên 31 Hinh Một đường thẳng tuyến tính phân chia lớp điểm (hình vng hình trịn) khơng gian hai chiều Ranh giới định chia không gian thành hai tập tùy thuộc vào dấu hàm f (x) = + b 34 Hinh Độ rộng biên lớn tính tốn SVMs tuyến tính Khu vực hai đường mảnh xác định miền biên với -1 ≤ + b ≤ Những điểm sáng với chấm đen gọi điểm support vectors, điểm gần biên định Ở đây, có ba support vectors cạnh vùng biên (f(x) = -1 f (x)=1) 34 Hinh Ảnh hưởng số biên mềm C ranh giới định 36 Hinh 10 Mức độ tác động kernel đa thức Kernel đa thức dẫn đến phân tách tuyến tính (A) Kernel đa thức cho phép ranh giới định linh hoạt (B - C) 38 Hinh 11 Ảnh hưởng số chiều Gaussian kernel (σ) cho giá trị cố định số biên mềm Đối với giá trị σ (A) lớn định ranh giới gần tuyến tính Khi giảm σ tính linh hoạt ranh giới định tăng (B) Giá trị σ nhỏ dẫn đến học (overfitting) (C) 41 Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 57 Hình Cấu hình Weka cho thuật tốn hồi quy logistic Thuật tốn chạy cho số lần lặp cố định (maxIts), theo mặc định chạy ước tính thuật tốn hội tụ Việc thực sử dụng công cụ ước tính sườn núi loại quy Phương pháp tìm cách đơn giản hóa mơ hình q trình đào tạo cách giảm thiểu hệ số mà mơ hình học Tham số sườn xác định áp lực đặt lên thuật tốn để giảm kích thước hệ số Đặt thành tắt tính quy Nhấn vào “Ok” để đóng cấu hình thuật tốn Nhấp vào nút “Start” trực tiếp để chạy thuật toán liệu Ionosphere Có thể thấy với cấu hình mặc định, hồi quy logistic đạt độ xác 88% Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 58 Hình Kết phân lớp Weka cho thuật toán hồi quy logistic 3.2.2 Thuật toán Naive Bayes Naive Bayes thuật tốn phân lớp Theo truyền thống, giả định giá trị đầu vào danh nghĩa, đầu vào số hỗ trợ cách giả sử phân phối Naive Bayes sử dụng triển khai đơn giản Bayes Theorem (hence naive) xác suất trước cho lớp tính từ liệu huấn luyện coi độc lập với (được gọi độc lập có điều kiện) Đây giả định khơng thực tế hy vọng biến tương tác phụ thuộc, giả định làm cho xác suất nhanh dễ tính tốn Ngay theo giả định phi thực tế này, Naive Bayes chứng minh thuật toán phân lớp hiệu Naive Bayes tính tốn xác suất sau cho lớp đưa dự đốn cho lớp có xác suất cao Như vậy, hỗ trợ vấn đề phân lớp nhị phân phân lớp nhiều lớp Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 59 Chọn thuật toán Naive Bayes: Nhấp vào nút “Choose” Lựa chọn chọn Tập tin “NaiveBayes” trực tuyến nhóm “Bay Bayes” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình Cấu hình Weka cho thuật tốn Naive Bayes Theo mặc định, phân phối Gaussian giả sử cho thuộc tính số Các phân phối thay đổi thuật tốn để sử dụng cơng cụ ước tính Kernel với đối số sử dụng Kernel Estimator phù hợp với phân phối thực tế thuộc tính tập liệu bạn Tuy nhiên, thơng số tự động chuyển đổi thuộc tính số thành thuộc tính danh nghĩa với tham số sử dụng Supervised Discretization Nhấn vào “Ok” để đóng cấu hình thuật toán Nhấp vào nút “Start” trực tiếp để chạy thuật tốn liệu Ionosphere Có thể thấy với cấu hình mặc định mà Naive Bayes đạt độ xác 82% Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 60 Hình Kết phân lớp Weka cho thuật toán Naive Bayes 3.2.3 Thuật toán Cây định (Decision Tree) Cây định hỗ trợ phân lớp vấn đề hồi quy Cây định gần gọi Cây phân loại hồi quy (CART) Họ làm việc cách tạo để đánh giá thể liệu, gốc chuyển thị trấn đến (Roots) dự đốn Quá trình tạo định hoạt động cách tham lam chọn điểm phân chia tốt để đưa dự đốn lặp lại quy trình có độ sâu cố định Sau xây dựng, cắt tỉa để cải thiện khả mơ hình hóa để tổng qt hóa liệu Chọn thuật toán định: Nhấp vào nút “Choose” chọn “REPTree” nhóm “Trees” Nhấp vào tên thuật toán để xem lại cấu hình thuật tốn Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 61 Hình 10 Cấu hình Weka cho thuật tốn Cây định (Decision Tree) Độ sâu xác định tự động, độ sâu định thuộc tính maxDepth Cũng chọn chuyển chế độ cắt tỉa cách đặt tham số noPruning thành True, điều dẫn đến hiệu suất Tham số minNum xác định số lượng phiên tối thiểu hỗ trợ nút xây dựng từ liệu huấn luyện Nhấn vào “Ok” để đóng cấu hình thuật toán Nhấp vào nút “Start” trực tiếp để chạy thuật tốn liệu Ionosphere Có thể thấy với cấu hình mặc định, thuật tốn định đạt độ xác 89% Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 62 Hình 11 Kết phân lớp Weka cho thuật toán Cây định (Decision Tree) Một thuật toán định nâng cao khác mà bạn sử dụng thuật tốn C4.5, gọi J48 Weka Có thể xem lại hình ảnh trực quan định chuẩn bị toàn liệu huấn luyện cách nhấp chuột phải vào “Result list” trò chơi nhấp vào “Visualize Tree” Hình 12 Mơ hình định hiển thị C4.5 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 63 3.2.4 Thuật toán k-Nearest Neighbors Thuật toán hỗ trợ phân lớp hồi quy Nó gọi kNN cho ngắn gọn Nó hoạt động cách lưu trữ toàn tập liệu huấn luyện truy vấn để xác định vị trí mẫu đào tạo tương tự đưa dự đốn Như vậy, khơng có mơ hình ngồi tập liệu huấn luyện thơ phép tính thực truy vấn liệu huấn luyện yêu cầu dự đoán Đây thuật tốn đơn giản, thuật tốn khơng giả định nhiều vấn đề khác khoảng cách trường hợp liệu có ý nghĩa việc đưa dự đốn Như vậy, thường đạt hiệu suất tốt Khi đưa dự đoán vấn đề phân lớp, kNN lấy chế độ (lớp phổ biến nhất) k trường hợp tương tự tập liệu huấn luyện Chọn thuật toán k-Nearest Neighbors: Nhấp vào nút “Choose” chọn “IBk” nhóm “Lazy” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình 13 Cấu hình Weka cho thuật tốn k-Nearest Neighbors Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 64 Ví dụ: Nếu k đặt thành 1, dự đốn thực cách sử dụng trường hợp đào tạo tương tự với mẫu định mà theo dự đốn u cầu Các giá trị phổ biến cho k 3, 7, 11 21, lớn cho kích thước tập liệu lớn Weka tự động khám phá giá trị tốt cho k cách sử dụng xác thực chéo bên thuật toán cách đặt tham số crossValidate thành True Một thông số quan trọng khác thước đo khoảng cách sử dụng Điều định cấu hình Thuật tốn tìm kiếm gần nhất, điều khiển cách thức lưu trữ tìm kiếm liệu đào tạo Mặc định Tìm kiếm tuyến tính Nhấp vào tên thuật tốn tìm kiếm cung cấp cửa sổ cấu hình khác, nơi bạn chọn tham số distanceFunction Theo mặc định, khoảng cách Euclide sử dụng để tính khoảng cách trường hợp, điều tốt cho liệu số có tỷ lệ Khoảng cách Manhattan tốt để sử dụng thuộc tính bạn khác biện pháp loại Hình 14 Cấu hình weka cho thuật tốn tìm kiếm thuật tốn k-Nearest Neighbors Đó ý tưởng tốt để thử giá trị k thước đo khoảng cách khác cho vấn đề bạn xem hoạt động tốt Nhấn vào “Ok” để đóng cấu hình thuật tốn Nhấp vào nút “Start” trực tiếp để chạy thuật toán liệu Ionosphere Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 65 Hình 15 Kết phân lớp Weka cho thuật toán k-Nearest Neighbors 3.2.5 Thuật toán Máy hỗ trợ Vector (Support Vector Machines) Support Vector Machines phát triển cho vấn đề phân lớp nhị phân, phần mở rộng cho kỹ thuật thực để hỗ trợ vấn đề phân lớp hồi quy đa lớp Thuật toán thường gọi SVM cho ngắn SVM phát triển cho biến đầu vào số, tự động chuyển đổi giá trị danh nghĩa thành giá trị số Dữ liệu đầu vào chuẩn hóa trước sử dụng SVM hoạt động cách tìm dịng phân tách tốt liệu thành hai nhóm Điều thực cách sử dụng quy trình tối ưu hóa xem xét trường hợp liệu tập liệu huấn luyện gần với dòng phân tách tốt lớp Các thể gọi vectơ hỗ trợ, tên kỹ thuật Trong hầu hết tất vấn đề quan tâm, dịng khơng thể rút để phân tách gọn gàng lớp Do đó, lề thêm vào xung quanh dòng để giảm bớt ràng buộc, cho phép số trường hợp bị phân lớp sai cho phép kết tổng thể tốt Cuối cùng, vài liệu tách đường thẳng Đôi đường có đường cong chí vùng đa giác cần đánh dấu Điều Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 66 đạt với SVM cách chiếu liệu vào không gian chiều cao để vẽ đường đưa dự đoán Các hạt nhân khác sử dụng để kiểm sốt phép chiếu mức độ linh hoạt việc tách lớp Chọn thuật toán Máy hỗ trợ Vector (Support Vector Machines): Nhấp vào nút “Choose” chọn “SMO” nhóm “Function” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình 16 Cấu hình Weka cho thuật tốn Máy hỗ trợ Vector (Support Vector Machines) Tham số C, gọi tham số độ phức tạp Weka kiểm soát mức độ linh hoạt quy trình vẽ đường phân tách lớp Giá trị cho phép khơng vi phạm ký quỹ, mặc định Một tham số SVM loại Kernel sử dụng Hạt nhân đơn giản hạt nhân tuyến tính phân tách liệu đường thẳng siêu phẳng Mặc định Weka hạt nhân đa thức phân tách lớp cách sử dụng đường cong uốn lượn, đa thức cao, lung lay (giá trị số mũ) Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 67 Một hạt nhân phổ biến mạnh mẽ Kernel RBF Radial Basis Function Kernel có khả học đa giác khép kín hình dạng phức tạp để phân tách lớp Đó ý tưởng tốt để thử giá trị hạt nhân C (độ phức tạp) khác vấn đề bạn xem hoạt động tốt Nhấn vào “ok” để đóng cấu hình thuật tốn Nhấp vào nút “Bắt đầu” trực tiếp để chạy thuật toán liệu Ionosphere thấy với cấu hình mặc định, thuật tốn SVM đạt độ xác 88% Hình 17 Kết phân lớp Weka cho thuật tốn Máy hỗ trợ Vector Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 68 3.3 Kết phân lớp liệu vị trí protein SUMOylation Bảng 3 Hiệu mơ hình dự đốn, đánh giá kiểm tra chéo mặt (5-fold cross-validation) Algorithm TP FP TN FN SEN SPE ACC MCC 64 681 9558 98 39.51% 93.35% 92.51% 0.158 Naive Bayes 286 459 8289 1367 17.30% 94.75% 82.44% 0.171 Decision Tree 34 711 9599 57 37.36% 93.10% 92.62% 0.110 85 660 8675 981 7.97% 92.93% 84.22% 0.011 745 9656 0 92.84% 92.48% Logistic Regression k-Nearest Neighbors Support Vector Machines Như hiển thị chi tiết Bảng 4, thuật tốn khác có độ xác (ACC) cao thuật tốn Nạve Bayes, nhiên giá trị SEN SPE lại không cân bằng, trường hợp giá trị MCC sử dụng thước đo để có hiệu định mơ hình có hiệu dự đốn tốt Kết quả, mơ hình phân lớp thuật tốn Nạve Bayes (với độ xác ACC=82.44%; giá trị MCC=0.171) có hiệu tốt Ngồi ra, để đánh giá hiệu mơ hình phân lớp liệu, việc đánh giá chéo 10-fold, tác giả tiến hành đánh giá độc lập liệu Independent Testting Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 69 Bảng Hiệu mơ hình dự đoán, đánh giá liệu kiểm thử độc lập Algorithm TP FP TN FN SEN SPE ACC MCC 108 2399 21 30.00% 95.69% 94.92% 0.132 Naive Bayes 52 65 2023 397 11.58% 96.89% 81.79% 0.154 Decision Tree 113 2410 10 28.57% 95.52% 95.15% 0.085 33 84 2213 207 13.75% 96.34% 88.53% 0.141 117 2420 0 95.39% 95.39% Logistic Regression k-Nearest Neighbors Support Vector Machines Tương tự phân tích Bảng 3, thông tin hiển thị Bảng cho thấy mơ hình phân lớp thực thuật tốn Nạve Bayes có hiệu tốt nhất, đạt độ xác ACC=81.79% giá trị MCC=0.154 Kết luận: Thông qua xây dựng mơ hình phân lớp với số thuật tốn đánh giá mơ hình sử dụng phương pháp (đánh giá chéo 10-fold kiểm thử độc lập sử dụng liệu kiểm thử độc lập) mơ hình phân lớp triển khai thuật tốn Nạve Bayes cho thấy hiệu tối ưu Điều gợi ý rằng, với toán phân lớp, dự đoán vị trí protein SUMOylation, tiến hành phân lớp với phần mềm Weka mơ hình sinh thuật tốn Nạve Bayes cho thấy độ xác tốt nhất, dùng để dự đốn vị trí protein SUMOylation Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 70 KẾT LUẬN Sau thời gian làm việc, nghiên cứu hướng dẫn tận tình thầy giáo TS Nguyễn Văn Núi, đạt kết sau đây: Trình bày đầy đủ xác khái niệm kiến thức liên quan đến khai phá liệu phát tri thức; thuật toán phân cụm, phân lớp liệu ứng dụng Giới thiệu trình bày cơng cụ phần mềm Weka (Waikato Environment for Knowledge Analysis) - phần mềm học máy Đại học Waikato, New Zealand phát triển Java., ứng dụng phân lớp, phân cụm liệu Tìm hiểu kiến thức liên quan đến SUMOylation toán phân lớp liệu áp dụng cho phân lớp dự đoán vị trí SUMOylation sites Cài đặt, cấu hình phần mềm Weka tiến hành phân cụm, phân lớp liệu thực phân cụm, phân lớp liệu SUMOylation Hướng phát triển luận văn: Trong thời gian tới, tiếp tục nghiên cứu sâu vấn đề phân cụm, phân lớp liệu, đặc biệt nghiên cứu tìm hiểu sâu việc ứng dụng phần mềm Weka để tiến hành phân tích liệu ứng dụng lĩnh vực cụ thể phân lớp, dự đốn vị trí SUMOylation Tiến hành nghiên cứu thêm thuật toán phân lớp liệu, tối ưu hóa thuật tốn phân lớp liệu, từ đề xuất mơ hình phân lớp, dự đốn vị trí SUMOylation với độ xác cao Tiếp tục nghiên cứu tìm hiểu tốn phân lớp, dự đốn vị trí SUMOylation ứng dụng Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 71 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trưởng, Khai phá liệu, NXB Thông tin truyền thông, 2012 Tiếng Anh: [2] Anil K Jain, Richard C Dubes, “Algorithms for clustering data”, 1988 [3] Kaufman and Rousseeuw, “Finding Groups in Data: An Introduction to Cluster Analysis”,1990 [4] J.Ross Quinlan, “Programs for machine learning”, 1993 [5] Rakesh Agrawal, “Mining Association Rules Between Sets of Items in Large Databases”,1993 [6] Van-Nui Nguyen, Kai-Yao Huang, Julia Tzu-Ya Weng, K Robert Lai* and Tzong-Yi Lee*, 2016, "UbiNet: an online resource for exploring functional associations and regulatory networks of protein ubiquitylation," DATABASE: The Journal of Biological Databases and Curation, (ISI, 2014 IF: 3.372; 7/57 in MATHEMATICAL & COMPUTATIONAL BIOLOGY) [7] Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, K Robert Lai* and Tzong-Yi Lee*, 2016, "A new scheme to characterize and identify protein ubiquitination sites," IEEE/ACM Transactions on Computational Biology and Bioinformatics, (ISI, 2014 IF:1.438; 30/122 in STATISTICS & PROBABILITY) [8] Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, Tzu-Hao Chang, Neil Arvin Bretaña, K Robert Lai, Julia Tzu-Ya Weng* and Tzong-Yi Lee*, "Characterization and Identification of Ubiquitin Conjugation Sites with E3 Ligase Recognition Specificities," BMC Bioinformatics, Vo 16 (Suppl 1), S1 (ISI, 2014 IF:2.576; 10/56 in MATHEMATICAL & COMPUTATIONAL BIOLOGY) Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ... Phân lớp liệu sử duing máy hỗ trợ vector số phương pháp phân lớp liệu khác Ngồi cịn vấn đề đánh giá độ xác phương pháp phân lớp liệu Chương Kết thử nghiệm Phần giới thiệu toán phân lớp liệu protein. .. phân lớp liệu Trong phần này, kỹ thuật phân lớp giới thiệu cách chi tiết Có nhiều kiểu phân lớp phân lớp định quy nạp, phân lớp liệu Bayesian, phân lớp liệu với Random Forest (rừng ngẫu nhiên), Phân. .. giới thiệu toán phân lớp liệu protein SUMO hóa, giới thiệu phân lớp liệu sử dụng công cụ Weka số kết phân lớp liệu protein SUMO hóa Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn