1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa

118 100 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 118
Dung lượng 4,33 MB

Nội dung

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VILAISAK SOPHABMIXAY NGHÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP VÀ ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU PROTEIN SUMO HÓA Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 84 80 10 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN VĂN NÚI THÁI NGUYÊN - 2019 ii LỜI CAM ĐOAN Luận văn công trình nghiên cứu cá nhân tơi, thực hướng dẫn khoa học TS Nguyễn Văn Núi Các số liệu, kết luận nghiên cứu trình bày luận văn hồn tồn trung thực Học Viên Vilaisak SOPHABMIXAY LỜI CẢM ƠN Để hoàn thành đề tài luận văn thạc sĩ cách hoàn chỉnh, bên cạnh nỗ lực cố gắng thân có hướng dẫn nhiệt tình quý Thầy Cô, động viên ủng hộ gia đình bạn bè suốt thời gian học tập nghiên cứu thực luận văn thạc sĩ Xin chân thành bày tỏ lòng biết ơn đến Thầy TS Nguyễn Văn Núi người hết lòng giúp đỡ tạo điều kiện tốt cho em hoàn thành luận văn Xin chân thành bày tỏ lòng biết ơn đến tồn thể q thầy khoa học máy tính nói riêng trường Đại học Công Nghệ Thông Tin Truyền Thông Thái Nguyên nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trường Cuối cùng, xin chân thành cảm ơn đến gia đình, anh chị bạn đồng nghiệp hỗ trợ cho nhiều suốt trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hoàn chỉnh MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG, BIỂU ix DANH MỤC HÌNH VẼ x MỞ ĐẦU CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Giới thiệu chung 1.1.1 Khái niệm khai phá liệu 1.1.2 Các bước trình phát tri thức 1.2 Tổng quan kỹ thuật khai phá liệu 1.2.1 Khai phá liệu dự đoán 1.2.1.1 Phân lớp 1.2.1.2 Hồi quy 1.2.2 Khai phá liệu mô tả 1.2.2.1 Phân cụm 1.2.2.2 Luật kết hợp 1.3 Phân tích, so sánh với phương pháp khác 1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems) 1.3.2 So sánh với phương pháp thống kê (Statistics) 1.3.3 So sánh với phương pháp học máy (Machine Learning) 10 1.3.4 So sánh với phương pháp học sâu (Deep Learning) 10 CHƯƠNG CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU 12 2.1 Tổng quan phân lớp liệu 13 2.2 Phân lớp liệu định 15 2.2.1 Cây định quy nạp 16 2.2.2 Cây cắt tỉa 20 2.2.3 Trích luật phân lớp từ định 20 2.2.4 Cải tiến định quy nạp 21 2.2.5 Khả mở rộng định quy nạp 22 2.3 Phân lớp liệu Bayesian 23 2.3.1 Định lý Bayes 24 2.3.2 Phân lớp Bayesian ngây thơ 25 2.3.3 Các mạng belief Bayesian 27 2.3.4 Huấn luyện mạng belief Bayesian 29 2.4 Phân lớp liệu với Random Forest (rừng ngẫu nhiên) 30 2.5 Phân lớp liệu sử dụng máy hỗ trợ vector 33 2.5.1 SVM cho toán phân lớp tuyến tính 33 2.5.2 SVM cho phân lớp phi tuyến 37 2.6 Một số phương pháp phân lớp liệu khác 41 2.6.1 Các classifier k-láng giềng gần 42 2.6.2 Lập luận dựa tình 42 2.7 Vấn đề đánh giá độ xác phương pháp phân lớp liệu 43 2.7.1 Đánh giá độ xác classifier 44 2.7.2 Gia tăng độ xác classifier 45 2.7.3 Độ xác có đủ để đánh giá classifier hay không? 46 CHƯƠNG KẾT QUẢ THỬ NGHIỆM 47 3.1 Giới thiệu tốn phân lớp liệu protein SUMO hóa (SUMOylation) 48 3.1.1 Giới thiệu protein SUMO hóa (SUMOylation) 48 3.1.2 Thu thập tiền xử lý liệu 48 3.1.3 Trích chọn đặc trưng mã hóa liệu 53 3.2 Giới thiệu phân lớp liệu sử dụng công cụ Weka 55 3.2.1 Thuật toán Hồi quy logistic (Logistic Regression) 56 3.2.2 Thuật toán Naive Bayes 58 3.2.3 Thuật toán Cây định (Decision Tree) 60 Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 3.2.4 Thuật tốn k-Nearest Neighbors 63 3.2.5 Thuật toán Máy hỗ trợ Vector (Support Vector Machines) 65 3.3 Kết phân lớp liệu vị trí protein SUMOylation 68 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Tiếng Việt: 71 Tiếng Anh: 71 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vii DANH MỤC CÁC TỪ VIẾT TẮT TT Từ viết tắt Tên đầy đủ SUMO Small Ubiquitin-like MOdifier KDD SVM Support Vector Machine Máy hỗ trợ vector AAC Amino Axit Composition Đặc trưng: AAC AAPC TP True Positive Đúng liệu Positive FP False Positive Không phải liệu Positive TN True Negative Đúng liệu Negative FN False Negative Không phải liệu Negative 10 SEN Sensitivity: SEN=TP/(TP+FN) 11 SPE 12 ACC 13 MCC Knowlegde Discovery in Databases Amino Axit Pairwise Composition Chú thích Thành phần sửa đổi tương tựa Ubiquitin nhỏ Phát tri thức Đặc trưng: AAPC Tỷ lệ dự đoán liệu Positive Specificity: Tỷ lệ dự đoán liệu SPE=TN/(TN+FP) Negative Accuracy Độ xác Mathews Correlation Coefficient Hệ số tương quan Mathews Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 14 15 16 SUMOylated protein Protein mà có vị trí SUMO hóa SUMO-sites vị trí amino axit Lysine (K) xác định thực nghiệm Lysine SUMO hóa Non-SUMO- KHƠNG PHẢI SUMO hóa sites Lysine Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn DANH MỤC CÁC BẢNG, BIỂU Bảng Các liệu huấn luyện từ sở liệu khách hang AllElectronics 18 Bảng 2 Dữ liệu mẫu cho lớp mua máy tính 23 Bảng Bảng tổng hợp liệu thu thập từ nguồn khác 48 Bảng Bảng tổng hợp liệu thu sau loại bỏ liệu dư thừa công cụ CD-HIT 52 Bảng 3 Hiệu mơ hình dự đốn, đánh giá kiểm tra chéo mặt (5-fold cross-validation) 68 Bảng Hiệu mô hình dự đốn, đánh giá liệu kiểm thử độc lập 69 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn Hình Cấu hình Weka cho thuật tốn hồi quy logistic Thuật tốn chạy cho số lần lặp cố định (maxIts), theo mặc định chạy ước tnh thuật toán hội tụ Việc thực sử dụng công cụ ước tnh sườn núi loại quy Phương pháp tìm cách đơn giản hóa mơ hình trình đào tạo cách giảm thiểu hệ số mà mơ hình học Tham số sườn xác định áp lực đặt lên thuật tốn để giảm kích thước hệ số Đặt thành tắt tnh quy Nhấn vào “Ok” để đóng cấu hình thuật tốn Nhấp vào nút “Start” trực tiếp để chạy thuật toán liệu Ionosphere Có thể thấy với cấu hình mặc định, hồi quy logistic đạt độ xác 88% Hình Kết phân lớp Weka cho thuật toán hồi quy logistic 3.2.2 Thuật toán Naive Bayes Naive Bayes thuật toán phân lớp Theo truyền thống, giả định giá trị đầu vào danh nghĩa, đầu vào số hỗ trợ cách giả sử phân phối Naive Bayes sử dụng triển khai đơn giản Bayes Theorem (hence naive) xác suất trước cho lớp tnh từ liệu huấn luyện coi độc lập với (được gọi độc lập có điều kiện) Đây giả định khơng thực tế hy vọng biến tương tác phụ thuộc, giả định làm cho xác suất nhanh dễ tnh toán Ngay theo giả định phi thực tế này, Naive Bayes chứng minh thuật toán phân lớp hiệu Naive Bayes tính tốn xác suất sau cho lớp đưa dự đoán cho lớp có xác suất cao Như vậy, hỗ trợ vấn đề phân lớp nhị phân phân lớp nhiều lớp Chọn thuật toán Naive Bayes: Nhấp vào nút “Choose” Lựa chọn chọn Tập tin “NaiveBayes” trực tuyến nhóm “Bay Bayes” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình Cấu hình Weka cho thuật toán Naive Bayes Theo mặc định, phân phối Gaussian giả sử cho thuộc tnh số Các phân phối thay đổi thuật tốn để sử dụng công cụ ước tnh Kernel với đối số sử dụng Kernel Estimator phù hợp với phân phối thực tế thuộc tnh tập liệu bạn Tuy nhiên, thơng số tự động chuyển đổi thuộc tnh số thành thuộc tnh danh nghĩa với tham số sử dụng Supervised Discretization Nhấn vào “Ok” để đóng cấu hình thuật toán Nhấp vào nút “Start” trực tiếp để chạy thuật tốn liệu Ionosphere Có thể thấy với cấu hình mặc định mà Naive Bayes đạt độ xác 82% Hình Kết phân lớp Weka cho thuật toán Naive Bayes 3.2.3 Thuật toán Cây định (Decision Tree) Cây định hỗ trợ phân lớp vấn đề hồi quy Cây định gần gọi Cây phân loại hồi quy (CART) Họ làm việc cách tạo để đánh giá thể liệu, gốc chuyển thị trấn đến (Roots) dự đốn Q trình tạo định hoạt động cách tham lam chọn điểm phân chia tốt để đưa dự đoán lặp lại quy trình có độ sâu cố định Sau xây dựng, cắt tỉa để cải thiện khả mơ hình hóa để tổng quát hóa liệu Chọn thuật toán định: Nhấp vào nút “Choose” chọn “REPTree” nhóm “Trees” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình 10 Cấu hình Weka cho thuật tốn Cây định (Decision Tree) Độ sâu xác định tự động, độ sâu định thuộc tnh maxDepth Cũng chọn chuyển chế độ cắt tỉa cách đặt tham số noPruning thành True, điều dẫn đến hiệu suất Tham số minNum xác định số lượng phiên tối thiểu hỗ trợ nút xây dựng từ liệu huấn luyện Nhấn vào “Ok” để đóng cấu hình thuật tốn Nhấp vào nút “Start” trực tiếp để chạy thuật tốn liệu Ionosphere Có thể thấy với cấu hình mặc định, thuật tốn định đạt độ xác 89% Hình 11 Kết phân lớp Weka cho thuật toán Cây định (Decision Tree) Một thuật toán định nâng cao khác mà bạn sử dụng thuật toán C4.5, gọi J48 Weka Có thể xem lại hình ảnh trực quan định chuẩn bị toàn liệu huấn luyện cách nhấp chuột phải vào “Result list” trò chơi nhấp vào “Visualize Tree” Hình 12 Mơ hình định hiển thị C4.5 3.2.4 Thuật toán k-Nearest Neighbors Thuật toán hỗ trợ phân lớp hồi quy Nó gọi kNN cho ngắn gọn Nó hoạt động cách lưu trữ toàn tập liệu huấn luyện truy vấn để xác định vị trí mẫu đào tạo tương tự đưa dự đốn Như vậy, khơng có mơ hình ngồi tập liệu huấn luyện thô phép tnh thực truy vấn liệu huấn luyện yêu cầu dự đoán Đây thuật tốn đơn giản, thuật tốn khơng giả định nhiều vấn đề khác khoảng cách trường hợp liệu có ý nghĩa việc đưa dự đốn Như vậy, thường đạt hiệu suất tốt Khi đưa dự đoán vấn đề phân lớp, kNN lấy chế độ (lớp phổ biến nhất) k trường hợp tương tự tập liệu huấn luyện Chọn thuật toán k-Nearest Neighbors: Nhấp vào nút “Choose” chọn “IBk” nhóm “Lazy” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình 13 Cấu hình Weka cho thuật tốn k-Nearest Neighbors Ví dụ: Nếu k đặt thành 1, dự đoán thực cách sử dụng trường hợp đào tạo tương tự với mẫu định mà theo dự đốn u cầu Các giá trị phổ biến cho k 3, 7, 11 21, lớn cho kích thước tập liệu lớn Weka tự động khám phá giá trị tốt cho k cách sử dụng xác thực chéo bên thuật toán cách đặt tham số crossValidate thành True Một thông số quan trọng khác thước đo khoảng cách sử dụng Điều định cấu hình Thuật tốn tìm kiếm gần nhất, điều khiển cách thức lưu trữ tìm kiếm liệu đào tạo Mặc định Tìm kiếm tuyến tnh Nhấp vào tên thuật tốn tìm kiếm cung cấp cửa sổ cấu hình khác, nơi bạn chọn tham số distanceFunction Theo mặc định, khoảng cách Euclide sử dụng để tnh khoảng cách trường hợp, điều tốt cho liệu số có tỷ lệ Khoảng cách Manhattan tốt để sử dụng thuộc tnh bạn khác biện pháp loại Hình 14 Cấu hình weka cho thuật tốn tìm kiếm thuật tốn k-Nearest Neighbors Đó ý tưởng tốt để thử giá trị k thước đo khoảng cách khác cho vấn đề bạn xem hoạt động tốt Nhấn vào “Ok” để đóng cấu hình thuật tốn Nhấp vào nút “Start” trực tiếp để chạy thuật tốn liệu Ionosphere Hình 15 Kết phân lớp Weka cho thuật toán k-Nearest Neighbors 3.2.5 Thuật toán Máy hỗ trợ Vector (Support Vector Machines) Support Vector Machines phát triển cho vấn đề phân lớp nhị phân, phần mở rộng cho kỹ thuật thực để hỗ trợ vấn đề phân lớp hồi quy đa lớp Thuật toán thường gọi SVM cho ngắn SVM phát triển cho biến đầu vào số, tự động chuyển đổi giá trị danh nghĩa thành giá trị số Dữ liệu đầu vào chuẩn hóa trước sử dụng SVM hoạt động cách tìm dòng phân tách tốt liệu thành hai nhóm Điều thực cách sử dụng quy trình tối ưu hóa xem xét trường hợp liệu tập liệu huấn luyện gần với dòng phân tách tốt lớp Các thể gọi vectơ hỗ trợ, tên kỹ thuật Trong hầu hết tất vấn đề quan tâm, dòng khơng thể rút để phân tách gọn gàng lớp Do đó, lề thêm vào xung quanh dòng để giảm bớt ràng buộc, cho phép số trường hợp bị phân lớp sai cho phép kết tổng thể tốt Cuối cùng, vài liệu tách đường thẳng Đơi đường có đường cong chí vùng đa giác cần đánh dấu Điều đạt với SVM cách chiếu liệu vào không gian chiều cao để vẽ đường đưa dự đoán Các hạt nhân khác sử dụng để kiểm soát phép chiếu mức độ linh hoạt việc tách lớp Chọn thuật toán Máy hỗ trợ Vector (Support Vector Machines): Nhấp vào nút “Choose” chọn “SMO” nhóm “Function” Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn Hình 16 Cấu hình Weka cho thuật tốn Máy hỗ trợ Vector (Support Vector Machines) Tham số C, gọi tham số độ phức tạp Weka kiểm sốt mức độ linh hoạt quy trình vẽ đường phân tách lớp Giá trị cho phép không vi phạm ký quỹ, mặc định Một tham số SVM loại Kernel sử dụng Hạt nhân đơn giản hạt nhân tuyến tnh phân tách liệu đường thẳng siêu phẳng Mặc định Weka hạt nhân đa thức phân tách lớp cách sử dụng đường cong uốn lượn, đa thức cao, lung lay (giá trị số mũ) Một hạt nhân phổ biến mạnh mẽ Kernel RBF Radial Basis Function Kernel có khả học đa giác khép kín hình dạng phức tạp để phân tách lớp Đó ý tưởng tốt để thử giá trị hạt nhân C (độ phức tạp) khác vấn đề bạn xem hoạt động tốt Nhấn vào “ok” để đóng cấu hình thuật tốn Nhấp vào nút “Bắt đầu” trực tiếp để chạy thuật toán liệu Ionosphere thấy với cấu hình mặc định, thuật tốn SVM đạt độ xác 88% Hình 17 Kết phân lớp Weka cho thuật toán Máy hỗ trợ Vector 3.3 Kết phân lớp liệu vị trí protein SUMOylation Bảng 3 Hiệu mơ hình dự đốn, đánh giá kiểm tra chéo mặt (5fold cross-validation) Algorithm TP FP TN FN SEN SPE ACC MCC 64 681 9558 98 39.51% 93.35% 92.51% 0.158 Naive Bayes 286 459 8289 1367 17.30% 94.75% 82.44% 0.171 Decision Tree 34 711 9599 57 37.36% 93.10% 92.62% 0.110 85 660 8675 981 7.97% 92.93% 84.22% 0.011 745 9656 0 92.84% 92.48% Logistic Regression k-Nearest Neighbors Support Vector Machines Như hiển thị chi tiết Bảng 4, thuật toán khác có độ xác (ACC) cao thuật tốn Naïve Bayes, nhiên giá trị SEN SPE lại khơng cân bằng, trường hợp giá trị MCC sử dụng thước đo để có hiệu định mơ hình có hiệu dự đốn tốt Kết quả, mơ hình phân lớp thuật tốn Nạve Bayes (với độ xác ACC=82.44%; giá trị MCC=0.171) có hiệu tốt Ngoài ra, để đánh giá hiệu mơ hình phân lớp liệu, ngồi việc đánh giá chéo 10-fold, tác giả tiến hành đánh giá độc lập liệu Independent Testting Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn Bảng Hiệu mơ hình dự đoán, đánh giá liệu kiểm thử độc lập Algorithm TP FP TN FN SEN SPE ACC MCC 108 2399 21 30.00% 95.69% 94.92% 0.132 Naive Bayes 52 65 2023 397 11.58% 96.89% 81.79% 0.154 Decision Tree 113 2410 10 28.57% 95.52% 95.15% 0.085 33 84 2213 207 13.75% 96.34% 88.53% 0.141 117 2420 0 95.39% 95.39% Logistic Regression k-Nearest Neighbors Support Vector Machines Tương tự phân tch Bảng 3, thông tin hiển thị Bảng cho thấy mơ hình phân lớp thực thuật tốn Nạve Bayes có hiệu tốt nhất, đạt độ xác ACC=81.79% giá trị MCC=0.154 Kết luận: Thông qua xây dựng mơ hình phân lớp với số thuật tốn đánh giá mơ hình sử dụng phương pháp (đánh giá chéo 10-fold kiểm thử độc lập sử dụng liệu kiểm thử độc lập) mơ hình phân lớp triển khai thuật tốn Nạve Bayes cho thấy hiệu tối ưu Điều gợi ý rằng, với toán phân lớp, dự đoán vị trí protein SUMOylation, tiến hành phân lớp với phần mềm Weka mơ hình sinh thuật tốn Nạve Bayes cho thấy độ xác tốt nhất, dùng để dự đốn vị trí protein SUMOylation Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn KẾT LUẬN Sau thời gian làm việc, nghiên cứu hướng dẫn tận tình thầy giáo TS Nguyễn Văn Núi, đạt kết sau đây: Trình bày đầy đủ xác khái niệm kiến thức liên quan đến khai phá liệu phát tri thức; thuật toán phân cụm, phân lớp liệu ứng dụng Giới thiệu trình bày cơng cụ phần mềm Weka (Waikato Environment for Knowledge Analysis) - phần mềm học máy Đại học Waikato, New Zealand phát triển Java., ứng dụng phân lớp, phân cụm liệu Tìm hiểu kiến thức liên quan đến SUMOylation toán phân lớp liệu áp dụng cho phân lớp dự đoán vị trí SUMOylation sites Cài đặt, cấu hình phần mềm Weka tiến hành phân cụm, phân lớp liệu thực phân cụm, phân lớp liệu SUMOylation Hướng phát triển luận văn: Trong thời gian tới, tiếp tục nghiên cứu sâu vấn đề phân cụm, phân lớp liệu, đặc biệt nghiên cứu tìm hiểu sâu việc ứng dụng phần mềm Weka để tiến hành phân tch liệu ứng dụng lĩnh vực cụ thể phân lớp, dự đốn vị trí SUMOylation Tiến hành nghiên cứu thêm thuật toán phân lớp liệu, tối ưu hóa thuật tốn phân lớp liệu, từ đề xuất mơ hình phân lớp, dự đốn vị trí SUMOylation với độ xác cao Tiếp tục nghiên cứu tìm hiểu tốn phân lớp, dự đốn vị trí SUMOylation ứng dụng Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trưởng, Khai phá liệu, NXB Thông tin truyền 2012 thông, Tiếng Anh: [2] Anil K Jain, Richard C Dubes, “Algorithms for clustering data”, 1988 [3] Kaufman and Rousseeuw, “Finding Groups in Data: An Introduction to Cluster Analysis”,1990 [4] J.Ross Quinlan, “Programs for machine learning”, 1993 [5] Rakesh Agrawal, “Mining Association Rules Between Sets of Items in Large Databases”,1993 [6] Van-Nui Nguyen, Kai-Yao Huang, Julia Tzu-Ya Weng, K Robert Lai* and TzongYi Lee*, 2016, "UbiNet: an online resource for exploring functional associations and regulatory networks of protein ubiquitylation," DATABASE: The Journal of Biological Databases and Curation, (ISI, 2014 IF: 3.372; 7/57 in MATHEMATICAL & COMPUTATIONAL BIOLOGY) [7] Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, K Robert Lai* and TzongYi Lee*, 2016, "A new scheme to characterize and identify protein ubiquitination sites," IEEE/ACM Transactions on Computational Biology and Bioinformatics, (ISI, 2014 IF:1.438; 30/122 in STATISTICS & PROBABILITY) [8] Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, Tzu-Hao Chang, Neil Arvin Bretaña, K Robert Lai, Julia Tzu-Ya Weng* and Tzong-Yi Lee*, "Characterization and Identification of Ubiquitin Conjugation Sites with E3 Ligase Recognition Specificities," BMC Bioinformatics, Vo 16 (Suppl 1), S1 (ISI, 2014 IF:2.576; 10/56 in BIOLOGY) MATHEMATICAL & COMPUTATIONAL ... Phân lớp liệu sử duing máy hỗ trợ vector số phương pháp phân lớp liệu khác Ngồi vấn đề đánh giá độ xác phương pháp phân lớp liệu Chương Kết thử nghiệm Phần giới thiệu tốn phân lớp liệu protein SUMO. .. chuyển đổi Dữ liệu cảm giác (ví dụ: pixel hình ảnh) nạp vào lớp Do đó, đầu lớp cung cấp làm đầu vào cho lớp CHƯƠNG CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU Số hóa Trung tâm Học liệu Công nghệ... hóa, giới thiệu phân lớp liệu sử dụng công cụ Weka số kết phân lớp liệu protein SUMO hóa Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ

Ngày đăng: 28/12/2019, 11:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Lê Văn Phùng, Quách Xuân Trưởng, Khai phá dữ liệu, NXB Thông tin và truyền thông,2012.Tiếng Anh Sách, tạp chí
Tiêu đề: Khai phá dữ liệu
Nhà XB: NXB Thông tin vàtruyền thông
[2]. Anil K. Jain, Richard C. Dubes, “Algorithms for clustering data”, 1988 Sách, tạp chí
Tiêu đề: Algorithms for clustering data
[3]. Kaufman and Rousseeuw, “Finding Groups in Data: An Introduction to Cluster Analysis”,1990 Sách, tạp chí
Tiêu đề: Finding Groups in Data: An Introduction to ClusterAnalysis
[4]. J.Ross Quinlan, “Programs for machine learning”, 1993 Sách, tạp chí
Tiêu đề: Programs for machine learning
[5]. Rakesh Agrawal, “Mining Association Rules Between Sets of Items in Large Databases”,1993 Sách, tạp chí
Tiêu đề: Mining Association Rules Between Sets of Items in LargeDatabases
[7]. Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, K. Robert Lai* and Tzong- Yi Lee*, 2016, "A new scheme to characterize and identify protein ubiquitination sites," IEEE/ACM Transactions on Computational Biology and Bioinformatics, (ISI, 2014 IF:1.438; 30/122 in STATISTICS & PROBABILITY) Sách, tạp chí
Tiêu đề: A new scheme to characterize and identify proteinubiquitination sites
[8]. Van-Nui Nguyen, Kai-Yao Huang, Chien-Hsun Huang, Tzu-Hao Chang, Neil Arvin Bretaủa, K. Robert Lai, Julia Tzu-Ya Weng* and Tzong-Yi Lee*,"Characterization and Identification of Ubiquitin Conjugation Sites with E3 Ligase Recognition Specificities," BMC Bioinformatics, Vo. 16 (Suppl. 1), S1 Sách, tạp chí
Tiêu đề: Characterization and Identification of Ubiquitin Conjugation Sites with E3Ligase Recognition Specificities

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w