1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths máy tính 604801

54 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM VĂN HIẾU DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM VĂN HIẾU DỰ ĐOÁN TƢƠNG TÁC PROTEIN – PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội – 2017 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu” sản phẩm thực dƣới hƣớng dẫn TS.Đặng Thanh Hải Trong toàn nội dung luận văn, điều đƣợc trình bày tơi nghiên cứu đƣợc từ tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin chịu trách nhiệm cho lời cam đoan Hà Nội, ngày 10tháng10 năm 2017 Ngƣời cam đoan Phạm Văn Hiếu TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hƣớng dẫn tôi, TS Đặng Thanh Hải Thầy giúp có hội để theo đuổi nghiên cứu lĩnh vực u thích Trong suốt q trình thực luận văn, thầy tận tình hƣớng dẫn cho tơi, góp ý cho tơi đƣờng lối, đồng thời đƣa lời khun bổ ích để tơi hồn thành luận văn Tiếp đến, xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ Thông tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt cho kiến thức kinh nghiệm vô q báu q trình học tập nghiên cứu Tôi muốn cảm ơn bạn lớp đồng nghiệp cho lời động viên, hỗ trợ góp ý mặt chun mơn Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, ngƣời bên cạnh ủng hộ động viên Hà Nội, tháng 10năm 2017 Phạm Văn Hiếu TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .5 DANH MỤC BẢNG BIỂU .6 CHƢƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU ĐỀ TÀI .7 CHƢƠNG : CƠ SỞ LÝ THUYẾT .9 2.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PROTEIN .9 2.1.1 Cấu trúc Protein .9 2.1.2 Chức Protein 11 2.1.3 Định nghĩa quan hệ tƣơng tác protein – protein (PPI) 12 2.1.4 Tầm quan trọng tƣơng tác protein – protein 12 2.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU .13 2.2.1 Định nghĩa khai phá liệu 13 2.2.2 Định nghĩa học có giám sát .13 2.2.3 Khái niệm thuật toán phân lớp học có giám sát 14 2.2.4 Bài toán phân lớp 15 2.2.5 Tổng quan số thuật toán phân lớp 15 2.2.6 Kết hợp phân lớp 17 2.2.7 Một số phƣơng pháp kết hợp phân lớp 18 2.2.8 Đánh giá mơ hình phân lớp 21 CHƢƠNG : DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN .24 3.1 MƠ HÌNH DỰ ĐỐN TƢƠNG TÁC PROTEIN – PROTEIN 24 3.2 XÂY DỰNG MƠ HÌNH THỰC NGHIỆM .26 3.2.1 Xây dựng liệu 26 3.2.2 Trích xuất thuộc tính/đặc trƣng .26 3.2.3 Lựa chọn thuộc tính/đặc trƣng .29 3.2.4 Phân lớp đặc trƣng 31 CHƢƠNG KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN .34 TIEU LUAN MOI download : skknchat@gmail.com 4.1 CHƢƠNG TRÌNH CÀI ĐẶT 34 4.1.1 Yêu cầu cấu hình 34 4.1.2 Cài đặt 34 4.2 KẾT QUẢ DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN 37 4.3 NHẬN XÉT 48 4.4 KẾT LUẬN 49 4.5 HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI .50 TÀI LIỆU THAM KHẢO .51 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 2-1: Minh họa cấu trúc 3D protein [2] Hình 2-2: Cấu tạo amino acid 10 Hình 2-3: Minh họa tƣơng tác protein – protein [5] 12 Hình 2-4: Minh họa Decision Tree 16 Hình 2-5: Minh họa thuật tốn SVM .17 Hình 2-6: So sánh phân lớp đơn lẻ phân lớp tổng hợp 18 Hình 2-7: Mơ hình hoạt động Bagging 19 Hình 2-8: Mơ hình hoạt động Boosting 20 Hình 2-9: Mơ hình hoạt động Random Forest 21 Hình 3-1: Sơ đồ phƣơng pháp trích xuất thuộc tính n-gram 27 Hình 3-2: Sơ đồ kết hợp vector thuộc tính cặp protein - protein 28 Hình 3-3: Sơ đồ thuật toán Bagging tập 𝑛1 mẫu huấn luyện .32 Hình 4-1: Giao diện chƣơng trình Dự đoán tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu 35 Hình 4-2: Giao diện chức trích xuất thuộc tính/đặc trƣng 35 Hình 4-3: Giao diện chức lựa chọn thuộc tính/đặc trƣng .35 Hình 4-4: Giao diện chức Phân lớp thuộc tính/đặc trƣng .36 Hình 4-5: Giao diện chức Đánh giá mơ hình thuật tốn .37 Hình 4-6: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính .40 Hình 4-7: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 42 Hình 4-8: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính .44 Hình 4-9: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính .46 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC BẢNG BIỂU Bảng 2-1: Bảng chức loại protein [4] 11 Bảng 2-2: Bộ liệu huấn luyện dự đoán tƣơng tác PPI 14 Bảng 2-3: Bảng giá trị ma trận confusion (chƣa chuẩn hóa) 22 Bảng 2-4: Bảng giá trị ma trận confusion (chuẩn hóa) 22 Bảng 3-1: Bảng chia nhóm 20 amino acid dựa vào tính lƣỡng cực khối lƣợng mạch nhánh .28 Bảng 4-1: Bảng giá trị phân lớp dự đoán 37 Bảng 4-2: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 38 Bảng 4-3: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 39 Bảng 4-4: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 40 Bảng 4-5: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 41 Bảng 4-6: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .43 Bảng 4-7: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .43 Bảng 4-8: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 45 Bảng 4-9: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 45 Bảng 4-10: Bảng kết tổng hợp phƣơng pháp phân lớp 47 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI Protein thành phần quan trọng trongtế bào nói riêng thể sống nói chung, tƣơng tác protein – protein cách để protein thể đƣợc chức sinh học Vì hiểu biết tƣơng tác protein – protein giúp hiểu sâu chức protein, tìm đƣợc vai trị protein Vào thời điểm bắt đầu nghiên cứu tƣơng tác protein – protein, nhà khoa học thƣờng sử dụng phƣơng pháp hóa sinh để phân tích dự đốn Tuy nhiên phƣơng pháp thực nghiệm đắt tiền, tốn nhiều thời gian, công sức, nhiều khó để thực Vì nên yêu cầu cấp thiết đƣợc đặt dự đoán cách áp dụng khai phá liệu phát triển mơ hình tính tốn tự động để đạt hiệu cao, nhanh nhƣ bổ sung cho phƣơng pháp thực nghiệm Theo thời gian, số lƣợng ngày tăng tập cặp protein – protein tƣơng tác với (và tập không tƣơng tác) đƣợc thực nghiệm xác định Sự tích lũy liệu vềtƣơng tác protein – protein thực nghiệm đem lại lợi mặt đầy đủ thông tin để tính tốn dự đốn đƣợc thêm tƣơng tác protein – protein Và lý tơi định chọn đề tài“Dự đốn tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu” 1.2 MỤC TIÊU ĐỀ TÀI Trong khuôn khổ luận văn này, tơi trình bày phƣơng pháp tính toán cho dự đoán tƣơng tác protein – protein khác với phƣơng pháp phân lớp truyền thống, xây dựng mơ hình phân lớp theo hƣớng áp dụng thuật toán phân lớp tổng hợp, kết hợp mơ hìnhcác phân lớp đơn lẻ yếu thành mơ hình mạnh, nhằm đạt đƣợc hiệu phân lớp tối ƣu Với toán nhƣ trên, đặt mục tiêu cho đề tài tìm hiểu xây dựng thành cơng mơ hình dự đốn tƣơng tác protein-protein dựa thuật toán phân lớp tổng hợp, phƣơng pháp đƣợc chứng minh tốt thuật tốn phân lớp đơn lẻ truyền thống, từ làm tiền đề áp dụng vào thực tế triển khai nghiên cứu dự đoán tƣơng tác protein – protein cách hiệu Để đạt đƣợc mục tiêu đó, công việc thực luận văn là: Nghiên cứu sở lý thuyết khái niệm protein, cấu trúc protein sinh học, nhằm phục vụ cho việc khai thác thuộc tính chúng sử dụng tính tốn; Nghiên cứu sở lý thuyết kỹ thuật TIEU LUAN MOI download : skknchat@gmail.com khai phá liệu (nói chung) kỹ thuật phân lớp liệu (nói riêng), làm sở cho xây dựng chƣơng trình thực nghiệm chứng minh tính đắn kết thực nghiệm Với chƣơng trình thực nghiệm, bƣớc đầu tơi đạt đƣợc mục tiêu đề tài chứng minh đƣợc tính hiệu áp dụng giải thuật phân lớp tổng hợp vào toán dự đoán tƣơng tác protein – protein so với giải thuật khác Qua đạt đƣợc mục tiêu xa tƣơng lai, ví dụ nhƣ từ giải thuật đề tài làm móng cho giải thuật khác triển khai hiệu hơn, giúp tăng hiệu nhƣ độ xác tốn “Dự đốn tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu” TIEU LUAN MOI download : skknchat@gmail.com 38 1288 1289 0 Để biểu diễn kết ngắn gọn tƣờng minh, nghiên cứu sử dụng độ đo F để hiển thị chƣơng trình tƣơng ứng với thuật toán liệu.Ta hiển thị kết theo hƣớng: sử dụng thuật tốn trích xuất thuộc tính/đặc trƣng n-gram thuật tốn trích xuất thuộc tính/đặc trƣng MLD Sau bƣớc trích xuất thuộc tính/đặc trƣng, ta lựa chọn thuộc tính với số thuộc tính lựa chọn nhỏ số thuộc tính ban đầu Trong nghiên cứu này, ta thực lựa chọn thuộc tính với số thuộc tính rút gọn 100 thuộc tính so sánh kết quảphân lớp đặc trƣng tập liệu ban đầu tập liệu rút gọn thuộc tính Sử dụng thuật tốn trích xuất thuộc tính/đặc trƣng MLD, sau ta nghiên cứu kết theo hƣớng: Hƣớng thứ nhất, dùng nguyên tập thuộc tính ban đầu làm đầu vào cho thuật toán phân lớp, hƣớng thứ hai, dùng phƣơng pháp MRMD giảm bớt số chiều thuộc tính từ 1134 thuộc tính xuống cịn 100 thuộc tính Trong bảng biểu diễn kết ta xếp thành cặp theo luật: thuật toán phân lớp đơn lẻ A - thuật tốn phân lớp tổng hợp có sở thuật toán phân lớp đơn lẻ A tƣơng ứng Cụ thể cặp: Decision Stump - AdaBoostM1, REPTree – Bagging, RandomTree – RandomForest Ta có kết thực nghiệm đo đƣợc với phƣơng pháp trích xuất thuộc tính/đặc trƣng MLD, giữ nguyên tập 1134 thuộc tính sau trích xuất làm tập đầu vào phân lớp nhƣ sau: Bảng 4-2: Kết thực nghiệmphƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 69,72 71,09 82,66 87,33 79,85 87,88 S2 70,04 71,30 79,65 87,55 79,48 86,39 S3 66,06 67,92 78,96 84,3 76,06 83,80 S4 65,27 67,59 79,47 85,54 78,31 84,57 S5 69,88 73,36 78,75 85 75,92 84,60 S6 68,03 68,45 76,74 86,25 78,50 85,76 S7 67,41 75,17 81,05 87,62 78,54 85,43 S8 67,28 67,21 77,26 85,58 77,91 84,09 TIEU LUAN MOI download : skknchat@gmail.com 39 S9 64,01 70,46 82,15 87,42 76,65 85,56 S10 69,90 74,55 79,60 86,33 76,92 85,82 Trung bình 67,76 70,71 79,63 86,29 77,81 85,39 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng thực nghiệm.Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-3: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Thời gian Decision (s) Stump MLD – 18;21;22; AdaBoost REPTree Bagging Random Random Tree Forest 107;129; 37;38;40; 225;222; 9;9;10;9; 16;16;17; không giảm 21;17;18; 140;95; 33;34;32; 235;230; 9;9;9;9; 16;15;15; chiều thuộc 18;17;17; 94;101; 32;34;35; 224;220; 9;9 15;15;16; tính 97;98; 34 220;224; 17 102;105 18,6 106,8 15 226;230 34,9 225,6 9,1 15,6 TIEU LUAN MOI download : skknchat@gmail.com 40 Hình 4-6: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Sau trích xuất thuộc tính/đặc trƣng MLD, giảm chiều thuộc tính xuống cịn 100 thuộc tính, ta có kết thực nghiệm đo đƣợc nhƣ sau: Bảng 4-4: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 68,81 69,82 76,96 82,91 76,41 81,52 S2 67,39 70,06 75,88 82,10 74,74 82,52 S3 67,47 67,71 73,09 82,80 73,12 81,85 S4 67,09 70,17 75,38 84,15 73,57 82,07 S5 68,35 69,63 75,93 80,51 74,49 80,51 S6 67,90 68,84 73,88 81,72 72,66 80,28 TIEU LUAN MOI download : skknchat@gmail.com 41 S7 69,69 72,42 76,59 82,94 76,17 82,81 S8 67,13 67,80 74,68 81,80 76,39 81,66 S9 66,42 66,67 72,86 82,64 75,04 81,46 S10 68,46 71,45 73,92 82,80 73,36 81,07 Trung bình 67,87 69,46 74,92 82,44 74,60 81,58 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết biểu diễn giá trị độ đo F(%) Bảng 4-5: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Thời gian Decision (s) Stump AdaBoost REPTree Bagging Random Random Tree Forest MLD–100 3;4;4;3;2; 6;9;8;8;6; 3;2;2;2;2; 18;18;17; 1;1;1;1;1; 4;4;4;4;4; thuộc tính 2;1;1;1;1 2;2;2;2;2 8;7;10;6; 17;18;17; 1;1;1;1;1 4;4;4;4;4 18;17;19; 18 2,2 7,5 2,1 17,7 TIEU LUAN MOI download : skknchat@gmail.com 42 Hình 4-7: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Sử dụng phƣơng pháp trích xuất thuộc tính/đặc trƣng n-gram cho vector 8420 thuộc tính Nếu đem trực tiếp vector làm tập liệu đầu vào cho thuật toán phân lớp, ta có kết nhƣ sau: TIEU LUAN MOI download : skknchat@gmail.com 43 Bảng 4-6: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,83 77,59 85,60 78,41 84,77 S2 70,27 76,99 77,20 85,55 77,82 85,60 S3 68,82 76,12 78,10 86,01 77,53 85,82 S4 70,22 76,29 76,84 86,25 81,50 85,67 S5 69,65 76,22 78,25 85,37 78,15 84,69 S6 71,40 76,30 79,35 86,55 79,53 86,19 S7 67,55 74,61 78,95 86,06 79,11 86,09 S8 69,02 73,27 79,27 85,74 79,45 84,68 S9 68,98 76,01 81,10 87,54 78 85,35 S10 68,41 73,12 79,21 85,56 77,46 84,71 Trung bình 69,18 75,28 78,59 86,02 78,70 85,36 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-7: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiềuthuộc tính Thời gian Decision (s) Stump n-gram – 111;114; 973;981; 1165;1162; 7572;7560; 20;26;26; 46;77;44; 105;109; 962;971; 1167;1167; 7580;7582; 18;18;18; 44;43;43; giảm chiều 107;109; 968;980; 1161;1165; 7570;7578; 18;19;20; 45;43;46; thuộc tính 110;110; 982;979; 1171;1168; 7582;7573; 25 101;108 975;982 1175;1180 7585;7594 1168,1 7577,6 không 108,4 AdaBoost 975,3 REPTree Bagging Random Random Tree Forest 43 20,8 47,4 TIEU LUAN MOI download : skknchat@gmail.com 44 Hình 4-8: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính Nếu đem vector thuộc tính ban đầu sau trích xuất thuộc tính phƣơng pháp n-gram giảm chiều cịn 100 thuộc tính với phƣơng pháp MRMD, sau đem tập vector thuộc tính rút gọn làm đầu vào cho thuật toán phân lớp Ta thu đƣợc kết thực nghiệm nhƣ sau: TIEU LUAN MOI download : skknchat@gmail.com 45 Bảng 4-8: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,89 75,14 80,52 77,07 81,54 S2 70,27 76,01 80,03 81,99 78,03 82,54 S3 68,92 76,15 75,52 80,91 74,56 82,37 S4 70,12 76,26 78,86 81,74 78,54 82,58 S5 69,62 76,20 77,06 82,33 77,09 82,74 S6 71,39 76,18 79,72 82,76 77,15 83,04 S7 67,50 74,57 78,97 81,27 77,69 82,89 S8 69,07 73,57 79,64 82,79 77,69 82,10 S9 68,97 75,73 77,96 80,72 77,38 81,86 S10 68,39 72,74 77,05 80,35 76,08 81,41 Trung bình 69,17 75,13 78,00 81,54 77,13 82,31 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-9: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, giảm chiềucịn 100 thuộc tính Thời gian Decision (s) Stump n-gram– Random Random Tree Forest 6;6;6;6;6; 2;1;1;2;1; 14;14;15; 0,5;0,5; 3;3;3;3; 5;5;6;6;6 2;2;1;2;2 17;14;15; 0,5;0,5; 3;3;3;3; 0,5;0,5; 15;15;16; 0,5;0,5; 3;3 0,5;0,5 16 1;1;1;0,5; 100 thuộc 0,5;0,5; tính AdaBoost REPTree Bagging 0,5;0,5; 0,5;0,5 0,65 5,8 1,6 15,1 0,5 TIEU LUAN MOI download : skknchat@gmail.com 46 Hình 4-9: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính TIEU LUAN MOI download : skknchat@gmail.com 47 Tổng kết, ta có bảng rút gọn kết thực nghiệm nghiên cứu cho phƣơng pháp trích xuất thuộc tính/đặc trƣng, phƣơng pháp phân lớp nhƣ sau: Bảng 4-10: Bảng kết tổng hợp phƣơng pháp phân lớp Phƣơng Đơn Decision Ada REP pháp vị Stump Boost Tree MLD – Độ Bagging Random Tree Random Forest 67,76 70,71 79,63 86,29 77,81 85,39 18,6 106,8 34,9 225,6 9,1 15,6 68,17 69,46 74,92 82,44 74,60 81,58 2,2 7,5 2,1 17,7 69,18 75,28 78,59 86,02 78,70 85,36 108,4 975,3 1168,1 7577,6 20,8 47,4 69,18 75,13 78,00 81,54 77,13 82,31 0,65 5,8 1,6 15,1 0,5 không giảm đo F chiều thuộc (%) tính (1134 Thời thuộc tính) gian (s) MLD – giảm Độ chiều 100 cịn đo F thuộc (%) tính Thời gian (s) n-gram – Độ khơng giảm đo F chiều thuộc (%) tính (8420 Thời thuộc tính) gian (s) n-gram – Độ giảm chiều đo F cịn 100 (%) thuộc tính Thời gian (s) TIEU LUAN MOI download : skknchat@gmail.com 48 4.3 NHẬN XÉT Về tổng quan ta nhận thấy mơ hìnhphân lớp đơn lẻ có độ xác kiểm định thấp nhiều so với mơ hình phân lớp tổng hợp tƣơng ứng mà sử dụng mơ hình phân lớp đơn lẻ làm sở Cụ thể, hiệu dự đốn mơ hình thuật tốn Decision Stump thấp mơ hình thuật tốn AdaBoostM1 trung bình khoảng 4% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn REPTree thấp mơ hình thuật tốn Bagging trung bình khoảng 7% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn Random Tree thấp mơ hình thuật tốn Random Forest trung bình khoảng 7% (theo độ đo F) Nhƣng xét chi phí cho toán, phƣơng pháp phân lớp đơn lẻ có chi phí thấp nhiều so với phƣơng pháp phân lớp tổng hợp tƣơng ứng Cụ thể, chi phí cho thuật tốn phân lớpDecision Stump xấp xỉ khoảng [20;30] (%) chi phí cho thuật tốn phân lớpAdaBoostM1, chi phí cho thuật tốn phân lớpREPTree xấp xỉ khoảng[12;15] (%) chi phí cho thuật tốn phân lớpBagging, chi phí cho thuật tốn phân lớpRandom Tree xấp xỉ khoảng [25;50] (%) chi phí cho thuật tốn phân lớpRandom Forest Tiếp theo, nhận xét hiệu dự đoán phân lớp sử dụng phƣơng pháp lựa chọn thuộc tính/đặc trƣng MRMD để giảm chiều liệu Ta thấy thuật toán phân lớp sử dụng đầu vào tập vector thuộc tính rút gọncó chi phí giảm đáng kể so với sử dụng đầu vào giữ nguyên tập vector thuộc tính ban đầu, mức chi phí giảm khoảng từ [10;25](%) Nhƣng hiệu dự đoán giảm xuống, dao động khoảng [1;4](%) (theo độ đo F) Mức hiệu dự đốn bị giảm chấp nhận đƣợc so với chi phí chạy chƣơng trình tiết kiệm đƣợc So sánh hai phƣơng pháp trích xuất thuộc tính/đặc trƣng n-gram MLD Ta thấy hiệu dự đốn chi phí bỏ nhƣ sau:Hiệu cho phƣơng pháp trích xuất thuộc tính/đặc trƣng tƣơng đƣơng nhau, chi phí bỏ chạy thuật tốn với trƣờng hợp giảm chiều thuộc tính phƣơng pháp n-gram tốt phƣơng pháp MLD, với trƣờng hợp khơng giảm chiều thuộc tính phƣơng pháp n-gram không phù hợp TIEU LUAN MOI download : skknchat@gmail.com 49 thời gian xử lý thuật tốn q lâu, đặc biệt áp dụng với thuật toán phân lớp Bagging Nhƣng chi phí để thực giảm chiều thuộc tính cho phƣơng pháp n-gram MLD phƣơng pháp MLD có chi phí thấp nhiều lần so với phƣơng pháp n-gram thời gian cấu hình máy tính u cầu Vì xét tính hiệu ta chọn MLD thay n-gram So sánh cặp thuật toán với nhau, cụ thể cặp Decision Stump – AdaBoostM1, REPTree – Bagging, cặp Random Tree – Random Forest Ta thấy cặp Decision Stump – AdaBoostM1 có hiệu dự đốn thấp cặp lại Hai cặp REPTree – Bagging Random Tree – Random Forest có hiệu dự đốn tƣơng đƣơng nhau, nhƣng xét chi phí cho thuật tốn cặp Random Tree – Random Forest có chi phí bỏ thấp nhiều lần so với cặp REPTree – Bagging Từ nhận xét trên, ta rút kết cuối cùng: Phƣơng pháp hiệu nghiên cứu cho dự đoán toán “Dự đoán tƣơng tác protein – protein sử dụng phƣơng pháp khai phá liệu” phƣơng pháp phân lớp Random Forest, có sử dụng phƣơng pháp trích xuất thuộc tính/đặc trƣng MLD phƣơng pháp lựa chọn thuộc tính/đặc trƣng MRMD để giảm chiều thuộc tính 4.4 KẾT LUẬN Luận văn đạt đƣợc hai kết quan trọng trình xây dựng chƣơng trình dự đốn tƣơng tác protein - protein sử dụng kỹ thuật khai phá liệu Về nghiên cứu tìm hiểu: - Nghiên cứu khái niệm sinh học liên quan protein, cấu trúc protein - Nghiên cứu khái niệm khai phá liệu tảng liên quan đến kỹ thuật phân lớp liệu - Tìm hiểu tổng quan số thuật toán phân lớp - Tìm hiểu phƣơng pháp phân lớp tổng hợp (ensemble) số phƣơng pháp kết hợp phân lớp - Tìm hiểu khái niệm đánh giá mơ hình phân lớp Về thực nghiệm: - Xây dựng đƣợc chƣơng trình dự đốn tƣơng tác protein - protein phƣơng pháp phân lớp tổng hợp - Xây dựng đƣợc hàm đánh giá so sánh kết thực nghiệm phƣơng pháp phân lớp tổng hợp phân lớp đơn lẻ TIEU LUAN MOI download : skknchat@gmail.com 50 - Tiến hành thử nghiệm nhiều tập liệu ngẫu nhiên khác để đảm bảo tính xác khách quan - Xây dựng giao diện trực quan, dễ dàng sử dụng cho ngƣời dùng Luận văn giới thiệu phƣơng pháp áp dụng mơ hình phân lớp tổng hợp vào nghiên cứu dự đoán tƣơng tác protein - protein Cũng nhƣ chứng minh đƣợc mặt lý thuyết thực nghiệm phƣơng pháp áp dụng mơ hình phân lớptổng hợp ƣu việt giải thuật mơ hình phân lớp đơn lẻ, có độ xác cao độ ổn định tốt So với cơng trình nghiên cứu cơng bố, đóng góp luận văn có thêm so sánh bƣớc xây dựng mơ hình dự đốn phân lớp, để tìm phƣơng pháp dự đoán hiệu Và chứng minh đƣợc hầu hết kết thu đƣợc từ mơ hình phân loại tổng hợp hiệu dự đoán mơ hình phân loại đơn lẻ Từ có thêm nghiên cứu sâu mơ hình phân loại tổng hợp áp dụng vào toán “Dự đoán tƣơng tác protein – protein” 4.5 HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI Trong luận văn chƣa sâu vào tìm hiểu đƣợc cách kết hợp thuật tốn thuật tốn phân lớp tổng hợp Về ngơn ngữ lập trình vấn đề tối ƣu thời gian hiệu suất xử lý nguồn liệu lớn hạn chế, từ làm giảm độ xác kết thực nghiệm Vì vậy, tƣơng lai, tơi mong muốn đƣợc tìm hiểu áp dụng sâu cách kết hợp giải thuật đơn lẻ vào mơ hình phân lớp tổng hợp thực tối ƣu mặt ngơn ngữ lập trình đảm bảo xử lý liệu lớn cách nhanh chóng thời gian hiệu suất xử lý TIEU LUAN MOI download : skknchat@gmail.com 51 TÀI LIỆU THAM KHẢO [1] R E H Geoffrey M Cooper (2004) The Cell: A Molecular Approach, 832 pages [2] P J Chaput (2012).[online] Available at: http://www.futurasciences.com/sante/actualites/medecine-alzheimer-parkinson-nouvelle-piste-300maladies-35922/[Accessed 12 September 2017] [3] D Whitford (2005) Proteins: Structure and Function, 542 pages [4] R Bailey (2017) [online]Available at: https://www.thoughtco.com/proteinfunction-373550 [Accessed 12 September 2017] [5] G Filiano (2016) [online] Available http://sb.cc.stonybrook.edu/news/general/2016-07-12-new-method-to-modelprotein-interactions-may-help-accelerate-drug-development.php [Accessed September 2017] at: 12 [6] G Waksman (2005).Proteomics and Protein-Protein Interactions: Biology, Chemistry, Bioinformatics, and Drug Design, pp 90-91 [7] T M Mitchell (1997) Machine Learning.McGraw-Hill Science/Engineering/ Math, (March 1, 1997), pp 3-5 [8] I Rish (2001) An empirical study of the naive Bayes classifier, pp 2-3 [9] O M Lior Rokach (2008) Data mining with decision trees: theory and applications World Scientific Publishing Co Pte Ltd, pp.4-5 [10] Zhang Q et al (2012) Structure-based prediction of protein-protein interactions on a genome-wide scale, pp.2-3 [11] Pitre S et al (2006) PIPE: a protein-protein interaction prediction engine based on the re-occurring short polypeptide sequences between known interacting protein pairs, pp.2-3 TIEU LUAN MOI download : skknchat@gmail.com 52 [12] Liu B et al (2009) Prediction of protein-protein interactions based on, pp.2-3 [13] Urquiza J et al (2011) Method for Prediction of Protein-Protein Interactions in Yeast Using Genomics/Proteomics Information and Feature Selection, pp 2-3 [14] Szklarczyk D et al (2011) The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored, pp 2-3 [15] Cai L et al (2003) SVM-Prot: web-based support vector machine software for functional classification of a protein from its primary sequence, pp.3-4 [16] Zou Q et al (2013) Identifying Multi-Functional Enzyme by Hierarchical.Journal of Computational & Theoretical Nanoscience, pp 1038-1043 [17] Ioannis X et al (2000) DIP: the Database of Interacting Proteins PubMed Central, pp 289-291 [18] Philipp B et al (2014) Negatome 2.0: a database of non-interacting proteins derived by literature mining, manual annotation and protein structure analysis.PubMed Central, 42:D396-D400 [19] Liu B et al (2008) A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and latent semantic analysis.BMC Bioinformatics, 9:510 [20] Zhu-Hong Y et al (2015) Predicting Protein-Protein Interactions from Primary Protein Sequences Using a Novel Multi-Scale Local Feature Representation Scheme and the Random Forest.PLoS One10 TIEU LUAN MOI download : skknchat@gmail.com ... CÔNG NGHỆ PHẠM VĂN HIẾU DỰ ĐOÁN TƢƠNG TÁC PROTEIN – PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 6048010 4 LUẬN VĂN THẠC SĨ CÔNG NGHỆ... protein – protein Và lý tơi định chọn đề tài? ?Dự đoán tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu? ?? 1.2 MỤC TIÊU ĐỀ TÀI Trong khn khổ luận văn này, tơi trình bày phƣơng pháp tính tốn... THANH HẢI Hà Nội – 2017 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn ? ?Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu? ?? sản phẩm

Ngày đăng: 27/06/2022, 15:39

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 2-1: Minh họa cấu trúc 3D một protein[2] - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 1: Minh họa cấu trúc 3D một protein[2] (Trang 11)
Hình 2-3: Minh họa tƣơng tác protei n– protein[5] - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 3: Minh họa tƣơng tác protei n– protein[5] (Trang 14)
Bảng 2-2: Bộ dữ liệu huấn luyện dự đốn tƣơng tác PPI - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 2 2: Bộ dữ liệu huấn luyện dự đốn tƣơng tác PPI (Trang 16)
Hình 2-5: Minh họa thuật tốn SVM - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 5: Minh họa thuật tốn SVM (Trang 19)
Hình 2-6: So sánh bộphân lớp đơn lẻ và bộphân lớptổng hợp - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 6: So sánh bộphân lớp đơn lẻ và bộphân lớptổng hợp (Trang 20)
Hình 2-7: Mơ hình hoạt động Bagging - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 7: Mơ hình hoạt động Bagging (Trang 21)
Hình 2-8: Mơ hình hoạt động Boosting - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 8: Mơ hình hoạt động Boosting (Trang 22)
Hình 2-9: Mơ hình hoạt động RandomForest - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 2 9: Mơ hình hoạt động RandomForest (Trang 23)
Gọi accucary là độ chính xác của mơ hình sẽ đƣợc tính nhƣ sau: - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
i accucary là độ chính xác của mơ hình sẽ đƣợc tính nhƣ sau: (Trang 24)
Hình 3-1: Sơ đồphƣơng pháp trích xuấtthuộc tínhn-gram - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 3 1: Sơ đồphƣơng pháp trích xuấtthuộc tínhn-gram (Trang 29)
Bảng 3-1: Bảng chia nhĩm 20 amino acid dựa vào tính lƣỡng cực và khối lƣợng mạch nhánh - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 3 1: Bảng chia nhĩm 20 amino acid dựa vào tính lƣỡng cực và khối lƣợng mạch nhánh (Trang 30)
4.1.1 Yêu cầu cấu hình - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
4.1.1 Yêu cầu cấu hình (Trang 36)
Hình 4-1: Giao diện chƣơng trình Dự đốn tƣơng tác protei n– protein sử dụng kỹ thuật khai phá dữ liệu  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 1: Giao diện chƣơng trình Dự đốn tƣơng tác protei n– protein sử dụng kỹ thuật khai phá dữ liệu (Trang 37)
Hình 4-2: Giao diện chức năng trích xuấtthuộc tính/đặc trƣng - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 2: Giao diện chức năng trích xuấtthuộc tính/đặc trƣng (Trang 37)
Hình 4-4: Giao diện chức năng Phân lớpthuộc tính/đặc trƣng - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 4: Giao diện chức năng Phân lớpthuộc tính/đặc trƣng (Trang 38)
Hình 4-5: Giao diện chức năng Đánh giá mơ hình thuật tốn - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 5: Giao diện chức năng Đánh giá mơ hình thuật tốn (Trang 39)
Bảng 4-3: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính MLD, khơng giảm chiều số thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 3: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính MLD, khơng giảm chiều số thuộc tính (Trang 41)
Bảng 4-4: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 4: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính (Trang 42)
Hình 4-6: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, khơng giảm chiều số thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 6: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, khơng giảm chiều số thuộc tính (Trang 42)
Bảng 4-5: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 5: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính (Trang 43)
Hình 4-7: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 7: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính MLD, giảm chiềucịn 100 thuộc tính (Trang 44)
Bảng 4-7: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiềuthuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 7: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiềuthuộc tính (Trang 45)
Bảng 4-6: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiều thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 6: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiều thuộc tính (Trang 45)
Hình 4-8: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiều số thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 8: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, khơng giảm chiều số thuộc tính (Trang 46)
Bảng 4-9: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính n-gram, giảm chiềucịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 9: Thời gian thực hiện phƣơng pháp trích xuấtthuộc tính n-gram, giảm chiềucịn 100 thuộc tính (Trang 47)
Bảng 4-8: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, giảm chiềucịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Bảng 4 8: Kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, giảm chiềucịn 100 thuộc tính (Trang 47)
Hình 4-9: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, giảm chiều cịn 100 thuộc tính  - (LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths  máy tính 604801
Hình 4 9: Biểu đồ kết quả thực nghiệmphƣơng pháp trích xuấtthuộc tính n-gram, giảm chiều cịn 100 thuộc tính (Trang 48)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN