Dự đoán tương tác protein protein sử dụng kỹ thuật khai phá dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM VĂN HIẾU DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM VĂN HIẾU DỰ ĐỐN TƢƠNG TÁC PROTEIN – PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu” sản phẩm thực dƣới hƣớng dẫn TS.Đặng Thanh Hải Trong toàn nội dung luận văn, điều đƣợc trình bày nghiên cứu đƣợc từ tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tôi xin chịu trách nhiệm cho lời cam đoan Hà Nội, ngày 10tháng10 năm 2017 Ngƣời cam đoan Phạm Văn Hiếu LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hƣớng dẫn tôi, TS Đặng Thanh Hải Thầy giúp tơi có hội để theo đuổi nghiên cứu lĩnh vực u thích Trong suốt trình thực luận văn, thầy tận tình hƣớng dẫn cho tơi, góp ý cho tơi đƣờng lối, đồng thời đƣa lời khuyên bổ ích để tơi hồn thành luận văn Tiếp đến, xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ Thông tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt cho kiến thức kinh nghiệm vơ q báu q trình học tập nghiên cứu Tôi muốn cảm ơn bạn lớp đồng nghiệp cho lời động viên, hỗ trợ góp ý mặt chun mơn Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, ngƣời bên cạnh ủng hộ động viên Hà Nội, tháng 10năm 2017 Phạm Văn Hiếu MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .5 DANH MỤC BẢNG BIỂU .6 CHƢƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU ĐỀ TÀI .7 CHƢƠNG : CƠ SỞ LÝ THUYẾT .9 2.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PROTEIN .9 2.1.1 Cấu trúc Protein .9 2.1.2 Chức Protein 11 2.1.3 Định nghĩa quan hệ tƣơng tác protein – protein (PPI) 12 2.1.4 Tầm quan trọng tƣơng tác protein – protein 12 2.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU .13 2.2.1 Định nghĩa khai phá liệu 13 2.2.2 Định nghĩa học có giám sát .13 2.2.3 Khái niệm thuật tốn phân lớp học có giám sát 14 2.2.4 Bài toán phân lớp 15 2.2.5 Tổng quan số thuật toán phân lớp 15 2.2.6 Kết hợp phân lớp 17 2.2.7 Một số phƣơng pháp kết hợp phân lớp 18 2.2.8 Đánh giá mô hình phân lớp 21 CHƢƠNG : DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN .24 3.1 MƠ HÌNH DỰ ĐOÁN TƢƠNG TÁC PROTEIN – PROTEIN 24 3.2 XÂY DỰNG MƠ HÌNH THỰC NGHIỆM .26 3.2.1 Xây dựng liệu 26 3.2.2 Trích xuất thuộc tính/đặc trƣng .26 3.2.3 Lựa chọn thuộc tính/đặc trƣng .29 3.2.4 Phân lớp đặc trƣng 31 CHƢƠNG KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN .34 4.1 CHƢƠNG TRÌNH CÀI ĐẶT 34 4.1.1 Yêu cầu cấu hình 34 4.1.2 Cài đặt 34 4.2 KẾT QUẢ DỰ ĐOÁN TƢƠNG TÁC PROTEIN - PROTEIN 37 4.3 NHẬN XÉT 48 4.4 KẾT LUẬN 49 4.5 HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI .50 TÀI LIỆU THAM KHẢO .51 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 2-1: Minh họa cấu trúc 3D protein [2] Hình 2-2: Cấu tạo amino acid 10 Hình 2-3: Minh họa tƣơng tác protein – protein [5] 12 Hình 2-4: Minh họa Decision Tree 16 Hình 2-5: Minh họa thuật toán SVM .17 Hình 2-6: So sánh phân lớp đơn lẻ phân lớp tổng hợp 18 Hình 2-7: Mơ hình hoạt động Bagging 19 Hình 2-8: Mơ hình hoạt động Boosting 20 Hình 2-9: Mơ hình hoạt động Random Forest 21 Hình 3-1: Sơ đồ phƣơng pháp trích xuất thuộc tính n-gram 27 Hình 3-2: Sơ đồ kết hợp vector thuộc tính cặp protein - protein 28 Hình 3-3: Sơ đồ thuật tốn Bagging tập 𝑛1 mẫu huấn luyện .32 Hình 4-1: Giao diện chƣơng trình Dự đốn tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu 35 Hình 4-2: Giao diện chức trích xuất thuộc tính/đặc trƣng 35 Hình 4-3: Giao diện chức lựa chọn thuộc tính/đặc trƣng .35 Hình 4-4: Giao diện chức Phân lớp thuộc tính/đặc trƣng .36 Hình 4-5: Giao diện chức Đánh giá mơ hình thuật tốn .37 Hình 4-6: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính .40 Hình 4-7: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 42 Hình 4-8: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính .44 Hình 4-9: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính .46 DANH MỤC BẢNG BIỂU Bảng 2-1: Bảng chức loại protein [4] 11 Bảng 2-2: Bộ liệu huấn luyện dự đoán tƣơng tác PPI 14 Bảng 2-3: Bảng giá trị ma trận confusion (chƣa chuẩn hóa) 22 Bảng 2-4: Bảng giá trị ma trận confusion (chuẩn hóa) 22 Bảng 3-1: Bảng chia nhóm 20 amino acid dựa vào tính lƣỡng cực khối lƣợng mạch nhánh .28 Bảng 4-1: Bảng giá trị phân lớp dự đoán 37 Bảng 4-2: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 38 Bảng 4-3: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 39 Bảng 4-4: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 40 Bảng 4-5: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 41 Bảng 4-6: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .43 Bảng 4-7: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .43 Bảng 4-8: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 45 Bảng 4-9: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 45 Bảng 4-10: Bảng kết tổng hợp phƣơng pháp phân lớp 47 CHƢƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI Protein thành phần quan trọng trongtế bào nói riêng thể sống nói chung, tƣơng tác protein – protein cách để protein thể đƣợc chức sinh học Vì hiểu biết tƣơng tác protein – protein giúp hiểu sâu chức protein, tìm đƣợc vai trò protein Vào thời điểm bắt đầu nghiên cứu tƣơng tác protein – protein, nhà khoa học thƣờng sử dụng phƣơng pháp hóa sinh để phân tích dự đốn Tuy nhiên phƣơng pháp thực nghiệm đắt tiền, tốn nhiều thời gian, cơng sức, nhiều khó để thực Vì nên yêu cầu cấp thiết đƣợc đặt dự đoán cách áp dụng khai phá liệu phát triển mơ hình tính tốn tự động để đạt hiệu cao, nhanh nhƣ bổ sung cho phƣơng pháp thực nghiệm Theo thời gian, số lƣợng ngày tăng tập cặp protein – protein tƣơng tác với (và tập không tƣơng tác) đƣợc thực nghiệm xác định Sự tích lũy liệu vềtƣơng tác protein – protein thực nghiệm đem lại lợi mặt đầy đủ thơng tin để tính tốn dự đốn đƣợc thêm tƣơng tác protein – protein Và lý định chọn đề tài“Dự đoán tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu” 1.2 MỤC TIÊU ĐỀ TÀI Trong khn khổ luận văn này, tơi trình bày phƣơng pháp tính tốn cho dự đốn tƣơng tác protein – protein khác với phƣơng pháp phân lớp truyền thống, xây dựng mơ hình phân lớp theo hƣớng áp dụng thuật toán phân lớp tổng hợp, kết hợp mơ hìnhcác phân lớp đơn lẻ yếu thành mơ hình mạnh, nhằm đạt đƣợc hiệu phân lớp tối ƣu Với toán nhƣ trên, đặt mục tiêu cho đề tài tìm hiểu xây dựng thành cơng mơ hình dự đoán tƣơng tác protein-protein dựa thuật toán phân lớp tổng hợp, phƣơng pháp đƣợc chứng minh tốt thuật toán phân lớp đơn lẻ truyền thống, từ làm tiền đề áp dụng vào thực tế triển khai nghiên cứu dự đoán tƣơng tác protein – protein cách hiệu Để đạt đƣợc mục tiêu đó, cơng việc tơi thực luận văn là: Nghiên cứu sở lý thuyết khái niệm protein, cấu trúc protein sinh học, nhằm phục vụ cho việc khai thác thuộc tính chúng sử dụng tính tốn; Nghiên cứu sở lý thuyết kỹ thuật khai phá liệu (nói chung) kỹ thuật phân lớp liệu (nói riêng), làm sở cho xây dựng chƣơng trình thực nghiệm chứng minh tính đắn kết thực nghiệm Với chƣơng trình thực nghiệm, bƣớc đầu đạt đƣợc mục tiêu đề tài chứng minh đƣợc tính hiệu áp dụng giải thuật phân lớp tổng hợp vào toán dự đoán tƣơng tác protein – protein so với giải thuật khác Qua đạt đƣợc mục tiêu xa tƣơng lai, ví dụ nhƣ từ giải thuật đề tài làm móng cho giải thuật khác triển khai hiệu hơn, giúp tăng hiệu nhƣ độ xác toán “Dự đoán tƣơng tác protein – protein sử dụng kỹ thuật khai phá liệu” 38 1288 1289 0 Để biểu diễn kết ngắn gọn tƣờng minh, nghiên cứu sử dụng độ đo F để hiển thị chƣơng trình tƣơng ứng với thuật tốn liệu.Ta hiển thị kết theo hƣớng: sử dụng thuật tốn trích xuất thuộc tính/đặc trƣng n-gram thuật tốn trích xuất thuộc tính/đặc trƣng MLD Sau bƣớc trích xuất thuộc tính/đặc trƣng, ta lựa chọn thuộc tính với số thuộc tính lựa chọn nhỏ số thuộc tính ban đầu Trong nghiên cứu này, ta thực lựa chọn thuộc tính với số thuộc tính rút gọn 100 thuộc tính so sánh kết quảphân lớp đặc trƣng tập liệu ban đầu tập liệu rút gọn thuộc tính Sử dụng thuật tốn trích xuất thuộc tính/đặc trƣng MLD, sau ta nghiên cứu kết theo hƣớng: Hƣớng thứ nhất, dùng nguyên tập thuộc tính ban đầu làm đầu vào cho thuật toán phân lớp, hƣớng thứ hai, dùng phƣơng pháp MRMD giảm bớt số chiều thuộc tính từ 1134 thuộc tính xuống cịn 100 thuộc tính Trong bảng biểu diễn kết ta xếp thành cặp theo luật: thuật toán phân lớp đơn lẻ A - thuật tốn phân lớp tổng hợp có sở thuật toán phân lớp đơn lẻ A tƣơng ứng Cụ thể cặp: Decision Stump - AdaBoostM1, REPTree – Bagging, RandomTree – RandomForest Ta có kết thực nghiệm đo đƣợc với phƣơng pháp trích xuất thuộc tính/đặc trƣng MLD, giữ nguyên tập 1134 thuộc tính sau trích xuất làm tập đầu vào phân lớp nhƣ sau: Bảng 4-2: Kết thực nghiệmphƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 69,72 71,09 82,66 87,33 79,85 87,88 S2 70,04 71,30 79,65 87,55 79,48 86,39 S3 66,06 67,92 78,96 84,3 76,06 83,80 S4 65,27 67,59 79,47 85,54 78,31 84,57 S5 69,88 73,36 78,75 85 75,92 84,60 S6 68,03 68,45 76,74 86,25 78,50 85,76 S7 67,41 75,17 81,05 87,62 78,54 85,43 S8 67,28 67,21 77,26 85,58 77,91 84,09 39 S9 64,01 70,46 82,15 87,42 76,65 85,56 S10 69,90 74,55 79,60 86,33 76,92 85,82 Trung bình 67,76 70,71 79,63 86,29 77,81 85,39 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng thực nghiệm.Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-3: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Thời gian Decision (s) Stump MLD – 18;21;22; AdaBoost REPTree Bagging Random Random Tree Forest 107;129; 37;38;40; 225;222; 9;9;10;9; 16;16;17; không giảm 21;17;18; 140;95; 33;34;32; 235;230; 9;9;9;9; 16;15;15; chiều thuộc 18;17;17; 94;101; 32;34;35; 224;220; 9;9 15;15;16; tính 97;98; 34 220;224; 17 102;105 18,6 106,8 15 226;230 34,9 225,6 9,1 15,6 40 Hình 4-6: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Sau trích xuất thuộc tính/đặc trƣng MLD, giảm chiều thuộc tính xuống cịn 100 thuộc tính, ta có kết thực nghiệm đo đƣợc nhƣ sau: Bảng 4-4: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 68,81 69,82 76,96 82,91 76,41 81,52 S2 67,39 70,06 75,88 82,10 74,74 82,52 S3 67,47 67,71 73,09 82,80 73,12 81,85 S4 67,09 70,17 75,38 84,15 73,57 82,07 S5 68,35 69,63 75,93 80,51 74,49 80,51 S6 67,90 68,84 73,88 81,72 72,66 80,28 41 S7 69,69 72,42 76,59 82,94 76,17 82,81 S8 67,13 67,80 74,68 81,80 76,39 81,66 S9 66,42 66,67 72,86 82,64 75,04 81,46 S10 68,46 71,45 73,92 82,80 73,36 81,07 Trung bình 67,87 69,46 74,92 82,44 74,60 81,58 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết biểu diễn giá trị độ đo F(%) Bảng 4-5: Thời gian thực phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Thời gian Decision (s) Stump AdaBoost REPTree Bagging Random Random Tree Forest MLD–100 3;4;4;3;2; 6;9;8;8;6; 3;2;2;2;2; 18;18;17; 1;1;1;1;1; 4;4;4;4;4; thuộc tính 2;1;1;1;1 2;2;2;2;2 8;7;10;6; 17;18;17; 1;1;1;1;1 4;4;4;4;4 18;17;19; 18 2,2 7,5 2,1 17,7 42 Hình 4-7: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Sử dụng phƣơng pháp trích xuất thuộc tính/đặc trƣng n-gram cho vector 8420 thuộc tính Nếu đem trực tiếp vector làm tập liệu đầu vào cho thuật tốn phân lớp, ta có kết nhƣ sau: 43 Bảng 4-6: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,83 77,59 85,60 78,41 84,77 S2 70,27 76,99 77,20 85,55 77,82 85,60 S3 68,82 76,12 78,10 86,01 77,53 85,82 S4 70,22 76,29 76,84 86,25 81,50 85,67 S5 69,65 76,22 78,25 85,37 78,15 84,69 S6 71,40 76,30 79,35 86,55 79,53 86,19 S7 67,55 74,61 78,95 86,06 79,11 86,09 S8 69,02 73,27 79,27 85,74 79,45 84,68 S9 68,98 76,01 81,10 87,54 78 85,35 S10 68,41 73,12 79,21 85,56 77,46 84,71 Trung bình 69,18 75,28 78,59 86,02 78,70 85,36 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-7: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiềuthuộc tính Thời gian Decision (s) Stump n-gram – 111;114; 973;981; 1165;1162; 7572;7560; 20;26;26; 46;77;44; 105;109; 962;971; 1167;1167; 7580;7582; 18;18;18; 44;43;43; giảm chiều 107;109; 968;980; 1161;1165; 7570;7578; 18;19;20; 45;43;46; thuộc tính 110;110; 982;979; 1171;1168; 7582;7573; 25 101;108 975;982 1175;1180 7585;7594 1168,1 7577,6 không 108,4 AdaBoost 975,3 REPTree Bagging Random Random Tree Forest 43 20,8 47,4 44 Hình 4-8: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính Nếu đem vector thuộc tính ban đầu sau trích xuất thuộc tính phƣơng pháp n-gram giảm chiều cịn 100 thuộc tính với phƣơng pháp MRMD, sau đem tập vector thuộc tính rút gọn làm đầu vào cho thuật toán phân lớp Ta thu đƣợc kết thực nghiệm nhƣ sau: 45 Bảng 4-8: Kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,89 75,14 80,52 77,07 81,54 S2 70,27 76,01 80,03 81,99 78,03 82,54 S3 68,92 76,15 75,52 80,91 74,56 82,37 S4 70,12 76,26 78,86 81,74 78,54 82,58 S5 69,62 76,20 77,06 82,33 77,09 82,74 S6 71,39 76,18 79,72 82,76 77,15 83,04 S7 67,50 74,57 78,97 81,27 77,69 82,89 S8 69,07 73,57 79,64 82,79 77,69 82,10 S9 68,97 75,73 77,96 80,72 77,38 81,86 S10 68,39 72,74 77,05 80,35 76,08 81,41 Trung bình 69,17 75,13 78,00 81,54 77,13 82,31 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết đƣợc biểu diễn giá trị độ đo F (%) Bảng 4-9: Thời gian thực phƣơng pháp trích xuất thuộc tính n-gram, giảm chiềucịn 100 thuộc tính Thời gian Decision (s) Stump n-gram– Random Random Tree Forest 6;6;6;6;6; 2;1;1;2;1; 14;14;15; 0,5;0,5; 3;3;3;3; 5;5;6;6;6 2;2;1;2;2 17;14;15; 0,5;0,5; 3;3;3;3; 0,5;0,5; 15;15;16; 0,5;0,5; 3;3 0,5;0,5 16 1;1;1;0,5; 100 thuộc 0,5;0,5; tính AdaBoost REPTree Bagging 0,5;0,5; 0,5;0,5 0,65 5,8 1,6 15,1 0,5 46 Hình 4-9: Biểu đồ kết thực nghiệm phƣơng pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 47 Tổng kết, ta có bảng rút gọn kết thực nghiệm nghiên cứu cho phƣơng pháp trích xuất thuộc tính/đặc trƣng, phƣơng pháp phân lớp nhƣ sau: Bảng 4-10: Bảng kết tổng hợp phƣơng pháp phân lớp Phƣơng Đơn Decision Ada REP pháp vị Stump Boost Tree MLD – Độ Bagging Random Tree Random Forest 67,76 70,71 79,63 86,29 77,81 85,39 18,6 106,8 34,9 225,6 9,1 15,6 68,17 69,46 74,92 82,44 74,60 81,58 2,2 7,5 2,1 17,7 69,18 75,28 78,59 86,02 78,70 85,36 108,4 975,3 1168,1 7577,6 20,8 47,4 69,18 75,13 78,00 81,54 77,13 82,31 0,65 5,8 1,6 15,1 0,5 không giảm đo F chiều thuộc (%) tính (1134 Thời thuộc tính) gian (s) MLD – giảm Độ chiều 100 đo F thuộc (%) tính Thời gian (s) n-gram – Độ khơng giảm đo F chiều thuộc (%) tính (8420 Thời thuộc tính) gian (s) n-gram – Độ giảm chiều đo F 100 (%) thuộc tính Thời gian (s) 48 4.3 NHẬN XÉT Về tổng quan ta nhận thấy mơ hìnhphân lớp đơn lẻ có độ xác kiểm định thấp nhiều so với mơ hình phân lớp tổng hợp tƣơng ứng mà sử dụng mơ hình phân lớp đơn lẻ làm sở Cụ thể, hiệu dự đốn mơ hình thuật tốn Decision Stump thấp mơ hình thuật tốn AdaBoostM1 trung bình khoảng 4% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn REPTree thấp mơ hình thuật tốn Bagging trung bình khoảng 7% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn Random Tree thấp mơ hình thuật tốn Random Forest trung bình khoảng 7% (theo độ đo F) Nhƣng xét chi phí cho tốn, phƣơng pháp phân lớp đơn lẻ có chi phí thấp nhiều so với phƣơng pháp phân lớp tổng hợp tƣơng ứng Cụ thể, chi phí cho thuật tốn phân lớpDecision Stump xấp xỉ khoảng [20;30] (%) chi phí cho thuật tốn phân lớpAdaBoostM1, chi phí cho thuật tốn phân lớpREPTree xấp xỉ khoảng[12;15] (%) chi phí cho thuật tốn phân lớpBagging, chi phí cho thuật tốn phân lớpRandom Tree xấp xỉ khoảng [25;50] (%) chi phí cho thuật tốn phân lớpRandom Forest Tiếp theo, nhận xét hiệu dự đoán phân lớp sử dụng phƣơng pháp lựa chọn thuộc tính/đặc trƣng MRMD để giảm chiều liệu Ta thấy thuật toán phân lớp sử dụng đầu vào tập vector thuộc tính rút gọncó chi phí giảm đáng kể so với sử dụng đầu vào giữ nguyên tập vector thuộc tính ban đầu, mức chi phí giảm khoảng từ [10;25](%) Nhƣng hiệu dự đoán giảm xuống, dao động khoảng [1;4](%) (theo độ đo F) Mức hiệu dự đoán bị giảm chấp nhận đƣợc so với chi phí chạy chƣơng trình tiết kiệm đƣợc So sánh hai phƣơng pháp trích xuất thuộc tính/đặc trƣng n-gram MLD Ta thấy hiệu dự đốn chi phí bỏ nhƣ sau:Hiệu cho phƣơng pháp trích xuất thuộc tính/đặc trƣng tƣơng đƣơng nhau, chi phí bỏ chạy thuật toán với trƣờng hợp giảm chiều thuộc tính phƣơng pháp n-gram tốt phƣơng pháp MLD, với trƣờng hợp khơng giảm chiều thuộc tính phƣơng pháp n-gram khơng phù hợp 49 thời gian xử lý thuật toán lâu, đặc biệt áp dụng với thuật tốn phân lớp Bagging Nhƣng chi phí để thực giảm chiều thuộc tính cho phƣơng pháp n-gram MLD phƣơng pháp MLD có chi phí thấp nhiều lần so với phƣơng pháp n-gram thời gian cấu hình máy tính u cầu Vì xét tính hiệu ta chọn MLD thay n-gram So sánh cặp thuật tốn với nhau, cụ thể cặp Decision Stump – AdaBoostM1, REPTree – Bagging, cặp Random Tree – Random Forest Ta thấy cặp Decision Stump – AdaBoostM1 có hiệu dự đốn thấp cặp cịn lại Hai cặp REPTree – Bagging Random Tree – Random Forest có hiệu dự đốn tƣơng đƣơng nhau, nhƣng xét chi phí cho thuật tốn cặp Random Tree – Random Forest có chi phí bỏ thấp nhiều lần so với cặp REPTree – Bagging Từ nhận xét trên, ta rút kết cuối cùng: Phƣơng pháp hiệu nghiên cứu cho dự đoán toán “Dự đoán tƣơng tác protein – protein sử dụng phƣơng pháp khai phá liệu” phƣơng pháp phân lớp Random Forest, có sử dụng phƣơng pháp trích xuất thuộc tính/đặc trƣng MLD phƣơng pháp lựa chọn thuộc tính/đặc trƣng MRMD để giảm chiều thuộc tính 4.4 KẾT LUẬN Luận văn đạt đƣợc hai kết quan trọng q trình xây dựng chƣơng trình dự đốn tƣơng tác protein - protein sử dụng kỹ thuật khai phá liệu Về nghiên cứu tìm hiểu: - Nghiên cứu khái niệm sinh học liên quan protein, cấu trúc protein - Nghiên cứu khái niệm khai phá liệu tảng liên quan đến kỹ thuật phân lớp liệu - Tìm hiểu tổng quan số thuật tốn phân lớp - Tìm hiểu phƣơng pháp phân lớp tổng hợp (ensemble) số phƣơng pháp kết hợp phân lớp - Tìm hiểu khái niệm đánh giá mơ hình phân lớp Về thực nghiệm: - Xây dựng đƣợc chƣơng trình dự đốn tƣơng tác protein - protein phƣơng pháp phân lớp tổng hợp - Xây dựng đƣợc hàm đánh giá so sánh kết thực nghiệm phƣơng pháp phân lớp tổng hợp phân lớp đơn lẻ 50 - Tiến hành thử nghiệm nhiều tập liệu ngẫu nhiên khác để đảm bảo tính xác khách quan - Xây dựng giao diện trực quan, dễ dàng sử dụng cho ngƣời dùng Luận văn giới thiệu phƣơng pháp áp dụng mô hình phân lớp tổng hợp vào nghiên cứu dự đốn tƣơng tác protein - protein Cũng nhƣ chứng minh đƣợc mặt lý thuyết thực nghiệm phƣơng pháp áp dụng mơ hình phân lớptổng hợp ƣu việt giải thuật mơ hình phân lớp đơn lẻ, có độ xác cao độ ổn định tốt So với cơng trình nghiên cứu cơng bố, đóng góp luận văn có thêm so sánh bƣớc xây dựng mơ hình dự đốn phân lớp, để tìm phƣơng pháp dự đốn hiệu Và chứng minh đƣợc hầu hết kết thu đƣợc từ mơ hình phân loại tổng hợp hiệu dự đốn mơ hình phân loại đơn lẻ Từ có thêm nghiên cứu sâu mơ hình phân loại tổng hợp áp dụng vào toán “Dự đoán tƣơng tác protein – protein” 4.5 HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI Trong luận văn tơi chƣa sâu vào tìm hiểu đƣợc cách kết hợp thuật toán thuật tốn phân lớp tổng hợp Về ngơn ngữ lập trình vấn đề tối ƣu thời gian hiệu suất xử lý nguồn liệu lớn hạn chế, từ làm giảm độ xác kết thực nghiệm Vì vậy, tƣơng lai, tơi mong muốn đƣợc tìm hiểu áp dụng sâu cách kết hợp giải thuật đơn lẻ vào mơ hình phân lớp tổng hợp thực tối ƣu mặt ngôn ngữ lập trình đảm bảo xử lý liệu lớn cách nhanh chóng thời gian hiệu suất xử lý 51 TÀI LIỆU THAM KHẢO [1] R E H Geoffrey M Cooper (2004) The Cell: A Molecular Approach, 832 pages [2] P J Chaput (2012).[online] Available at: http://www.futurasciences.com/sante/actualites/medecine-alzheimer-parkinson-nouvelle-piste-300maladies-35922/[Accessed 12 September 2017] [3] D Whitford (2005) Proteins: Structure and Function, 542 pages [4] R Bailey (2017) [online]Available at: https://www.thoughtco.com/proteinfunction-373550 [Accessed 12 September 2017] [5] G Filiano (2016) [online] Available http://sb.cc.stonybrook.edu/news/general/2016-07-12-new-method-to-modelprotein-interactions-may-help-accelerate-drug-development.php [Accessed September 2017] at: 12 [6] G Waksman (2005).Proteomics and Protein-Protein Interactions: Biology, Chemistry, Bioinformatics, and Drug Design, pp 90-91 [7] T M Mitchell (1997) Machine Learning.McGraw-Hill Science/Engineering/ Math, (March 1, 1997), pp 3-5 [8] I Rish (2001) An empirical study of the naive Bayes classifier, pp 2-3 [9] O M Lior Rokach (2008) Data mining with decision trees: theory and applications World Scientific Publishing Co Pte Ltd, pp.4-5 [10] Zhang Q et al (2012) Structure-based prediction of protein-protein interactions on a genome-wide scale, pp.2-3 [11] Pitre S et al (2006) PIPE: a protein-protein interaction prediction engine based on the re-occurring short polypeptide sequences between known interacting protein pairs, pp.2-3 52 [12] Liu B et al (2009) Prediction of protein-protein interactions based on, pp.2-3 [13] Urquiza J et al (2011) Method for Prediction of Protein-Protein Interactions in Yeast Using Genomics/Proteomics Information and Feature Selection, pp 2-3 [14] Szklarczyk D et al (2011) The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored, pp 2-3 [15] Cai L et al (2003) SVM-Prot: web-based support vector machine software for functional classification of a protein from its primary sequence, pp.3-4 [16] Zou Q et al (2013) Identifying Multi-Functional Enzyme by Hierarchical.Journal of Computational & Theoretical Nanoscience, pp 1038-1043 [17] Ioannis X et al (2000) DIP: the Database of Interacting Proteins PubMed Central, pp 289-291 [18] Philipp B et al (2014) Negatome 2.0: a database of non-interacting proteins derived by literature mining, manual annotation and protein structure analysis.PubMed Central, 42:D396-D400 [19] Liu B et al (2008) A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and latent semantic analysis.BMC Bioinformatics, 9:510 [20] Zhu-Hong Y et al (2015) Predicting Protein-Protein Interactions from Primary Protein Sequences Using a Novel Multi-Scale Local Feature Representation Scheme and the Random Forest.PLoS One10 ... cùng: Phƣơng pháp hiệu nghiên cứu cho dự đoán toán ? ?Dự đoán tƣơng tác protein – protein sử dụng phƣơng pháp khai phá liệu? ?? phƣơng pháp phân lớp Random Forest, có sử dụng phƣơng pháp trích xuất... protein, cấu trúc protein; Các khái niệmkhai phá liệu tảng liên quan đến kỹ thuật phân lớp liệu, nhằm củng cố kiến thức tạo tiền đề áp dụng giải toán ? ?Dự đoán tƣơng tác protein – protein sử dụng. .. dự đoán tƣơng tác mẫu đầu vào Từ suy độ xác mơ hình thuật tốn 3.1 MƠ HÌNH DỰ ĐỐN TƢƠNG TÁC PROTEIN – PROTEIN Để giải toán dự đoán tƣơng tác protein – protein Trong năm gần đây, nhiều phƣơng pháp

Định dạng
Số trang	54
Dung lượng	1,74 MB