Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM VĂN HIẾU DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM VĂN HIẾU DỰ ĐỐN TƯƠNG TÁC PROTEIN – PROTEIN SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn “ Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu” sản phẩm thực hướng dẫn TS Đặng Thanh Hải Trong toàn nội dung luận văn, điều trình bày tơi nghiên cứu từ tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu trách nhiệm cho lời cam đoan Hà Nội, ngày 10 tháng 10 năm 2017 Người cam đoan Phạm Văn Hiếu LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy hướng dẫn tôi, TS Đặng Thanh Hải Thầy giúp tơi có hội để theo đuổi nghiên cứu lĩnh vực u thích Trong suốt q trình thực luận văn, thầy tận tình hướng dẫn cho tơi, góp ý cho đường lối, đồng thời đưa lời khun bổ ích để tơi hồn thành luận văn Tiếp đến, tơi xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ Thông tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt cho kiến thức kinh nghiệm vơ q báu q trình học tập nghiên cứu Tơi muốn cảm ơn bạn lớp đồng nghiệp cho lời động viên, hỗ trợ góp ý mặt chun mơn Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, người ln bên cạnh ủng hộ động viên Hà Nội, tháng 10 năm 2017 Phạm Văn Hiếu MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .5 DANH MỤC BẢNG BIỂU CHƯƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU ĐỀ TÀI .7 CHƯƠNG : CƠ SỞ LÝ THUYẾT .9 2.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PROTEIN .9 2.1.1 Cấu trúc Protein .9 2.1.2 Chức Protein 11 2.1.3 Định nghĩa quan hệ tương tác protein – protein (PPI) 12 2.1.4 Tầm quan trọng tương tác protein – protein 12 2.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU .13 2.2.1 Định nghĩa khai phá liệu 13 2.2.2 Định nghĩa học có giám sát .13 2.2.3 Khái niệm thuật toán phân lớp học có giám sát 14 2.2.4 Bài toán phân lớp 14 2.2.5 Tổng quan số thuật toán phân lớp 15 2.2.6 Kết hợp phân lớp 17 2.2.7 Một số phương pháp kết hợp phân lớp 18 2.2.8 Đánh giá mơ hình phân lớp 21 CHƯƠNG : DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN .24 3.1 MƠ HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEIN – PROTEIN 24 3.2 XÂY DỰNG MÔ HÌNH THỰC NGHIỆM .26 3.2.1 Xây dựng liệu 26 3.2.2 Trích xuất thuộc tính/đặc trưng .26 3.2.3 Lựa chọn thuộc tính/đặc trưng .29 3.2.4 Phân lớp đặc trưng 31 CHƯƠNG KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN .34 4.1 CHƯƠNG TRÌNH CÀI ĐẶT 34 4.1.1 Yêu cầu cấu hình 34 4.1.2 Cài đặt 34 4.2 KẾT QUẢ DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN 37 4.3 NHẬN XÉT 47 4.4 KẾT LUẬN 48 4.5 HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI .49 TÀI LIỆU THAM KHẢO .50 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 2-1: Minh họa cấu trúc 3D protein [2] Hình 2-2: Cấu tạo amino acid 10 Hình 2-3: Minh họa tương tác protein – protein [5] 12 Hình 2-4: Minh họa Decision Tree 16 Hình 2-5: Minh họa thuật tốn SVM .17 Hình 2-6: So sánh phân lớp đơn lẻ phân lớp tổng hợp 18 Hình 2-7: Mơ hình hoạt động Bagging 19 Hình 2-8: Mơ hình hoạt động Boosting .20 Hình 2-9: Mơ hình hoạt động Random Forest 21 Hình 3-1: Sơ đồ phương pháp trích xuất thuộc tính n-gram 27 Hình 3-2: Sơ đồ kết hợp vector thuộc tính cặp protein - protein 27 Hình 3-3: Sơ đồ thuật tốn Bagging tập mẫu huấn luyện .32 Hình 4-1: Giao diện chương trình Dự đốn tương tác protein – protein sử dụng kỹ thuật khai phá liệu .34 Hình 4-2: Giao diện chức trích xuất thuộc tính/đặc trưng 35 Hình 4-3: Giao diện chức lựa chọn thuộc tính/đặc trưng .35 Hình 4-4: Giao diện chức Phân lớp thuộc tính/đặc trưng .36 Hình 4-5: Giao diện chức Đánh giá mơ hình thuật tốn .36 Hình 4-6: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 39 Hình 4-7: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 41 Hình 4-8: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính 43 Hình 4-9: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 45 DANH MỤC BẢNG BIỂU Bảng 2-1: Bảng chức loại protein [4] 11 Bảng 2-2: Bộ liệu huấn luyện dự đoán tương tác PPI 14 Bảng 2-3: Bảng giá trị ma trận confusion (chưa chuẩn hóa) 22 Bảng 2-4: Bảng giá trị ma trận confusion (chuẩn hóa) 22 Bảng 3-1: Bảng chia nhóm 20 amino acid dựa vào tính lưỡng cực khối lượng mạch nhánh .28 Bảng 4-1: Bảng giá trị phân lớp dự đoán 37 Bảng 4-2: Kết thực nghiệm phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 38 Bảng 4-3: Thời gian thực phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính 39 Bảng 4-4: Kết thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 40 Bảng 4-5: Thời gian thực phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính 40 Bảng 4-6: Kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .42 Bảng 4-7: Thời gian thực phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính .42 Bảng 4-8: Kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 44 Bảng 4-9: Thời gian thực phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 44 Bảng 4-10: Bảng kết tổng hợp phương pháp phân lớp 46 CHƯƠNG : MỞ ĐẦU 1.1 LÝ DO CHỌN ĐỀ TÀI Protein thành phần quan trọng tế bào nói riêng thể sống nói chung, tương tác protein – protein cách để protein thể chức sinh học Vì hiểu biết tương tác protein – protein giúp hiểu sâu chức protein, tìm vai trò protein Vào thời điểm bắt đầu nghiên cứu tương tác protein – protein, nhà khoa học thường sử dụng phương pháp hóa sinh để phân tích dự đốn Tuy nhiên phương pháp thực nghiệm đắt tiền, tốn nhiều thời gian, cơng sức, nhiều khó để thực Vì nên yêu cầu cấp thiết đặt dự đoán cách áp dụng khai phá liệu phát triển mơ hình tính toán tự động để đạt hiệu cao, nhanh bổ sung cho phương pháp thực nghiệm Theo thời gian, số lượng ngày tăng tập cặp protein – protein tương tác với (và tập không tương tác) thực nghiệm xác định Sự tích lũy liệu tương tác protein – protein thực nghiệm đem lại lợi mặt đầy đủ thơng tin để tính tốn dự đoán thêm tương tác protein – protein Và lý tơi định chọn đề tài “Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu” 1.2 MỤC TIÊU ĐỀ TÀI Trong khuôn khổ luận văn này, trình bày phương pháp tính tốn cho dự đốn tương tác protein – protein khác với phương pháp phân lớp truyền thống, xây dựng mơ hình phân lớp theo hướng áp dụng thuật toán phân lớp tổng hợp, kết hợp mơ hình phân lớp đơn lẻ yếu thành mô hình mạnh, nhằm đạt hiệu phân lớp tối ưu Với toán trên, đặt mục tiêu cho đề tài tìm hiểu xây dựng thành cơng mơ hình dự đốn tương tác protein-protein dựa thuật toán phân lớp tổng hợp, phương pháp chứng minh tốt thuật toán phân lớp đơn lẻ truyền thống, từ làm tiền đề áp dụng vào thực tế triển khai nghiên cứu dự đoán tương tác protein – protein cách hiệu Để đạt mục tiêu đó, cơng việc thực luận văn là: Nghiên cứu sở lý thuyết khái niệm protein, cấu trúc protein sinh học, nhằm phục vụ cho việc khai thác thuộc tính chúng sử dụng tính tốn; Nghiên cứu sở lý thuyết kỹ thuật khai phá liệu (nói chung) kỹ thuật phân lớp liệu (nói riêng), làm sở cho xây dựng chương trình thực nghiệm chứng minh tính đắn kết thực nghiệm Với chương trình thực nghiệm, bước đầu tơi đạt mục tiêu đề tài chứng minh tính hiệu áp dụng giải thuật phân lớp tổng hợp vào toán dự đoán tương tác protein – protein so với giải thuật khác Qua đạt mục tiêu xa tương lai, ví dụ từ giải thuật đề tài làm móng cho giải thuật khác triển khai hiệu hơn, giúp tăng hiệu độ xác tốn “Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá liệu” 37 Kết đánh giá độ đo biểu đồ tương ứng hiển thị hộp Panel bên phải 4.2 KẾT QUẢ DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN Tiến hành thực nghiệm với thuật toán, thuật toán phân lớp tổng hợp AdaBoostM1, Bagging Random Forest, thuật toán phân lớp đơn lẻ Decision Stump, REPTree, RandomTree Như đề cập phần 3.3.3 Lựa chọn thuộc tính/đặc trưng, ta áp dụng phương pháp k-fold cross validation, cách xây dựng hàm chia file liệu ban đầu thành 10 phần Lấy phần làm liệu kiểm định phần lại làm liệu huấn luyện, ta thu 10 liệu Mỗi liệu có file: file liệu huấn luyện file liệu kiểm định với tỉ lệ 9:1 Để kết thu có khách quan, nghiên cứu này, trước chia ta xáo trộn liệu file ban đầu cách ngẫu nhiên người dùng muốn có nhiều liệu đánh giá Sau chạy chương trình từ liệu huấn luyện liệu kiểm định vừa chia, ta thu file kết với thuật toán tương ứng, với mẫu liệu tập mẫu kiểm định file có giá trị thuộc cột: Cột lớp đích dự đốn, cột lớp đích cho trước Bảng 4-1: Bảng giá trị phân lớp dự đoán Mẫu liệu … 1285 1286 1287 1288 1289 Lớp dự đoán Lớp 1 … 1 1 1 1 … 1 0 Để biểu diễn kết ngắn gọn tường minh, nghiên cứu sử dụng độ đo F để hiển thị chương trình tương ứng với thuật toán liệu Ta hiển thị kết theo hướng: sử dụng thuật tốn trích xuất thuộc tính/đặc trưng n-gram thuật tốn trích xuất thuộc tính/đặc trưng MLD Sau bước trích xuất thuộc tính/đặc trưng, ta lựa chọn thuộc tính với số thuộc tính lựa chọn nhỏ số thuộc tính ban đầu Trong nghiên cứu này, ta thực lựa chọn thuộc 38 tính với số thuộc tính rút gọn 100 thuộc tính so sánh kết phân lớp đặc trưng tập liệu ban đầu tập liệu rút gọn thuộc tính Sử dụng thuật tốn trích xuất thuộc tính/đặc trưng MLD, sau ta nghiên cứu kết theo hướng: Hướng thứ nhất, dùng nguyên tập thuộc tính ban đầu làm đầu vào cho thuật toán phân lớp, hướng thứ hai, dùng phương pháp MRMD giảm bớt số chiều thuộc tính từ 1134 thuộc tính xuống cịn 100 thuộc tính Trong bảng biểu diễn kết ta xếp thành cặp theo luật: thuật toán phân lớp đơn lẻ A - thuật toán phân lớp tổng hợp có sở thuật tốn phân lớp đơn lẻ A tương ứng Cụ thể cặp: Decision Stump - AdaBoostM1, REPTree – Bagging, RandomTree – RandomForest Ta có kết thực nghiệm đo với phương pháp trích xuất thuộc tính/đặc trưng MLD, giữ nguyên tập 1134 thuộc tính sau trích xuất làm tập đầu vào phân lớp sau: Bảng 4-2: Kết thực nghiệm phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 69,72 71,09 82,66 87,33 79,85 87,88 S2 70,04 71,30 79,65 87,55 79,48 86,39 S3 66,06 67,92 78,96 84,3 76,06 83,80 S4 65,27 67,59 79,47 85,54 78,31 84,57 S5 69,88 73,36 78,75 85 75,92 84,60 S6 68,03 68,45 76,74 86,25 78,50 85,76 S7 67,41 75,17 81,05 87,62 78,54 85,43 S8 67,28 67,21 77,26 85,58 77,91 84,09 S9 64,01 70,46 82,15 87,42 76,65 85,56 S10 69,90 74,55 79,60 86,33 76,92 85,82 Trung bình 67,76 70,71 79,63 86,29 77,81 85,39 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9 , S10 liệu kiểm định sử dụng thực nghiệm Kết biểu diễn giá trị độ đo F (%) 39 Bảng 4-3: Thời gian thực phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Thời gian Decision (s) Stump MLD – 18;21;22; AdaBoost REPTree Bagging Random Random Tree Forest 107;129; 37;38;40; 225;222; 9;9;10;9; 16;16;17; không giảm 21;17;18; 140;95; 33;34;32; 235;230; 9;9;9;9; 16;15;15; chiều thuộc 18;17;17; 94;101; 32;34;35; 224;220; 9;9 15;15;16; tính 97;98; 34 220;224; 17 102;105 18,6 106,8 15 226;230 34,9 225,6 9,1 15,6 Hình 4-6: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính MLD, khơng giảm chiều số thuộc tính Sau trích xuất thuộc tính/đặc trưng MLD, giảm chiều thuộc tính xuống cịn 100 thuộc tính, ta có kết thực nghiệm đo sau: 40 Bảng 4-4: Kết thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 68,81 69,82 76,96 82,91 76,41 81,52 S2 67,39 70,06 75,88 82,10 74,74 82,52 S3 67,47 67,71 73,09 82,80 73,12 81,85 S4 67,09 70,17 75,38 84,15 73,57 82,07 S5 68,35 69,63 75,93 80,51 74,49 80,51 S6 67,90 68,84 73,88 81,72 72,66 80,28 S7 69,69 72,42 76,59 82,94 76,17 82,81 S8 67,13 67,80 74,68 81,80 76,39 81,66 S9 66,42 66,67 72,86 82,64 75,04 81,46 S10 68,46 71,45 73,92 82,80 73,36 81,07 Trung bình 67,87 69,46 74,92 82,44 74,60 81,58 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết biểu diễn giá trị độ đo F (%) Bảng 4-5: Thời gian thực phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Thời gian Decision (s) Stump AdaBoost REPTree Bagging Random Random Tree Forest MLD – 100 3;4;4;3;2; 6;9;8;8;6; 3;2;2;2;2; 18;18;17; 1;1;1;1;1; 4;4;4;4;4; thuộc tính 2;2;2;2;2 2;1;1;1;1 8;7;10;6; 17;18;17; 1;1;1;1;1 4;4;4;4;4 18;17;19; 18 2,2 7,5 2,1 17,7 41 Hình 4-7: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều cịn 100 thuộc tính Sử dụng phương pháp trích xuất thuộc tính/đặc trưng n-gram cho vector 8420 thuộc tính Nếu đem trực tiếp vector làm tập liệu đầu vào cho thuật toán phân lớp, ta có kết sau: 42 Bảng 4-6: Kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,83 77,59 85,60 78,41 84,77 S2 70,27 76,99 77,20 85,55 77,82 85,60 S3 68,82 76,12 78,10 86,01 77,53 85,82 S4 70,22 76,29 76,84 86,25 81,50 85,67 S5 69,65 76,22 78,25 85,37 78,15 84,69 S6 71,40 76,30 79,35 86,55 79,53 86,19 S7 67,55 74,61 78,95 86,06 79,11 86,09 S8 69,02 73,27 79,27 85,74 79,45 84,68 S9 68,98 76,01 81,10 87,54 78 85,35 S10 68,41 73,12 79,21 85,56 77,46 84,71 Trung bình 69,18 75,28 78,59 86,02 78,70 85,36 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết biểu diễn giá trị độ đo F (%) Bảng 4-7: Thời gian thực phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều thuộc tính Thời gian (s) Decision AdaBoost REPTree Bagging Random Random Tree Forest Stump n-gram – 111;114; 973;981; 1165;1162; 7572;7560; 20;26;26; 46;77;44; không 105;109; 962;971; 1167;1167; 7580;7582; 18;18;18; 44;43;43; giảm 107;109; 968;980; 1161;1165; 7570;7578; 18;19;20; 45;43;46; chiều 110;110; 982;979; 1171;1168; 7582;7573; 25 thuộc 101;108 975;982 1175;1180 7585;7594 1168,1 7577,6 43 tính 108,4 975,3 20,8 47,4 43 Hình 4-8: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, khơng giảm chiều số thuộc tính Nếu đem vector thuộc tính ban đầu sau trích xuất thuộc tính phương pháp n-gram giảm chiều cịn 100 thuộc tính với phương pháp MRMD, sau đem tập vector thuộc tính rút gọn làm đầu vào cho thuật toán phân lớp Ta thu kết thực nghiệm sau: 44 Bảng 4-8: Kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính Độ đo F Decision (%) Stump AdaBoost REPTree Bagging Random Random Tree Forest S1 67,45 73,89 75,14 80,52 77,07 81,54 S2 70,27 76,01 80,03 81,99 78,03 82,54 S3 68,92 76,15 75,52 80,91 74,56 82,37 S4 70,12 76,26 78,86 81,74 78,54 82,58 S5 69,62 76,20 77,06 82,33 77,09 82,74 S6 71,39 76,18 79,72 82,76 77,15 83,04 S7 67,50 74,57 78,97 81,27 77,69 82,89 S8 69,07 73,57 79,64 82,79 77,69 82,10 S9 68,97 75,73 77,96 80,72 77,38 81,86 S10 68,39 72,74 77,05 80,35 76,08 81,41 Trung bình 69,17 75,13 78,00 81,54 77,13 82,31 Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 liệu kiểm định sử dụng cho thực nghiệm Kết biểu diễn giá trị độ đo F (%) Bảng 4-9: Thời gian thực phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính Thời gian Decision (s) Stump n-gram Random Random Tree Forest 6;6;6;6;6; 2;1;1;2;1; 14;14;15; 0,5;0,5; 3;3;3;3; 5;5;6;6;6 2;2;1;2;2 17;14;15; 0,5;0,5; 3;3;3;3; 0,5;0,5; 15;15;16; 0,5;0,5; 3;3 0,5;0,5 16 – 1;1;1;0,5; 100 thuộc 0,5;0,5; tính AdaBoost REPTree Bagging 0,5;0,5; 0,5;0,5 0,65 5,8 1,6 15,1 0,5 45 Hình 4-9: Biểu đồ kết thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều cịn 100 thuộc tính 46 Tổng kết, ta có bảng rút gọn kết thực nghiệm nghiên cứu cho phương pháp trích xuất thuộc tính/đặc trưng, phương pháp phân lớp sau: Bảng 4-10: Bảng kết tổng hợp phương pháp phân lớp Phương Đơn Decision Ada REP pháp vị Stump Boost Tree – Độ đo MLD Bagging Random Tree Random Forest 67,76 70,71 79,63 86,29 77,81 85,39 18,6 106,8 34,9 225,6 9,1 15,6 68,17 69,46 74,92 82,44 74,60 81,58 2,2 7,5 2,1 17,7 69,18 75,28 78,59 86,02 78,70 85,36 108,4 975,3 1168,1 7577,6 20,8 47,4 69,18 75,13 78,00 81,54 77,13 82,31 0,65 5,8 1,6 15,1 0,5 không giảm F (%) chiều thuộc Thời tính (1134 gian thuộc tính) (s) MLD – giảm Độ đo chiều cịn F (%) 100 thuộc Thời tính gian (s) – Độ đo n-gram không giảm F (%) chiều thuộc Thời tính (8420 gian thuộc tính) (s) – Độ đo n-gram giảm chiều F (%) 100 Thời thuộc tính gian (s) 47 4.3 NHẬN XÉT Về tổng quan ta nhận thấy mơ hình phân lớp đơn lẻ có độ xác kiểm định thấp nhiều so với mơ hình phân lớp tổng hợp tương ứng mà sử dụng mơ hình phân lớp đơn lẻ làm sở Cụ thể, hiệu dự đốn mơ hình thuật tốn Decision Stump thấp mơ hình thuật tốn AdaBoostM1 trung bình khoảng 4% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn REPTree thấp mơ hình thuật tốn Bagging trung bình khoảng 7% (theo độ đo F), hiệu dự đốn mơ hình thuật tốn Random Tree thấp mơ hình thuật tốn Random Forest trung bình khoảng 7% (theo độ đo F) Nhưng xét chi phí cho tốn, phương pháp phân lớp đơn lẻ có chi phí thấp nhiều so với phương pháp phân lớp tổng hợp tương ứng Cụ thể, chi phí cho thuật tốn phân lớp Decision Stump xấp xỉ khoảng [20;30] (%) chi phí cho thuật tốn phân lớp AdaBoostM1, chi phí cho thuật tốn phân lớp REPTree xấp xỉ khoảng [12;15] (%) chi phí cho thuật tốn phân lớp Bagging, chi phí cho thuật tốn phân lớp Random Tree xấp xỉ khoảng [25;50] (%) chi phí cho thuật tốn phân lớp Random Forest Tiếp theo, nhận xét hiệu dự đoán phân lớp sử dụng phương pháp lựa chọn thuộc tính/đặc trưng MRMD để giảm chiều liệu Ta thấy thuật toán phân lớp sử dụng đầu vào tập vector thuộc tính rút gọn có chi phí giảm đáng kể so với sử dụng đầu vào giữ nguyên tập vector thuộc tính ban đầu, mức chi phí giảm khoảng từ [10;25](%) Nhưng hiệu dự đoán giảm xuống, dao động khoảng [1;4](%) (theo độ đo F) Mức hiệu dự đốn bị giảm chấp nhận so với chi phí chạy chương trình tiết kiệm So sánh hai phương pháp trích xuất thuộc tính/đặc trưng n-gram MLD Ta thấy hiệu dự đốn chi phí bỏ sau: Hiệu cho phương pháp trích xuất thuộc tính/đặc trưng tương đương nhau, chi phí bỏ chạy thuật tốn với trường hợp giảm chiều thuộc tính phương pháp n-gram tốt phương pháp MLD, với trường hợp khơng giảm chiều thuộc tính phương pháp n-gram khơng phù hợp thời gian xử lý thuật tốn q lâu, đặc biệt áp dụng với thuật toán phân lớp Bagging Nhưng chi phí để thực giảm chiều thuộc tính cho phương pháp n-gram MLD phương pháp MLD có chi phí thấp nhiều lần so với phương pháp n-gram thời gian cấu hình máy tính u cầu Vì xét tính hiệu ta chọn MLD thay n-gram 48 So sánh cặp thuật toán với nhau, cụ thể cặp Decision Stump – AdaBoostM1, REPTree – Bagging, cặp Random Tree – Random Forest Ta thấy cặp Decision Stump – AdaBoostM1 có hiệu dự đốn thấp cặp lại Hai cặp REPTree – Bagging Random Tree – Random Forest có hiệu dự đốn tương đương nhau, xét chi phí cho thuật tốn cặp Random Tree – Random Forest có chi phí bỏ thấp nhiều lần so với cặp REPTree – Bagging Từ nhận xét trên, ta rút kết cuối cùng: Phương pháp hiệu nghiên cứu cho dự đoán toán “Dự đoán tương tác protein – protein sử dụng phương pháp khai phá liệu” phương pháp phân lớp Random Forest, có sử dụng phương pháp trích xuất thuộc tính/đặc trưng MLD phương pháp lựa chọn thuộc tính/đặc trưng MRMD để giảm chiều thuộc tính 4.4 KẾT LUẬN Luận văn đạt hai kết quan trọng q trình xây dựng chương trình dự đốn tương tác protein - protein sử dụng kỹ thuật khai phá liệu Về nghiên cứu tìm hiểu: - Nghiên cứu khái niệm sinh học liên quan protein, cấu trúc protein - Nghiên cứu khái niệm khai phá liệu tảng liên quan đến kỹ thuật phân lớp liệu - Tìm hiểu tổng quan số thuật tốn phân lớp - Tìm hiểu phương pháp phân lớp tổng hợp (ensemble) số phương pháp kết hợp phân lớp - Tìm hiểu khái niệm đánh giá mơ hình phân lớp Về thực nghiệm: - Xây dựng chương trình dự đốn tương tác protein - protein phương pháp phân lớp tổng hợp - Xây dựng hàm đánh giá so sánh kết thực nghiệm phương pháp phân lớp tổng hợp phân lớp đơn lẻ - Tiến hành thử nghiệm nhiều tập liệu ngẫu nhiên khác để đảm bảo tính xác khách quan - Xây dựng giao diện trực quan, dễ dàng sử dụng cho người dùng Luận văn giới thiệu phương pháp áp dụng mơ hình phân lớp tổng hợp vào nghiên cứu dự đoán tương tác protein - protein Cũng chứng minh mặt lý thuyết 49 thực nghiệm phương pháp áp dụng mơ hình phân lớp tổng hợp ưu việt giải thuật mơ hình phân lớp đơn lẻ, có độ xác cao độ ổn định tốt So với cơng trình nghiên cứu cơng bố, đóng góp luận văn có thêm so sánh bước xây dựng mơ hình dự đốn phân lớp, để tìm phương pháp dự đốn hiệu Và chứng minh hầu hết kết thu từ mơ hình phân loại tổng hợp hiệu dự đốn mơ hình phân loại đơn lẻ Từ có thêm nghiên cứu sâu mơ hình phân loại tổng hợp áp dụng vào toán “Dự đoán tương tác protein – protein” 4.5 HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI Trong luận văn tơi chưa sâu vào tìm hiểu cách kết hợp thuật toán thuật tốn phân lớp tổng hợp Về ngơn ngữ lập trình vấn đề tối ưu thời gian hiệu suất xử lý nguồn liệu lớn cịn hạn chế, từ làm giảm độ xác kết thực nghiệm Vì vậy, tương lai, tơi mong muốn tìm hiểu áp dụng sâu cách kết hợp giải thuật đơn lẻ vào mơ hình phân lớp tổng hợp thực tối ưu mặt ngôn ngữ lập trình đảm bảo xử lý liệu lớn cách nhanh chóng thời gian hiệu suất xử lý 50 TÀI LIỆU THAM KHẢO [1] R E H Geoffrey M Cooper (2004) The Cell: A Molecular Approach, 832 pages [2] P J Chaput (2012).[online] Available at: http://www.futura-sciences.com/sante/ actualites/medecine-alzheimer-parkinson-nouvelle-piste-300-maladies-35922/ [Accessed 12 September 2017] [3] D Whitford (2005) Proteins: Structure and Function, 542 pages [4] R Bailey (2017) [online] Available at: https://www.thoughtco.com/proteinfunction-373550 [Accessed 12 September 2017] [5] G Filiano (2016) [online] Available at: http://sb.cc.stonybrook.edu/news/ general/2016-07-12-new-method-to-model-protein-interactions-may-helpaccelerate-drug-development.php [Accessed 12 September 2017] [6] G Waksman (2005) Proteomics and Protein-Protein Interactions: Biology, Chemistry, Bioinformatics, and Drug Design, pp 90-91 [7] T M Mitchell (1997) Machine Learning McGraw-Hill Science/Engineering/ Math, (March 1, 1997), pp 3-5 [8] I Rish (2001) An empirical study of the naive Bayes classifier, pp 2-3 [9] O M Lior Rokach (2008) Data mining with decision trees: theory and applications World Scientific Publishing Co Pte Ltd, pp.4-5 [10] Zhang Q et al (2012) Structure-based prediction of protein-protein interactions on a genome-wide scale, pp 2-3 [11] Pitre S et al (2006) PIPE: a protein-protein interaction prediction engine based on the re-occurring short polypeptide sequences between known interacting protein pairs, pp 2-3 [12] Liu B et al (2009) Prediction of protein-protein interactions based on, pp 2-3 [13] Urquiza J et al (2011) Method for Prediction of Protein-Protein Interactions in Yeast Using Genomics/Proteomics Information and Feature Selection, pp 2-3 [14] Szklarczyk D et al (2011) The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored, pp 2-3 51 [15] Cai L et al (2003) SVM-Prot: web-based support vector machine software for functional classification of a protein from its primary sequence, pp.3-4 [16] Zou Q et al (2013) Identifying Multi-Functional Enzyme by Hierarchical Journal of Computational & Theoretical Nanoscience, pp 1038-1043 [17] Ioannis X et al (2000) DIP: the Database of Interacting Proteins PubMed Central, pp 289-291 [18] Philipp B et al (2014) Negatome 2.0: a database of non-interacting proteins derived by literature mining, manual annotation and protein structure analysis PubMed Central, 42:D396-D400 [19] Liu B et al (2008) A discriminative method for protein remote homology detection and fold recognition combining Top-n-grams and latent semantic analysis BMC Bioinformatics, 9:510 [20] Zhu-Hong Y et al (2015) Predicting Protein-Protein Interactions from Primary Protein Sequences Using a Novel Multi-Scale Local Feature Representation Scheme and the Random Forest PLoS One 10 ... không 10 5 ;10 9; 962;9 71; 11 67 ;11 67; 7580;7582; 18 ;18 ;18 ; 44;43;43; giảm 10 7 ;10 9; 968;980; 11 61; 116 5; 7570;7578; 18 ;19 ;20; 45;43;46; chiều 11 0 ;11 0; 982;979; 11 71; 116 8; 7582;7573; 25 thuộc 10 1 ;10 8... 3;2;2;2;2; 18 ;18 ;17 ; 1; 1 ;1; 1 ;1; 4;4;4;4;4; thuộc tính 2;2;2;2;2 2 ;1; 1 ;1; 1 8;7 ;10 ;6; 17 ;18 ;17 ; 1; 1 ;1; 1 ;1 4;4;4;4;4 18 ;17 ;19 ; 18 2,2 7,5 2 ,1 17,7 41 Hình 4-7: Biểu đồ kết thực nghiệm phương pháp trích... họa tương tác protein – protein [5] Các loại tương tác protein – protein bao gồm : o Tương tác ổn định o Tương tác tạm thời o Tương tác mạnh o Tương tác yếu 2 .1. 4 Tầm quan trọng tương tác protein