Luận văn thạc sĩ công nghệ thông tin dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG QUỐC HÙNG DỰ ĐOÁN SỰ TƯƠNG TÁC GIỮA CÁC PROTEIN DỰA TRÊN KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ Ngành Công nghệ thông tin HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐẶNG QUỐC HÙNG DỰ ĐỐN SỰ TƯƠNG TÁC GIỮA CÁC PROTEIN DỰA TRÊN KỸ THUẬT HỌC SÂU Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ Ngành Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đặng Thanh Hải HÀ NỘI - 2017 LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc đến thầy Đặng Thanh Hải, người trực tiếp hướng dẫn, bảo tận tình, giúp đỡ em suốt trình học tập, nghiên cứu thực đề tài Em xin bày tỏ lòng biết ơn sâu sắc đến Thầy Cô giảng viên cán Khoa Cơng nghệ thơng tin nói riêng trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội nói chung, dành hết tâm huyết, tận tình hướng dẫn học viên chúng em suốt quãng thời gian qua Em xin cảm ơn Khoa Công nghệ thông tin tạo điều kiện cho chúng em học tập môi trường nghiên cứu lành mạnh thuận lợi để chúng em phát triển niềm đam mê Mình xin gửi lời cảm ơn tới bạn Trác Quang Thịnh hỗ trợ bạn suốt thời gian nghiên cứu Cuối cùng, xin gửi lời cảm ơn tới bạn trường ủng hộ giúp đỡ tơi suốt q trình học tập thực đề tài Hà Nội, ngày 12 tháng 10 năm 2017 Học viên Đặng Quốc Hùng LỜI CAM ĐOAN Em xin cam đoan phương pháp kỹ thuật sử dụng nghiên cứu tương tác protein dựa kĩ thuật học sâu trình bày luận văn em thực hướng dẫn Thầy Đặng Thanh Hải Tất tham khảo từ nghiên cứu liên quan trích dẫn nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn này, việc chép tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Nếu phát có gian lận nào, em xin hoàn toàn chịu trách nhiệm trước hội đồng kết luận văn Hà Nội, ngày 12 tháng 10 năm 2017 Học viên Đặng Quốc Hùng MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ DỰ ĐOÁN TƯƠNG TÁC PROTEINS 1.1 Giới thiệu tương tác proteins 1.2 Một số phương pháp dự đoán tương tác Proteins điển hình Dự đốn dựa thông tin chuỗi 1.2.1 1.2.1.1 Mơ hình dựa thuật toán SVM 1.2.1.2 riêng Mơ hình dựa học máy cực đoan phân tích thành phần Dự đốn dựa thông tin cấu trúc protein 1.2.2 1.2.2.1 Mơ hình PrISE 1.2.2.2 Mơ hình Zhang .8 1.2.2.3 Mơ hình iLoops CHƯƠNG TỔNG QUAN VỀ KỸ THUẬT HỌC SÂU (DEEP LEARNING) 11 2.1 Giới thiệu mạng nơron sinh học 11 2.2 Mạng Nơ ron nhân tạo .11 Các thành phần mạng Nơ ron nhân tạo 14 2.2.1 2.2.1.1 Đơn vị xử lý .14 2.2.1.2 Hàm kích hoạt 15 2.2.1.3 Các hình trạng mạng 16 2.2.2 Các phương pháp học mạng nơ ron 17 2.2.2.1 Học có giám sát 18 2.2.2.2 Học khơng có giám sát 18 2.2.3 Ứng dụng mạng nơ ron 18 2.2.4 Thuật toán lan truyền ngược 19 2.3 Giới thiệu học sâu (Deep Learning) 24 2.3.1 Phân loại mạng học sâu (Deep Learning) 24 2.3.2 Mạng nơ ron tích chập (Convolutional neural network - CNN) .25 CHƯƠNG MƠ HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 29 3.1 Giới thiệu mô hình 29 3.2 Xây dựng mơ hình .31 3.3 Nguồn liệu tương tác protein 33 3.4 Đánh giá mơ hình 33 KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT 10 11 12 13 14 15 16 17 18 Tiếng Anh Activation function Area under the curve (AUC) Convolutional layer Convolutional Neural Networks (CNNs) Distribution Feature map Filter Fully connected Kernel K-fold cross validation Layer Linear Overfitting Quasi Sequence Order (QSO) Stride Support vector machine (SVM) Threshold Protein - Protein interaction (PPI) Tiếng Việt Hàm kích hoạt Diện tích đường cong Tầng tích chập Mạng nơ ron tích chập Phân phối Ánh xạ đặc trưng Bộ lọc Kết nối đầy đủ Hàm nhân Kiểm định chéo k-fold Lớp/tầng Tuyến tính Quá vừa liệu Trình tự Quasi Bước trượt Máy véc tơ hỗ trợ Ngưỡng Tương tác protein DANH MỤC CÁC HÌNH VẼ Hình 1.1 Phương pháp SVM Hình 2.1 Các thành phần cấu trúc nơron Hình 2.2 Mơ hình MCP Neurons Hình 2.3 Nơ ron sinh học mơ hình MCP Hình 2.4 Đơn vị xử lý Hình 2.5 Hàm bước nhị phân Hình 2.6 Mạng nơ ron truyền thẳng lớp Hình 2.7 Mạng nơ ron truyền thẳng nhiều lớp Hình 2.8 Mạng hồi quy lớp Hình 2.9 Mạng Perceptron lớp Hình 2.10 Cấu trúc mạng nơ ron tích chập Hình 2.11 Ma trận đầu vào mạng CNN Hình 2.12 Tích chập lọc vùng liệu vào Hình 2.13 Đồ thị hàm ReLU Hình 2.14 Phương pháp MaxPooling với cửa sổ 2x2 bước trượt Hình 2.15 Lớp liên kết đầy đủ Hình 3.1 Q trình dự đốn tương tác proteins Hình 3.2 Ví dụ cặp protein tương tác Hình 3.3 Mơ hình dự đốn tương tác Protein Hình 3.4 Mơ hình dự đốn với thơng số cụ thể Hình 3.5 Đồ thị thể độ đo AUC DANH MỤC CÁC BẢNG Bảng 3.1 Cách tính véc tơ amino axit Bảng 3.2 Ma trận nhầm lẫn Bảng 3.3 Thống kê độ đo mơ hình tập huấn luyện Bảng 3.4 Thống kê độ đo mơ hình dự đoán tập đánh giá MỞ ĐẦU Protein hay gọi chất đạm đại phân tử cấu tạo theo nguyên tắc đa phân mà đơn phân amino axit Amino axit cấu tạo ba thành phần: nhóm amin (-NH2), hai nhóm cacboxyl (-COOH) cuối nguyên tử cacbon trung tâm đính với nguyên tử hyđro nhóm biến đổi R định tính chất amino axit [55] Protein amino axit đóng vai trị vơ quan trọng thể sống, bao gồm: tảng tạo nên sức sống thể, tham gia trình trao đổi chất dinh dưỡng, điều hoà nước, chất bảo vệ thể, cung cấp lượng cho hoạt động sống Tương tác protein trình tác động qua lại protein với protein với phân tử khác tế bào Sự tương tác tác động tới hoạt động tế bào ảnh hưởng đến trình sống thể sống Protein tương tác protein trung tâm hầu hết q trình sinh học Thơng thường, protein hoạt động cách độc lập mà thực chức chúng thông qua tương tác với đơn vị phân tử sinh học khác Do đó, việc kiểm tra tương tác protein-protein (PPI) cần thiết để hiểu chế phân tử q trình sinh học, dự đốn tương tác protein toán quan trọng ưu tiên ngành khoa học sinh học Tương tác protein thường xác định phương pháp lý hóa sinh, phương pháp nghiên cứu thực nghiệm phịng thí nghiệm Tuy nhiên, phương pháp thực nghiệm đắt tiền, thời gian có tỉ lệ thành cơng thấp Do đó, việc phát triển mơ hình tính tốn đáng tin cậy tạo thuận lợi cho việc xác định tương tác protein có ý nghĩa thực tiễn to lớn giúp phát tương tác protein có khả xảy cao làm tiền đề cung cấp tập lựa chọn ưu tiên cho thực nghiệm nhằm đem lại khả thành công cao tiết kiệm chi phí thực nghiệm Những lý thúc đẩy phát triển mạnh hướng nghiên cứu tin sinh học phát triển mơ hình tính tốn tiên tiến để dự đốn tương tác Proteins Nội dung luận văn chia thành chương sau: Chương giới thiệu tổng quan toán dự đoán tương tác proteins mơ hình dự đốn tương ứng điển hình, gần Chương trình bày kiến thức mạng nơ ron, kỹ thuật học sâu sâu vào mạng nơ ron tích chập Chương trình bày xây dựng mơ hình dự đốn tương tác protein, kết đạt mơ hình đồng thời so sánh kết phương pháp khác, qua có nhìn tổng quan chất lượng phương pháp .M s  2(t i  ) f (n iM ) M i (2.29) Công thức (2.29) biểu diễn dạng ma trận sau: M s  2 F (n M )(t  a) M (2.30) Tóm lại, thuật tốn lan truyền ngược khái quát lại sau: - Bước 1: lan truyền xuôi đầu vào qua mạng: a0 = p a m+1 = fm+1(wm+1 am + bm+1 ) với m = 0,1, ,M-1 a = aM - Bước 2: lan truyền ngược độ nhạy qua mạng: M s  2 F (n M )(t  a) M s m  F (n m )  w m1  s m1 với m = M-1,…,2,1 m - T Bước 3: cập nhật trọng số bias dùng phương pháp xấp xỉ steepest descent: w m (k  1)  w m (k)   s m (a m1 )T bm (k  1)  bm (k)   s m 2.3 Giới thiệu học sâu (Deep Learning) Từ năm 2006, kiến trúc học sâu hay thường gọi học sâu lên lĩnh vực nghiên cứu học máy [29, 30] Trong năm qua, kỹ thuật phát triển từ nghiên cứu học sâu ảnh hưởng tới loạt lĩnh vực quan trọng học máy trí tuệ nhân tạo Trước tiên, ta tìm hiểu vài định nghĩa học sâu: - Học sâu lớp kỹ thuật học máy mà khai thác nhiều lớp q trình xử lý thơng tin phi tuyến tính cho biến đổi trích đặc trưng giám sát không giám sát cho việc phân tích phân loại mẫu (Li Deng cộng sự, 2014, page 10) - Học sâu lớp thuật toán học máy mà sử dụng nhiều lớp đơn vị xử lý phi tuyến tính cho biến đổi trích đặc trưng Mỗi lớp sử dụng đầu lớp trước giá trị đầu vào Các thuật tốn học giám sát không giám sát Các ứng dụng bao gồm phân tích mẫu (khơng giám sát) phân loại mẫu (có giám sát) Học sâu dựa việc học đa lớp đặc trưng biểu diễn liệu Trong đó, đặc trưng cấp cao thu từ đặc trưng cấp thấp để tạo thành biểu diễn theo thứ bậc (Wikipedia on Deep learning) 2.3.1 Phân loại mạng học sâu (Deep Learning) 24 Học sâu ám lớp rộng kiến trúc kỹ thuật học máy sử dụng nhiều lớp xử lý thơng tin phi tuyến có tính phân cấp Tùy thuộc vào cách kiến trúc kỹ thuật sử dụng người ta phân loại công việc lĩnh vực thành ba nhóm chính: - Các mạng sâu cho học không giám sát: nhằm đạt mối quan hệ bậc cao liệu quan sát cho mục đích phân tích tổng hợp mẫu thơng tin nhãn lớp khơng có sẵn - Các mạng sâu cho học có giám sát: cung cấp khả phân loại cho mục đích phân loại mẫu Dữ liệu nhãn đích ln ln có sẵn hình thức trực tiếp gián tiếp cho học có giám sát - Các mạng sâu lai: mục đích phân loại hỗ trợ cách đáng kể mạng sâu không giám sát, thực cách chuẩn hóa tối ưu mạng sâu loại Mục tiêu thực điều kiện phân loại cho học có giám sát sử dụng để đánh giá tham số mạng sâu khơng giám sát 2.3.2 Mạng nơ ron tích chập (Convolutional neural network - CNN) Mạng nơ ron tích chập hai nhà khoa học Yann LeCun Yoshua Bengio đề xuất vào năm 1998 [28] Cấu trúc mạng nơ ron tích chập gồm bốn lớp: đầu vào, lớp tích chập, lớp pooling đầu Hình 2.10 Cấu trúc mạng nơ ron tích chập Trong đó, đầu vào liệu nhiều chiều Trong luận văn đầu vào chuỗi peptit biểu diễn dạng ma trận sau: 25 Hình 2.11 Ma trận đầu vào mạng CNN Lớp tích chập lớp mạng CNN Thay kết nối tới tất điểm liệu đầu vào Lớp tích chập sử dụng lọc có kích thước nhỏ (thường 3x3 5x5) chiếu vào vùng liệu đầu vào tiến hành tính tích chập giá trị lọc giá trị vùng liệu đầu vào chiếu hình Hình 2.12 Tích chập lọc vùng liệu vào Một lọc gọi nơ ron kernel Các giá trị lọc trọng số tham số Vùng liệu liệu đầu vào mà lọc chiếu qua gọi vùng tiếp nhận (receptive field) Bộ lọc dịch chuyển quét toàn liệu đầu vào theo giá trị gọi bước trượt (stride) Với lần trượt tính tích chập thu giá trị, giá trị thu sau lọc quét tính tích chập gọi ánh xạ đặc trưng (feature map) Một lớp ánh xạ đặc trưng đầu lọc áp dụng tới lớp trước Hàm kích hoạt ReLU Hàm Rectified linear unit (ReLU) có cơng thức sau: y = max(0,x) 26 Hàm ReLU thường sử dụng phía sau lớp tích chập để chuyển kết âm từ lớp tích chập thành giá trị Đồ thị hàm ReLU: Hình 2.13 Đồ thị hàm ReLU Lớp pooling thường theo sau nhiều lớp tích chập Lớp sử dụng lọc dịch chuyển quét toàn liệu vào, lần dịch chuyển theo bước trượt cho trước giống lớp tích chập lớp pooling khơng tính tích chập mà tiến hành lấy mẫu Trong trình trượt, giá trị đại diện cho liệu vào vùng trượt (vùng lấy mẫu) giữ lại Một số phương pháp lấy mẫu phổ biến MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) Hình 2.14 Phương pháp MaxPooling với cửa sổ 2x2 bước trượt Lớp Pooling có vai trị làm giảm kích thước liệu lớp trước Với liệu có kích thước lớn qua lớp Pooling giảm xuống giữ đặc trưng liệu Việc giảm kích thước liệu giúp giảm tham số, tăng hiệu tính tốn kiểm sốt tượng overfitting q trình huấn luyện Lớp kết nối đầy đủ Lớp sử dụng cuối mạng sau trình xử lý trích chọn đặc trưng thực lớp tích chập pooling Lớp kết nối đầy đủ có cấu trúc giống lớp mạng nơ ron truyền thẳng truyền thống Trong đó, nơ ron lớp liên kết đầy đủ tới nơ ron lớp hình sau: 27 Hình 2.15 Lớp liên kết đầy đủ Lớp sử dụng hàm kích hoạt Softmax để phân lớp giá trị ánh xạ đặc trưng vào lớp đầu cụ thể Hàm Softmax có cơng thức sau: ∑ Hàm softmax chuyển vector x có giá trị vector y chứa giá trị dạng xác suất, x = {x1, x2, …, xn}, y = {y1, y2, …, yn) n số phân lớp Giá trị thứ i véc tơ y kí hiệu yi đại diện cho xác suất để liệu thuộc vào lớp thứ i 28 CHƯƠNG MƠ HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 3.1 Giới thiệu mơ hình Phần luận văn trình bày q trình xây dựng mơ hình dự đoán tương tác protein dựa kỹ thuật học sâu Ban đầu liệu đầu vào tiến hành tiền xử lý, q trình ghép cặp ma trận hóa liệu Sau đó, liệu chia thành hai tập riêng biệt, bao gồm tập huấn luyện tập đánh giá Tập huấn luyện dùng để xây dựng mơ hình Mơ hình sau xây dựng xong, tập đánh giá đưa vào mơ hình để đánh giá chất lượng mơ hình Q trình dự đốn tương tác Proteins luận văn thực theo bước sau: Hình 3.1 Q trình dự đốn tương tác proteins Trong đó, liệu đầu vào chuỗi amino axit cặp protein tương tác khơng tương tác hình sau: 29 Hình 3.2 Ví dụ cặp protein tương tác Các chuỗi amino axit biểu diễn dựa thuộc tính lý hóa sinh Các amino axit có thuộc tính hóa học tính axit, bazơ,….hay thuộc tính vật lý như: độ tan, độ sơi,… thuộc tính lý-hố-sinh biểu diễn dạng vector Ví dụ mơ tả theo bảng sau: Bảng 3.1 3Cách tính véc tơ amino axit Thuộc tính Amino Véc tơ axit … 544 X1 X1-1 X1-2 X1-544 [X1-1, X1-2, …, X1-544] X2 X2-1 X2-2 X2-544 [X2-1, X2-2, …, X2-544] … … … … … … X20 X20-1 X20-2 X20-544 [X20-1, X20-2, …, X20-544] Tập thuộc tính lấy từ sở liệu AAIndex AAIndex [30] sở liệu thuộc tính lý – hố - sinh, bao gồm ba tập liệu: AAIndex1, AAIndex2 AAIndex3 Luận văn sử dụng liệu từ tập AAIndex1 với 544 thuộc tính Một protein có tối đa 20 loại amino axit Như amino axit véc tơ 544 chiều Quá trình tiền xử lý liệu vào tiến hành cách ghép cặp protein Protein P1 protein P2 ghép thành cặp P1P2 Chuỗi protein P1 có dạng: P1= A11A12 A1n đó, A1i (i=1 n) amino axit 20 loại amino axit Chuỗi protein P2 có dạng: P2= A21A22 A2m đó, A2j (j=1 m) amino axit 20 loại amino axit Trác Quang Thịnh (2017), Nghiên cứu so sánh phương pháp biểu diễn chuỗi peptit tốn dự đốn vị trí protein bị phốt hóa, ĐHQGHN 30 Như vậy, với cặp protein (P1, P2) tạo thành chuỗi có dạng : (P1, P2) = A11A12 A1n A21A22 A2m Với amino axit A1i (i=1 n) A2j (j=1 m) có vector 544 chiều Như vậy, cặp (P1, P2) tạo ma trận có kích thước (n+m)*544 Dữ liệu sau tiền xử lý đưa vào mơ hình để huấn luyện 3.2 Xây dựng mơ hình Luận văn sử dụng mơ hình CNN (xem Hình 3.3) Yoon Kim [29] để xây dựng mơ hình dự đốn tương tác protein-protein Hình 3.3 Mơ hình dự đốn tương tác Protein Cụ thể mơ hình xây dựng sau: 31 Hình 3.4 Mơ hình dự đốn với thơng số cụ thể Mơ hình gồm lớp sau: Lớp đầu vào ma trận có kích thước ((m+n) x 544) tương ứng với chiều dài hai chuỗi amino axit hai protein ghép cặp 544 số thuộc tính lý hóa sinh amino axit Một lớp tích chập sử dụng ba lọc có kích thước (3 x 544), (4 x 544), (5 x 544), với bước trượt sử dụng hàm kích hoạt ReLU Sau lớp maxpooling với lọc có kích thước ((m+n -4) x 1), ((m+n -5) x 1), ((m+n -6) x 1), sử dụng dropout 0.5 (dropout kỹ thuật giảm overfitting) 32 Mạng sử dụng lớp kết nối đầy đủ với 128 nơ ron sử dụng hàm softmax để phân lớp đầu Trong đó, đầu gồm giá trị (10 không tương tác, 01 tương tác) 3.3 Nguồn liệu tương tác protein Luận văn sử dụng sở liệu DIP [32] sở liệu chứa cặp protein tương tác sở liệu Negatome [33] chứa cặp protein không tương tác Mỗi sở liệu chứa 6445 cặp Protein Đây sở liệu sử dụng phổ biến nghiên cứu Protein thường xuyên cập nhật 3.4 Đánh giá mơ hình Luận văn sử dụng phương pháp đánh giá chéo (k-fold cross validation) với k = 10 để đánh giá mơ hình Dữ liệu đầu vào chia thành 10 phần có tỉ lệ liệu dương / liệu âm tất phần Sau đó, phương pháp thực vòng gồm k = 10 lần lặp, lần lặp, phần liệu tổng số 10 phần liệu làm đầu vào để xây dựng mơ hình, phần liệu cịn lại dùng để đánh giá chất lượng mơ hình Để đảm bảo việc đánh giá mang tính xác phần liệu dùng để xây dựng mơ hình khơng chứa phần tử phần liệu dùng để đánh giá Trong luận văn, ma trận nhầm lẫn sử dụng để đánh giá chất lượng mô hình: Bảng 3.2 Ma trận nhầm lẫn Dự đốn Lớp c Kết thực Thuộc TP FP Thuộc Không thuộc Khơng thuộc FN TN TP số trường hợp thuộc lớp c dự đoán đúng, FP số trường hợp không thuộc lớp c bị dự đoán nhầm vào lớp c, FN số trường hợp thuộc lớp c bị dự đốn nhầm khơng thuộc lớp c TN số trường hợp khơng lớp c dự đốn Luận văn sử dụng AUC (diện tích đường cong) [31] làm độ đo để đánh giá chất lượng mơ hình Cụ thể với số lượng cặp Protein huấn luyện (Pos/Neg) 3000/3000, kết đạt cụ thể sau: Bảng 3.3 thống kê độ đo mơ hình tập huấn luyện Độ đo Recall Độ đo Precision 0,899 0,886 33 Độ đo F1 Độ xác Accuracy AUC 0,891 0,891 0,950 Sau xây dựng mơ hình, Số lượng cặp Protein (Pos/Neg) dùng để đánh giá 3445/3445, kết đạt sau: Bảng 3.4 thống kê độ đo mơ hình dự đốn tập đánh giá Độ đo Recall Độ đo Precision Độ đo F1 Độ xác Accuracy AUC 0,875 0,906 0,890 0,892 0,951 Độ đo AUC thể qua đường cong ROC sau: Hình 3.5 Đồ thị thể độ đo AUC So sánh với phương pháp khác 34 Phần luận văn so sánh đánh giá mơ hình với phương pháp khác gần tốn dự đốn tương tác protein có sử dụng sở liệu DIP - - - Mơ hình máy học cực đoan: nhóm tác giả You cộng [6] dùng mơ hình học máy cực đoan dự đoán tương tác protein Phương pháp sử 11.188 cặp protein lấy từ sở liệu DIP, sử dụng phương pháp đánh giá chéo 5-fold Phương pháp đạt độ xác 0,87 Mơ hình dựa kỹ thuật học sâu sử dụng mạng Autoencoder nhóm tác giả Sun cộng [34] Phương pháp sử dụng sở liệu DIP dùng đánh giá chéo 10-fold cho độ xác 0,93 Luận văn sử dụng kỹ thuật học sâu dùng mạng CNN để dự đoán tương tác protein Mơ hình xây dựng từ 3000/3000 cặp tổng 6445/6445 cặp Mơ hình dự đốn với độ xác 0,89 KẾT LUẬN Kết đạt Luận văn nghiên cứu tổng quan tương tác protein toán dự đoán tương tác protein khái quát kiến thức kỹ thuật học sâu, sâu vào nghiên cứu mạng nơ ron tích chập Đồng thời xây dựng thành cơng mơ hình dự đốn tương tác protein sử dụng mạng nơ ron tích chập Mơ hình xây dựng từ 3000 cặp protein tương tác 3000 cặp protein không tương tác Mơ hình đánh giá thơng qua phép kiểm định chéo với k = 10 sử dụng ma trận nhầm lẫn, độ đo AUC để đánh giá chất lượng mơ hình Mơ hình dự đốn đạt kết tương đối tốt với độ xác 0.89 Hướng phát triển Với kết đạt được, luận văn tiếp tục nghiên cứu để tăng độ xác chất lượng mơ hình dự đốn thơng qua việc tăng số lượng cặp protein đưa vào huấn luyện, tìm cách tối ưu tham số mơ hình, đồng thời luận văn tiếp tục nghiên cứu phương pháp tiên tiến khác đề xuất gần để so sánh đánh giá toán dự đốn tương tác protein giúp có nhìn sâu sắc phương pháp học sâu 35 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Vinh (2015), Slides giảng trí tuệ nhân tạo nâng cao, ĐH Quốc gia Hà Nội, Hà Nội [2] Phan Xuân Hiếu (2016), Slides giảng Khai phá liệu, Đại học Quốc gia Hà Nội, Hà Nội [3] Nguyễn Văn Cách (2005), Tin sinh học, Nhà xuất Khoa học kỹ thuật, Hà Nội Tiếng Anh [4] Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li, Hualiang Jiang (2006), “Predicting protein – protein interactions based only on sequences information”, PNAS, 104 (11): 4337 – 4341 [5] Wojcik, J and Schachter (2001), “Protein–protein interaction map inference using interact ing domain proﬁle pairs”, Bioinformatics, 17:S296–S305 [6] Zhu-Hong You, Ying-Ke Lei, Lin Zhu, Junfeng Xia, Bing Wang (2013), “Prediction of protein-protein interactions from amino acid sequences with ensemble extreme learning machines and principal component analysis”, BMC Bioinformatics, 14(Suppl 8): S10 [7] Yanay Ofrana, Burkhard Rosta (2003), “Predicted protein-protein interaction sites from local sequence information”, FEBS Letters, 544 236-239 FEBS 27273 [8] Sylvain Pitre (2006), “PIPE: a protein-protein interaction prediction engine based on the re-occurring short polypeptide sequences between known interacting protein pairs”, BMC Bioinformatics, 7:365 doi:10.1186/1471-2105-7-365 [9] Qiangfeng Cliff Zhang (2012) , ”Structure-based prediction of protein-protein interactions on a genome-wide scale”, Nature, 490(7421): 556–560 doi:10.1038/nature11503 [10] Joan Planas-Iglesias (2013), “iLoops: a protein-protein interaction prediction server based on structural features”, Bioinformatic, 29(18):2360-2 [11] Rafael A Jordan, Yasser EL-Manzalawy, Drena Dobbs, Vasant Honavar (2012), “Predicting protein-protein interface residues using local surface structural similarity”, BMC Bioinformatics, 10.1186/1471-2105-13-41 36 [12] Tristan T Aumentado-Armstrong, Bogdan Istrate, Robert A Murgita (2015), “Algorithmic approaches to protein-protein interaction site prediction Algorithms for Molecular Biology”, BioMed Central, 10:7 [13] Joao P G L M Rodrigues and Alexandre M J J Bonvin (2014), “Integrative computational modeling of protein interactions”, FEBS, 1988–2003 [14] Aidong Zhang (2009), Protein interaction networks, Cambridge University Press [15] Rob Brazas (2011), In vitro and in vivo methods to study protein:protein interactions, Promega [16] Sprinzak, E and Margalit (2001), “Correlated sequence-signatures as markers of protein - protein interaction”, Molecular Biology, 311:681–692 [17] Li Deng and Dong Yu (2014), Deep Learning: Methods and Applications, Foundation and trends in signal processing, Volume Issue 3-4, ISSN: 1932-8346 [18] Russ Salakutdinov (2009), Deep Learning, University of Toronto, Canada [19] http://deeplearning.net/ [20] http://www.deeplearningbook.org/ [21] Eric Roberts (2000), Neural Networks https://cs.stanford.edu/people/eroberts/courses/soco/projects/neuralnetworks/index.html / [22] Dr G.P.Rameshkumar, S Samundeswari (2014), Neural Network, Artificial Neural Network (ANN) and Biological Neural Network (BNN) in Soft Computing, Volume 30; 3(3): 1159–1163, ISSN: 2277-9655 [23] O.S Eluyode and Dipo Theophilus Akomolafe (2013), “Comparative study of biological and artificial neural networks”, European Journal of Applied Engineering and Scientific Research, (1):36-46 [24] Warren S Mcculloch and Walter Pitts (1943), “A logical calculus of the ideas immanent in nervous activity”, Ulletin of mathematical biophysics, Volume [25] Martin T Hagan, Howard B Demuth, Mark Hudson Beale and Orlando De Jesús (2014), Neural Network Design 2nd Edition [26] Jeff Heaton (2008), Introduction to Neural Networks, Heaton Research [27] Kenvil L, Priddy and Paul E Keller (2005), Artifical neural networks an introduction, The international Society for Optical Engineering 37 [28] LeCun, Yann (1998), “Gradient-based learning applied to document recognition”, IEEE, 86.11: 2278-2324 [29] Yoon Kim (2014), “Convolution neural networks for sentence classification”, arXiv 1408.5882 [30] Kawashima, S., Pokarowski, P., Pokarowska, M., Kolinski, A., Katayama, T., and Kanehisa (2008), “AAindex: amino acid index database”, Nucleic Acids Res, 28(1): 374 [31] DeLong ER, DeLong DM, Clarke-Pearson DL (1988), “Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach”, Biometrics, 44(3):837–845 [32] Salwinski L, Miller C S, Smith A J (2004), “The database of interacting proteins”, Nucleic acids research, 32(suppl 1): D449-D451 [33] Smialowski P, Pagel P, Wong P (2010), “The Negatome database: a reference set of non-interacting protein pairs”, Nucleic acids research, 38(suppl 1): D540-D544 [34] Tanlin Sun, Bo Zhou, Luhua Lai (2017), “Sequence-based prediction of protein protein interaction using a deep-learning algorithm”, BMC Bioinformatics, 10.1186/s12859-017-1700-2 38 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG QUỐC HÙNG DỰ ĐOÁN SỰ TƯƠNG TÁC GIỮA CÁC PROTEIN DỰA TRÊN KỸ THUẬT HỌC SÂU Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm... HÌNH DỰ ĐỐN TƯƠNG TÁC PROTEINS DỰA TRÊN KỸ THUẬT HỌC SÂU (DEEP LEARNING) 3.1 Giới thiệu mơ hình Phần luận văn trình bày q trình xây dựng mơ hình dự đốn tương tác protein dựa kỹ thuật học sâu Ban... để dự đốn tương tác Proteins 1.2.1 Dự đốn dựa thơng tin chuỗi Các dự đoán PPIs thực cách kết hợp thông tin tương tác biết với thông tin liên quan đến tương đồng chuỗi axit amin Phương pháp dựa

Luận văn thạc sĩ công nghệ thông tin dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan