Phương pháp lọc nâng cao hiệu quả dự đoán liên kết Residue

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	3
Dung lượng	288,81 KB

Nội dung

Bài viết Phương pháp lọc nâng cao hiệu quả dự đoán liên kết Residue đề xuất một giải pháp làm tăng chất lượng của kết quả dự đoán cặp residue liên kết. Tuy nhiên, phương pháp đề xuất chưa thể hiện sự hiệu quả rõ rệt trong mọi trường hợp nhưng đã mở thêm ra một số vấn đề tiếp theo cần phải nghiên cứu.

Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 PHƯƠNG PHÁP LỌC NÂNG CAO HIỆU QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE Nguyễn Quỳnh Diệp1, Lê Thị Tú Kiên2 Trường Đại học Thủy lợi, email: diepnq@tlu.edu.vn Khoa Công nghệ thông tin, Đại học Sư Phạm Hà Nội, email: kienltt@hnue.edu.vn 1 GIỚI THIỆU NỘI DUNG Protein đại phân tử cấu tạo theo nguyên tắc đa phân mà đơn phân axít amin Để thực chức mình, protein tương tác với protein khác phân tử khác tế bào Sự tương tác ảnh hưởng đến hoạt động sống tế bào trình sống động thực vật Vì vậy, việc nghiên cứu tương tác protein vấn đề quan trọng sinh học Trong năm gần đây, nhóm nghiên cứu Weigt [1] Marks [2] phát triển thuật toán Direct-coupling analysis để tìm thơng tin liên kết trực tiếp cặp residue ứng dụng vào dự đoán cấu trúc bậc ba protein Bên cạnh đó, nhóm nghiên cứu González [3], Tu Kien T Le [4] xây dựng phương pháp dự đoán liên kết residue protein domain cách tích hợp thông tin liên kết residue cấu trúc protein phức hợp Mặc dù kết thực nghiệm chứng minh phương pháp đề xuất [4] cho kết dự đốn tốt phương pháp trước đó, số cặp residue khơng liên kết dự đốn liên kết (false positive samples) thường nhiều số cặp residue liên kết dự đoán liên kết (true positive samples) Bởi vậy, nghiên cứu đề xuất phương pháp lọc bỏ mẫu false positive nhằm nâng cao chất lượng dự đoán liên kết residue 2.1 Dự đoán liên kết ResidureResidure dựa phương pháp ipHMM SVM Trong nghiên cứu [4], xây dựng phương pháp dự đoán liên kết residue– residue protein domain cách tích hợp thơng tin liên kết residue từ số nguồn Thứ tự thực phương pháp mơ tả tóm tắt sau: Bước thứ nhất, tập cặp protein domain tương tác (DDIs) với thông tin liên kết mức residue chúng lọc với điều kiện “khoảng cách” cặp protein domain truy vấn khoảng cách với cặp protein domain tập nhỏ ngưỡng t Bước thứ hai, tập DDIs lọc bước dùng để huấn luyện hai mô hình ipHMM Sau đó, ipHMMs dùng để tính véc tơ Fisher cho residue Bước thứ ba, tập liệu huấn luyện sử dụng để huấn luyện mơ hình phân lớp SVM Mơ hình phân lớp sau sử dụng để phân lớp cặp residue tập đánh giá (chính cặp residue cặp chuỗi protein truy vấn) vào hai lớp: liên kết không liên kết Kết thực nghiệm nghiên cứu [4] chứng minh độ xác kết dự đoán cao Tuy nhiên, phương pháp tồn số vấn đề sau: • Thứ nhất, việc kết hợp cặp residue cặp chuỗi Protein Domain cách 225 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 lấy residue chuỗi ghép với residue chuỗi khiến kết dự đốn xảy khả dự đoán sai, hay gọi mẫu false positive (Hình 1) M N Hình 1: Ví dụ mơ tả dự đốn liên kết residue bất thường xảy [9] • Thứ hai, với cặp chuỗi Protein Domain số cặp residure liên kết với nhiều so với số lượng cặp residue không liên kết Sự cân dẫn đến trường hợp: cho dù tỉ lệ cặp residue không liên kết dự đốn có liên kết thấp cặp DDI truy vấn (khoảng từ đên phần trăm) số lượng residue dự đoán false positive nhiều nhiều lần so với số cặp residue thực liên kết Từ phân tích trên, phần sau chúng tơi đề xuất phương án để làm tăng chất lượng kết dự đoán cho phương pháp [4] 2.2 Phương pháp lọc cặp residue dự đoán sai Để lọc cặp residue false positive, đề xuất phương án giải sau: giả sử residue chuỗi protein domain M dự đoán liên kết với hai residue chuỗi protein domain N Tuy nhiên, vị trí hai residue chuỗi thứ hai cách xa trong hai cặp residue dự đoán liên kết sẽ coi dự đoán sai Phương án đề xuất trình bày tường minh sau: Input: Danh sách P cặp residue dự đoán liên kết Thứ tự residue hai chuỗi protein domain Output: - Danh sách Q bao gồm cặp residue lại sau lọc bỏ trường hợp cho dự đoán sai (false positive) Phương pháp: Bước 0: Gán danh sách Q rỗng Bước 1: Chọn cặp residue (m, n) danh sách P đưa vào vào danh sách T Bước 2: Lọc cặp residue khác danh sách P có thứ tự với residue m đưa vào danh sách T Bước 3: Sắp xếp danh sách T theo thứ tự tăng dần residue thuộc vào chuỗi protein domain N Bước 4: Chọn cặp residue (x, y) danh sách T đưa vào danh sách Q Với cặp residue từ vị trí thứ trở T, tính khoảng cách residue thuộc vào chuỗi protein domain N với residue y (dựa thứ tự residue chuỗi) Nếu khoảng cách lớn ngưỡng d cặp residue cho false positive Ngược lại, đưa vào danh sách Q Bước 5: Cập nhật danh sách P cách loại bỏ cặp residue có danh sách T từ danh sách P Sau đó, xóa tất cặp residue danh sách T Bước 6: Nếu danh sách P khơng cịn cặp residue chuyển sang bước 7, P cặp residue đưa vào danh sách Q chuyển sang bước Ngược lại, chuyển bước Bước 7: Kết thúc 2.3 Thực nghiệm đánh giá kết Để đánh giá hiệu phương pháp đề xuất mục 2.2., thực thực nghiệm ba liệu liệt kê Bảng 226 Bảng Danh sách liệu thực nghiệm ID DomainM DomainN #DDIs Fib_alpha Fib_alpha 101 Rhv Rhv 101 Insulin Insulin 103 C1_set C1_set 482 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 Trong đó, cột thứ số thứ tự liệu, cột thứ hai thứ ba tên họ Pfam protein domain, cột thứ tư số lượng cặp protein domain tương tác Thông tin khả liên kết cặp amino acid (AAPCPs) lấy từ sở liệu Aaindex [5] Với liệu Bảng với giá trị ngưỡng t (t=0.1, 0.2, 0.3, 0.5, 0.7, 0.9), thực phương pháp đánh giá Odd one out lần Mỗi lần lựa chọn ngẫu nhiên cặp DDI làm liệu kiểm tra (DDI truy vấn) DDI lại làm tập huấn luyện Sau dự đoán nhãn (liên kết không liên kết) cho cặp residue DDI truy vấn, chúng tơi áp dụng thuật tốn đề xuất mục 2.3 để loại bỏ cặp residue cho False positive Giá trị ngưỡng d thực nghiệm chọn 10 Hình biểu diễn kết MCC trung bình (trục đứng) hai liệu Fib_alphaFib_alpha, Rhv- Rhv, tương ứng với giá trị ngưỡng t (trục ngang) từ 0.1 đến 0.9 hai trường hợp trước sau lọc cặp residue false positive Kết Hình So sánh MCC trung bình hai liệu Fib_alpha-Fib_alpha, Rhv-Rhv Hình cho thấy, với cặp họ Pfam Fib_alphaFib_alpha, phép lọc cho kết MCC trung bình tốt giá trị t từ 0.1 đến 0.5 lại giá trị 0.7 0.9 Ở cặp họ Pfam Rhv - Rhv, thuật tốn chúng tơi cho giá trị MCC trung bình tốt tất giá trị ngưỡng t Đặc biệt t = 0.1 t = 0.2 tất giữ liệu cho kết MCC tốt KẾT LUẬN Trong nghiên cứu này, đề xuất giải pháp làm tăng chất lượng kết dự đoán cặp residue liên kết Tuy nhiên, phương pháp đề xuất chưa thể hiệu rõ rệt trường hợp mở thêm số vấn đề cần phải nghiên cứu Hy vọng nghiên cứu giải trường hợp TÀI LIỆU THAM KHẢO [1] M Weigt, R A White, H Szurmant, J A Hoch, and T Hwa, “Identification of direct residue contacts in protein – protein interaction by message passing,” vol 106, no 1, 2009 [2] D S Marks et al., “Protein 3D structure computed from evolutionary sequence variation,” PLoS One, vol 6, no 12, 2011 [3] A J González, L Liao, and C H Wu, “Prediction of contact matrix for proteinprotein interaction,” Bioinformatics, vol 29, no 8, pp 1018–1025, 2013 [4] T Kien T Le et al., “Predicting residue contacts for protein-protein interactions by integration of multiple information,” J Biomed Sci Eng., vol 07, no 01, pp 28– 37, 2014 [5] S Kawashima, P Pokarowski, M Pokarowska, A Kolinski, T Katayama, and M Kanehisa, “AAindex/: amino acid index database , progress report 2008,” vol 36, no November 2007, pp 202–205, 2008 227 ... pháp [4] 2.2 Phương pháp lọc cặp residue dự đoán sai Để lọc cặp residue false positive, đề xuất phương án giải sau: giả sử residue chuỗi protein domain M dự đoán liên kết với hai residue chuỗi... hai residue chuỗi thứ hai cách xa trong hai cặp residue dự đoán liên kết sẽ coi dự đoán sai Phương án đề xuất trình bày tường minh sau: Input: Danh sách P cặp residue dự đoán liên kết Thứ tự residue. .. lượng residue dự đoán false positive nhiều nhiều lần so với số cặp residue thực liên kết Từ phân tích trên, phần sau chúng tơi đề xuất phương án để làm tăng chất lượng kết dự đoán cho phương pháp

Ngày đăng: 30/07/2022, 16:23