Dự đoán các biến đổi của protein sau khi tổng hợp sử dụng các kỹ thuật khai phá dữ liệu

23 300 0
Dự đoán các biến đổi của protein sau khi tổng hợp sử dụng các kỹ thuật khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Dự đoán biến đổi protein sau tổng hợp sử dụng kỹ thuật khai phá liệu GVHD: TS Đặng Thanh Hải SV: Phạm Quốc Hưng Lớp: K56CB Nội dung  Protein biến đổi sau tổng hợp  Quá trình phospho hoá  Các mô hình dự đoán vị trí protein bị phospho hoá  Tổng quan khai phá liệu  Khai phá tập phổ biến luật kết hợp  Thuật toán Máy Vector hỗ trợ (SVM)  Mô hình dự đoán phospho hoá triển khai  Thực nghiệm  Kết luận hướng phát triển Protein ?  Protein đại phân tử tế bào  Protein gồm cấu trúc  Cấu trúc bậc 1: axit amin liên kết với liên kết peptit  Cấu trúc bậc 2: xếp đặn chuỗi polypeptide không gian  Cấu trúc bậc 3: protein cuộn với thành búi có hình dạng đặc trưng  Cấu trúc bậc 4: cấu trúc nhiều protein liên kết với Tầm quan trọng protein  Protein tham gia vào tất trình hoạt động tế bào sống  Kháng thể  Enzyme  Thông tin  Thành phần cấu trúc  Vận chuyển dự trữ Biến đổi protein sau tổng hợp  Là trình biến đổi vị trí protein sau tổng hợp (dịch mã)  Có 200 loại biến đổi xác định  Các nhà hoá/sinh học chưa hiểu hết phần lớn loại biến đổi  Được xác định thí nghiệm hoá sinh • Kỹ thuật Phổ khối lượng (Mass Spectrometry) kỹ thuật điển hình • Tốn thời gian, chí khó  Protein phospho hóa trình biến đổi quan trọng protein • Khóa luận tập trung vào toán liên quan đến trình Phospho hoá Quá trình phospho hoá  Là trình thêm nhóm P04 vào vị trí cụ thể chuỗi protein sau tổng hợp  Các axit amin serine (S), threomine (T), tyrosine (Y)  Được chứng minh đóng vai trò vô quan trọng việc định đến chức protein  Nhận nhiều quan tâm nghiên cứu cộng đồng hoá/sinh học lẫn Tin sinh học Một số mô hình dự đoán phospho hóa có  Cách tiếp cận dựa trên kỹ thuật học máy khai phá liệu  Máy vector hỗ trợ - SVMs  Cây định  Các thuật toán di truyền  Cách tiếp cận dựa thông tin đầu vào  Sử dụng số lượng vị trí xung quanh axit amin bị phospho hóa để dự đoán  Cách tiếp cận sử dụng hay không sử dụng đến thông tin cấu trúc  Cách tiếp cận có kinase đặc hiệu hay kinase đặc hiệu Tổng quan khai phá liệu  Phát tri thức trình tìm liệu hữu ích liệu khai phá liệu bước quan trọng  Quá trình phát tri thức từ CSDL gồm bước: Tổng quan khai phá liệu  Ở mức cao – tổng quát: hai mục tiêu chủ yếu toán khai phá liệu dự báo mô tả  Ở mức chi tiết – cụ thể:       Mô tả khái niệm Quan hệ kết hợp Phân lớp Phân cụm Hồi quy Phát liệu bất thường/ngoại lai Luật kết hợp tập phổ biến  Cho I tập item (mục)  Cho X = {i1,i2, ,ik}⊆ I gọi itemset (tập mục) tập k-item X có tất k mục  Một giao dịch cặp T=( tid, i), CSDL giao dịch D gồm tất giao dịch T  Độ hỗ trợ tập mục X D bao gồm tất giao dịch D có hỗ trợ X: 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑋, 𝐷 ≔ 𝑡𝑖𝑑 𝑡𝑖𝑑, 𝑖 , 𝑋 ⊆ 𝑖} 10 Luật kết hợp tập phổ biến  Cho D CSDL giao dịch tập mục I, σ ngưỡng độ hỗ trợ tối thiểu Các tập mục phổ biến D với độ hỗ trợ σ ký hiệu 𝐹 𝐷, 𝜎 ≔ 𝑋 ⊆ 𝐼 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑋, 𝐷 ≥ 𝜎}  Độ tin cậy luật X ⇒ Y D xác suất giao dịch chứa X Y tổng giao dịch có X: 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 𝑋 ⇒ 𝑌, 𝐷 ≔ 𝑃 𝑌 𝑋 = 𝑠𝑢𝑝𝑝𝑜𝑟𝑡( X ∪ Y, 𝐷) 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋, 𝐷)  Cho D tập CSDL giao dịch tập mục I, σ độ hỗ trợ tối thiểu,γ độ tin cậy tối thiểu Tập luật phổ biến với σ γ ký hiệu 𝑅 𝐷, 𝜎, 𝛾 ≔ 𝑋 ⇒ 𝑌 𝑋, 𝑌 ⊆ 𝐼, 𝑋 ∩ 𝑌 = ∅ , 𝑋 ∪ 𝑌 ∈ 𝐹 𝐷, 𝜎 , 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑡 𝑋 ⇒ 𝑌, 𝐷 ≥ 𝛾} 11 Thuật toán fpgrowth  Được giới thiệu Jiawei Hai Jian Yiwen Yin năm 2000  Thuật toán gồm bước:  Duyệt CSDL lần thứ để tính tất độ hỗ trợ tất 1itemsets Loại bỏ tập mục có độ hỗ trợ tối thiểu nhỏ σ Các mục lại xếp theo thứ tự giảm dần độ hỗ trợ  Duyệt CSDL lần thứ , với tác vụ t, loại bỏ mục không đủ độ hỗ trợ mục lại xếp theo thứ tự giảm dần đưa vào FP-tree  Tìm tập mục phổ biến FP-tree xây dựng mà không cần duyệt lại CSDL 12 Thuật toán fpgrowth Cách dựng fp-tree: 13 Thuật toán máy vector hỗ trợ  Là thuật toán Vapnik Chervonekis giới thiệu năm 1995  Tìm siêu phẳng 𝑦 𝑥 = 𝑊 ∙ Φ x + b phân chia liệu thành phần  Phân lớp liệu cách xác định dấu của: 𝑦 𝑥 = 𝑊 ∙ Φ x + b  Thuộc lớp dương y(x) >  Thuộc lớp âm y(x) < 14 Mô hình dự đoán phospho hoá triển khai  Bước 1: Chuyển đổi chuỗi protein xung quanh vị trí S, Y, T cửa sổ n vị trí thành giao dịch  Các vị trí axit amin xung quanh vị trí S, Y, T cửa sổ n vị trí cần đánh số (từ -n,…, n) để không làm mát thông tin vị trí axit amin  Bước 2: Áp dụng thuật toán FP-growth để phát tập phổ biến luật kết hợp  Bước 3: Biểu diễn chuỗi protein xung quanh thành vector  Mỗi trường tương ứng với xuất luật kết hợp  Bước 4: Áp dụng thuật toán SVM để dự đoán phospho hoá 15 Thực nghiệm  Dự đoán phospho hoá sử dụng cửa sổ axit amin xung quanh  Thực nghiệm nghiên cứu kinase PKA_group, PKC_group, CK2_group 16 Thực nghiệm  Với kinase ta luật kết hợp  PKA_group: • S0

Ngày đăng: 11/01/2017, 21:41

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan