Luận án tiến sĩ các phương pháp xây dựng ma trận biến đổi axít amin TT

28 511 0
Luận án tiến sĩ các phương pháp xây dựng ma trận biến đổi axít amin TT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG CAO CƯỜNG CÁC PHƯƠNG PHÁP XÂY DỰNG MA TRẬN BIẾN ĐỔI AXÍT AMIN Chuyên ngành: Khoa học Máy tính Mãsố: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Công trình hoàn thành tại: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: TS Lê Sỹ Vinh TS Lê Sĩ Quang Phản biện 1: PGS.TSKH Vũ Đình Hòa Trường Đại học Sư phạm Hà Nội Phản biện 2: PGS.TS Lương Chi Mai Viện Công nghệ thông tin, Viện Hàn lâm KH&CN VN Phản biện 3: PGS.TS Nguyễn Đức Nghĩa Trường Đại học Bách khoa Hà Nội Luận án bảo vệ trước hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Trường Đại học Công nghệ vào hồi 00 ngày 10 tháng 01 năm 2014 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin – Thư viện, Đại học Quốc gia Hà Nội MỞ ĐẦU Tính cấp thiết luận án Ứng dụng công nghệ thông tin để nghiên cứu giải toán sinh học phân tử quan tâm Tin sinh học lĩnh vực nghiên cứu kết hợp hai ngành công nghệ thông tin sinh học phân tử Tin sinh học đầu tư lớn khả mang lại tiến khoa học hiệu kinh tế thông qua việc thúc đẩy phát triển công nghệ sinh học ứng dụng y tế, nông nghiệp lĩnh vực khác Các toán liên quan đến chuỗi prôtêin hàng đa chuỗi, tìm kiếm chuỗi tương đồng, xây dựng phân loài toán quan trọng tin sinh học Tất toán cần đến thành phần quan trọng mô hình (ma trận) biến đổi axít amin Mô hình biến đổi axít amin có số lượng tham số lớn (khoảng 200 tham số) thường khó ước lượng trực tiếp trình phân tích liệu Chúng ta thường ước lượng trước mô hình chung (general model) mô hình sử dụng cho liệu prôtêin Mô hình tổng quát PAM gần LG Quá trình ước lượng mô hình biến đổi axít amin trình phức tạp trải qua nhiều bước tính toán khác nhau, bước toán khó Ba bước trình ước lượng mô hình là: Xây dựng phân loài từ tập hàng đa chuỗi Các thuật toán xây dựng dùng trình ước lượng mô hình tốn nhiều thời gian Ví dụ phải vài ngày để ước lượng mô hình LG Xác định ràng buộc liên quan đến mô hình Độ xác mô hình hạn chế việc mô hình hoá loại bỏ số điều kiện ràng buộc sinh học phân tử Xây dựng mô hình riêng biệt cho loài sinh vật khác Đây bước quan trọng nhiều trường hợp mô hình chung không mô hình hoá hết đặc điểm biến đổi riêng biệt loài Các đóng góp luận án Đề xuất số phương pháp để tăng tốc độ trình xây dựng cây, giảm bớt số bước tối ưu cấu trúc cây, từ giúp giảm thời gian ước lượng mô hình Sử dụng thêm ràng buộc sinh học phân tử vào trình mô hình hoá Việc giúp nâng cao tính xác mô hình biến đổi axít amin phân tích liệu Xây dựng hệ thống ước lượng tự động mô hình biến đổi axít amin từ liệu người dùng, qua giúp người dùng ước lượng mô hình riêng biệt cho loài sinh vật khác Bên cạnh đó, luận án xây dựng thử nghiệm mô hình biến đổi axít amin cho riêng vi rút cúm kiểm nghiệm tính hiệu mô hình Các kết luận án công bố 03 báo tạp chí SCI quốc tế 02 báo cáo hội nghị quốc tế Bố cục luận án Ngoài phần kết luận, luận án tổ chức sau.z Chương giới thiệu khái quát chuỗi ADN, chuỗi axít amin, phép biến đổi, mô hình biến đổi toán ước lượng mô hình biến đổi axít amin Tiếp theo phần trình bày hai cách tiếp cận để ước lượng mô hình biến đổi axít amin phương pháp đếm phương pháp cực đại khả (maximum likelihood) Phần cuối chương giới thiệu phương pháp xây dựng phân loài phương pháp cực đại khả phương pháp so sánh hai mô hình biến đổi axít amin Chương đề xuất phương pháp ước lượng nhanh mô hình biến đổi axít amin Để làm điều đó, đề xuất hai phương pháp chia tách nhỏ liệu đầu vào Hai phương pháp giúp giảm thời gian xây dựng phân loài, bước chiếm nhiều thời gian trình ước lượng mô hình biến đổi axít amin Các thực nghiệm phần sau chương chứng tỏ hiệu hai phương pháp Chương luận án giới thiệu mô hình biến đổi axít amin sử dụng nhiều ma trận, cải tiến so với mô hình đơn ma trận Mô hình sử dụng thêm ràng buộc sinh học phân tử giúp tăng cường khả mô hình hoá trình biến đổi chuỗi axít amin Các thực nghiệm với hai liệu HSSP TreeBase chứng tỏ mô hình biến đổi đa ma trận có độ xác cao mô hình Chương đề xuất thuật toán ước lượng mô hình biến đổi axít amin cải tiến giúp giảm 50% thời gian ước lượng mô hình Có điều thuật toán tìm cách giảm bớt số bước tối ưu cấu trúc phân loài – bước chiếm nhiều thời gian trình ước lượng Chương giới thiệu hệ thống ước lượng mô hình tự động cài đặt thuật toán cải tiến Chương trình bày mô hình biến đổi axít amin cho vi rút cúm, gọi mô hình FLU Phần sau chương kết so sánh mô hình FLU với mô hình khác Qua thực nghiệm, mô hình FLU chứng tỏ hiệu cao hẳn mô hình phân tích liệu vi rút cúm Chương BÀI TOÁN ƯỚC LƯỢNG SỰ BIẾN ĐỔI AXÍT AMIN 1.1 Giới thiệu chung 1.1.1 ADN axít amin Giới thiệu cấu tạo ADN axít amin Chuỗi axít amin thành phần vô quan trọng cho sống Prôtêin thứ vật chất phát huy tác dụng quan trọng hoạt động thể, đồng thời đóng vai trò chất kích thích hệ miễn dịch, thành phần cung cấp vitamin lượng cho thể 1.1.2 Các phép biến đổi chuỗi chuỗi axít amin Hai chuỗi axít amin hai sinh vật khác tiến hoá từ chuỗi axít amin tổ tiên gọi hai chuỗi axít amin tương đồng Hai chuỗi axít amin tương đồng có khác biệt có biến đổi (còn gọi đột biến) trình tiến hoá Các phép biến đổi thông thường chia làm ba loại là:  Thay thế: axít amin bị thay axít amin khác  Xoá: axít amin bị xoá khỏi chuỗi  Chèn: axít amin chèn vào chuỗi 1.1.3 Sắp hàng đa chuỗi axít amin Quá trình biến đổi làm cho chuỗi axít amin tương đồng khác nội dung độ dài Sắp hàng đa chuỗi giúp làm rõ phép biến đổi chuỗi axít amin Sắp hàng đa chuỗi hiểu ma trận axít amin, hàng chuỗi axít amin; cột (vị trí) chứa axít amin tương đồng chuỗi Chúng ta sử dụng hàng đa chuỗi để xây dựng phân loài giúp đánh giá nguồn gốc tiến hóa chuỗi 1.1.4 Cây phân loài Cây phân loài (cây tiến hóa) dạng sơ đồ phân nhánh thể trình tiến hóa loài sinh vật cho biết tương đồng khác biệt chúng Các sinh vật liên kết với cho có tổ tiên chung Trong phân loài nút biểu diễn cho loài sinh vật tại, nút cha đại diện cho tổ tiên gần nút Độ dài cạnh hiểu ước lượng khoảng cách thời gian loài 1.2 Mô hình hoá trình biến đổi axít amin 1.2.1 Sự khác biệt hai chuỗi tương đồng Có khác hai chuỗi axít amin tương đồng tiến hóa từ tổ tiên chung có biến đổi axít amin trình tiến hóa Hai loại khoảng cách thường dùng để đo khác biệt hai chuỗi axít amin tương đồng x y khoảng cách quan sát khoảng cách di truyền:  Khoảng cách quan sát hai chuỗi axít amin x y tỷ lệ số vị trí hai chuỗi có axít amin không giống so với chiều dài chuỗi  Khoảng cách di truyền hai chuỗi axít amin x y tỷ lệ số lượng thực tế biến đổi xảy hai chuỗi trình tiến hoá so với chiều dài chuỗi Có ba tượng xảy trình tiến hoá chuỗi axít amin làm cho khoảng cách quan sát nhỏ nhiều khoảng cách di truyền là:  Đa biến đổi (multiple substitutions): Có nhiều phép biến đổi xảy vị trí trình tiến hoá quan sát nhiều phép biến đổi  Biến đổi song song (parallel substitutions): Hai phép biến đổi giống hệt xảy ví trí hai chuỗi Chúng ta không quan sát phép biến đổi hai chuỗi khác  Biến đổi ngược (back substitutions): Có nhiều phép biến đổi xảy axít amin ban đầu cuối lại giống nhau, không quan sát biến đổi hai chuỗi 1.2.2 Mô hình Markov cho trình biến đổi axít amin Xét trình biến đổi axít amin vị trí chuỗi prôtêin Quá trình biến đổi ngẫu nhiên liên tục theo thời gian với tập trạng thái S A, , N, D, C, Q, , G, H, I, L, K, M, F, P, S, T, , , V tập 20 axít amin Quá trình biến đổi axít amin mô hình hóa trình Markov với thuộc tính sau đây:  Độc lập với khứ (memoryless): Tốc độ biến đổi từ axít amin x thành axít amin y không phụ thuộc vào trình biến đổi trước axít amin x  Đồng (homologous): Tốc độ biến đổi axít amin đồng toàn trình biến đổi  Liên tục (continuous): Quá trình biến đổi axít amin diễn thời điểm suốt trình biến đổi  Ổn định (stationary): Tần số axít amin không đổi suốt trình biến đổi Gọi Π = {πi với i = 1, … 20 véc tơ tần số xuất 20 axít amin, ∑ πi không đổi theo thời gian ( ) Gọi ( ) ma trận xác suất chuyển axít amin sau khoảng thời gian ; ( ) xác suất chuyển từ axít amin ( ) sang axít amin ( ) sau khoảng thời gian với axít amin , ta có: ∑ P có kích thước 20 20 ( ) (1.1) ( ) với ( ) thỏa mãn công thức Chapman-Kolmogorov: ( ) ( ) ( ) t, s giá trị thời gian, điều kiện khởi tạo là: ( ) ( ) (1.2) Với giá trị nhỏ, ma trận xác suất chuyển ( ) tính xấp xỉ tuyến tính theo khai triển Taylor sau: ( ) ( ) (1.3) ma trận tốc độ biến đổi tức (instantaneous substitution rate matrix) axít amin; Q có kích thước 20*20 tốc độ biến đổi tức từ axít amin sang axít amin Xét axít amin để đảm bảo điều kiện tổng xác suất chuyển từ đến trạng thái khác sau khoảng thời gian (Công thức 1.1) giá trị phải thỏa mãn điều kiện: ∑ ∑ (1.4) Chúng ta coi lượng biến đổi từ axít amin sang axít amin đơn vị thời gian, tổng lượng biến đổi rời khỏi axít amin i Giá trị lớn thể tốc độ biến đổi từ axít amin i sang axít amin j lớn Dựa vào công thức Chapman-Kolmogorov (Công thức 1.2), tính ( ) từ sau: ( ) (1.5) Chúng ta gọi ∑ (1.6) tổng số lượng biến đổi axít amin đơn vị thời gian Ta có tổng số lượng biến đổi axít amin sau khoảng thời gian Ma trận tốc độ biến đổi chuẩn hóa cho tổng số lượng axít amin biến đổi đơn vị thời gian ( ) Tức là, ( ) xác xuất axít amin biến đổi thành axít amin có biến đổi axít amin axít amin Quá trình biến đổi axít amin thường giả sử có tính thuận nghịch theo thời gian (time reversible), tức số lượng biến đổi từ axít amin sang axít amin với số lượng biến đổi từ axít amin sang axít amin (mặc dù tần số xuất hai axít amin khác nhau), điều thể công thức: (1.7) hay Ta kí hiệu gọi ( ) hệ số hoán đổi (exchangeability coe icient) hai axít amin Hệ số hoán đổi (hay tốc độ biến đổi tương đối) hai axít amin lớn thể biến đổi hai axít amin xảy nhiều ngược lại Ma trận tốc độ biến đổi tức biểu diễn ma trận hoán đổi vectơ tần số xuất sau: { ∑ (1.8) viết gọn dạng: Chúng ta thấy ma trận hệ số hoán đổi R có dạng đối xứng qua đường chéo Như ước lượng thay cho ước lượng Q Do R có dạng đối xứng nên cần lưu trữ nửa ma trận nằm đường chéo Số tham số cần ước lượng 19 véc tơ có 20 thành phần tổng 20 thành phần Số tham số cần ước lượng 19 * 20/2 = 189, R ma trận đối xứng chuẩn hoá (công thức 1.6 1.8) Để ước lượng Q cần phải ước lượng tổng cộng 208 tham số Trong nhiều nghiên cứu mô hình biến đổi axít amin, ma trận biểu diễn tốc độ biến đổi tức Q gọi mô hình Q 1.3 Bài toán ước lượng mô hình biến đổi axít amin Quá trình biến đổi axít amin mô hình hoá mô hình Q Các tham số mô hình Q ước lượng từ hàng đa chuỗi axít amin Bài toán xây dựng mô hình biến đổi axít amin tóm tắt ngắn gọn sau: Dữ liệu vào: Dữ liệu đầu vào tập hàng đa chuỗi axít amin Các hàng thường có độ dài từ vài chục vài chục nghìn axít amin Tập hàng thường ký hiệu A = {D1, … DN Trong N số lượng hàng Da (1≤a≤N) ký hiệu hàng thứ a tập A Bài toán: Ước lượng mô hình biến đổi axít amin để mô tả trình tiến hóa chuỗi prôtêin đầu vào Dữ liệu ra: Một mô hình biến đổi axít amin Q thể trình tiến hoá chuỗi axít amin liệu đầu vào A Ước lượng mô hình Q toán phức tạp ta phải xác định lượng lớn tham số Các phương pháp chia theo hai hướng tiếp cận chính: phương pháp đếm (counting approach) phương pháp hợp lý (maximum likelihood approach) 1.4 Các phương pháp ước lượng mô hình biến đổi axít amin 1.4.1 Phương pháp đếm Trong phương pháp đếm, tham số cần ước lượng mô hình tính toán cách trực tiếp từ liệu Hai ma trận phổ biến ước lượng phương pháp đếm PAM BLOSUM 1.4.1.1 Ma trận PAM (Point Accepted Mutation) Tác giả mô hình PAM Dayho cộng sử dụng liệu gồm 71 nhóm prôtêin, nhóm bao gồm chuỗi prôtêin có quan hệ gần (giống 85%) Sự giống cao chuỗi prôtêin giúp đảm bảo biến đổi trực tiếp axít amin (ví dụ A → ) chiếm phần lớn, biến đổi gián tiếp (ví dụ A→ X → ) chiếm phần nhỏ Ma trận PAM1 cho biết xác suất thay axít amin có khoảng 1% tổng số axít amin bị biến đổi Các giá trị ma trận PAM1 cho biết xác suất biến đổi từ axít amin i thành axít amin j sau đơn vị thời gian Các phần từ không nằm đường chéo ma trận tính công thức: PAM1(i, j )  m j bij  bij (0.9) iS mj độ đột biến axít amin j, tính tương đối so với axít amin khác; bij số lần biến đổi hai axít amin i j quan sát từ liệu λ số chọn cho tổng số biến đổi toàn liệu 1% Các phần tử nằm đường chéo ma trận PAM chọn cho tổng cột 1.4.1.2 Ma trận BLOSUM (BLOcks SUbstitution Matrix) Ma trận BLOSUM giới thiệu lần Heniko Heniko vào năm 1992 Ma trận dùng chủ yếu cho toán hàng đa chuỗi Các tác giả sử dụng liệu BLOCKS, liệu chứa chuỗi prôtêin nhóm tác giả xây dựng Họ tìm đoạn bảo tồn (conserved regions) để từ tính tần số xuất axít amin xác suất biến đổi cặp axít amin Sau đó, tác giả tính giá trị log-odds cho cặp biến đổi axít amin có 1.4.2 Phương pháp cực đại khả (maximum likelihood) 1.4.2.1 Giới thiệu chung Một nhược điểm phương pháp đếm áp dụng cho tập liệu có độ tương đồng cao Để khắc phục hạn chế trên, phương pháp cực đại khả (maximum likelihood, viết tắt ML) đề xuất để xây dựng mô hình Q Một số nghiên cứu phương pháp cực đại khả giúp tránh lỗi có tính hệ thống giúp tận dụng thông tin hàng đa chuỗi prôtêin hiệu so với phương pháp đếm Năm 1996, nhóm tác giả Adachi Haseqawa sử dụng phương pháp ML để phân tích chuỗi prôtêin ti thể 20 loài động vật có xương sống để xây dựng mô hình mt V Nhóm tác giả cho thấy mô hình mt V tốt mô hình khác phân tích trình tiến hóa loài sinh vật dựa vào chuỗi prôtêin ti thể Tuy nhiên, thời gian tính toán cản trở lớn việc áp dụng phương pháp ML tập liệu prôtêin lớn Nhóm tác giả helan Goldman đề xuất phương pháp ML xấp xỉ áp dụng sở liệu gồm 3905 chuỗi prôtêin xây dựng mô hình AG vào năm 2002 Mô hình AG cho kết tốt mô hình khác dùng để phân tích trình tiến hóa sinh vật dựa vào chuỗi prôtêin Tập hàng đa chuỗi protein Xây dựng cây, ước lượng tốc độ biến đổi sử dụng ma trận Q Ước lượng ma trận Q’ Q Q’ Sai Q=Q’ Đúng Trả ma trận kết Q’ Hình 2.1: Lược đồ trình ước lượng mô hình biến đổi axít amin 2.3 Các phương pháp chia tách liệu Trong mục này, dựa vào phân tích mục trước, luận án trình bày hai phương pháp để tăng tốc trình xây dựng phân loài Ý tưởng chia nhỏ hàng kích thước lớn thành nhiều hàng kích thước nhỏ Với hàng kích thước nhỏ, trình xây dựng tăng tốc nhiều 2.3.1 Phương pháp chia tách ngẫu nhiên Đây ý tưởng đơn giản để giảm số lượng chuỗi hàng Xét hàng Da gồm m chuỗi số nguyên dương k (k ≥ 4) ngưỡng chia tách Các chuỗi hàng Da chia tách ngẫu nhiên thành hàng nhỏ có số lượng chuỗi nằm đoạn từ k đến 2k Các hàng nhỏ sử dụng để ước lượng mô hình Q Giả sử M mô hình ước lượng từ hàng không chia tách mô hình ước lượng từ hàng chia tách ngẫu nhiên với ngưỡng k Ví dụ mô hình ước lượng với liệu mô hình LG hàng có kích thước từ đến 16 chuỗi Các bước cụ thể phương pháp chia tách hàng ngẫu nhiên trình bày Thuật toán 2.1 procedure Thuật toán chia tách ngẫu nhiên; input: Một hàng Da với m chuỗi axít amin số nguyên dương k ≥4; output: Các hàng với kích thước từ k đến 2k; begin while (số lượng chuỗi Da ≥ k + 4) - Sinh ngẫu nhiên số tự nhiên s thoả mãn k ≤ s ≤ 2k; - Chọn ngẫu nhiên s chuỗi Da để tạo thành hàng con; - Loại bỏ chuỗi chọn khỏi Da; endwhile; Đưa tất hàng con; end; Thuật toán 2.1: Thuật toán chia tách hàng ngẫu nhiên 2.3.2 Phương pháp chia tách dựa theo cấu trúc Phương pháp chia tách ngẫu nhiên tạo hàng nhỏ chứa chuỗi có quan hệ xa Điều dẫn tới phân loài tương ứng với hàng nhỏ có độ xác không cao làm giảm độ xác cuả mô hình Q Để khắc phục vấn đề này, đề xuất phương pháp tách dựa cấu trúc Phương pháp dựa theo tư tưởng thuật toán BIONJ Thuật toán có độ phức tạp O(m3) với m số chuỗi Trong phương pháp chia tách dựa theo cấu trúc cây, chuỗi nhóm lại số lượng chuỗi nhóm nằm đoạn từ k đến 2k Cụ thể phương pháp chia tách dựa theo cấu trúc gồm bước Thuật toán 2.2 sau đây: procedure Thuật toán chia tách dựa theo cấu trúc cây; input: Sắp hàng Da với m chuỗi axít amin số nguyên dương k ≥4; output: Các hàng với kích thước từ k đến 2k; begin Mỗi chuỗi prôtêin Da coi nhóm Tính tất khoảng cách hai nhóm dựa vào ma trận khoảng cách thuật toán BIONJ; repeat Tìm hai nhóm có khoảng cách nhỏ nhất, giả sử G1 G2 Gọi m1 m2 số lượng chuỗi G1 G2 tương ứng; if m1 + m2 ≤ 2k then Kết hợp G1 G2 thành nhóm mới; Tính toán lại khoảng cách nhóm nhóm khác theo thuật toán BIONJ; else / / m1 > k m2 > k if m1 > k then Xem G1 hàng con; else / / s2 > k Xem G2 hàng con; endif endif until (chỉ nhóm G0); Giả sử m0 số lượng chuỗi G0 if m0≥3 then Xem G0 hàng con; else Kết hợp G0 vào hàng trước Đưa tất hàng con; end; Thuật toán 2.2: Thuật toán chia tách hàng dựa theo cấu trúc 2.4 Kết Các thực nghiệm với hai liệu P am vi rút cúm cho thấy phương pháp chia tách dựa cấu trúc cho kết tốt Với ngưỡng k = 8, phương pháp chia tách dựa tốt phương pháp không chia tách hai liệu thời gian ước lượng mô hình nhanh từ ba đến sáu lần Như vậy, phương pháp chia tách cho phép nhà nghiên cứu ước lượng mô hình từ liệu lớn với thời gian giảm đáng kể Phương pháp tách dựa với ngưỡng k khuyên dùng để có kết tốt hiệu Các kết nghiên cứu chương công bố hội nghị quốc tế KS năm 2011 (công trình khoa học số 3) Chương XÂY DỰNG MÔ HÌNH BIẾN ĐỔI ĐA MA TRẬN Phần lớn mô hình biến đổi axít amin sử dụng ma trận để mô hình hoá biến đổi axít amin Tuy nhiên trình biến đổi vị trí chuỗi axít amin không giống phụ thuộc vào nhiều yếu tố Trong hầu hết trường hợp, ma trận không đủ để mô hình hóa phức tạp trình biến đổi axít amin Ở chương này, nghiên cứu việc sử dụng mô hình với nhiều ma trận cho vị trí khác chuỗi axít amin 3.1 Tính không đồng tốc độ biến đổi theo vị trí Nhiều nghiên cứu tốc độ biến đổi có tính không đồng nhất, độ biến đổi vị trí khác chuỗi có khác biệt đáng kể Hiện tượng thường giải thích diện nhu cầu tiến hóa khác vị trí khác Để không bỏ qua tượng quan trọng này, cần sử dụng mô hình phân phối biểu diễn tốc độ biến đổi axít amin vị trí khác chuỗi prôtêin Tính không đồng tốc độ biến đổi axít amin vị trí khác mô hình hoá phân phối gamma () với kỳ vọng 1,0 phương sai 1/α (α>0) theo công thức sau:   r  1 Pdf ( r ) = r e ( ) 3.2 Mô hình biến đổi đa ma trận Với mô hình chuẩn ta cần ước lượng 208 tham số mô hình Q Ký hiệu D hàng, T cây phân loài tương ứng D xây dựng phương pháp ML với mô hình Q Khi likelihood Q T D tính theo công thức: l (3.1) L(Q , T | D )   L(Q, T | Di ) i 1 D = {D1, … Dl} hàng đa chuỗi có chiều dài l Di (1 ≤ i ≤ l) vị trí thứ i hàng ang giới thiệu mô hình hỗn hợp dựa mô hình biến đổi axít amin tốc độ vị trí biến thiên theo phân phối gamma rời rạc với c phân loại tốc độ có trọng số Likelihood tính công thức: 1 c  L(Q, T ,  | D )  L( ( , k )Q, T | Di )    c i 1  k 1  l   (3.2) với k tốc độ thứ k phân bố gamma rời rạc với tham số  Các trọng số tốc độ 1/c Cả T  ước tính phương pháp ML từ tập liệu đầu vào Mô hình đa ma trận đề xuất số nghiên cứu Với mô hình đa ma trận này, likelihood tính sau: L(Q  Q1 , , QM  , T ,W  w1 , , wM  | D )  l  M  wm L(Qm , T | Di )     m1    i 1 (3.3) M số lượng ma trận wm trọng số ma trận Qm với điều kiện m1 wm  M Các nghiên cứu gần kết hợp mô hình Yang (công thức 3.2) với công thức 3.3 để tạo thành mô hình đa ma trận: L(Q  Q1 , , QM , T ,W  w1 , , wM ,  | D)  M wm   c i 1  m1  L(( , k )Qm , T | Di )   k 1  l c   (3.4) với điều kiện mM1 wm  giữ nguyên Công thức 3.4 thể hai cấp độ hỗn hợp, cho loại tốc độ phân phối gamma cho ma trận thay Các mô hình tương ứng EX2 (bao gồm hai ma trận) UL3 (bao gồm ba ma trận) Trong luận án này, đơn giản hóa công thức 3.4 Mặc dù mô hình EX2, UL3 tốt chúng yêu cầu lượng tính toán lớn tốn nhiều nhớ Điều chủ yếu số lượng lớn phân loại vị trí, ví dụ UL3 có tới 12 phân loại vị trí phân loại gamma Để đơn giản hóa công thức 3.4, sử dụng bốn phân loại tốc độ bốn ma trận tương ứng (c = 4, M 4) Các trọng số phân loại cho ¼ Mô hình với bốn ma trận đặt tên LG4M Giả sử Q = (Q1, Q2, Q3, Q4) tập bốn ma trận, likelihood mô hình Q, phân loài T tham số α tính sau: 1  L(Q, T ,  | D )  L( ( , k )Qk , T | Di )    i 1  k 1  l   (3.5) Công thức 3.5 kết hợp công thức 3.2 ang công thức 3.4 mô hình hỗn hợp hai cấp Thay dùng chung ma trận mô hình ang, tốc độ có ma trận riêng ma trận áp dụng cho loại tốc độ thay cho tất tốc độ mô hình hỗn hợp hai cấp Như vậy, công thức 3.5 tổng quát so với mô hình ang, giữ tham số tự ước tính từ liệu ( T) mô hình ang Mô hình LG4M công thức 3.5 sử dụng phân phối gamma rời rạc để phân lớp tốc độ biến đổi axít amin theo vị trí Chúng loại bỏ phân phối gamma để có mô hình tổng quát hơn, gọi mô hình LG4X Likelihood tính sau: L(Q, T , P  1 , 2 , 3 , 4 ,W  w1 , w2 , w3 , w4  | D)     wk L( k Qk , T | Di )    i 1  k 1  (3.6) l  wk ρk trọng số tốc độ ma trận Qk thoả mãn k 1 wk  k 1 wk k  Như LG4X có trọng số wk tốc độ ρk tham số cần ước lượng 3.3 Thuật toán ước lượng mô hình Dựa vào lập luận mục 3.2, có thuật toán ước lượng mô Thuật toán 3.1 sau đây: procedure Thuật toán ước lượng mô hình; input: Tập N hàng A = { D1 , …, DN }, mô hình khởi tạo ban đầu S; output: Mô hình Q = {Q1, Q2, Q3, Q4}; begin Q = {Q1 = Q2 = Q3 = Q4 = S}; repeat foreach hàng Da A - Ta ← Cây phân loài Da xây dựng ML với Q; - Ước lượng tốc độ ρa = , …, trọng số wa = , …, ; Phân lớp cho vị trí Dai Da vào tập cho thỏa mãn a a a ci  arg max wk L(T , k Qk | Di ) k 1 ; - Chia hàng D Ta thành hàng theo phân lớp trên, nhân với tốc độ , a …, ( tương ứng: ( ); ), ( ), ( ), end foreach; for (k = 4) Ước lượng mô hình Q*k từ hàng thuộc phân lớp k ( ) thuật toán cực đại kỳ vọng với Qk mô hình khởi tạo ban đầu thuật toán cực đại kỳ vọng; endfor; until (Qk ≈ Q*k với k); Q ← Q’; end; Thuật toán 3.1: Thuật toán ước lượng mô hình LG4M LG4X 3.4 Kết Các thực nghiệm với liệu HSSP TreeBase cho thấy LG4M LG4X cho có likelihood cao cấu trúc khác so với mô hình đơn ma trận Như hai mô hình cho kết tốt mô hình đơn ma trận cần lượng nhớ thời gian thực Các kết nghiên cứu chương công bố tạp chí quốc tế Molecular Biology and Evolution năm 2012 (công trình khoa học số 5) Chương HỆ THỐNG ƯỚC LƯỢNG MÔ HÌNH TỰ ĐỘNG 4.1 Giới thiệu Nhiều mô hình biến đổi axít amin chung đề xuất JTT, WAG LG Ngoài ra, số mô hình cho tập liệu riêng biệt đề xuất HIVw HIVb cho vi rút HIV; FLU cho vi rút cúm, mtREV cho prôtêin ty thể) Các mô hình riêng biệt thường cho kết tốt mô hình chung áp dụng cho nhóm prôtêin tương ứng Do đó, việc ước lượng mô hình cho tập liệu riêng biệt cần thiết Chúng muốn xây dựng hệ thống tự động để đáp ứng nhu cầu Hệ thống cần phục vụ lúc nhiều người dùng thời gian chờ người dùng ngắn tốt Do nghiên cứu áp dụng cải tiến khác để tăng tốc trình ước lượng mô hình Trong phương pháp ước lượng mô hình Q, bước tối ưu cấu trúc ML lặp lại nhiều lần Các nghiên cứu ước lượng mô hình với gần tối ưu cho mô hình có chất lượng tốt Từ đề xuất phương pháp ước lượng nhanh với lần tối ưu cấu trúc 4.2 Phương pháp ước lượng nhanh Chúng thống kê với nhiều tập liệu tham số khác số lần lặp ước lượng lại ma trận Q trung bình bước xây dựng ML tốn thời gian Từ phân tích này, thuật toán cải tiến sau: - Chỉ tối ưu cấu trúc lần lần lặp - Thay tần số axít amin mô hình khởi tạo ban đầu tần số axít amin liệu - Sử dụng phân loại tốc độ gamma Các bước cụ thể thuật toán ước lượng nhanh mô hình biến đổi axít amin trình bày Thuật toán 4.1 sau đây: procedure Thuật toán ước lượng nhanh; input: Tập N hàng A ={D1, … DN} mô hình khởi tạo ban đầu S; output: Mô hình Q; begin Thay tần số axít amin S tần số tính từ liệu; Q ← S; for (i = 3) foreach hàng Da A if (i == 1) then Ta ← Cây phân loài Da xây dựng thuật toán BioNJ; endif; if (i == 2) then Tối ưu cấu trúc Ta với Q thuật toán SP ; endif; - Tối ưu độ dài cạnh Ta với Q; - Tối ưu tham số phân phối gamma với phân lớp tốc độ biến đổi theo vị trí; - Tách Da thành hàng , , suất phân phối tốc độ theo vị trí , dựa theo xác - Tạo , , , có cấu trúc giống Ta, cạnh nhân tỷ lệ theo tốc độ ước lượng phân loại theo phân phối gamma; end foreach; Ước lượng ma trận Q’ từ hàng thuật toán EM với Q ma trận khởi tạo ban đầu; Q ← Q’; endfor; Đưa Q; end; Thuật toán 4.1: Thuật toán ước lượng nhanh mô hình biến đổi axít amin Trong thuật toán cải tiến, lần lặp tối ưu lại tham số gamma chiều dài cạnh ML xây dựng lần chạy trước với mô hình Q mà không tối ưu cấu trúc Chúng thực tối ưu cấu trúc lần lặp thứ (i=2) Cải tiến giúp giảm thời gian đáng kể thuật toán tối ưu cấu trúc tốn nhiều thời gian 4.3 Kết Các thực nghiệm với hai liệu P am FLU cho thấy trung bình tốc độ ước lượng phương pháp giảm 50% so với phương pháp truyền thống Mô hình ước lượng phương pháp gần giống hệt với mô hình ước lượng phương pháp truyền thống (độ tương quan Pearson lớn 0,999) Giá trị likelihood chênh lệch hai mô hình không đáng kể Các cấu trúc nhiều khác biệt mô hình ước lượng hai phương pháp Chúng ứng dụng phương pháp để xây dựng hệ thống ước lượng tự động ma trận biến đổi từ liệu người dùng Các kết nghiên cứu chương công bố tạp chí quốc tế Bioinformatics năm 2011 (công trình khoa học số 2) Chương MÔ HÌNH BIẾN ĐỔI AXIT AMIN CHO VIRÚT CÚM 5.1 Giới thiệu vi rút cúm cần thiết mô hình biến đổi axít amin riêng biệt cho loài Các mô hình biến đổi axít amin chung chúng PAM, JTT, WAG, LG xây dựng dựa vào tập chuỗi prôtêin từ loài sinh vật khác Chúng sử dụng để phân tích chuỗi prôtêin tất loài Tuy nhiên, nghiên cứu gần cho thấy mô hình chung không cho kết tốt sử dụng để phân tích liệu prôtêin số loài cụ thể riêng biệt, ví dụ loại vi rút HIV Nguyên nhân mô hình chung phản ánh đầy đủ chất sinh học, hóa học trình tiến hóa số loài sinh vật riêng biệt Do đó, hướng nhà nghiên cứu quan tâm phát triển xây dựng mô hình biết đổi axít amin riêng biệt cho đối tượng sinh vật khác Năm 2007, Nickle đồng nghiệp áp dụng phương pháp hợp lý đề xuất Whelan Goldman để xây dựng mô hình biến đổi axít amin cho vi rút HIV Nhóm tác giả xây dựng hai mô hình, HIVw để mô trình biến đổi vi rút bên người bệnh, HIVb để mô trình biến đổi vi rút người bệnh Các kết nhóm tác giả cho thấy HIVb HIVw tốt mô hình chung khác Trong năm gần đây, dịch bệnh vi rút cúm xảy toàn giới Từ lên vấn đề cần phải nghiên cứu toàn diện loại vi rút nguy hiểm này, đặc biệt nghiên cứu trình tiến hóa, lan truyền lây nhiễm chúng Vi rút cúm loại vi rút NA thuộc họ Orthomyxoviridae Chúng chia thành ba loại là: cúm A, cúm B cúm C, có cúm A phổ biến nguy hiểm Trong năm gần đây, vi rút cúm A gây nhiều vấn đề nghiêm trọng cho sức khỏe người kinh tế xã hội, bật dịch bệnh H5N1 (cúm gia cầm) cúm H1N1 Do chương này, luận án đề xuất mô hình FLU cho vi rút cúm để giúp tăng cường hiểu biết tiến hóa loại vi rút Mô hình FLU xây dựng với phương pháp ước lượng nhanh đề xuất Chương Các kết thực nghiệm FLU tốt hẳn mô hình phân tích prôtêin vi rút cúm 5.2 Ước lượng mô hình FLU Chúng sử dụng liệu chuẩn vi rút cúm, kết hợp với phương pháp chia tách hàng theo cấu trúc chương để ước lượng mô hình FLU Ngưỡng chia tách chọn (k 8), có nghĩa hàng sau chia tách có kích thước từ đến 16 chuỗi Tổng số hàng trước chia chia tách 992, số lượng hàng sau chia tách 3970 Tiếp tục thực bước ước lượng mô chương 2, có mô hình biến đổi axít amin cho vi rút cúm gọi FLU 5.3 Kết Chúng ước lượng mô hình FLU cho liệu vi rút cúm thu kết tốt Các phân tích cho thấy khác biệt FLU mô hình véc tơ tần số axít amin ma trận hệ số hoán đổi Các thực nghiệm cho thấy FLU mô hình hoá đặc điểm tiến hóa vi rút cúm tốt so với mô hình chung Cả hai thử nghiệm toàn cục thử nghiệm chéo khẳng định FLU tốt so với mô hình việc xây dựng ML KẾT LUẬN Các nghiên cứu chuỗi axít amin đóng vai trò quan trọng sinh học phân tử tin sinh học Mô hình biến đổi axít amin thành phần có vai trò quan trọng nghiên cứu chuỗi axít amin Phương pháp cực đại khả phương pháp tốt để ước lượng mô hình biến đổi axít amin Tuy nhiên phương pháp gặp nhiều hạn chế thời gian thực độ xác Luận án đề xuất hai cải tiến quan trọng để giảm thời gian phương pháp ước lượng mô hình biến đổi axít amin Đề xuất hai phương pháp chia tách nhỏ liệu đầu vào giúp giảm đáng kể thời gian ước lượng mô hình Đề xuất thứ hai giảm bớt bước tối ưu tham số xây dựng phân loài giúp giảm 50% thời gian ước lượng mô hình Độ xác phương pháp cải tiến tương đương với phương pháp cũ Luận án đưa mô hình đa ma trận giúp mô hình hoá tốt trình biến đổi chuỗi axít amin Mô hình chứng tỏ ưu việt so với mô hình độ xác cải thiện đáng kể thời gian chạy tương đương với mô hình đơn ma trận Luận án xây dựng hệ thống ước lượng mô hình tự động giúp ước lượng ma trận biến đổi axít amin từ liệu người dùng Hệ thống kết nghiên cứu kết hợp Viện nghiên cứu LI MM, Cộng hoà Pháp Hệ thống hoạt động gần hai năm có nhiều người sử dụng Chúng xây dựng mô hình FLU cho vi rút cúm Mô hình FLU tích hợp vào phần mềm xây dựng phân loài PhyML chứng tỏ hiệu phân tích chuỗi axít amin vi rút cúm Mô hình giúp tăng cường hiểu biết vi rút cúm, giúp có cách đối phó hữu hiệu với loại vi rút nguy hiểm Như luận án tập trung phân tích đề xuất cải tiến cho thành phần quan trọng phương pháp xây dựng mô hình biến đổi axít amin gồm: Dữ liệu đầu vào (Chương 2), Mô hình biến đổi (Chương 3) Xây dựng phân loài ML (Chương 4) Những cải tiến giúp giảm đáng kể thời gian xây dựng tăng độ xác ma trận Các kết chương gộp lại thành kết thống cải tiến cho phương pháp xây dựng ma trận biến đổi axít amin Tuỳ vào điều kiện toán cụ thể mà lựa chọn áp dụng hay nhiều cải tiến DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Cuong DC, Quang LS, Gascuel O, and Vinh LS (2010), “FLU, an amino acid substitution model or in luenza proteins”, BMC Evolutionary Biology vol 10 (1), p 99-110 Cuong DC, Lefort V, Vinh LS, Quang LS and Gascuel O (2011), “ eplacementMatrix: a web server for maximum-likelihood estimation o amino acid replacement rate matrices”, Bioinformatics vol 27 (19), pp 2758–2760 Dat LV, Cuong DC, Quang LS and Vinh LS (2011), “A Fast and Efficient Method for Estimating Amino Acid Substitution Models”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 85 –91 Sau NV, Cuong DC, Quang LS and Vinh LS (2011), “Protein Type Speci ic Amino Acid Substitution Models or In luenza Viruses”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 98 –103 Quang LS, Cuong DC, and Gascuel O (2012), “Modeling Protein Evolution with Several Amino Acid Replacement Matrices Depending on Site ates”, Mol Biol Evol vol 29 (10), pp 2921– 2936 [...]... với các mô hình hiện tại trong việc xây dựng cây ML KẾT LUẬN Các nghiên cứu về chuỗi axít amin đóng vai trò quan trọng trong sinh học phân tử và tin sinh học Mô hình biến đổi axít amin là một thành phần có vai trò rất quan trọng trong nghiên cứu chuỗi axít amin Phương pháp cực đại khả năng là một trong những phương pháp tốt nhất hiện nay để ước lượng mô hình biến đổi axít amin Tuy nhiên các phương pháp. .. đáng kể Phương pháp tách dựa trên cây với ngưỡng k 8 được chúng tôi khuyên dùng để có một kết quả tốt và hiệu quả Các kết quả nghiên cứu của chương này đã được công bố tại hội nghị quốc tế KS năm 2011 (công trình khoa học số 3) Chương 3 XÂY DỰNG MÔ HÌNH BIẾN ĐỔI ĐA MA TRẬN Phần lớn các mô hình biến đổi axít amin sử dụng một ma trận để mô hình hoá sự biến đổi giữa các axít amin Tuy nhiên quá trình biến. .. với phương pháp cũ Luận án cũng đưa ra một mô hình đa ma trận mới giúp mô hình hoá tốt hơn quá trình biến đổi của các chuỗi axít amin Mô hình này cũng đã chứng tỏ được những ưu việt của nó so với các mô hình hiện tại khi độ chính xác được cải thiện đáng kể trong khi thời gian chạy vẫn tương đương với mô hình đơn ma trận Luận án đã xây dựng một hệ thống ước lượng mô hình tự động giúp ước lượng các ma trận. .. lượng tốc độ biến đổi sử dụng ma trận Q Ước lượng ma trận Q’ mới Q Q’ Sai Q=Q’ Đúng Trả về ma trận kết quả Q’ Hình 2.1: Lược đồ quá trình ước lượng mô hình biến đổi axít amin 2.3 Các phương pháp chia tách dữ liệu Trong mục này, dựa vào các phân tích của mục trước, luận án trình bày hai phương pháp để tăng tốc quá trình xây dựng cây phân loài Ý tưởng ở đây là chia nhỏ các sắp hàng kích thước lớn thành... giúp chúng ta có cách đối phó hữu hiệu hơn với loại vi rút rất nguy hiểm này Như vậy luận án đã tập trung phân tích và đề xuất những cải tiến cho các thành phần quan trọng nhất của phương pháp xây dựng mô hình biến đổi axít amin gồm: Dữ liệu đầu vào (Chương 2), Mô hình biến đổi (Chương 3) và Xây dựng cây phân loài bằng ML (Chương 4) Những cải tiến này đã giúp giảm đáng kể thời gian xây dựng và tăng độ... phương pháp ML Ước lượng các tham số của mô hình: ước lượng ma trận Q’ mới từ tất cả các sắp hàng và cây tương ứng ở bước Xây dựng cây bằng thuật toán cực đại kỳ vọng (expectation maximization) So sánh mô hình: So sánh Q và Q’ Nếu Q’ ~ Q, kết thúc và Q’ là ma trận kết quả Nếu không, thay Q bằng Q’ và quay lại bước Xây dựng cây Tập các sắp hàng đa chuỗi protein Xây dựng cây, ước lượng tốc độ biến đổi. .. chính xác của ma trận Các kết quả của từng chương có thể gộp lại thành một kết quả thống nhất là những cải tiến cho phương pháp xây dựng ma trận biến đổi axít amin Tuỳ vào điều kiện bài toán cụ thể mà chúng ta có thể lựa chọn áp dụng một hay nhiều cải tiến DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 1 Cuong DC, Quang LS, Gascuel O, and Vinh LS (2010), “FLU, an amino acid substitution... không đáng kể Các cấu trúc cây cũng không có nhiều khác biệt giữa các mô hình được ước lượng bằng hai phương pháp Chúng tôi đã ứng dụng phương pháp mới để xây dựng một hệ thống ước lượng tự động các ma trận biến đổi từ dữ liệu của người dùng Các kết quả nghiên cứu của chương này đã được công bố trên tạp chí quốc tế Bioinformatics năm 2011 (công trình khoa học số 2) Chương 5 MÔ HÌNH BIẾN ĐỔI AXIT AMIN. .. quá trình biến đổi ở các vị trí trên chuỗi axít amin là không giống nhau và phụ thuộc vào nhiều yếu tố Trong hầu hết các trường hợp, một ma trận là không đủ để mô hình hóa sự phức tạp của quá trình biến đổi giữa các axít amin Ở chương này, chúng tôi sẽ nghiên cứu việc sử dụng mô hình với nhiều ma trận cho các vị trí khác nhau trên chuỗi axít amin 3.1 Tính không đồng nhất của tốc độ biến đổi theo vị trí... xác Luận án đã đề xuất hai cải tiến quan trọng để giảm thời gian của phương pháp ước lượng mô hình biến đổi axít amin hiện tại Đề xuất đầu tiên là hai phương pháp chia tách nhỏ dữ liệu đầu vào giúp giảm đáng kể thời gian ước lượng mô hình Đề xuất thứ hai là giảm bớt các bước tối ưu tham số khi xây dựng cây phân loài giúp giảm 50% thời gian ước lượng mô hình Độ chính xác của các phương pháp cải tiến

Ngày đăng: 14/09/2016, 23:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan