Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
2,26 MB
Nội dung
1 Tóm tắt Protein là thành phần chính của các sinh vật sống và chiếm hơn 25% trọng lượng của một tế bào điển hình. Mục tiêu của nghiên cứu protein trong tin sinh học là hỗ trợ sinh học thực nghiệm trong việcxácđịnhchứcnăng hoặc đưa ra các giả thuyết về chứcnăng cho tất cả các protein được biết đến dựatrênviệcso sánh, xếp hàng các trình tự amino acid hoặc cấutrúc protein. Hiện nay đã có rất nhiều nghiên cứu về sosánh trình tự protein nhằm tìm ra sự tương đồng giữa các protein, từ đó suy ra chứcnăngcủa chúng. Tuy nhiên trong thực tế có những protein khác nhau về trình tự amino acid nhưng lại có cấutrúc tương tự nhau, những nghiên cứu cấutrúcprotein cũng rất quan trọng bởi vì cấutrúcprotein được cho là có liên hệ gần gũi với chứcnăngcủaprotein nhiều hơn là trình tự protein. Những công cụ điển hình hỗ trợ nghiên cứu cấutrúccủaprotein như DALI (phát triển bởi phòng thí nghiệm sinh học phân tử Châu Âu), CHIMERA (phát triển bởi Đại học California tại San Francisco), CE (phát triển bởi trung tâm siêu máy tính San Diego)…hầu hết các công cụ này tính toándựatrên vector hoặc khoảng cách và sử dụng độ đo khoảng cách Euclide để xácđịnh sự tương đồng về cấutrúc các protein. Luậnvăn này trình bày một phương pháp sử dụng một độ đo khoảng cách được mở rộng đối sánh mẫu nhằm cải thiện hơn nữa kết quả sosánhcấutrúcproteincủa những công cụ như CHIMERA, DALI…Ngoài phương pháp xếp chồng cấutrúc để so sánh, luậnvăn trình bày thêm phương pháp thu nhỏ khoảng cách giữa các nguyên tử Carbon- đã được so sánh, cho phép thấy rõ hơn sự tương đồng về cấutrúccủa các protein. Cấutrúcluậnvăn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm về cấutrúc protein, chương thứ ba 2 mô tả các phương pháp sosánhcấutrúc phổ biến và phương phá của tác giả, chương thứ tư giới thiệu mẫu dữ liệu để thử nghiệm, kết quả sosánh với CHIMERA và chương cuối nêu lên một số kết luận và hạn chế. 3 Mục lục Trang Mục lục 3 DANH MỤC HÌNH ẢNH 5 DANH MỤC BẢNG 6 Chương 1: Giới thiệu 7 1.1. Tổng quan 7 1.2. Mục đích luậnvăn . 12 Chương 2: Khái niệm cấutrúcprotein 13 2.1. Amino acid và tính chất 13 2.2. Protein . 15 2.3. Chứcnăngcủaprotein 17 2.4. Phân lớp cấutrúcprotein . 19 2.5. Xácđịnhcấutrúcprotein . 29 Chương 3: Sosánhcấutrúc 41 3.1. Phương pháp sosánhcấutrúc trong Chimera 41 3.2. Phương pháp sosánhcấutrúc trong DALI 41 3.3. Phương pháp sosánhcấutrúc trong CE 44 Chương 4: Cảitiến phương pháp Sosánhcấutrúc . 45 4.1 Phương pháp thực hiện 45 4.2 Xếp chồng cấutrúcprotein 47 4 4.3 Cực tiểu hóa khoảng cách 47 4.4 Thực thi chương trình 49 Chương 5: Kết quả . 53 5.1 Dữ liệu mẫu . 53 5.2 Kết quả 56 5.3 Sosánh kết quả 57 5.4 Hạn chế 59 5.5 Kết luận . 59 5.6 Hướng phát triển 60 Tài liệu tham khảo 61 Phụ lục A: Các đoạn code chính . 64 A.1 Chương trình chính 64 A.2 Xếp chồng cấutrúc 65 A.3 Sosánhcấutrúc . 67 Phụ lục B: Sử dụng chương trình 70 B.1 Giao diện chương trình 70 B.2 Sử dụng chương trình . 70 5 DANH MỤC HÌNH ẢNH Hình 1:Cơ bản cấutrúccủa một acid α-amino 13 Hình 2: 20 amino acid . 14 Hình 3: Hình thức củaprotein . 16 Hình 4: Cấutrúcprotein bậc 1 20 Hình 5: Cấutrúcprotein bậc 2 20 Hình 6a: Mô hình xoắn α 21 Hình 7: Siêu cấutrúc bậc 2 . 23 Hình 8: Domain 24 Hình 9: Cấutrúc bậc 3 củaprotein . 26 Hình 10: Cấutrúc bậc 4 củaprotein . 27 Hình 11-a: Collagen – Một loại protein sợi . 28 Hình 12: Kiểm tra cặp tương đồng trong DALI . 43 Hình 13: Xếp chồng cấutrúcprotein . 46 Hình 14: Sắp hàng protein thông thường 48 Hình 15: Sắp hàng protein sau khi tính giá trị . 49 Hình 16: Quy trình xử lý giữa người dùng và hệ thống 50 Hình 17: Quy trình sosánhcấutrúc 51 Hình 18: Nội dung file pdb 53 Hình 19: Cấutrúcprotein 1c0i . 55 6 Hình 20: Cấutrúcprotein 1dak . 55 Hình 22: Thể hiện cấutrúc xếp chồng . 56 Hình 23: Sosánhcấutrúcprotein sử dụng chương trình Chimera 57 Hình 24: Kết quả sosánh với RMSD là 0.680 . 58 Hình 25: Kết quả sosánh với RMSD là 0.664 . 58 Hình 21: Giao diện chương trình 70 DANH MỤC BẢNG Bảng 1: 20 amino acid . 15 Bảng 2: Ví dụ mẫu về mục trong PDB 54 Bảng 3: sosánh RMSD giữa CHIMERA và phương pháp trình bày . 59 7 Chương 1: Giới thiệu 1.1. Tổng quan Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene đã được giải mã gần như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics). Với khối lượng lớn dữ liệu sinh học tác động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã, tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chứcnăngcủa protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động vào sự di truyền. Chính vì vậy việcđưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển trên thế giới. Hiện nay, có rất nhiều nghiên cứu tiến hành sosánh các protein với nhau bằng cách sắp hàng trình tự các amino acid. Nhưng để thể hiện và nhận dạng rõ ràng chứcnăngcủaprotein thì việc nghiên cứu về trình tự của gene chưa đủ mà phải tìm hiểu ở dạng liên kết các amino acid dưới dạng cấu trúc. 8 Việc nghiên cứu protein ngày càng thể hiện rõ tầm quan trọng vì chúng đóng vai trò chủ yếu trong tất cả quá trình xử lý của sinh học, bao gồm việc xúc tác các enzym (các phần tử tác động hóa học trong cuộc sống được xúc tác bởi protein enzym), vận chuyển oxy, ion,v.v…. Để có trình tự củaprotein thì không khó, nhưng sẽ thật khó để xácđịnhcấutrúccủa nó. Các nếp gấp củaprotein thể hiện cấutrúc bậc ba được định dạng bởi trình tự amino acid. Và hai protein có cấutrúc tương tự có thể phát hiện nguồn gốc tổ tiên dù khoảng cách xuất hiện của các protein này cách biệt về thời gian. Điều này thì khó nhận diện trong việcsosánh trình tự đơn thuần. Dự đoán cấutrúccủaprotein là một vấn đề lớn trong lĩnh vực sinh tin học. Cấutrúcprotein được xácđịnh bằng các kỹ thuật thực nghiệm như tinh thể học x- ray, hoặc phương pháp dự đoán kỹ thuật: ab-initio, homology modeling, protein threading. Hiện nay số lượng các cấutrúcprotein có trong PDB (Ngân hàng dữ liệu protein) [14] phát triển nhanh chóng với khoảng 73.153 (17/5/2011) cấutrúc đã biết. Tuy nhiên, đây cũng chỉ là một con số quá nhỏ so với những cơ thể sống đang có xung quanh con người chúng ta. Chính vì vậy, việc gom nhóm và tìm hiểu cấutrúccủaprotein để phát hiện các mối quan hệ tiến hóa, xácđịnh các motif (đoạn lặp), phát hiện mối quan hệ giữa cấutrúc và chứcnăngcủaprotein là một nhu cầu to lớn của khoa học về sự sống. Protein thì phức tạp trong việc thể hiện cấutrúc bậc 2, bậc 3. Các nhà nghiên cứu đã mô tả và sosánh các cấutrúc theo nhiều cách khác nhau, với nhiều cấp bậc khác nhau. Từ việc gom nhóm các proteindựa theo cấutrúc tương tự nhau, chúng ta có thể: - Tìm mối liên hệ trong sự tiến hóa. - Tìm ra những đoạn motif. 9 - Tìm ra mối liên hệ về cấutrúc và chứcnăngcủa các protein. - Giúp chế tạo ra các loại thuốc. - Tìm ra trình tự liên quan đến các căn bệnh ung thư hay các bệnh khác. Một số công trình tiêu biểu đã thực hiện trong việc nghiên cứu cấutrúc và sosánhcấutrúcprotein như: Phương pháp nghiên cứu CE, viết tắt của Combinatorial Extension, do Shindyalov và Bourne đề xuất [6] Phương pháp thực hiện sắp hàng các cặp đoạn thẳng. Cặp đoạn thẳng (AFP) là các cặp đoạn của hai cấutrúcprotein tương tự nhau về cấu trúc. Các cặp đoạn trùng lặp chỉ xét ở dạng cục bộ, không có sự liên kết và sosánh với toàn bộ cấutrúccủa protein, điều này làm hạn chế việcsosánhtoàn bộ cấutrúccủa protein. Ngoài ra, phương pháp CE thực hiện sosánhcấutrúcdựatrêncấutrúc bậc 2 (secondary structure) của protein. Điều này làm hạn chế việc nhận biết được chứcnăngcủaprotein do chứcnăng thể hiện chính xác hơn dưới dạng mô hình cấutrúc bậc 3. Phương pháp DALI, viết tắt của Distance Matrix Alignment, được phát triển bởi European Molecular Biology Laboratoy, Cambridge [15]; DALI sosánhcấutrúc bằng phương pháp sắp hàng và sử dụng ma trận khoảng cách. Phương pháp thực hiện các bước : sosánh tất cả các phần tử, các phần tử cùng mẫu được lưu trữ trong danh sách tiến hành sosánh sau này. Việc tìm ra các phần tử cùng mẫu bằng cách sử dụng tọa độ không gian của các phần tử trong mỗi protein để tính ma trận khoảng cách α-carbon và α-carbon. Các ma trận khoảng cách sau đó được phân tích thành các mẫu liên kết, ví dụ ma trận con hexapeptide – hexapeptide. Khi đó, các mẫu liên kết tương tự của hai ma trận được kết hợp thành 10 một cặp lớn hơn. Tiếp theo là sử dụng thuậttoán Monte Carlo để tối ưu khoảng cách RMSD. Nhược điểm của phương pháp DALI là tiến hành kiểm tra, thực hiện sắp hàng cấutrúc với tất cả các phần tử, ngay cả với các phần tử không đóng vai trò chính, điều này làm thời gian thực thi lâu. Một phương pháp khá phổ biến trong việc dự đoán và sosánhcấutrúc là CHIMERA, phát triển bởi University of California at San Francisco [13][17]; CHIMERA là một công cụ xây dựng với giao diện người dùng được gọi là “Match Maker”. Chương trình CHIMERA xây dựng với nhiều tính năng thể hiện cấutrúc ở nhiều dạng khác nhau trong không gian 3 chiều; Thực hiện sosánh cùng lúc nhiều cấutrúc . Đây được coi là phần mềm phổ biến và có nhiều chứcnăng trong việc tìm kiếm (dự đoán) các cấutrúc và sosánhcấutrúc protein. Phương pháp trong CHIMERA tiến hành tạo bộ xếp chồng đầu tiên để tiến hành tính toánsosánh bằng cách cố định một cấutrúc và tiến hành dịch chuyển cấutrúc còn lại. Sau khi xếp chồng, bước tiếp theo thực hiện việcxácđịnh RMSD. Việc xếp chồng được đánh giá bằng cách tìm số nguyên tử kết hợp và tính toán độ RMSD tương ứng. Shashi Bhushan Pandit và Jeffrey Skolnick đã trình bày một phương pháp khác để thực hiện sắp hàng cấutrúcdựatrênviệc sắp hàng phân đoạn và TM-score [16]; Sosánhcấutrúc được thực thi dựatrên các thuộc tính trong cấutrúccủa protein. Đa phần các phương pháp tiến hành sử dụng giá trị α-carbon là thành phần chính trong quá trình sắp hàng và sosánhcấu trúc. Shashi Bhushan Pandit và Jeffrey Skolnick đưa ra một giá trị là TM-score để đánh giá độ lệch (khoảng cách) của cặp cấu trúc. Ở Việt Nam, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công