1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ

71 629 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 2,26 MB

Nội dung

1 Tóm tắt Protein là thành phần chính của các sinh vật sống và chiếm hơn 25% trọng lượng của một tế bào điển hình. Mục tiêu của nghiên cứu protein trong tin sinh học là hỗ trợ sinh học thực nghiệm trong việc xác định chức năng hoặc đưa ra các giả thuyết về chức năng cho tất cả các protein được biết đến dựa trên việc so sánh, xếp hàng các trình tự amino acid hoặc cấu trúc protein. Hiện nay đã có rất nhiều nghiên cứu về so sánh trình tự protein nhằm tìm ra sự tương đồng giữa các protein, từ đó suy ra chức năng của chúng. Tuy nhiên trong thực tế có những protein khác nhau về trình tự amino acid nhưng lại có cấu trúc tương tự nhau, những nghiên cứu cấu trúc protein cũng rất quan trọng bởi vì cấu trúc protein được cho là có liên hệ gần gũi với chức năng của protein nhiều hơn là trình tự protein. Những công cụ điển hình hỗ trợ nghiên cứu cấu trúc của protein như DALI (phát triển bởi phòng thí nghiệm sinh học phân tử Châu Âu), CHIMERA (phát triển bởi Đại học California tại San Francisco), CE (phát triển bởi trung tâm siêu máy tính San Diego)…hầu hết các công cụ này tính toán dựa trên vector hoặc khoảng cách và sử dụng độ đo khoảng cách Euclide để xác định sự tương đồng về cấu trúc các protein. Luận văn này trình bày một phương pháp sử dụng một độ đo khoảng cách được mở rộng đối sánh mẫu nhằm cải thiện hơn nữa kết quả so sánh cấu trúc protein của những công cụ như CHIMERA, DALI…Ngoài phương pháp xếp chồng cấu trúc để so sánh, luận văn trình bày thêm phương pháp thu nhỏ khoảng cách giữa các nguyên tử Carbon- đã được so sánh, cho phép thấy rõ hơn sự tương đồng về cấu trúc của các protein. Cấu trúc luận văn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm về cấu trúc protein, chương thứ ba 2 mô tả các phương pháp so sánh cấu trúc phổ biến và phương phá của tác giả, chương thứ tư giới thiệu mẫu dữ liệu để thử nghiệm, kết quả so sánh với CHIMERA và chương cuối nêu lên một số kết luận và hạn chế. 3 Mục lục Trang Mục lục 3 DANH MỤC HÌNH ẢNH 5 DANH MỤC BẢNG 6 Chương 1: Giới thiệu 7 1.1. Tổng quan 7 1.2. Mục đích luận văn . 12 Chương 2: Khái niệm cấu trúc protein 13 2.1. Amino acid và tính chất 13 2.2. Protein . 15 2.3. Chức năng của protein 17 2.4. Phân lớp cấu trúc protein . 19 2.5. Xác định cấu trúc protein . 29 Chương 3: So sánh cấu trúc 41 3.1. Phương pháp so sánh cấu trúc trong Chimera 41 3.2. Phương pháp so sánh cấu trúc trong DALI 41 3.3. Phương pháp so sánh cấu trúc trong CE 44 Chương 4: Cải tiến phương pháp So sánh cấu trúc . 45 4.1 Phương pháp thực hiện 45 4.2 Xếp chồng cấu trúc protein 47 4 4.3 Cực tiểu hóa khoảng cách 47 4.4 Thực thi chương trình 49 Chương 5: Kết quả . 53 5.1 Dữ liệu mẫu . 53 5.2 Kết quả 56 5.3 So sánh kết quả 57 5.4 Hạn chế 59 5.5 Kết luận . 59 5.6 Hướng phát triển 60 Tài liệu tham khảo 61 Phụ lục A: Các đoạn code chính . 64 A.1 Chương trình chính 64 A.2 Xếp chồng cấu trúc 65 A.3 So sánh cấu trúc . 67 Phụ lục B: Sử dụng chương trình 70 B.1 Giao diện chương trình 70 B.2 Sử dụng chương trình . 70 5 DANH MỤC HÌNH ẢNH Hình 1:Cơ bản cấu trúc của một acid α-amino 13 Hình 2: 20 amino acid . 14 Hình 3: Hình thức của protein . 16 Hình 4: Cấu trúc protein bậc 1 20 Hình 5: Cấu trúc protein bậc 2 20 Hình 6a: Mô hình xoắn α 21 Hình 7: Siêu cấu trúc bậc 2 . 23 Hình 8: Domain 24 Hình 9: Cấu trúc bậc 3 của protein . 26 Hình 10: Cấu trúc bậc 4 của protein . 27 Hình 11-a: Collagen – Một loại protein sợi . 28 Hình 12: Kiểm tra cặp tương đồng trong DALI . 43 Hình 13: Xếp chồng cấu trúc protein . 46 Hình 14: Sắp hàng protein thông thường 48 Hình 15: Sắp hàng protein sau khi tính giá trị . 49 Hình 16: Quy trình xử lý giữa người dùng và hệ thống 50 Hình 17: Quy trình so sánh cấu trúc 51 Hình 18: Nội dung file pdb 53 Hình 19: Cấu trúc protein 1c0i . 55 6 Hình 20: Cấu trúc protein 1dak . 55 Hình 22: Thể hiện cấu trúc xếp chồng . 56 Hình 23: So sánh cấu trúc protein sử dụng chương trình Chimera 57 Hình 24: Kết quả so sánh với RMSD là 0.680 . 58 Hình 25: Kết quả so sánh với RMSD là 0.664 . 58 Hình 21: Giao diện chương trình 70 DANH MỤC BẢNG Bảng 1: 20 amino acid . 15 Bảng 2: Ví dụ mẫu về mục trong PDB 54 Bảng 3: so sánh RMSD giữa CHIMERA và phương pháp trình bày . 59 7 Chương 1: Giới thiệu 1.1. Tổng quan Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene đã được giải mã gần như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics). Với khối lượng lớn dữ liệu sinh học tác động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã, tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức năng của protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động vào sự di truyền. Chính vì vậy việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển trên thế giới. Hiện nay, có rất nhiều nghiên cứu tiến hành so sánh các protein với nhau bằng cách sắp hàng trình tự các amino acid. Nhưng để thể hiện và nhận dạng rõ ràng chức năng của protein thì việc nghiên cứu về trình tự của gene chưa đủ mà phải tìm hiểu ở dạng liên kết các amino acid dưới dạng cấu trúc. 8 Việc nghiên cứu protein ngày càng thể hiện rõ tầm quan trọng vì chúng đóng vai trò chủ yếu trong tất cả quá trình xử lý của sinh học, bao gồm việc xúc tác các enzym (các phần tử tác động hóa học trong cuộc sống được xúc tác bởi protein enzym), vận chuyển oxy, ion,v.v…. Để có trình tự của protein thì không khó, nhưng sẽ thật khó để xác định cấu trúc của nó. Các nếp gấp của protein thể hiện cấu trúc bậc ba được định dạng bởi trình tự amino acid. Và hai proteincấu trúc tương tự có thể phát hiện nguồn gốc tổ tiên dù khoảng cách xuất hiện của các protein này cách biệt về thời gian. Điều này thì khó nhận diện trong việc so sánh trình tự đơn thuần. Dự đoán cấu trúc của protein là một vấn đề lớn trong lĩnh vực sinh tin học. Cấu trúc protein được xác định bằng các kỹ thuật thực nghiệm như tinh thể học x- ray, hoặc phương pháp dự đoán kỹ thuật: ab-initio, homology modeling, protein threading. Hiện nay số lượng các cấu trúc protein có trong PDB (Ngân hàng dữ liệu protein) [14] phát triển nhanh chóng với khoảng 73.153 (17/5/2011) cấu trúc đã biết. Tuy nhiên, đây cũng chỉ là một con số quá nhỏ so với những cơ thể sống đang có xung quanh con người chúng ta. Chính vì vậy, việc gom nhóm và tìm hiểu cấu trúc của protein để phát hiện các mối quan hệ tiến hóa, xác định các motif (đoạn lặp), phát hiện mối quan hệ giữa cấu trúcchức năng của protein là một nhu cầu to lớn của khoa học về sự sống. Protein thì phức tạp trong việc thể hiện cấu trúc bậc 2, bậc 3. Các nhà nghiên cứu đã mô tả và so sánh các cấu trúc theo nhiều cách khác nhau, với nhiều cấp bậc khác nhau. Từ việc gom nhóm các protein dựa theo cấu trúc tương tự nhau, chúng ta có thể: - Tìm mối liên hệ trong sự tiến hóa. - Tìm ra những đoạn motif. 9 - Tìm ra mối liên hệ về cấu trúcchức năng của các protein. - Giúp chế tạo ra các loại thuốc. - Tìm ra trình tự liên quan đến các căn bệnh ung thư hay các bệnh khác. Một số công trình tiêu biểu đã thực hiện trong việc nghiên cứu cấu trúcso sánh cấu trúc protein như: Phương pháp nghiên cứu CE, viết tắt của Combinatorial Extension, do Shindyalov và Bourne đề xuất [6] Phương pháp thực hiện sắp hàng các cặp đoạn thẳng. Cặp đoạn thẳng (AFP) là các cặp đoạn của hai cấu trúc protein tương tự nhau về cấu trúc. Các cặp đoạn trùng lặp chỉ xét ở dạng cục bộ, không có sự liên kết và so sánh với toàn bộ cấu trúc của protein, điều này làm hạn chế việc so sánh toàn bộ cấu trúc của protein. Ngoài ra, phương pháp CE thực hiện so sánh cấu trúc dựa trên cấu trúc bậc 2 (secondary structure) của protein. Điều này làm hạn chế việc nhận biết được chức năng của protein do chức năng thể hiện chính xác hơn dưới dạng mô hình cấu trúc bậc 3. Phương pháp DALI, viết tắt của Distance Matrix Alignment, được phát triển bởi European Molecular Biology Laboratoy, Cambridge [15]; DALI so sánh cấu trúc bằng phương pháp sắp hàng và sử dụng ma trận khoảng cách. Phương pháp thực hiện các bước : so sánh tất cả các phần tử, các phần tử cùng mẫu được lưu trữ trong danh sách tiến hành so sánh sau này. Việc tìm ra các phần tử cùng mẫu bằng cách sử dụng tọa độ không gian của các phần tử trong mỗi protein để tính ma trận khoảng cách α-carbon và α-carbon. Các ma trận khoảng cách sau đó được phân tích thành các mẫu liên kết, ví dụ ma trận con hexapeptide – hexapeptide. Khi đó, các mẫu liên kết tương tự của hai ma trận được kết hợp thành 10 một cặp lớn hơn. Tiếp theo là sử dụng thuật toán Monte Carlo để tối ưu khoảng cách RMSD. Nhược điểm của phương pháp DALI là tiến hành kiểm tra, thực hiện sắp hàng cấu trúc với tất cả các phần tử, ngay cả với các phần tử không đóng vai trò chính, điều này làm thời gian thực thi lâu. Một phương pháp khá phổ biến trong việc dự đoán và so sánh cấu trúc là CHIMERA, phát triển bởi University of California at San Francisco [13][17]; CHIMERA là một công cụ xây dựng với giao diện người dùng được gọi là “Match Maker”. Chương trình CHIMERA xây dựng với nhiều tính năng thể hiện cấu trúc ở nhiều dạng khác nhau trong không gian 3 chiều; Thực hiện so sánh cùng lúc nhiều cấu trúc . Đây được coi là phần mềm phổ biến và có nhiều chức năng trong việc tìm kiếm (dự đoán) các cấu trúcso sánh cấu trúc protein. Phương pháp trong CHIMERA tiến hành tạo bộ xếp chồng đầu tiên để tiến hành tính toán so sánh bằng cách cố định một cấu trúctiến hành dịch chuyển cấu trúc còn lại. Sau khi xếp chồng, bước tiếp theo thực hiện việc xác định RMSD. Việc xếp chồng được đánh giá bằng cách tìm số nguyên tử kết hợp và tính toán độ RMSD tương ứng. Shashi Bhushan Pandit và Jeffrey Skolnick đã trình bày một phương pháp khác để thực hiện sắp hàng cấu trúc dựa trên việc sắp hàng phân đoạn và TM-score [16]; So sánh cấu trúc được thực thi dựa trên các thuộc tính trong cấu trúc của protein. Đa phần các phương pháp tiến hành sử dụng giá trị α-carbon là thành phần chính trong quá trình sắp hàng và so sánh cấu trúc. Shashi Bhushan Pandit và Jeffrey Skolnick đưa ra một giá trị là TM-score để đánh giá độ lệch (khoảng cách) của cặp cấu trúc. Ở Việt Nam, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công

Ngày đăng: 18/12/2013, 14:37

HÌNH ẢNH LIÊN QUAN

Hình 1:Cơ bản cấu trúc của một acid α-amino - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 1 Cơ bản cấu trúc của một acid α-amino (Trang 13)
Hình 2: 20 amino acid - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 2 20 amino acid (Trang 14)
Bảng 1: 20 amino acid - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Bảng 1 20 amino acid (Trang 15)
Hình 3: Hình thức của protein - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 3 Hình thức của protein (Trang 16)
Hình 4: Cấu trúc protein bậc 1 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 4 Cấu trúc protein bậc 1 (Trang 20)
Trong mô hình xoắn α (α helix) (Hình 6a), bộ khung sợi polypeptide xoắn xung  quanh  tr ục  phân  tử  và  các  nhóm  chức năng  của  các  gố c  amino  acid  nhô  ra  ngoài - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
rong mô hình xoắn α (α helix) (Hình 6a), bộ khung sợi polypeptide xoắn xung quanh tr ục phân tử và các nhóm chức năng của các gố c amino acid nhô ra ngoài (Trang 21)
Hình 6b: Cấu trúc gấp nếp β - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 6b Cấu trúc gấp nếp β (Trang 22)
Hình 7: Siêu cấu trúc bậc 2 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 7 Siêu cấu trúc bậc 2 (Trang 23)
Hình 8: Domain - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 8 Domain (Trang 24)
Hình 9: Cấu trúc bậc 3 của protein - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 9 Cấu trúc bậc 3 của protein (Trang 26)
Cấu trúc bậc bốn được hình thành nhờ vào các đơn vị có cấu trúc bậc ba. N ếu như các cấu trúc bậc 1, 2 và 3 chỉ cần sự có mặt của một chuỗ i polypeptid thì  c ấu trúc bậc 4 đòi hỏi phải có 2 chuỗi polypeptid trở lên - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
u trúc bậc bốn được hình thành nhờ vào các đơn vị có cấu trúc bậc ba. N ếu như các cấu trúc bậc 1, 2 và 3 chỉ cần sự có mặt của một chuỗ i polypeptid thì c ấu trúc bậc 4 đòi hỏi phải có 2 chuỗi polypeptid trở lên (Trang 27)
Hình 11-a: Collagen – Một loại protein sợi - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 11 a: Collagen – Một loại protein sợi (Trang 28)
Hình 11-b: Haemoglobin – protein hình cầu - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 11 b: Haemoglobin – protein hình cầu (Trang 28)
Hình 12 thể hiện quá trình kiểm tra sự tương đồng của từng cặp phân đoạn, sau đó tiến hành kết hợp đoạn con (phân đoạn) của từng cấu trúc để đưa ra đượ c  c ấu trúc trùng lắp lớn nhất của cả hai protein. - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 12 thể hiện quá trình kiểm tra sự tương đồng của từng cặp phân đoạn, sau đó tiến hành kết hợp đoạn con (phân đoạn) của từng cấu trúc để đưa ra đượ c c ấu trúc trùng lắp lớn nhất của cả hai protein (Trang 43)
Hình 13: Xếp chồng cấu trúc protein - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 13 Xếp chồng cấu trúc protein (Trang 46)
Hình 14: Sắp hàng protein thông thường - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 14 Sắp hàng protein thông thường (Trang 48)
Trong Hình 15: Sắp hàng protein sau khi tính giá trịHình 15 là cấu trúc sắp hàng mới, t ốt hơn việc xếp chồng đơn thuần trong Hình  14 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
rong Hình 15: Sắp hàng protein sau khi tính giá trịHình 15 là cấu trúc sắp hàng mới, t ốt hơn việc xếp chồng đơn thuần trong Hình 14 (Trang 48)
Hình 15: Sắp hàng protein sau khi tính giá trị - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 15 Sắp hàng protein sau khi tính giá trị (Trang 49)
Hình 16: Quy trình xử lý giữa người dùng và hệ thống 4.4.2. Tầng 2: So sánh cấu trúc  - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 16 Quy trình xử lý giữa người dùng và hệ thống 4.4.2. Tầng 2: So sánh cấu trúc (Trang 50)
Mô hình cấu trúc thể hiện chi tiết các phương thức trong hoạt động so sánh cấu  trúc ở  tầng  1 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
h ình cấu trúc thể hiện chi tiết các phương thức trong hoạt động so sánh cấu trúc ở tầng 1 (Trang 50)
Bảng 2: Ví dụ mẫu về mục trong PDB - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Bảng 2 Ví dụ mẫu về mục trong PDB (Trang 54)
Hình 19: Cấu trúc protein 1c0i - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 19 Cấu trúc protein 1c0i (Trang 55)
Hình 20: Cấu trúc protein 1dak - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 20 Cấu trúc protein 1dak (Trang 55)
Hình 21: Thể hiện cấu trúc xếp chồng - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 21 Thể hiện cấu trúc xếp chồng (Trang 56)
Hình 22: So sánh cấu trúc protein sử dụng chương trình Chimera - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 22 So sánh cấu trúc protein sử dụng chương trình Chimera (Trang 57)
Hình 24: Kết quả so sánh với RMSD là 0.664 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 24 Kết quả so sánh với RMSD là 0.664 (Trang 58)
Hình 23: Kết quả so sánh với RMSD là 0.680 - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 23 Kết quả so sánh với RMSD là 0.680 (Trang 58)
Bảng 3 so sánh về khoảng cách RMSD tìm được giữa các cặp protein theo phương pháp CHIMERA và phương pháp cải tiến từ CHIMERA - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Bảng 3 so sánh về khoảng cách RMSD tìm được giữa các cặp protein theo phương pháp CHIMERA và phương pháp cải tiến từ CHIMERA (Trang 59)
Hình 25: Giao diện chương trình - Xác định chức năng của protein dựa trên việc cải tiến thuật toán so sánh cấu trúc protein luận văn thạc sĩ
Hình 25 Giao diện chương trình (Trang 70)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w