Ngày nay, Công nghệ sinh học được xác định là một nghành khoa học kỹ thuậtmang tính chiến lược ở nhiều quốc gia tiến bộ trên thế giới. Trong đó, công nghệ gen vàkỹ thuật di truyền được xem là lĩnh vực nghiên cứu trọng điểm. Mà đối tượng nghiên cứuchủ yếu của công nghệ gen và kỹ thuật di truyền là những đại phân tử sinh học (DNA,RNA, protein). Khi làm việc trên các đối tượng này, một trong những yếu tố quan trongquyết định sự thành công là việc con người phải nắm được hình dạng thực tế cấu trúctrong không gian của chúng.Watson và Crick đã ghi tên mình vào lịch sử nhân loại khi là 2 người đầu tiên tìmra cấu trúc DNA người. Từ công trình nghiên cứu này chúng ta đã có thể giải đáp chohàng trăm câu hỏi về di truyền ở người. Protein cũng là đối tượng nghiên cứu quan trọngcủa Công nghệ gen và có nhiều ứng dụng trực tiếp đến đời sống cũng như sản xuất. Dođó yêu cầu đặt ra là cần phải tìm hiểu được cấu trúc không gian của chúng nhằm hiểu rõđược quá trình hoạt động của các protein.
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KĨ THUẬT HÓA HỌC
BỘ MÔN CÔNG NGHỆ SINH HỌC
ĐỒ ÁN MÔN HỌC
TIN SINH HỌC – DỰ ĐOÁN CẤU TRÚC PROTEIN
SVTH: Phạm Hà Huy GVHD: TS Huỳnh Ngọc Oanh MSSV: 60700959
Trang 2Tp Hồ Chí Minh, Tháng 6 / 2011
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Trang 3
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Trang 4
MỤC LỤC
DANH MỤC HÌNH vi
DANH MỤC BẢNG vii
DANH MỤC VIẾT TẮT viii
CHƯƠNG 1 MỞ ĐẦU 1
CHƯƠNG 2 TỔNG QUAN VỀ DỰ ĐOÁN CẤU TRÚC PROTEIN 2
2.1 TẦM QUAN TRỌNG CỦA VIỆC DỰ ĐOÁN CẤU TRÚC 2
2.1.1 Cấu trúc protein: 2
2.1.2 Chức năng của protein 3
2.1.3 Ảnh hưởng của cấu trúc đến chức năng protein 4
2.2 CÁC CƠ SỞ CHO VIỆC DỰ ĐOÁN CẤU TRÚC 5
CHƯƠNG 3 CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC PROTEIN 7
3.1 AB INITIO 7
3.2 PROTEIN THREADING 7
3.3 HOMOLOGY MODELING [9]: 8
3.3.1 Quy trình thực hiện 8
3.3.2 Một số công cụ hỗ trợ của phầm mềm máy tính tiêu biểu 13
3.4 SO SÁNH CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC 15
3.5 ĐÁNH GIÁ CHẤT LƯỢNG MÔ HÌNH : 17
3.5.1 Tính chính xác về hoá học lập thể 17
3.5.2 Độ tin cậy của Fold : 20
3.5.3 Công cụ hỗ trợ PROCHECK 23
CHƯƠNG 4 MỘT VÍ DỤ VỀ DỰ ĐOÁN CẤU TRÚC PROTEIN 25
4.1 TÌM TRÌNH TỰ TƯƠNG ĐỒNG 25
4.2 SẮP GIÓNG CỘT : 28
4.3 XÂY DỰNG MÔ HÌNH CẤU TRÚC : 30
4.4 KIỂM TRA CẤU TRÚC: 32
Trang 55.1 Kết luận: 33 5.2 Kiến Nghị 33 CHƯƠNG 6 TÀI LIỆU THAM KHẢO 34
Trang 6Hinh 1 Các loại cấu trúc 3D của Protein 3
Hinh 2 Cấu trúc 3D của một số Protein tiêu biểu 3
Hinh 3 Biểu đồ xác định mã di truyền 6
Hinh 4 Quy trình dự đoán cấu trúc protein bằng phương pháp mô hình hoá tương
đồng 10
Hinh 5 Ký hiệu các góc xoắn của khung sườn trong cấu trúc protein 19
Hinh 6 Cấu trúc mắt người 25
Hinh 7 Website BLAST 26
Hinh 8 Giao diện tìm kiếm trình tự tương đồng 26
Hinh 9 Kết quả tìm kiếm trình tự tương đồng được biệu thị bằng màu sắc 27
Hinh 10 Kết quả tìm kiếm trình tự tương đồng 27
Hinh 11 Giao diện website CLUSTALW 2 28
Hinh 12 Những bước cần thiết để thực hiện sắp gióng cột 29
Hinh 13 Kết quả sau khi sử dụng CLUSTALW 2 30
Hinh 14 Giao diện website SWISS-MODEL 31
Hinh 15 Giao diện khai báo SWISS-MODEL 31
Hinh 16 Mô hình kết quả 32
Trang 7Bảng 1 Tóm lược và so sánh 3 nhóm phương pháp dùng trong dự đoán cấu
trúc protein 23
Bảng 1 Tóm tắt giá trị trung bình của các tham số hóa học lập thể 25
Trang 83D 3 Dimentional
BLAST Basic Local Aligment Search Tool
PDB Protein Data Bank
DOPE-score Discrete Optimized Protein Energy score
Trang 9Watson và Crick đã ghi tên mình vào lịch sử nhân loại khi là 2 người đầu tiên tìm
ra cấu trúc DNA người Từ công trình nghiên cứu này chúng ta đã có thể giải đáp cho hàng trăm câu hỏi về di truyền ở người Protein cũng là đối tượng nghiên cứu quan trọng của Công nghệ gen và có nhiều ứng dụng trực tiếp đến đời sống cũng như sản xuất Do
đó yêu cầu đặt ra là cần phải tìm hiểu được cấu trúc không gian của chúng nhằm hiểu rõ được quá trình hoạt động của các protein
Trước đây, Để tìm hiểu cấu trúc không gian của một protein các nhà khoa học phải mất rất nhiều thời gian ( có khi đến hàng năm trời ) để thực hiện phương pháp X-ray và NMR Ngược lại để biết trình tự amino acid của một protein thì rất nhanh Theo thống kê đến tháng 8 năm 2008, có hơn 52.500 protein đã được xác định cấu trúc không gian, trong khi đó có đến hơn 6 triệu protein đã được xác định trình tự amino acid.[1]
Ngày nay, nhờ sự tiến bộ của kỹ thuật máy tính chúng ta đã có thể sử dụng những chương trình máy tính để so sánh sự giống nhau giữa trình tự amino acid của protein mục tiêu với những protein đã biết cấu trúc không gian , từ đó dự đoán được cấu trúc của protein mục tiêu Đây là một hướng nghiên cứu quan trọng của lĩnh vực tin sinh hoc và
có nhiều ứng dụng được trong thực tiễn Đã có rất nhiều nghiên cứu về đề tài này trên thế giới và đạt được nhiều thành quả nhất định
Trong phạm vi đồ án chuyên nghành, em chỉ xin trình bày một số kiến thức tổng quan để có thể có cái nhìn khái quát và đầy đủ nhất về hướng nghiên cứu này
Trang 102
CHƯƠNG 2 TỔNG QUAN VỀ DỰ ĐOÁN CẤU TRÚC
PROTEIN 2.1 TẦM QUAN TRỌNG CỦA VIỆC DỰ ĐOÁN CẤU TRÚC
có bốn loại protein theo cấu trúc:
� Cấu trúc bậc một: Cấu trúc bậc một (primary structure) của phân tử
protein được biểu hiện là số lượng của các mạch polypeptide, số lượng và trình tự của các axit amin trên mỗi mạch.Vì vậy cấu trúc bậc một của các protein khác nhau có sự dao động lớn, nên cá loại protein có được là một con số khổng lồ
� Cấu trúc bậc hai (xoắn alpha và beta): Các protein không chỉ là một
chuỗi thẳng các axit amin nối lại với nhau, mà chúng còn cuộn lại trong một cấu trúc không gian phức tạp Chính điều này đóng vai trò chủ yếu trong xác định các tính chất sinh học đặc trưng cho từng loại protein Đặc tính không gian ba chiều này là hệ quả của
sự tương tác giữa các peptide trong protein Vào năm 1951, L.Pauling và B.Corey cho thấy các liên kết hydro bên trong phân tử tạo nên và ổn định cấu trúc xoắn alpha.Cấu trúc xoắn alpha có dạng đơn giản nhất ở một số protein sợi (fibrous protein) Một cách sắp xếp khác của mạch polypeptide tạo nên kiểu cấu trúc bậc hai khác gọi là cấu trúc beta, thường được gọi là các phiến xếp (pleated sheet) Nhờ sự sắp xếp như vậy nên protein dẻo, chắc, lại chịu sức căng như các loại protein của tơ lụa, mạng nhện, lông vũ …
� Cấu trúc bậc ba: Các protein khối cuộn (globular protein) có cấu trúc
không gian phức tạp hơn nhiều so với protein sợi, các mạch polypeptide của chúng cuộn lại phức tạp có dạng cuộn hay khối cầu , nhờ các nhóm gốc bên R tích điện hay phân cực Các protein cuộn gồm các enzym, các hormon protein, các kháng thể và phần lớn các protein của máu
� Cấu trúc bậc bốn: Khi một protein khối cuộn gồm hai hay nhiều hơn các
mạch polypeptide độc lập gắn lại với nhau, thường nhờ liên kết yếu, sẽ có cấu trúc bậc bốn
Trang 113
Hinh 1 Các loại cấu trúc 3D của protein
Hinh 2 Cấu trúc 3D của một số protein tiêu biểu
Các protein có chức năng rất đa dạng Chúng thực hiện hầu hết các chức năng căn
bản của chất sống như: chất xúc tác các phản ứng sinh học, phân tử cấu trúc của tế bào,
Trang 12� Các protein cấu trúc:
Là nhóm protein thứ hai Cấu tạo nên da, lông vũ, móng, guốc động vật Thường
là protein có cấu trúc xoắn alpha hay beta
� Các protein vận chuyển:
Hemoglobine của máu vận chuyển O2 cho cơ thể
Myoglobine – protein vận chuyển O2 cho cơ thể
Albumin – huyết tương
Thường có cấu trúc bậc bốn, do nhiều tiểu đơn vị tạo thành Ví dụ như Hemoglobin được tạo thành từ bốn tiểu đơn vị: alpha 1, beta 1, alpha 2 và beta 2 Các tiểu đơn vị được sắp xếp đối xứng
� Các protein vận động :
Myosin và Actine : protein của cơ
Dineine: protein của chiên mao
Các protein tham gia vào sự co cơ để vận động
� Các protein bảo vệ:
Các kháng thể là các protein bảo vệ cơ thể
Fibrinogen là chất có thể thành Fibrine làm đông máu
Trombine là protein làm đông máu
� Các chất có hoạt tính sinh học
Các Hormon protein như insulin, hormon tăng trưởng, điều hòa hoạt động trao đổi chất
Protein là một đại phân tử quan trọng đối với sự sống, chúng giữ nhiều nhiều chức năng quang trọng Nhưng bất kì một protein nào cũng chỉ được tạo thành từ hai mươi amino acid Mỗi một enzyme lại chỉ có thể xúc tác cho một phản ứng sinh hóa đặc
Trang 132.2 CÁC CƠ SỞ CHO VIỆC DỰ ĐOÁN CẤU TRÚC
Tuy phân tử protein có nhiều cấu trúc khác nhau nhưng có nhiều cơ sở cho rằng chính cấu trúc bậc một xác định cấu trúc không gian tự nhiên của phân tử protein Đặc biệt, cấu trúc bậc một tạo thuận lợi nhất về mặt năng lượng để ổn định mạch polypeptide
Ví dụ, nếu mạch polypeptide có hai đơn vị cysteine thì cầu nối disulfide sẽ nối hai mạch
để ổn định cấu trúc Proline cũng có ảnh hưởng đến sự cuộn lại của mạch, vì nó tạo thành cấu trúc alpha do nhóm gốc R của nó có mạch vòng
Protein tương đồng là những protein có chức năng sinh lí giống nhau, do vậy chúng phải có quan hệ tiến hóa với nhau Protein tương đồng có nhiều đoạn thứ tự sắp xếp amino acid giống nhau và sự khác biệt giữa chúng có mối quan hệ mật thiết với quá trình tiến hóa Ví dụ, Cytochrome c – một loại protein chứa Fe có chức năng chuyển e-trong quá trình hô hấp ở ti thể là sợi polypeptide dài khoảng 100 amino acid với MW
13000 Da Hiện đã biết cấu trúc bậc nhất của Cytochrome c thuộc hơn sáu mươi loài khác nhau, trong đó phát hiện tới 27 vị trí amino acid giống nhau Ở một số vị trí khác còn thấy có sự thay thế các gốc amino acid có tính chất giống nhau, như argine được thay thế bằng lysine
Đã có rất nhiều dự án nghiên cứu cấu trúc 3D của nhiều loại protein nhưng rất ít protein được nghiên cứu cấu trúc 3D bằng thực nghiệm Và chẳng thể nào tin rằng hàng
tỷ protein sẽ được tìm ra cấu trúc 3D bằng thực nghiệm Ngày nay, nhờ sự tiến bộ công nghệ thông tin và sự phát triển những thuật toán máy máy tính Dựa trên mối quan hệ protein tương đồng và sự tạo thành cấu trúc 3D từ cấu trúc bậc một Chúng ta đã có những phần mềm có thể dự đoán cấu trúc của một protein đã xác định rõ trình tự amino acid trên cấu trúc bậc một
Chúng ta đã có những protein biết rõ trình tự amino acid và cũng đã được xác định cấu trúc 3D thông qua thực nghiệm Dựa trên ngân hàng thông tin đó, chúng ta sẽ so sánh
Trang 146
toàn phần hoặc một đoạn trình tự amino acid của protein cần xác định cấu trúc 3D với những trình tự amino acid của những protein đã biết trình tự trong ngân hàng thông tin Qua sự tương đồng như vậy, ta sẽ dự đoán toàn bộ được cấu trúc 3D của một protein chưa có cấu trúc không gian
Hinh 3 Biểu đồ xác định mã di truyền
Trang 157
CHƯƠNG 3 CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC
PROTEIN
3.1 AB INITIO
Dựa trên giả thiết protein “ fold “ trong không gian đến trạng thái năng lượng
nhiệt động học tối thiểu, phương pháp Ab initio xây dựng cấu trúc bằng cách tối thiểu
hóa hàm năng lượng Hàm năng lượng được xây dựng dựa trên các nguyên lý vật lý lượng tử Quá trình phát sinh các cấu trạng có thể có bằng mô phỏng động học phân
tử đòi hỏi năng lực tính toán rất lớn Vì vậy, mặc dù có một số thành công, phương pháp này hiện chỉ được ứng dụng dự đoán các phân tử protein nhỏ
Mặt khác, nhiều protein trong tự nhiên không tồn tại ở trạng thái năng lượng cực tiểu, chứng tỏ rằng độ bền nhiệt động học không phải là yếu tố duy nhất quyết định
trạng thái gấp cuộn của protein.[7]
3.2.PROTEIN THREADING
Do kết quả của tiến hóa hội tụ, dạng gấp cuộn của các trình tự protein có thể giống nhau một cách trùng hợp, ngay cả khi không có sự tương đồng về trình tự Vì vậy, rất có khả năng trình tự mục tiêu sẽ có cấu trúc tương tự với các cấu trúc đã xác định bằng thực nghiệm Như vậy, ngay cả khi không tìm được một cấu trúc có họ hàng với trình tự mục tiêu, vẫn có thể chọn cấu trúc từ các “ fold ” trong cơ sở dữ liệu đã có thay vì dự đoán từ đầu
Protein threading là thuật ngữ chỉ chung các phương pháp dự đoán cấu trúc dựa trên khuôn mẫu cấu trúc sẵn có, nhưng áp dụng với các trình tự không tìm được tương đồng trong cơ sở dữ liệu cấu trúc Protein threading có thể chỉ dựa trên trình tự thuần túy, bằng cách tăng độ nhạy của các thuật giải tìm kiếm (ví dụ PSI-BLAST, SAM-T98) để phát hiện ra các trình tự có quan hệ xa hơn, hoặc bổ sung thêm các thông tin về
cấu trúc, thông qua kỹ thuật threading
Threading là thuật ngữ chỉ quá trình kết hợp một trình tự với một cấu trúc sao cho có được một kết quả tối ưu Vì vậy, threading cũng có thể được hiểu là sự sắp
gióng cột trình tự - cấu trúc Do hiệu quả của kỹ thuật này trong lĩnh vực nhận diện
“fold” , threading thường được dùng để chỉ phương pháp nhận diện “fold” nói chung Quá trình threading là quá trình xác định sắp gióng cột tối ưu của chuỗi các môi
Trang 168
trường với chuỗi các amino acid bằng phương pháp lập trình tự động
Để giải quyết vấn đề so sánh cấu trúc – trình tự, Profile 3D được sử dụng để mô
tả cấu trúc dưới dạng ma trận Mỗi axit amin ưu tiên nằm trong những môi trường khác nhau Độ ưu tiên của axit amin ( x ) trong môi trường ( e )được biểu diễn bằng điểm của cặp x – e trong ma trận điểm Điểm này được tính bằng xác suất hiện diện của x trong môi trường e Profile 3D của một fold là ma trận xác định điểm của 20 axit amin ứng với vị trí i của “fold” [5]:
Kết quả sắp gióng thường được đánh giá bằng Z-score, một dạng điểm thống
kê Điểm sắp gióng cột ngẫu nhiên được phát sinh bằng cách so sánh một số lượng lớn các trình tự khác với cùng “ fold ” Sắp gióng cột được xem là có ý nghĩa khi điểm đạt được có sự khác biệt đáng kể so với điểm ngẫu nhiên Ngưỡng xác định sắp gióng cột có nghĩa phụ thuộc vào phương thức chuyển đổi từ kết quả kiểm định thống kê sang Z-score
Kết quả BLAST trên PDB sẽ cho biết các trình tự nào đã được xác định cấu trúc bằng thực nghiệm tương đồng với trình tự mục tiêu Các trình tự này được gọi là trình tự mẫu hay template
PSI-BLAST (position-specific iterative BLAST) là phương pháp cải tiến dựa trên BLAST nhằm mục đích tăng cường độ nhạy của thuật giải tìm kiếm BLAST để
có thể phát hiện những trình tự có quan hệ xa hơn
Trang 179
b) Chọn cấu trúc khuôn
Theo lý thuyết, khi độ tương tự về trình tự từ 30% trở lên đã có thể xem là có
sự tương đồng về cấu trúc Tuy nhiên, thực tế cho thấy trình tự cần có thành phần amino acid tương tự trên 40% mới đảm bảo được độ chính xác cho mô hình xây dựng
Cấu trúc khuôn mẫu được chọn theo các tiêu chí như sau:
� Độ tương đồng trình tự với trình tự mục tiêu : Cấu trúc có độ tương
đồng về trình tự càng cao càng thích hợp làm cấu trúc khuôn mẫu Khi có nhiều khuôn mẫu được sử dụng đồng thời cho một đoạn trình tự, tiêu chí này thường được dùng để xác định trọng số cho mỗi khuôn mẫu, nhằm đảm bảo các cấu trúc tương đồng hơn sẽ đóng góp nhiều hơn vào mô hình
� Độ phân giải (resolution) của cấu trúc cho biết độ chính xác của cấu
trúc protein Độ phân giải cao (high- resolution) thường đồng nghĩa với giá trị nhỏ,
ví dụ, độ phân giải 1.9 Å cao hơn (và tốt hơn) độ phân giải 2.8 Å Độ phân giải của các cấu trúc trong PDB thường nằm trong khoảng 1–4 Å
� R-factor thể hiện độ đúng của mô hình, tức là giá trị cho biết mức độ
phù hợp giữa cấu trúc 3D giải ra từ bản đồ mật độ electron với cấu trúc thật sự của tinh thể R-factor được xác định bằng cách so sánh cường độ thực nghiệm (amplitude) của các phản xạ tia X và cường độ tính toán được từ cấu trúc được chọn Sự trùng khớp tốt giữa cường độ tính toán với cường độ đo đạc sẽ cho một giá trị R-factor thấp và khi đó mô hình càng gần với cấu trúc thực R-factor có thể giảm một cách cố ý bằng nhiều cách, và do đó trong nhiều trường hợp không còn chỉ thị tốt cho chất lượng cấu trúc
Thông thường, cấu trúc có độ phân giải tốt hơn hoặc bằng 2.0 Å được xem là có thể tin cậy Nếu cấu trúc đó có R-factor thấp hơn 20% có thể cho là cấu trúc đúng về cơ bản
Trang 1810
Hinh 4 Quy trình dự đoán cấu trúc protein bằng phương pháp mô hình hoá tương
đồng
Trang 1911
3.3.1.2 Sắp gióng cột
Sắp gióng cột trình tự mục tiêu với các trình tự của cấu trúc khuôn bằng các chương trình sắp gióng cột như ClustalW, T-Coffee… nhằm xác định các vùng bảo tồn, làm cơ sở cho việc sao chép tọa độ Kết quả sắp gióng cột có ảnh hưởng rất lớn đến độ chính xác của mô hình được xây dựng
3.3.1.3 Xây dựng mô hình cấu trúc
a) Mô hình hoá khung sườn
Sau khi sắp gióng cột, những phần tương đồng trên cấu trúc khuôn sẽ được dùng làm cơ sở để xây dựng khung sườn cho trình tự mục tiêu Cách sử dụng thông tin cấu trúc khuôn tùy thuộc vào hướng tiếp cận trong xây dựng mô hình; ví dụ như, sao chép trực tiếp tọa độ của một số phần trên cấu trúc khuôn, hoặc biến đổi thành các biểu thức mô tả giới hạn lập thể…
Có 3 hướng tiếp cận để xây dựng mô hình trong phương pháp mô hình hóa tương đồng: tập hợp mảnh ghép, khớp từng đoạn, thỏa mãn giới hạn lập thể
� Phương pháp tập hợp khối: Là phương pháp được phát triển đầu tiên trong
mô hình hóa tương đồng và hiện vẫn được sử dụng rộng rãi Phương pháp này sử dụng kết quả sắp gióng cột giữa trình tự khuôn mẫu và trình tự mục tiêu để xác định các vùng bảo tồn cấu trúc (SCR) SCR thường là các thành phần cấu trúc như xoắn α hay phiến β,
và thường chứa những vùng có chức năng quan trọng như trung tâm hoạt động của một protein Các vùng xen giữa những SCR có độ tương đồng trình tự ít hơn, được đánh dấu là vùng biến đổi (SVR) và nhìn chung thường chứa các loop Khi các SCR đã được xác định, tọa độ của các nguyên tử thuộc vùng này được sao chép từ khuôn mẫu sang các amino acid tương ứng trong cấu trúc mục tiêu Việc sử dụng đồng thời nhiều khuôn mẫu trong xây dựng khung sườn có thể làm tăng độ chính xác của mô hình Các vùng SCR được xây dựng theo cách này có hình học tốt và cần rất ít phép tối ưu hóa
� Phương pháp khớp từng đoạn: Dựa trên cơ sở hầu hết các đoạn 6-peptide của cấu trúc protein có thể được nhóm thành khoảng 100 lớp, phương pháp này tập hợp các mảnh ngắn từ các cấu trúc khuôn để xây dựng nên mô hình Từ trình tự trung gian giữa trình tự mục tiêu và trình tự khuôn mẫu, tọa độ khuôn được sao chép cho những vùng bảo tồn Để nối các khoảng trống, chương trình chia nhỏ cấu trúc mục tiêu thành một bộ các đoạn ngắn và tìm kiếm trên cơ sở dữ liệu để có các đoạn phù hợp với khung
Trang 20để tạo ra một mô hình thỏa mãn tốt nhất các giới hạn đã đặt ra
b) Mô hình hoá loop và mô hình hoá chuỗi bên
Quy trình dùng để tạo ra mô hình cuối cùng phụ thuộc vào phương pháp dùng để
mô hình hóa khung sườn Nếu chương trình mô hình hóa dựa trên phương pháp tổ hợp mảnh ghép, thì sườn polypeptide của vùng SCR được xây dựng như mô tả ở trên, nhưng loop và các chuỗi bên cần phải được mô hình hóa bằng một cách khác Trong phương
pháp giới hạn lập thể, các loop đã được tính đến trong tập hợp giới hạn tính toán từ khuôn mẫu Tuy nhiên, nếu các loop ít bảo tồn, chúng có thể được mô hình hóa riêng, sử dụng một phương pháp mô hình hóa loop
Mặc dù một số loop là vị trí hoạt động và tương đối bảo tồn, hầu hết các loop
không có chức năng nào đặc biệt ngoài vai trò liên kết các phần tử cấu trúc bậc hai Do
đó, những loop tương đương trên các protein họ hàng có thể có những cấu hình rất khác nhau Việc mô hình hóa loop có thể được xem là một vấn đề protein “ fold “ thu nhỏ, trong đó cấu hình của loop phải được tính toán từ trình tự Tuy nhiên, do các đoạn ngắn trình tự không cung cấp đủ thông tin để quyết định cấu trúc, các vùng xung quanh loop, đặc biệt là phần kẹp hai bên loop cần phải được xét đến trong quá trình mô hình hóa loop Phương pháp mô hình hóa loop nhìn chung rơi vào 2 nhóm cơ bản: phương pháp truy vấn
cơ sở dữ liệu và phương pháp ab initio
Trong phương pháp truy vấn cơ sở dữ liệu, một cơ sở dữ liệu chứa cấu trúc
của các loop xác định từ tất cả các cấu trúc protein hiện biết Cơ sở dữ liệu được dùng
để dò tìm các đoạn khác nhau có thể khớp với các axit amin ở hai bên loop và các
đoạn tìm thấy được xếp hạng theo tiêu chuẩn hình học hoặc độ tương đồng trình tự
giữa khuôn mẫu và trình tự loop mục tiêu Các đoạn được chọn sau đó được sắp
Trang 2113
chồng và nối với phần thân Cuối cùng, cấu trúc loop dự đoán cần được tối ưu hóa để
cải thiện cấu hình tổng thể
Trong phương pháp mô hình hóa loop ab initio, mô phỏng động học phân tử
được thực hiện trên trình tự loop nhằm phát sinh các cấu trạng có thể có Các thuật giải tối ưu hóa được thực hiện trên hàm năng lượng để chọn ra cấu trạng có năng lượng tối thiểu
Phương pháp truy vấn cơ sở dữ liệu được công nhận là chính xác hơn các phương
pháp ab initio, nhưng khi chiều dài loop tăng, số lượng các cấu trạng hình học có thể có tăng dẫn đến hiệu quả tìm trên cơ sở dữ liệu giảm Do đó, chỉ có loop với khoảng 7 axit
amin hay ít hơn mới có hy vọng tìm được các cấu trạng sẵn có trong cơ sở dữ liệu cấu trúc protein hiện biết Khi số lượng các cấu trúc thực nghiệm ngày càng nhiều thì độ chính xác của phương pháp này cũng được cải thiện.[7]
3.3.1.4 Kiểm tra cấu trúc
Kiểm tra cấu trúc là một bước không thể thiếu trong quá trình xây dựng mô hình cấu trúc Kết quả kiểm tra cấu trúc giúp cho việc quyết định có tiếp tục quá trình tinh luyện mô hình hay không, hoặc lựa chọn mô hình tốt nhất nếu có nhiều mô hình được tạo ra đồng thời trong quá trình xây dựng
Các tiêu chí kiểm tra cấu trúc được chia làm 2 nhóm: chất lượng hóa học lập thể
và chất lượng gấp cuộn protein Chất lượng hóa học lập thể còn được gọi là chất lượng bên trong, vì chất lượng lập thể của một cấu trúc được xác định dựa trên tọa độ của các nguyên tử trong bản thân cấu trúc đó, hoàn toàn không phụ thuộc một cấu trúc nào khác Chất lượng gấp cuộn của một cấu trúc protein được xác định thông qua việc so sánh cấu trúc đó với một tập hợp các cấu trúc chuẩn được cho là tốt Nhiều hệ thống điểm đã được xây dựng và thử nghiệm nhằm tối ưu hóa quá trình so sánh này
3.3.2 Một số công cụ hỗ trợ của phầm mềm máy tính tiêu biểu
3.3.2.1 MODELLER
Quá trình xây dựng mô hình của MODELLER là quá trình tối ưu hóa hàm
mục tiêu Hàm mục tiêu F(R) ứng với hệ thống R trong hệ tọa độ là tổng tất cả các hàm giới hạn ci(fi,pi)