Tin cậy của Fold :

Một phần của tài liệu Tin sinh học dự đoán cấu trúc protein (Trang 28)

Độ tin cậy của fold trong đánh giá mô hình cấu trúc được biểu thị qua mức độ phù hợp giữa một trình tự với fold được dự đoán cho trình tự đó.

Thí nghiệm của Novotny et al. đã chứng tỏ rằng cấu trúc đúng và cấu trúc sai có thể có năng lượng tương đương nhau, bằng cách áp một trình tự lên một sườn cấu trúc hoàn toàn không có quan hệ tiến hóa và thực hiện tối thiểu hóa năng lượng để loại bỏ các va chạm lập thể của các chuỗi bên. Thí nghiệm cũng cho thấy trong cấu trúc sai, nhiều đặc tính của protein bị vi phạm rõ ràng như: tương tác hydrogen, tương tác van der Waals và tương tác tĩnh điện không làm ổn định cấu trúc; tỉ lệ lớn các chuỗi bên không phân cực tiếp xúc với dung môi…

Vì vậy, độ tin cậy của fold cần được đánh giá bằng cách kết hợp nhiều thông tin của cấu trúc. Hai phương pháp chính để xác định độ tin cậy của fold là dựa vào Profile 3D và dựa vào thế thống kê

3.5.2.1. Profile 3D

Phương pháp này ứng dụng Profile 3D dùng trong nhận diện “fold” để đo đạc mức độ tương thích giữa một amino acid với môi trường xung quanh khi amino acid này đặt trong cấu trúc protein. Kiểu môi trường của amino acid được xác định bằng:

� Diện tích chuỗi bên của amino acid được che lấp bên trong protein

� Tỉ lệ diện tích chuỗi bên phơi ra vùng phân cực

� Cấu trúc bậc 2 mà amino acid cấu thành

Tương ứng với mỗi trình tự có chiều dài n sẽ có một chuỗi “môi trường” có chiều dài n. Điểm tương thích thường được lấy trung bình trên từng đoạn trình tự ngắn khoảng 5-30 amino acid. Khu vực xung quanh vị trí có điểm thấp bất thường có thể là vùng cấu trúc có lỗi. Verify-3D là một hệ thống máy tính chủ giúp đánh giá cấu trúc protein thông qua việc tính toán Profile 3D của cấu trúc mục tiêu.

21 Thế thống kê (statistical potential) là một dạng hàm năng lượng được xây dựng để thay thế hàm năng lượng của phân tử trong việc đánh giá mức độ tự nhiên (native) của một cấu trúc.

Thế nhiệt động của một hệ thống được biểu diễn bằng chênh lệch năng lượng tự do của hệ với năng lượng tự do ở trạng thái chuẩn:

Trong đó k là hằng số Boltzmann, T là nhiệt độ tuyệt đối (oK), K là hằng số cân bằng cho biết chiều biến đổi của hệ thống. Thế thống kê được xây dựng dựa trên thế nhiệt động, cho biết trạng thái ưu đãi của một hệ thống protein.

Như vậy, đối với thế thống kê, f(r) là hàm mật độ xác suất cho biết phân phối của r trong tập hợp các cấu trúc tự nhiên. EREF là năng lượng ứng với trạng thái qui chiếu. Trong nhiệt động học, trạng thái chuẩn được qui định với các điều kiện nhiệt độ và áp suất cố định. Trong thống kê, việc lựa chọn trạng thái qui chiếu có ảnh hưởng lớn đến khả năng đánh giá cấu trúc của thế thống kê.

Thế thống kê có thể được phân loại theo 3 đặc điểm:

� Cách biểu diễn protein: protein có thể được biểu diễn bằng trọng tâm của các amino acid thành phần, nguyên tử Cα/Cβ của mỗi amino acid hay tất cả các nguyên tử.

� Đặc tính giới hạn: có thể là mức độ tiếp xúc dung môi (solvent accessibility), va chạm lập thể, khoảng cách nguyên tử, góc xoắn…

� Trạng thái qui chiếu.

Có rất nhiều dạng thế thống kê đã được thử nghiệm, trong đó được sử dụng phổ biến là z-score của ProSA và DOPE-score của MODELLER.

22 a) Z-score của ProSA [13]

Trong một cấu trúc, năng lượng tương tác giữa amino acid thứ i và thứ j là tổng tất cả các tương tác giữa các nguyên tử trong amino acid. Để giản lược, chỉ có năng lượng tương tác của Cα hoặc Cβ giữa các amino acid là được xét đến.

Năng lượng tương tác cặp E là tổng tất cả các năng lượng tương tác cặp giữa các amino acid trong protein:

Năng lượng tổng cộng của một protein là một hàm theo trình tự S và cấu trạng C, được ký hiệu là ES,C. Nếu N là fold ứng với cấu trạng tự nhiên thì năng lượng ứng với cấu trạng tự nhiên ES,N là năng lượng tối thiểu:

Điểm z-score của một cấu trạng có năng lượng ES,C là chênh lệch năng lượng của cấu trạng C với năng lượng của trạng thái qui chiếu:

Trong đó trạng thái qui chiếu được chọn là trạng thái có năng lượng trung bình của tất cả các cấu trạng tự nhiên ứng với chiều dài l của protein mục tiêu. Năng lượng này được tính bằng kỹ thuật polyprotein: xây dựng polyprotein có chiều dài tổng cộng L từ các cấu trúc tự nhiên, dịch chuyển toàn bộ chiều dài l của protein mục tiêu trên chiều dài L của polyprotein. Việc dịch chuyển này đồng nghĩa với việc áp trình tự chiều dài l lên tất cả các

23

σS là sai số chuẩn của năng lượng trung bình b) DOPE-score của MODELLER

DOPE-score (Discrete Optimized Protein Energy) là một hàm phụ thuộc khoảng cách giữa hai nguyên tử. Gọi ui,j(r) là điểm của cặp nguyên tử thứ i và thứ j

trong hệ, nằm cách nhau một khoảng r, thì ui,j(r) phụ thuộc vào xác suất để nguyên tử dạng m và nguyên tử dạng n nằm cách nhau một khoảng r. Xác suất này được tính từ tập dữ liệu các cấu trúc tự nhiên đã biết.[12]

Trạng thái qui chiếu trong tính toán DOPE-score là trạng thái ứng với các nguyên tử hoàn toàn không có tương tác: pm,n(r) là xác suất của cặp m,n cách nhau một khoàng r

khi không có tương tác. DOPE-score được tích hợp trong MODELLER và thường được ứng dụng để chọn ra cấu trúc tốt nhất trong nhiều cấu trúc được xây dựng.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Tin sinh học dự đoán cấu trúc protein (Trang 28)