ĐÁNH GIÁ CHẤT LƯỢNG MÔ HÌNH : - Tin sinh học dự đ- 123docz.net

3.5.1. Tính chính xác về hoá học lập thể

Chất lượng hóa học lập thể của một mô hình cấu trúc được biểu thị qua các thông số như chiều dài nối, góc nối, góc xoắn… Khảo sát một số lượng lớn các mô hình cấu trúc thực nghiệm cho thấy các giá trị này phân bố quanh một giá trị lý tưởng, và sự tập trung quanh giá trị lý tưởng càng rõ ràng khi độ phân giải của cấu trúc càng cao. Do đó, các giá trị trung bình phân tích từ các cấu trúc tinh thể (Bảng 2) có thể được xem là giá trị tham chiếu để so sánh với các thông số tương ứng của mô hình nhằm phát hiện ra các đặc tính lập thể bất thường.

Bảng 3. Tóm tắt giá trị trung bình của các tham số hóa học lập thể

Tham số Trung Bình Sai Số Chuẩn

amino acid có (φ,ψ) nằm

trong vùng ưu đãi >90% χ1 bán lệch + bán lệch – trans -66.7 64.1 183.6 15 15.7 16.8 χ2 177.4 18.5 Góc φ (proline) -65.4 11.2 Xoắn alpha φ ψ -65.3 -39.4 11.9 11.3

Năng lượng tương tác hydro -2.03 0.75

Ω 180.0 5.8

Góc nhị diện ảo (Cα-N-C-Cβ) 33.9 3.5

Giản đồ Ramachandran là một chỉ thị quan trọng cho chất lượng lập thể của protein. Giản đồ này cho thấy sự phân bố các cặp góc (φ-ψ) của các amino acid trong một cấu trúc protein. Góc φ được định nghĩa là góc quay quanh trục N-Cα và góc ψ là góc quay quanh trục Cα-C’ (Hình 1.2). Trên giản đồ Ramachandran cổ điển, các vùng ưu đãi và không ưu đãi được xác định bằng cách nghiên cứu sự biến đổi cấu hình của các dipeptide riêng lẻ. Khi mở rộng nghiên cứu trên hàng trăm cấu trúc thực nghiệm tốt, các kết hợp (φ-ψ) cũng tập trung trong các vùng ưu đãi tương tự. Đặc biệt là các phần tử cấu trúc bậc hai trong protein có các giá trị (φ-ψ) rất gần với các cấu trạng dipeptide tối ưu tính toán từ giản đồ Ramachandran. Ngoài ra, các góc (φ-ψ) cùa những cấu trúc không

19 lặp lại như loop hay turn cũng tìm thấy nằm trong vùng ưu đãi của giản đồ, nhưng có

phân bố rộng hơn.[10]

Hinh 5. Ký hiệu các góc xoắn của khung sườn trong cấu trúc protein

Các bất thường về hóa học lập thể có thể nhận thấy ngay thông qua các góc (φ- ψ) nằm trong vùng cấm, những trường hợp thường chỉ thấy khi cấu trạng đặc biệt cần cho chức năng hoặc độ bền, ví dụ như khi các amino acid nằm trong lõi protein có tham gia vào liên kết hydro hay tạo thành cầu muối. Các amino acid được cho phép nằm ngoài các vùng ưu đãi chính của giản đồ là proline và glycine. Hai amino acid này có vùng ưu đãi và vùng ít ưu đãi khác hẳn so với các amino acid khác, nên thường được ký hiệu khác đi trên giản đồ. Phần trăm các amino acid nằm trong vùng ưu đãi là một trong những tiêu chuẩn tốt để khẳng định chất lượng lập thể của mô hình. Mô hình lý tưởng có hơn 90% amino acid nằm trong vùng ưu đãi.

20 Các phép kiểm tương tự như góc xoắn của khung sườn cũng có thể được áp dụng trong trường hợp các góc xoắn của chuỗi bên χi. Các chương trình hỗ trợ việc rà soát các thông số hóa học lập thể của protein: PROCHECK, WHATCHECK, PROVE.

3.5.2. Độ tin cậy của Fold :

Độ tin cậy của fold trong đánh giá mô hình cấu trúc được biểu thị qua mức độ phù hợp giữa một trình tự với fold được dự đoán cho trình tự đó.

Thí nghiệm của Novotny et al. đã chứng tỏ rằng cấu trúc đúng và cấu trúc sai có thể có năng lượng tương đương nhau, bằng cách áp một trình tự lên một sườn cấu trúc hoàn toàn không có quan hệ tiến hóa và thực hiện tối thiểu hóa năng lượng để loại bỏ các va chạm lập thể của các chuỗi bên. Thí nghiệm cũng cho thấy trong cấu trúc sai, nhiều đặc tính của protein bị vi phạm rõ ràng như: tương tác hydrogen, tương tác van der Waals và tương tác tĩnh điện không làm ổn định cấu trúc; tỉ lệ lớn các chuỗi bên không phân cực tiếp xúc với dung môi…

Vì vậy, độ tin cậy của fold cần được đánh giá bằng cách kết hợp nhiều thông tin của cấu trúc. Hai phương pháp chính để xác định độ tin cậy của fold là dựa vào Profile 3D và dựa vào thế thống kê

3.5.2.1. Profile 3D

Phương pháp này ứng dụng Profile 3D dùng trong nhận diện “fold” để đo đạc mức độ tương thích giữa một amino acid với môi trường xung quanh khi amino acid này đặt trong cấu trúc protein. Kiểu môi trường của amino acid được xác định bằng:

� Diện tích chuỗi bên của amino acid được che lấp bên trong protein

� Tỉ lệ diện tích chuỗi bên phơi ra vùng phân cực

� Cấu trúc bậc 2 mà amino acid cấu thành

Tương ứng với mỗi trình tự có chiều dài n sẽ có một chuỗi “môi trường” có chiều dài n. Điểm tương thích thường được lấy trung bình trên từng đoạn trình tự ngắn khoảng 5-30 amino acid. Khu vực xung quanh vị trí có điểm thấp bất thường có thể là vùng cấu trúc có lỗi. Verify-3D là một hệ thống máy tính chủ giúp đánh giá cấu trúc protein thông qua việc tính toán Profile 3D của cấu trúc mục tiêu.

21 Thế thống kê (statistical potential) là một dạng hàm năng lượng được xây dựng để thay thế hàm năng lượng của phân tử trong việc đánh giá mức độ tự nhiên (native) của một cấu trúc.

Thế nhiệt động của một hệ thống được biểu diễn bằng chênh lệch năng lượng tự do của hệ với năng lượng tự do ở trạng thái chuẩn:

Trong đó k là hằng số Boltzmann, T là nhiệt độ tuyệt đối (oK), K là hằng số cân bằng cho biết chiều biến đổi của hệ thống. Thế thống kê được xây dựng dựa trên thế nhiệt động, cho biết trạng thái ưu đãi của một hệ thống protein.

Như vậy, đối với thế thống kê, f(r) là hàm mật độ xác suất cho biết phân phối của r trong tập hợp các cấu trúc tự nhiên. EREF là năng lượng ứng với trạng thái qui chiếu. Trong nhiệt động học, trạng thái chuẩn được qui định với các điều kiện nhiệt độ và áp suất cố định. Trong thống kê, việc lựa chọn trạng thái qui chiếu có ảnh hưởng lớn đến khả năng đánh giá cấu trúc của thế thống kê.

Thế thống kê có thể được phân loại theo 3 đặc điểm:

� Cách biểu diễn protein: protein có thể được biểu diễn bằng trọng tâm của các amino acid thành phần, nguyên tử Cα/Cβ của mỗi amino acid hay tất cả các nguyên tử.

� Đặc tính giới hạn: có thể là mức độ tiếp xúc dung môi (solvent accessibility), va chạm lập thể, khoảng cách nguyên tử, góc xoắn…

� Trạng thái qui chiếu.

Có rất nhiều dạng thế thống kê đã được thử nghiệm, trong đó được sử dụng phổ biến là z-score của ProSA và DOPE-score của MODELLER.

22 a) Z-score của ProSA [13]

Trong một cấu trúc, năng lượng tương tác giữa amino acid thứ i và thứ j là tổng tất cả các tương tác giữa các nguyên tử trong amino acid. Để giản lược, chỉ có năng lượng tương tác của Cα hoặc Cβ giữa các amino acid là được xét đến.

Năng lượng tương tác cặp E là tổng tất cả các năng lượng tương tác cặp giữa các amino acid trong protein:

Năng lượng tổng cộng của một protein là một hàm theo trình tự S và cấu trạng C, được ký hiệu là ES,C. Nếu N là fold ứng với cấu trạng tự nhiên thì năng lượng ứng với cấu trạng tự nhiên ES,N là năng lượng tối thiểu:

Điểm z-score của một cấu trạng có năng lượng ES,C là chênh lệch năng lượng của cấu trạng C với năng lượng của trạng thái qui chiếu:

Trong đó trạng thái qui chiếu được chọn là trạng thái có năng lượng trung bình của tất cả các cấu trạng tự nhiên ứng với chiều dài l của protein mục tiêu. Năng lượng này được tính bằng kỹ thuật polyprotein: xây dựng polyprotein có chiều dài tổng cộng L từ các cấu trúc tự nhiên, dịch chuyển toàn bộ chiều dài l của protein mục tiêu trên chiều dài L của polyprotein. Việc dịch chuyển này đồng nghĩa với việc áp trình tự chiều dài l lên tất cả các

σS là sai số chuẩn của năng lượng trung bình b) DOPE-score của MODELLER

DOPE-score (Discrete Optimized Protein Energy) là một hàm phụ thuộc khoảng cách giữa hai nguyên tử. Gọi ui,j(r) là điểm của cặp nguyên tử thứ i và thứ j

trong hệ, nằm cách nhau một khoảng r, thì ui,j(r) phụ thuộc vào xác suất để nguyên tử dạng m và nguyên tử dạng n nằm cách nhau một khoảng r. Xác suất này được tính từ tập dữ liệu các cấu trúc tự nhiên đã biết.[12]

Trạng thái qui chiếu trong tính toán DOPE-score là trạng thái ứng với các nguyên tử hoàn toàn không có tương tác: pm,n(r) là xác suất của cặp m,n cách nhau một khoàng r

khi không có tương tác. DOPE-score được tích hợp trong MODELLER và thường được ứng dụng để chọn ra cấu trúc tốt nhất trong nhiều cấu trúc được xây dựng.

3.5.3. Công cụ hỗ trợ PROCHECK

PROCHECK cho phép tính toán các thông số hóa học lập thể của một mô hình cấu trúc, phân tích sự phân bố của các thông số đó, dựa vào độ phân giải của cấu trúc để tra các giá trị sai số chuẩn tương ứng và kết luận sơ bộ về chất lượng lập thể của cấu trúc đồng thời chỉ ra các vị trí có thể có sai sót.

G-factor là một giá trị thống kê, cho biết mức độ “bình thường” của một đặc tính bất kỳ. G-factor của một đặc tính X được tính như sau

24 Trong đó p(X) là xác suất của X. Như vậy, G-factor(X) càng thấp thì cấu trạng tương ứng mang đặc tính X càng có xác suất thấp. Phân phối xác suất của X được xác định dựa trên thống kê các cấu trúc protein đã được giải bằng phương pháp tán xạ tia X và có độ phân giải cao. G-factor lý tưởng khi >-0.5. Phần tử (hoặc cấu trúc) có G-factor <-1.0 cần được xem xét lại.

CHƯƠNG 4. MỘT VÍ DỤ VỀ DỰ ĐOÁN CẤU TRÚC PROTEIN

Để giúp chi phần lý thuyết ở trên dễ hiểu, sau đây đồ án sẽ thực hiện mô hình hoá cho một protein. Quy trình thực hiện trải qua 4 bước như trình bày ở trên và sử dụng nhiều website nhằm tạo ra cái nhìn tổng quan nhất về các công cụ phục vụ cho việc dự đoán cấu trúc protein.

Đồ án sẽ chọn một protein đã biết chắc chắn cấu trúc qua thực nghiệm và có sẵn trong ngân hàng Protein nhằm kiểm chứng cho tính chính xác của các website. Protein được sử dụng để làm minh hoạ là protein Rhodopsin. Protein này tồn tại ở võng mạc ( Retina ) và có số ID trong ngân hàng Protein là 1U19.

Cấu trúc của protein này sẽ được tải xuống từ ngân hàng dữ liệu protein dưới dạng file fasta.

Hinh 6. Cấu trúc mắt người

4.1.TÌM TRÌNH TỰ TƯƠNG ĐỒNG

Để tìm trình tự tương đồng với cấu trúc mục tiêu ta sử dụng công cụ BLAST của website NCBI. Để truy cập vào BLAST ta có thể click vào đường dẫn http://blast.ncbi.nlm.nih.gov/Blast.cgi

Hinh 7. Website BLAST

Ta chọn vào đường dẫn protein blast. Sau đó màn hình sẽ chuyển sang cửa sổ tìm kiếm trình tự tương đồng dành cho protein

27 Ta bật file fasta đã download về lúc trước và copy trình tự protein vào website BLAST. Sau đó thay đổi hộp thoại Database thành PDB. Cuối cùng là click vào BLAST để chương trình thực hiện. Sau một vài phút chạy chương trình, cửa sổ kết quả sẽ hiện ra

Hinh 9. Kết quả tìm kiếm trình tự tương đồng được biệu thị bằng màu sắc

28 Ta chọn protein có tỉ lệ tương đồng cao nhất so với trình tự mục tiêu. Ta tải trình tự của protein vừa tìm được về máy để thực hiện bước tiếp theo.

4.2. SẮP GIÓNG CỘT :

Để thực hiện bước này ta sử dụng công cụ CLUSTALW 2 của ngân hàng dữ liệu EBI. Ta truy cập vào đường dẫn sau để sử dụng công cụ http://www.ebi.ac.uk/Tools/msa/clustalw2. Sau khi truy cập vào đường dẫn màn hình máy tính sẽ hiện ra website sau:

29 Ta copy và paste trình tự của protein mục tiêu và protein mẫu vào cùng 1 khung hội thoại “Enter or paste”. Nếu muốn kết quả gửi về mail thì click vào “Step 4”, nếu không để xem trực tiếp kết quả thì nhấn vào icon “ Submit ” để chương trình làm việc.

30 Sau một vài phút chạy chương trình. Màn hình sẽ hiển thị kết quả:

Hinh 13. Kết quả sau khi sử dụng CLUSTALW 2

4.3. XÂY DỰNG MÔ HÌNH CẤU TRÚC :

Sau khi đã có cấu trúc khuôn mẫu cần thiết, ta bắt đầu vào việc xây dựng mô hình cấu trúc không gian của protein mục tiêu. Ở bước này ta có thể sử dụng nhiều chương trình khác nhau, SWISS-MODEL là công cụ phổ biến trong số đó. SWISS-MODEL có thể được truy cập từ đường dẫn http://swissmodel.expasy.org/. Sau khi vào website màn hình máy tính sẽ có giao diện như hình . Ta click vào mục “ Automated mode ” để tiến hành xây dựng mô hình.

Hinh 14. Giao diện website SWISS-MODEL

32 Sau khi vào mục “ Automated mode” màn hình máy tính sẽ hiển thị giao diện như hình .Copy và paste trình tự fasta của protein mục tiêu vào khung “UniPort AC code”. Đánh mã số ID của trình tự mẫu vào mục “ specific template”. Sau đó click chuột vào nút “Submit Modelling Request” để chương trình thực hiện. Kết quả được xuất ra màn hình.

Hinh 16. Mô hình kết quả

4.4. KIỂM TRA CẤU TRÚC:

Sau khi đã có cấu trúc hoàn chỉnh từ công cụ SWISS-MODEL, ta có thể sử dụng phần mềm MODELLER để kiểm tra lại những thông số đã đề cập ở phần lý thuyết ở trên. MODELLER là một phần mềm thông dụng mà ta có thể tải xuống miễn phí từ internet.

CHƯƠNG 5. KẾT LUẬN VÀ KIẾN NGHỊ

5.1.Kết luận:

Dự đoán cấu trúc là một chủ đề nghiên cứu không còn mới trên thế giới. Đã có rất nhiều công trình nghiên cứu dựa trên chủ đề này. Hiện nay cũng có rất nhiều công cụ để thực hiện việc dự đoán cấu trúc protein. Ngân hàng protein thì ngày càng được mở rộng và nhờ internet mọi người trên thế giới đều có thể sử dụng những cấu trúc protein đã biết để mở rộng vốn hiểu biết của con người về protein. Nhưng thế giới chúng ta đang sống luôn thay đổi và tiến hoá. Sự thay đổi và tiến hoá này bắt đầu từ ngay những đại phân tử sinh học cấu thành nên vật chất thế giới. Chính điều đó đã làm cho kiến thức về protein của con người là không bao giờ hoàn thiện. Vì lí do đó, có lẽ chủ đề “ Dự đoán cấu trúc protein” sẽ rất lâu nữa mới là một đề tài nghiên cứu cũ đối với lĩnh vực công nghệ gen và tin sinh học.

Ngày nay đã có rất nhiều website và phần mềm máy tính được lập trình riêng cho công việc dự đoán cấu trúc nhưng mỗi phương và mỗi công cụ có những ưu điểm và khuyết điểm riêng. Do đó đòi hỏi người sử dụng phải biết kết hợp nhiều phương pháp và nhiều công cụ hỗ trợ khác nhau để thực hiện công việc 1 cách suôn sẻ.

Bên cạnh đó sự xuất hiện quá nhiều công cụ không chỉ tạo ra sự đa dạng về lựa chọn cho công việc và còn gây rối cho việc sử dụng đối với những người mới bắt đầu.

5.2.Kiến Nghị

Do thời gian hạn chế nên đồ án chỉ có thể cho một cái nhìn sơ lược về dự đoán cấu trúc protein và chưa thể giới thiệu đầy đủ hết về tất cả các công cụ phục vụ cho việc dự