Các hàm đánh giá

7. Ý nghĩa khoa học và thực tiễn của đề tài

1.2.2. Các hàm đánh giá

Trong các lĩnh vực hóa học tính toán và mô phỏng phân tử, hàm đánh giá (Scoring Functions, SF) được sử dụng để dự đoán, đánh giá sự phù hợp giữa hai phân tử sau docking. SF cho phép phân biệt giữa các trạng thái liên kết, giữa hợp chất hoạt động và các hợp chất ngẫu nhiên được tạo ra trong quá trình tính toán, nghĩa là ngay cả khi sự liên kết được dự đoán chính xác, cuối cùng các tính toán sẽ không thành công nếu chúng ta không phân biệt được trạng thái liên kết đúng với những trạng thái liên kết ngẫu nhiên, từ đó không thể xác định được các phối tử phù hợp. Vì vậy, việc thiết kế các hàm và sơ đồ đánh giá đáng tin cậy có vai trò quan trọng. Các phương pháp tính toán năng lượng tự do đã được phát triển để định lượng các tương tác giữa phối tử và protein cũng như dự đoán ái lực ràng buộc. Tuy nhiên, một hàm đánh giá có độ chính xác cao tốn kém nhiều thời gian và kĩ thuật phức tạp để tính toán, do đó không khả thi để đánh giá số lượng lớn phức protein - phối tử, mặt khác không phải lúc nào cũng đem lại sự chính xác đối với nhiều hệ. Vì lý do này, việc thiếu một SF phù hợp, cả về tốc độ tính toán và độ chính xác, là hạn chếchính trong nhiều phương pháp docking [48]. Một số giả định và đơn giản hóa đã được sử dụng để giảm độ phức tạp của các SF mà vẫn đảm bảo kết quả tính toán ở một ngưỡng sai lệch cho phép.

Hàm đánh giá có thể được chia thành ba loại chính: - Dựa vào trường lực (Force Field – Based SF) - Dựa vào kinh nghiệm (Empirical SF)

Ngoài ra, hiện nay các nhà khoa học đang phát triển các hàm đánh giá mới tối ưu hơn được gọi là hàm đánh giá đồng thuận (Consensus scoring function).

1.2.2.1. Hàm đánh giá dựa vào trường lực

Trường lực đã dần dần được công nhận là một công cụ mạnh mẽ trong việc mô phỏng các đại phân tử sinh học kể từ khi các công trình tiên phong của Martin Karplus và đồng nghiệp trong những năm 1970 [63]. SF dựa vào trường lực được phát triển dựa trên các tương tác vật lý, bao gồm tương tác Van der Walls, tương tác tĩnh điện và sự kéo dãn/ uốn/ xoắn các liên kết. Các trường lực và tham số thường được lấy từ cả dữ liệu thực nghiệm và tính toán cơ học lượng tử theo các nguyên lý vật lý. Thách thức lớn trong SF dựa vào trường lực là làm thế nào để xử lý dung môi.

Một số SF dựa vào trường lực cổ điển trong docking có thể kể đến là phiên bản đầu của SF được sử dụng trong DOCK và AutoDock, có các tham số được lấy từ các trường lực AMBER, đánh giá năng lượng liên kết bằng cách tính tổng của các tương tác không mang bản chất liên kết (tương tác tĩnh điện và tương tác Van der Walls), trong đó có xem xét sự đóng góp của enthalpy cho năng lượng: E = ∑ ∑ ( AIJ rij12−Bij rij6 + qiqj ε(rij)rij j i ) (1.9)

Trong đó:E là năng lượng của hệ đang xét.

rij là khoảng cách giữa nguyên tử protein i và nguyên tử phối tử j.

Aijvà Bij là các tham số van der Waals.

qivà qj là các điện tích nguyên tử.

Năng lượng tương tác tĩnh điện được tính theo công thức định luật Coulomb. Vì vấn đề khó khăn trong việc mô phỏng môi trường thực của protein, nên hằng số điện môi (rij) sẽ phụ thuộc vào khoảng cách, giúp điều

chỉnh sự đóng góp của các tương tác tĩnh điện. Mặc dù đem lại hiệu quả trong tính toán nhưng sự phụ thuộc vào khoảng cách của hằng số điện môi không thể giải thích cho hiệu ứng hòa tan, một hiệu ứng quan trọng, khi các nhóm tích điện ưu tiên môi trường nước trong khi các nhóm không phân cực có xu hướng tan trong môi trường không phải nước. Năng lượng hòa tan là tương tác chính của một số hệ, năng lượng này phụ thuộc vào cấu trúc hình học và môi trường xung quanh của các phân tử chất tan. Vì bỏ qua hiệu ứng entropy và dung môi, SF sẽ chịu ảnh hưởng của tương tác tĩnh điện Coulomb và do đó có xu hướng chọn phối tử có điện tích cao, dẫn đến hiệu quả của SF dựa trên trường lực là không đủ tốt.

Sau này, người ta mở rộng xem xét các đánh giá dựa trên trường lực đối các liên kết hydrogen, sự hoà tan và đóng góp entropy. Do đó biểu thức tính toán năng lượng sau được áp dụng rộng rãi hơn:

∆Gbinding = ∆EvanderWalls + ∆Eelectronstatic+ [∆EH−bond] + ∆Gdesolvation (1.10) Trong đó: ∆Gbindinglà năng lượng tự do của liên kết.

∆EVan der Wallslà năng lượng các tương tác Van der Walls.

∆EH-bondlà năng lượng liên kết hydrogen.

∆Gdesolvationnăng lượng tự do của quá trình hòa tan.

Các chương trình phần mềm như DOCK, GOLD (dựa trên trường lực Tripos) và AutoDock (dựa trên trường lực AMBER) cung cấp cho người dùng các SF như vậy. Chúng có một số khác biệt trong việc xử lý các liên kết hydrogen, dạng hàm năng lượng,… Hơn nữa, kết quả của việc mở rộng các đánh giá dựa trên trường lực có thể được cải tiến thêm bằng các kỹ thuật khác, như năng lượng tương tác tuyến tính và phương pháp nhiễu loạn năng lượng tự do (FEP) để cải thiện độ chính xác trong việc dự đoán năng lượng liên kết. Nhìn

chung, SF dựa vào trường lực có thể khảo sát sự tương tác giữa các nguyên tử của protein và phối tử; thích hợp để tính toán năng lượng liên kết giữa protein và phối tử với độ chính xác tốt hơn các loại SF khác do sự xem xét của enthalpy, sự hoà tan và entropy.

1.2.2.2. Hàm đánh giá dựa vào kinh nghiệm

SF dựa vào kinh nghiệm [64], [65] tính toán ái lực liên kết của một phức bằng cách tổng hợp các yếu tố năng lượng quan trọng cho liên kết protein - phối tử:

∆G = ∑ ∆G𝑖 i (1.11)

Trong đó: ΔGi đại diện cho các năng lượng khác nhau, chẳng hạn như Van der Walls tĩnh điện, liên kết hydrogen, tương tác kỵ nước, cản trở không gian,… Một số SF dựa vào kinh nghiệm có thể kể đến như của Bohm, F-Score, ChemScore, SCORE, Fresno và X-SCORE. Hầu hết các tài liệu của SF thực nghiệm được công bố bởi Bohm vào năm 1994 [66]. Bằng cách hiệu chuẩn với một bộ dữ liệu của 45 phức protein – phối tử, Bohm đã phát triển một SF đánh giá dựa vào kinh nghiệm (SCORE), đánh giá qua bốn loại tiêu chí: liên kết hydrogen, tương tác ion, tương tác kị nước của phức protein - phối tử và số lượng các liên kết có thể xoay trong phối tử. Sau đó, SF thực nghiệm này được cải thiện thêm bằng việc mở rộng tập dữ liệu đến 82 phức protein – phối tử với cấu trúc 3D và hằng số liên kết theo các thông số: hình dạng, số liên kết hydrogen nội phân tử, số tương tác ion, kích thước của bề mặt xúc tác lipophilic, sự linh hoạt của phối tử, thế năng tĩnh điện trong các vị trí liên kết, phân tử nước trong các vị trí liên kết dọc theo bề mặt phân cách giữa protein - phối tử và các tương tác cụ thể giữa vòng thơm.

Eldridge và cộng sự đã đề xuất một SF dựa vào kinh nghiệm được gọi là ChemScore bằng cách tính đến liên kết hydrogen, nguyên tử kim loại, các hiệu

ứng lipophilic của nguyên tử, và số lượng các liên kết có thể xoay trong phối tử [67].

∆Gbinding= ∆G0+∆GH-bond∑iIg1(∆r)g2(∆α)+∆Gmetal∑aMf(raM)

+∆Glipo∑ f(rlL lL) + ∆GrotHrot (1.12)

Trong đó: ΔGbinding là năng lượng tự do của liên kết

ΔGH-bond là năng lượng tự do liên kết hydrogen tạo bởi nguyên tử I của phối tử và nguyên tử I của thụ thể, g1(Δr), g2(Δα) lần lượt là các số hạng phụ thuộc vào độ dài liên kết và góc liên kết Hydrogen

ΔGmetal là năng lượng tương tác giữa nguyên tử a và nguyên tử kim loại M, f(raM) là số hạng phụ thuộc vào khoảng cách liên kết giữa a và M

ΔGlipo là năng lượng tương tác kị nước giữa nguyên tử l của phối tử và nguyên tử L của thụ thể, f(rlL) là số hạng phụ thuộc vào khoảng cách của l và L.

ΔGrot năng lượng tự do xoay của phối tử

SF được hiệu chuẩn bằng cách sử dụng 82 phức phối tử - thụ thể đã biết về ái lực liên kết và đã được thử nghiệm ở hai bộ mẫu 20 và 10 phức protein - phối tử tương ứng. Dựa trên một bộ lớn hơn của 200 phức protein - phối tử, Wang và cộng sự đã phát triển một SF thực nghiệm mới là X-score, bao gồm tương tác Van der Walls, liên kết hydrogen, hiệu ứng kỵ nước, hiệu ứng quay liên kết [68].

So với trường lực, SF dựa vào kinh nghiệm nhanh hơn nhiều trong tính toán do các tiêu chí đánh giá năng lượng đơn giản hơn, trong khi nhược điểm chính của các phương pháp này nằm ở sự phụ thuộc vào tập dữ liệu thực nghiệm được sử dụng trong quá trình tham số hóa (không linh hoạt và không thể thay đổi). Với sự tăng nhanh chóng về số lượng phức protein - phối tử với các cấu trúc

3D được biết đến và ái lực, nhiều khả năng có thể phát triển một SF thực nghiệm chung với các hằng số liên kết của hàng ngàn phức protein - phối tử đa dạng.

1.2.2.3. Hàm đánh giá dựa vào tri thức

SF dựa vào tri thức xác định sự phù hợp giữa protein và phối tử thông qua cấu trúc ba chiều của một tập hợp lớn của phức protein - phối tử dựa trên nguyên tắc thống kê nghịch đảo Boltzmann.

Hình 1.2. Mô tả sơ đồ tính SF dựa vào tri thức

Trong đó:ij(r) là mật độ số của cặp nguyên tử protein - phối tử i−j tại khoảng cách r

*ijlà mật độ cặp ở trạng thái tham chiếu

Phân loại các nguyên tử trong thụ thể protein Sắp xếp nguyên tử theo cặp

Tính toán mật độ cặp nguyên tử ở trạng thái tham chiếu: *ij

Tính toán mật độ cặp nguyên tử: ij(r)

Tính toán mật độ tương đối

g(r) = 𝑖𝑗(𝑟) *𝑖𝑗(𝑟)

Tính toán thế năng của cặp nguyên tử: wij(r) = −kBTln[g(r)]

Tổng thế năng của tất cả các cặp nguyên tử:

E𝑏𝑜𝑛𝑑 = ෍ ෍ wij(r) 𝑅

𝑗=1 𝐿

g(r) là mật độ số tương đối của nguyên tử cặp i−j ở khoảng cách r kBlà hằng số Boltzmann, T là nhiệt độ tuyệt đối

Với phương pháp này, tần suất xảy ra tương tác được coi là một thước đo năng lượng đóng góp vào liên kết protein - phối tử, tức là trong một sự phân chia ngẫu nhiên, nếu năng lượng thuận lợi thì đã có sự liên kết giữa protein - phối tử, ngược lại nếu nó xảy ra ít hơn

Lợi thế lớn nhất cho các SF dựa vào tri thức là sự dung hoà giữa chi phí tính toán và độ chính xác của dự đoán so với các SF dựa trên trường lực và thực nghiệm. So với phương pháp dựa vào trường lực thường cần hàm tính toán phức tạp để xử lý dung môi, những phương pháp SF dựa vào tri thức hiệu quả hơn do chỉ xem xét đặc điểm của các cặp nguyên tử phối tử và thụ thể mà không cần xem xét đến dung môi. Hay so với SF đánh giá thực nghiệm, SF dựa trên tri thức cố gắng nắm bắt tất cả các yếu tố năng lượng trong tương tác protein - phối tử, do đó độ chính xác cao hơn. Nó cũng có thể mô phỏng một số tương tác không phổ biến như sulfur-π hoặc cation-π, thường được xử lý kém trong hàm đánh giá dựa vào kinh nghiệm. Xem xét cơ sở lý thuyết, SF tri thức dựa trên hiểu biết về tương tác nên được áp dụng để xác định hình dạng liên kết protein - phối tử hơn là năng lượng liên kết.

Tuy nhiên, phương pháp này đối mặt với vấn đề là một số tương tác trong bộ dữ liệu có sự giới hạn khi xem xét cấu trúc tinh thể, cũng như sự sai lệch khi xác định cấu trúc của môt số protein, do đó tham số thu được có thể không phù hợp để xem xét rộng rãi, đặc biệt là với các tương tác liên quan đến kim loại hoặc halogen. PMF, DrugScore, SMoG và Bleep là các ví dụ về các hàm dựa vào tri thức, chủ yếu khác nhau về kích thước của các bộ dữ liệu, dạng của hàm năng lượng, định nghĩa của các loại nguyên tử, khoảng cách hoặc các tham số khác.

Hiện nay, hầu hết các nhà nghiên cứu tập trung vào mở rộng thế cặp thành thế nhiều hạt bằng cách tìm ra một vài tham số mới nhằm tăng độ chính xác trong việc dự đoán cấu trúc vì việc thử nghiệm để tìm các giá trị thế năng chỉ phụ thuộc vào thông tin cấu trúc và không phụ thuộc vào ái lực liên kết, do đó có thể tránh được sự sai lệch về ái lực liên kết gây ra do điều kiện thực nghiệm như SF dựa trên thực nghiệm.

1.2.2.4. Hàm đánh giá đồng thuận

Để tận dụng những lợi thế và khắc phục các hạn chế của các SF khác nhau, SF đồng thuận [69] đã được giới thiệu bằng cách kết hợp kết quả từ nhiều hàm SF với nhau. Một bước vô cùng quan trọng trong SF đồng thuận là đảm bảo sự phù hợp, thống nhất phương thức tính toán giữa các SF khác nhau, để từ đó xác định được các trạng thái phù hợp của phối tử hay các liên kết tiềm năng. Tương quan của các SF khác nhau là một vấn đề nên được xem xét, vì nó có thể dẫn đến các sai lệch lớn. X-CSCORE kết hợp các đánh giá PMF, ChemScore và FlexX với các thuật toán giống như DOCK và GOLD, là một ví dụ về phương pháp đánh giá đồng thuận.

PHƯƠNG PHÁP DOCKING PHÂN TỬ

Sự hình thành tương tác