Thuật toán docking

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu hoạt tính sinh học của một số hợp chất trong cây trinh nữ hoàng cung việt nam (crinum latifolium l ) với miền tyrosine kinase của thụ thể HER2 bằng phương pháp in silico (Trang 27 - 34)

7. Ý nghĩa khoa học và thực tiễn của đề tài

1.2.1. Thuật toán docking

Một hệ sinh học bao gồm phối tử, thụ thể protein và các phân tử dung môi - thường là nước. Trong hệ, số lượng phân tử dung môi thường rất lớn dẫn đến số bậc chuyển động tự do khổng lồ, vì vậy các phân tử dung môi thường được loại trừ hoặc xem như các điểm. Tuy nhiên, khi hệ chỉ còn phối tử và thụ thể, số lượng bậc tự do vẫn còn rất lớn và gặp nhiều khó khăn trong việc tính toán. Do đó, xu hướng để giải quyết vấn đề là sử dụng các phương pháp gần đúng cho phép xây dựng một không gian tìm kiếm hiệu quả hơn.

Có nhiều phương pháp gần đúng khác nhau được xây dựng. Cơ bản nhất là phương pháp docking cứng (rigid - body approximation), phương pháp này được áp dụng phổ biến khi phương pháp docking mới bắt đầu được sử dụng [44]. Hiện nay phương pháp này vẫn được sử dụng trong lĩnh vực docking protein - protein. Phương pháp docking cứng coi cả phối tử và thụ thể protein là các phần tử cứng nhắc, chỉ khảo sát 6 bậc tự do chuyển động bao gồm 3 bậc tự do tịnh tiến và 3 bậc tự do quay của cả phân tử, loại trừ sự linh hoạt của phối tử và protein.

Phương pháp gần đúng khác đang được sử dụng phổ biến hiện nay là docking bán linh động. Phương pháp này mô phỏng tương tác giữa phối tử là các phân tử nhỏ và thụ thể protein, cho phép phối tử linh hoạt chuyển động tự do trong không gian thụ thể protein còn protein được xem như cứng nhắc [45]. Mặc dù vậy, sự linh hoạt của protein cũng rất quan trọng và cần được quan tâm, do đó, có những phương pháp khác giải quyết vấn đề này đang được phát triển.

1.2.1.1. Các phương pháp docking với phối tử linh động

Có 3 loại phương pháp docking quan tâm đến tính linh động của phối tử: các phương pháp hệ thống hóa (Systematic docking algorithms), các phương pháp ngẫu nhiên hoặc ngẫu nhiên thống kê (Ramdom or Stochastic algorithms),

các phương pháp mô phỏng (Simulation methods).

❖ Các phương pháp docking hệ thống hóa

Thuật toán docking hệ thống hóa cố gắng quan tâm các bậc tự do của phối tử theo 3 cách: phương pháp tìm kiếm cấu dạng, phương pháp phân mảnh, phương pháp sử dụng cơ sở dữ liệu.

Phương pháp tìm kiếm cấu dạng: có tính gượng ép trong việc giải quyết vấn đề tính linh hoạt của phối tử. Phương pháp này được thực hiện bằng cách cho tất cả các liên kết có thể xoay được trong phối tử (liên kết đơn) xoay 360o cho đến khi tất cả các cấu dạng được tạo ra và được tính toán. Hạn chế của phương pháp này là tạo ra một lượng cấu trúc lớn hơn rất nhiều với số lượng liên kết thật sự có thể xoay của phối tử, hiện tượng này gọi là sự bùng nổ kết hợp. Thực tế, cần có hạn chế sự xoay của một số liên kết trong phối tử, nên phương pháp tìm kiếm cấu dạng ít được sử dụng.

Phương pháp phân mảnh: là một trong những cách tiếp cận phổ biến để giải quyết vấn đề tính linh hoạt của phối tử. Phương pháp này chia phối tử thành các mảnh nhỏ rồi đưa vào tâm hoạt động của thụ thể protein theo 2 cách:

- Cách thứ nhất là gắn các đoạn vào các vị trị thuộc tâm hoạt động của thụ thể sau đó liên kết chúng lại với nhau bằng liên kết cộng hóa trị (The place- and-join approach).

- Cách thứ hai là các mảnh phối tử được xem là cứng nhắc sau đó lắp một mảnh vào vị trí đầu tiên và các mảnh tiếp theo được gắn liên tục vào cho đến khi hoàn thiện phối tử ban đầu, được gọi là tiếp cận tăng dần (The incremental approach).

Các phần mềm docking phân tử sẽ liên tục tính toán các cách gắn kết của các mảnh từ đó đưa ra phối tử có cấu dạng mà khi kết hợp với protein tạo ra phức bền nhất.

Phương pháp dùng cơ sở dữ liệu sử dụng các cơ sở dữ liệu có sẵn từ các thư viện hợp chất về sự phù hợp được tạo trước để giải quyết vấn đề linh hoạt của phối tử. FLOG [46] là một ví dụ điển hình của chương trình docking sử dụng phương pháp dùng cơ sở dữ liệu, bằng cách tạo ra một tập hợp nhỏ 25 cơ sở dữ liệu phù hợp cho mỗi phân tử dựa trên cấu trúc hình học, sau đó tiến hành docking theo nguyên tắc docking cứng nhắc.

❖ Thuật toán ngẫu nhiên hoặc thống kê ngẫu nhiên

Các phương pháp tìm kiếm ngẫu nhiên [47]giải quyết vấn đề linh động của phối tử bằng cách lặp đi lặp lại sự thay đổi cấu dạng của phối tử một cách ngẫu nhiên trong không gian của protein cho đến khi đạt được tiêu chí do người dùng xác định trước. Các phương pháp tìm kiếm ngẫu nhiên có thể được phân loại dựa trên không gian tìm kiếm của chúng: tìm kiếm cục bộ (Local Search - LS) hoặc tìm kiếm toàn phần (Global Search - GS). Các phương pháp LS có xu hướng tìm kiếm năng lượng cực tiểu gần với cấu dạng của phối tử trong không gian hoạt động của thụ thể được đưa vào ban đầu, trong khi đó các phương pháp GS tìm kiếm cấu dạng có năng lượng tối thiểu nhất trong toàn phần không gian hoặc trong một không gian nhất định được xác định trước. Bên cạnh đó, các phương pháp kết hợp giữa tìm kiếm cục bộ và toàn phần (Hybrid Local - Global Search) cho thấy hiệu quả trong docking phân tử hơn các phương pháp toàn phần [48].

Hai phương pháp tìm kiếm toàn phần thường được sử dụng trong các phần mềm docking phân tử hiện hành là phương pháp Monte Carlo (MC) và phương pháp thuật toán di truyền (Genetic Algorithm - GA). Phương pháp kết hợp giữa tìm kiếm cục bộ và toàn phần thường được sử dụng là thuật toán di truyền Lamarckian (Lamarckian Genetic Algorithm - LGA).

- Phương pháp Monte Carlo (MC): Trong phương pháp Monte Carlo, tiêu chí để một cấu dạng của phối tử trong không gian hoạt động của thụ thể được chấp nhận dựa trên hàm xác suất Boltzmann. Các phương pháp MC có một lợi thế đáng kể so với các phương pháp động lực học phân tử (Molecular Dynamic - MD), vì chúng sử dụng hàm năng lượng đơn giản hơn, không yêu cầu thông tin về bản chất hóa học của phối tử [49]. Ngoài ra, các phương pháp MC hiệu quả hơn trong việc vượt qua các rào cản năng lượng, do đó cho phép thực hiện các tìm kiếm đầy đủ hơn về không gian hình dạng.

- Phương pháp thuật toán di truyền [50]: Các thuật toán di truyền áp dụng các ý tưởng xuất phát từ di truyền học và lý thuyết về tiến hóa sinh học. Các biến trạng thái phối tử (cấu dạng của phối tử) được định nghĩa là kiểu gen, trong khi tọa độ nguyên tử đề cập đến giống như kiểu hình. Các toán tử di truyền (đột biến - mutations, trao đổi chéo - crossovers và di cư - migrations) được áp dụng cho hệ các cấu dạng để lấy mẫu không gian hình dạng cho đến khi đạt được một cấu dạng cuối cùng tối ưu nhất dựa trên các điều kiện được xác định trước. Trong docking phân tử, sự phù hợp được đánh giá thông qua tổng năng lượng tương tác của phối tử với protein bằng cách sử dụng hàm năng lượng. Các cấu dạng của phối tử kết hợp ngẫu nhiên bằng cách sử dụng quá trình trao đổi chéo, từ đó tạo ra cấu dạng mới mang những đặc điểm kế thừa từ các cấu dạng trước. Ngoài ra, một số cấu dạng trải qua đột biến ngẫu nhiên, tức là sự thay đổi ngẫu nhiên tại một vài vị trí liên kết. Sự chọn lọc hệ các cấu dạng tối ưu dựa trên đánh giá sự phù hợp với thụ thể.

Một loạt các phương pháp đã được áp dụng để cải thiện hiệu quả của thuật toán di truyền. Các thuật toán di truyền cổ điển đại diện cho bộ gen như một chuỗi bit có độ dài cố định, sử dụng trao đổi chéo và đột biến nhị phân để tạo ra các cấu dạng mới. Tuy nhiên, trong nhiều trường hợp, các toán tử nhị phân như vậy có thể tạo ra các giá trị nằm ngoài miền được quan tâm, dẫn đến sự

thiếu hiệu quả trong tìm kiếm. Việc sử dụng mã hóa thực sự gây ra nhiều hạn chế khi thực hiện thuật toán di truyền. Các thuật toán di truyền thay thế đã công bố [51], các thuật toán này sử dụng các biểu diễn và toán tử phức tạp hơn bên cạnh sự trao đổi chéo và đột biến. Một số trong số này giữ lại biểu diễn nhị phân, nhưng phải sử dụng các bộ giải mã kết hợp thuật toán sửa chữa để tránh xây dựng các cấu dạng không phù hợp và chúng thường được tính toán sâu hơn. Bên cạnh đó, hiệu suất tìm kiếm của thuật toán di truyền có thể được cải thiện bằng cách kết hợp với một phương pháp tìm kiếm cục bộ.

Phương pháp lai cục bộ - toàn phần: thuật toán di truyền Lamarckian [48]. Phần lớn các thuật toán di truyền dựa trên các đặc điểm chính của tiến hóa Darwin và áp dụng di truyền học Mendel, theo bản đồ tiến hóa kiểu gen biểu hiện ra kiểu hình của cá thể. Tuy nhiên, nếu tồn tại trường hợp ngược lại, một kiểu gen được tạo ra do một kiểu hình nhất định thì các cấu dạng có thể được thay thế bằng kết quả tìm kiếm cục bộ. Đây được gọi là thuật toán di truyền Lamarckian (LGA), được đặt theo tên của Jean Batiste de Lamarck, người đã khẳng định rằng các đặc điểm kiểu hình có được trong suốt cuộc đời cá thể có thể trở thành đặc điểm di truyền [52].

Điều quan trọng nhất trong phương pháp kết hợp kĩ thuật tìm kiếm cục bộ với thuật toán di truyền xoay quanh bản đồ tiến hóa là sự biến đổi kiểu gen thành các kiểu hình [53]. Không gian kiểu gen được mô tả theo các toán tử di truyền – đột biến và trao đổi chéo – theo đó cha mẹ của một thế hệ bị nhiễu loạn để tạo thành các thế hệ con. Không gian kiểu hình được xác định trực tiếp bởi các hàm năng lượng được tối ưu hóa. Toán tử tìm kiếm cục bộ là một phần mở rộng hữu ích cho tối ưu hóa thuật toán ngẫu nhiên khi các đặc tính của hàm phù hợp của tìm kiếm cục bộ (tính liên tục, tính tương quan,…) được khai thác nhằm bổ sung cho thuật toán di truyền. Trong tối ưu hóa kết hợp tìm kiếm cục bộ và thuật toán di truyền, kết quả của tìm kếm cục bộ luôn được sử dụng để

tối ưu sự phù hợp liên quan đến một cấu dạng được thuật toán di truyền chọn, đến khi chọn được cấu dạng được chọn tối ưu nhất thì thuật toán sẽ chuyển đổi kết quả kiểu hình của tìm kiếm cục bộ trở lại thành kiểu gen tương ứng.

Sự phù hợp và năng lượng được tính toán từ tọa độ của phối tử, tất cả tạo nên kiểu hình của nó. Kiểu gen của phối tử và các đột biến, toán tử trao đổi chéo đã được mô tả bằng cấu dạng của phối tử. Bản đồ tiến hóa có thể hiểu đơn giản là sự chuyển một biến trạng thái của một phân tử thành tọa độ nguyên tử tương ứng. Điểm mới lạ trong ứng dụng tối ưu hóa kết hợp tìm kiếm cục bộ và toàn phần là toán tử tìm kiếm cục bộ Solis và Wet, nó cho phép tìm kiếm thông qua cấu dạng hơn là tọa độ. Do đó, không cần làm bước chuyển nghịch đảo bản đồ tiến hóa. Mặc dù vậy, thuật toán di truyền này vẫn tương tự như Lamarckian, bởi vì bất kỳ đặc điểm thích nghi với môi trường của cấu dạng thu được trong quá trình tìm kiếm cục bộ sẽ được thừa hưởng bởi thế hệ sau của nó.

Trong thuật toán di truyền Lamarckian, đột biến kiểu gen đóng một vai trò hơi khác so với thuật toán di truyền truyền thống. Theo lý thuyết cổ điển, đột biến đóng vai trò giống như một toán tử tìm kiếm cục bộ, cho phép các bước tìm kiếm nhỏ, tuy nhiên việc tìm kiếm chỉ bằng sự kết hợp và chọn lọc không đem lại hiệu quả.

❖ Phương pháp mô phỏng

Các phương pháp mô phỏng sử dụng một cách tiếp cận khá khác với phương pháp docking và dựa trên tính toán các kết quả của phương trình chuyển động của Newton. Hai phương pháp chính tồn tại: động lực học phân tử (Molecular Dynamic - MD) và phương pháp tối tiểu hoá năng lượng.

Các phương pháp động lực phân tử là một công cụ mạnh mẽ và linh hoạt trong nghiên cứu một loạt các ứng dụng liên quan đến phân tử sinh học [54]. Mặc dù các phương pháp MD ngày càng phổ biến trong docking, một số hạn

chế vẫn tồn tại. Cụ thể, những khó khăn trong việc khảo sát một bề mặt gồ ghề của hệ phân tử sinh học, các rào cản năng lượng cao và vấn đề trong việc lấy mẫu không gian hình dạng trong giai đoạn mô phỏng tạo ra những hạn chế lớn đối với việc áp dụng các phương pháp dựa trên MD. Một số giải pháp đã được đề xuất để giải quyết những hạn chế này như sử dụng nhiệt độ rất cao hoặc bắt đầu từ các vị trí phối tử khác nhau đã được đưa ra [55].

Các phương pháp tối thiểu hoá năng lượng bao gồm tìm kiếm trực tiếp (Direct searches method), phương pháp đồ thị (Gradient methods), phương pháp đồ thị liên hợp (Conjugate-gradient methods), phương pháp đạo hàm bậc hai (Second derivative methods) và phương pháp bình phương tối thiểu (Least squares methods) và hiếm khi được sử dụng như một kỹ thuật tìm kiếm độc lập trong docking vì chỉ có thể đạt được cực tiểu cục bộ. Tuy nhiên, một số thuật toán docking khác được mô tả ở trên thường sử dụng các phương pháp cực tiểu hóa năng lượng như là một thuật toán bổ sung.

1.2.1.2. Phương pháp docking với protein linh động

Các phương pháp docking phối tử linh hoạt thường cho kết quả tốt cho khoảng một nửa số hệ được áp dụng [56], [57]. Những hệ này bao gồm các hệ sinh học mà thụ thể protein tương đối cứng và cấu trúc tinh thể của thụ thể là đại diện cho cấu trúc protein trong một phức với độ linh hoạt rất thấp. Tuy nhiên, nhiều protein thể hiện chuyển động đáng kể khi liên kết phối tử, và thậm chí các chuyển động nhỏ như sự sắp xếp lại chuỗi bên ở một vị trí không gian xác định và chuyển động nhỏ của các vòng gây ra ảnh hưởng xấu đến kết quả docking. Sự phát triển của các phương pháp tính toán có thể giải thích chính xác tính linh hoạt của protein vẫn còn ở giai đoạn sơ khai, một số phương pháp có thể mô tả ít nhất một phần tính linh hoạt của thụ thể protein đã được đưa ra. Chúng bao gồm một số phương pháp MD và MC [58], [48], [59], thư viện

rotamer [60], [61], lưới đồng bộ protein [62], và mô hình hóa thụ thể mềm [62], [57].

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu hoạt tính sinh học của một số hợp chất trong cây trinh nữ hoàng cung việt nam (crinum latifolium l ) với miền tyrosine kinase của thụ thể HER2 bằng phương pháp in silico (Trang 27 - 34)

Tải bản đầy đủ (PDF)

(116 trang)