Phương pháp ngẫu nhiên hoặc thống kê ngẫu nhiên

Một phần của tài liệu Nghiên cứu hoạt tính sinh học của một số alkaloid và flavonoid trong cây dừa cạn (catharanthus roseus (l ) g don) với các protein họ egfr bằng phương pháp in silico (Trang 30 - 33)

6. Ý nghĩa khoa học và thực tiễn của đề tài

1.2.1.2. Phương pháp ngẫu nhiên hoặc thống kê ngẫu nhiên

Các phương pháp tìm kiếm ngẫu nhiên [27] giải quyết vấn đề linh động của phối tử bằng cách lặp đi lặp lại sự thay đổi cấu dạng của phối tử một cách ngẫu nhiên trong không gian của protein cho đến khi đạt được tiêu chí do người dùng xác định trước. Các phương pháp tìm kiếm ngẫu nhiên có thể được phân loại dựa trên không gian tìm kiếm của chúng: tìm kiếm cục bộ (Local Search - LS) hoặc tìm kiếm toàn phần (Global Search - GS). Các phương pháp LS có xu hướng tìm kiếm năng lượng cực tiểu gần với cấu dạng của phối tử trong không gian hoạt động của thụ thể được đưa vào ban đầu, trong khi đó các phương pháp GS tìm kiếm cấu dạng có năng lượng tối thiểu nhất trong toàn phần không gian hoặc trong một không gian nhất định được xác định trước. Bên cạnh đó, các phương pháp kết hợp giữa tìm kiếm cục bộ và toàn phần (Hybrid Local - Global Search) cho thấy hiệu quả trong docking phân tử hơn các phương pháp toàn phần [28].

Hai phương pháp tìm kiếm toàn phần thường được sử dụng trong các phần mềm docking phân tử hiện hành là phương pháp Monte Carlo (MC) và phương pháp thuật toán di truyền (Genetic Algorithm - GA). Phương pháp kết

hợp giữa tìm kiếm cục bộ và toàn phần thường được sử dụng là thuật toán di truyền Lamarckian (Lamarckian Genetic Algorithm - LGA).

Phương pháp Monte Carlo (MC): Trong phương pháp Monte Carlo, tiêu

chí để một cấu dạng của phối tử trong không gian hoạt động của thụ thể được chấp nhận dựa trên hàm xác suất Boltzmann. Các phương pháp MC có một lợi thế đáng kể so với các phương pháp động lực học phân tử (Molecular Dynamic - MD), vì chúng sử dụng hàm năng lượng đơn giản hơn, không yêu cầu thông tin về bản chất hóa học của phối tử [29]. Ngoài ra, các phương pháp MC hiệu quả hơn trong việc vượt qua các rào cản năng lượng, do đó cho phép thực hiện các tìm kiếm đầy đủ hơn về không gian hình dạng.

Phương pháp thuật toán di truyền [30]: Các thuật toán di truyền áp dụng

các ý tưởng xuất phát từ di truyền học và lý thuyết về tiến hóa sinh học. Các biến trạng thái phối tử (cấu dạng của phối tử) được định nghĩa là kiểu gen, trong khi tọa độ nguyên tử đề cập đến giống như kiểu hình. Các toán tử di truyền (đột biến - mutations, trao đổi chéo - crossovers và di cư - migrations) được áp dụng cho hệ các cấu dạng để lấy mẫu không gian hình dạng cho đến khi đạt được một cấu dạng cuối cùng tối ưu nhất dựa trên các điều kiện được xác định trước. Trong docking phân tử, sự phù hợp được đánh giá thông qua tổng năng lượng tương tác của phối tử với protein bằng cách sử dụng hàm năng lượng. Các cấu dạng của phối tử kết hợp ngẫu nhiên bằng cách sử dụng quá trình trao đổi chéo, từ đó tạo ra cấu dạng mới mang những đặc điểm kế thừa từ các cấu dạng trước. Ngoài ra, một số cấu dạng trải qua đột biến ngẫu nhiên, tức là sự thay đổi ngẫu nhiên tại một vài vị trí liên kết. Sự chọn lọc hệ các cấu dạng tối ưu dựa trên đánh giá sự phù hợp với thụ thể.

Một loạt các phương pháp đã được áp dụng để cải thiện hiệu quả của thuật toán di truyền. Các thuật toán di truyền cổ điển đại diện cho bộ gen như

một chuỗi bit có độ dài cố định, sử dụng trao đổi chéo và đột biến nhị phân để tạo ra các cấu dạng mới. Tuy nhiên, trong nhiều trường hợp, các toán tử nhị phân như vậy có thể tạo ra các giá trị nằm ngoài miền được quan tâm, dẫn đến sự thiếu hiệu quả trong tìm kiếm. Việc sử dụng mã hóa thực sự gây ra nhiều hạn chế khi thực hiện thuật toán di truyền. Các thuật toán di truyền thay thế đã công bố, các thuật toán này sử dụng các biểu diễn và toán tử phức tạp hơn bên cạnh sự trao đổi chéo và đột biến. Một số trong số này giữ lại biểu diễn nhị phân, nhưng phải sử dụng các bộ giải mã kết hợp thuật toán sửa chữa để tránh xây dựng các cấu dạng không phù hợp và chúng thường được tính toán sâu hơn. Bên cạnh đó, hiệu suất tìm kiếm của thuật toán di truyền có thể được cải thiện bằng cách kết hợp với một phương pháp tìm kiếm cục bộ.

Phương pháp lai cục bộ - toàn phần: thuật toán di truyền Lamarckian

[28]. Phần lớn các thuật toán di truyền dựa trên các đặc điểm chính của tiến hóa Darwin và áp dụng di truyền học Mendel, theo bản đồ tiến hóa kiểu gen biểu hiện ra kiểu hình của cá thể. Tuy nhiên, nếu tồn tại trường hợp ngược lại, một kiểu gen được tạo ra do một kiểu hình nhất định thì các cấu dạng có thể được thay thế bằng kết quả tìm kiếm cục bộ. Đây được gọi là thuật toán di truyền Lamarckian (LGA), được đặt theo tên của Jean Batiste de Lamarck, người đã khẳng định rằng các đặc điểm kiểu hình có được trong suốt cuộc đời cá thể có thể trở thành đặc điểm di truyền [31].

Điều quan trọng nhất trong phương pháp kết hợp kĩ thuật tìm kiếm cục bộ với thuật toán di truyền xoay quanh bản đồ tiến hóa là sự biến đổi kiểu gen thành các kiểu hình [32]. Không gian kiểu gen được mô tả theo các toán tử di truyền – đột biến và trao đổi chéo – theo đó cha mẹ của một thế hệ bị nhiễu loạn để tạo thành các thế hệ con. Không gian kiểu hình được xác định trực tiếp bởi các hàm năng lượng được tối ưu hóa. Toán tử tìm kiếm cục bộ là một phần mở rộng hữu ích cho tối ưu hóa thuật toán ngẫu nhiên khi các đặc tính của hàm

phù hợp của tìm kiếm cục bộ (tính liên tục, tính tương quan, …) được khai thác nhằm bổ sung cho thuật toán di truyền. Trong tối ưu hóa kết hợp tìm kiếm cục bộ và thuật toán di truyền, kết quả của tìm kếm cục bộ luôn được sử dụng để tối ưu sự phù hợp liên quan đến một cấu dạng được thuật toán di truyền chọn, đến khi chọn được cấu dạng được chọn tối ưu nhất thì thuật toán sẽ chuyển đổi kết quả kiểu hình của tìm kiếm cục bộ trở lại thành kiểu gen tương ứng.

Sự phù hợp và năng lượng được tính toán từ tọa độ của phối tử, tất cả tạo nên kiểu hình của nó. Kiểu gen của phối tử và các đột biến, toán tử trao đổi chéo đã được mô tả bằng cấu dạng của phối tử. Bản đồ tiến hóa có thể hiểu đơn giản là sự chuyển một biến trạng thái của một phân tử thành tọa độ nguyên tử tương ứng. Điểm mới lạ trong ứng dụng tối ưu hóa kết hợp tìm kiếm cục bộ và toàn phần là toán tử tìm kiếm cục bộ Solis và Wet, nó cho phép tìm kiếm thông qua cấu dạng hơn là tọa độ. Do đó, không cần làm bước chuyển nghịch đảo bản đồ tiến hóa. Mặc dù vậy, thuật toán di truyền này vẫn tương tự như Lamarckian, bởi vì bất kỳ đặc điểm thích nghi với môi trường của cấu dạng thu được trong quá trình tìm kiếm cục bộ sẽ được thừa hưởng bởi thế hệ sau của nó.

Trong thuật toán di truyền Lamarckian, đột biến kiểu gen đóng một vai trò hơi khác so với thuật toán di truyền truyền thống. Theo lý thuyết cổ điển, đột biến đóng vai trò giống như một toán tử tìm kiếm cục bộ, cho phép các bước tìm kiếm nhỏ, tuy nhiên việc tìm kiếm chỉ bằng sự kết hợp và chọn lọc không đem lại hiệu quả.

Một phần của tài liệu Nghiên cứu hoạt tính sinh học của một số alkaloid và flavonoid trong cây dừa cạn (catharanthus roseus (l ) g don) với các protein họ egfr bằng phương pháp in silico (Trang 30 - 33)

Tải bản đầy đủ (PDF)

(116 trang)