nguồn gốc tự nhiên
Nghiên cứu phát triển (NCPT) thuốc mới là một quá trình gồm nhiều giai đoạn, từ lựa chọn mục tiêu phân tử của thuốc đến khi thuốc được phê duyệt và đưa ra thị trường (hình 3.5). Quá trình này thường kéo dài 10-12 năm, chi phí có thể lên đến hàng tỷ đô la Mỹ và tỷ lệ thất bại rất lớn [7].
Hình 3.5. Các giai đoạn chính của quá trình nghiên cứu phát triển thuốc mới [6]
Nhìn chung, quá trình NCPT thuốc mới hiện nay bao gồm các bước chủ yếu sau đây [7]:
44
- Lựa chọn phương pháp thử sinh học và tìm kiếm chất dẫn đường (lead compound). - Phân lập và xác định cấu trúc chất dẫn đường, nghiên cứu mối liên quan cấu trúc-tác
dụng sinh học của chất dẫn đường, xác định phần cấu trúc mang dược tính và tối ưu hóa cấu trúc.
- Nghiên cứu dược động học và thử tiền lâm sàng.
- Nghiên cứu phương pháp tổng hợp ở quy mô công nghiệp và dạng bào chế, thử lâm sàng.
- Đăng ký, sản xuất và lưu hành.
- Đăng ký bảo hộ bản quyền phát minh sáng chế.
Hiện nay, việc ứng dụng các thành tựu công nghệ của CMCN lần thứ tư đã giúp tiết kiệm đáng kể thời gian và chi phí của quá trình NCPT thuốc mới nói chung và NCPT thuốc có nguồn gốc tự nhiên nói riêng. Trong đó, 2 thành tựu công nghệ được áp dụng nhiều nhất phải kể đến là AI và dữ liệu lớn. Một số công cụ AI và dữ liệu lớn thường ứng dụng trong lĩnh vực NCPT thuốc mới được trình bày ở Phụ lục 1 và Phụ lục 2.
Cùng với sự bùng nổ của dữ liệu, các ứng dụng của AI dựa vào học máy đã trở thành một trong những nền tảng của CMCN 4.0. Sau đây là ứng dụng của AI và dữ liệu lớn trong một số giai đoạn cụ thể của quá trình NCPT thuốc mới nói chung cũng như NCPT thuốc mới có nguồn gốc tự nhiên nói riêng.
3.6.1. Xác định mục tiêu phân tử
Mục tiêu phân tử là những phân tử hoặc quá trình sinh học trong cơ thể có vai trò quyết định cơ chế bệnh sinh của một bệnh cụ thể. Mục tiêu phân tử có thể là protein, nucleotid, kênh ion, receptor, enzym... Việc xác định mục tiêu phân tử rất quan trọng trong NCPT thuốc mới. Điều này giúp lựa chọn được chất chủ vận hay chất đối kháng của thụ thể, chất ức chế hay hoạt hóa các enzym để can thiệp vào cơ chế bệnh sinh, đồng thời cũng giúp tìm hiểu cơ chế gây ra các tác dụng không mong muốn. Mục tiêu phân tử phải có tính chọn lọc và đặc hiệu giữa các loài sinh vật cũng như trong cơ thể con người [7].
3.6.1.1. Dự đoán cấu trúc của protein mục tiêu
Trong việc phát triển một phân tử thuốc, điều cần thiết là phải xác định đúng protein mục tiêu. Nhiều loại protein liên quan đến sự phát triển của một bệnh. Do đó, để nhắm đúng mục tiêu chọn lọc bệnh, dự đoán cấu trúc của protein đích rất quan trọng để thiết
45
kế phân tử thuốc. AI có thể hỗ trợ thiết kế thuốc dựa trên dự đoán cấu trúc 3D nên có thể dự đoán được tác dụng của một hợp chất lên đích tác dụng. Công cụ AlphaFold [101], dựa trên thuật toán Deep neural network - DNN được sử dụng để phân tích khoảng cách giữa các axit amin liền kề và góc tương ứng của các liên kết peptit để dự đoán cấu trúc 3D của protein đích và đã cho kết quả xuất sắc khi dự đoán đúng 25 trong số 43 cấu trúc [64], từ đó có thể xây dựng được mô hình cấu trúc của các protein đích.
Dữ liệu lớn kết hợp với AI sàng lọc ảo giúp tìm ra thuốc mới dựa vào mô hình cấu trúc của phân tử thuốc và đích tác dụng. Siêu họ thụ thể bắt cặp với protein G (G protein coupled receptor- GPCR) là nhóm thụ thể màng đa dạng và lớn nhất ở các sinh vật nhân thực. Con người có khoảng gần 1000 GPCR khác nhau và mỗi GPCR đặc trưng cho một tín hiệu cụ thể [103]. Chúng có mặt khắp nơi trong cơ thể chúng ta, tham gia vào việc điều chỉnh sinh lý của mọi động vật có vú và là nguyên nhân gây ra một số rối loạn như dị ứng, rối loạn chức năng tim mạch, béo phì, ung thư, đái tháo đường và nhiều bệnh rối loạn thần kinh trung ương [46]. Việc liên kết phân tử thuốc với GPCR dẫn đến việc kích hoạt protein G, từ đó kích hoạt sản sinh ra các chất dẫn truyền thứ cấp. Qua đó, GPCR giúp điều chỉnh một loạt các chức năng cơ thể từ cảm giác đến tăng trưởng hoặc phản ứng của các hormone trong cơ thể. Trên thực tế, các nhà nghiên cứu ước tính rằng từ một phần ba đến một nửa tổng số các loại thuốc được bán trên thị trường hoạt động bằng cách liên kết với GPCR [103]. Nhờ đó phương pháp in silico giúp sàng lọc các GPCR được sử dụng để cung cấp các thông tin khác nhau về cấu trúc không gian của đích tác dụng và của các phân tử nhỏ đang nghiên cứu [46]. In silico là một trong những cách tiếp cận nhanh và mới nhất trong quá trình nghiên cứu phát triển thuốc trên máy tính hoặc nhờ sự mô phỏng của máy tính để dự đoán tác dụng hoặc các tính chất hóa lý của phân tử như tính hòa tan, liên kết hydro, tính thấm,…[107]. Một số dữ liệu lớn như ZINC và Supertarget có thể cung cấp dữ liệu về mô hình 2D và 3D của các phân tử và cấu trúc không gian của các đích tác dụng. Dựa vào ái lực liên kết, hình dạng 3D,... có thể xem xét các phân tử có liên kết được với mục tiêu không. Qua đó các đích tác dụng chính của phân tử thuốc được dự đoán. Công cụ AI TargetHunter (https://www.cbligand.org/TargetHunter) triển khai một thuật toán để dự đoán các đích tác dụng của phân tử, độ chính xác lên tới 91,1% và các phân tử được lấy từ cơ sở dữ liệu (big data) ChEMBL [79].
46
Tương tác thuốc-protein thể hiện tác dụng của thuốc và hiệu quả của một liệu pháp điều trị, do đó có vai trò quan trọng đối với sự thành công của liệu pháp. Các công cụ AI khác nhau đã được ứng dụng trong việc dự đoán tương tác giữa phối tử-protein. Wang và cộng sự đã báo cáo một mô hình sử dụng thuật toán vector hỗ trợ Support vector machine - SVM được đào tạo về 15.000 tương tác protein-phối tử, được phát triển dựa trên trình tự protein chính và đặc tính cấu trúc của các phân tử nhỏ để tìm ra 9 hợp chất và các tương tác của chúng với 4 đích quan trọng [77]. Tương tác thuốc-protein cũng có thể dự đoán khả năng polypharmacology, tức là một phân tử thuốc có thể tương tác với nhiều thụ thể tạo ra các tác dụng không mong muốn. Phương pháp này có thể giúp dự đoán các tác dụng không mong muốn hoặc các chỉ định mới của một thuốc đã biết.
3.6.2. Tìm kiếm và sàng lọc chất dẫn đường có nguồn gốc tự nhiên
Chất dẫn đường là chất mang dược tính mong muốn nhưng thường có tác dụng còn yếu hoặc còn nhiều nhược điểm như tác dụng phụ, kém bền, tính chất dược động học chưa phù hợp. Tuy nhiên, chất dẫn đường được sử dụng làm khuôn mẫu cho thiết kế những dẫn chất mới nhằm tăng hoạt tính sinh học và khắc phục các nhược điểm của nó [7].
Tính phức tạp độc đáo và sự đa dạng về cấu trúc là những ưu điểm giúp các hợp chất tự nhiên trở thành những ứng viên tiềm năng có khả năng tương tác với hệ thống mục tiêu phân tử đa dạng và phức tạp để trở thành các chất dẫn đường triển vọng.
Để ra đời một thuốc mới cần tiến hành đánh giá hoạt tính của khoảng 103-107 hợp chất ban đầu và tìm ra khoảng 10-100 chất dẫn đường, từ đó tối ưu hóa cấu trúc rồi thử nghiệm tiền lâm sàng và lâm sàng. Quá trình này đòi hỏi tốn kém rất nhiều thời gian, công sức và chi phí.
Hiện nay, các thuật toán của AI kết hợp với dữ liệu lớn được ứng dụng rất hiệu quả để giải quyết khó khăn nêu trên. Các thuật toán của AI như K-nearest neighbor (KNN), random forest (RF), support vector machine (SVM) có thể ứng dụng giúp dự đoán nhanh và chính xác hoạt tính và độc tính của các hợp chất [17], [29]. Một số công ty dược phẩm như Bayer, Roche và Pfizer đã hợp tác với các công ty công nghệ thông tin để phát triển một nền tảng ứng dụng AI trong nghiên cứu các liệu pháp trong lĩnh vực ung thư và tim mạch [64].
47
Trong quá trình sàng lọc chất dẫn đường có nguồn gốc tự nhiên, các công cụ AI và dữ liệu lớn có thể được ứng dụng trong một số lĩnh vực nghiên cứu cụ thể như sau:
3.6.2.1. Sàng lọc ảo (Virtual Screening-VS)
Sàng lọc ảo là một phương pháp hiệu quả với sự hỗ trợ của máy tính để xác định các phân tử có hoạt tính thông qua việc gắn được vào các protein đích. Phương pháp này giúp loại bỏ một số lượng rất lớn các hợp chất có cấu trúc không phù hợp ở giai đoạn đầu của quá trình nghiên cứu, do đó tiết kiệm đáng kể thời gian và chi phí đầu tư cho những thử nghiệm tiếp theo. VS cũng là một phương pháp hiệu quả để tìm ra các chất dẫn đường mới. Hai phương pháp chính thường được sử dụng là sàng lọc ảo dựa vào phối tử và sàng lọc ảo dựa vào cấu trúc. Phương pháp sàng lọc ảo dựa vào phối tử (ligand-based virtual screening-LBVS) không sử dụng cấu trúc 3D của protein nên thường được sử dụng cho việc dự đoán các phối tử hoạt động khi mà chưa có đầy đủ thông tin về cấu trúc của đích. Các kỹ thuật học máy truyền thống như Support Vector Machine (SVM), Random Forest (RF), Deep Learning (DL), K-Nearest Neighbors (KNN), Boosting được sử dụng rộng rãi và hiệu quả trong sàng lọc ảo dựa vào phối tử (LBVS) để tìm kiếm các chất dẫn đường. Xiao cùng cộng sự đã xây dựng một mô hình mạng neuron sâu (Deep neural network-DNN) kết hợp dữ liệu lớn để sàng lọc chất dẫn đường từ các thư viện hợp chất khổng lồ.
Sàng lọc ảo dựa trên cấu trúc (Structure-based virtual screening-SBVS) thường được sử dụng khi cấu trúc 3D của đích đã được xác định bằng thực nghiệm hoặc các mô hình máy tính. Phương pháp này giúp tìm ra tương tác giữa các phối tử hoạt động và vị trí liên kết. Sàng lọc ảo dựa trên cấu trúc cho kết quả tốt hơn phương pháp sàng lọc ảo dựa vào phối tử (LBVS). Với sự gia tăng dữ liệu cấu trúc và liên kết protein-phối tử, các tương tác có thể được mô tả bằng công nghệ AI. Một loạt các bộ phận loại ái lực liên kết protein-phối tử cũng đã được xây dựng. Điều này giúp phương pháp sàng lọc ảo dựa trên cấu trúc (SBVS) ngày càng phát triển hơn nữa [78].
Trong một nghiên cứu năm 2018, Xiaocong Pang và cộng sự đã tích hợp các AI dựa vào cấu trúc và dựa vào phối tử để xác định chất đối kháng thụ thể Estrogen α (Estrogen Receptor α – ERα) từ thư viện các hợp chất tự nhiên. Kết quả cho thấy, 162 hợp chất đã được dự đoán là chất đối kháng thụ thể ERα. Các hợp chất này tiếp tục được đánh giá bằng phương pháp mô phỏng tương tác phân tử (molecular docking), từ đó lựa chọn
48
được 12 hợp chất để tiến hành đánh giá trên thực nghiệm. Kết quả thực nghiệm cho thấy 8 hợp chất có hoạt tính đối kháng ERα, bao gồm: genistein, daidzein, phloretin, acid ellagic, acid ursolic, EGCG, kaempferol và naringenin [63]. Sàng lọc ảo giúp nâng cao hiệu quả và giảm thiểu thời gian và chi phí cho quá trình sàng lọc các chất dẫn đường để NCPT thuốc mới, góp phần tạo ra các loại thuốc mới an toàn, hiệu quả một cách nhanh chóng.
3.6.2.2. Nghiên cứu liên quan định lượng cấu trúc - tác dụng (Quantitative structure - activity relationship - QSAR) của các hợp chất tự nhiên
Việc tối ưu hóa tác dụng, cải thiện đặc tính dược động học, giảm thiểu tối đa độc tính là những tiêu chí quan trọng trong quá trình tìm kiếm chất dẫn đường. Cấu trúc hóa học quyết định hoạt tính sinh học của hợp chất. Mối liên quan định lượng cấu trúc - tác dụng (quantitative structure-activity relationship - QSAR) thông qua các mô hình toán học biểu thị mối quan hệ định lượng giữa cấu trúc hóa học và hoạt tính sinh học của các hợp chất, từ đó có thể dự đoán tác dụng của một hợp chất dựa trên các đặc điểm cấu trúc. Các mô mình QSAR cho phép sàng lọc từ thư viện khổng lồ các hợp chất (dữ liệu lớn), tìm kiếm ra những hợp chất tiềm năng nhất bằng cách dự đoán tác dụng sinh học, độc tính và đặc tính dược động học của chúng. Bên cạnh đó, QSAR còn được sử dụng để tính toán giả định sự thay đổi hoạt tính của hợp chất khi thay đổi cấu trúc phân tử, từ đó thiết kế ra các hợp chất có đặc tính mong muốn [2]. Việc ứng dụng AI, học máy và dữ liệu lớn trong việc xây dựng các mô hình QSAR là một giải pháp giúp tiết kiệm đáng kể thời gian và chi phí cho quá trình tìm kiếm và sàng lọc chất dẫn đường để NCPT thuốc mới.
Hiện nay, ngoài các phương pháp truyền thống, mô hình QSAR có thể được xây dựng bằng các thuật toán của AI dựa trên học máy như K-Nearest Neighbors (KNN), Deep Learning (DL), Cubist và Support Vector Machine (SVM) [91].
3.6.2.3. Dự đoán hoạt tính sinh học của hợp chất thông qua ái lực liên kết thuốc - đích (Drug target binding affinity - DTBA)
Hiệu lực tác dụng của các hợp chất phụ thuộc vào ái lực liên kết của chúng với các thụ thể protein đích. Trong một số trường hợp, tương tác giữa các phân tử thuốc và các thụ thể protein ngoài ý muốn sẽ dẫn đến độc tính. Do đó, ái lực liên kết thuốc-đích (Drug target binding affinity- DTBA) là yếu tố rất quan trọng để dự đoán các tương tác của thuốc trong cơ thể. Các phương pháp AI có thể đo lường ái lực liên kết của một thuốc
49
bằng cách xem xét các tính năng hoặc điểm tương đồng của thuốc và đích tác dụng của nó. Các kỹ thuật học máy (ML) như KronRLS đánh giá sự giống nhau giữa các loại thuốc và phân tử protein để xác định DTBA. Tương tự, SimBoost đã sử dụng cây hồi quy để dự đoán DTBA và xem xét sự tương tác dựa trên sự tương đồng. DeepDTA, PADME, WideDTA và DeepAffinity là một số kỹ thuật học sâu (DL) dùng để đánh giá DTBA. Những kỹ thuật này dựa vào mạng lưới (network-based methods), không phụ thuộc vào sự sẵn có của các cấu trúc 3D của protein. Do đó, các kỹ thuật tiếp cận học sâu (DL) cho thấy hiệu suất dự đoán được cải thiện hơn so với các kỹ thuật học máy (ML) [64].
Cơ sở dữ liệu về các hợp chất tự nhiên kết hợp công nghệ sàng lọc của AI có thể giúp xác định các chất ức chế gen BRaf V600E, từ đó tìm ra các hợp chất có hoạt tính chống ung thư. Có ba dạng đồng dạng trong họ Raf, bao gồm A-Raf, B-Raf và C-Raf. Trong đó, B-Raf đã được chứng minh là có hoạt tính kinase cơ bản cao hơn nhiều so với hai dạng còn lại [81]. Gen B-Raf mã hóa cho serin-threonin kinase đóng vai trò quan trọng trong sự phát triển và biệt hóa tế bào. Kích hoạt các yếu tố đột biến bên trong gen B-Raf giúp tăng khả năng sinh ung thư và gây ra nhiều khối u ác tính. Đột biến phổ biến nhất trong gen B-Raf dẫn đến sự thay thế axit glutamic thành valin và được kí hiệu là V600E. Đột biến V600E chiếm 90% đột biến B-Raf và có tỷ lệ phổ biến cao trong khối u ác tính di căn, ung thư tuyến giáp, ung thư đại trực tràng và ung thư buồng trứng [81], [83]. Việc xác định sớm đột biến V600E cho phép xác định mục tiêu điều trị, cải thiện tình trạng và ngăn cản sự tiến triển của khối u. Trong các nghiên cứu hiện đại, sàng lọc ảo được thực hiện để tìm ra các chất ức chế Raf V600E kinase. Hơn nữa, các nhà nghiên