1. Trang chủ
  2. » Luận Văn - Báo Cáo

nguyễn đăng duy ứng dụng phương pháp học máy và xử lý ngôn ngữ tự nhiên trong sàng lọc các hợp chất ức chế beta secreatase

109 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng phương pháp học máy và xử lý ngôn ngữ tự nhiên trong sàng lọc các hợp chất ức chế Beta-secretase
Tác giả Nguyễn Đăng Duy
Người hướng dẫn PGS. TS. Nguyễn Thu Hằng, Th.S. Nguyễn Văn Phương
Trường học Trường Đại học Dược Hà Nội
Chuyên ngành Hóa Dược
Thể loại Khóa luận tốt nghiệp Cử nhân
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 109
Dung lượng 5,25 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (13)
    • 1.1. TỔNG QUAN VỀ BỆNH ALZHEIMER (13)
    • 1.2. TỔNG QUAN VỀ GIẢ THUYẾT AMYLOID (14)
    • 1.3. MỘT SỐ CHẤT ỨC CHẾ BACE1 ĐÃ ĐƯỢC NGHIÊN CỨU (15)
    • 1.4. TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG CẤU TRÚC - TÁC DỤNG CỦA CÁC HỢP CHẤT (QUANTITATIVE STRUCTURE - (17)
      • 1.4.1. Khái niệm và nguyên lý chung của mô hình QSAR (17)
      • 1.4.2. Tổng quan về xử lý ngôn ngữ tự nhiên và phương pháp Mol2vec (17)
      • 1.4.3. Xây dựng mô hình QSAR và đánh giá mô hình (18)
    • 1.5. TỔNG QUAN VỀ KỸ THUẬT DOCKING PHÂN TỬ (21)
    • 1.6. TỔNG QUAN VỀ SWISSADME - CÔNG CỤ ĐÁNH GIÁ DƯỢC ĐỘNG HỌC (22)
  • CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, PHƯƠNG PHÁP NGHIÊN CỨU (24)
    • 2.1. NGUYÊN LIỆU, THIẾT BỊ, PHẦN MỀM NGHIÊN CỨU (24)
      • 2.1.1. Cơ sở dữ liệu (24)
      • 2.1.2. Thiết bị, phần mềm nghiên cứu (24)
    • 2.2. NỘI DUNG NGHIÊN CỨU (24)
    • 2.3. PHƯƠNG PHÁP NGHIÊN CỨU (24)
      • 2.3.1. Phương pháp xây dựng mô hình QSAR (25)
      • 2.3.3. Phương pháp xác định miền cấu trúc ứng dụng của mô hình (26)
      • 2.3.4. Kỹ thuật docking phân tử (27)
      • 2.3.5. Phương pháp khảo sát đặc điểm dược động học (28)
  • CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN (30)
    • 3.1. KẾT QUẢ TÍNH TOÁN TSPT VÀ XỬ LÝ SỐ LIỆU (30)
    • 3.2. KẾT QUẢ XÂY DỰNG MÔ HÌNH QSAR (30)
      • 3.2.1. Mô hình M1 - Phương pháp hồi quy rừng ngẫu nhiên (Random (30)
      • 3.2.2. Mô hình M2 - Phương pháp hồi quy vectơ hỗ trợ (Support Vector (31)
      • 3.2.3. Mô hình M3 - Phương pháp hồi quy tuyến tính (Linear (32)
      • 3.2.4. Mô hình M4 - Phương pháp hồi quy Lasso (Lasso Regression) (33)
      • 3.2.5. Mô hình M5 - Phương pháp hồi quy Ridge (Ridge Regression) (34)
      • 3.2.6. Mô hình M6 - Phương pháp hồi quy XGBoost (XGBoost Regression) (35)
      • 3.2.7. Mô hình M7 - Phương pháp mạng nơ-ron nhân tạo (Artificial (36)
      • 3.2.8. Lựa chọn mô hình (37)
    • 3.3. KẾT QUẢ ỨNG DỤNG MÔ HÌNH QSAR VÀO SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG ỨC CHẾ BACE1 (38)
    • 3.4. KẾT QUẢ DOCKING PHÂN TỬ (39)
    • 3.5. KẾT QUẢ KHẢO SÁT ĐẶC ĐIỂM DƯỢC ĐỘNG HỌC (41)
    • 3.6. BÀN LUẬN (45)
      • 3.6.1. Về vai trò của trí tuệ nhân tạo - học máy trong nghiên cứu phát triển thuốc mới và tính mới của nghiên cứu (45)
      • 3.6.2. Về xây dựng mô hình QSAR và ứng dụng trong sàng lọc ảo (46)
      • 3.6.3. Về kỹ thuật docking phân tử (48)
      • 3.6.4. Về kết quả sàng lọc ảo (48)
  • PHỤ LỤC (57)

Nội dung

2 xử lí dữ liệu, góp phần không nhỏ trong việc hỗ trợ thiết kế phân tử thuốc mới, giải thích bản chất phân tử của các tương tác thuốc - đích và cho phép dự đoán hoạt tính sinh học của hợ

TỔNG QUAN

TỔNG QUAN VỀ BỆNH ALZHEIMER

Alzheimer là bệnh phổ biến gây ra bởi chứng sa sút trí tuệ và sự thoái hóa thần kinh Những người mắc bệnh Alzheimer sẽ suy giảm trí nhớ và khả năng tập trung

Sự định hướng trong không gian và thời gian trở nên ngày càng khó khăn, khiến cho người bệnh trở nên khó có thể điều khiển và kiểm soát được bản thân họ trong cuộc sống hàng ngày [4] Lão hóa là nguyên nhân chính gây ra bệnh, tỷ lệ mắc bệnh tăng gấp đôi sau mỗi 5 năm sau độ tuổi 65 Khoảng 40 triệu người trên 60 tuổi trên toàn thế giới bị mắc Alzheimer và số lượng bệnh nhân đang không ngừng gia tăng, dự báo sẽ tăng gấp đôi sau mỗi 20 năm [24]

Nguyên nhân gây ra Alzheimer hiện nay vẫn chưa rõ ràng Có rất nhiều các giả thuyết khác nhau về cơ chế bệnh sinh của Alzheimer, có thể kể tới như giả thuyết Amyloid, giả thuyết chất dẫn truyền thần kinh, giả thuyết lan truyền Tau, giả thuyết dòng ty thể và các giả thuyết liên quan, giả thuyết mạch máu thần kinh,…[24] Phần lớn giả thuyết cho rằng sự thiếu hụt chất dẫn truyền thần kinh acetylcholin và sự hình thành các mảng Amyloid ngoại bào và các đám rối sợi thần kinh nội bào là nguyên nhân chính gây ra Alzheimer, kèm theo các tình trạng viêm thần kinh xảy ra trong não bộ [24] Cho tới 2019, trên tổng số 2173 thử nghiệm lâm sàng, giả thuyết Amyloid được nghiên cứu nhiều nhất (22,3% thử nghiệm), giả thuyết về chất dẫn truyền thần kinh nhiều thứ hai với 19,0% số thử nghiệm, tỷ lệ thử nghiệm giả thuyết lan truyền Tau là 12,7%, 17,0% thử nghiệm liên quan tới giả thuyết dòng ty thể và các giả thuyết liên quan, 7,9% thử nghiệm nghiên cứu về giả thuyết mạch máu thần kinh, và một số giả thuyết khác (hình 1.1) [24]

Hình 1.1 Phân loại các thử nghiệm lâm sàng theo giả thuyết của bệnh Alzheimer

Giả thuyết chất dẫn truyền thần kinh

Giả thuyết lan truyền Tau

Giả thuyết dòng ty thể và các giả thuyết liên quan khác

Giả thuyết mạch máu thần kinh

Hiện nay, cơ chế bệnh sinh của bệnh Alzheimer vẫn chưa được làm sáng tỏ, song đã có một số nghiên cứu về các nhóm thuốc điều trị và hỗ trợ điều trị bệnh Alzheimer Tính tới 2019, trên thế giới hiện chỉ có năm thuốc hiện đang được FDA Hoa Kỳ chấp thuận để điều trị Alzheimer [45] Tuy nhiên, nhược điểm chung của các thuốc trên là chỉ hạn chế hoặc làm chậm tiến trình bệnh mà chưa giải quyết được nguyên nhân gây bệnh Ngoại trừ Memantine với mục tiêu phân tử là receptor N- methyl-D-aspartat (NMDA), đích tác dụng của các thuốc trên chủ yếu mục tiêu hướng đến là chất dẫn truyền thần kinh acetylcholin Hoạt chất của các thuốc chủ yếu là các chất ức chế enzym acetylcholinesterase, nhằm ngăn chặn sự suy giảm nồng độ acetylcholin [16]

Trước tình hình đó, việc nghiên cứu tìm kiếm các chất dẫn đường tác dụng trên những mục tiêu phân tử khác là vô cùng cần thiết trong nỗ lực nghiên cứu phát triển thuốc mới trong điều trị bệnh Alzheimer, đặc biệt là vào thời điểm nhiều quốc gia trên thế giới đang trong giai đoạn già hóa dân số, dẫn tới số lượng bệnh nhân Alzheimer ngày càng gia tăng.

TỔNG QUAN VỀ GIẢ THUYẾT AMYLOID

Giả thuyết Amyloid lần đầu tiên được đề xuất vào năm 1991 bởi John Hardy và David Allsop [33] Hai nhà khoa học đã tìm thấy một đột biến gây bệnh ở gen tiền protein Aβ (APP) trên nhiễm sắc thể 21, điều này cho thấy rằng sự chuyển hóa sai lệch trong chuyển hóa Amyloid Precursor Protein (APP) và sự lắng đọng β-Amyloid (Aβ) có thể là nguyên nhân chính gây ra bệnh Alzheimer [24]

Giả thuyết Amyloid cho rằng protein APP trong màng tế bào thần kinh đóng vai trò quan trọng trong sự phát triển và phục hồi tế bào APP được phân cắt theo hai con đường: con đường α, tạo ra các sản phẩm hòa tan và con đường β, tạo ra sản phẩm không hòa tan Aβ Trong điều kiện bình thường, con đường α chiếm ưu thế, ngăn chặn sự hình thành Aβ Tuy nhiên, một số đột biến có thể làm tăng thủy phân APP theo con đường β, dẫn đến tích tụ Aβ không hòa tan Những sản phẩm này kết dính với nhau, hình thành các mảng bám Aβ, xen vào giữa các tế bào thần kinh.

5 thần kinh, làm cản trở quá trình truyền tin và là nguyên nhân chính gây ra những rối loạn chức năng ghi nhớ một cách nghiêm trọng

Ngoài ra, các mảng bám Aβ còn gây ra những hậu quả như khởi động phản ứng miễn dịch trong cơ thể, gây ra tình trạng viêm não, dẫn đến tổn thương các tế bào thần kinh xung quanh, hay các mảng bám này sẽ bám vào thành mạch máu, gây nên bệnh lý mạch thần kinh amyloid: “amyloid angiopathy”, làm suy yếu các mạch máu, dẫn tới tăng nguy cơ xuất huyết, thậm chí gây đứt vỡ mạch máu

Các chiến lược điều trị Alzheimer hiện nay dựa trên giả thuyết Aβ chủ yếu được chia thành các loại sau: chất ức chế β- secretase và γ-secretase, được sử dụng để ức chế sản xuất Aβ, hay thuốc chống kết tập được sử dụng để ức chế sự kết tập Aβ; thuốc điều hòa hoạt động protease được sử dụng để loại bỏ Aβ; và một số liệu pháp miễn dịch khác [14].

MỘT SỐ CHẤT ỨC CHẾ BACE1 ĐÃ ĐƯỢC NGHIÊN CỨU

Nắm bắt được nguyên lý trên, một xu hướng nghiên cứu khác đã xuất hiện với đích tác dụng là ức chế BACE1 trong nỗ lực điều trị bệnh Alzheimer Verubecestat (MK-8931) và Lanabecestat (AZD3293) là hai trong số các chất ức chế BACE1 đã được nghiên cứu và thể hiện tác dụng làm giảm số lượng mảng bám amyloid trên động vật và trên thử nghiệm lâm sàng [8]

Verubecestat (MK-8931) là thuốc ức chế BACE1 phân tử nhỏ đầu tiên được sử dụng qua đường uống, có khả năng thâm nhập qua hàng rào máu não nhờ tính thẩm thấu cao và khả năng tan trong nước tốt ở độ pH trung tính Thử nghiệm trên động vật cho thấy, Verubecestat đã làm giảm đáng kể nồng độ Aβ40, Aβ42 và protein tiền chất amyloid tan được (sAPPβ) trong dịch não tủy và não [32], [22] Cấu trúc hóa học của Verubecestat và hình ảnh mô phỏng Verubecestat gắn vào trung tâm hoạt động của BACE1 được trình bày ở hình 1.2 và hình 1.3

Hình 1.2 Cấu trúc hóa học của Verubecestat (MK-8931) [22]

Hình 1.3 Hình ảnh mô phỏng Verubecestat gắn ở trung tâm hoạt động của BACE1 bằng kỹ thuật docking phân tử [22]

Lanabecestat (AZD3293) là một chất ức chế BACE1 phân tử nhỏ (hình 1.4), dùng qua đường uống do AstraZeneca phát triển, lần đầu tiên được thử nghiệm rộng rãi trên các tế bào thần kinh vỏ não nguyên phát, chuột, chuột lang và chó trước khi tiến hành thử nghiệm lâm sàng [8] Các thử nghiệm trên lâm sàng được thực hiện từ năm 2014 đã thể hiện được khả năng ức chế BACE1 trên người, đồng thời chứng minh tính an toàn, khả năng dung nạp và chuyển hóa của Lanabecestat ở những người tình nguyện lớn tuổi khỏe mạnh và ở những bệnh nhân Alzheimer đang bị suy giảm nhận thức nhẹ [3]

Hình 1.4 Cấu trúc hóa học của Lanabecestat (AZD3293) [34]

TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG CẤU TRÚC - TÁC DỤNG CỦA CÁC HỢP CHẤT (QUANTITATIVE STRUCTURE -

1.4.1 Khái niệm và nguyên lý chung của mô hình QSAR

QSAR (Quantitative Structure-Activity Relationship) là mô hình toán học biểu thị mối quan hệ định lượng giữa cấu trúc hóa học và hoạt tính của các hợp chất, được xây dựng thông qua việc sử dụng các phương pháp toán học và thống kê Mô hình QSAR cho phép dự đoán tác dụng của một hợp chất thông qua các đặc điểm về cấu trúc (được biểu diễn dưới dạng các tham số phân tử) và hoạt tính sinh học của các hợp chất đã được kiểm chứng bằng thực nghiệm [13]

Mô hình toán học QSAR có dạng:

Yi = Fi (X1, X2, , Xn) Trong đó, Yi là Y là biến đáp ứng sinh học hoặc hóa học thường thu được từ thực nghiệm và thể hiện bằng các giá trị như nồng độ ức chế 50% đối tượng đích (IC50), nồng độ 50% tác dụng (EC50) Fi là các thuật toán thể hiện trọng số của các tham số phân tử (molecular descriptors), được tính toán bằng phần mềm phân tích thống kê chuyên dụng [13] X1, X2, , Xn là các tham số phân tử (TSPT), được định nghĩa là các biểu diễn toán học dựa trên các đặc điểm hóa học đặc trưng của phân tử, được tạo ra bởi các thuật toán Các giá trị TSPT được sử dụng để mô tả định lượng thông tin vật lý và hóa học của các phân tử dựa trên thực nghiệm hoặc tính toán [2] Mỗi hợp chất có thể được biểu diễn bằng một điểm trong không gian đa chiều, trong đó X1, X2, ,Xn là các tọa độ độc lập của hợp chất [13]

Tất cả các phương pháp QSAR thực hiện trực tiếp hay gián tiếp, đều dựa trên một nguyên tắc chung: các hợp chất có cấu trúc tương tự dự kiến sẽ cho các hoạt tính sinh học tương tự nhau Cho đến nay, số lượng nghiên cứu về xây dựng mô hình QSAR được công bố đã tăng đột biến và các phương pháp xây dựng mô hình, ứng dụng của mô hình ngày càng đa dạng QSAR là một lĩnh vực rất có tiềm năng để mô hình hóa và thiết kế các hợp chất mới với các đặc tính mạnh mẽ bằng cách dự báo các tính chất hóa lý dựa trên các đặc điểm cấu trúc hóa học [29]

1.4.2 Tổng quan về xử lý ngôn ngữ tự nhiên và phương pháp Mol2vec

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực AI giúp máy tính có khả năng hiểu, tạo ra và tương tác với ngôn ngữ con người NLP phân tích dữ liệu dạng văn bản hoặc giọng nói tự nhiên Một phương pháp NLP phổ biến là Word2vec, giúp học các biểu diễn vectơ đa chiều của từ ngữ, trong đó vectơ của các từ có ý nghĩa tương tự sẽ gần nhau.

8 sẽ nằm gần nhau trong không gian vectơ [31] Năm 2018, S Jaeger và cộng sự đã giới thiệu Mol2vec, 1 phương pháp tiếp cận mới lấy cảm hứng từ NLP và Word2vec Mol2vec xem các đặc điểm của cấu trúc hợp chất như là các “từ” và các hợp chất như là “câu”.Qua đó, các biểu diễn nhúng đa chiều của các tiểu cấu trúc được tạo ra, trong đó các vectơ của các tiểu cấu trúc tương đồng về mặt hóa học sẽ chiếm cùng một phần của không gian vectơ Các hợp chất mới sẽ được biểu diễn và mô tả bằng các vectơ cấu trúc con được lấy từ mô hình Mol2vec được huấn luyện từ trước Các vectơ hợp chất có thể dễ dàng được mô tả bởi các vectơ tiểu cấu trúc bằng cách cộng chúng lại, qua đó có thể được sử dụng để tính toán sự tương đồng hợp chất hoặc làm các mô tả đặc trưng trong các tác vụ học máy có giám sát [31]

Mol2vec đang được ứng dụng rộng rãi trong nghiên cứu về đặc điểm cấu trúc hóa học, bao gồm xây dựng mô hình QSAR/QSPR và sàng lọc ảo Các nghiên cứu cho thấy mô hình được xây dựng bằng Mol2vec đạt kết quả tương đương hoặc thậm chí vượt trội so với mô hình truyền thống, chứng minh hiệu quả của phương pháp này trong lĩnh vực này.

1.4.3 Xây dựng mô hình QSAR và đánh giá mô hình

Bước 1: Chuẩn bị cơ sở dữ liệu

Chuẩn bị cơ sở dữ liệu (CSDL) là nền tảng cho mô hình QSAR Dữ liệu được tổng hợp từ các thư viện hợp chất uy tín như PubChem, ChEMBL, ZINC, DRUGBANK, STITCH, Sau đó, dữ liệu được xử lý và sàng lọc để đảm bảo độ tin cậy và chính xác Bước tiếp theo là chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (test set) theo một tỷ lệ phù hợp, nhằm đánh giá hiệu suất của mô hình QSAR.

Bước 2: Tính toán tham số phân tử

Tham số phân tử (TSPT) là các biểu diễn toán học về các tính chất của phân tử được tạo ra bởi các thuật toán Các giá trị TSPT được sử dụng để mô tả định lượng thông tin vật lý và hóa học của các phân tử dựa trên thực nghiệm hoặc tính toán [2] TSPT là kết quả của quá trình tính toán và chuyển đổi thông tin từ đặc điểm cấu trúc hóa học của hợp chất thành các giá trị tham số đặc trưng cho đặc điểm đó Thông thường, các cấu trúc phân tử sẽ được biểu diễn và mô tả một cách truyền thống bằng việc thông qua các phần mềm chuyên dụng như Chemdraw, Chem 3D Sau đó, các phần mềm chuyên dụng như PaDEL, Dragon,… sẽ được sử dụng để tính toán TSPT dựa trên các mô tả cho từng cấu trúc phân tử Tuy nhiên, trong nhiều nghiên cứu những năm gần đây, quá trình tính toán TSPT được đổi mới bằng việc ứng dụng NLP

9 qua thuật toán Mol2vec, mang lại nhiều ưu điểm vượt trội hơn so với phương pháp thông thường

Để xây dựng mô hình QSAR tin cậy, dữ liệu ban đầu phải được xử lý trước để đảm bảo tính đúng Quá trình này bao gồm: loại bỏ dữ liệu trùng lặp, phân tích biến thiên, loại bỏ dữ liệu không đáng tin cậy Bằng cách tiền xử lý dữ liệu, mô hình sẽ không bị ảnh hưởng bởi các thông số nhiễu (TSPT), từ đó đảm bảo độ tin cậy của mô hình QSAR.

Bước 4: Xây dựng mô hình QSAR

Cho đến nay, đã có rất nhiều phương pháp xây dựng mô hình QSAR được phát triển và ứng dụng Tuy nhiên, sự tương quan và phụ thuộc lẫn nhau giữa TSPT và biến đáp ứng là hoàn toàn khác nhau trong từng CSDL và mối quan hệ cấu trúc-tác dụng Do đó, một phương pháp có thể phù hợp để xây dựng mô hình QSAR này nhưng có thể sẽ không hiệu quả khi xây dựng các mô hình QSAR khác [30], [42] Nhìn chung, có hai dạng mô hình QSAR chính:

Dạng thứ nhất của mô hình QSAR là mô hình định lượng, trong đó biến đầu ra là biến liên tục Các phương pháp xây dựng mô hình thường được áp dụng có thể kể tới như hồi quy tuyến tính đa biến - Multiple Linear Regression (MLR), là một trong những phương pháp đầu tiên được sử dụng để xây dựng mô hình QSAR và vẫn được sử dụng phổ biến nhất cho đến hiện nay Ưu điểm của phương pháp MLR là tính đơn giản của nó và sử dụng các biểu thức toán học dễ hiểu [25] Một phương pháp khác là bình phương tối thiểu từng phần- Partial Least Squares (PLS) cũng được sử dụng phổ biến và rộng rãi trong nhiều lĩnh vực khác nhau Gần đây, PLS đã phát triển bằng cách kết hợp với các phương pháp toán học khác để mang lại hiệu quả tốt hơn trong phân tích QSAR [30] Ngoài ra, vẫn còn một số phương pháp khác được sử dụng trong dạng thứ nhất, điển hình như phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) [13]

Dạng thứ hai là mô hình QSAR phân loại với biến đầu ra là giá trị nhị phân có hoặc không, âm tính hoặc dương tính Một trong những phương pháp thường dùng để xây dựng mô hình QSAR là mạng nơ-ron nhân tạo (Artificial Neural Networks -

ANN) - một mô hình xử lý thông tin dựa trên cách các hệ thống thần kinh sinh học,

10 như não bộ, xử lý thông tin Yếu tố chính của mô hình này là cấu trúc thông tin xử lý độc đáo của nó Mạng nơ-ron có khả năng xử lý thông tin đáng kinh ngạc, từ đó rút ra ý nghĩa từ các cơ sở dữ liệu phức tạp, có thể được sử dụng để phát hiện các xu hướng trong cơ sở dữ liệu mà con người hoặc các kỹ thuật máy tính khác không thể nhận biết Một mạng nơ-ron được huấn luyện có thể được coi như một "chuyên gia" trong lĩnh vực thông tin mà nó đã được cung cấp để phân tích [41] Ngoài ra còn nhiều phương pháp khác được áp dụng, có thể kể tới như phương pháp phân tích cụm (Cluster Analysis), thuật toán k láng giềng gần nhất (k-nearest neighbors algorithm - kNN) [42]

Bước 5: Đánh giá mô hình

Chất lượng của cơ sở dữ liệu ban đầu và quá trình xử lý dữ liệu để lựa chọn biến hoặc mô tả tham số phân tử có ý nghĩa là một phần quan trọng của quá trình mô hình QSAR [39] Tuy nhiên, để có thể ứng dụng các mô hình QSAR vào thực tế thì còn phụ thuộc vào ý nghĩa thống kê và khả năng dự đoán của các mô hình này Do đó, việc đánh giá mô hình QSAR là công việc quan trọng để quyết định tính ứng dụng của mô hình trong quá trình nghiên cứu phát triển thuốc mới [37] Tập huấn luyện được sử dụng để xây dựng một mô hình dự đoán có khả năng dự đoán được đánh giá trên tập kiểm tra Khả năng dự đoán nội suy (đánh giá nội) thường được đánh giá từ khả năng dự đoán của tập huấn luyện trong khi khả năng dự đoán ngoại suy (đánh giá ngoại) có thể được đánh giá từ khả năng dự đoán của tập kiểm tra độc lập mà mô hình được huấn luyện chưa biết [29] Chất lượng mô hình QSAR thường được đánh giá dựa vào 2 tiêu chí: các thông số thống kê và độ chính xác dự đoán [15]

Các thông số thống kê sử dụng trong việc đánh giá mô hình QSAR bao gồm: hệ số xác định R 2 (tập huấn luyện), R 2 test (tập kiểm tra); sai số tuyệt đối trung bình (Mean Absolute Error - MAE) và sai số dự đoán (Root Mean Squared Error - RMSE)

Hệ số R 2 là giá trị phổ biến nhất để đánh giá mô hình, trong đó hệ số xác định

TỔNG QUAN VỀ KỸ THUẬT DOCKING PHÂN TỬ

Docking phân tử hay còn gọi là mô phỏng tương tác phân tử (molecular docking) là một trong những kỹ thuật được sử dụng phổ biến nhất hiện nay trong nghiên cứu phát triển thuốc vì khả năng dự đoán tương tác thụ thể (protein, enzym)

- phối tử với độ chính xác cao [27] Sau sự ra đời của các thuật toán đầu tiên vào những năm 1980, docking phân tử đã trở thành một công cụ thiết yếu trong nghiên cứu phát triển thuốc [26] Các nghiên cứu liên quan đến các đặc điểm phân tử, bao gồm các liên kết phối tử và các tương tác liên phân tử tạo thành phức hợp thụ thể - phối tử có thể được thực hiện trực quan và dễ dàng hơn [19] Mục đích của docking phân tử là xác định một cấu dạng tối ưu nhất cho phức hợp thụ thể - phối tử và dự đoán chính xác hoạt động của phối tử để năng lượng tự do của phức hợp đích thụ thể

- phối tử là nhỏ nhất [10]

Nguyên tắc chính của phương pháp này là đưa cấu trúc của hợp chất nghiên cứu vào trung tâm tương tác của protein hoặc enzym đích (đã có cấu trúc xác định), sau đó dự đoán các cấu dạng tương tác có thể xảy ra cũng như tính toán các giá trị tương tác Dữ liệu đầu vào của kỹ thuật docking phân tử bao gồm: cấu trúc của đích protein nghiên cứu đã được làm rõ đi kèm với tệp cơ sở dữ liệu các hợp chất nghiên cứu Cấu trúc của protein đó có thể được thu thập qua các cơ sở dữ liệu Protein trên toàn thế giới như thư viện Protein Data Bank (PDB), UniProt, Pfam,… Việc xác định các trung tâm liên kết có độ chính xác và độ tin cậy cao nhất đòi hỏi hai bước: (i) khám phá một không gian cấu trúc lớn đại diện cho các liên kết tiềm năng khác nhau; (ii) dự đoán chính xác năng lượng tương tác liên quan đến từng trung tâm liên kết dự đoán [21] Các thuật toán docking phân tử có thể thực hiện được các dự đoán định lượng về năng lượng liên kết, từ đó so sánh khả năng tương tác của các phối tử dựa trên ái lực liên kết trong các phức hợp thụ thể - phối tử [19] Đây thường là một quy trình nhiều bước trong đó hợp chất được xếp hạng và lựa chọn dựa trên điểm tương tác và một số tiêu chí khác [17]

Các phần mềm docking phân tử sử dụng các thuật toán để ước tính năng lượng liên kết của phức hợp thụ thể - phối tử được dự đoán Sự thay đổi năng lượng, do sự hình thành cấu trúc phức hợp thụ thể - phối tử, được thể hiện qua hằng số liên kết (Kd) và năng lượng tự do Gibbs (ΔGL) [11] Các hợp chất cần nghiên cứu sẽ được mô phỏng tương tác của chúng trên các vùng hoạt động (Active Sites) của đích sinh học (protein/enzym) bằng việc sử dụng những thuật toán tính toán khác nhau (POSING) Việc dự đoán năng lượng liên kết được thực hiện bằng cách đánh giá các

Các tương tác vật lý-hóa học như tương tác Van der Waals, tĩnh điện và hóa học đóng vai trò quan trọng trong liên kết thụ thể-phối tử, ảnh hưởng đến năng lượng liên kết Để dự đoán năng lượng liên kết chính xác, nhiều thông số vật lý-hóa học được đánh giá Một thuật toán sau đó đánh giá các điểm tương tác này để xếp hạng sự gắn kết giữa hợp chất và mục tiêu sinh học Chỉ một số ít hợp chất có điểm cao nhất được lựa chọn cho các nghiên cứu thực nghiệm tiếp theo.

Hiện nay, với sự phát triển của khoa học và công nghệ, trên thế giới có rất nhiều các phần mềm có thể thực hiện được nghiên cứu docking, có thể kể đến AutoDock, GOLD, MOE, SwissDock,… Hình 1.5 dưới đây mô tả quá trình docking của phối tử vào mục tiêu phân tử đích (protein thụ thể)

Hình 1.5 Hình ảnh mô tả docking phối tử và protein thụ thể [35].

TỔNG QUAN VỀ SWISSADME - CÔNG CỤ ĐÁNH GIÁ DƯỢC ĐỘNG HỌC

HỌC Để có hiệu quả điều trị như một thuốc, hợp chất làm thuốc ngoài việc có hoạt tính thì cần phải tiếp cận được tới mục tiêu của chúng trong cơ thể với nồng độ đủ cao và ở lại đó dưới dạng có hoạt tính sinh học đủ lâu để các quá trình sinh học của hợp chất làm thuốc đối với cơ thể có thể xảy ra [5]

SwissADME - một công cụ đánh giá dược động học, quy tắc tính giống thuốc và khả năng tổng hợp hóa dược của các hợp chất phân tử nhỏ, được giới thiệu vào năm 2017 bởi A Daina và cộng sự [5] Công cụ web SwissADME cho phép thực hiện các phép tính toán các thông số chính về hóa lý, dược động học, tính chất giống thuốc và các thông số liên quan cho một hoặc nhiều phân tử hợp chất ứng viên Công cụ được tích hợp những phễu lọc các hợp chất giống thuốc - gồm nhiều yêu cầu khác nhau về đặc điểm lý hóa của hợp chất ứng viên, có thể kể tới như quy tắc Lipinski, Ghose, Veber, PAINS,…

Nghiên cứu này tập trung vào enzym BACE1, đóng vai trò quan trọng trong quá trình hình thành mảng β-amyloid trong não Thuốc hướng đích đến BACE1 cần có đặc điểm lý hóa phù hợp để vượt qua được hàng rào máu não (HRMN) Công cụ SwissADME giúp dự đoán khả năng hấp thu của thuốc qua HRMN thông qua tham số BBB Mô hình "quả trứng luộc" (Boiled Egg) cho phép đánh giá khả năng hấp thu thuốc qua HRMN, trong đó vùng lòng đỏ thể hiện khả năng hấp thu cao, vùng lòng trắng thể hiện khả năng hấp thu qua ruột cao, còn vùng xám thể hiện khả năng hấp thu thấp qua cả HRMN và ruột Thuốc nằm càng gần vùng lòng đỏ thì khả năng hấp thu qua HRMN càng cao.

Hình 1.6 Mô hình Boiled Egg dự đoán khả năng hấp thu của thuốc vào cơ thể trên công cụ SwissADME

NGUYÊN LIỆU, THIẾT BỊ, PHƯƠNG PHÁP NGHIÊN CỨU

NGUYÊN LIỆU, THIẾT BỊ, PHẦN MỀM NGHIÊN CỨU

2.1.1 Cơ sở dữ liệu Đề tài nghiên cứu được thực hiện với 2 nguồn cơ sở dữ liệu chính:

- Cơ sở dữ liệu sử dụng để xây dựng và đánh giá mô hình QSAR (CSDL1) bao gồm cấu trúc hóa học của 1138 hợp chất đã được chứng minh có hoạt tính ức chế BACE1, thu thập từ nguồn dữ liệu ChEMBL [47] và được trình bày chi tiết ở Phụ lục 1 của khóa luận

- Cơ sở dữ liệu để sàng lọc (CSDL2) gồm 224206 hợp chất được thu thập từ nguồn dữ liệu ZINC - nền tảng dữ liệu các hợp chất được cung cấp và phát triển bởi University of California, San Francisco (UCSF) [44]

2.1.2 Thiết bị, phần mềm nghiên cứu

Thiết bị: Máy tính Acer Aspire 5, 256GB/8GB RAM

- Phần mềm vẽ cấu trúc hóa học: Chemdraw Professional 16.0

- Phần mềm docking: AutoDock Vina, VMD

- Nền tảng khảo sát đặc điểm dược động học: SwissADME

- Nền tảng xây dựng mô hình QSAR: Python 3.9 trên nền tảng Google Colab

NỘI DUNG NGHIÊN CỨU

- Nội dung 1: Xây dựng và đánh giá các mô hình QSAR dự đoán tác dụng ức chế BACE1 của các hợp chất từ CSDL1, từ đó lựa chọn 1 mô hình có chất lượng tốt nhất để sàng lọc

- Nội dung 2: Ứng dụng mô hình QSAR xây dựng được dự đoán hoạt tính ức chế BACE1 của các hợp chất từ CSDL2, từ đó lựa chọn được các hợp chất ứng viên (có hoạt tính mạnh nhất)

- Nội dung 3: Khảo sát tương tác của các hợp chất ứng viên với thụ thể bằng kỹ thuật docking phân tử

- Nội dung 4: Khảo sát đặc điểm dược động học và đặc tính giống thuốc của các hợp chất ứng viên.

PHƯƠNG PHÁP NGHIÊN CỨU

Nghiên cứu đã thực hiện quá trình lọc in silico các hợp chất để tìm ra các hợp chất có khả năng ức chế BACE1 Quy trình cụ thể được thể hiện trong Sơ đồ 2.1.

Hình 2.1 Thiết kế nghiên cứu sàng lọc ảo các hợp chất có tiềm năng ức chế

2.3.1 Phương pháp xây dựng mô hình QSAR

2.3.1.1 Chuẩn bị cơ sở dữ liệu

Cơ sở dữ liệu xây dựng mô hình (CSDL1) gồm cấu trúc và hoạt tính ức chế enzym BACE1 được thể hiện bằng giá trị logarit cơ số 10 của nồng độ ức chế 50% hoạt tính enzym (log IC50) của 1138 hợp chất được trình bày ở Phụ lục 1

The screening database (DB2) included 224,205 compounds that were obtained from ZINC, a publicly available database of compounds provided by the University of California, San Francisco (UCSF).

2.3.1.2 Tính toán tham số phân tử và xử lý số liệu

Cấu trúc của 1138 hợp chất trong CSDL1 được mã hóa thành chuỗi SMILES và được biểu diễn thành vectơ có chiều dài 100 thông qua thuật toán Mol2vec Các vectơ này được sử dụng làm dữ liệu đầu vào cho mô hình QSAR Để đảm bảo tính chính xác và tin cậy của mô hình, dữ liệu đầu vào được xử lý trước để loại bỏ các thông tin sai lệch.

- Loại bỏ các giá trị trùng lặp và không đáng tin cậy

- Tiến hành trích chọn thuộc tính (Feature Selection) bằng cách loại bỏ các tham số phân tử có độ tương quan chéo r 2 > 0.9

- Giá trị IC50 được chuyển đổi thành dạng logarit cơ số 10 (log IC50)

2.3.1.3 Thiết kế tập huấn luyện (training set) và tập kiểm tra (test set)

Từ 1138 hợp chất từ CSDL1 sau khi được xử lí số liệu, tiến hành thiết lập tập huấn luyện (training set) gồm 796 hợp chất (69,9%) để xây dựng mô hình và tập kiểm tra (test set) 342 hợp chất còn lại (30,1%) được sử dụng để đánh giá mô hình

Các mô hình được xây dựng bằng các phương pháp: rừng ngẫu nhiên hồi quy (Random Forest Regression - RF); Vectơ hỗ trợ hồi quy (Support Vector Regression

- SVR); hồi quy tuyến tính (Linear Regression); hồi quy Lasso (Lasso Regression); hồi quy Ridge (Ridge Regression), XGBoost (XGBoost Regression); mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)

2.3.2 Phương pháp đánh giá mô hình QSAR

Các mô hình được đánh giá dựa trên các các thông số thống kê: hệ số tương quan R 2 , sai số tuyệt đối trung bình (Mean Absolute Error - MAE ) và sai số dự đoán

- độ lệch chuẩn phần dư (Root Mean Square Error - RMSE ), khả năng dự đoán nội

%P, khả năng dự đoán ngoại %Ptest

Hệ số R2 đo độ ảnh hưởng của mô hình lên sự biến động dữ liệu, còn MAE đo sai số trung bình giữa giá trị dự đoán và thực tế RMSE thể hiện độ lệch trung bình giữa dự đoán và thực tế, lấy căn bậc hai của trung bình bình phương sai số Khả năng dự đoán nội và ngoại (%P và %Ptest) giúp đánh giá khả năng dự đoán trên dữ liệu đã biết và mới Các chỉ số này tổng quan về độ chính xác và tổng quát hóa của mô hình, nhằm xác định độ tin cậy và khả năng dự đoán của mô hình trong quá trình dự báo và phân tích dữ liệu.

2.3.3 Phương pháp xác định miền cấu trúc ứng dụng của mô hình Để tiến hành dự đoán hoạt tính của các hợp chất trong cơ sở dữ liệu đầu vào bằng mô hình QSAR đã xây dựng, việc xác định hợp chất đó có nằm trong miền ứng dụng của mô hình (Applicability domain) hay không là một việc hết sức quan trọng, quyết định trực tiếp tới độ chính xác và độ tin cậy của phép dự đoán đó Miền cấu trúc ứng dụng là một khu vực lý thuyết trong không gian hóa học, được xác định bởi các tham số phân tử mô tả hóa học (Molecular descriptors), tính phản hồi của mô hình, và được quyết định bởi đặc điểm và tính chất của các phân tử trong tập huấn luyện để xây dựng mô hình [37] Việc xác định miền cấu trúc ứng dụng của mô hình đóng vai trò rất quan trọng trong nghiên cứu QSAR, cho phép xác định những hợp chất được dự đoán bởi mô hình Nếu không có miền ứng dụng, các hợp chất đầu vào

17 cho mô hình QSAR có thể có cấu trúc khác xa với hợp chất dùng xây dựng mô hình (hợp chất thuộc tập huấn luyện), dẫn tới dự đoán ngoại suy có sai số cao [41] Nghiên cứu này sử dụng phương pháp 10 lân cận gần nhất [36] để xác định miền cấu trúc ứng dụng của mô hình Những hợp chất được coi là nằm trong miền cấu trúc xác định của mô hình nếu thỏa mãn [36]:

Di ≤ Dc= Zσ+y Trong đó: y là trung bình khoảng cách Euclid trong không gian các TSPT của mô hình giữa mỗi hợp chất trong tập huấn luyện đến mười hợp chất gần nó nhất; σ là độ lệch chuẩn của y; Z hệ số thực nghiệm với giá trị mặc định bằng 0.5; Di là trung bình khoảng cách Euclid giữa hợp chất cần dự đoán i đến mười hợp chất gần nhất trong tập huấn luyện [36], [41]

Khoảng cách Euclid giữa hai hợp chất là khoảng cách giữa hai điểm biểu diễn của hai hợp chất đó trong không gian với các hệ trục tọa độ tương ứng với các TSPT xuất hiện trong mô hình

2.3.4 Kỹ thuật docking phân tử

Mô phỏng tương tác phân tử (docking phân tử) là kỹ thuật phổ biến trong lĩnh vực dược phẩm, đặc biệt là nghiên cứu phát triển thuốc mới Đối với kỹ thuật này, việc xác định cấu dạng tối ưu cho phức hợp thụ thể - phối tử là quan trọng nhằm dự đoán chính xác hoạt động của phối tử, từ đó tối ưu năng lượng tự do của phức hợp thụ thể - phối tử.

Nguyên tắc chính của phương pháp này là đưa cấu trúc của hợp chất nghiên cứu vào trung tâm tương tác của protein hoặc enzym đích (đã có cấu trúc xác định), sau đó dự đoán các cấu dạng tương tác có thể xảy ra cũng như tính toán các giá trị tương tác Các thuật toán docking phân tử có thể thực hiện được các dự đoán định lượng về năng lượng liên kết, từ đó so sánh khả năng tương tác của các phối tử dựa trên ái lực liên kết trong các phức hợp thụ thể - phối tử [26], [27] Các hợp chất cần nghiên cứu sẽ được khảo sát tương tác của chúng trên các vùng hoạt động của đích sinh học bằng các thuật toán mô phỏng, sau đó, một thuật toán khác sẽ tính điểm để xếp hạng sự gắn kết giữa hợp chất với đích sinh học [23] Thông thường, chỉ một số ít các hợp chất có điểm cao nhất mới được tiếp tục nghiên cứu bằng thực nghiệm [17]

Quy trình docking phân tử trong nghiên cứu này sử dụng phần mềm Autodock Vina của chuỗi phần mềm AutoDock, sản phẩm của The Scripps Research Institute [7] Đây là phần mềm mã nguồn mở được sử dụng với mục đích khảo sát docking

18 đối với các hợp chất cần phân tích [9], [7] AutoDock Vina được dùng kèm với AutodockTools 1.5.7 để hỗ trợ giao diện đồ họa

Quy trình docking gồm các bước:

• Bước 1: Chuẩn bị cấu trúc protein và hợp chất dưới dạng file.pdbqt

Cấu trúc 3D của protein BACE1 (ID: 2FDP) được thu thập từ dữ liệu ngân hàng protein RSCB Protein Data Bank (PDB) [46] và tải xuống thiết bị dưới dạng file.pdb

THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN

KẾT QUẢ TÍNH TOÁN TSPT VÀ XỬ LÝ SỐ LIỆU

Mô hình QSAR được xây dựng từ 1138 hợp chất trong CSDL1 Với kích thước mẫu lớn của CSDL1, nghiên cứu này có thể tận dụng tối đa khả năng xử lý dữ liệu và học máy của khoa học máy tính, từ đó xây dựng mô hình QSAR dự đoán có độ chính xác và độ tin cậy cao dựa trên nền tảng là trí tuệ nhân tạo

Ứng dụng thuật toán Mol2vec thông qua NLP, TSPT của hợp chất trong tập CSDL1 được tính toán Cấu trúc của 1138 hợp chất được mã hóa thành chuỗi SMILES, sau đó biểu diễn thành vectơ 100 chiều với 100 tham số đặc trưng cho từng cấu trúc Các TSPT giống nhau và tương quan chéo được loại bỏ, thu được 34 TSPT 2D cho mỗi hợp chất.

Tiếp tục tiến hành chia ngẫu nhiên 1138 hợp chất từ CSDL1 thành tập huấn luyện và tập kiểm tra với tỷ lệ 70% - 30% Kết quả thu được tập huấn luyện gồm 796 hợp chất và tập kiểm tra gồm 342 hợp chất Sau đó, dựa trên ngôn ngữ lập trình Python, tiến hành xây dựng các mô hình QSAR bằng các thuật toán khác nhau từ những phương pháp khác nhau như: Rừng ngẫu nhiên hồi quy (Random Forest

Regression - RF); Vectơ hỗ trợ hồi quy (Support Vector Regression - SVR); hồi quy tuyến tính (Linear Regression); hồi quy Lasso (Lasso Regression); hồi quy Ridge (Ridge Regression), XGBoost (XGBoost Regression); mạng nơ-ron nhân tạo

KẾT QUẢ XÂY DỰNG MÔ HÌNH QSAR

3.2.1 Mô hình M1 - Phương pháp hồi quy rừng ngẫu nhiên (Random Forest Regression - RF) Ở phương pháp này, các thông số được thiết lập như sau:

Thông số tối ưu thu được: n_estimators: 100; max_depth: 15; min_samples_leaf: 1; min_samples_split: 5

Mô hình QSAR (M1) được xây dựng sử dụng phương pháp rừng ngẫu nhiên hồi quy (RF) để mô tả mối quan hệ giữa cấu trúc và hoạt tính sinh học của hợp chất, biểu thị bằng thông số logIC50 Kết quả dự đoán của mô hình M1 được đánh giá bằng các chỉ số thống kê.

M1 đối với các hợp chất của tập huấn luyện và tập kiểm tra được trình bày ở biểu đồ hình 3.1

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.1 Biểu đồ thống kê kết quả dự đoán của mô hình M1

Kết quả dự đoán logIC50 của mô hình M1 đối với các hợp chất của tập huấn luyện rất sát với giá trị logIC50 thực tế Tuy nhiên, độ chính xác của các dự đoán đối với các hợp chất của tập kiểm tra lại khác nhiều so với giá trị logIC50 thực tế Hệ số xác định của mô hình M1 đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.925 và R 2 test = 0.642 (đều > 0.6) Đối với sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE), các sai số dự đoán từ tập huấn luyện lần lượt là MAE = 0.239; RMSE = 0.322 Trong khi đó, giá trị sai số MAE và RMSE của kết quả dự đoán trên tập kiểm tra lần lượt là 0.526 và 0.707

3.2.2 Mô hình M2 - Phương pháp hồi quy vectơ hỗ trợ (Support Vector Regression

- SVR) Ở phương pháp này, các thông số được thiết lập như sau:

Thông số tối ưu thu được của mô hình có chất lượng nhất (mô hình M2) là: hằng số C = 20; sai số  = 10 -1 ; hệ số γ = 10 -3

Thống kê kết quả dự đoán của mô hình M2 đối với các hợp chất của tập huấn luyện và tập kiểm tra được trình bày ở biểu đồ hình 3.2

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.2 Biểu đồ thống kê kết quả dự đoán của mô hình M2

Kết quả dự đoán logIC50 của mô hình M2 đối với các hợp chất của tập huấn luyện khá gần với giá trị logIC50 thực tế Hệ số xác định (R 2 ) của mô hình M2 trên tập huấn luyện là 0.790, trên tập kiểm tra là 0.705 Các giá trị này đều lớn hơn 0.6, điều đó cho thấy mô hình có khả năng khá tốt trong việc giải thích biến động của dữ liệu Sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE) trên tập huấn luyện lần lượt là MAE = 0.362 và RMSE = 0.540 Trên tập kiểm tra, giá trị MAE và RMSE lần lượt là 0.495 và 0.641 Cả hai chỉ số này thể hiện mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế Mặc dù các giá trị sai số trên tập kiểm tra cao hơn so với tập huấn luyện, chúng vẫn nằm trong phạm vi chấp nhận được, cho thấy mô hình M2 không bị quá khớp và có khả năng tổng quát hóa tốt trên dữ liệu mới

3.2.3 Mô hình M3 - Phương pháp hồi quy tuyến tính (Linear Regression - LR)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán bằng phương pháp hồi quy tuyến tính (LR)

Phương trình thu được sau khi xây dựng mô hình M3 là:

Thống kê kết quả dự đoán của mô hình M3 với 49 biến là các TSPT được trình bày ở hình 3.3

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.3 Biểu đồ thống kê kết quả dự đoán của mô hình M3

Kết quả phân tích từ hình 3.3 cho thấy hệ số xác định của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.504 và R 2 test = 0.553 Cả hai giá trị R 2 đều nhỏ hơn ngưỡng chấp nhận được là 0.6 Như vậy, mô hình M3 có khả năng dự đoán không cao Ngoài ra, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.651 và RMSE = 0.829, trong khi đó ở tập kiểm tra là MAE = 0.617 và RMSE = 0.790 Cả hai chỉ số MAE và RMSE đều thấp hơn so với kết quả trên tập huấn luyện, nhưng vẫn khá cao, chứng tỏ rằng mô hình M3 không thể dự đoán chính xác khi đối chiếu với dữ liệu từ tập kiểm tra

3.2.4 Mô hình M4 - Phương pháp hồi quy Lasso (Lasso Regression)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán bằng phương pháp hồi quy Lasso

Phương trình thu được sau khi xây dựng mô hình M4 là:

Thống kê kết quả dự đoán của mô hình M4 với 49 biến là các TSPT được trình bày ở hình 3.4

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.4 Biểu đồ thống kê kết quả dự đoán của mô hình M4

Kết quả phân tích từ biểu đồ hình 3.4 cho thấy hệ số R 2 của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.498 và R 2 test = 0.551

Cả hai giá trị R 2 đều thấp hơn ngưỡng chấp nhận được là 0.6, chứng tỏ rằng mô hình M4 không có khả năng dự đoán chính xác Bên cạnh đó, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.658 và RMSE = 0.834, trong khi đó ở tập kiểm tra là MAE = 0.623 và RMSE = 0.791 Mặc dù cả hai chỉ số MAE và RMSE đều thấp hơn so với kết quả trên tập huấn luyện, nhưng vẫn cao Nên nhìn chung, mô hình M4 không thể dự đoán chính xác khi áp dụng vào dữ liệu mới từ tập kiểm tra

3.2.5 Mô hình M5 - Phương pháp hồi quy Ridge (Ridge Regression)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán

Phương trình thu được sau khi xây dựng mô hình M5 là:

Thống kê kết quả dự đoán của mô hình M5 với 49 biến là các TSPT được trình bày ở hình 3.5

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.5 Biểu đồ thống kê kết quả dự đoán của mô hình M5

Kết quả phân tích từ biểu đồ cho thấy hệ số R 2 của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.504 và R 2 test = 0.554 Cả hai giá trị R 2 đều thấp hơn ngưỡng chấp nhận được là 0.6, điều đó cho thấy mô hình M5 xây dựng không có khả năng dự đoán chính xác Bên cạnh đó, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.651 và RMSE = 0.829, trong khi đó ở tập kiểm tra là MAE = 0.616 và RMSE = 0.789 Các giá trị sai số trên ở cả 2 tập đều khá cao Tổng thể, mô hình M5 không thể dự đoán chính xác khi áp dụng vào dữ liệu mới từ tập kiểm tra, cho thấy sự thiếu tổng quát hóa và có khả năng bị quá khớp với dữ liệu huấn luyện

3.2.6 Mô hình M6 - Phương pháp hồi quy XGBoost (XGBoost Regression)

Tiến hành xây dựng mô hình QSAR thể hiện mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 với giá trị logIC50 dự đoán Các thông số để xây dựng mô hình M6 được khảo sát như sau:

Thống kê kết quả dự đoán của mô hình M6 được trình bày ở hình 3.6

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.6 Biểu đồ thống kê kết quả dự đoán của mô hình M6

Kết quả phân tích từ biểu đồ hình 3.6 cho thấy hệ số R 2 của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.953 và R 2 test = 0.631

Mô hình M6 có chỉ số R2 khá tốt, vượt ngưỡng chấp nhận được Tuy nhiên, sai số dự đoán ở tập kiểm tra lại cao hơn đáng kể so với tập huấn luyện, thể hiện sự chênh lệch giữa khả năng dự đoán giữa hai tập dữ liệu Dù chỉ số R2 đạt yêu cầu nhưng độ chênh lệch lớn cùng sai số dự đoán cao cho thấy mô hình M6 có khả năng dự đoán không chính xác khi áp dụng vào dữ liệu kiểm tra, có thể gặp tình trạng quá khớp (overfitting) với dữ liệu huấn luyện.

3.2.7 Mô hình M7 - Phương pháp mạng nơ-ron nhân tạo (Artificial Neural Network

- ANN) Ở phương pháp này, các thông số được khảo sát với các giá trị sau:

Thông số tối ưu thu được của mô hình chất lượng nhất (mô hình M7) là: alpha:

10 -8 , hidden_layer_sizes: (64, 64), learning_rate: ‘adaptive’

Thống kê kết quả dự đoán của mô hình M7 được trình bày ở hình 3.7

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.7 Biểu đồ thống kê kết quả dự đoán của mô hình M7

Hệ số xác định của mô hình M7 đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R 2 = 0.720 (> 0.6) và R 2 test = 0.591 (< 0.6) Giá trị R 2 của tập huấn luyện đạt mức chấp nhận được, tuy nhiên giá trị R 2 ở tập kiểm tra lại thấp hơn ngưỡng chấp nhận được là 0.6, chứng tỏ rằng mô hình không có khả năng dự đoán với độ chính xác cao Đối với sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE), các sai số dự đoán từ tập huấn luyện lần lượt là MAE = 0.469; RMSE = 0.623 Trong khi đó, giá trị sai số MAE và RMSE của kết quả dự đoán trên tập kiểm tra lần lượt là 0.571 và 0.755 Qua đó, ta thấy các giá trị sai số đang ở mức khá cao, nên nhìn chung, mô hình M7 chưa có khả năng dự đoán chính xác tối ưu khi áp dụng vào dữ liệu mới từ tập kiểm tra

Qua quá trình xây dựng và khảo sát các mô hình xây dựng được (mô hình M1- M7) từ tập CSDL1, các giá trị thống kê thể hiện chất lượng dự đoán của mô hình được tổng hợp để phục vụ cho quá trình lựa chọn mô hình có chất lượng tốt nhất Kết quả được trình bày ở bảng 3.1

Bảng 3.1 Tổng hợp các thông số thể hiện chất lượng của các mô hình đã xây dựng được

Tập huấn luyện Tập kiểm tra

M1 Random Forest 0.925 0.239 0.322 0.642 0.526 0.707 M2 SVR 0.790 0.362 0.540 0.705 0.495 0.641 M3 Linear Regression 0.504 0.651 0.829 0.553 0.617 0.790

M4 Lasso Regression 0.498 0.658 0.834 0.551 0.623 0.791 M5 Ridge Regression 0.504 0.651 0.829 0.554 0.616 0.789 M6 XGBoost 0.953 0.178 0.256 0.631 0.538 0.718 M7 ANN 0.720 0.469 0.623 0.591 0.571 0.755

Kết quả ở bảng 3.1 cho thấy, các mô hình M3, M4, M5 có các giá trị R 2 và R 2 test đều không đạt ngưỡng 0.6, qua đó thể hiện khả năng ứng dụng và dự đoán của mô hình là không có độ chính xác và độ tin cậy cao

KẾT QUẢ ỨNG DỤNG MÔ HÌNH QSAR VÀO SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG ỨC CHẾ BACE1

CHẤT TIỀM NĂNG ỨC CHẾ BACE1

Từ kết quả đánh giá và lựa chọn mô hình ở mục 3.2.8, mô hình M2 được sử dụng để sàng lọc các hợp chất tiềm năng có khả năng ức chế BACE1 Phương pháp xác định miền cấu trúc ứng dụng của mô hình M2 được thực hiện theo phương pháp đã thiết lập.

10 lân cận gần nhất, với ngưỡng threshold được xác định threshold = Dk + 1.0 * Sk, thu được kết quả như sau:

(M2): Di ≤ Dk + 1.0 * Sk = 7.0511 + 1.0 * 4.2334 = 11.2845 Tiếp theo, tiến hành tính toán giá trị Di của 224205 hợp chất trong CSDL2 để xác định các hợp chất thuộc miền ứng dụng của mô hình M2 Hợp chất nằm trong

29 miền ứng dụng của mô hình cần thỏa mãn giá trị Di ≤ 11.2845 Kết quả được trình bày ở bảng 3.2

Bảng 3.2 Kết quả xác định các hợp chất trong CSDL2 thuộc miền ứng dụng của mô hình M2

Hợp chất Số lượng Tỷ lệ %

Thuộc miền ứng dụng của mô hình 23511 10.49% Nằm ngoài miền ứng dụng của mô hình 200694 89.51%

Nhận xét : Từ kết quả ở bảng 3.2 cho thấy, có 23511/224205 hợp chất trong

CSDL2 thỏa mãn Di ≤ 11.2845, chiếm 10.49% tập CSDL2

Dự đoán giá trị logIC50 của 23511 hợp chất này bằng mô hình M2 cho kết quả được trình bày tóm tắt ở bảng 3.3

Bảng 3.3 Kết quả ứng dụng mô hình M2 để sàng lọc hoạt tính ức chế BACE1 của các hợp chất trong CSDL2

LogIC 50 Số hợp chất Tỷ lệ (%)

Từ kết quả dự đoán logIC50 bằng mô hình QSAR được tóm tắt ở bảng 3.3, có thể thấy số lượng hợp chất có giá trị logIC50 nằm trong khoảng 3-5 có tỷ lệ lớn nhất với 17107 hợp chất chiếm tỷ lệ 72.8% Có 968 hợp chất có kết quả dự đoán logIC50 nhỏ hơn 2, chiếm tỷ lệ 4.1% Do đó, nhóm nghiên cứu lựa chọn 968 hợp chất này để tiến hành kỹ thuật docking phân tử, từ đó lựa chọn hợp chất có hoạt tính ức chế BACE1 tốt nhất.

KẾT QUẢ DOCKING PHÂN TỬ

Tiến hành docking 968/23511 hợp chất đã được sàng lọc bằng mô hình QSAR ở mục 3.3 với cấu trúc tinh thể protein thụ thể BACE1 theo phương pháp được mô tả ở mục 2.3.4 Kết quả được trình bày chi tiết ở Phụ lục 2 Phối tử đối chiếu được lựa chọn để đánh giá khả năng liên kết của các hợp chất sàng lọc là N1-((2S,3S,5R)-3-amino-6-(4-fluorophenylamino)-5-methyl-6-oxo-1-phenylhexan-2-yl)-N3,N3- dipropylisophthalamide (hình 3.8) [40] Lần lượt từng hợp chất được mô phỏng

30 tương tác với protein thụ thể đích, sau đó cấu dạng docking có năng lượng liên kết nhỏ nhất của mỗi hợp chất sẽ được lựa chọn để so sánh với phối tử đối chiếu

Hình 3.8 Cấu trúc hóa học của phối tử đối chiếu

Năng lượng liên kết tự do ∆G (Kcal/mol) là giá trị đại diện cho số lượng và mức độ tương tác giữa protein và hợp chất Phân tích kết quả docking cho thấy, tất cả 968 hợp chất đều có khả năng gắn vào túi của trung tâm hoạt động của protein (tất cả đều có năng lượng liên kết âm với đích, từ -10.8 đến -6.6) Năng lượng liên kết của phối tử đối chiếu và trung tâm hoạt động của protein là -9.9 Như vậy, có 58/968 hợp chất có năng lượng liên kết với protein nhỏ hơn -9.9, chứng tỏ khả năng liên kết với protein của các hợp chất đó tốt hơn so với phối tử đối chiếu Năng lượng liên kết, cấu trúc và giá trị logIC50 của 58 hợp chất trên được trình bày ở Phụ lục 3 của khóa luận

Trong số 58 hợp chất có năng lượng liên kết với protein nhỏ hơn phối tử đối chiếu, có 7 hợp chất cho kết quả G nhỏ nhất, với hợp chất ZINC000008790287 cho kết quả là -10.8 Kcal/mol và 6 hợp chất còn lại với năng lượng liên kết là -10.7 Kcal/mol Cấu trúc hóa học và giá trị logIC50 dự đoán của 7 hợp chất được trình bày ở bảng 3.4

Bảng 3.4 Cấu trúc hóa học và giá trị logIC50 dự đoán của 7 hợp chất có kết quả docking tốt nhất

STT ZinC Cấu trúc hóa học G

KẾT QUẢ KHẢO SÁT ĐẶC ĐIỂM DƯỢC ĐỘNG HỌC

Sau khi tiến hành quá trình Docking phân tử, 7 hợp chất ứng viên có năng lượng liên kết giữa phối tử và protein thụ thể nhỏ nhất (Bảng 3.4) sẽ được tiến hành khảo sát đặc điểm dược động học - bao gồm đánh giá sự hấp thu, phân bố, chuyển hóa và thải trừ (ADME) dựa trên nền tảng SwissADME bởi A Daina và cộng sự (2017) [5]

Công cụ SwissADME giới thiệu mô hình “quả trứng luộc” - Boiled Egg - bao gồm vùng lòng đỏ (không gian hóa lý cho khả năng hấp thu qua hàng rào máu não cao), vùng lòng trắng (không gian hóa lý cho khả năng hấp thu qua ruột cao) và vùng xám (không gian hóa lý các phân tử có khả năng hấp thu kém qua cả hàng rào máu não và ruột [5] Kết quả dự đoán khả năng hấp thu qua hàng rào máu não của 7 hợp chất ứng viên được trình bày ở hình 3.9

Hình 3.9 Kết quả dự đoán khả năng hấp thu qua hàng rào máu não của 7 hợp chất ứng viên

Khả năng hấp thu của 7 hợp chất ứng viên được tóm tắt ở bảng 3.5

Bảng 3.5 Khả năng hấp thu của 7 hợp chất ứng viên

STT ZinC Cấu trúc hóa học Dự đoán khả năng hấp thu qua HRMN

Kết quả cho thấy, trong số 7 hợp chất có kết quả Docking tốt nhất được tiến hành khảo sát đặc điểm dược động học, có 3/7 hợp chất cho kết quả tốt nhất, thể hiện tiềm năng hấp thu qua hàng rào máu não (HRMN) (hình 3.9) Như vậy, chỉ có 3 hợp chất ứng viên đáp ứng đầy đủ yêu cầu về khả năng hấp thu qua HRMN và có tiềm năng phát triển thành thuốc, lần lượt là ZINC000008790287 (hợp chất 1); ZINC000096116481 (hợp chất 4) và ZINC000096113994 (hợp chất 7)

Tiến hành khảo sát tiếp các đặc tính giống thuốc của 3 hợp chất trên bằng việc ứng dụng các quy tắc phễu lọc như quy tắc Lipinski, Ghose, Veber, PAINS,… Kết quả được trình bày chi tiết ở Phụ lục 4 của khóa luận và được tóm tắt ở bảng 3.6

Bảng 3.6 Tóm tắt kết quả khảo sát đặc tính giống thuốc của 3 hợp chất ứng viên cuối cùng bằng công cụ SWISSADME

Tiêu chí Hợp chất 1 Hợp chất 4 Hợp chất 7

Các quy tắc giống thuốc Thỏa mãn Vi phạm Thỏa mãn Các quy tắc cấu trúc Vi phạm Thỏa mãn Thỏa mãn Chỉ số khả thi tổng hợp Cao Trung bình Thấp

Nhận xét: Qua kết quả khảo sát đặc tính giống thuốc của 3 hợp chất ứng viên cuối cùng (bảng 3.6), nhìn chung cả 3 hợp chất đều đáp ứng các phễu lọc đặc tính giống thuốc

Duy nhất có hợp chất 4 (ZINC000096116481) vi phạm 1 điều kiện trong quy tắc Ghose: Độ khúc xạ phân tử - MR (Molar Refractivity), nằm trong khoảng từ 40 đến 130 Hợp chất 4 (ZINC000096116481) có giá trị MR > 130, nên vi phạm phễu lọc đặc tính giống thuốc Ở hợp chất 1 (ZINC000008790287), kết quả khảo sát cho thấy hợp chất đều đáp ứng các phễu lọc đặc tính giống thuốc Tuy nhiên, trong cấu trúc của hợp chất 1 (ZINC000008790287) lại tồn tại nhóm 3-methyl-1H-indole-2-yl, là nhóm thế có trong danh sách những nhóm thế vi phạm quy tắc PAINS (Pan-Assay Interference Compounds - Các hợp chất gây nhiễu) Những hợp chất chứa nhóm thế trong danh sách này thường không có hoạt tính sinh học thực sự mà thay vào đó là các tương tác không đặc hiệu hoặc gây phản ứng với nhiều mục tiêu khác nhau, dẫn đến kết quả sai lệch trong các nghiên cứu sàng lọc Do đó cần phải loại những hợp chất vi phạm quy tắc PAINS Ở hợp chất 7 (ZINC000096113994), kết quả khảo sát cho thấy hợp chất đều đáp ứng các phễu lọc đặc tính giống thuốc Ngoài ra, chỉ số khả thi tổng hợp SA (Synthetic Accessibility) của hợp chất 7 thể hiện khá tốt với giá trị 3.37 - thấp nhất trong 3 hợp chất ứng viên cuối cùng Chỉ số này thể hiện mức độ dễ dàng hoặc khó khăn của việc tổng hợp một hợp chất hóa học, được căn cứ trên những tiêu chí như tính phức tạp của cấu trúc, số bước tổng hợp, hiệu suất tổng hợp,… Chỉ số có giá trị chạy từ 1 (mức độ dễ nhất) đến 10 (mức độ khó khăn nhất) Với giá trị 3.37 của hợp chất 7 (ZINC000096113994), tính khả thi để tổng hợp ra hợp chất này là tương đối cao, tạo tiền đề để tiến hành thử nghiệm trên in vitro và in vivo ở giai đoạn tiếp theo

Qua đó, trải qua quy trình sàng lọc ảo bằng mô hình QSAR, kỹ thuật docking phân tử, khảo sát các đặc điểm dược động học và các đặc tính giống thuốc, khóa luận đã lựa chọn ra được hợp chất ZINC000096113994 trở thành hợp chất tiềm năng, có khả năng trở thành thuốc ức chế BACE1 trong điều trị bệnh Alzheimer.

BÀN LUẬN

3.6.1 Về vai trò của trí tuệ nhân tạo - học máy trong nghiên cứu phát triển thuốc mới và tính mới của nghiên cứu

Nghiên cứu này được thực hiện với sự hướng tới khả năng ức chế BACE1, vốn là đích tác dụng tiềm năng trong điều trị Alzheimer và đã được chứng minh trong nhiều nghiên cứu trước đó trên toàn thế giới Tuy nhiên, trong nghiên cứu này, phương pháp tiếp cận có một vài điểm mới, đặc biệt là việc ứng dụng khoa học máy tính vào nghiên cứu phát triển thuốc Trong thời đại công nghệ 4.0, việc ứng dụng phương pháp sàng lọc ảo với trí tuệ nhân tạo - học máy ngày càng được phổ biến rộng rãi trong lĩnh vực nghiên cứu phát triển thuốc mới, đặc biệt là với các thuốc hướng tới các loại bệnh lý phức tạp với đích phân tử khó tiếp cận như bệnh Alzheimer, bệnh ung thư, … Nghiên cứu này đã ứng dụng thành công công cụ học máy - Machine Learning vào lĩnh vực nghiên cứu dược phẩm Đây là xu hướng mới của thế giới khi trí tuệ nhân tạo là một công cụ mạnh được sử dụng rộng rãi hiện nay với nhiều ưu điểm vượt trội, đặc biệt là trong khả năng phân tích và xử lý dữ liệu Việc ứng dụng trí tuệ nhân tạo vào nghiên cứu phát triển thuốc mới đã phát huy điểm mạnh khả năng phân tích và xử lý của máy tính, giúp tăng hiệu quả tìm kiếm và sàng lọc các hợp chất có tiềm năng trở thành thuốc trong tương lai

Ngoài ra, nghiên cứu này đã ứng dụng khả năng xử lý ngôn ngữ tự nhiên (NLP) thông qua thuật toán Mol2vec - một thuật toán được lấy cảm hứng từ Word2vec Mol2vec xem các đặc điểm của cấu trúc hợp chất như là các “từ” và các hợp chất như là “câu”.Qua đó, các biểu diễn nhúng đa chiều của các tiểu cấu trúc được tạo ra, trong đó các vectơ của các tiểu cấu trúc tương đồng về mặt hóa học sẽ chiếm cùng một phần của không gian vectơ Các hợp chất mới sẽ được biểu diễn và mô tả bằng các vectơ cấu trúc con được lấy từ mô hình Mol2vec được huấn luyện từ trước Các vectơ hợp chất có thể dễ dàng được mô tả bởi các vectơ tiểu cấu trúc bằng cách cộng chúng lại, qua đó có thể được sử dụng để tính toán sự tương đồng hợp chất hoặc làm các mô tả đặc trưng trong các tác vụ học máy có giám sát [31] Mol2vec đã và đang được áp dụng trong nhiều nghiên cứu khác nhau hiện nay liên quan đến các đặc điểm cấu trúc hóa học, bao gồm xây dựng mô hình QSAR/QSPR và sàng lọc ảo Một số nghiên cứu đã chứng minh rằng các mô hình được xây dựng bằng cách này mang lại kết quả tương đương hoặc thậm chí vượt trội hơn so với các mô hình xây dựng truyền

36 thống [18] Hiện nay, trên thế giới đã có nhiều nghiên cứu tập trung vào BACE1 như một mục tiêu phân tử tiềm năng trong việc phát triển thuốc mới điều trị bệnh Alzheimer Tuy nhiên, chưa có nghiên cứu nào trong số đó ứng dụng khả năng xử lý ngôn ngữ tự nhiên (NLP) hay cụ thể là thuật toán Mol2vec Điều này làm cho nghiên cứu của khóa luận thể hiện rõ ràng tính mới so với những nghiên cứu trước đây về sàng lọc ảo với mục tiêu phân tử BACE1

Cuối cùng, nghiên cứu này đã ứng dụng các sản phẩm của trí tuệ nhân tạo bằng cách kết hợp nhiều công cụ, tạo thành một hệ thống phễu lọc để sàng lọc các hợp chất có tiềm năng trở thành thuốc mới Nghiên cứu đã tích hợp nhiều phương pháp khác nhau như xây dựng mô hình dự đoán QSAR, đánh giá khả năng tương tác của hợp chất với thụ thể bằng kỹ thuật docking phân tử, và đánh giá các đặc điểm dược động học cũng như đặc tính giống thuốc của hợp chất Việc kết hợp nhiều công cụ và phương pháp này giúp tăng hiệu quả trong việc sàng lọc các hợp chất tiềm năng với độ chính xác và độ tin cậy cao

3.6.2 Về xây dựng mô hình QSAR và ứng dụng trong sàng lọc ảo

Về phương pháp xây dựng mô hình QSAR

Nhóm nghiên cứu sử dụng bộ dữ liệu mẫu (CSDL1) gồm 1138 hợp chất để huấn luyện mô hình QSAR Đây là điểm mạnh của nghiên cứu vì kích thước mẫu lớn của CSDL1 giúp nhóm nghiên cứu có thể tận dụng tối đa khả năng xử lý dữ liệu và học máy của khoa học máy tính, từ đó xây dựng mô hình dự đoán có độ chính xác và độ tin cậy cao dựa trên nền tảng là trí tuệ nhân tạo

Cơ sở dữ liệu sàng lọc đầu vào của nghiên cứu (CSDL2) rất lớn với hơn 220000 hợp chất được thu thập từ nguồn cơ sở dữ liệu ZINC Điều này làm cho nghiên cứu này có thể sàng lọc trên một nguồn dữ liệu lớn, giúp tận dụng tối đa khả năng phân tích và xử lý dữ liệu của máy tính, từ đó làm tăng hiệu quả trong việc tìm kiếm hợp chất tiềm năng ức chế BACE1, góp phần thúc đẩy quá trình nghiên cứu phát triển thuốc mới trong điều trị bệnh Alzheimer

Nghiên cứu này đã thành công trong việc ứng dụng xử lý ngôn ngữ tự nhiên (NLP) vào quá trình tính toán tham số phân tử thông qua thuật toán Mol2vec, nhờ đó các hợp chất mới được biểu diễn và mô tả bằng các vectơ cấu trúc con từ mô hình Mol2vec đã được huấn luyện trước, bằng cách cộng lại các vectơ này Điều này cho phép tính toán sự tương đồng của các hợp chất hoặc làm các mô tả đặc trưng trong các tác vụ học máy có giám sát [31] Cách tiếp cận mới này đã cải thiện đáng kể khả năng tính toán tham số phân tử của mô hình, cung cấp nguồn dữ liệu đầu vào đáng tin cậy hơn và nâng cao độ chính xác của mô hình dự đoán Một số nghiên cứu đã chứng minh rằng các mô hình được xây dựng bằng phương này mang lại kết quả

37 tương đương hoặc thậm chí vượt trội hơn so với các mô hình xây dựng truyền thống [18]

Về kết quả xây dựng, đánh giá mô hình QSAR

Sau khi ngẫu nhiên chia 1138 hợp chất từ CSDL1 thành tập huấn luyện và tập kiểm tra, nghiên cứu đã xây dựng các mô hình QSAR bằng ngôn ngữ lập trình Python với 7 thuật toán khác nhau Dựa trên khả năng dự đoán được đánh giá qua các thông số mô hình, nghiên cứu đã chọn mô hình M2, được xây dựng bằng thuật toán vectơ hỗ trợ hồi quy (Support Vector Regression - SVR), để áp dụng vào quá trình sàng lọc ở các bước tiếp theo do có độ chính xác dự đoán cao nhất

Kết quả dự đoán logIC50 của mô hình M2 đối với các hợp chất trong tập huấn luyện khá gần với giá trị logIC50 thực tế Hệ số xác định (R²) của mô hình M2 trên cả tập huấn luyện và tập kiểm tra đều lớn hơn 0.6, chứng tỏ mô hình có khả năng giải thích biến động của dữ liệu khá tốt Các giá trị sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE) của mô hình đều nằm trong phạm vi chấp nhận được, cho thấy mô hình M2 không bị quá khớp và có khả năng tổng quát hóa tốt trên dữ liệu mới

Về ứng dụng mô hình QSAR trong sàng lọc ảo

Nghiên cứu này tập trung vào sàng lọc ảo để sàng lọc và khảo sát các đặc tính lý hóa và khả năng tương tác thuốc - đích của các hợp chất tiềm năng, vốn là bước đầu trong quá trình nghiên cứu phát triển thuốc mới Ưu điểm lớn nhất của sàng lọc ảo là tiết kiệm đáng kể thời gian và chi phí so với các con đường nghiên cứu phát triển thuốc thông thường khác, vốn phải trải qua các bước như tổng hợp, chiết xuất để thu được hợp chất tinh khiết rồi hướng tới nghiên cứu các đặc tính và tương tác lý hóa của hợp chất Việc nắm rõ cấu trúc, sàng lọc và khảo sát các đặc điểm lý hóa của hợp chất qua quá trình sàng lọc ảo trên máy tính sẽ giúp người làm nghiên cứu tối ưu được quá trình nghiên cứu, từ đó nâng cao hiệu suất và giảm thời gian lẫn chi phí cho nghiên cứu Với những ưu điểm đó, sự quan tâm của các nhà khoa học trên toàn cầu đối với lĩnh vực sàng lọc ảo đang ngày càng gia tăng khi mỗi năm, hàng trăm công bố về các ứng dụng thành công của sàng lọc ảo được xuất bản trên các tạp chí khoa học [6]

Mặc dù có nhiều ưu điểm, phương pháp sàng lọc ảo cũng có một số hạn chế Các hạn chế này bao gồm sự khác biệt giữa mô phỏng trên không gian ảo và quá trình diễn ra trong cơ thể người, cũng như yêu cầu độ chính xác cao trong việc xác định cấu trúc 3D của protein thụ thể đích Do đó, để phát hiện các hợp chất tiềm năng trở thành thuốc mới thông qua phương pháp sàng lọc ảo, các nhà nghiên cứu cần thiết lập quy trình sàng lọc ảo có hệ thống.

38 thống với nhiều phễu lọc có độ chính xác và độ tin cậy cao Bên cạnh đó, việc kết hợp phương pháp sàng lọc ảo - dry lab với quá trình thực nghiệm - wet lab là rất quan trọng và cần thiết, giúp các nhà khoa học có thể hiện thực hóa nghiên cứu - vốn chỉ được thực hiện trên máy tính

3.6.3 Về kỹ thuật docking phân tử

Mô phỏng tương tác phân tử (Docking) là kỹ thuật thiết yếu trong khám phá thuốc nhờ dự đoán chính xác tương tác thụ thể-phối tử Tuy nhiên, Docking cũng có hạn chế: yêu cầu thông tin cấu trúc 3D của protein đích và không tính đến thay đổi cấu dạng, tương tác Vander Waals, tĩnh điện hoặc hóa học giữa các phân tử Những hạn chế này ảnh hưởng đến độ chính xác của Docking, đòi hỏi các phương pháp bổ sung để xác nhận kết quả dự đoán.

Hiện nay, với sự phát triển của khoa học và công nghệ, trên thế giới có rất nhiều các phần mềm có thể thực hiện được nghiên cứu docking Trong AutoDock, chức năng tính điểm (scoring function) đóng vai trò quan trọng trong quá trình dự đoán và đánh giá tương tác giữa protein thụ thể và phối tử trong quá trình docking Scoring function được sử dụng để tính toán năng lượng của các cấu trúc phức hợp protein - phối tử được dự đoán, và từ đó xác định xem liệu cấu trúc đó có đáng tin cậy hay không Scoring function được sử dụng để đánh giá và xếp hạng các cấu trúc phức hợp dự đoán Các điểm số càng thấp thường chỉ ra một cấu trúc phức hợp protein - phối tử có năng lượng liên kết thấp và được coi là ổn định hơn và có khả năng gắn kết cao hơn Ngoài ra, các tham số trong chức năng chấm điểm của phần mềm này được thiết kế cho người dùng có thể điều chỉnh trong từng trường hợp cụ thể Do đó nghiên cứu này lựa chọn tiến hành kỹ thuật docking với phần mềm AutoDock Vina để đạt được kết quả có độ tin cậy cao

3.6.4 Về kết quả sàng lọc ảo

Về kết quả sàng lọc bằng mô hình QSAR

Mô hình QSAR được ứng dụng để sàng lọc bước đầu 224205 hợp chất từ CSDL2 Sau khi xác định miền ứng dụng của mô hình, số hợp chất phù hợp với miền ứng dụng của mô hình còn lại 23511 hợp chất

Ngày đăng: 23/08/2024, 00:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
31. Sabrina Jaeger, Simone Fulle, and Samo Turk (2018), “Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition”, Journal of Chemical Information and Modeling, 58 (1), pp.27-35 Sách, tạp chí
Tiêu đề: Mol2vec: Unsupervised Machine Learning Approach with Chemical Intuition”, "Journal of Chemical Information and Modeling
Tác giả: Sabrina Jaeger, Simone Fulle, and Samo Turk
Năm: 2018
34. Sosibo, Sphelele &amp; Amoako, Daniel &amp; Somboro, Anou &amp; Sun, Darren &amp; Ngila, Jane &amp; Kumalo, Hezekiel. (2019), “Understanding the Binding Mechanism of Antagonist (AZD3293) Against BACE-1: Molecular Insights into Alzheimer’s Drug Discovery”, Letters in Drug Design &amp; Discovery, 17(7), pp. 850-857(8) Sách, tạp chí
Tiêu đề: Understanding the Binding Mechanism of Antagonist (AZD3293) Against BACE-1: Molecular Insights into Alzheimer’s Drug Discovery”, "Letters in Drug Design & Discovery
Tác giả: Sosibo, Sphelele &amp; Amoako, Daniel &amp; Somboro, Anou &amp; Sun, Darren &amp; Ngila, Jane &amp; Kumalo, Hezekiel
Năm: 2019
35. Tenorio, Yair &amp; Hernandez-Santoyo, Alejandra &amp; Altuzar, Victor &amp; Vivanco- Cid, Hector &amp; Mendoza-Barrera, Claudia. (2013), “Protein-Protein and Protein-Ligand Docking”, Protein Engineering - Technology and Application, InTech, 10.5772/56376 Sách, tạp chí
Tiêu đề: Protein-Protein and Protein-Ligand Docking”, "Protein Engineering - Technology and Application, InTech
Tác giả: Tenorio, Yair &amp; Hernandez-Santoyo, Alejandra &amp; Altuzar, Victor &amp; Vivanco- Cid, Hector &amp; Mendoza-Barrera, Claudia
Năm: 2013
36. Tropsha A., Golbraikh A. (2007), “Predictive QSAR modelling workflow, model applicability domains, and virtual screening”, Current pharmaceutical design, 13(34), pp.3494-3504 Sách, tạp chí
Tiêu đề: Predictive QSAR modelling workflow, model applicability domains, and virtual screening”, "Current pharmaceutical design
Tác giả: Tropsha A., Golbraikh A
Năm: 2007
37. Veerasamy, Ravichandran &amp; Rajak, Harish &amp; Jain, Avijeet &amp; Sivadasan, Shalini &amp; Christapher, Parayil Varghese &amp; Agrawal, Ram. (2011), “Validation of QSAR Models - Strategies and Importance”, Int J Drug Design and Discov Sách, tạp chí
Tiêu đề: Validation of QSAR Models - Strategies and Importance”
Tác giả: Veerasamy, Ravichandran &amp; Rajak, Harish &amp; Jain, Avijeet &amp; Sivadasan, Shalini &amp; Christapher, Parayil Varghese &amp; Agrawal, Ram
Năm: 2011
38. W. Patrick Walters and Renxiao Wang (2019), “New Trends in Virtual Screening”, Journal of Chemical Information and Modeling, 59 (9), pp.3603- 3604 Sách, tạp chí
Tiêu đề: New Trends in Virtual Screening”, "Journal of Chemical Information and Modeling
Tác giả: W. Patrick Walters and Renxiao Wang
Năm: 2019
39. Weaver Shane, Gleeson M. Paul (2008), “The importance of the domain of applicability in QSAR modeling”, Journal of Molecular Graphics and Modelling, 26, pp.1315-1326 Sách, tạp chí
Tiêu đề: The importance of the domain of applicability in QSAR modeling”, J"ournal of Molecular Graphics and Modelling
Tác giả: Weaver Shane, Gleeson M. Paul
Năm: 2008
41. Yee L. C., Wei Y. C. (2012), "Current modeling methods used in QSAR/QSPR", Statistical modelling of molecular descriptors in QSAR/QSPR, 2, pp.1-31 Sách, tạp chí
Tiêu đề: Current modeling methods used in QSAR/QSPR
Tác giả: Yee L. C., Wei Y. C
Năm: 2012
42. Zakaria, M., Al-Shebany, M.A., &amp; Sarhan, S. (2014), “Artificial Neural Network : A Brief Overview”, Int. Journal of Engineering Research and Applications, 2248-9622, Vol. 4, Issue 2( Version 1), pp.07-12.WEBSITE Sách, tạp chí
Tiêu đề: Artificial Neural Network : A Brief Overview”, "Int. Journal of Engineering Research and Applications
Tác giả: Zakaria, M., Al-Shebany, M.A., &amp; Sarhan, S
Năm: 2014
43. Alzheimer’s Disease International. (20/04/2024), Dementia facts figures. https://www.alzint.org/about/dementia-facts-figures/dementia-statistics/ Sách, tạp chí
Tiêu đề: Dementia facts figures
44. Irwin, J., Tang, K., Young, J., Dandarchuluun, C., Wong, E., Khurelbaatar, T., Moroz, Y., Mayfield, J., &amp; Sayle, R. (15/09/2023), ZINC 20.https://zinc.docking.org/ Sách, tạp chí
Tiêu đề: ZINC 20
45. Stanford Medicine Health Care. (10/04/2024), Medications for Alzheimer's Disease. https://stanfordhealthcare.org/ Sách, tạp chí
Tiêu đề: Medications for Alzheimer's Disease
46. Yang, W., Lu, W., Lu, Y., Zhong, M., Sun, J., Thomas, A. E., Wilkinson, J. M., Fucini, R. V., Lam, M., Randal, M., Shi, X. P., Jacobs, J. W., McDowell, R. S., Gordon, E. M., &amp; Ballinger, M. D. (15/09/2023), RCSB Protein Data Bank.https://doi.org/10.2210/pdb2fdp/pdb Sách, tạp chí
Tiêu đề: RCSB Protein Data Bank
40. Wenjin Yang, Wanli Lu, Yafan Lu, Min Zhong, Jian Sun, Anila E. Thomas, Jennifer M. Wilkinson, Raymond V. Fucini, Melissa Lam, Mike Randal, Xiao- Ping Shi, Jeffrey W. Jacobs, Robert S. McDowell, Eric M. Gordon, and Marcus Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN