1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu xây dựng mô hình in siloco dự đoán một số tính chất dược động học quan trọng của thuốc

50 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN THỊ HẢI YẾN NGHIÊN CỨU XÂY DỰNG MƠ HÌNH IN SILICO DỰ ĐỐN MỘT SỐ TÍNH CHẤT DƯỢC ĐỘNG HỌC QUAN TRỌNG CỦA THUỐC KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ HÀ NỘI - 2020 BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN THỊ HẢI YẾN MÃ SINH VIÊN: 1501567 NGHIÊN CỨU XÂY DỰNG MƠ HÌNH IN SILICO DỰ ĐỐN MỘT SỐ TÍNH CHẤT DƯỢC ĐỘNG HỌC QUAN TRỌNG CỦA THUỐC KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn: TS Phạm Thế Hải Nơi thực hiện: Bộ môn Hoá Dược HÀ NỘI - 2020 LỜI CẢM ƠN Trong q trình thực khóa luận tốt nghiệp, tơi may mắn nhận hướng dẫn tận tình, giúp đỡ lời động viên đến từ thầy cơ, người bạn gia đình tơi Tôi xin gửi lời cảm ơn chân thành đến người có ý nghĩa lớn tơi năm tháng sinh viên Trước tiên, xin thể lịng biết ơn đến với thầy TS Phạm Thế Hải – người thầy dẫn dắt bước đầu đến với nghiên cứu khoa học Thầy khơng chỉ dẫn tận tình từ kiến thức mà đưa giải pháp, định hướng giúp vượt qua khó khăn q trình tơi thực khóa luận tốt nghiệp tạo cho nhiều hội trau dồi tăng cường kĩ quan trọng làm nghiên cứu khoa học Tôi xin cảm ơn thầy cô mơn Hóa dược trường Đại học Dược nhiệt tình hỗ trợ, tạo điều kiện cho tơi hồn thành khóa luận tốt nghiệp Tơi xin gửi lời cảm ơn đến tất thầy cô giáo Ban giám hiệu trường Đại học Dược Hà Nội truyền đạt giảng dạy kiến thức cho tôi, tạo hội cho thực nghiên cứu khoa học khóa luận tốt nghiệp Cuối cùng, tơi xin cảm ơn gia đình bạn bè tơi, người bên cạnh tôi, truyền động lực cho ủng hộ với đường mà chọn Hà Nội, ngày tháng năm 2020 Sinh viên Nguyễn Thị Hải Yến MỤC LỤC DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ ĐẶT VẤN ĐỀ CHƯƠNG TỔNG QUAN 1.1 Tổng quan thông số dược động học quan trọng thuốc 1.2 Tổng quan phương pháp Học máy 1.2.1 Định nghĩa Học máy 1.2.2 Quy trình Học máy 1.2.3 Phân loại CHƯƠNG NGUYÊN LIỆU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13 2.1 Nguyên liệu công cụ sử dụng 13 2.1.1 Nguyên liệu 13 2.1.2 Công cụ sử dụng 13 2.2 Nội dung nghiên cứu 15 2.3 Phương pháp nghiên cứu 17 2.3.1 Tính tham số phân tử DRAGON 17 2.3.2 Tiền xử lý liệu 19 2.3.3 Giảm chiều liệu kĩ thuật Phân tích khác biệt tuyến tính (LDA) 20 2.3.4 Xây dựng Mơ hình thuật tốn XGBoost 21 2.3.5 Các thông số đánh giá mơ hình 22 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 24 3.1 Kết mơ hình dự đốn 24 3.1.1 Mơ hình dự đốn Sinh khả dụng chất 24 3.1.2 Mơ hình dự đốn Phần trăm hấp thu qua ruột người (HIA) 27 3.1.3 Mơ hình dự đốn Khả ức chế men chuyển hóa thuốc CYP3A4 30 3.1.4 Mơ hình dự đốn Khả ức chế bơm tống thuốc P-Glucoprotein (P-gp) 33 3.1.5 Mơ hình dự đốn Độ tan chất 36 3.2 Bàn luận phương pháp nghiên cứu 38 3.2.1 Về ưu điểm phương pháp 38 3.2.2 Về hạn chế phương pháp 38 KẾT LUẬN VÀ KIẾN NGHỊ 40 TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT STT Viết tắt Viết đầy đủ Absorption, ADME Dịch nghĩa distribution, Hấp metabolism, excretion thu, phân bố, chuyển hóa, thải trừ Hấp thu qua ruột HIA Human Intestinal Absorption người Phân tích khác biệt LDA Linear Discriminant Analysis tuyến tính Tăng cường độ dốc hết XGBoost Extreme Gradient Boosting sức Hồi quy tuyến tính đa MLR Multiple Linear Regression biến DANH MỤC BẢNG BIỂU Bảng 2-1 Cơ sở liệu nghiên cứu 13 Bảng 2-2 Khối mô tả phân tử phần mềm DRAGON 18 Bảng 2-3 Ma trận nhầm lẫn 22 Bảng 3-1 Kết mơ hình dự đốn 24 Bảng 3-2 Ma trận nhầm lẫn mơ hình M1 với tập kiểm thử 27 Bảng 3-3 Ma trận nhầm lẫn mơ hình M2 với tập kiểm thử 30 Bảng 3-4 Ma trận nhầm lẫn mơ hình M3 với tập kiểm thử 33 Bảng 3-5.Ma trận nhầm lẫn mơ hình M4 với tập kiểm thử 36 DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ Hình 1.1 Sơ đồ biểu diễn trình xảy với thuốc thể sau uống Hình 1.2 Quy trình học máy theo Tom Mitchell Hình 1.3 Các bước thực toán học máy Hình 1.4 Phương pháp 5-Fold Cross Validation Hình 2.3 Các thơng số thuật tốn XGBoost phân loại 22 Hình 2.4 Các thơng số thuật toán XGBoost hồi quy 22 Hình 3.1 Đồ thị biểu diễn tập huấn luyện mơ hình M1 sau xử lý giá trị bị thiếu 25 Hình 3.2 Đồ thị biểu diễn tập huấn luyện mơ hình M1 sau chuẩn hóa liệu 25 Hình 3.3.Đồ thị biểu diễn tập huấn luyện mơ hình M1 sau giảm chiều liệu với LDA 26 Hình 3.4 Đồ thị biểu diễn tập kiểm thử mơ hình M1 sau giảm chiều liệu với LDA 26 Hình 3.5 Ma trận nhầm lẫn mơ hình M1 với tập kiểm thử với thuật toán XGBoost 27 Hình 3.6 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau xử lý giá trị bị thiếu 28 Hình 3.7 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau chuẩn hóa liệu 28 Hình 3.8 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau giảm chiều liệu với LDA 29 Hình 3.9 Đồ thị biểu diễn tập kiểm thử mơ hình M2 sau giảm chiều liệu với LDA 29 Hình 3.10 Ma trận nhầm lẫn mơ hình M2 với tập kiểm thử với thuật toán XGBoost 30 Hình 3.11 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau xử lý giá trị bị thiếu 31 Hình 3.12 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau chuẩn hóa liệu 31 Hình 3.13 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau giảm chiều liệu với LDA 32 Hình 3.14 Đồ thị biểu diễn tập kiểm thử mơ hình M3 sau giảm chiều liệu với LDA 32 Hình 3.15 Ma trận nhầm lẫn mơ hình M3 với tập kiểm thử với thuật toán XGBoost 33 Hình 3.16 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau xử lý giá trị bị thiếu 34 Hình 3.17 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau chuẩn hóa liệu 34 Hình 3.18 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau giảm chiều liệu với LDA 35 Hình 3.19 Đồ thị biểu diễn tập kiểm thử mơ hình M4 sau giảm chiều liệu với LDA 35 Hình 3.20 Ma trận nhầm lẫn mơ hình M4 với tập kiểm thử với thuật toán XGBoost 36 Hình 3.21 Đồ thị biểu diễn tập huấn luyện mơ hình M5 sau xử lý giá trị bị thiếu 37 Hình 3.22 Đồ thị biểu diễn tập huấn luyện mơ hình M5 sau chuẩn hóa liệu 37 Hình 3.23 Đồ thị biểu diễn vị trí liệu tập kiểm thử mơ hình M5 38 ĐẶT VẤN ĐỀ Nghiên cứu phát triển thuốc trình khó khăn, tốn thời gian chi phí Q trình kéo dài từ 10 đến 15 năm với chi phí lên tới hàng tỷ đô la Mỹ Không vậy, trình đầy rủi ro, với tỷ lệ thất bại lên tới 90% [10] Theo thống kê, 10% ứng viên ứng viên phải dừng bước đường phát triển thành thuốc sở hữu đặc tính dược động học không phù hợp, đặc biệt thông số liên quan đến hấp thu, phân bố, chuyển hóa thải trừ (ADME) Vì vậy, việc dự đốn sớm thông số ADME yêu cầu cấp bách ngành công nghiệp dược Mặt khác, mơ hình dự đốn phương pháp Học máy trở thành công cụ phổ biến ứng dụng nghiên cứu phát triển thuốc Các mơ hình này, dựa thơng tin cấu trúc hố học, cho phép dự đốn thơng số ADME với chi phí rẻ độ xác cao Tuy nhiên, Việt Nam hướng nghiên cứu dự đoán tính chất dược động học sử dụng mơ hình phương pháp Học máy chưa quan tâm cao Do chúng tơi tiến hành nghiên cứu đề tài “Xây dựng mơ hình in silico dự đốn số tính chất dược động học quan trọng thuốc” với mục tiêu: Tạo mơ hình dự đốn số thông số ADME quan trọng sinh khả dụng, độ tan, phần trăm hấp thu qua ruột tương tác với protein chuyển hoá bước I thuốc (CYP3A4 P-Glycoprotein) Dưới đồ thị ma trận nhầm lẫn (confusion matrix) dùng để đánh giá chất lượng dự đốn mơ hình sau dùng thuật tốn XGBoost Hình 3.5 Ma trận nhầm lẫn mơ hình M1 với tập kiểm thử với thuật tốn XGBoost Bảng 3-2 Ma trận nhầm lẫn mơ hình M1 với tập kiểm thử Giá trị mơ hình dự đoán Giá trị thực tế H L M H 28 28 L 25 30 M 16 97 Độ xác mơ hình với tập huấn luyện: 0.81 Độ xác mơ hình với tập kiểm thử: 0.74 3.1.2 Mơ hình dự đốn Phần trăm hấp thu qua ruột người (HIA) 27 Hình 3.6 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau xử lý giá trị bị thiếu Hình 3.7 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau chuẩn hóa liệu 28 Hình 3.8 Đồ thị biểu diễn tập huấn luyện mơ hình M2 sau giảm chiều liệu với LDA Hình 3.9 Đồ thị biểu diễn tập kiểm thử mơ hình M2 sau giảm chiều liệu với LDA 29 Hình 3.10 Ma trận nhầm lẫn mơ hình M2 với tập kiểm thử với thuật toán XGBoost Bảng 3-3 Ma trận nhầm lẫn mơ hình M2 với tập kiểm thử Giá trị dự đốn Cao (H) Trung bình (M) Thấp (L) Giá trị Cao (H) 53 thực tế Trung bình (M) Thấp (L) 12 10 Độ xác mơ hình với tập huấn luyện: 0.89 Độ xác mơ hình với tập kiểm thử: 0.77 3.1.3 Mơ hình dự đốn Khả ức chế men chuyển hóa thuốc CYP3A4 30 Hình 3.11 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau xử lý giá trị bị thiếu Hình 3.12 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau chuẩn hóa liệu 31 Hình 3.13 Đồ thị biểu diễn tập huấn luyện mơ hình M3 sau giảm chiều liệu với LDA Trên đồ thị Hình 3.13, điểm H, M, L không mô tả điểm nhiều mà nhiều điểm liệu chồng lên sau sử dụng thuật tốn LDA Hình 3.14 Đồ thị biểu diễn tập kiểm thử mơ hình M3 sau giảm chiều liệu với LDA 32 Hình 3.15 Ma trận nhầm lẫn mơ hình M3 với tập kiểm thử với thuật toán XGBoost Bảng 3-4 Ma trận nhầm lẫn mơ hình M3 với tập kiểm thử Giá trị mơ hình dự đốn Có (Active) Khơng (Inactive) Giá trị Có (Active) 787 192 thực tế Khơng (Inactive) 324 1121 Độ xác mơ hình với tập huấn luyện: 0.90 Độ xác mơ hình với tập kiểm thử: 0.79 3.1.4 Mơ hình dự đốn Khả ức chế bơm tống thuốc P-Glucoprotein (Pgp) 33 Hình 3.16 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau xử lý giá trị bị thiếu Hình 3.17 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau chuẩn hóa liệu 34 Hình 3.18 Đồ thị biểu diễn tập huấn luyện mơ hình M4 sau giảm chiều liệu với LDA Hình 3.19 Đồ thị biểu diễn tập kiểm thử mơ hình M4 sau giảm chiều liệu với LDA 35 Hình 3.20 Ma trận nhầm lẫn mơ hình M4 với tập kiểm thử với thuật toán XGBoost Bảng 3-5.Ma trận nhầm lẫn mơ hình M4 với tập kiểm thử Giá trị mơ hình dự đốn Có (Active) Khơng (Inactive) Giá trị Có (Active) 90 thực tế Khơng (Inactive) 152 Độ xác mơ hình với tập huấn luyện: 0.99 Độ xác mơ hình với tập kiểm thử: 0.95 3.1.5 Mơ hình dự đốn Độ tan chất Mơ hình dự đốn Độ tan chất mơ hình hồi quy, kết trả giá trị độ tan chất cần dự đốn, thể giá trị logS 36 Hình 3.21 Đồ thị biểu diễn tập huấn luyện mơ hình M5 sau xử lý giá trị bị thiếu Hình 3.22 Đồ thị biểu diễn tập huấn luyện mơ hình M5 sau chuẩn hóa liệu 37 Hình 3.23 Đồ thị biểu diễn vị trí liệu tập kiểm thử mơ hình M5 Trên hình 3.23, đường màu đỏ biểu diễn mơ hình xây dựng thuật toán XGBoost với tập huấn luyện liệu Độ tan chất Các điểm xanh đồ thị biểu diễn liệu lại tập kiểm thử, điểm chủ yếu tập trung xung quanh đường màu đỏ chứng minh mơ hình thu có khả dự đốn tốt Độ tan chất Độ xác mơ hình với tập huấn luyện: 0.99 Độ xác mơ hình với tập kiểm thử: 0.92 3.2 Bàn luận phương pháp nghiên cứu 3.2.1 Về ưu điểm phương pháp Các mơ hình dự đốn cho kết có độ xác cao (74%-95%) ứng dụng việc dự đốn tính chất dược động học thuốc Trong giai đoạn sớm trình nghiên cứu thuốc cân nhắc loại bỏ chất mơ hình dự đốn có sinh khả dụng thấp giúp giảm bớt gánh nặng cho giai đoạn nghiên cứu Nghiên cứu thực hoàn tồn máy tính nên tiết kiệm thời gian, chi phí, nguồn lực 3.2.2 Về hạn chế phương pháp 38 Xây dựng mơ hình Học máy địi hỏi người nghiên cứu cần có kiến thức chắn khơng dược học mà cịn tin học, thống kê Mơ hình dự đốn có xác hay khơng cịn phụ thuộc vào liệu thu thập nghiên cứu cần phải thu thập liệu có độ tin cậy cao đồng thời cần phải thẩm định lại chất lượng liệu Ngoài ra, việc tính tham số phân tử phần mềm DRAGON chứa mô tả đơn lẻ mà số lượng nhỏ mơ tả khơng thể đại diện hồn tồn cho độ phức tạp phân tử hay mơ hình hóa tất tính chất hóa lý tương tác sinh học chất 39 KẾT LUẬN VÀ KIẾN NGHỊ KẾT LUẬN Từ kết nghiên cứu trình bày rút kết luận sau: Đã xây dựng thành cơng mơ hình dự đoán sinh khả dụng, độ tan, phần trăm hấp thu qua ruột, khả ức chế men chuyển hóa thuốc CYP3A4 P-Glycoprotein Mơ hình dự đốn độ tan khả ức P-Glucoprotein có độ xác cao 92% 95% chứng minh có mối liên quan chặt chẽ cấu trúc chất với tính chất KIẾN NGHỊ Để ứng dụng tiếp tục phát triển kết nghiên cứu khóa luận q trình tìm kiếm thuốc mới, chúng tơi xin đưa đề xuất sau: Sử dụng thuật toán phương pháp Học máy xây dựng mơ hình dự đốn thơng số q trình ADME Tích hợp mơ hình dự đốn tính chất đơn lẻ thành mơ hình dự đốn đồng thời nhiều tính chất dược động học chất 40 TÀI LIỆU THAM KHẢO TIẾNG ANH Alex C (2016), Machine Learning: A Complete and Detailed Overview Andrea M., Viviana C (2006), "DRAGON software: An easy approach to molecular descriptor calculations", MATCH Communications in Mathematical and in Computer Chemistry, 56(2), pp.237-248 Ketan T S., Anuradha K G., Jignasa K S (2012), “Drug Solubility: Importance and Enhancement Techniques”, ISRN Pharm Klopman G., Stefan L R., Saiakhov R D (2002), “ADME evaluation: A computer model for the prediction of intestinal absorption in humans”, Eur J Pharm Sci, 17(4-5), pp.253-263 Kohavi R (1995), “A study of cross-validation and bootstrap for accuracy estimation and model selection”, Proc 14th Int Jt Conf Artif Intell Vol Jason B., “Algorithm Descriptions”, Master Machine Learning Algorithms Jerome H F., Greedy Function Approximation: A Gradient Boosting Machine John R H., Philip H (2008), “Drug Transporters: The Final Frontier for Drug Interactiobs”, Pharmacy Times Mitchell T M (1997) “Key Ideas in Machine Learning”, Machine Learning 10 Tetko I V., Tanchuk V Y., Kasheva T N., Villa A E (2001), “Estimation of aqueous solubility of chemical compounds using E-state indices”, J Chem Inf Comput Sci, 41(6), pp.1488-1493 11 Walker D K (2004), “The use of pharmacokinetic and pharmacodynamics data in the assessment of drug safety in early drug development”, British Journal of Clinical Pharmacology, 58(6), pp.601–608 ... hướng nghiên cứu dự đốn tính chất dược động học sử dụng mơ hình phương pháp Học máy cịn chưa quan tâm cao Do tiến hành nghiên cứu đề tài ? ?Xây dựng mô hình in silico dự đốn số tính chất dược động học. .. TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN THỊ HẢI YẾN MÃ SINH VIÊN: 1501567 NGHIÊN CỨU XÂY DỰNG MƠ HÌNH IN SILICO DỰ ĐỐN MỘT SỐ TÍNH CHẤT DƯỢC ĐỘNG HỌC QUAN TRỌNG CỦA THUỐC KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ... Học máy Trong nghiên cứu này, mơ hình dự đốn xây dựng phương pháp Học máy Học máy lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu

Ngày đăng: 29/10/2020, 23:40

Xem thêm:

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN