Phát triển các mô hình hóa tính toán trên protein có khả năng dự đoán tác dụng ức chế chọn lọc histon deacetylase của các dẫn xuất acid hydroxamic khóa luận tốt nghiệp dược sĩ
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,1 MB
Nội dung
BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN THỊ PHƯƠNG ANH PHÁT TRIỂN CÁC MƠ HÌNH HĨA TÍNH TỐN TRÊN PROTEIN CĨ KHẢ NĂNG DỰ ĐỐN TÁC DỤNG ỨC CHẾ CHỌN LỌC HISTON DEACETYLASE CỦA CÁC DẪN XUẤT ACID HYDROXAMIC KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ HÀ NỘI – 2023 BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN THỊ PHƯƠNG ANH Mã sinh viên: 1801031 PHÁT TRIỂN CÁC MƠ HÌNH HĨA TÍNH TỐN TRÊN PROTEIN CĨ KHẢ NĂNG DỰ ĐOÁN TÁC DỤNG ỨC CHẾ CHỌN LỌC HISTON DEACETYLASE CỦA CÁC DẪN XUẤT ACID HYDROXAMIC KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn: PGS TS Phạm Thế Hải Nơi thực hiện: Khoa Cơng nghệ Hóa Dược HÀ NỘI – 2023 LỜI CẢM ƠN Trước hết, xin bày tỏ lòng biết ơn sâu sắc gửi lời cảm ơn chân thành tới PGS TS Phạm Thế Hải, giảng viên Bộ mơn Hóa Dược, Khoa Cơng nghệ Hóa Dược, Trường Đại học Dược Hà Nội – người bảo, dẫn dắt đến với nghiên cứu khoa học thực khóa luận Thầy khơng truyền dạy cho kiến thức kinh nghiệm mà đam mê niềm tin với đường nghiên cứu khoa học, động lực lớn giúp tơi vượt qua khó khăn, thử thách bước tiếp đường Tôi vô biết ơn thầy Khoa Cơng nghệ Hóa Dược tạo điều kiện thuận lợi cho học tập, nghiên cứu hồn thành khóa luận Bên cạnh đó, tơi xin gửi lời cảm ơn tới ban lãnh đạo thầy cô Trường Đại học Dược Hà Nội giúp đỡ, tạo điều kiện để học tập rèn luyện Trường suốt năm học qua Sau cùng, xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè, người đồng hành tôi, ủng hộ đường chọn giúp đỡ, động viên tơi vượt qua khó khăn suốt q trình học tập thực khóa luận Dù cố gắng kiến thức kỹ tơi cịn hạn chế nên khóa luận cịn nhiều điều thiếu sót Tơi mong nhận ý kiến đóng góp thầy để khóa luận tơi hồn thiện Tôi xin chân thành cảm ơn Hà Nội, ngày 31 tháng 05 năm 2023 Sinh viên Nguyễn Thị Phương Anh MỤC LỤC DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ ĐẶT VẤN ĐỀ .1 CHƯƠNG TỔNG QUAN 1.1 HISTON DEACETYLASE .2 1.1.1 Đại cương Histon deacetylase 1.1.2 Phân loại Histon deacetylase .3 1.1.3 Cấu trúc trung tâm hoạt động Histon Deacetylase 1.1.4 Vai trò Histon deacetylase ung thư 1.1.5 Các chất ức chế Histon deacetylase .6 1.2 PHƯƠNG PHÁP PROTEOCHEMOMETRICS .7 1.2.1 Đại cương phương pháp proteochemometrics 1.2.2 Cơ sở liệu 1.2.3 Tham số mơ tả hợp chất hóa học protein 1.2.4 Các thuật toán học máy 10 CHƯƠNG ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .14 2.1 ĐỐI TƯỢNG NGHIÊN CỨU .14 2.1.1 Cơ sở liệu 14 2.1.2 Công cụ sử dụng 15 2.2 PHƯƠNG PHÁP NGHIÊN CỨU 16 2.2.1 Tính tốn tham số mô tả hợp chất phân tử nhỏ .16 2.2.2 Tính tốn tham số protein 16 2.2.3 Xây dựng mơ hình 17 2.2.4 Đánh giá mơ hình 20 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 23 3.1 KẾT QUẢ NGHIÊN CỨU 23 3.1.1 Dữ liệu dùng để mơ tả mơ hình .23 3.1.1 Xây dựng mơ hình tối ưu hóa thơng số 26 3.1.2 Đánh giá khả ứng dụng mơ hình 28 3.2 BÀN LUẬN 30 3.2.1 Khả ứng dụng mơ hình 30 3.2.2 Ưu điểm phương pháp nghiên cứu 31 3.2.3 Hạn chế phương pháp nghiên cứu 32 KẾT LUẬN VÀ ĐỀ XUẤT 35 TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT Kí hiệu, chữ viết tắt Tiếng Anh Tiếng Việt Å Angstrom Đơn vị đo độ dài angstrom ADN Deoxyribonucleic Acid Acid deoxyribonucleic ARN Ribonucleic Acid Acid ribonucleic GBM Gradient Boosting Machine Máy tăng cường độ dốc HAT Histone Acetyltransferase Enzym Histon Acetyltransferase HDAC Histone Deacetylase Enzym Histon Deacetylase MSE Mean Square Error Trung bình bình phương sai số NB Naїve Bayesian Phân loại Naїve Bayes NN Neural Network Mạng thần kinh nhân tạo PCA Principal Component Analysis Phân tích thành phần PCM Proteochemometric modelling Mơ hình hóa đa protein - hợp chất hóa học PLS Partial Least Squares Bình phương tối thiểu phần QMSPR Quantitative Multiple Structure - Định lượng tương quan đa cấu trúc Activity Relationship – tác dụng QSAR Quantitative Structure - Activity Định lượng tương quan cấu trúc – Relationship tác dụng R2 Coefficient of determination Hệ số xác định RF Random Forest Rừng ngẫu nhiên RS Rough Set Tập thô RMSE Root Mean Square Error Căn bậc hai trung bình bình phương sai số SVM Support Vector Machine Máy vectơ hỗ trợ DANH MỤC CÁC BẢNG Bảng 1.1.1 Tóm tắt kích thước, vị trí phân bố tế bào HDAC nhóm I, II IV Bảng 1.1.2 Một số chất ức chế HDAC trình nghiên cứu thử nghiệm lâm sàng Bảng 1.2.1 Một số kĩ thuật mơ hình hóa thường sử dụng PCM ưu nhược điểm chúng 11 Bảng 2.1.1 Trình tự cấu trúc 3D HDAC thu từ PDB số lượng liệu hoạt tính sinh học thu từ ChEMBL 14 Bảng 3.1.1 Các thơng số tối ưu hóa mơ hình Random Forest 27 Bảng 3.1.2 Các thơng số tối ưu hóa mơ hình Gradient Boosting Machine 27 Bảng 3.1.3 Các thông số đánh giá khả dự đốn khả ứng dụng hai mơ hình Random Forest Gradient Boosting Machine 29 DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ Hình 1.1.1 Cấu trúc nucleosome điều hịa hoạt động phiên mã .2 Hình 1.1.2 Cấu trúc trung tâm hoạt động HDAC cấu trúc chất ức chế HDAC nhóm dẫn xuất acid hydroxamic Hình 1.2.1 Cách tiếp cận tương tác protein – phối tử phương pháp PCM Hình 3.1.1 PC1 PC2 (Z-scale) phân tích thành phần amino acid xung quanh trung tâm hoạt động HDAC .24 Hình 3.1.2 Đồng trình tự HDAC thể ma trận độ đồng nhất, sử dụng trình tự protein cơng cụ bắt cặp trình tự UniProt 24 Hình 3.1.3 Đồ thị biểu diễn mật độ xác suất hệ số Jaccard hợp chất sở liệu 25 Hình 3.1.4 Các giá trị tốt mà mơ hình đạt điều kiện liệu hoạt tính sinh học có sai số thực nghiệm 28 Hình 3.1.5 Đồ thị biểu diễn giá trị pIC50 thực nghiệm so với giá trị dự đoán mơ hình Random Forest liệu tập liệu kiểm tra 30 ĐẶT VẤN ĐỀ Nhờ phát triển lĩnh vực sinh học phân tử, nhiều protein đóng vai trị quan trọng việc điều hòa phát triển tế bào ung thư tìm thấy có tiềm trở thành đích tác dụng thuốc kháng ung thư với hiệu cao độc tính Trong đó, enzym tham gia điều hịa biểu gen thơng qua q trình methyl/demethyl hóa ADN, acetyl/deacetyl hóa histon, biến đổi ARN khơng mã hóa đích phân tử tập trung nghiên cứu nhiều nhất, cho kết nhiều thuốc kháng ung thư đầy hứa hẹn [21] Histon Deacetylase (HDAC) họ enzym có vai trị xúc tác cho q trình loại bỏ nhóm acetyl khỏi amino acid lysin phần đuôi histon cấu trúc nucleosome Sự giảm acetyl hóa dẫn đến ADN quấn chặt xung quanh lõi histon làm đóng xoắn nhiễm sắc thể, ngăn cản trình phiên mã biểu gen Sự hoạt động mức HDAC phát nhiều dịng tế bào mơ ung thư [10] Đến thời điểm có 18 loại HDAC khác phát phân loại thành nhóm với khác biệt cấu trúc, vị trí biểu chức Các chất ức chế HDAC bao gồm nhóm dẫn xuất acid hydroxamic, peptid vòng, acid aliphatic benzamid, nhóm dẫn xuất acid hydroxamic cho thấy tiềm lớn để phát triển thành thuốc chống ung thư [44] Trong năm gần đây, trình nghiên cứu phát triển chất ức chế chọn lọc HDAC dựa phương pháp trợ giúp máy tính (Computer - Aided Drug Design), hay gọi phương pháp in silico ngày phát triển giúp tiết kiệm nhiều thời gian chi phí so với phương pháp cổ điển cho hiệu cao [31] Nhiều phương pháp xây dựng mơ hình tương quan cấu trúc - tác dụng dự đốn hoạt tính hợp chất phát triển ứng dụng hiệu Dựa sở này, thực đề tài nghiên cứu “Phát triển mơ hình hóa tính tốn protein có khả dự đốn tác dụng ức chế chọn lọc Histon deacetylase dẫn xuất acid hydroxamic” với hai mục tiêu là: Xây dựng mơ hình tính tốn tương quan đa cấu trúc - tác dụng dựa cấu trúc nhiều HDAC khác sở liệu hoạt chất lớn Đánh giá khả ứng dụng mơ hình với liệu chưa biết trước CHƯƠNG TỔNG QUAN 1.1 HISTON DEACETYLASE 1.1.1 Đại cương Histon deacetylase Trong tế bào người, đơn vị nhiễm sắc thể có vai trị đóng gói ADN nucleosom Mỗi nucleosom cấu tạo 146 cặp base chuỗi kép ADN quấn xung quanh lõi phân tử protein histon Mỗi histon octame gồm loại histon: cấu trúc H3/H4 tetrame cấu trúc H2A/H2B dime [9] Ở trạng thái nghỉ, ADN quấn chặt quanh histon nhờ tương tác tĩnh điện phần N tận histon mang điện tích dương với cặp base mang điện tích âm ADN Khi cần biểu gen, ADN nới lỏng khỏi cấu trúc histon octame nhờ enzym biến đổi histon phần Có loại biến đổi thường xảy với phần histon: 1) acetyl hóa, 2) methyl hóa, 3) phosphoryl hóa, 4) adenosin diphosphat (ADP)-ribosyl hóa, 5) glycosyl hóa, 6) sumoyl hóa 7) ubiquityl hóa [46] Hình 1.1.1 Cấu trúc nucleosom điều hịa hoạt động phiên mã (A) Cấu trúc nucleosom gồm ADN quấn xung quanh histon octame phần đuôi histon trạng thái acetyl hóa (B) Điều hịa hoạt động phiên mã tăng cường hoạt động HAT ức chế hoạt động HDAC Điều hòa biểu gen thơng qua q trình acetyl hóa histon kết cân hoạt động enzym Histon Acetyltransferase (HAT) Histon Deacetylase (HDAC) Sự acetyl hóa HAT xảy nhóm 𝜀-amino gốc lysin N tận histon, trung hịa điện tích dương lysin làm giảm khả tương tác histon với ADN Các vị trí quan trọng acetyl hóa Lys9, Lys14 H3, Lys5, Lys8, Lys12 Lys16 H4 (Hình 1.1.1A) Đối lập với HAT, HDAC loại bỏ nhóm acetyl lysin (Ac-Lys), phục hồi điện tích dương histon, tăng cường tương tác histon-ADN, ngăn cản yêu tố phiên mã đến tiếp cận ADN Tăng mức độ acetyl hóa histon dẫn đến tăng cường hoạt động phiên mã, ngược lại, giảm mức độ acetyl hóa histon gây ức chế q trình phiên mã (Hình 1.1.1B) [9] 1.1.2 Phân loại Histon deacetylase Hiện có 18 loại HDAC khác người phát hiện, chia thành nhóm dựa tương đồng cấu trúc với HDAC nấm men (Saccharomyces cerevisiae) Nhóm I bao gồm HDAC1, 2, 8, tương ứng với RPD3 deacetylase nấm men có tương đồng lớn cấu trúc trung tâm hoạt động Nhóm II tương ứng với Hda1 nấm men, bao gồm HDAC4, 5, 6, 7, 10, nhóm lại chia thành nhóm IIa gồm HDAC4, 5, 7, nhóm IIb gồm HDAC6 10 với trung tâm hoạt động Nhóm IV đại diện HDAC11, tương tự Hda1 nấm men, có tương đồng cấu trúc trung tâm hoạt động với nhóm I II HDAC nhóm I, II, IV coi HDAC “kinh điển”, enzym phụ thuộc Zn2+ HDAC nhóm III, hay sirtuin, cần đến NAD+ cho hoạt động enzym không bị tác động chất ức chế HDAC “kinh điển” [44] Đặc điểm chung enzym nhóm I, II IV trình bày Bảng 1.1.1 Tóm tắt kích thước, vị trí phân bố tế bào HDAC nhóm I, II IV.[9] Bảng 1.1.1 Tóm tắt kích thước, vị trí phân bố tế bào HDAC nhóm I, II IV Nhóm I IIa IIb IV HDAC Số lượng acid amin Vị trí phân bố tế bào HDAC1 483 Nhân tế bào HDAC2 488 Nhân tế bào HDAC3 428 Nhân tế bào HDAC8 377 Nhân tế bào HDAC4 1084 Nhân tế bào/ Tế bào chất HDAC5 1122 Nhân tế bào/ Tế bào chất HDAC7 912 Nhân tế bào/ Tế bào chất HDAC9 1069 Tế bào chất HDAC6 1215 Nhân tế bào/ Tế bào chất HDAc10 669 Nhân tế bào/ Tế bào chất HDAC11 347 Nhân tế bào/ Tế bào chất Gradient Boosting Machine với giá trị 𝒒𝟐 𝒕𝒆𝒔𝒕 𝑹𝟐𝟎 𝒕𝒆𝒔𝒕 gần với giá trị 𝒒𝟐 𝒕𝒆𝒔𝒕 𝑹𝟐𝟎 𝒕𝒆𝒔𝒕 lớn 𝑹𝑴𝑺𝑬𝒕𝒆𝒔𝒕 gần với giá trị 𝑹𝑴𝑺𝑬𝒕𝒆𝒔𝒕 nhỏ mà mơ hình có khả đạt điều kiện liệu thực tế Cụ thể, Hình 3.1.5 đồ thị biểu diễn giá trị pIC50 tập liệu kiểm tra thu từ thực nghiệm so với giá trị dự đoán mơ hình Random Forest với 𝑹𝑴𝑺𝑬𝒕𝒆𝒔𝒕 = 0,6240 Hình 3.1.5 Đồ thị biểu diễn giá trị pIC50 thực nghiệm so với giá trị dự đoán mơ hình Random Forest liệu tập liệu kiểm tra Phần diện tích nằm hai đường kẻ xanh thể đơn vị pIC50 Như vậy, mô hình Random Forest xây dựng cho thấy khả dự đốn xác đáng tin cậy liệu 3.2 BÀN LUẬN 3.2.1 Khả ứng dụng mơ hình Để đánh giá khả áp dụng thực tế mơ hình dự đốn, cách lý tưởng mơ hình đánh giá khả ứng dụng phân tích miền ứng dụng (applicability domain) Tuy nhiên, phương pháp để đánh giá miền ứng dụng mơ hình cịn chưa cụ thể mà thực vài nghiên cứu Trong khả nghiên cứu này, việc phân tích miền ứng dụng mơ hình cịn gặp nhiều khó khăn chưa thể thực Tuy nhiên, dựa liệu sử dụng để mơ hình hóa đánh giá khả ứng dụng mơ hình ước lượng tương đối khả ứng dụng mơ hình xây dựng vào việc dự đốn hoạt tính protein hợp chất 30 Mơ hình PCM nghiên cứu tập trung vào phân tích tương tác protein họ HDAC với hợp chất phân tử nhỏ, vậy, khả ứng dụng mơ hình vào việc dự đoán tác dụng cho chất ức chế HDAC với protein HDAC biết, hay dự đoán tác dụng chọn lọc chất ức chế HDAC mới, đặc biệt chất ức chế HDAC thuộc nhóm dẫn xuất acid hydroxamic, coi tương đương với việc đánh giá khả ứng dụng mơ hình phương pháp ngoại thẩm định thực nghiên cứu Theo kết đánh giá, khả dự đốn mơ hình Random Forest liệu đáng tin cậy điều kiện thực tế liệu thực nghiệm Để phát triển thêm ứng dụng mơ hình, tiến hành nghiên cứu sâu việc thiết kế chất ức chế HDAC mới, áp dụng mơ hình xây dựng để dự đốn khả ức chế chọn lọc hợp chất với HDAC lựa chọn hợp chất tiềm năng, hợp chất tổng hợp đánh giá hoạt tính sinh học thực nghiệm để thẩm định mơ hình Một cách khác để ứng dụng mơ hình phân tích diễn giải mơ hình tham số mơ tả hợp chất hóa học sử dụng mơ hình để xác định mảnh cấu trúc phân tử có khả làm tăng tác dụng ức chế chọn lọc chất ức chế HDAC đích protein, từ tiến hành sàng lọc thiết kế hợp chất dựa mảnh cấu trúc xác định, cuối tiến hành tổng hợp thử hoạt tính hợp chất tiềm thực nghiệm Với protein khác họ HDAC HDAC5, 9, 10, 11, cấu trúc hay trình tự amino acid chưa xác định nên khả ngoại suy mơ hình cho protein so với protein xác định cấu trúc Tuy nhiên, xác định trình tự amino acid cấu trúc tinh thể HDAC việc ứng dụng mơ hình xây dựng để dự đoán tác dụng chọn lọc hợp chất với protein hồn tồn thực với độ tin cậy tương đối Với protein khơng thuộc họ HDAC khả ứng dụng mơ hình cịn cần đánh giá thêm miền ứng dụng, nhiên việc nghiên cứu protein khơng phải HDAC nằm ngồi mục tiêu nghiên cứu nên không xem xét phạm vi 3.2.2 Ưu điểm phương pháp nghiên cứu Ưu điểm lớn mơ hình PCM đồng thời mô tả tương tác nhiều protein với nhiều phối tử mô tả cụ thể tương tác cặp protein phối tử Mơ hình có khả so sánh mức độ tương tác hợp chất khác với protein đích lúc so sánh mức độ tương tác cặp protein-phối tử khác nhau, từ đưa đánh giá khả tương tác chọn lọc protein phối tử Do 31 đó, phương pháp áp dụng để dự đoán khả ức chế chọn lọc hợp chất phân tử nhỏ với đích protein nghiên cứu Bên cạnh đó, khơng giống mơ hình QSAR truyền thống xem xét đến cấu trúc hợp chất hóa học, mơ hình PCM xây dựng dựa thông số mô tả protein phối tử phân tích tương tác chúng trung tâm hoạt động Chính thế, mơ hình PCM có khả dự đốn tương tác tiềm đích protein phối tử, từ dự đốn cấu trúc phân tử có tác dụng chọn lọc phát nhóm cấu trúc có tác dụng đích protein cần nghiên cứu Mơ hình PCM kết hợp phương pháp nghiên cứu dựa cấu trúc protein (structure-based) phương pháp dựa cấu trúc phối tử (ligand-based), kết hợp ưu điểm hai phương pháp khả dự đoán đối tượng nghiên cứu Do vậy, mơ hình PCM vừa dự đoán tác dụng hợp chất với đích protein tương tự mơ hình QSAR, vừa vượt trội QSAR khả dự đoán cho đích protein mới, ngồi cịn ngoại suy cho cặp protein – phối tử hồn tồn Mơ hình PCM tận dụng nguồn sở liệu to lớn cấu trúc protein hợp chất phân tử nhỏ, sở liệu hoạt tính sinh học hay lượng liên kết protein – phối tử tổng hợp xây dựng từ nhiều nghiên cứu thực Đồng thời, việc ứng dụng kĩ thuật tiên tiến cơng nghệ thơng tin thuật tốn học máy, khai phá liệu giúp xây dựng mô hình có khả bao qt số lượng lớn protein hợp chất mơ hình tồn diện Như vậy, mơ hình PCM cho thấy tiềm lớn ứng dụng nghiên cứu tính chất dược động học, dược lực học độc tính thuốc 3.2.3 Hạn chế phương pháp nghiên cứu Mặc dù so với QSAR, phương pháp PCM cho thấy nhiều ưu điểm vượt trội, song tồn hạn chế q trình xây dựng mơ diễn giải mơ hình Do việc sử dụng lượng lớn liệu hoạt tính sinh học tổng hợp từ nhiều nguồn công khai, sai số thực nghiệm liệu bỏ qua, sai số có ảnh hưởng lớn đến chất lượng mơ hình xây dựng Vì vậy, cần thiết phải có biện pháp làm giảm bớt ảnh hưởng sai số q trình mơ hình hóa để cải thiện hiệu mơ hình Chất lượng mơ hình xây dựng chịu ảnh hưởng lớn tham số mơ tả protein phối tử Có nhiều loại tham số mô tả khác nghiên 32 cứu cho cấu trúc đích protein cấu trúc hợp chất phân tử nhỏ Tuy nhiên, khơng có loại mơ tả coi tối ưu cho trường hợp, trình xây dựng mơ hình cần khảo sát nhiều kết hợp khác loại tham số, việc đòi hỏi nhiều thời gian tài nguyên máy tính lượng thơng tin ma trận liệu mơ hình lớn Một thành phần khác mơ hình cross term đến chưa xác định rõ ràng vai trò phương pháp tính tốn Nhiều nghiên cứu khác sử dụng thành phần cho kết không thống nhất, tùy thuộc vào nhiều yếu tố khác mơ hình Trong vài trường hợp cross term cần thiết để xây dựng mơ hình (khi sử dụng thuật tốn học máy tuyến tính để mơ hình hóa liệu phi tuyến tính) Trong số trường hợp khác, việc sử dụng cross term làm phức tạp hóa liệu tốn nhiều thời gian để xử lý liệu khơng cải thiện chất lượng mơ hình Do đó, cần có thêm nghiên cứu kĩ lưỡng vai trị, phương pháp tính tốn cách sử dụng thành phần cross term mơ hình Số lượng loại thuật tốn học máy áp dụng để xây dựng mơ hình vơ phong phú, thuật tốn lại có ưu nhược điểm khác không loại tốt để áp dụng cho liệu Chính thế, nghiên cứu cần xây dựng nhiều mơ hình dựa thuật toán khác nhau, loại thuật toán lại có thơng số cần tối ưu hóa việc so sánh mơ hình xây dựng với thơng số đó, dẫn đến số lượng mơ hình xây dựng nhiều Ngồi ra, cần có kết hợp mơ hình nhiều thuật tốn khác thành mơ hình tổng hợp để tận dụng ưu điểm thuật toán Việc xử lý lượng lớn liệu thực nhiều loại thuật toán học máy khác địi hỏi tài ngun lớn máy tính, u cầu sử dụng máy tính có cấu hình cao với vi xử lý tốc độ, dung lượng lưu trữ lớn Một số trường hợp thực q trình mơ hình hóa máy tính cá nhân mà cần sử dụng đến máy tính lớn siêu máy tính (high performance computer) Mơ hình PCM xây dựng dựa số lượng lớn tham số mô tả protein phối tử, có mơ tả tính tốn mã hóa cách phức tạp (như mã băm dấu vân tay Morgan), có mơ tả khó diễn giải đơn lẻ mà cần kết hợp với mô tả khác (như Z4 Z5 số mơ tả Z-scale protein) Thuật tốn để xây dựng mơ hình phức tạp khó để diễn giải, đặc biệt mơ hình hồi quy phi tuyến tính thường dạng mơ hình “hộp đen” (black-box) mà người nghiên cứu diễn giải mô hình Thơng thường, ln phải có “đánh đổi” (trade-off) hiệu mơ hình khả diễn giải mơ hình 33 Về khả ứng dụng mơ hình, mơ hình PCM có khả dự đoán cho hợp chất hay protein ngồi mơ hình hay ngoại suy cho cặp protein – phối tử mới, khơng phải mơ hình PCM có khả ứng dụng cho tất protein hay hợp chất lạ Mỗi mơ hình có miền ứng dụng định tổng hợp protein hợp chất hóa học mà mơ hình dự đốn cách đáng tin cậy Vì thế, cần thêm vào việc đánh giá khả ứng dụng mơ hình đánh giá miền ứng dụng mơ hình để có nhìn khách quan ứng dụng mơ hình thực tế 34 KẾT LUẬN VÀ ĐỀ XUẤT KẾT LUẬN Từ kết nghiên cứu trình bày trên, chúng tơi rút kết luận: Nghiên cứu xây dựng hai mơ hình có khả dự đoán mối tương quan định lượng cấu trúc hoạt tính sinh học số lượng lớn hợp chất phân tử nhỏ protein họ HDAC Hai mơ hình xây dựng dựa hai thuật toán Random Forest Gradient Boosting Machine với thơng số tối ưu sau: • Mơ hình Random Forest: • Thơng số mơ hình tối ưu: “mtry” = 33 • RMSE = 0,6240 ± 0,0328 • R2 = 0,6967 ± 0,0317 • Mơ hình Gradient Boosting Machine: • Thơng số mơ hình tối ưu: “shrinkage” = 0,1 “interaction.depth” = “n.minobsinnode” = 10 “n.trees” = 1000 • RMSE = 0,6939 ± 0,0363 • R2 = 0,6087 ± 0,0321 Hai mơ hình đánh giá khả ứng dụng tập liệu phương pháp ngoại thẩm định, từ chọn mơ hình Random Forest có khả dự đốn ứng dụng tốt với tập liệu Kết đánh giá khả dự đốn ứng dụng mơ hình Random Forest (RF) Gradient Boosting Machine (GBM) sau: Mơ hình 𝑹𝑴𝑺𝑬 𝑹𝑴𝑺𝑬𝒕𝒆𝒔𝒕 𝒒𝟐 𝒒𝟐 𝒕𝒆𝒔𝒕 𝑹𝟐𝟎 𝒕𝒆𝒔𝒕 RF 0,6240 0,5945 0,6966 0,7037 0,7038 GBM 0,6939 0,6594 0,6087 0,6353 0,6354 35 ĐỀ XUẤT Để tiếp tục cải thiện phát triển phương pháp nghiên cứu này, xin đưa số đề xuất sau: Về phương pháp xây dựng mơ hình: • Xây dựng số mơ hình khác dựa loại tham số mơ tả protein hợp chất hóa học khác nhau, sử dụng thuật toán học máy khác Đánh giá so sánh mơ hình để chọn mơ hình tối ưu • Kết hợp mơ hình dựa thuật tốn khác vào mơ hình tổng hợp để kết hợp ưu điểm nhiều thuật toán khác • Nghiên cứu việc sử dụng thành phần cross term việc xây dựng mơ hình dự đốn • Phân tích miền ứng dụng mơ hình để đánh giá khách quan khả ứng dụng thực tế mơ hình xây dựng • Phân tích diễn giải mơ hình để làm rõ vai trị thành phần Về ứng dụng mơ hình: • Áp dụng mơ hình vào việc dự đốn tác dụng ức chế chọn lọc chất ức chế HDAC mới, đặc biệt hợp chất thuộc nhóm dẫn xuất acid hydroxamic • Dựa vào mơ hình để thiết kế hợp chất tiềm có tác dụng ức chế chọn lọc HDAC, đặc biệt hợp chất thuộc nhóm dẫn xuất acid hydroxamic • Tổng hợp thử nghiệm hoạt tính chất tiềm để thẩm định mơ hình xây dựng 36 TÀI LIỆU THAM KHẢO TIẾNG ANH Andersson C.R., Gustafsson M.G., Strömbergsson H (2011), “Quantitative chemogenomics: machine-learning models of protein-ligand interaction”, Current Topics in Medicinal Chemistry, 11(15), pp.1978-1993 Ben-Hur A., Ong C.S., Sonnenburg S., Schölkopf B., Rätsch G (2008), “Support Vector Machines and Kernels for Computational Biology”, PLoS Computational Biology, 4(10), pp.e1000173 Bisong E (2019), “Google Colaboratory”, Building Machine Learning and Deep Learning Models on Google Cloud Platform, Apress, Berkeley, CA, pp.59-64 Bottomley M.J., Lo Surdo P., Di Giovine P., Cirillo A., Scarpelli R., Ferrigno F., Jones P., Neddermann P., De Francesco R., Steinkühler C., Gallinari P., Carfí A (2008), “Structural and functional analysis of the human HDAC4 catalytic domain reveals a regulatory structural zinc-binding domain”, Journal of Biological Chemistry, 283(39), pp.26694-704 Breiman L (2001), “Random Forests”, Machine Learning 45, pp.5–32 Cawley G., Talbot N (2010), “On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation”, Journal of Machine Learning Research, 11, pp.2079-2107 Consonni V., Ballabio D., Todeschini R (2010), “Evaluation of model predictive ability by external validation techniques”, Journal of Chemometrics, 24, pp.194201 Cortes-Ciriano I., Ain Q., Subramanian V., Lenselink E., Méndez-Lucio O., IJzerman A.P., Wohlfahrt G., Prūsis P., Malliavin T., van Westen G., Bender A (2015) “Polypharmacology Modelling Using Proteochemometrics (PCM): Recent Methodological Developments, Applications to Target Families, and Future Prospects”, Medicinal Chemistry Communications, 6, pp.24-50 de Ruijter A.J., van Gennip A.H., Caron H.N., Kemp S., van Kuilenburg A.B (2003), “Histone deacetylases (HDACs): characterization of the classical HDAC family”, Biochemistry Journal, 370(3), pp.737-749 10 Gaulton A., Bellis L.J., Bento A.P., Chambers J., Davies M., Hersey A., Light Y., McGlinchey S., Michalovich D., Al-Lazikani B., Overington J.P (2012), “ChEMBL: a large-scale bioactivity database for drug discovery”, Nucleic Acids Research, 40(Database issue), pp.D1100-7 11 Glozak M., Seto E (2007), “Histone deacetylases and cancer”, Oncogene, 26, pp.5420–5432 12 Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E (2000), “The Protein Data Bank”, Nucleic Acids Research, 28, pp.235-242 13 Hai Y., Christianson D.W (2016), “Histone deacetylase structure and molecular basis of catalysis and inhibition”, Nature Chemical Biology, 12(9), pp.741-747 14 Hawkins D.M., Basak S.C., Mills D (2003), “Assessing model fit by crossvalidation”, Journal of Chemical Information & Computer Science, 43(2), pp.57986 15 Irwin J.J., Shoichet B.K (2005), “ZINC a free database of commercially available compounds for virtual screening”, Journal of Chemical Information and Modelling, 45(1), pp.177-82 16 Friedman J.H (2001), “Greedy function approximation: A gradient boosting machine”, The Annals of Statistics, 29 (5), pp.1189-1232 17 Kim S., Chen J., Cheng T., Gindulyte A., He J., He S., Li Q., Shoemaker B.A., Thiessen P.A., Yu B., Zaslavsky L., Zhang J., Bolton E.E (2023), “PubChem 2023 update”, Nucleic Acids Research 51(D1), pp.D1373-D1380 18 Lauffer B.E., Mintzer R., Fong R., Mukund S., Tam C., Zilberleyb I., Flicke B., Ritscher A., Fedorowicz G., Vallero R., Ortwine D.F., Gunzner J., Modrusan Z., Neumann L., Koth C.M., Lupardus P.J., Kaminker J.S., Heise C.E., Steiner P (2013), “Histone deacetylase (HDAC) inhibitor kinetic rate constants correlate with cellular histone acetylation but not transcription and cell viability”, Journal of Biological Chemistry, 288(37), pp.26926-43 19 Liu T., Lin Y., Wen X., Jorissen R.N., Gilson M.K (2007), “BindingDB: a webaccessible database of experimentally determined protein-ligand binding affinities”, Nucleic Acids Research, 35(Database issue), pp.D198-201 20 Lo Y.C., Rensi S.E., Torng W., Altman R.B (2018), “Machine learning in chemoinformatics and drug discovery”, Drug Discovery Today, 23(8), pp.15381546 21 Lu Y., Chan Y.T., Tan H.Y., Li S Wang N., Feng Y.B (2020), “Epigenetic regulation in human cancer: the potential role of epi-drug in cancer therapy”, Molecular Cancer, 19(1), pp.79-95 22 Melesina J., Simoben C.V., Praetorius L., Bülbül E.F., Robaa D,, Sippl W (2021), “Strategies To Design Selective Histone Deacetylase Inhibitors”, ChemMedChem, 16(9), pp.1336-1359 23 Millard C.J., Watson P.J., Celardo I., Gordiyenko Y., Cowley S.M., Robinson C.V., Fairall L., Schwabe J.W (2013), “Class I HDACs share a common mechanism of regulation by inositol phosphates”, Molecular Cell, 51(1), pp.5767 24 Murrell D.S., Cortes-Ciriano I., van Westen G.J.P., Stott I.P., Bender A., Malliavin T.E., Glen R.C (2015), “Chemically Aware Model Builder (camb): an R package for property and bioactivity modelling of small molecules”, Journal of Cheminformatics, 7, pp.45-55 25 O’Boyle, N.M (2012), “Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI”, Journal of Cheminformatics, 4, pp.22-36 26 Qiu T., Qiu J., Feng J., Wu D., Yang Y., Tang K., Cao Z., Zhu R (2017), “The recent progress in proteochemometric modelling: focusing on target descriptors, cross-term descriptors and application scope”, Briefings in Bioinformatics, 18(1), pp.125-136 27 R Core Team (2021) “R: A language and environment for statistical computing”, R Foundation for Statistical Computing, Vienna, Austria 28 “RDKit: Open-source cheminformatics” http://www.rdkit.org 29 Rogers D., Hahn M (2010), “Extended-connectivity fingerprints”, Journal of Chemical Information and Modelling, 50(5), pp.742-54 30 RStudio Team (2020) “RStudio: Integrated Development for R”, RStudio, PBC, Boston, MA 31 Sabe V.T., Ntombela T., Jhamba L.A., Maguire G.E.M., Govender T., Naicker T., Kruger H.G (2021), “Current trends in computer aided drug design and a highlight of drugs discovered via computational techniques: A review”, European Journal of Medicinal, 224, pp.113705-26 32 Sandberg M., Eriksson L., Jonsson J., Sjöström M., Wold S (1998), “New chemical descriptors relevant for the design of biologically active peptides A multivariate characterization of 87 amino acids”, Journal of Medicinal Chemistry, 41(14), pp.2481-91 33 Schrödinger L., DeLano W (2020), PyMOL, Available at: http://www.pymol.org/pymol 34 Schuetz A., Min J., Allali-Hassani A., Schapira M., Shuen M., Loppnau P., Mazitschek R., Kwiatkowski N.P., Lewis T.A., Maglathin R.L., McLean T.H., Bochkarev A., Plotnikov A.N., Vedadi M., Arrowsmith C.H (2008), “Human HDAC7 harbors a class IIa histone deacetylase-specific zinc binding motif and cryptic deacetylase activity”, Journal of Biological Chemistry, 283(17), pp.1135563 35 Somoza J.R., Skene R.J., Katz B.A., Mol C., Ho J.D., Jennings A.J., Luong C., Arvai A., Buggy J.J., Chi E., Tang J., Sang B.C., Verner E., Wynands R., Leahy E.M., Dougan D.R., Snell G., Navre M., Knuth M.W., Swanson R.V., McRee D.E., Tari L.W (2004), “Structural snapshots of human HDAC8 provide insights into the class I histone deacetylases”, Structure, 12(7), pp.1325-34 36 The UniProt Consortium (2017), “UniProt: the universal knowledgebase”, Nucleic Acids Research, 45(D1), pp.D158–D169 protein 37 Tropsha, A., Gramatica, P and Gombar, V.K (2003), “The Importance of Being Earnest: Validation Is the Absolute Essential for Successful Application and Interpretation of QSPR Models”, QSAR & Combinatorial Science, 22(1), pp.6977 38 Uba A.I., Yelekỗi K (2017), "Exploration of the binding pocket of histone deacetylases: the design of potent and isoform-selective inhibitors," Turkish Journal of Biology, 41(6), pp.901-918 39 van Westen G.J., Swier R.F., Cortes-Ciriano I., Wegner J.K., IJerman A.P., van Vlijmen H.W.T., Bender A (2013), “Benchmarking of protein descriptor sets in proteochemometric modeling (part 2): modeling performance of 13 amino acid descriptor sets”, Journal of Cheminformatics, 5(1), pp.42-53 40 van Westen G.J., Swier R.F., Cortes-Ciriano I., Wegner J.K., IJerman A.P., van Vlijmen H.W.T., Bender A (2013), “Benchmarking of protein descriptor sets in proteochemometric modeling (part 1): comparative study of 13 amino acid descriptor sets”, Journal of Cheminformatics, 5(1), pp.42-62 41 van Westen G., Wegner J., Ijzerman A., Vlijmen H., Bender A (2011), “Proteochemometric Modeling as a Tool to Design Selective Compounds and for Extrapolating to Novel Targets” Medicinal Chemistry Communications, 2, pp.1630 42 Watson P.J., Fairall L., Santos G.M., Schwabe J.W (2012), “Structure of HDAC3 bound to co-repressor and inositol tetraphosphate”, Nature, 481(7381), pp.335-40 43 Wishart D.S., Knox C., Guo A.C., Shrivastava S., Hassanali M., Stothard P., Chang Z., Woolsey J (2006), “Drugbank: a comprehensive resource for in silico drug discovery and exploration” Nucleic Acids Research, 34 (Database issue), pp.D668-72 44 Xu W., Parmigiani R., Marks P (2007), “Histone deacetylase inhibitors: molecular mechanisms of action”, Oncogene, 26, pp.5541–5552 45 Yap Chun Wei (2011) “PaDEL-Descriptor: An Open-Source Software to Calculate Molecular Descriptors and Fingerprints”, Journal of Computational Chemistry, 32, pp 1466-74 46 Zhang P., Torres K., Liu X., Liu C.G., Pollock R.E (2016), “An Overview of Chromatin-Regulating Proteins in Cells”, Current Protein& Peptide Science, 17(5), pp.401-10 PHỤ LỤC Do lượng liệu tham số mô tả protein hợp chất phân tử nhỏ sử dụng q trình mơ hình hóa lớn nên đưa vào tài liệu mà lưu trữ file đính kèm, bao gồm: • File (fps_HDAC_512.rds): Dấu vân tay Morgan 512-bit 9060 hợp chất liệu hợp chất phân tử nhỏ • File (HDAC_dataset.csv): Tổng hợp tồn tham số mô tả protein phối tử sử dụng nghiên cứu, trước tiến hành tiền xử lý liệu, gồm 9060 cặp protein-phối tử với 1280 biến tham số mơ tả • File (HDAC_smiles.smi): Danh sách 9060 hợp chất liệu mơ tả dạng SMILES • File (model_HDAC_GBM.rds): thơng số mơ hình, cài đặt khác tập liệu sử dụng để huấn luyện mô hình Gradient Boosting Machine • File (model_HDAC_RF.rds): thơng số mơ hình, cài đặt khác tập liệu sử dụng để huấn luyện mơ hình Random Forest • File (Padel_HDAC.rds): 730 tham số mơ tả cấu trúc 1D 2D 9060 hợp chất sử dụng nghiên cứu • File (Z5_HDAC.csv): Z-scale amino acid thuộc trung tâm hoạt động HDAC Bảng PL-1 Trình tự amino acid bán kính 8Å xung quanh trung tâm hoạt động protein HDAC STT HDAC 10 11 12 13 14 HDAC1 ASP GLY GLN LEU VAL SER GLN ILE ARG ASP ILE TRP THR MET HDAC2 TYR GLY GLN GLY HIS PRO MET ARG GLU ASP CYS PRO GLY LEU HDAC3 PHE HIS TYR GLY ALA GLY HIS PRO MET LYS PRO HIS ARG LEU HDAC4 ARG PRO PRO GLY HIS HIS MET GLY PHE CYS ASP VAL HIS PHE HDAC6 ASN ASP SER HIS HIS PRO GLU ARG ASP SER ILE TYR PRO GLY HDAC7 ASN SER ARG HIS PRO GLU ARG ASP THR ASP THR PRO GLY HIS STT HDAC 15 16 17 18 19 20 21 22 23 24 25 26 27 28 HDAC1 VAL ALA CYS TYR GLY TYR VAL HIS VAL ASP ASN PRO ASN ASP HDAC2 HIS HIS SER GLY PHE CYS ASP ASP ILE HIS HIS GLY ASP TYR HDAC3 ARG TYR THR VAL ARG ASN TYR PHE PRO LYS PHE VAL TYR TYR HDAC4 PHE PRO GLY PHE ASP HIS PRO LEU GLY LEU GLU GLY GLY HIS HDAC6 HIS HIS CYS GLY PHE CYS ASP ASP VAL HIS HIS GLY ASN THR HDAC7 HIS MET GLY PHE CYS ASP ASP VAL HIS HIS GLY ASN PHE PHE STT HDAC 29 30 31 32 33 34 35 36 37 38 39 40 41 42 HDAC1 ARG THR ILE TYR GLY ILE LEU ARG ILE ILE GLU PRO LEU PHE HDAC2 PHE PRO GLN GLY ALA ASP ASP ARG LEU GLY GLY GLY GLY GLY HDAC3 LYS LYS - - - - - - - - - - - - HDAC4 - - - - - - - - - - - - - - HDAC6 PHE PHE PRO MET GLY PHE ASP ASP PRO LEU GLY GLU GLY GLY HDAC7 PRO GLY PHE ASP HIS PRO ALA PRO LEU GLY GLU GLY GLY HIS STT HDAC 43 44 45 46 47 48 49 50 51 52 53 54 55 56 HDAC1 SER HIS GLU VAL GLN ARG ALA ILE THR TRP TYR GLU LYS GLY HDAC2 TYR - - - - - - - - - - - - - HDAC3 - - - - - - - - - - - - - - HDAC4 - - - - - - - - - - - - - - HDAC6 TYR - - - - - - - - - - - - - HDAC7 - - - - - - - - - - - - - -