Luận văn thạc sĩ Kỹ thuật hóa học: Ứng dụng thuật toán học máy dự đoán tính chất điện tử của hợp chất đa vòng thơm và một số dẫn xuất của chúng

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HOÀNG TUẤN

ỨNG DỤNG THUẬT TOÁN HỌC MÁY DỰ ĐOÁN TÍNH CHẤT ĐIỆN TỬ CỦA HỢP CHẤT ĐA VÒNG THƠM VÀ

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM

Cán bộ hướng dẫn khoa học: TS Phạm Hồ Mỹ Phương (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1: PGS.TS Phạm Trần Nguyên Nguyên (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2: PGS.TS Huỳnh Kim Lâm (Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng 7 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch: TS Lê Thanh Hưng

2 Cán bộ phản biện: PGS.TS Huỳnh Kim Lâm

3 Cán bộ phản biện: PGS.TS Phạm Trần Nguyên Nguyên 4 Ủy viên: TS Phạm Hồ Mỹ Phương

5 Ủy viên, thư ký: TS Nguyễn Thành Duy Quang

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Hoàng Tuấn MSHV: 2070495 Ngày, tháng, năm sinh: 15/07/1998 Nơi sinh: Tp.HCM Chuyên ngành: Kỹ thuật Hóa học Mã số: 8520301

I TÊN ĐỀ TÀI:

Bằng tiếng Việt: Ứng Dụng Thuật Toán Học Máy Dự Đoán Tính Chất Điện Tử Của

Hợp Chất Đa Vòng Thơm Và Một Số Dẫn Xuất Của Chúng

Bằng tiếng Anh: Application of Machine Learning Algorithms for Predicting

Electronic Properties of Polycyclic Aromatic Compounds and Their Derivatives

NHIỆM VỤ VÀ NỘI DUNG:

- Xây dựng được mô hình máy học giúp dự đoán tính chất điện tử cho các hợp chất hydrocarbon đa vòng thơm (PAH) và dẫn xuất bao gồm thienoacenes và PAH có nhóm thế

- Tiến hành khảo sát các tham số và thẩm định sai số của mô hình - Khảo sát giao thức active learning cho mô hình và giải thích mô hình

II NGÀY GIAO NHIỆM VỤ: 06/02/2023

III NGÀY HOÀN THÀNH NHIỆM VỤ: 07/2023 IV CÁN BỘ HƯỚNG DẪN: TS Phạm Hồ Mỹ Phương

Nội dung và yêu cầu LVTN đã được thông qua bộ môn

TRƯỞNG KHOA KỸ THUẬT HÓA HỌC

Trang 4

LỜI CẢM ƠN

Công trình được trình bày trong luận văn này sẽ không thể hoàn thành nếu như thiếu vắng những người thầy, người cô, tiền bối, và đàn em trong cùng nhóm nghiên cứu với tác giả với các đóng góp hết sức quan trọng trong dự án như sau:

- Thầy Trương Nguyện Thành (giáo sư danh dự tại University of Utah): đặt vấn đề, giám sát và hướng dẫn cho dự án; cũng như đọc, sửa, và duyệt bản thảo bài báo khoa học đã nộp có liên quan đến luận văn này

- Anh Nguyễn Hoàng Lâm (học viên tiến sĩ Hóa tính toán tại Đại Học Khoa Học Tự Nhiên - Đại Học Quốc Gia VN, nghiên cứu sinh tại ICST): giám sát dự án; đọc, sửa, và góp ý cho bản thảo bài báo khoa học và luận văn này

- Cô Phạm Hồ Mỹ Phương (Tiến Sĩ, giảng viên trường Đại Học Bách Khoa TP.HCM - Đại Học Quốc Gia VN): giám sát và hướng dẫn cho luận văn; đọc, góp ý, và duyệt luận văn cũng như hoàn thành các công việc giấy tờ có liên quan đến luận văn

- Em Lê Minh Khang (sinh viên khoa hóa Đại Học Khoa Học Tự Nhiên - Đại Học Quốc Gia VN): thực hiện xây dựng bộ dữ liệu hợp chất đa vòng thơm có gắn nhóm thế nitro và thực hiên tính toán lượng tử cho tất cả các phân tử trong bộ dữ liệu; đọc và đóng góp ý kiến cho bản thảo bài báo khoa học cũng như luận văn này

Tác giả xin gửi lời cảm ơn chân thành và sâu sắc nhất đến các người thầy, người cô, tiền bối, và đàn em kể trên Tác giả cũng hết sức biết ơn sự hỗ trợ từ gia đình trong thời gian làm luận văn

Tp.HCM, 12 tháng 6 năm 2023, Học viên thực hiện

Nguyễn Hoàng Tuấn

Trang 5

TÓM TẮT LUẬN VĂN

Nhu cầu giải quyết các vấn đề cấp bách của thế giới hiện đại luôn đi kèm với các thách thức tìm kiếm các cấu trúc hóa học hay vật liệu mang tính đột phá Tuy nhiên, việc này là không hề dễ dàng do không gian tìm kiếm các cấu trúc hóa học là quá rộng lớn để có thể tìm kiếm chỉ bằng các phương pháp thực nghiệm hay tính toán lý thuyết hiệu năng cao Sự phát triển mang tính cách mạng của phương pháp dựa trên dữ liệu lớn như máy học và trí tuệ nhân tạo (ML/AI) đưa ra một công cụ tính toán mới để tiếp cận bài toán này

Một trong những ứng dụng của ML/AI trong hóa học chính là xây dựng các mô hình dựa trên dữ liệu có khả năng dự đoán tính chất của cấu trúc hóa học hay vật liệu với độ chính xác có thể chấp nhận được so với phương pháp tính toán lí thuyết hay thực nghiệm Trong đó, đã xuất hiện nhiều công trình đề xuất ML/AI như một công cụ để dự đoán tính chất của phân tử hữu cơ cho mục đích làm vật liệu bán dẫn hữu cơ Luận văn này sẽ tiếp nối các công trình trước đó[1-4] về mô hình Tương Quan Định Lượng Cấu Trúc – Tính Chất (QSPR) cho tính chất điện tử cho các cấu trúc đa vòng thơm và dẫn xuất Ba biến thể của phương pháp Weisfeiler-Lehman (WL) graph kernel và mô hình học máy Gaussian Process Regressor (GPR) đã được sử dụng cho việc mô hình hóa Bộ dữ liệu bao gồm Polycyclic Aromatic Hydrocarbons (PAH), thienoacenes, cyano-substituted PAH và nitro-substituted PAHs được tính toán bằng lý thuyết Density Functional Theory (DFT) Kết quả cho thấy rằng các phương pháp GPR/WL kernel có thể dự đoán chính xác các tính chất điện tử của PAH và các dẫn xuất của chúng với sai số gốc trung bình bình phương là 0.15eV Ngoài ra, chúng tôi cũng chứng minh hiệu quả của giao thức active learning cho phương pháp GPR/WL kernel, đặc biệt là đối với các tập dữ liệu có đa dạng hơn Cách giải thích mô hình về đóng góp của từng nguyên tử vào các tính chất điện tử dự đoán cung cấp lý do cho sự thành công của mô hình vật lý Degree of π-orbital Overlap đã được công bố trước đây của chúng tôi

Trang 6

ASTRACT

Searching for novel chemical compounds or materials is often the requirement for solving emergency global problem However, this task is not easy by any means due to the fact that the search space is too vast for experimental methods or even high-performance theoretical computation The revolutional development of computation methods based on big data namely machine learning and artificial intelligence suggest a new approach for this dilemma

One application of machine learning algorithms is that they can be used to build data-based models that are capable of predicting properties of chemical structures and materials with acceptable error compare to computaional or experimental methods As such, there are published works that propose ML/AI as computational tools for predicting properties of organic compounds for organic semiconductor appications This thesis will continue prior works[1-4] on the development of Quantitative Structure-Properties Relationship (QSPR) for electronic properties of polycyclic aromatic compounds and their derivatives Three variants of Weisfeiler-Lehman graph kernel and Gaussian Process Regressor (GPR) have been used for modelling The datasets comprise of Polycyclic Aromatic Hydrocarbons (PAH), thienoacenes, cyano-substituted PAH và nitro-substituted PAHs that are computed at Density Functional Theory level of theory The result suggests that GPR/WL kernel methods are capable of predicting electronic properties of PAH and derivatives with excellent accuracy of 0.15eV in term of root mean square deviation Furthermore, we also demonstrate the effectiveness of active learning protocol for GPR/WL kernel method, especially for more diversive datasets The interpretation of the model on the contributions of each atom to the predicted electronic properties provides an explanation for the success of the physical model Degree of π-orbital Overlap which have been published before by us

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “ỨNG DỤNG THUẬT TOÁN HỌC MÁY DỰ ĐOÁN TÍNH CHẤT ĐIỆN TỬ CỦA HỢP CHẤT ĐA VÒNG THƠM VÀ MỘT SỐ DẪN XUẤT CỦA CHÚNG” là công trình nghiên cứu độc lập được thực hiện bởi cá nhân tác giả Số liệu và tài liệu dẫn chứng trong luận văn có nguồn gốc rõ ràng, công bố đúng quy định Các kết quả thu được của luận văn phản ánh khách quan, trung thực, hoàn toàn không sao chép và chưa từng được công bố trong bất kỳ nghiên cứu nào

khác Nếu phát hiện có gian dối, tôi xin chịu mọi trách nhiệm

Tp Hồ Chí Minh, ngày 12 tháng 6 năm 2023

Tác giả đề tài

Nguyễn Hoàng Tuấn

Trang 8

DANH MỤC HÌNH ẢNH vii

DANH MỤC BẢNG BIỂU ix

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT VÀ CHÚ GIẢI THUẬT NGỮ TIẾNG ANH x

CHƯƠNG 1 GIỚI THIỆU 1

CHƯƠNG 2 TỔNG QUAN 4

2.1 Giới thiệu về vật liệu bán dẫn hữu cơ dựa trên phân tử đa vòng thơm 4

2.2 Giới thiệu về machine learning trong hóa học 6

2.2.1 Tổng quan về thuật toán supervised machine learning 6

2.2.2 Một số thuật toán toán Supervised Machine learning 8

2.2.3 Active learning 14

2.3 Biểu diễn cấu trúc hóa học 15

2.4 Huấn luyện và đánh giá mô hình machine learning 19

2.5 Các công trình ứng dụng ML cho hóa học tiêu biểu 21

2.5.1 Ứng dụng machine learning trong mô hình vật liệu hóa bán dẫn hữu cơ 21

2.5.2 Ứng dụng ML trong hóa tính toán/ hóa lý thuyết và hóa lý 23

2.5.3 Ứng dụng ML trong hóa hữu cơ, hóa dược/độc chất học 24

2.5.4 Các công trình về machine learning khác 27

CHƯƠNG 3 PHƯƠNG PHÁP THÍ NGHIỆM 30

3.1 Cơ sở lý thuyết phương pháp Weisfeiler-Lehman kernel 30

3.1.1 Thuật toán Weisfeiler-Lehman 30

3.1.2 Phương pháp Weisfeiler-Lehman Graph Kernel theo nguyên tử 34

3.1.3 Phương pháp Weisfeiler-Lehman kernel dựa trên liên kết 37

3.1.4 Phương pháp Weisfeiler-Lehman kernel dựa trên khoảng cách liên nguyên tử 38

3.1.5 Mô hình ML hoàn chỉnh 38

3.1.6 Phân tích và diễn giải dự đoán của mô hình RR/WL-A 40

3.2 Ngôn ngữ lập trình và thư viện sử dụng 41

3.2.1 Python 41

Trang 9

3.2.2 Một số thư viện Python cơ bản cho khoa học dữ liệu 41

3.2.3 Thư viện Python – RDKit 42

3.2.4 Thư viện Python – Scikit-learn 42

3.3 Dữ liệu và phương pháp thu thập dữ liệu 43

3.4 Xây dựng mô hình và lập trình 47

3.4.1 Lập trình mô hình WL kernel 47

3.4.2 Lập trình việc huấn luyện, tối ưu, và kiểm tra mô hình máy học 53

3.4.4 Lập trình giao thức học active learning 55

CHƯƠNG 4 KẾT QUẢ VÀ BÀN LUẬN 58

4.1 Khảo sát ảnh hưởng của số vòng lặp của thuật toán WL lên mô hình 58

4.2 Độ chính xác của phương pháp các mô hình GPR/WL và GPR/ECFP 61

4.3 Active learning 62

4.4 Các mô hình tuyến tính và giải thích về mô hình 64

4.5 Phân tích sai số của mô hình 67

4.6 So sánh dự đoán của mô hình và giá trị thực nghiệm 68

4.7 Mã nguồn và hướng dẫn sử dụng 69

CHƯƠNG 5 KẾT LUẬN VÀ KIẾN NGHỊ 72

5.1 Các nhiệm đã hoàn thành và kết quả 72

5.2 Các thiếu sót và hạn chế 73

5.3 Hướng phát triển trong tương lai 74

DANH MỤC CÔNG TRÌNH KHOA HỌC 75

DANH MỤC TÀI LIỆU THAM KHẢO 76

PHẦN LÝ LỊCH TRÍCH NGANG 83

1 Thông tin cá nhân 83

2 Quá trình đào tạo 83

2.1 Đại học: 83

2.2 Sau đại học: 83

3 Quá trình công tác 83

Trang 10

Hình 4.1 Đồ thị của logarithm bậc 10 của chiều dài của các vector 𝜙 cho các phương

pháp WL-A, WL-AB, và WL-AD theo số vòng lặp của thuật toán WL 59

Hình 4.2 Đồ thị của sai số RMSD cho band gap theo số vòng lặp thuật toán WL hay

bán kính của ECFP cho dữ liệu hỗn hợp, dữ liệu PAH và dữ liệu PAH có nhóm thế theo thứ tự từ trên xuống dưới Hình A-C cho mô hình sử dụng ECFP, hình D-F cho các mô hình RR/WL, và hình G-I cho các mô hình GPR/WL 60

Hình 4.3 Biểu đồ hộp cho RMSDs thu được qua 20 lần chạy cho các phương pháp

graph kernel GPR/WL và mô hình GPR/ECFP cho bandgap (A-C), EA (D-F), và IP (G-I) từ trên xuống dưới Các điểm vuông biểu thị giá trị trung bình của RMSDs Các hình ở cột nằm bên trái nhất (A, D, G), giữa (B, E, H), và bên phải nhất (C, F, I) là cho bộ dữ liệu kết hợp, bộ dữ liệu PAH, và bộ dữ liệu PAH đã được thay thế, tương ứng 62

Trang 11

Hình 4.4 Đồ thị của test RMSDs cho band gap theo kích thước tập huấn luyện cho

active learning và random selection (chọn mẫu ngẫu nhiên) Các cột nằm bên trái nhất, giữa và bên phải lần lượt là cho các bộ dữ liệu kết hợp, PAH và PAH đã được thay thế, trong khi hàng đầu (A-C), hàng giữa (D-F) và hàng dưới (G-K) lần lượt là cho các phương pháp kernel WL-A, WL-AB và WL-AD 63

Hình 4.5 Biểu đồ hộp cho RMSDs thu được từ 20 lần chạy cho mô hình RR với

vectơ đặc trưng là 𝜙𝑊𝐿 hoặc ECFP Các biểu đồ trong cột bên trái, tức là (A, D, G), dành cho tập dữ liệu hỗn hợp, cột giữa (B, E, H) cho tập dữ liệu PAH, và cột bên phải (C, F, I) dành cho các tập dữ liệu PAH đã được thay thế 65

Hình 4.6 Minh họa đóng góp của các nguyên tử vào dự đoán về bandgap của một số

PAH và thienoacene có giá trị bandgap cao nhất (dòng trên cùng), bandgap trung vị (dòng giữa) và bandgap thấp nhất (dòng dưới cùng) 66

Hình 4.7 Minh họa đóng góp của các nguyên tử vào dự đoán về bandgap của một số

PAH có gắn nhóm thế có giá trị bandgap cao nhất (dòng trên cùng), bandgap trung vị (dòng giữa) và bandgap thấp nhất (dòng dưới cùng) 67

Hình 4.8 Các cấu trúc với giá trị sai số LOO lớn nhất 68

Trang 12

DANH MỤC BẢNG BIỂU

Bảng 3.1 Nhãn khởi tạo cho nguyên tử A ở hình 3.1 32Bảng 3.2 Tóm tắt quá trình trình cập nhật nhãn ℓ[1] từ nhãn khởi tạo ℓ[0] cho phân tử 1 ở hình 3.1 Các list M được trình bày với 2 hàng với hàng trên là nhãn cũ (ℓ[0]) nguyên tử chính (𝑎𝑗) và hàng dưới là của các nguyên tử kế cận 𝒩(𝑎𝑗) 33

Bảng 3.3 Tóm tắt quá trình trình cập nhật nhãn ℓ[2] từ nhãn khởi tạo ℓ[1] cho phân tử 1 ở hình 3.1 Các list M được trình bày với 2 hàng với hàng trên là nhãn nguyên tử chính (𝑎𝑗) và hàng dưới là nhãn các nguyên tử kế cận 𝒩(𝑎𝑗) 34

Bảng 3.4 Bảng các nhãn nguyên tử cho phân tử 1 ở hình 3.1 36Bảng 3.5 Bảng các nhãn liên kết ở các vòng lặp từ 0 (khởi tạo) đến vòng lặp thứ 2

cho phân tử 1 trong hình 3.1 37

Bảng 3.6 Code Python cho việc chuyển đổi chuỗi SMILES sang graph phân tử 47Bảng 3.7 Code Python cho thuật toán Weisfeiler-Lehman cho các graph phân tử 49Bảng 3.8 Code Python cho: 1/ đếm số lượng nhãn nguyên tử chi phương pháp WL

graph kernel theo nguyên tử 2/ tính toán vector 𝜙𝑊𝐿−𝐴 từ kết quả đếm nhãn nguyên tử 51

Bảng 3.9 Xây dựng mô hình hồi quy với sklearn 53Bảng 3.10 Xây dựng và tối ưu mô hình thông qua grid search và cross-validation 54Bảng 3.11 Tính sai số RMSD của dự đoán và giá trị “đúng” 55Bảng 3.12 Code Python cho giao thức học active learning 55Bảng 4.1 Bảng phạm vi tìm kiếm cho số vòng lặp WL/bán kính ECFP và hàm nhân

GPR được sử dụng cho mỗi phương pháp 60

Bảng 4.2 So sánh kết quả dự đoán của mô hình với giá trị thực nghiệm và giá trị

DFT 68

Trang 13

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT VÀ CHÚ GIẢI THUẬT NGỮ TIẾNG ANH

Ký hiệu

viết tắt Tên tiếng anh Tên tiếng việt Chú thích AI Artificial Intelligence Trí tuệ nhân tạo -

DPO Degree of 𝜋 - orbital overlap

EA Electron Affinity Ái lực điện tử - ECFP Extended Connectivity

GPR Gaussian Process Regression

2.2.2)

phần 2.3) HOMO Highest Occupied

Molecular Orbital

Orbital phân tử liên kết có mức năng lượng cao nhất

LOO Leave-One-Out (cross

LUMO Lowest Unoccupied Molecular Orbital

Orbital phân tử còn trống có mức năng lượng thấp nhất

-

Trang 14

input line-entry system

phần 2.3)

đẳng cấu đồ thị (graph isomorphism) (xem phần 3.1.1)

WL-A Atom-based

Weisfeiler-Lehman Graph kernel phương Weisfeiler-Lehman pháp graph kernel theo nguyên tử

Mô hình ML cho đồ thị (xem phần 3.1.2.)

WL-AB Atom, bond-based Weisfeiler-Lehman Graph kernel

Weisfeiler-Lehman graph kernel theo nguyên tử và liên kết

WL-AD Atom, distance-based Weisfeiler-Lehman Graph kernel

Weisfeiler-Lehman graph kernel theo nguyên tử và khoảng cách liên nguyên tử

Trang 15

CHƯƠNG 1 GIỚI THIỆU

Cải thiện cuộc sống của con người một cách bền vững là một trong các nhiệm vụ trọng tâm của kỹ thuật hóa học và ngành hóa học Nhằm đạt được điều này, các nhà hóa học và kỹ sư cần tìm ra các hợp chất hóa học hoặc vật liệu tốt hơn: ví dụ như phân tử thuốc có hiệu quả điều trị tốt nhưng độc tính thấp, vật liệu có hiệu suất chuyển đổi ánh sáng mặt trời sang năng lượng tốt hơn, Mặc dù vậy, không gian tìm kiếm có thể đến hơn 1060 cấu trúc hóa học khác nhau,[6] và do đó, việc sàng lọc không gian gồm tất cả các cấu trúc hóa học chỉ với thực nghiệm là hoàn toàn không khả thi Thậm chí việc này là không thể hoàn thành chỉ với công cụ tính toán lý thuyết do các tính toán chất lượng cao cần rất nhiều thời gian và chi phí tính toán (computational cost) Một chiến thuật khôn ngoan để sàng lọc một cách hiệu quả là ta có thể xây dựng một trình tự sàng lọc hình chiếc phễu: các cấu trúc trong không gian tìm kiếm sẽ đi qua nhiều mô hình sàng lọc khác nhau và số lượng cấu trúc ra khỏi mỗi “sàng” sẽ ít hơn số lượng cấu trúc đi vào; mô hình sau sẽ có chi phí và thời gian tính toán nhiều hơn các mô hình trước Hay nói cách khác, quy trình sàng lọc sẽ cố gắng thu hẹp dần không gian tìm kiếm và các mô hình với chi phí thấp sẽ được sử dụng để sàng lọc các không gian tìm kiếm rộng lớn ban đầu Hình minh họa cho chiến lược

này được cho ở hình 1.1

Đến đây ta có thể đặt câu hỏi: đâu là mô hình sàng lọc với chi phí thấp nhưng lại cho hiệu quả cao nhất? Câu trả lời có thể sẽ là machine learning và artificial intelligence (máy học và trí tuệ nhân tạo, ML/AI) Trước tiên, ML/AI cung cấp một giải pháp tính toán với chi phí tương đối thấp so với các phương pháp lí thuyết ab initio Thêm vào đó, các mô hình ML/AI có thể đạt độ chính xác cao hơn các phương pháp lý thuyết có cùng chi phí tính toán Trên thực tế, các mô hình ML/AI có thể “học” được dữ liệu từ các tính toán chất lượng cao, và do đó, có thể đạt được độ chính xác của các mô hình này với khoảng sai số tương đối.[7, 8] Điều này khiến cho các công cụ ML/AI trở thành các công cụ xây dựng mô hình tiềm năng cho việc sàng lọc cấu trúc hóa học.[9]

Trang 16

Hình 1.1 Hình minh họa cho chiến thuật sàng lọc theo dạng phễu.[6]

Vật liệu bán dẫn hữu cơ (organic semiconductor) mở ra một kỉ nguyên mới cho công nghệ điện tử từ vật liệu hữu cơ Lớp vật liệu này được dự đoán sẽ thay thế vật liệu dựa trên silicon vốn được sử dụng nhiều cho các công nghệ điện tử Các vật liệu bán dẫn hữu cơ được chia thành 4 nhóm chính: diodes phát sáng hữu cơ (organic light-emitting diodes, OLEDs),[10] transistor hiệu ứng trường hữu cơ (organic field effect transistors),[11, 12] và quang điện hữu cơ (organic photovoltaics).[13, 14] Luận văn này sẽ tiếp nối những công trình trước của tác giả và nhóm nghiên cứu[1-4] về việc xây dựng mô hình dự đoán tính chất điện tử bao gồm band gap, electron affinity (EA), và ionization potential (IP) cho các hợp chất đa vòng thơm bao gồm PAH, thienoacenes, và dẫn xuất có nhóm thế của PAH Tuy nhiên, ở đây, mô hình được sử dụng sẽ hoàn toàn là machine learning để đạt được mô hình tổng quát nhất Ngoài ra, lớp phân tử PAH có gắn nhóm thế NO2 sẽ được đưa vào việc mô hình hóa bên cạnh các lớp phân tử đã được mô hình hóa trong các công bố trước đó bao gồm PAH, thienoacenes, và CN-PAH

Mục tiêu đề tài:

Xây dựng mô hình máy tính dựa trên thuật toán machine learning (học máy) có:

Trang 17

 Input - Đầu vào: cấu trúc 2 chiều của Polycyclic Aromatic Hydrocarbon (PAH), thienoacenes, PAH có gắn nhóm thế -CN, -NO2

 Output - Đầu ra: dự đoán các tính chất điện tử như band gap, Electron Affinity (EA, ái lực điện tử), và Ionization Potential (IP, thế ion hóa) cho phân tử đầu vào

 Mô hình sẽ được xây dựng bằng cách “huấn luyện” (train) nó với một bộ dữ liệu huấn luyện (training set)

Mô hình mục tiêu được minh họa trong flowchart của hình 1.2 Dữ liệu dùng để

xây dựng và kiểm tra mô hình lấy từ các phép tính hóa lượng tử chất lượng cao

Hình 1.2 Sơ đồ mô tả mô hình machine learning cho việc dự đoán band gap của PAH

Trang 18

CHƯƠNG 2 TỔNG QUAN

2.1 Giới thiệu về vật liệu bán dẫn hữu cơ dựa trên phân tử đa vòng thơm

Ngày nay, các phân tử hữu cơ đa vòng thơm là một trong những ứng viên cho các ứng dụng “hữu cơ” vốn chỉ bao gồm vật liệu vô cơ trước đó như bán dẫn, transistor trường điện tử, diode phát sáng,[15] và vật liệu quang điện Tính chất đáng mong muốn của một phân tử đa vòng thơm sử dụng cho mục đích làm vật liệu bán dẫn hữu cơ có thể được tóm gọn bởi 3 ý như sau: 1/ có các tính chất (quang) điện tử liên quan tốt, 2/ có độ linh động điện tích (charge mobility) tốt, 3/ bền trước các tác nhân oxi hóa-khử và các phản ứng hóa học không mong muốn [1]

Để có thể tìm được các phân tử thỏa cả các điều kiện này, ta có thể dựa vào các giá trị năng lượng của orbital phân tử cao nhất có chứa electron (Highest Occupied Molecular Orbital - HOMO) và năng lượng của orbital phân tử thấp nhất còn trống (Lowest Unoccupied Molecular Orbital – LUMO) và khoảng cách giữa 2 mức năng lượng này Cũng cần lưu ý rằng theo định lý Koopman, ta có thể xấp xỉ giá trị HOMO là thế ion hóa (Ionization Potential – IP), và giá trị LUMO là ái lực điện tử (Electron Affinity – EA).[16] Các giá trị năng lượng này đóng một vai trò quan trọng khi xem xét khả năng ứng dụng bán dẫn lượng tử của các phân tử đa vòng thơm Quan trọng nhất, HOMO, LUMO, và bandgap của một phân tử hữu cơ đa vòng thơm sẽ quyết định độ bền của chúng trước các phản ứng không mong muốn Các phản ứng này sẽ bao gồm phản ứng oxi hóa khử và phản ứng Diels-Alder.[17] Trên thực tế, một trong những rào cản và mối quan tâm lớn nhất khi lựa chọn phân tử cho ứng dụng bán dẫn hữu cơ chính là độ bền của chúng Các phân tử acene thẳng có nhiều vòng thơm hơn

pentacene (cấu trúc B trong hình 2.1) sở hữu tính chất điện tử tốt hơn (ví dụ như độ

linh động điện tích) cho ứng dụng dụng bán dẫn hữu cơ nhưng lại gặp phải vấn đề là chúng rất không ổn định do có IP thấp và band gap hẹp và do đó chúng rất dễ tham gia vào các phản ứng oxi hóa-khử, phản ứng quang hóa, hay Diels-Alder Về cơ bản, các acenes thẳng càng dài thì sẽ càng dễ tham gia phản ứng hóa học, với vòng ở giữa dễ trở thành tâm phản ứng, và do đó, sẽ không đủ ổn định cho ứng dụng làm vật liệu bán dẫn [11, 17] Thêm vào đó, các phân tử acene thẳng càng dài thì sẽ càng gây khó

Trang 19

khăn trong việc tổng hợp các tinh thể tương ứng, ví dụ như khó hòa tan các phân từ này và đòi hỏi các nhóm thế giúp tăng độ hòa tan của phân tử.[11]

Điều này đặt ra một trở ngại khi cố gắng cải thiện các phân tử acene thẳng như pentacene chỉ với cách nối dài hệ liên hợp với nhiều vòng thơm hơn Để cải tiến các phân tử “cổ điển” cho bán dẫn hữu cơ là acene thẳng bao gồm tetracene (cấu trúc A

trong hình 2.1) và pentacene, người ta đã đề xuất một vài hướng như sau Đơn giản

nhất, người ta đề xuất gắn các nhóm thế cồng kềnh để bảo vệ các tâm phản ứng và do đó, bền hóa các phân tử acene thẳng Tuy nhiên, người ta cũng phát hiện rằng tương tác lập thể khiến cho các phân tử mất khả năng sắp xếp theo kiểu 𝜋-stacking, và do đó, làm giảm khả năng truyền tải điện tích trong phân tử [17] Bên cạnh đó, việc sử dụng các nhóm rút đẩy điện tử như fluorine (F), hay cyano (CN) cũng là một lựa chọn để tăng IP của phân tử theo hướng bền hóa trước các tác nhân oxy hóa.[11] Thêm vào đó, nhóm thế cyano cũng đem lại một số cải thiện khác cho phân tử như độ bền nhiệt và tương tác liên phân tử trong quá trình tổng hợp tinh thể ở dạng phim, [18] cải thiện tính chất điện tử của phân tử cho ứng dụng bán dẫn loại n,[19] Mặt khác, thay vì chỉ sử dụng phân tử acenes thẳng như tetracene, pentacene như đã đề cập ở trên, người

ta đề xuất sử dụng các acene ngưng tụ 2 chiều như các cấu trúc C và D ở hình 2.1.[17]

Bên cạnh đó, các vòng thơm khác như thiophene cũng có thể được sử dụng để xây dựng và tối ưu phân tử đa vòng thơm cho ứng dụng bán dẫn hữu cơ Các hợp chất đa vòng thơm với 1 hay nhiều vòng thiophene được gọi là thienoacene Nhóm phân tử này có rất nhiều hình dạng khác nhau mà người ta có thể tổng hợp được,[2] và do đó, đem lại rất nhiều lựa chọn để các nhà nghiên cứu “tối ưu hóa” phân tử cho ứng dụng bán dẫn hữu cơ (xem cấu trúc E, F, G, và H ở hình 3) Người ta đã tìm ra được rằng các hợp chất thienoacene có các tính chất điện tử đáng mong muốn cho một vật liệu bán dẫn hữu cơ, nhưng vẫn có độ bền tốt Do đó, thienoacenes là một nhóm các phân tử có tiềm năng đáng kể trong lĩnh vực bán dẫn hữu cơ.[20]

Không những là chỉ dấu cho độ bền của các phân tử, HOMO, LUMO, và band gap cũng là các chỉ dấu cho hiệu suất và tiềm năng của các phân tử đa vòng thơm cho ứng dụng bán dẫn lượng tử Đối với vật liệu quang điện, hiệu suất chuyển đổi năng lượng (Power Conversion Efficiency – PCE) sẽ phụ thuộc vào giá trị mật độ dòng điện ngắn

Trang 20

mạch (short circuit current density 𝐽𝑠𝑐) và hiệu điện thế mạch hở (open circuit voltage 𝑉𝑜𝑐) Giá trị 𝑉𝑜𝑐 phụ thuộc vào HOMO và LUMO của vật liệu, trong khi 𝐽𝑠𝑐 phụ thuộc vào band gap.[13]

Đến đây, chúng ta có thể đi đến kết luận rằng các giá trị bandgap, HOMO/IP, và LUMO/EA là các tham số quan trọng để tối ưu hóa các phân tử đa vòng thơm cho ứng dụng bán dẫn hữu cơ

Hình 2.1 Một số phân tử đa vòng thơm được đề cập

2.2 Giới thiệu về machine learning trong hóa học

2.2.1 Tổng quan về thuật toán supervised machine learning

Thuật toán machine learning (ML) có thể được chia thành supervised learning (học có giảm sát), unsupervised learning (học không giám sát), reinforcement learning (học tăng cường), Ứng dụng của thuật toán máy học supervised learning được xem xét trong luận văn này Sản phẩm của thuật toán này có thể được xem như một hàm toán học ánh xạ tính chất của một điểm dữ liệu sang tính chất cần mô hình hóa/dự đoán của nó (hay còn gọi là “nhãn”) Nếu ta kí hiệu bộ tính chất của một điểm dữ liệu

Trang 21

là một vector 𝑋𝑖 và hàm ánh xạ của thuật toán ML là 𝑓, hàm này sẽ nhận 𝑋𝑖 trả về một giá trị dự đoán 𝑦̂𝑖 = 𝑓(𝑋𝑖) sao cho 𝑦̂𝑖 gần với giá trị “nhãn” 𝑦𝑖 nhất có thể Nếu như giá trị dự đoán 𝑦 là liên tục (ví dụ như giá trị band gap của phân tử), thuật toán được gọi là regression (hồi quy) Nếu như giá trị dự đoán 𝑦 là rời rạc (không liên tục, ví dụ như 1 hoặc 0 tượng trưng cho có tính độc hay không trong bài toán phân loại độc chất), ta gọi bài toán là classification (phân loại)

Đặc trưng của bộ dữ liệu sử dụng cho việc huấn luyện thuật toán này chính là từng điểm dữ liệu có “nhãn” Ở đây, nhãn dùng để chỉ giá trị mục tiêu đang được mô hình hóa hay dự đoán bởi mô hình, ví dụ như giá trị band gap của phân tử trong bài toán

dự đoán giá trị band gap của phân tử từ cấu trúc của chúng (xem ví dụ hình I.2) Bên

cạnh đó, các điểm dữ liệu trong bộ dữ liệu dùng cho huấn luyện thuật toán này cũng

bao gồm các tính chất (feature) mà mô hình sử dụng cho việc dự đoán “nhãn” Ví dụ,

nếu như ta sử dụng ML để dự đoán band gap phân tử như ví dụ ở trên, phần dữ liệu tính chất của phân tử sẽ bao gồm cấu trúc 2 chiều của hợp chất Vai trò và ví dụ cho các tính chất và nhãn của dữ liệu trong mô hình ML trong hóa học sẽ được làm rõ ở các phần tiếp theo của luận,

Một đặc trưng của các mô hình ML là chúng có các parameters (tham số, còn được gọi là weight hay trọng số) Việc xây dựng mô hình ML chính là fit (tìm giá trị khớp

nhất có thể) các tham số này với bộ dữ liệu huấn luyện Một cách cụ thể hơn, việc này tương đương với tìm giá trị tham số để tối thiểu hóa sai số (hay tối đa hóa độ chính xác) của mô hình Trong các tài liệu về machine learning, các giá trị này được

cho bởi hàm loss function (hàm mất mát) Với các bài toán hồi quy, hàm thường được sử dụng là Mean Square Error (MSD, trung bình bình phương sai số), và do đó, việc

fit mô hình hồi quy tương đương việc giải bài toán tối ưu như sau: 𝑎𝑟𝑔𝑚𝑖𝑛𝑤 1

𝑁∑ 𝑁

[𝑓(𝑋𝑖) − 𝑦𝑖]2

Với 𝑤 là tham số của thuật toán hồi quy 𝑓𝑤, 𝑋𝑖, 𝑦𝑖 lần lượt là dữ liệu đầu vào và giá trị “đúng” của điểm dữ liệu thứ 𝑖

Trang 22

2.2.2 Một số thuật toán toán Supervised Machine learning

Để có thể làm rõ hơn bản chất của thuật toán máy học cho bài toán hồi quy và việc huấn luyện chúng, một số thuận toán điển hình sẽ được trình bày ở đây Cần chú ý rằng đây là các thuật toán cho ta một hám ánh xạ từ vector sang một số nguyên: 𝑓: 𝑅𝑁 → 𝑅

Multivariate linear regression (MLR) (hồi quy tuyến tính đa biến): [21-23] Đây là một thuật toán đơn giản có dạng:

(𝑦𝑖− 𝑦̂)𝑖 2 = ∑ 𝑁

𝑋 = [

𝑥11 𝑥12 … 𝑥1𝐹𝑥21 𝑥22 … 𝑥2𝐹

…𝑥𝑁2 …⋱

] , 𝑦 = [𝑦1𝑦2…𝑦𝑁

Trang 23

𝜙𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑥) = 𝜎 (𝑥 − 𝜇

𝑠 ) ; 𝜎(𝑎) = 11 + exp (−𝑎)Ridge Regression (RR): [21-23]

Phương pháp Ridge Regression (RR) có thể hiểu nôm na là một mô hình hồi quy tuyến tính với nguyên tắc tối ưu tham số có cải tiến so với phương pháp bình phương cực tiểu thông thường Thuật toán RR và hàm mục tiêu cho việc tối ưu tham số 𝑊 của nó có dạng:

𝑦̂ = 𝑊𝑇𝑋 + 𝑏

𝑎𝑟𝑔𝑚𝑖𝑛𝑊∑ 𝑚

𝑥𝑖𝑥𝑖𝑇) ; 𝑏 = ∑ 𝑚

Phần 𝜆𝑊𝑇𝑊 được gọi là Tikhonov regularization, và được chứng mình là giúp cho mô hình học một cách ổn định hơn cũng như ngăn ngừa hiện tượng overfitting.[21]

Kernel ridge regression (KRR):[21, 22, 24]

Thuật toán KRR có thể được suy ra từ thuật toán hồi quy tuyến tính RR Ta bắt đầu từ hàm mục tiêu của mô hình RR:

ℒ(𝑥, 𝑦) =12∑

{[𝑊𝑇𝜙(𝑥𝑖)] − 𝑦𝑖}2+𝜆2𝑊

𝑇𝑊

Để tối thiểu hóa hàm ℒ, ta tìm 𝑊 sao cho đạo hàm của ℒ theo 𝑊 là không và thu được:

𝑊 = −1𝜆∑

{[𝑊𝑇𝜙(𝑥𝑖)] − 𝑦𝑖}𝜙(𝑥𝑖) = ∑ 𝑁

𝑇𝑌 +𝜆2a

TΦΦ𝑇𝑎

Trang 24

Đặt ma trận 𝐾 = ΦΦ𝑇 Thành phần ở hàng 𝑛 cột 𝑚 của ma trận này 𝐾𝑛𝑚 sẽ được tính như sau:

𝐾𝑛𝑚 = 𝜙(𝑥𝑛)𝑇𝜙(𝑥𝑚) = 𝑘(𝑥𝑛, 𝑥𝑚)

Ở đây, hàm kernel 𝑘 được giới thiệu Hàm mục tiêu trở thành:

ℒ(𝑎) =12𝑎

𝑇KKa − aTK𝑌 +12𝑌

𝑇𝑌 +𝜆2a

TK𝑎 Từ đây, ta có thể tìm giá trị 𝑎 tối thiểu hóa hàm mục tiêu này là:

𝑎 = (𝐾 + 𝜆𝐼)−1𝑌 Thay 𝑊 trong mô hình RR bằng 𝑎 và Φ, ta được:

𝑦̂ = 𝑊𝑇𝜙(𝑥) = 𝑎𝑇Φ𝜙(𝑥) = 𝑘(𝑥)𝑇(𝐾 + 𝜆𝐼)−1𝑌

Với 𝑘(𝑥) = [𝑘(𝑥1, 𝑥) 𝑘(𝑥2, 𝑥) … 𝑘(𝑥𝑛, 𝑥)] Nếu như ta đặt trọng số 𝑊′ =(𝐾 + 𝜆𝐼)−1𝑌, dự đoán của mô hình 𝑦̂ từ đầu vào 𝑥 sẽ có dạng:

𝑦̂ = 𝑘(𝑥)𝑇𝑊′ = ∑ 𝑁

𝑘(𝑥𝑖, 𝑥)𝑊𝑖′

Hay nói cách khác, dự đoán bởi mô hình kernel cho đầu vào 𝑥 bất kì sẽ là tổ hợp tuyến tính có trọng số của ảnh/đầu ra của hàm kernel của 𝑥 và 𝑥𝑖 cho tất cả 𝑥𝑖 trong bộ dữ liệu huấn luyện Hàm kernel có thể được xem như là một hàm đo sự giống nhau giữa hai điểm dữ liệu đầu vào.[25] Như vậy, dự đoán của phương pháp kernel sẽ dựa trên tổ hợp của sự giống nhau của đầu vào cần dự đoán và tất cả các điểm dữ liệu huấn luyện Phương pháp kernel là dựa trên bộ nhớ là do nó cần phải “nhớ” các điểm dữ liệu huấn luyện nhằm đưa ra dự đoán thông qua việc tính toán sự giống nhau, khác với các mô hình như RR hay MLP (ở dưới) chỉ sử dụng dự liệu huấn luyện để suy ra trọng số tối ưu

Một số hàm kernel thường dùng cho mô hình KRR cũng như các mô hình có sử dụng hàm kernel khác như Support Vector Machine và Gaussian Process Regression (GPR) bao gồm hàm tuyến tính 𝑘𝑙𝑖𝑛𝑒𝑎𝑟 và hàm radial basis function (RBF) 𝑘𝑅𝐵𝐹 Hàm kernel tuyến tính là hàm đơn giản nhất và có dạng 𝑘𝑙𝑖𝑛𝑒𝑎𝑟(𝑥1, 𝑥2) = 𝑥1𝑇𝑥2 Hay nói cách khác, là hàm kernel theo định nghĩa ở trên với 𝜙 là tuyến tính 𝜙(𝑥) = 𝑥 Hàm kernel RBF là hàm kernel phi tuyến tính tương đối phổ biến Hàm RBF có dạng:[22, 26]

Trang 25

nhiều lớp hidden layer và một lớp output layer Đầu vào của mô hình X sẽ đi vào lớp

hidden layer đầu tiên, rồi đầu ra của lớp hidden layer đầu tiên này sẽ đi vào lớp hidden layer số 2, rồi đầu ra của lớp hidden layer cuối cùng sẽ được xử lý bởi lớp output layer để nhận được kết quả dự đoán Lớp hidden layer thứ 𝑖 sẽ xử lý vector 𝑍[𝑖−1] là kết quả từ hidden layer thứ 𝑖 − 1 như sau:

𝐴[𝑖] = 𝑊[𝑖]𝑍[𝑖−1]+ 𝐵[𝑖]𝑍[𝑖] = ℎ(𝐴[𝑖]) Với 𝑊 và 𝐵 có dạng:

𝑊[𝑖] =[ 𝑊11

𝑊12[𝑖] … 𝑊1𝑁[𝑖]𝑖−1 𝑊21[𝑖] 𝑊22[𝑖] … 𝑊2𝑁

… 𝑊𝑁

𝐵[𝑖] =[ 𝐵1

Với 𝑁[𝑖−1] và 𝑁[𝑖] là số neurons của hidden layer 𝑖 − 1 và 𝑖 Như vậy, một neuron của một neural network sẽ xử lý vector đầu vào và đưa ra một số nguyên như sau:

𝑍𝑗[𝑖] = ℎ(𝑊[𝑗,:][𝑖]𝑍[𝑖−1]+ 𝐵𝑗[𝑖])

Với 𝑊[𝑗,:][𝑖] là hàng thứ 𝑗 của ma trận 𝑊[𝑖] Hàm ℎ là hàm activation và là một hàm phi tuyến Một số hàm activation thường dùng bao gồm hàm sigmoid, hàm tanh, và hàm Rectified Linear Unit (ReLU) có dạng lần lượt như sau:

𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑥) = 11 + 𝑒−𝑥

Trang 26

𝑅𝑒𝐿𝑈(𝑥) = {𝑥, 𝑥 ≥ 00, 𝑥 < 0

Lớp output layer có dạng tương tự hidden layer nhưng không có hàm activation function:

𝑦̂ = 𝑊𝑜𝑇𝑍[𝑇]+ 𝑏𝑜

Với 𝑊𝑜𝑇 = [𝑊𝑜1 𝑊𝑜2… 𝑊𝑜𝑁𝑇] với T là lớp hidden layer cuối cùng

Mô hình neural network có các ma trận tham số 𝑊[𝑖] và 𝐵[𝑖] ở mỗi lớp và 𝑊𝑜 và 𝑏𝑜ở lớp output layer Các tham số này sẽ được học trong quá trình “huấn luyện” mô

hình bằng cách tối thiểu hóa hàm sai số thông qua các thuật toán Gradient Descent (hay còn gọi là Steepest Descent) và Backpropagation Một cách cụ thể hơn, hàm sai

số cho bài toán hồi quy mà ta cần tối ưu là: ℒ = 1

𝑁∑ 𝑁

(𝑓(𝑥𝑖) − 𝑦𝑖)2 = 1𝑁∑

Để tính toán gradient của hàm sai số ℒ theo 𝑊[𝑖], ta sử dụng chain rule: 𝜕ℒ

𝜕𝑊[𝑖] =𝜕𝐿𝜕𝑦̂×

𝜕𝑍[𝑇]× 𝜕𝑍[𝑇]

𝜕𝑍[𝑇−1]× … ×𝜕𝑍[𝑖+1]𝜕𝑍[𝑖] × 𝜕𝑍

[𝑖]𝜕𝑊[𝑖]Gaussian Process Regression (GPR):[30]

Khác với các mô hình đã bàn ở trên, GPR là một mô hình mà trong đó tham số của mô hình được xem như là một phân phối và phân phối của giá trị tham số này được tối ưu thông qua định luật Bayes Do đó, dự đoán của mô hình thu được sẽ là một phân phối chứ không phải là chỉ một giá trị nhất định Ý tưởng tổng quát đằng sau thuật toán GPR sẽ được bàn luận ở đây nhằm làm rõ cách thức hoạt động cũng như đầu ra và đầu vào của thuật toán Độc giả quan tâm về GPR có thể tìm đọc ở tài liệu tham khảo

Mô hình GPR có thể được đúc kết thông qua việc tối ưu tham số của một mô hình tuyến tính bình thường có dạng:

Trang 27

𝑝(𝑦𝑖|𝑥𝑖, 𝑊) = ∏ 𝑖

√2𝜋𝜎𝑛exp (−

(𝑦𝑖− 𝑥𝑖𝑇𝑊)22 𝜎𝑛2 )

exp (− 1

2𝜎𝑛2|𝑦𝑖− 𝑋𝑇𝑊|2) = 𝒩(𝑋𝑇𝑊, 𝜎𝑛𝐼) Theo định lý Bayes

𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 × 𝑝𝑟𝑖𝑜𝑟𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔_𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡⟹ 𝑝(𝑊|𝑌, 𝑋) =𝑝(𝑌|𝑋, 𝑊)𝑝(𝑊)

Phân phối của vector W được giả sử là một phân phối chuẩn tại 0 với ma trận covariance Σ𝑝:

𝑝(𝑊) = 𝒩(0, Σ𝑝)

Từ đó, người ta suy ra được phân phối xác suất posterior của W có điều kiện là giá

trị của X, Y là một phân phối chuẩn có dạng: 𝑝(𝑊|𝑌, 𝑋) ~ 𝒩 (𝑊̅ = 1

𝜎𝑛2𝐴−1𝑋𝑌, 𝐴−1)

Với 𝐴−1 là ma trận covariance và 𝐴 = 𝜎𝑛−2𝑋𝑋𝑇+ 𝜎𝑝−1 Trung bình của phân phối 𝑝(𝑊|𝑌, 𝑋) cũng chính là mode của nó Cực đại hóa phân phối posterior (maximum a posterior – MAP) cho ta giá trị của 𝑊 Để đưa ra dự đoán cho một đầu vào 𝑥 nào đó, ta sẽ tính trung bình tất cả các giá trị 𝑊 có thể có trong phân phối Do đó, mô hình GPR cho ta dự đoán là một phân phối xác suất, khác với các mô hình phi Bayes đã thảo luận ở trên Một cách cụ thể, phân phối dự đoán của mô hình GPR 𝑓(𝑥∗) = 𝑓∗cho một đầu vào 𝑥∗ nào đó sẽ là:

Trang 28

𝑝(𝑓∗|𝑥∗, 𝑋, 𝑌) = ∫ 𝑝(𝑓∗|𝑥∗, 𝑤)𝑝(𝑤|𝑋, 𝑌)𝑑𝑤 = 𝒩 ( 1

𝜎𝑛2𝑥∗𝑇𝐴−1𝑋𝑦, 𝑥∗𝑇𝐴−1𝑥∗) Giá trị trung bình của phân phối này sẽ là giá trị dự đoán của mô hình Bên cạnh đó, mô hình GPR còn có thể sử dụng các hàm kernel tương tự như đã thảo luận ở phần mô hình KRR ở trên để có thể mô hình hóa các hàm phi tuyến

2.2.3 Active learning

Có thể thấy rằng chất lượng của mô hình ML phụ thuộc nhiều vào bộ dữ liệu để huấn luyện chúng, và do đó, cách đơn giản nhất để cải thiện mô hình là mở rộng bộ dữ liệu huấn luyện Tuy nhiên, việc mở rộng một bộ dữ liệu huấn luyện thường đòi hỏi phải thu thập dữ liệu bằng cách thực hiện thí nghiệm hay tính toán đòi hỏi nhiều thời gian, tài nguyên và công sức Do đó, việc thu thập dữ liệu cho tập dữ liệu huấn luyện không nên được thực hiện một cách tùy tiện Active learning là một thủ thuật giúp ta xây dựng bộ dữ liệu huấn luyện một cách hiệu quả.[31, 32] Theo thủ thuật này, lựa chọn tốt nhất để thêm vào bộ dữ liệu huấn luyện trong trường hợp này chính là điểm dữ liệu mà mô hình không chắc chắn nhất Để lượng hóa độ “không chắc chắn” của mô hình cho một điểm dữ liệu nào đó, một lựa chọn khả dĩ sẽ là sai số của mô hình chính cho điểm dữ liệu đó Tuy nhiên, để tính được giá trị sai số, ta cần giá trị được mô hình hóa của điểm dữ liệu thu thập thông qua thực nghiệm hay tính toán lý thuyết, và do đó, cách này khá vô dụng Do đó, ta cần một thước đo cho độ không chắc chắn của mô hình mà không cần tới giá trị “đúng” của điểm dữ liệu

Như đã bàn luận ở trên đầu ra dự đoán cho mô hình GPR sẽ là một phân phối xác suất Công trình[32] đề xuất rằng ta có thể sử dụng độ bất định của dự đoán của mô hình GPR, được lượng hóa thông qua phương sai của phân phối dự đoán, làm thước đo cho độ bất định của mô hình cho một điểm dữ liệu nào đó

Để kiểm tra độ hiệu quả của quy trình active learning của mô hình, ta có thể mô phỏng quy trình bằng cách thực hiện tính sai số hay độ chính xác của mô hình theo độ lớn của tập dữ liệu huấn luyện Theo cách này, ta sẽ bắt đầu với một bộ dữ liệu huấn luyện nhỏ, và tất cả dữ liệu còn lại cho vào bộ dữ liệu kiểm tra Mô hình GPR sẽ được huấn luyện rồi sau đó sẽ đưa ra dự đoán, phương sai dự đoán cho các mẫu trong tập kiểm tra Mẫu trong tập kiểm tra với phương sai lớn nhất sẽ được bốc ra và

Trang 29

cho vào tập huấn luyện Ta sẽ lặp lại với bước huấn luyện mô hình, tính phương sai, bốc mẫu cho vào tập huấn luyện, Ở mỗi vòng lặp, sai số của mô hình GPR sẽ được

tính nhằm đánh giá độ hiệu quả của mô hình Quy trình này được vẽ ở hình 2.2:

Hình 2.2 Flowchart cho quy trình active learning cũng như kiểm tra quy trình này

2.3 Biểu diễn cấu trúc hóa học

Để xây dựng mô hình hồi quy từ cấu trúc hóa học/vật liệu, người ta cần phải chuyển các cấu trúc này sang các cấu trúc toán học có thể nạp vào các mô hình máy học Một ví dụ tiêu biểu cho cấu trúc này chính là vector Hầu hết các mô hình máy học đều nhận vector là đầu vào và do đó, vector là một lựa chọn khả dĩ Các vector này “mô

tả” và “đại diện” cấu trúc hóa học và do đó được gọi là molecular descriptor hay

molecular representation Thành phần của các vector này gồm tính chất của phân tử

thuộc 1 trong các nhóm như sau:[33]

 Constitutional: gồm số lượng các nguyên tử theo loại

 Topological: miêu tả sự liên kết của các nguyên tử tạo thành phân tử

 Structural: Mô tả cấu trúc 3 chiều của phân tử

Trang 30

 Quantum-chemical: bào gồm tính chất hóa lượng tử như momen lưỡng cực,

độ phân cực, năng lượng orbital, Các tính chất này có thể được tính toán

sử dụng các phần mềm hóa lượng tử hay bán thực nghiệm (semiempirical)

Về nguyên tắc, các tính chất liệt kê trong vector biểu diễn cần phải dễ thu thập, đo đạc hơn tính chất được mô hình hóa.[34] Ví dụ, nếu ta xây dựng mô hình cho tính chất hóa học được thu thập từ thí nghiệm, ta có thể sử dụng tính chất hóa lý lượng tử được tính toán lý thuyết do việc tính toán lý thuyết thường tốn ít công sức và tiền bạc

hơn là đo đạc thực nghiệm Việc thiết kế các vector descriptor này hiệu quả sẽ cải

thiện độ chính xác của mô hình, tránh nguy cơ mô hình gặp phải lỗi overfitting Một

số ví dụ về descriptor sẽ được đưa ra ở phần 2.4

Các nhà hóa tin và tính toán từ lâu đã đưa ra vector hay ma trận để biểu diễn cấu trúc 2 chiều (topological) hay 3 chiều (structural) của cấu trúc hóa học Fingerprint

để chỉ các các vector biểu diễn tính chất topology (thông tin cấu trúc chỉ bao gồm sự

liên kết của các nguyên tử trong phân tử) của phân tử Một ví dụ fingerprint nổi tiếng

là Extended Connectivity Fingerprint (ECFP).[5] ECFP cho một cấu trúc hóa học là

một vector gồm số nguyên với chiều dài tùy ý mà mỗi thành phần của một vector

ECFP ghi nhận số lượng hay sự xuất hiện của một cụm cấu trúc (substructure) nào

đó trong phân tử Tất cả cụm cấu trúc với kích thước nhỏ hơn một kích thước chọn bởi người dùng trong phân tử sẽ được xác định thông qua một thuật toán đệ quy tương tự với thuật toán Weisfeiler-Lehaman sẽ trình bày ở các phần tiếp theo Bên cạnh ECFP, người ta cũng sử dụng các fingerprint có sẵn khác như Molecular Access System,[35] Molecular signature,[36] hay Estate[37, 38] Để biểu diễn cấu trúc 3 chiều của phân tử (structural), có công trình đề xuất ma trận Coulomb 𝑀 được tính như sau:[39]

𝑀𝑖𝑗 = {

0.5𝑍𝑖2.4, 𝑖 = 𝑗𝑍𝑖𝑍𝑗

Trang 31

vẫn có các lựa chọn khác để biểu diễn cấu trúc 3 chiều của phân tử như molecular transform.[40] Cần lưu ý rằng các vector hay ma trận biểu diễn cấu trúc 3 chiều của phân tử đòi hỏi tọa độ của từng nguyên tử trong phân tử, và do đó, đòi hỏi người dùng thu thập cấu trúc 3 chiều phân tử, ví dụ như thông qua phương pháp tính toán lượng tử

Bên cạnh các vector, phân tử cũng có thể được biểu diễn bằng các cấu trúc dữ liệu khác nhau như hình ảnh, chuỗi kí tự, hay đồ thị (graph), bởi vì đã có những mô

hình máy học có khả năng xử lý các cấu trúc dữ liệu này như convolutional neural

network cho xử lý hình ảnh,[41] recurrent neural network cho xử lý ngôn ngữ và văn

bản,[42] Ở đây, ta sẽ xem xét qua chuỗi ký tự và đồ thị cho biểu diễn phân tử Biểu cấu trúc hóa học ở dạng chuỗi kí tự ASCII là một vấn đề kinh điển trong hóa tin do chuỗi kí tự là một trong những cấu trúc dữ liệu cơ bản nhất của máy tính Chuỗi Simplified Molecular-Input Line-Entry System (SMILES)[43] là một trong những chuỗi ASCII cho cấu trúc hóa học ra đời sớm nhất và cũng là một trong những chuỗi phổ biến nhất Tuy vậy, nguyên tắc thiết lập chuỗi SMILES lại tương đối đơn giản Một số ví dụ cơ bản về nguyên tắc viết chuỗi SMILES như sau: 1/ các nguyên tử sẽ được kí hiệu bằng kí hiệu hóa học như C cho Carbon, O cho Oxygen, , 2/ Các liên kết sẽ được kí hiệu là – cho liên kết đơn, = cho liên kết đôi, # cho liên kết 3, , 3/ hai kí hiệu nguyên tử đứng kề nhau được ngầm hiểu là giữa chúng là liên kết đôi, ví dụ CC tương đương C-C, 4/ Hai nguyên tử đượng đánh cùng số thì giữa chúng sẽ có liên kết đơn Ví dụ trong chuỗi C1CCCC1, hai nguyên tử đầu và cuối của chuỗi có liên kết đơn giữa chúng, và chuỗi SMILES này biểu diễn phân tử cyclopentane, 5/ Các nguyên tử trong vòng thơm sẽ được ký hiệu bằng chữ thường (không in hóa), ví dụ c1ccccc1 biểu diễn benzene Và còn nhiều tắc nữa để xử lý các trường hợp như điện tích, lập thể, đồng phân, phân nhánh Chuỗi SMILES thường được dùng trong lưu trữ cấu trúc hóa học trong các bộ dữ liệu hóa học do nó được hỗ trợ trong các phần mềm hóa tin phổ biến như Rdkit hay Openbabel và nó có thể dễ dàng biến đổi sang dạng đồ thị Gần đây, chuỗi SMILES còn được tận dụng cùng với các mô hình máy học xử lý ngôn ngữ (Natural Language Process) để xây dựng các mô hình máy học cho hóa học Tuy không ứng dụng trực tiếp vào xây dựng mô hình, một số công trình

Trang 32

vẫn sử dụng chuỗi SMILES để lưu trữ thông tin cấu trúc hóa học trước khi chuyển nó thành các dạng khác như fingerprint hay chemical graph cần thiết cho mô hình

Trong cheminformatic (hóa tin), các phân tử hóa học thường được lưu trữ dưới dạng cấu trúc dữ liệu graph (đồ thị) Cấu trúc dữ liệu graph 𝒢 là tập hợp gồm 1 tập 𝒱 chứa các node/vertex (nút) và 1 tập ℰ chứa các edge (cạnh), trong đó các edges sẽ liên

kết các node như biểu diễn ở hình Dễ thấy để biểu diễn các phân tử ở dạng graph, ta có thể sử dụng tập node 𝒱 chứa các nguyên tử trong phân tử và tập edge ℰ để chứa

các liên kết.[32] Hình 2.3 đưa ra một ví dụ về graph và biểu diễn phân tử methanone

ở dạng graph

Hình 2.3 Ví dụ cho cấu trúc dữ liệu graph (a) và graph phân tử methanone (b, đã lược bỏ H)

Trên thực tế, trong một cuộc thi về xây dựng mô hình machine learning cho dữ liệu

dạng graph, một molecular graph (graph dùng để biểu diễn phân tử) sẽ bao gồm ít

nhất 3 list (list là dữ liệu dạng mảng trong Python).[44] Trong đó, 1 list ký hiệu V dùng để chứa thông tin của tất cả nguyên tử, 1 list ký hiệu bằng E sẽ bao gồm các cặp nguyên tử mà giữa chúng có liên kết, và 1 list ký hiệu F còn lại sẽ là thông tin về từng liên kết Lấy ví dụ như nguyên tử (𝐻3𝐶)2𝐶 = 𝑂 trong hình 2.3 với các nguyên tử H

đã được lược bỏ, nếu như ta chỉ xem xét thông tin của nguyên tử bao gồm số hiệu nguyên tử, và thông tin của liên kết bao gồm bậc liên kết, các list này sẽ có dạng như sau:

𝑉 = [6,6,6,8] 𝐸 = [[1,3], [2,3], [3,4]]

Trang 33

𝐹 = [1,1,2]

Với thành phần ở vị trí số i của list V là số hiệu nguyên tử đánh số i, các list thành phần của list E chứa cặp nguyên tử mà giữa chúng có liên kết, và thành phần i của list F sẽ là bậc của liên kết giữa cặp nguyên tử chứa ở thành phần 𝑖 của list E

2.4 Huấn luyện và đánh giá mô hình machine learning

Việc xây dựng một mô hình machine learning sẽ bao gồm 2 bộ dữ liệu: một bộ

training set (dữ liệu huấn luyện) và một bộ test set (dữ liệu kiểm tra) Trong đó, mô

hình sẽ được “nhìn” giá trị đúng của của bộ training set theo nghĩa là nó sẽ cố khớp các tham số của nó với bộ training set sao cho tối đa hóa độ chính xác (hay tối thiểu sai số) của nó trên bộ dữ liệu này Do mô hình đã được “nhìn đáp số” của bộ training set, ta sẽ sử dụng một test set để kiểm tra mô hình đã huấn luyện Trong quá trình kiểm tra này, mô hình sẽ không được phép “học” (các tham số của nó sẽ được giữ nguyên trong suốt quá trình) hay “nhìn đáp số” của bộ kiểm tra Do mô hình chưa biết qua “đáp số” của các điểm dữ liệu trong tập test set, sai số mô hình trên tập này sẽ mô tả một cách gần đúng độ chính xác của mô hình nếu như nó được sử dụng trong thực tế

Sai số của mô hình hồi quy có thể được tính bằng hàm Root Mean Square Error (RMSE) hay Mean Absolute Error (MAE) được cho như sau:

𝑅𝑀𝑆𝐸(𝑌̂, 𝑌) = √1𝑁∑

(𝑌̂ − 𝑌𝑖 𝑖)2

𝑀𝐴𝐸(𝑌̂, 𝑌) = 1𝑁∑

Người ta chứng minh được rằng, sai số kỳ vọng của một mô hình machine learning

có thể được viết tổng của 3 sai số bao gồm irreducible error (sai số không thể bị loại bỏ), bias, và variance, trong đó irreducible error có nguồn gốc là nhiễu ngẫu nhiên

Trang 34

của dữ liệu Bằng cách tăng độ phức tạp của mô hình, ta có thể giảm sai số bias và tăng sai số variance.[45] Do đó, ta cần chọn mô hình sao cho có độ phức tạp vừa phải nhằm đạt hiệu quả tốt nhất Cũng cần lưu ý rằng chiều của vector biểu diễn cấu trúc X cũng đóng vai trò làm tăng hay giảm sự phức tạp của mô hình, và do đó cũng đóng vai trò quyết định lên sai số variance và bias của mô hình

Mô hình với sai số bias lớn sẽ gặp phải tình trạng được gọi là underfitting Lỗi

underfitting được biểu hiện bằng việc sai số cho cả tập training set và tập test set của mô hình đều cao Cách giải quyết tình trạng này là tăng độ phức tạp của mô hình bằng nhiều cách khác nhau Nếu như đang sử dụng mô hình tuyến tính, ta có thể thay thế nó bằng một mô hình phi tuyến Nếu ta đang sử dụng một mạng neuron nhân tạo thì ta có thể tăng số lượng neuron, tăng số hidden layer, hay tăng thời gian huấn luyện Với các mô hình có regularization như RR hay KRR, ta có thể điểu chỉnh (thường là giảm) siêu tham số 𝜆 Bên cạnh đó, ta cũng có thể thay đổi vector biểu diễn hóa học cho cấu trúc bằng cách thêm vào vector này những thông tin về phân tử khác có liên quan đến tính chất cần mô hình hóa Nếu như sử dụng ECFP fingerprint, ta có thể tăng bán kính của fingerprint nhằm thêm vào vector nhiều hơn thông tin chi tiết về cấu trúc liên kết của phân tử [33, 42]

Với mô hình có sai số variance lớn sẽ gặp phải tình trạng gọi là overfitting Tình

trạng này có thể nhận biết với việc sai số của mô hình trên tập training set cực nhỏ, nhưng sai số của nó trên tập test set lại rất lớn Việc này có thể giải quyết bằng cách

giảm độ phức tạp của mô hình hay sử dụng các kĩ thuật regularization Để giảm độ

phức tạp của mô hình, ta có thể giảm số chiều của vector biểu diễn cấu trúc hóa học bằng cách loại bỏ những tinh chất không thật sự liên quan đến tính chất đang được mô hình hóa.[33] Kĩ thuật regularization được sử dụng trong mô hình RR hay KRR như đã trình bày ở trên Mặc khác, ta cũng có thể tăng số lượng hay độ phức tạp của dữ liệu trong bộ dữ liệu

Cách nhận biết tình trạng overfitting và underfitting ở trên đều có sử dụng test set Tuy nhiên, trên thực tế, ta sẽ muốn để dành test set là một tập tách biệt khỏi quá trình xây dựng mô hình và chỉ dùng để đánh giá mô hình cuối cùng Để lựa chọn mô hình (tương đương với việc lựa chọn nhóm hyperparameter), ta sẽ chỉ sử dụng dữ liệu

Trang 35

trong tập training set thông qua phương pháp k-cross validation Phương pháp này sẽ chia training set thành tập training set và một tập validation set Tập validation set sẽ đóng vai trò như một tập test set, có nghĩa là tập này sẽ không được dùng để huấn luyện mô hình mà chỉ dùng để đánh giá sai số của mô hình Phương pháp k-cross validation sẽ chia training set ra thành k tập nhỏ, trong đó lần lượt từng tập trong k tập này sẽ được dùng làm validation set, trong khi các tập còn lại là training set Ví

dụ, hình 2.4 minh họa cho quá trình 5-fold cross-validation Trường hợp các tập nhỏ

chỉ bao gồm 1 mẫu (hay nói cách khác, k bằng số lượng mẫu trong tập dữ liệu), ta có phương pháp Leave-on-out (LOO) cross-validation [33]

Hình 2.4 Minh họa cho quá trình k-cross validation với k=5 Nguồn:

https://towardsdatascience.com/cross-validation-k-fold-vs-monte-carlo-2.5 Các công trình ứng dụng ML cho hóa học tiêu biểu

2.5.1 Ứng dụng machine learning trong mô hình vật liệu hóa bán dẫn hữu cơ

Mô hình cơ học lượng tử với Degree of Pi-orbital Overlap (DPO) descriptor

Từ kiến thức hóa lượng tử, ta có thể dễ dàng nhận ra phân tử PAH có thể được xấp xỉ như một chiếc hộp 2 chiều và do đó kích thước phân tử này có mối tương quan với band gap dựa theo lý thuyết hạt trong hộp thế Dựa trên lý thuyết này, các tác giả đề xuất một bộ nguyên tắc đơn giản để tính chỉ số DPO dựa trên cách sắp xếp các vòng thơm trên phân tử PAH và thienoacenes Về nguyên tắc, DPO là một đa thức của các

Trang 36

tham số 𝑎, 𝑏, 𝑐, và 𝑑, mỗi tham số tượng trưng cho một cách mà các vòng thơm có

thể kết nối với nhau (fuse) để xây dựng một phân tử đa vòng thơm lớn hơn (xem hình

2.5) Các nguyên tắc cơ bản khi tính DPO là: 1/ mỗi liên kết là nơi gắn kết của 2 vòng

thơm sẽ được gán một đa thức, 2/ DPO là tổng tất cả các đa thức gán cho các liên kết, 3/ nhánh (segment) gồm nhiều vòng thơm nhất sẽ được xem như là nhánh quy chiếu, 4/ quá trình gán đa thức cho liên kết sẽ được thực hiện dưa trên nhánh quy chiếu này: liên kết trên nhánh quy chiếu sẽ được gán đa thức gồm tham số 𝑎, liên kết trên nhánh tạo với nhánh tham chiếu một góc 120o hay 60o sẽ được gán đa thức gồm tham số 𝑏 hay 𝑐, Nguyên tắc tính DPO cho PAH có thể tham khảo tại.[1]

Hình 2.5 Minh họa cho nguyên tắc tắc tính đa thức DPO.[1]

Các tác giả chứng minh rằng, với giá trị các tham số 𝑎, 𝑏, 𝑐, 𝑑 hợp lý, giá trị DPO của các phân tử PAH tuyến tính với giá trị tính chất điện tử của chúng như bandgap, electron affinity (EA), và ionization potential (IP).[1] Nguyên tắc DPO cũng được mở rộng ra cho các phân tử thienoacenes, là các phân tử PAH có bao gồm 1 hay 2

Trang 37

vòng thiophene, và cũng đạt được độ chính xác nhất định.[2] Gần đây, bằng cách áp dụng các nguyên lý của machine learning (cụ thể là nguyên lí tối thiểu sai số trình bày ở phần II.1.1), mô hình DPO được trang bị khả năng tự động tối ưu tham số của nó theo dữ liệu huấn luyện, hay nói cách khác, nó có khả năng “học”.[4] Mô hình machine learning-DPO mới này được ứng dụng để mô hình hóa tính chất điện tử của PAH có nhóm thế cyano (CN) và cho kết quả rất tốt.[3]

Mô hình hóa reorganization energy (năng lượng tái tổ hợp) của hợp chất hữu cơ Năng lượng tái tổ hợp là một trong những tính chất liên quan mật thiết đến tiềm

năng ứng dụng là vật liệu bán dẫn một nguyên tử hữu cơ, và do đó, việc dự đó giá trị năng lượng này cho phân tử là cần thiết Để xây dựng mô hình cho tác vụ này, các tác giả đã xây dựng một bộ dữ liệu từ tính toán lý thuyết Các tác giả sử dụng một nhóm các “mảnh ghép” là các phân tử hữu cơ quen thuộc như benzene, thiophene, pyrrole, và ghép chúng theo những cách có thể nhưng tuân theo một quy tắc nhất định để tạo ra nhiều phân tử để xây dựng bộ dữ liệu Sau đó, các tác giả tính toán năng lượng tái tổ hợp cho các phân tử này sử dụng các phương pháp lí thuyết hóa lượng tử Chính các giá trị tính toán này sẽ là giá trị mà các tác giả sẽ mô hình hóa bằng machine learning Các tác giả đề xuất mô hình machine learning với: 1/ các phân tử sẽ được biểu diễn bằng các descriptor thông thường có sẵn như ECFP, molecular signature, và molecular transforms, 2/ các mô hình hồi quy nhận đầu vào các vector biểu diễn phân tử và trả về dự đoán năng lượng sẽ bao gồm RR, KRR, và NN

2.5.2 Ứng dụng ML trong hóa tính toán/ hóa lý thuyết và hóa lý

Dự đoán năng lượng nguyên tử hóa (atomization energy) phân tử sử dụng phương pháp graph kernel và active learning.[32] Trong công trình này, các tác

giả sử dụng phương pháp marginalized graph kernel là một phương pháp sử dụng hàm kernel tính sự tương đồng giữa 2 graph bằng cách thực hiện bước đi ngẫu nhiên (random walk) trên 2 graph cùng 1 lúc Mô hình Gaussian Process Regression được sử dụng cùng với marginalized graph kernel Tận dụng khả năng ước lượng độ bất định trong dự đoán của mô hình GPR, các tác giả cũng đề xuất một quy trình active learning cho mô hình Các tác giả sử dụng bộ dữ liệu QM7 bao gồm dữ liệu của 7165

Trang 38

phân tử có chứa đến 7 loại nguyên tố khác nhau và nhiều nhất 23 nguyên tử/ phân tử Các tác giả kết luận rằng mô hình có độ chính xác cao và sử dụng ít dữ liệu

Dự đoán phổ hồng ngoại của phân tử.[46] Mô hình máy học được các tác giả sử

dụng là một mô hình graph neural network (mạng neural nhân tạo có khả năng xử lý graph) có tên gọi là directed Message Passing Neural Network (MPNN).[47, 48] Các

thuật toán graph neural network nằm ngoài tầm thảo luận của luận văn này, tuy nhiên, một cách đơn giản, graph neural network có thể được xem như là phiên bản “neural network” của các thuật toán ECFP và Weisfeiler-Lehman graph kernel (xem phần III.1.).[49, 50] Do đó, đầu ra của các graph neural network này cũng là vector fingerprint “biểu diễn” cho cấu trúc phân tử Các vector này được nối thêm (concatenate) một số thành phần đại diện cho thông tin của pha mà trong đó phổ được đo, và cuối cùng được đưa vào một mô hình neural network Multilayer perceptron để đưa ra dự đoán cuối cùng Kết quả dự đoán sẽ là một vector có 1801 thành phần, mỗi thành phần tương ứng với độ hấp thụ ở một số sóng nhất định Đầu vào của mô hình là chuỗi SMILES Chú ý là chuỗi SMILES có thể được xem như một graph 2 chiều và có thể dễ dàng chuyển sang cấu trúc dữ liệu graph

Mô hình được huấn luyện với cả dữ liệu từ tính toán và từ thực nghiệm Trong đó dữ liệu thực nghiệm được thu thập từ nhiều nguồn khác nhau như National Institute of Standards and Technology, Pacific Northwest National Laboratory, và bao gồm dữ liệu được đo đạc trong pha khí hay trong nhiều dung môi, pha rắn như dung môi CCl4, huyền phù dầu khoáng, Dữ liệu thực nghiệm bao gồm 56,955 phổ và 31,439 cấu trúc phân tử Với dữ liệu tính toán từ lý thuyết, các tác giả lên danh sách 85,232 cấu trúc bao gồm các cấu trúc không mang điện và có khối lượng riêng bé hơn 500 được chọn từ Pubchem cộng với các cấu trúc có phổ thực nghiệm

Kết quả cho thấy mô hình có khả năng đưa ra dự đoán phổ có chất lượng cao Quan trọng hơn, mô hình cho phép tính toán phổ nhanh hơn các phương pháp lý thuyết thông thường

2.5.3 Ứng dụng ML trong hóa hữu cơ, hóa dược/độc chất học

Dự đoán phản ứng coupling Suzuki-Miyaura dị vòng.[51] Các tác giả xây dựng

mô hình ML cho từ bộ dữ liệu phản ứng Suzuki-Miyaura coupling bao gồm

Trang 39

heteroaryl-heteroaryl và heteroaryl-aryl được thu thập từ kho dữ liệu Reaxys Dữ liệu cho mỗi phản ứng sẽ bao gồm xúc tác sử dụng, base, dung môi, và có thể bao gồm nhiệt độ Phân tích dữ liệu, các tác giả đưa ra một số nhận xét sau: 1/ Đối với xúc tác, 92% phản ứng trong bộ dữ liệu sử dụng xúc tác là 5 loại phức Pd, 2/ Đa phần các phản ứng ở nhiệt độ trong khoảng 80-109oC, 3/ 5 loại base được sử dụng trong 82% bộ dữ liệu, 4/ Tuy nhiên, các dung môi sử dụng trong bộ dữ liệu không có sự đồng nhất: 5 dung môi được sử dụng nhiều nhất chỉ được sử dụng trong 42% trường hợp Dựa vào những nhận xét trên, các tác giả quyết định tập trung vào việc dự đoán base và dung môi sử dụng cho phản ứng Cụ thể hơn, các tác giả phân loại được phân vào các nhóm carbonates, phosphates, fluorides, hydroxides, amines, acetates, và khác, và dung môi được phân loại vào các nhóm nước/ethers, ethers, nước/rượu/aromatic, nước/amides, rượu/aromatics, aromatics, amides, nước/aromatics, dung môi phân cực aprotic có nhiệt độ sôi thấp/nước, nước/rượu, nước, rượu, và khác Mục tiêu của mô hình sẽ là dự đoán base và dung môi sẽ rơi vào một trong các nhóm nào trong các nhóm kể trên

Các tác giả sử dụng mô hình mạng neural nhân tạo MLP với các chất tham gia phản ứng được biểu diễn với các các khác nhau như ECFP, fingerprint từ thư viện RDKit, kết hợp ECFP và fingerprint từ thư viện RDKit, và fingerprint được tạo từ mô hình autoencoder Các mô hình cho độ chính xác tốt với dự đoán base Tuy nhiên, cũng cần nhớ rằng base sử dụng trong phần lớn là carbonate Mặc khác, mô hình cho độ dự đoán khá kém đối với dung môi Trên thực tế, các tác giả cho rằng mô hình là không tốt hơn mô hình đơn giản chỉ đưa ra dự đoán là base hay dung môi xuất hiện nhiều nhất trong bộ dữ liệu hay còn gọi là mô hình dựa trên độ phổ biến Tác giả cũng sử dụng các mô hình mạng neuron nhân tạo khác có độ phức tạp cao hơn nhưng không đạt được kết quả tốt hơn cho việc dự đoán dung môi sử dụng cho phản ứng Để lý giải cho kết quả này, các tác giả cho rằng việc lựa chọn điều kiện phản ứng thường mang nhiều yếu tố con người: điều kiện thường được chọn dựa trên nghiên cứu các công trình nghiên cứu từ trước, từ việc hóa chất có ở phòng thí nghiệm thực hiện thí nghiệm hay không, hay thậm chí “sở thích các nhân” của mỗi nhà nghiên cứu Các tác giả đề xuất cần chuẩn hóa và hệ thống hóa các thí nghiệm phản ứng

Trang 40

Dự đoán tâm phản ứng của phản ứng hữu cơ với mô hình Graph Neural Network dựa trên thuật toán Weisfeiler-Lehman.[52] Ở đây, các tác giả xây dựng

mô hình machine learning nhằm dự đoán tâm phản ứng của các phản ứng hữu cơ Tâm phản ứng được định nghĩa là tập gồm các cặp nguyên tử {(ai, aj)} sao cho liên kết giữa ai và aj khác nhau giữa chất tham gia phản ứng và sản phẩm Do đó, nếu ta có cấu trúc chất tham gia phản ứng và sản phẩm, ta có thể xác định được các tâm phản ứng Ngược lại, để dự đoán những ứng viên sản phẩm từ chất tham gia phản ứng, các tác giả sẽ xây dựng mô hình ML để dự đoán tâm phản ứng trên chất tham gia, rồi sau đó liệt kê tất cả các sản phẩm có thể có bằng cách thay đổi liên kết của các cặp nguyên tử ở tâm phản ứng được dự đoán Các phân tử khả dĩ (ví dụ như không vi phạm nguyên tắc hóa trị) sẽ được xếp hạng bằng một mô hình graph neural network khác

Các tác giả sử dụng thuật toán Weisfeiler-Lehman Graph Neural Network để xây dựng các mô hình cho nhiệm vụ ở trên Như tên gọi, Weisfeiler-Lehman Graph Neural Network là một mô hình neural network được suy ra từ mô hình Weisfeiler-Lehamn graph kernel (xem phần III.1.) và thuật toán Weisfeiler Lehman.[50] Các tác giả xây dựng bộ dữ liệu USPTO gồm các phản ứng đã được cấp bằng sáng chế Sau khi xử lý dữ liệu bằng cách loại bỏ các phản ứng bị sai hay trùng, bộ dữ liệu sẽ bao gồm 480,000 phản ứng Thông qua quá trình huấn luyện và kiểm tra mô hình, các tác giả đi đến kết luận rằng: 1/ mô hình được đề xuất có khả năang học được biểu diễn cấu trúc hóa học và phản ứng hóa học, 2/ chạy nhanh hơn gấp nhiều lần so với các mô hình đã được đề xuất trước đây, và do đó có thể sử dụng để xử lý các bộ dữ liệu khổng lồ

Mục tiêu dự đoán độc chất sẽ bao gồm nhiều mục tiêu như chất độc cho tim (Cardiotoxicity), chất độc cấp tính qua đường miệng (Acute Oral Toxicity), chất độc cho gan (Hepatotoxicity), ung thư, [53] Một số mô hình và dữ liệu cho các

mục tiêu này sẽ được trình bày dưới đây

Tox21 là một thử thách dữ liệu vào năm 2014 Thử thách này sẽ đưa ra một dữ liệu bao gồm khoảng 12,000 cấu trúc với các dữ liệu về các thí nghiệm bao gồm nuclear receptor (NR) và Stress Response (SR).[54-56] Với mỗi thí nghiệm, giá trị cần dự