Dự đoán chất độc hóa học bằng mạng nơ ron đồ thị sử dụng học máy

MỤC LỤC

CƠ SỞ LÝ THUYẾT

  • Một số thuật toán học máy cơ bản
    • CƠ SỞ LÝ THUYẾT
      • CƠ SỞ LÝ THUYẾT không cao. Do đó, một phương pháp mới được đề ra là hạt nhân SVM (kernel
        • CƠ SỞ LÝ THUYẾT Algorithm 1 Thuật toán phân loại đồ thị sử dụng GNN
          • CƠ SỞ LÝ THUYẾT đỉnh trở lên quá nhỏ. Điều này không hề tốt vì có thể dẫn đến sai số và làm mô

            Giả sử dữ liệu có N điểm dữ liệu có d chiều, việc cần làm để xây dựng cây quyết định là phải chọn thuộc tính (chiều) và xây dựng điều kiện với thuộc đó như thế nào để tạo nên một đỉnh gốc hay đỉnh quyết định của cây. Phương pháp này được gọi là Bootstrapping và với phương pháp này, mỗi cây quyết định sẽ được xây dựng trên một bộ dữ liệu khác nhau theo tính ngẫu nhiên và do đó, mỗi cây hoàn toàn có thể sử dụng các đặc trưng khác nhau của dữ liệu cho nên sẽ tạo được các cây khác nhau và đầu ra khác nhau ứng với mỗi cây. Do đó, một phương pháp mới được đề ra là hạt nhân SVM (kernel SVM), phương pháp này sẽ ánh xạ dữ liệu ban đầu sang một không gian mới nhiều chiều hơn để mong rằng dữ liệu sau khi biến đổi sẽ tách được tuyến tính.

            Gọi một đồ thị vô hướng có dạng G= (V, E, X) với V là tập các đỉnh của đồ thị, E là tập cỏc cạnh của đồ thị và X ∈ R|V|ìd là tập cỏc đặc trưng của đỉnh với hàng i là một vectơ đặc trưng của đỉnh i trong đồ thị, mỗi vectơ này có số chiều là d. Bên cạnh đó, thông thường sau khi tổng hợp xong đặc trưng thì người thực nghiệm sẽ đưa vectơ sau khi được tổng hợp qua một hàm biến đối σ(ã) nào đú (đõy là tựy người dựng cú muốn hay khụng). Những ai đã làm việc trong lĩnh vực học sâu đều biết rằng mạng nơ-ron tích chập (CNN) có thể trích xuất đặc trưng cho dữ liệu tuân theo các quy tắc hình học thông thường (dạng Euclidean) hoặc dạng lưới.

            Nhưng với dữ liệu không tuân theo các quy tắc đó (dạng non-Euclidean) như mạng xã hội hay cấu trúc hóa học, CNN không thể làm thực hiện được trên dữ liệu dạng đó do cấu trúc liên kết dữ liệu không đều[2]. Ý tưởng cơ bản của tích chập đồ thị là áp dụng một hàm có thể học được trên mỗi nút và các nút lân cận của nó, dần dần hợp nhất thông tin từ các đỉnh ở xa thông qua các cạnh kết nối[2]. • Việc nhân ma trận A với ma trận đặc trưng H đồng nghĩa với việc đối với mỗi đỉnh trong đồ thị, phương pháp đang làm là lấy tổng đặc trưng của tất cả các lân cận của đỉnh đó, nhưng điều này lại không có liên quan gì đến đỉnh hiện tại đang xét (trừ khi đỉnh đó có cạnh đến chính nó).

            Điều này sẽ làm cho việc nhân ma trận Avới ma trận đặc trưng H sẽ dẫn đến đặc trưng của các đỉnh trong đồ thị G sẽ tăng lên rất nhanh và có thể dẫn đến một số rất lớn (do chỉ có phép toán tổng được áp dụng lên công thức cập nhật đặc trưng của một đỉnh). Nhưng thông thường, các nhà nghiên cứu thường dùng phép chuẩn hóa đối xứng hơn như D−1/2AD−1/2, điều này làm cho công thức cập nhật đặc trưng của một đỉnh không còn đơn giản là tính trung bình nữa. GraphConv lấy ý tưởng từ việc lấy tổng đặc trưng của tất cả các lân cận và chính nó nhưng báo cáo này đã đề cập hạn chế của phương pháp này trong phần 3.2.1là có thể làm cho đặc trưng của một đỉnh sau khi khi cập nhất có thể trở lên rất lớn.

            Trong phần trước có thể thấy cả hai công thức cập nhật đặc trưng của một đỉnh của hai mạng nơ-ron đồ thị đều không liên quan gì đến đặc trưng của cạnh nhưng đối với dữ liệu của cấu trúc hóa học thì lại có thông tin liên quan đến cạnh. Ví dụ, đối với đồ thị biểu diễn cho một chất hóa học, các đỉnh đại diện cho các nguyên tố hóa học như Cacbon, Hydro, .., còn các cạnh thì có thể đại diện cho loại liên kết giữa các đỉnh như liên kết đơn hay liên kết đôi,. Bởi vậy, đặc trưng của đỉnh và cạnh có thể có số chiều khác nhau là việc rất bình thường, cho nên, trong báo cáo này sẽ xây dựng một phép ánh xạ tuyến tính để ánh xạ đặc trưng của cạnh sang không gian mới là Rk.

            Đối với GraphConv, báo cáo sẽ sử dụng một ma trận trong số huấn luyện là W3 là một phép ánh xạ tuyến tính để biến đổi đặc trưng của cạnh sang không gian có số chiều bằng với số chiều của đặc trưng của các đỉnh sau khi được ánh xạ bằng hai ma trận W1 và W2.

            Hình 1.1: Hình ảnh minh họa về thuật toán KNN[10].
            Hình 1.1: Hình ảnh minh họa về thuật toán KNN[10].

            DỰ ĐOÁN CHẤT ĐỘC HểA HỌC DỰA TRấN

            • Thực nghiệm

              Đầu vào sẽ là một đồ thị của một chất hóa học và đầu ra sẽ là 0 hoặc 1 biểu thị cho việc chất đó có là chất độc hay không (chi tiết về phương pháp sẽ được trình bày ở phần sau). • Xử lý: Đưa đồ thị qua các lớp mạng nơ-ron đồ thị để thu thập thông tin từ các đỉnh lân cận của mỗi đỉnh (có thể có thêm thông tin của cạnh đang nối tới đỉnh hiện tại). Trong bài báo cáo này, dữ liệu được sử dụng sẽ là bộ dữ liệu Tox21 từ Molecu- leNet, Tox21 (Toxicology in the 21st Century) là bộ sưu tập các phép đo độc tính định tính cho một số lượng lớn các hợp chất hóa học.

              Mỗi cột này sẽ có giá trị là 0 hoặc 1, sẽ có một số chất sẽ để trống tương ứng với việc chất đó chưa xác định là có độc hay không, và mỗi hàng sẽ đại diện cho một chất hóa học riêng biệt. Trong Tox21, mỗi chất hóa học sẽ có một ID riêng tương ứng với cột mol_id và những chất này sẽ được biểu diễn công thức hóa học dưới dạng SMILES (Simplified Molecular-Input Line-Entry System). Ở đây, báo cáo sẽ chỉ sử dụng bài toán NR-AR làm phần nghiên cứu chính do giới hạn về mặt thời gian cũng như việc áp dụng mô hình của bài báo cáo này cho các bài toán còn lại là hoàn toàn tương tự.

              Điều này có nghĩa là thuốc đó chưa được kiểm định là có phản ứng với NR-AR nay không, cho nên khóa luận sẽ không dùng những dữ liệu không có nhãn này để huấn luyện. Trong mục này thì trước hết khóa luận sẽ trình bày về phương pháp sử dụng ba thuật toán học máy cũng như cấu hình các tham số của chúng và tiếp đó sẽ là về GNN. • Tính đối xứng: đặc trưng cho khả năng tạo ra các đồng phân quang học, tức là các hợp chất có cấu trúc hóa học giống nhau nhưng không thể chồng lấp hoàn toàn lên nhau do sự khác biệt về cấu trúc không gian.

              • Tính lai hóa: quá trình kết hợp các orbital nguyên tử để tạo ra các orbital lai mới có hình dạng và năng lượng phù hợp cho sự hình thành liên kết hóa học. Cấu trúc của mô hình sẽ là xếp 3 lớp GNN liên tục với nhau và đặt kích thước ẩn (hidden size) là 64, đầu ra của ba lớp GNN của mô hình sẽ được chuẩn hóa rồi đưa qua hàm GELU (có thể coi đây là hàm kích hoạt trong học sâu), hàm READOUT sẽ là hàm sum-pooling (lấy tổng đặc trưng của tất cả các đỉnh) để lấy ra biểu diễn vectơ của đồ thị. Sau đó, vectơ này sẽ được đưa qua một lớp kết nối đầy đủ (Fully connected) với 1 đầu ra và hàm kích hoạt là Sigmoid để thu được tỉ lệ chất hóa học đang được xét có độc hại hay không.

              Lý do cho việc không huấn luyện mô hình trên GPU là vì các phép tính toán chưa đủ nhiều nên khi sử dụng GPU để tính toán song song thì sẽ không hiệu quả về mặt thời gian. Về phần sử dụng phương pháp học máy, các thuật toán được sử dụng trong nghiên cứu này thể hiện tốc độ xử lý rất tốt, chỉ mất khoảng 10 giây để hoàn thành toàn bộ quá trình tính toán cho cả ba thuật toán. Về định hướng trong tương lai, nhóm tác giả sẽ cố xây dựng và huấn luyện mô hình GNN cho 11 bài toán còn lại trong dữ liệu mà bài báo cáo này chưa thể làm được do hạn chế về thời gian.

              Bên cạnh đó, các dữ liệu liên quan đến chủ đề cũng sẽ được tìm kiếm để sử dụng và cũng sẽ tìm thêm một số mô hình GNN khác cho hoạt động tốt hơn so với 4 mô hình hiện tại để giúp cho bài toán để đạt được kết quả tốt hơn.

              Hình 2.1: Ví dụ minh họa về biểu diễn đồ thị của một chất hóa học[16].
              Hình 2.1: Ví dụ minh họa về biểu diễn đồ thị của một chất hóa học[16].