Dưới đây là đồ thị biểu diễn sự thay đổi của dữ liệu trong quá trình xây dựng mô hình dự đoán Sinh khả dụng của một chất. Đồ thị trong nghiên cứu này được vẽ bằng thư viện Matplotlib trong Python. Đây là đồ thị biểu diễn 2 chiều, lựa chọn 2 đặc trưng (feature) đầu tiên của dữ liệu để mô tả 2 chiều của dữ liệu. Các đồ thị kết quả của các mô hình phía sau cũng được lựa chọn đặc trưng (feature) tương tự như thế.
Hai đặc trưng đầu tiên được tính bởi phần mền DRAGON là MV và AWM.
Hình 3.1. Đồ thị biểu diễn tập huấn luyện mô hình M1 sau khi xử lý các giá trị bị thiếu
Hình 3.2. Đồ thị biểu diễn tập huấn luyện mô hình M1 sau chuẩn hóa dữ liệu
Hình 3.3 mô tả tập huấn luyện sau khi sử dụng thuật toán LDA để giảm
chiều dữ liệu, các chiều dữ liệu ban đầu của bộ dữ liệu đã được thay thế bằng các chiều dữ liệu mới số lượng ít hơn ban đầu. Trong hình biểu diễn dưới đây, tên chiều dữ liệu mới được đặt tên là chiều thứ nhất, chiều thứ hai. Điều này
không làm thay đổi kết quả dự đoán của mô hình. Tên cũng được đặt tương tự cho các đồ thị biểu diễn cho những mô hình phía sau.
Hình 3.3.Đồ thị biểu diễn tập huấn luyện mô hình M1 sau giảm chiều dữ liệu với LDA
Hình 3.4. Đồ thị biểu diễn tập kiểm thử mô hình M1 sau giảm chiều dữ liệu với LDA
Dưới đây là đồ thị ma trận nhầm lẫn (confusion matrix) dùng để đánh giá chất lượng dự đoán của mô hình sau khi dùng thuật toán XGBoost.
Hình 3.5. Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử với thuật toán XGBoost
Bảng 3-2. Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử
Giá trị mô hình dự đoán
H L M
Giá trị thực tế
H 28 1 28
L 3 25 30
M 16 5 97
Độ chính xác của mô hình với tập huấn luyện: 0.81 Độ chính xác của mô hình với tập kiểm thử: 0.74