5. Nội dung nghiên cứu
2.3.1. Xây dựng mô hình học máy
Các chỉ số dự đoán liên kết nêu trên đều được tính toán trên các dữ liệu tương tự nhau, nhưng nếu chúng ta chọn sử dụng mô hình học máy, đồng nghĩa với việc chúng ta cần giải quyết vấn đề tương quan giữa các tính năng.
độc lập với nhau. Nếu các tính năng thu được của một mô hình không đáp ứng giả định này, độ chính xác của kết quả dự đoán sẽ rất thấp.
Trong luận văn này tôi chọn một giải pháp đó là sử dụng bộ phân loại rừng ngẫu nhiên. Rừng ngẫu nhiên là một thuật toán học có giám sát. Như tên gọi của nó, Rừng ngẫu nhiên sử dụng các cây (tree) để làm nền tảng. Rừng ngẫu nhiên là một tập hợp của các Decision Tree, mà mỗi cây được chọn theo một thuật toán dựa vào ngẫu nhiên. Scikit-learning là một thư viện học máy phổ biến. Tôi sẽ sử dụng thư viện này để xây dựng mô hình học máy của mình.
Gói thư viện:
class sklearn.ensemble.RandomForestRegressor(n_estimators=10 0, *, criterion='mse', max_depth=None, min_samples_split=2, min _samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='a uto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_imp urity_split=None, bootstrap=True, oob_score=False, n_jobs=None
, random_state=None, verbose=0, warm_start=False, ccp_alpha= 0.0, max_samples=None)
Trong đó:
n_estimators (mặc định = 100):Số lượng cây.
criterion (mặc định = mse): Chức năng đo lường chất lượng của một lần tách.
max_depth ( mặc định = None ): Là thước đo xem cây phải được mở rộng thêm bao nhiêu xuống mỗi nút cho đến khi chúng ta đến nút lá.
min_samples_split ( mặc định = 2 ): Chúng ta có thể chỉ định số lượng phần tử / bản ghi tối thiểu phải có trong mỗi nút để xác định xem thuật toán có thể ngừng tách thêm hay không.
max_features (mặc định = auto):Tại mỗi lần phân chia, thuật toán chọn một số tính năng (ngẫu nhiên) để dựa vào đó cây bắt đầu phân
chia. max_features xác định số lượng tính năng cần được chọn để xác định sự phân chia.
bootstrap ( mặc định = true ): Khi chúng tôi cung cấp các dữ liệu huấn luyện với mô hình RandomForestClassifier thứ e thuật toán chọn một loạt các hàng ngẫu nhiên với sự thay thế để xây dựng cây. Quá trình này được gọi là Bootstrapping (Thay thế ngẫu nhiên). Nếu tùy chọn bootstrap được đặt thành False, không có lựa chọn ngẫu nhiên nào xảy ra và toàn bộ tập dữ liệu được sử dụng để tạo cây.