Thuật toán Random Forest

Một phần của tài liệu ĐÁNH GIÁ CÁC GIẢI PHÁP TIẾT KIỆM NĂNG LƯỢNG CHO TÒA NHÀ VĂN PHÒNG VÀ ĐỀ XUẤT MÔ HÌNH DỰ ĐOÁN MỨC TIÊU THỤ NĂNG LƯỢNG (Trang 45 - 48)

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU

3.5. Thuật toán Random Forest

3.5.1 Tổng quan thuật toán

Random Forest là thuật tốn học có giám sát được sử dụng để giải quyết các bài toán phân lớp và hồi quy, được đề xuất bởi Breiman vào năm 2001 [31]. Các nghiên cứu đã chỉ ra RF có một số ưu điểm nổi trội như: có thể xử lý dữ liệu với nhiều thuộc tính, q trình học nhanh, cho kết quả dự đốn với độ chính xác cao, do đó trong những năm gần đây nó đã trở nên rất phổ biến [32].

RF là thuật tốn phân loại có kiểm định dựa trên cây quyết định và kỹ thuật Bagging và Bootstrapping đã được cải tiến. Quá trình học của RF bao gồm việc sử dụng các giá trị đầu vào một cách ngẫu nhiên, hoặc kết hợp các giá trị đó tại từng node trong q trình xây dựng mỗi cây quyết định [33].

Khi rút tập mẫu từ một tập dữ liệu đào tạo, ước tính có khoảng hai phần ba các phần tử trong tập đào tạo tham gia vào q trình tính tốn, điều này có nghĩa là một phần ba phần tử khơng có nằm trong mẫu này, các phần tử không tham gia được dùng để ước tính lỗi xuất hiện từ việc kết hợp kết quả của các cây tổng hợp trong RF [34].

29

3.5.2 Quy trình xây dựng mơ hình Random Forest

Quy trình xây dựng mơ hình RF bao gồm 3 bước chính [34]:

30

Hai tham số quan trọng cần được xác định trong RF là ntree (số lượng cây trong rừng) và mtry (số thuộc tính chọn ngẫu nhiên tại mỗi nút để phát triển cây). Trong đó, ntree = 500, mtry = √ được đề xuất bởi Breiman [31]. Mỗi tập dữ liệu đầu vào được chia ngẫu nhiên thành 2 phần với tỷ lệ 70% cho phần đào tạo và 30% để kiểm tra [35].

3.5.3 Đánh giá độ chính xác của mơ hình RF

Độ chính xác của mơ hình dự đốn được đánh giá bằng cách chọn ngẫu nhiên một tập giá trị kết quả, rồi đem so sánh với tập giá trị kiểm tra tương ứng, giá trị dự đoán càng gần với giá trị kiểm tra có nghĩa mơ hình dự đốn có độ chính xác cao.

Bên cạnh đó, nghiên cứu còn sử dụng chỉ số Nash Sutcliffe Efficiency (NSE) để đánh giá hiệu suất dự đốn của mơ hình:

NSE = 1- ∑ ( )

∑ ( )

Trong đó: nolà kích thước mẫu.

yt là giá trị được lựa chọn để đánh giá xt là giá trị dự đốn

ȳ là giá trị trung bình của yt trong mẫu

Giá trị NSE càng tiến đến 1, chứng tỏ hiệu suất dự đốn của mơ hình càng chính xác.

31

Một phần của tài liệu ĐÁNH GIÁ CÁC GIẢI PHÁP TIẾT KIỆM NĂNG LƯỢNG CHO TÒA NHÀ VĂN PHÒNG VÀ ĐỀ XUẤT MÔ HÌNH DỰ ĐOÁN MỨC TIÊU THỤ NĂNG LƯỢNG (Trang 45 - 48)

Tải bản đầy đủ (PDF)

(129 trang)