Thuật tốn cĩ hai tham số chính là số cây ntree và số thuộc tính đƣợc chọn ở mỗi lần phân chia (mtry). Để tính tốn việc phân chia cây tại mỗi nút, thuật tốn RF cũng sử dụng cơng thức GINI giống nhƣ của thuật tốn CART. Ý tƣởng chính của giải thuật RF nhƣ sau:
Một tập ngẫu nhiên gồm m thuộc tính đƣợc chọn ra ở mỗi lần phân chia cây và chỉ m thuộc tính này tham gia vào việc phân chia cây. Thơng thƣờng 𝑚 = 𝑛
hoặc n/3 trong đĩ n là tổng số các thuộc tính.
Đối với mỗi cây phát triển dựa trên một mẫu boostrap, tỷ lệ lỗi của các phần tử khơng thuộc vào bootstrap sẽ đƣợc kiểm sốt. Tỷ lệ lỗi này đƣợc gọi là tỷ lệ lỗi “out-of-bag” (OOB).
Mơ tả thuật tốn RF
2. Chọn tham số m là số lƣợng các thuộc tính sẽ đƣợc dùng để phân chia tại mỗi nút của cây, m thƣờng nhỏ hơn n khá nhiều (n là tổng số các thuộc tính). Trong suốt quá trình dựng cây, giá trị m sẽ khơng thay đổi.
3. Xây dựng T cây quyết định theo các bƣớc sau:
- Xây dựng một tập gồm k mẫu ban đầu (bootstrap) bằng cách hốn vị tập các mẫu ban đầu. Mỗi cây sẽ đƣợc dựng từ tập ban đầu này.
- Tại mỗi nút sẽ chọn ra m thuộc tính, sau đĩ sử dụng chúng để tìm ra cách phân chia tốt nhất.
- Mỗi cây đƣợc phát triển và khơng bị cắt xén.
4. Rừng ngẫu nhiên sau khi đƣợc xây dựng sẽ dùng để phân lớp cho đối tƣợng T, thu thập kết quả phân lớp đối tƣợng này trên tất cả các cây quyết định và sử dụng kết quả đƣợc chọn nhiều nhất làm kết quả cuối cùng của thuật tốn. Tỉ lệ lỗi của cây tổng thể phụ thuộc vào độ mạnh của từng cây quyết định thành phần và mối quan hệ qua lại giữa các cây đĩ.
Ưu điểm: là thuật tốn phân lớp cho độ chính xác tƣơng đối cao và thƣờng đƣợc dùng trong các bài tốn phân lớp phức tạp. Mơ hình đƣợc tạo ra một cách dễ dàng, tránh đƣợc hiện tƣợng quá khớp. Cĩ thể dễ dàng thực hiện song song hĩa.
Nhược điểm: số lƣợng cây lớn sẽ làm tốc độ của thuật tốn chậm với bài tốn dự đốn thời gian thực.
H2O Random forest là một cơng cụ phân lớp mạnh đƣợc cung cấp sẵn trong kiến trúc H2O. Quá trình tạo cây đƣợc H2O song song hĩa và chạy trên các clusternhờ đĩ thời gian thực hiện đƣợc giảm xuống đáng kể.
2.4 Thực nghiệm và kết quả
2.4.1 Thiết lập thực nghiệm
Phƣơng pháp đề xuất đƣợc thực hiện trên ngơn ngữ R (http://www.r- project.org) và sử dụng thƣ viện H20 để cải thiện hiệu năng dựa trên kiến trúc song song. Thực nghiệm đƣợc xây dựng để kiểm tra tính đúng đắn của thuật tốn đề xuất với một số bộ dữ liệu bao gồm hai tập dữ liệu đƣợc cơng bố trên UCI
(https://archive.ics.uci.edu/ml/datasets.html). Đĩ là bộ dữ liệu tín dụng của nƣớc Đức và bộ dữ liệu tín dụng của nƣớc Úc.
2.4.2 Dữ liệu thực nghiệm
Dữ liệu sử dụng trong thực nghiệm là hồ sơ tín dụng của khách hàng cá nhân vay tiền của ngân hàng. Bộ dữ liệu tín dụng tuy cĩ số lƣợng đặc trƣng khơng nhiều nhƣng nĩ gồm các dữ liệu kiểu số, văn bản, phân loại.
2.4.2.1Bộ dữ liệu tín dụng của Đức
Bộ dữ liệu tín dụng của Đức bao gồm 1.000 đơn xin vay vốn, trong đĩ cĩ 700 trƣờng hợp của ứng viên cĩ mức tín dụng tốt và 300 trƣờng hợp ngƣời nộp đơn bị từ chối. Đối với mỗi ứng viên, 20 đặc trƣng mơ tả lịch sử tín dụng, số dƣ, thơng tin vay vốn và thơng tin cá nhân của tài khoản.Bộ dữ liệu tín dụng của Đức cĩ tỷ lệ phân phối mẫu thuộc lớp tốt (Good) là 70% và 30% thuộc lớp xấu (Bad), do đĩ bộ dữ liệu nàycĩ thể xem nhƣ là khơng cân bằng.
2.4.2.2Bộ dữ liệu tín dụng của Úc
Bộ dữ liệu tín dụng của Úc bao gồm 690 ứng viên, với 383 trƣờng hợp tín dụng tốt và 307 trƣờng hợp tín dụng xấu. Mỗi mẫu cĩ chứa cả đặc trƣng số, đặc trƣng phân loại, và văn bản. Bộ dữ liệu tín dụng của Úc cĩ tỷ lệ phân phối mẫu thuộc lớp bị từ chối (Rejected) là 56% và đƣợc chấp nhận (Accepted) là 44%.
2.4.3 Đánh giá hiệu năng phân lớp
Trong bài tốn phân lớp, cần quan tâm tới khả năng tổng quát hĩa của bộ phân lớp khi đánh giá hiệu năng của một mơ hình. Do đĩ, cần phải đo lƣờng hiệu năng một cách cẩn thận khi dự đốn trên dữ liệu kiểm thử. Sau đây là một số phƣơng pháp dùng để đánh giá hiệu năng cho bài tốn phân lớp.
2.4.3.1Ma trận nhầm lẫn (Confusion matrix)
Một ma trận nhầm lẫn là một bảng chứa các thơng tin về phân lớp thực tế và dự đốn cho các thuật tốn phân lớp.
Lớp thực tế Lớp đƣợc dự đốn + -
+ TP FN - FP TN Ma trận nhầm lẫn cĩ các thơng tin sau:
TP (true positive) – mẫu mang nhãn dƣơng đƣợc phân lớp đúng vào lớp dƣơng.
TN (true negative) – mẫu mang nhãn âm đƣợc phân lớp đúng vào lớp âm. FN (false negative) – mẫu mang nhãn dƣơng bị phân lớp sai vào lớp âm. FP (false positive) – mẫu mang nhãn âm bị phân lớp sai vào lớp dƣơng. Độ chính xác đƣợc tính nhƣ sau:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (2.4)
Với từng lớp cĩ thể sử dụng thêm 2 độ đo đánh giá sau: Độ chính xác (precision): 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛= 𝑇𝑃 𝑇𝑃+𝐹𝑃 (2.5) Độ phủ/độ nhạy (recall): 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃+𝐹𝑁 (2.6)
2.4.3.2Diện tích dưới đường cong
AUC (Area Under Curve) đƣợc xác định nhƣ là một độ đo cĩ thể đánh giá chính xác khả năng phân lớp của mơ hình đƣợc chọn. Nĩ là một độ đo mới và tốt hơn so với độ chính xác phân lớp truyền thống, đặc biệt là cho dữ liệu khơng cân bằng. Phƣơng pháp này cho phép dễ dàng so sánh các đƣờng ROC [27] khác nhau trong khi phân tích.
Cơng thức tính AUC đƣợc tính nhƣ sau:
𝐴𝑈𝐶1 =𝑅1 −
𝑛1 𝑛1+1 2 𝑛1𝑛2
Trong đĩ n1 là kích cỡ của mẫu 1, n2 là kích cỡ của mẫu 2, và R1 là tổng của các xếp hạng trong mẫu. Khi đĩ hiệu suất của các bộ phân lớp đƣợc so sánh nhƣ ví dụ ở Hình 2.7
Hình 2.7 Ví dụ về đƣờng cong AUC [27]
Giá trị của AUC đƣợc sử dụng để đánh giá độ tốt của mơ hình, một mơ hình cĩ ích phải cĩ diện tích AUC trên 0.5. Các ngƣỡng và ý nghĩa của AUC đƣợc thể hiện trong Bảng 2.1
Bảng 2.1 Ý nghĩa của diện tích dƣới đƣờng cong AUC
AUC Ý nghĩa >0.9 Rất tốt 0.8 đến 0.9 Tốt 0.7 đến 0.8 Trung bình 0.6 đến 0.7 Khơng tốt 0.5 đến 0.6 Vơ dụng
Trong quá trình thực nghiệm, AUC thƣờng đƣợc sử dụng để so sánh hiệu năng của các mơ hình. Mơ hình nào cĩ AUC cao hơn cĩ nghĩa là mơ hình đĩ cĩ độ chính xác cao hơn.
2.4.3.3Kiểm chứng chéo
Kiểm chứng chéo n-lần này chia tách các tập dữ liệu thành n tập mẫu con bằng nhau. Một phần mẫu con đƣợc giữ cho việc chứng thực dữ liệu, trong khi n - 1 phần cịn lại đƣợc sử dụng để huấn luyện. Ví dụ, áp dụng một kiểm chứng chéo 5 lần trên một tập hợp dữ liệu với 100 bản ghi, bộ dữ liệu sẽ đƣợc phân chia thành 5 phần bằng nhau. Trong vịng đầu tiên, phần đầu tiên của dữ liệu (20 bản ghi) đƣợc giữ lại để thử nghiệm và 4 phần (80 bản ghi) khác đƣợc sử dụng để huấn luyện. Ở vịng tiếp theo, phần thứ hai đƣợc dành riêng để thử nghiệm và 80 bản ghi cịn lại đƣợc sử dụng để huấn luyện. Quá trình này tiếp tục cho đến khi tất cả các phần đƣợc sử dụng. Kết quả cuối cùng đƣợc tính trung bình cộng để cĩ một kết quả duy nhất. Hình minh họa một kiểm chứng chéo 5 lần.