Các mô hình cây phân lớp

Một phần của tài liệu LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC PHƯƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH (Trang 84)

Ta bắt đầu bằng việc so sánh 2 mô hình cây CART dựa trên độ đo tính hỗn tạp Entropy và độ đo tính hỗn tạp Gini. Mô hình tốt hơn được dựa trên độ đo Gini. Các kết quả từ cây tốt hơn được dựa trên một thuật toán cắt tỉa dẫn tới một số lượng tối ưu các nút cuối. Nó thực hiện việc này bằng cách làm cực tiểu tỷ lệ lỗi phân lớp (tổng xác suất của 2 sai lầm).

Hình 3.3 cho thấy dáng điệu của độ chính xác phân lớp (1−tỷ lệ lỗi phân lớp) trên tập huấn

luyện và tập xác nhận khi số nút cuối (lá) tăng lên. Ở đây, cấu hình tối ưu của cây quyết định đạt được khi số lá bằng 11. Cây tương ứng được mô tả dưới dạng 11 quy tắc kết hợp hướng về các lá, lấy 1465 khách hàng trong tập dữ liệu huấn luyện và chia chúng thành 11 nhóm

Hình 3.3 Sự biến thiên của độ chính xác phân lớp cho cây phân lớp khi số lá tăng

Hình 3.4 Sơ đồ cây CART cho bài toán Bảng 3.17 Các quy tắc cho cây phân lớp

(1)

NẾU (2659000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 0) THÌ

N : 226, 1 : 56.2% & 0 : 43.8%

(2)

N: 55, 1 : 89.1% & 0 : 10.9%

(3)

NẾU (375000 <=FIRST−AMOUNT−SPENT < 2659000 & INSTALMENT EQUALS 0) THÌ

N : 709, 1 : 18.6% & 0 : 81.4%

(4)

NẾU (NORTH EQUALS 0 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 1) THÌ

N: 99, 1 : 47.5% & 0 : 52.5%

(5)

NẾU (NORTH EQUALS 1 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 1) THÌ

N: 42, 1 : 73.8% & 0 : 26.2%

(6)

NẾU (2.5 <=NUMBER−OF−PRODUCTS < 5.5 & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 1) THÌ

N : 178, 1 : 78.7% & 0 : 21.3%

(7)

NẾU (5.5 <=NUMBER−OF−PRODUCTS & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 1)

THÌ

N: 3, 1 : 0.0% & 0 : 100.0%

(8)

NẾU (FIRST−AMOUNT−SPENT < 105000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0) THÌ

N:7, 1 : 0.0% & 0 : 100.0%

(9)

NẾU (105000 <=FIRST−AMOUNT−SPENT < 375000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0)

THÌ

N:59, 1 : 72.9% & 0 : 27.1%

(10)

NẾU (AGE36−50 EQUALS 1 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 & INSTALMENT EQUALS 0) THÌ

N:47, 1 : 25.5% & 0 : 74.5%

(11)

NẾU (AGE36−50 EQUALS 0 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 & INSTALMENT EQUALS 0) THÌ

N:40, 1 : 52.5% & 0 : 47.5%

Trong bảng 3.17, mỗi quy tắc là một đường đi xuất phát từ nút gốc đến nút cuối. Nhưng danh sách các điều kiện biểu thị một quy tắc được viết theo thứ tự ngược lại, nên các nút xa hơn so với lá sẽ đến gần nó hơn trong quy tắc này. Quy tắc kết hợp có giá cao nhất là

NẾU (375000 ≤ FIRST AMOUNT SPENT < 2659000) & (INSTALMENT = 0), THÌ (Y =0)

Nói chung đầu quy tắc tuân theo quy tắc phân biệt theo lớp: nếu xác suất khớp nhỏ hơn 50% thì Y 0= , ngược lại thì Y 1= .

Do đó cây phân lớp cung cấp một quy tắc phân biệt dựa trên các phân hoạch của các biến giải thích. Để phân bổ mỗi khách hàng vào nhóm, ta bắt đầu từ gốc và lấy đường đi tương ứng với các đặc tính của khách hàng, sau đó ta xem liệu lá có đưa ra một xác suất lớn

hơn hoặc bằng 50% đối với Y 1= hay không. Sự khác biệt với mô hình logistic là, quy tắc

phân biệt là một mệnh đề logic phân cấp (dựa trên các phân hoạch của dữ liệu) thay vì tính điểm (dựa trên toàn bộ dữ liệu). Các biến gắn với phân lớp là Instalment, ProductsAge36-

50 (cũng là các biến có ý nghĩa trong mô hình hồi quy logistic), ngoài ra ở đây còn có 2 biến

First amount spentNorth (khu vực địa lý).

3.2.5 So sánh mô hình

Đầu tiên ta so sánh các mô hình dưới dạng các ma trận hỗn độn thu được trên tập dữ liệu xác nhận. Đối với tất cả các mô hình ta đã chọn một ngưỡng cắt là 50%, và các sai số thu được trên cơ sở đó.

Bảng 3.18 Ma trận hỗn độn cho mô hình hồi quy logistic

Bảng 3.18 cho thấy ma trận hỗn độn đối với mô hình hồi quy logistic cuối cùng. Bảng 3.18 cho thấy rằng mô hình dự báo các khách hàng không mang lại lợi nhuận (được dự báo là

Y 0= ) mà thực tế là mang lại lợi nhuận (được quan sát là Y 1= ) với 22,92% – đây là sai lầm

loại 1. Mặt khác nó dự báo là mang lại lợi nhuận (được dự báo là Y 1= ) mà thực tế là không

mang lại lợi nhuận (được quan sát là Y 0= ) với 10,91% – đây là sai lầm loại 2.

Liệu mô hình hồi quy logistic có dẫn tới một quy tắc phân biệt thích hợp hay không phụ thuộc vào các đánh giá trên các chi phí tương đối của 2 sai lầm. Thường thì nếu một khách hàng được đặt mục tiêu là mang lại lợi nhuận thì chiến dịch tiếp thị trực tiếp được dành

riêng cho họ bằng thư, các cuộc điện thoại…Nếu một khách hàng không được đặt mục tiêu mang lại lợi nhuận, thì họ không phải là bộ phận của chiến dịch. Do đó chi phí của sai lầm loại 1 phụ thuộc vào xác suất mất khách hàng không được đặt mục tiêu mặc dù họ mang lại lợi nhuận; chi phí của sai lầm loại 2 là chi phí bỏ ra để theo khách hàng mà họ không xứng đáng với sự quan tâm. Từ bảng 3.18, mô hình hồi quy logistic dẫn tới sai lầm loại 1 cao hơn và cần được chọn nếu sai lầm loại 2 được xem là tốn kém hơn sai lầm loại 1. Bảng 3.19 cho thấy ma trận hỗn độn đối với mô hình cây CART đã chọn. Chú ý rằng tỷ lệ lỗi phân lớp tổng thể đối với cây phân lớp thấp hơn một chút so với mô hình hồi quy logistic: 29,74% so với 33,83%. Hơn nữa các xác suất của 2 loại sai lầm là khá cân bằng. Do đó mô hình cây nên được chọn trong trường hợp không có thông tin về chi phí của 2 sai lầm hoặc khi có chi phí khá tương đương nhau.

Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART

Nếu chi phí sai lầm tương đối không đáng kể thì cây CART có thể được chọn vì nó làm cực tiểu tỷ lệ sai số lỗi phân lớp trên tập xác nhận (29,74%).

Cho đến giờ ta đã rút ra các kết luận bằng cách sử dụng tập dữ liệu xác nhận. Nhưng vì một số mô hình khai thác dữ liệu thường được xây dựng bằng cách sử dụng các kết quả trên tập dữ liệu xác nhận, nên có thể liên quan tới việc so sánh các mô hình trên tập dữ liệu thứ 3, được gọi là tập dữ liệu kiểm định. Để làm điều này, dữ liệu hiện có cần được phân hoạch thành 3 tập dữ liệu thay vì 2 tập: tập dữ liệu huấn luyện (60% dữ liệu), tập dữ liệu xác nhận (20% dữ liệu), tập dữ liệu kiểm định (20% dữ liệu). Sau đó năng lực dự báo của các mô hình có thể được so sánh trên tập dữ liệu kiểm định để có được một đánh giá trung thực hơn. Khi chỉ có 2 tập dữ liệu, thì tập dữ liệu thứ 2 (xác nhận) đôi khi được sử dụng một cách gián tiếp để xây dựng một mô hình (chẳng hạn để cắt tỉa một cây); do đó kết quả của việc xác nhận có thể quá lạc quan. Việc chia tập dữ liệu thành 3 kéo theo một sự mất mát thông tin vì tập dữ

liệu kiểm định không bao giờ được sử dụng và số quan sát trong tập dữ liệu huấn luyện bị giảm đi.

Bảng 3.20 cho thấy các tỷ lệ lỗi phân lớp đối với 2 mô hình trên tất cả 3 phân vùng: huấn luyện, xác nhận, kiểm định. Trên tập kiểm định, mô hình cây có sai số thấp nhất. Sự cùng hạng của các mô hình đạt được trên tập dữ liệu huấn luyện.

Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp

Mô hình Tỷ lệ lỗi phân lớp

Tập huấn luyện Tập xác nhận Tập kiểm định

Hồi quy logistic 0,3071672355 0,3383356071 0,3770491803

Cây CART 0,2593856655 0,2974079127 0,2909836066

Cho đến giờ ta đã sử dụng một ngưỡng cắt là 50%, nhưng điều này không phải là một sự lựa chọn duy nhất. Cụ thể là các chi phí của các sai lầm có thể làm ta phải thay đổi ngưỡng cắt. Chẳng hạn, nếu sai lầm loại 2 được xem là tốn kém hơn, thì một ngưỡng cắt cao hơn có thể được chọn để giảm các sai lầm loại 2; nhưng điều này sẽ làm tăng sai lầm loại 1. Ngược lại, nếu sai lầm loại 1 được xem là tốn kém hơn, thì một ngưỡng cắt thấp hơn sẽ được chọn.

Trong trường hợp không có cân nhắc về chi phí, thì các mô hình nên được so sánh bằng cách sử dụng các đường cong ROC. Hình 3.5 cho thấy các đường cong ROC của 4 mô hình (theo nghiên cứu của tác giả Giudici) trong đó có 2 mô hình: cây và hồi quy logistic. Trục tung là độ nhạy cảm = 1 – sai lầm loại 1 và trục hoành biểu thị 1 – đặc trưng = sai lầm loại 2. Chú ý rằng, các đường cong ROC đối với tất cả 2 mô hình là khá tương tự nhau, trừ ra một khoảng trống ở phần trung tâm của đường cong nơi mà mô hình cây là tốt hơn cả. Ngược lại, ở phần phía trên bên phải của đồ thị, thì mô hình hồi quy logistic là tốt hơn vì chúng dẫn đến một độ nhạy cảm cao hơn (sai lầm loại 1 thấp hơn). Tất cả các đường cong đều tương tự nhau đối với các giá trị ngưỡng cắt cao, tương ứng với các giá trị thấp của độ nhạy cảm và của 1 – đặc trưng.

Hình 3.5 Các đường cong ROC cho các mô hình được xét

Để quyết định lựa chọn trong số các đường cong, ta cần thông tin hơn nữa về chi phí. Nhưng nếu không có thông tin này, ta có thể tính một độ đo tóm tắt về hiệu suất của các mô hình, độ đo tóm tắt về hiệu suất tương ứng với diện tích nằm giữa đường cong ROC và đường

thẳng 45o; được gọi là chỉ số Gini về hiệu suất. Ta có thể tính chỉ số Gini cho 2 mô hình trên

tập dữ liệu kiểm định, và cho 9 điểm cắt được sắp đặt bằng nhau (từ 10% trở đi). Các giá trị đó được cho trong bảng 3.21. Chỉ số Gini càng cao thì mô hình được xét càng tốt. Như vậy mô hình cây là mô hình tốt nhất.

Bảng 3.21 So sánh các chỉ số Gini về hiệu suất

Mô hình

Chỉ số hiệu suất Gini Hồi quy logistic Cây CART

Như vậy kết luận rằng, mô hình cây nên được chọn trong trường hợp không có sự xem xét về chi phí (và các cân nhắc cắt bỏ) hoặc khi sai lầm loại 1 tốn kém hơn. Nếu sai lầm loại 2 là tốn kém hơn, thì một mô hình hồi quy logistic cũng tốt.

Một phần của tài liệu LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC PHƯƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH (Trang 84)