.16 Mơ hình hồi quy logistic được chọn

Bảng 3.16 thể hiện các kết quả thu được từ quy trình từng bước cùng với các ước lượng tham số tương ứng và các tỷ số chênh được ước lượng. Chỉ có 3 trong số 7 biến hiện có là ảnh hưởng đáng kể đến Y: biến instalment (tỷ số chênh5), biến age15_35 (tỷ số

chênh0,580), biến numb (tỷ số chênh1,356). Vì numb là rời rạc nên tác động cần được hiểu rằng một sự gia tăng đơn nhất về số sản phẩm xác định một sự gia tăng về độ chênh của Y 1 vào khoảng 1,356. Đối với biến độ tuổi, khơng có sự khác biệt đáng kể giữa lớp người lớn (36 – 50) và lớp người trưởng thành (51 – 89); vấn đề ở đây là khách hàng có phải là thanh niên (15 – 35) hay khơng.

Mơ hình có G2 254,928 dẫn đến bác bỏ mơ hình rỗng. Các quy tắc phân biệt trong nghiên cứu này cho phép ta phân biệt khách hàng mang lại nhiều lợi nhuận (Y 1 ) với các khách hàng mang lại ít lợi nhuận, do đó ta có thể nghĩ ra các cách khác nhau nhằm vào khách hàng mục tiêu. Trên cơ sở của mơ hình được ước lượng trong bảng 3.16 ta có thể thấy được quy tắc phân biệt thực hiện như thế nào. Với mỗi khách hàng mới đặt một đơn hàng đầu tiên, ta cần biết 3 điều: họ là thanh niên (A) hay không phải là thanh niên, họ trả góp (B) hay khơng trả góp và họ đặt hàng bao nhiêu sản phẩm (C). Mơ hình có ta  0,5440, tb 1,6107, tc 0,3043 là các tham số ước lượng của 3 biến đó và

t 0,3028 là tham số chắn. Một khách hàng sẽ mang lại lợi nhuận nếu xác suất ước lượng của việc đặt hàng 2 lần trở lên lớn hơn 0,5 tương đương với t t A t B t C a.  b.  c. 0. Do đó mơ hình hồi quy logistic có thể cung cấp một cơ chế tính điểm đơn giản cho mỗi khách hàng và có thể được sử dụng để ra quyết định.

3.2.4.2 Các mô hình cây phân lớp

Ta bắt đầu bằng việc so sánh 2 mơ hình cây CART dựa trên độ đo tính hỗn tạp Entropy và độ đo tính hỗn tạp Gini. Mơ hình tốt hơn được dựa trên độ đo Gini. Các kết

ci quả từ cây tốt hơn được dựa trên một thuật toán cắt tỉa dẫn tới một số lượng tối ưu các nút cuối. Nó thực hiện việc này bằng cách làm cực tiểu tỷ lệ lỗi phân lớp (tổng xác suất của 2 sai lầm). Hình 3.3 cho thấy dáng điệu của độ chính xác phân lớp (1tỷ lệ lỗi phân lớp) trên tập huấn luyện và tập xác nhận khi số nút cuối (lá) tăng lên. Ở đây, cấu hình tối ưu của cây quyết định đạt được khi số lá bằng 11. Cây tương ứng được mô tả dưới dạng 11 quy tắc kết hợp hướng về các lá, lấy 1465 khách hàng trong tập dữ liệu huấn luyện và chia chúng thành 11 nhóm mục tiêu, mỗi nhóm có xác suất ước lượng của việc tái đặt hàng (Y 1 ) khác nhau.

cii

Hình 3.4 Sơ đồ cây CART cho bài toán Bảng 3.17 Các quy tắc cho cây phân lớp Bảng 3.17 Các quy tắc cho cây phân lớp

(1)

NẾU (2659000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 0) THÌ

N : 226, 1 : 56.2% & 0 : 43.8%

(2)

NẾU (FIRST−AMOUNT−SPENT < 515000 & INSTALMENT EQUALS 1) THÌ

N: 55, 1 : 89.1% & 0 : 10.9%

(3)

NẾU (375000 <=FIRST−AMOUNT−SPENT < 2659000 & INSTALMENT EQUALS 0) THÌ

N : 709, 1 : 18.6% & 0 : 81.4%

(4)

NẾU (NORTH EQUALS 0 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT

& INSTALMENT EQUALS 1) THÌ N: 99, 1 : 47.5% & 0 : 52.5%

(5)

NẾU (NORTH EQUALS 1 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT

& INSTALMENT EQUALS 1) THÌ N: 42, 1 : 73.8% & 0 : 26.2%

(6)

NẾU (2.5 <=NUMBER−OF−PRODUCTS < 5.5 & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT

ciii

N : 178, 1 : 78.7% & 0 : 21.3%

(7)

NẾU (5.5 <=NUMBER−OF−PRODUCTS & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT

EQUALS 1) THÌ

N: 3, 1 : 0.0% & 0 : 100.0%

(8)

NẾU (FIRST−AMOUNT−SPENT < 105000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0) THÌ

N:7, 1 : 0.0% & 0 : 100.0%

(9)

NẾU (105000 <=FIRST−AMOUNT−SPENT < 375000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0) THÌ

N:59, 1 : 72.9% & 0 : 27.1%

(10)

NẾU (AGE36−50 EQUALS 1 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 &

INSTALMENT EQUALS 0) THÌ N:47, 1 : 25.5% & 0 : 74.5%

(11)

NẾU (AGE36−50 EQUALS 0 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 &

INSTALMENT EQUALS 0) THÌ N:40, 1 : 52.5% & 0 : 47.5%

Trong bảng 3.17, mỗi quy tắc là một đường đi xuất phát từ nút gốc đến nút cuối. Nhưng danh sách các điều kiện biểu thị một quy tắc được viết theo thứ tự ngược lại, nên các nút xa hơn so với lá sẽ đến gần nó hơn trong quy tắc này. Quy tắc kết hợp có giá cao nhất là

NẾU (375000 ≤ FIRST AMOUNT SPENT < 2659000) & (INSTALMENT = 0), THÌ (Y =0)

với khoảng 48,39 % số khách hàng và được ước lượng là khơng mang lại lợi nhuận. Nói chung đầu quy tắc tuân theo quy tắc phân biệt theo lớp: nếu xác suất khớp nhỏ hơn 50% thì Y 0 , ngược lại thì Y 1 .

Do đó cây phân lớp cung cấp một quy tắc phân biệt dựa trên các phân hoạch của các biến giải thích. Để phân bổ mỗi khách hàng vào nhóm, ta bắt đầu từ gốc và lấy đường đi tương ứng với các đặc tính của khách hàng, sau đó ta xem liệu lá có đưa ra một xác suất lớn hơn hoặc bằng 50% đối với Y 1 hay khơng. Sự khác biệt với mơ hình logistic là, quy tắc phân biệt là một mệnh đề logic phân cấp (dựa trên các phân hoạch của dữ liệu) thay vì tính điểm (dựa trên tồn bộ dữ liệu). Các biến gắn với phân lớp là Instalment,

civ

Products và Age36-50 (cũng là các biến có ý nghĩa trong mơ hình hồi quy logistic), ngồi

ra ở đây cịn có 2 biến First amount spent và North (khu vực địa lý).

3.2.5 So sánh mơ hình

Đầu tiên ta so sánh các mơ hình dưới dạng các ma trận hỗn độn thu được trên tập dữ liệu xác nhận. Đối với tất cả các mơ hình ta đã chọn một ngưỡng cắt là 50%, và các sai số thu được trên cơ sở đó.

Bảng 3.18 Ma trận hỗn độn cho mơ hình hồi quy logistic

Bảng 3.18 cho thấy ma trận hỗn độn đối với mơ hình hồi quy logistic cuối cùng. Bảng 3.18 cho thấy rằng mơ hình dự báo các khách hàng khơng mang lại lợi nhuận (được dự báo là Y 0 ) mà thực tế là mang lại lợi nhuận (được quan sát là Y 1 ) với 22,92% – đây là sai lầm loại 1. Mặt khác nó dự báo là mang lại lợi nhuận (được dự báo là Y 1 ) mà thực tế là không mang lại lợi nhuận (được quan sát là Y 0 ) với 10,91% – đây là sai lầm loại 2.

Liệu mơ hình hồi quy logistic có dẫn tới một quy tắc phân biệt thích hợp hay khơng phụ thuộc vào các đánh giá trên các chi phí tương đối của 2 sai lầm. Thường thì nếu một khách hàng được đặt mục tiêu là mang lại lợi nhuận thì chiến dịch tiếp thị trực tiếp được dành riêng cho họ bằng thư, các cuộc điện thoại…Nếu một khách hàng không được đặt mục tiêu mang lại lợi nhuận, thì họ khơng phải là bộ phận của chiến dịch. Do đó chi phí của sai lầm loại 1 phụ thuộc vào xác suất mất khách hàng không được đặt mục tiêu mặc dù họ mang lại lợi nhuận; chi phí của sai lầm loại 2 là chi phí bỏ ra để theo

cv khách hàng mà họ không xứng đáng với sự quan tâm. Từ bảng 3.18, mơ hình hồi quy logistic dẫn tới sai lầm loại 1 cao hơn và cần được chọn nếu sai lầm loại 2 được xem là tốn kém hơn sai lầm loại 1. Bảng 3.19 cho thấy ma trận hỗn độn đối với mơ hình cây CART đã chọn. Chú ý rằng tỷ lệ lỗi phân lớp tổng thể đối với cây phân lớp thấp hơn một chút so với mơ hình hồi quy logistic: 29,74% so với 33,83%. Hơn nữa các xác suất của 2 loại sai lầm là khá cân bằng. Do đó mơ hình cây nên được chọn trong trường hợp khơng có thơng tin về chi phí của 2 sai lầm hoặc khi có chi phí khá tương đương nhau.

Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART

Nếu chi phí sai lầm tương đối khơng đáng kể thì cây CART có thể được chọn vì nó làm cực tiểu tỷ lệ sai số lỗi phân lớp trên tập xác nhận (29,74%).

Cho đến giờ ta đã rút ra các kết luận bằng cách sử dụng tập dữ liệu xác nhận. Nhưng vì một số mơ hình khai thác dữ liệu thường được xây dựng bằng cách sử dụng các kết quả trên tập dữ liệu xác nhận, nên có thể liên quan tới việc so sánh các mơ hình trên tập dữ liệu thứ 3, được gọi là tập dữ liệu kiểm định. Để làm điều này, dữ liệu hiện có cần được phân hoạch thành 3 tập dữ liệu thay vì 2 tập: tập dữ liệu huấn luyện (60% dữ liệu), tập dữ liệu xác nhận (20% dữ liệu), tập dữ liệu kiểm định (20% dữ liệu). Sau đó năng lực dự báo của các mơ hình có thể được so sánh trên tập dữ liệu kiểm định để có được một đánh giá trung thực hơn. Khi chỉ có 2 tập dữ liệu, thì tập dữ liệu thứ 2 (xác nhận) đơi khi được sử dụng một cách gián tiếp để xây dựng một mơ hình (chẳng hạn để cắt tỉa một cây); do đó kết quả của việc xác nhận có thể quá lạc quan. Việc chia tập dữ liệu thành 3

cvi kéo theo một sự mất mát thơng tin vì tập dữ liệu kiểm định khơng bao giờ được sử dụng và số quan sát trong tập dữ liệu huấn luyện bị giảm đi.

Bảng 3.20 cho thấy các tỷ lệ lỗi phân lớp đối với 2 mơ hình trên tất cả 3 phân vùng: huấn luyện, xác nhận, kiểm định. Trên tập kiểm định, mơ hình cây có sai số thấp nhất. Sự cùng hạng của các mơ hình đạt được trên tập dữ liệu huấn luyện.

Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp

Mơ hình Tỷ lệ lỗi phân lớp

Tập huấn luyện Tập xác nhận Tập kiểm định Hồi quy logistic 0,3071672355 0,3383356071 0,3770491803 Cây CART 0,2593856655 0,2974079127 0,2909836066

Cho đến giờ ta đã sử dụng một ngưỡng cắt là 50%, nhưng điều này không phải là một sự lựa chọn duy nhất. Cụ thể là các chi phí của các sai lầm có thể làm ta phải thay đổi ngưỡng cắt. Chẳng hạn, nếu sai lầm loại 2 được xem là tốn kém hơn, thì một ngưỡng cắt cao hơn có thể được chọn để giảm các sai lầm loại 2; nhưng điều này sẽ làm tăng sai lầm loại 1. Ngược lại, nếu sai lầm loại 1 được xem là tốn kém hơn, thì một ngưỡng cắt thấp hơn sẽ được chọn.

Trong trường hợp khơng có cân nhắc về chi phí, thì các mơ hình nên được so sánh bằng cách sử dụng các đường cong ROC. Hình 3.5 cho thấy các đường cong ROC của 4 mơ hình (theo nghiên cứu của tác giả Giudici) trong đó có 2 mơ hình: cây và hồi quy logistic. Trục tung là độ nhạy cảm = 1 – sai lầm loại 1 và trục hoành biểu thị 1 – đặc trưng = sai lầm loại 2. Chú ý rằng, các đường cong ROC đối với tất cả 2 mơ hình là khá tương tự nhau, trừ ra một khoảng trống ở phần trung tâm của đường cong nơi mà mơ hình cây là tốt hơn cả. Ngược lại, ở phần phía trên bên phải của đồ thị, thì mơ hình hồi quy logistic là tốt hơn vì chúng dẫn đến một độ nhạy cảm cao hơn (sai lầm loại 1 thấp hơn). Tất cả các đường cong đều tương tự nhau đối với các giá trị ngưỡng cắt cao, tương ứng với các giá trị thấp của độ nhạy cảm và của 1 – đặc trưng.

cvii

Hình 3.5 Các đường cong ROC cho các mơ hình được xét

Để quyết định lựa chọn trong số các đường cong, ta cần thơng tin hơn nữa về chi phí. Nhưng nếu khơng có thơng tin này, ta có thể tính một độ đo tóm tắt về hiệu suất của các mơ hình, độ đo tóm tắt về hiệu suất tương ứng với diện tích nằm giữa đường cong ROC và đường thẳng 45o; được gọi là chỉ số Gini về hiệu suất. Ta có thể tính chỉ số Gini cho 2 mơ hình trên tập dữ liệu kiểm định, và cho 9 điểm cắt được sắp đặt bằng nhau (từ 10% trở đi). Các giá trị đó được cho trong bảng 3.21. Chỉ số Gini càng cao thì mơ hình được xét càng tốt. Như vậy mơ hình cây là mơ hình tốt nhất.

Bảng 3.21 So sánh các chỉ số Gini về hiệu suất

cviii

0,4375 0,4445

Như vậy kết luận rằng, mơ hình cây nên được chọn trong trường hợp khơng có sự xem xét về chi phí (và các cân nhắc cắt bỏ) hoặc khi sai lầm loại 1 tốn kém hơn. Nếu sai lầm loại 2 là tốn kém hơn, thì một mơ hình hồi quy logistic cũng tốt.

cix

3.3. Ứng dụng 3: Tính điểm tín dụng

3.3.1 Mục tiêu phân tích

Nghiên cứu này áp dụng các phương pháp khai thác dữ liệu vào bài tốn tính điểm tín dụng cho tín dụng tiêu dùng. Nó xem xét cách đánh giá độ tin cậy của cá nhân – người yêu cầu tín dụng khi mua hàng hóa hoặc dịch vụ. Các nhà khai thác tín dụng khác nhau nhận hàng ngàn đơn tín dụng mỗi ngày, nên họ cần một hệ thống để giúp họ chấp nhận hoặc từ chối yêu cầu. Các nghiên cứu gần đây đã đề xuất các hệ thống hỗ trợ quyết định hay các mơ hình tính điểm. Chúng nhanh chóng, khách quan, khơng tốn kém và cực kỳ hiệu quả. Điều này đặc biệt đúng đối với tín dụng tiêu dùng, ở đó các giá trị của mỗi khoản vay là khá nhỏ. Ta sẽ lấy dữ liệu khách hàng từ một ngân hàng quan trọng ở miền nam nước Đức và sử dụng nó để xây dựng lên một mơ hình tính điểm cho tín dụng tiêu dùng. Đây là đối tượng mà tác giả Giudici đã nghiên cứu.

Thuật ngữ “tính điểm tín dụng” mơ tả các phương pháp thống kê được sử dụng để phân loại những người đi vay thành 2 loại: tốt và xấu. Các mơ hình thống kê cho tính điểm tín dụng thường được gọi là các mơ hình phiếu ghi điểm, sử dụng các biến giải thích thu được từ thơng tin về người nộp đơn để ước lượng xác suất của một khoản vay khơng hồn trả. Một u cầu tín dụng được chấp nhận hoặc bị từ chối sau khi so sánh xác suất ước lượng với một ngưỡng thích hợp. Các phương pháp thống kê hầu hết được sử dụng để phát triển các phiếu ghi điểm là các mạng thần kinh (neural network), hồi quy logistic và các cây phân lớp. Luận văn này khơng nói về mạng thần kinh.

cx dụng, thì dữ liệu khách hàng được so sánh với phiếu ghi điểm để phân lớp người nộp đơn mới vào một trong số các nhóm theo hành vi được quan sát và xác định một điểm số dự báo. Thường thì một mơ hình ghi điểm có thể gán một điểm số với mỗi đặc tính đo được của người nộp đơn. Các điểm số này sau đó được tổng hợp để sinh ra một điểm số tổng thể.

3.3.2 Mô tả dữ liệu

Tập dữ liệu là 1000 quan sát trên 1000 người nộp đơn tín dụng tới một ngân hàng lớn ở miền Nam nước Đức (xem Fashrmeir và Hamerle (1994) để có một mơ tả dữ liệu chi tiết hơn). Ta xét 21 biến, một trong số các biến đó là biến nhị thức Y: credit reliability (Y 0 đối với sự tin cậy, Y 1 đối với sự không tin cậy) mà ta xét như là biến phản ứng. 20 biến khác được xử lý như là các biến giải thích. Sau đây là danh sách các biến giải thích và bảng mơ tả sơ bộ dữ liệu.

 Các biến xã hội nhân khẩu học:

1. sex & marital status: giới tính và tình trạng hơn nhân 2. age: độ tuổi

3. residence: số năm cư trú tại nhà ở hiện nay

 Các biến cá nhân và tài chính:

4. account: sở hữu tài khoản ngân hàng 5. bank book: sở hữu một tập chi phiếu 6. previous rep: lịch sử trả nợ

7. debt: số tiền nợ trước

8. concurrent: các kinh phí khác được yêu cầu 9. employment: loại việc làm

10. working years: số năm làm việc

11. forreign: có phải là lao động nước ngồi hay khơng 12. family: số người ăn theo

 Các biến đặc trưng cho khoản vay: 13. loan: lượng tiền vay

cxi 14. purpose: mục đích vay

15. deadline: thời hạn vay

16. monthly interest: lãi suất hàng tháng 17. others: con nợ đồng thời khác

 Các chỉ số về tài sản:

18. house: sở hữu của một ngôi nhà 19. effects: sự bảo lãnh cá nhân khác

20. telephone: điện thoại có liên lạc được hay khơng

Bảng 3.22 Cấu trúc của ma trận dữ liệu

Chỉ có 3 trong số 20 biến giải thích là liên tục: deadline, loan, age. 17 biến còn lại là rời

.16 Mơ hình hồi quy logistic được chọn

.12 Phân phối của biến phản ứng

.27 Giải thích các tỷ số chênh