.12 Phân phối của biến phản ứng

Mức Tần số tuyệt đối Tần số tương đối

Y 0 1457 59,71%

Y 1 1013 40,29%

Bây giờ ta sẽ lựa chọn các biến giải thích. Ta muốn các biến sẽ giúp ta trong việc phân lớp dự báo. Để làm điều này ta có thể lập các bảng phân phối điều kiện của biến phản ứng trên các biến giải thích. Về trực giác, ta nhận thấy cần phải xét các biến liên quan tới đơn hàng đầu tiên, nó mơ tả cách tiếp xúc đầu tiên với công ty, chẳng hạn như các biến xã hội nhân khẩu học của khách hàng: sex, age, area, dimension

Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích xã hội nhân khẩu học

xcvii

Bảng 3.13 cho thấy phân phối điều kiện của biến phản ứng trên các biến xã hội nhân khẩu học. Ta có thể rút ra các kết luận sau:

(1). Sex: Có vẻ khơng ảnh hưởng đến biến phản ứng.

(2). Area of residence, (3). Age và (4). Dimension of the agency: Các biến này có thể

là các yếu tố dự báo.

Bên cạnh các biến xã hội nhân khẩu học, ta cũng có các biến hành vi, các biến hành vi đề cập đến đơn hàng đầu tiên của khách hàng:

(5). Instalment: Ta thấy có sự kết hợp dương của biến này với Y, vì tỷ số chênh vào khoảng 4,20.

(6). First amount spent và (7). number of products at ﬁrst order (numb):

Hình 3.2 cho biết các hộp đồ thị đối với 2 biến này. Nếu 2 hộp đồ thị kết quả khác biệt rõ rệt về vị trí (chẳng hạn như về trung vị), thì biến tương ứng có thể được coi là có liên quan. Lượng tiền chi phí dường như là có liên quan, nhưng số sản phẩm được mua thì khơng liên quan. Và xuất hiện các ngoại lệ ở đuôi phải của phân phối. Ta tiến hành bằng cách loại bỏ các quan sát trên phân vị 99% của 2 biến.

xcviii

Hình 3.2 Phân phối điều kiện của (a) First amount spent và (b) products at ﬁrst order (numb) đối với các mức của Y. Ta sẽ không biến đổi 2 biến định lượng này.

Nhưng để giúp cho việc giải thích, ta sẽ nhị phân hóa các biến định tính: age, area,

dimension of the agency. Mỗi biến có 3 mức, như vậy cho ra tổng cộng 9 biến nhị

thức và sẽ loại bỏ một biến nhị thức (để lại 2 biến nhị thức) đối với mỗi biến trong 3 biến đó. Bảng 3.15 là một trích lục về ma trận dữ liệu hiện tại, nó tóm tắt các biến mà ta sẽ sử dụng trong phân tích.

xcix

Bảng 3.15 Ma trận dữ liệu được xét

3.2.4 Xây dựng mơ hình 3.2.4.1 Các mơ hình hồi quy logistic 3.2.4.1 Các mơ hình hồi quy logistic

Ta cần tìm ra các biến giải thích có thể dự báo một cách hiệu quả biến phản ứng. Mơ hình thứ nhất ta xét là mơ hình hồi quy logistic. Để lựa chọn một mơ hình ta tuân theo quy trình từng bước, được dựa vào hiệu số độ lệch G2, với một mức ý nghĩa bằng 0,05.

Bảng 3.16 thể hiện các kết quả thu được từ quy trình từng bước cùng với các ước lượng tham số tương ứng và các tỷ số chênh được ước lượng. Chỉ có 3 trong số 7 biến hiện có là ảnh hưởng đáng kể đến Y: biến instalment (tỷ số chênh5), biến age15_35 (tỷ số

chênh0,580), biến numb (tỷ số chênh1,356). Vì numb là rời rạc nên tác động cần được hiểu rằng một sự gia tăng đơn nhất về số sản phẩm xác định một sự gia tăng về độ chênh của Y 1 vào khoảng 1,356. Đối với biến độ tuổi, khơng có sự khác biệt đáng kể giữa lớp người lớn (36 – 50) và lớp người trưởng thành (51 – 89); vấn đề ở đây là khách hàng có phải là thanh niên (15 – 35) hay khơng.

Mơ hình có G2 254,928 dẫn đến bác bỏ mơ hình rỗng. Các quy tắc phân biệt trong nghiên cứu này cho phép ta phân biệt khách hàng mang lại nhiều lợi nhuận (Y 1 ) với các khách hàng mang lại ít lợi nhuận, do đó ta có thể nghĩ ra các cách khác nhau nhằm vào khách hàng mục tiêu. Trên cơ sở của mơ hình được ước lượng trong bảng 3.16 ta có thể thấy được quy tắc phân biệt thực hiện như thế nào. Với mỗi khách hàng mới đặt một đơn hàng đầu tiên, ta cần biết 3 điều: họ là thanh niên (A) hay không phải là thanh niên, họ trả góp (B) hay khơng trả góp và họ đặt hàng bao nhiêu sản phẩm (C). Mô hình có ta  0,5440, tb 1,6107, tc 0,3043 là các tham số ước lượng của 3 biến đó và

t 0,3028 là tham số chắn. Một khách hàng sẽ mang lại lợi nhuận nếu xác suất ước lượng của việc đặt hàng 2 lần trở lên lớn hơn 0,5 tương đương với t t A t B t C a.  b.  c. 0. Do đó mơ hình hồi quy logistic có thể cung cấp một cơ chế tính điểm đơn giản cho mỗi khách hàng và có thể được sử dụng để ra quyết định.

3.2.4.2 Các mơ hình cây phân lớp

Ta bắt đầu bằng việc so sánh 2 mơ hình cây CART dựa trên độ đo tính hỗn tạp Entropy và độ đo tính hỗn tạp Gini. Mơ hình tốt hơn được dựa trên độ đo Gini. Các kết

ci quả từ cây tốt hơn được dựa trên một thuật toán cắt tỉa dẫn tới một số lượng tối ưu các nút cuối. Nó thực hiện việc này bằng cách làm cực tiểu tỷ lệ lỗi phân lớp (tổng xác suất của 2 sai lầm). Hình 3.3 cho thấy dáng điệu của độ chính xác phân lớp (1tỷ lệ lỗi phân lớp) trên tập huấn luyện và tập xác nhận khi số nút cuối (lá) tăng lên. Ở đây, cấu hình tối ưu của cây quyết định đạt được khi số lá bằng 11. Cây tương ứng được mô tả dưới dạng 11 quy tắc kết hợp hướng về các lá, lấy 1465 khách hàng trong tập dữ liệu huấn luyện và chia chúng thành 11 nhóm mục tiêu, mỗi nhóm có xác suất ước lượng của việc tái đặt hàng (Y 1 ) khác nhau.

cii

Hình 3.4 Sơ đồ cây CART cho bài toán Bảng 3.17 Các quy tắc cho cây phân lớp Bảng 3.17 Các quy tắc cho cây phân lớp

(1)

NẾU (2659000 <=FIRST−AMOUNT−SPENT & INSTALMENT EQUALS 0) THÌ

N : 226, 1 : 56.2% & 0 : 43.8%

(2)

NẾU (FIRST−AMOUNT−SPENT < 515000 & INSTALMENT EQUALS 1) THÌ

N: 55, 1 : 89.1% & 0 : 10.9%

(3)

NẾU (375000 <=FIRST−AMOUNT−SPENT < 2659000 & INSTALMENT EQUALS 0) THÌ

N : 709, 1 : 18.6% & 0 : 81.4%

(4)

NẾU (NORTH EQUALS 0 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT

& INSTALMENT EQUALS 1) THÌ N: 99, 1 : 47.5% & 0 : 52.5%

(5)

NẾU (NORTH EQUALS 1 & NUMBER−OF−PRODUCTS < 2.5 & 515000 <=FIRST−AMOUNT−SPENT

& INSTALMENT EQUALS 1) THÌ N: 42, 1 : 73.8% & 0 : 26.2%

(6)

NẾU (2.5 <=NUMBER−OF−PRODUCTS < 5.5 & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT

ciii

N : 178, 1 : 78.7% & 0 : 21.3%

(7)

NẾU (5.5 <=NUMBER−OF−PRODUCTS & 515000 <=FIRST−AMOUNT−SPENT & INSTALMENT

EQUALS 1) THÌ

N: 3, 1 : 0.0% & 0 : 100.0%

(8)

NẾU (FIRST−AMOUNT−SPENT < 105000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0) THÌ

N:7, 1 : 0.0% & 0 : 100.0%

(9)

NẾU (105000 <=FIRST−AMOUNT−SPENT < 375000 & NORTH EQUALS 1 & INSTALMENT EQUALS 0) THÌ

N:59, 1 : 72.9% & 0 : 27.1%

(10)

NẾU (AGE36−50 EQUALS 1 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 &

INSTALMENT EQUALS 0) THÌ N:47, 1 : 25.5% & 0 : 74.5%

(11)

NẾU (AGE36−50 EQUALS 0 & NORTH EQUALS 0 & FIRST−AMOUNT−SPENT < 375000 &

INSTALMENT EQUALS 0) THÌ N:40, 1 : 52.5% & 0 : 47.5%

Trong bảng 3.17, mỗi quy tắc là một đường đi xuất phát từ nút gốc đến nút cuối. Nhưng danh sách các điều kiện biểu thị một quy tắc được viết theo thứ tự ngược lại, nên các nút xa hơn so với lá sẽ đến gần nó hơn trong quy tắc này. Quy tắc kết hợp có giá cao nhất là

NẾU (375000 ≤ FIRST AMOUNT SPENT < 2659000) & (INSTALMENT = 0), THÌ (Y =0)

với khoảng 48,39 % số khách hàng và được ước lượng là không mang lại lợi nhuận. Nói chung đầu quy tắc tuân theo quy tắc phân biệt theo lớp: nếu xác suất khớp nhỏ hơn 50% thì Y 0 , ngược lại thì Y 1 .

Do đó cây phân lớp cung cấp một quy tắc phân biệt dựa trên các phân hoạch của các biến giải thích. Để phân bổ mỗi khách hàng vào nhóm, ta bắt đầu từ gốc và lấy đường đi tương ứng với các đặc tính của khách hàng, sau đó ta xem liệu lá có đưa ra một xác suất lớn hơn hoặc bằng 50% đối với Y 1 hay khơng. Sự khác biệt với mơ hình logistic là, quy tắc phân biệt là một mệnh đề logic phân cấp (dựa trên các phân hoạch của dữ liệu) thay vì tính điểm (dựa trên tồn bộ dữ liệu). Các biến gắn với phân lớp là Instalment,

civ

Products và Age36-50 (cũng là các biến có ý nghĩa trong mơ hình hồi quy logistic), ngồi

ra ở đây cịn có 2 biến First amount spent và North (khu vực địa lý).

3.2.5 So sánh mơ hình

Đầu tiên ta so sánh các mơ hình dưới dạng các ma trận hỗn độn thu được trên tập dữ liệu xác nhận. Đối với tất cả các mơ hình ta đã chọn một ngưỡng cắt là 50%, và các sai số thu được trên cơ sở đó.

Bảng 3.18 Ma trận hỗn độn cho mơ hình hồi quy logistic

Bảng 3.18 cho thấy ma trận hỗn độn đối với mơ hình hồi quy logistic cuối cùng. Bảng 3.18 cho thấy rằng mơ hình dự báo các khách hàng khơng mang lại lợi nhuận (được dự báo là Y 0 ) mà thực tế là mang lại lợi nhuận (được quan sát là Y 1 ) với 22,92% – đây là sai lầm loại 1. Mặt khác nó dự báo là mang lại lợi nhuận (được dự báo là Y 1 ) mà thực tế là không mang lại lợi nhuận (được quan sát là Y 0 ) với 10,91% – đây là sai lầm loại 2.

Liệu mơ hình hồi quy logistic có dẫn tới một quy tắc phân biệt thích hợp hay khơng phụ thuộc vào các đánh giá trên các chi phí tương đối của 2 sai lầm. Thường thì nếu một khách hàng được đặt mục tiêu là mang lại lợi nhuận thì chiến dịch tiếp thị trực tiếp được dành riêng cho họ bằng thư, các cuộc điện thoại…Nếu một khách hàng không được đặt mục tiêu mang lại lợi nhuận, thì họ khơng phải là bộ phận của chiến dịch. Do đó chi phí của sai lầm loại 1 phụ thuộc vào xác suất mất khách hàng không được đặt mục tiêu mặc dù họ mang lại lợi nhuận; chi phí của sai lầm loại 2 là chi phí bỏ ra để theo

cv khách hàng mà họ không xứng đáng với sự quan tâm. Từ bảng 3.18, mơ hình hồi quy logistic dẫn tới sai lầm loại 1 cao hơn và cần được chọn nếu sai lầm loại 2 được xem là tốn kém hơn sai lầm loại 1. Bảng 3.19 cho thấy ma trận hỗn độn đối với mơ hình cây CART đã chọn. Chú ý rằng tỷ lệ lỗi phân lớp tổng thể đối với cây phân lớp thấp hơn một chút so với mơ hình hồi quy logistic: 29,74% so với 33,83%. Hơn nữa các xác suất của 2 loại sai lầm là khá cân bằng. Do đó mơ hình cây nên được chọn trong trường hợp khơng có thơng tin về chi phí của 2 sai lầm hoặc khi có chi phí khá tương đương nhau.

Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART

Nếu chi phí sai lầm tương đối khơng đáng kể thì cây CART có thể được chọn vì nó làm cực tiểu tỷ lệ sai số lỗi phân lớp trên tập xác nhận (29,74%).

Cho đến giờ ta đã rút ra các kết luận bằng cách sử dụng tập dữ liệu xác nhận. Nhưng vì một số mơ hình khai thác dữ liệu thường được xây dựng bằng cách sử dụng các kết quả trên tập dữ liệu xác nhận, nên có thể liên quan tới việc so sánh các mơ hình trên tập dữ liệu thứ 3, được gọi là tập dữ liệu kiểm định. Để làm điều này, dữ liệu hiện có cần được phân hoạch thành 3 tập dữ liệu thay vì 2 tập: tập dữ liệu huấn luyện (60% dữ liệu), tập dữ liệu xác nhận (20% dữ liệu), tập dữ liệu kiểm định (20% dữ liệu). Sau đó năng lực dự báo của các mơ hình có thể được so sánh trên tập dữ liệu kiểm định để có được một đánh giá trung thực hơn. Khi chỉ có 2 tập dữ liệu, thì tập dữ liệu thứ 2 (xác nhận) đơi khi được sử dụng một cách gián tiếp để xây dựng một mơ hình (chẳng hạn để cắt tỉa một cây); do đó kết quả của việc xác nhận có thể quá lạc quan. Việc chia tập dữ liệu thành 3

cvi kéo theo một sự mất mát thơng tin vì tập dữ liệu kiểm định khơng bao giờ được sử dụng và số quan sát trong tập dữ liệu huấn luyện bị giảm đi.

Bảng 3.20 cho thấy các tỷ lệ lỗi phân lớp đối với 2 mơ hình trên tất cả 3 phân vùng: huấn luyện, xác nhận, kiểm định. Trên tập kiểm định, mơ hình cây có sai số thấp nhất. Sự cùng hạng của các mơ hình đạt được trên tập dữ liệu huấn luyện.

Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp

Mơ hình Tỷ lệ lỗi phân lớp

Tập huấn luyện Tập xác nhận Tập kiểm định Hồi quy logistic 0,3071672355 0,3383356071 0,3770491803 Cây CART 0,2593856655 0,2974079127 0,2909836066

Cho đến giờ ta đã sử dụng một ngưỡng cắt là 50%, nhưng điều này không phải là một sự lựa chọn duy nhất. Cụ thể là các chi phí của các sai lầm có thể làm ta phải thay đổi ngưỡng cắt. Chẳng hạn, nếu sai lầm loại 2 được xem là tốn kém hơn, thì một ngưỡng cắt cao hơn có thể được chọn để giảm các sai lầm loại 2; nhưng điều này sẽ làm tăng sai lầm loại 1. Ngược lại, nếu sai lầm loại 1 được xem là tốn kém hơn, thì một ngưỡng cắt thấp hơn sẽ được chọn.

Trong trường hợp khơng có cân nhắc về chi phí, thì các mơ hình nên được so sánh bằng cách sử dụng các đường cong ROC. Hình 3.5 cho thấy các đường cong ROC của 4 mơ hình (theo nghiên cứu của tác giả Giudici) trong đó có 2 mơ hình: cây và hồi quy logistic. Trục tung là độ nhạy cảm = 1 – sai lầm loại 1 và trục hoành biểu thị 1 – đặc trưng = sai lầm loại 2. Chú ý rằng, các đường cong ROC đối với tất cả 2 mơ hình là khá tương tự nhau, trừ ra một khoảng trống ở phần trung tâm của đường cong nơi mà mơ hình cây là tốt hơn cả. Ngược lại, ở phần phía trên bên phải của đồ thị, thì mơ hình hồi quy logistic là tốt hơn vì chúng dẫn đến một độ nhạy cảm cao hơn (sai lầm loại 1 thấp hơn). Tất cả các đường cong đều tương tự nhau đối với các giá trị ngưỡng cắt cao, tương ứng với các giá trị thấp của độ nhạy cảm và của 1 – đặc trưng.

cvii

Hình 3.5 Các đường cong ROC cho các mơ hình được xét

Để quyết định lựa chọn trong số các đường cong, ta cần thơng tin hơn nữa về chi phí. Nhưng nếu khơng có thơng tin này, ta có thể tính một độ đo tóm tắt về hiệu suất của các mơ hình, độ đo tóm tắt về hiệu suất tương ứng với diện tích nằm giữa đường cong ROC và đường thẳng 45o; được gọi là chỉ số Gini về hiệu suất. Ta có thể tính chỉ số Gini cho 2 mơ hình trên tập dữ liệu kiểm định, và cho 9 điểm cắt được sắp đặt bằng nhau (từ 10% trở đi). Các giá trị đó được cho trong bảng 3.21. Chỉ số Gini càng cao thì mơ hình được xét càng tốt. Như vậy mơ hình cây là mơ hình tốt nhất.

Bảng 3.21 So sánh các chỉ số Gini về hiệu suất

cviii

0,4375 0,4445

Như vậy kết luận rằng, mơ hình cây nên được chọn trong trường hợp khơng có sự xem xét về chi phí (và các cân nhắc cắt bỏ) hoặc khi sai lầm loại 1 tốn kém hơn. Nếu sai lầm loại 2 là tốn kém hơn, thì một mơ hình hồi quy logistic cũng tốt.

cix

3.3. Ứng dụng 3: Tính điểm tín dụng

3.3.1 Mục tiêu phân tích

Nghiên cứu này áp dụng các phương pháp khai thác dữ liệu vào bài tốn tính điểm tín dụng cho tín dụng tiêu dùng. Nó xem xét cách đánh giá độ tin cậy của cá nhân – người yêu cầu tín dụng khi mua hàng hóa hoặc dịch vụ. Các nhà khai thác tín dụng khác nhau nhận hàng ngàn đơn tín dụng mỗi ngày, nên họ cần một hệ thống để giúp họ chấp nhận hoặc từ chối yêu cầu. Các nghiên cứu gần đây đã đề xuất các hệ thống hỗ trợ quyết định hay các mơ hình tính điểm. Chúng nhanh chóng, khách quan, khơng tốn kém và cực kỳ hiệu quả. Điều này đặc biệt đúng đối với tín dụng tiêu dùng, ở đó các giá trị của mỗi khoản vay là khá nhỏ. Ta sẽ lấy dữ liệu khách hàng từ một ngân hàng quan trọng ở miền nam nước Đức và sử dụng nó để xây dựng lên một mơ hình tính điểm cho tín dụng tiêu

.16 Mơ hình hồi quy logistic được chọn

.27 Giải thích các tỷ số chênh