Chúng tôi sẽ sử dụng cơ sở dữ liệu Mã hóa các Quyết định Phê duyệt Tín dụng mà chúng tôi đã giới thiệu trước đó để phân loại dữ liệu mới. Thực hiện theo quy trình tương tự như trong Ví dụ 12.
Tuy nhiên, trong hộp thoại cho Bước 3 (xem Hình 1.32), bấm vào Detailed report trong the Score new data trong ngăn Worksheet của hộp thoại. Hộp thoại tương tự, Match variables trong phạm vi mới, mà chúng ta đã thấy trong Ví dụ 11, xuất hiện (xem Hình 1.28). Chọn Additional Data worksheet trong trường Worksheet và đánh dấu phạm vi dữ liệu mới trong trường Data range field including headers. Bởi vì chúng tôi sử dụng các tiêu đề giống nhau, hãy nhấp vào Match By
43
Name. Bấm OK và sau đó bấm Finish trong hộp thoại Bước 3. XLMiner tạo một trang tính mới có nhãn DA_NewScore, được hiển thị trong Hình 10.35, cung cấp phân loại dự đoán cho mỗi bản ghi mới. Hồ sơ 1, 3 và 6 được xếp vào loại 1 (phê duyệt hồ sơ) và các hồ sơ còn lại được phân vào loại 0 (từ chối hồ sơ)
Hình 1.35 Phân tích phân biệt,phân loại dữ liệu mới
Giống như nhiều thủ tục thống kê, phân tích phân biệt đòi hỏi một số giả định
nhất định, chẳng hạn như tính chuẩn của các biến độc lập cũng như các giả định
khác, để áp dụng đúng cách. Trong thực tế, giả định về tính chuẩn mực thường bị vi
phạm, nhưng phương pháp này nói chung là chắc chắn đối với các vi phạm về giả
định. Kỹ thuật tiếp theo, được gọi là hồi quy logistic, không dựa trên những giả định
này, khiến nó được nhiều nhà phân tích ưa thích.
Hồi quy logistic
Trong chương 8, chúng tôi đã nghiên cứu hồi quy tuyến tính, trong đó biến
phụ thuộc là liên tục và số. Hồi quy logistic là một biến thể của hồi quy thông thường, trong đó biến phụ thuộc có tính phân loại. Các biến độc lập có thể liên tục hoặc phân
44
loại, như trong trường hợp hồi quy tuyến tính thông thường. Tuy nhiên, trong khi
hồi quy tuyến tính bội tìm cách dự đoán giá trị số của biến phụ thuộc Y dựa trên giá
trị của các biến phụ thuộc, thì hồi quy logistic tìm cách dự đoán xác suất biến đầu
ra sẽ thuộc một loại dựa trên các giá trị của biến phụ thuộc (dự báo) các biến. Xác
suất này được sử dụng để phân loại một quan sát thành một loại.
Hồi quy logistic thường được sử dụng khi biến phụ thuộc là nhị phân - nghĩa
là nhận hai giá trị, 0 hoặc 1, như trong ví dụ về quyết định phê duyệt tín dụng mà
chúng tôi đã sử dụng, trong đó Y = 1 nếu khoản vay được chấp thuận và Y = 0 nếu
nó bị từ chối. Tình huống này rất phổ biến trong nhiều tình huống kinh doanh khác,
chẳng hạn như khi chúng ta muốn phân loại khách hàng là người mua hay người
không mua hoặc giao dịch thẻ tín dụng là gian lận hay không.
Để phân loại một quan sát bằng cách sử dụng hồi quy logistic, trước tiên chúng tôi ước tính xác suất p để nó thuộc loại 1, P1Y = 12 và do đó, xác suất 1 - p mà nó thuộc loại 0, P1Y = 02. Sau đó, chúng tôi sử dụng ngưỡng giới hạn giá trị, thường là 0.5, để so sánh p và phân loại quan sát thành một trong hai loại. Ví dụ, nếu p 7 0.5, quan sát sẽ được xếp vào loại 1; nếu không nó sẽ được xếp vào loại 0.
Bạn có thể nhớ lại từ Chương 8 rằng mô hình hồi quy bội tuyến tính có dạng Y = b0 + b1X1 + b2X2 + g + bkXk. Trong hồi quy logistic, chúng ta sử dụng một biến phụ thuộc khác, được gọi là logit, là logarit tự nhiên của p> 11 - p2. Do đó, dạng của mô hình hồi quy logistic là:
45
trong đó p là xác suất để biến phụ thuộc Y = 1 và X1, X2, c, Xk là các biến độc lập (các yếu tố dự báo). Các tham số b0, b1, b2, c, bk là các hệ số hồi quy chưa biết, phải được ước lượng từ dữ liệu.
Tỷ lệ p > 11 - p2 được gọi là tỷ lệ cược thuộc loại 1: 1Y = 12. Đây là quan
niệm phổ biến trong cờ bạc. Ví dụ, nếu xác suất thắng một trò chơi là p = 0.2, thì 1
- p = 0,8, do đó tỷ lệ thắng là 0.2 > 0.8 = 1 4, hoặc một trong bốn. Tức là, trung bình bạn sẽ thắng một lần cho mỗi bốn lần bạn sẽ thua. Logit liên tục trong phạm vi từ -
∞ đến + ∞ và từ phương trình (10.3) là một hàm tuyến tính của các biến dự báo. Các
giá trị của biến dự báo này sau đó được chuyển thành xác suất bởi một hàm logistic.
Ví dụ 14.Phân loại các quyết định phê duyệt tín dụng sử dụng hồi quy logistic
Trong cơ sở dữ liệu Mã hóa các Quyết định Phê duyệt Tín dụng, trước tiên, hãy phân vùng dữ liệu thành các bộ đào tạo và xác nhận. Trong XLMiner, chọn Hồi
46
quy hậ u cầ n từ menu Phân loạ i trong nhóm Khai thác dữ liệ u. Hộ p thoạ i hiể n thị trong Hình 1.36 xuất hiện, nơi bạn cần chỉ định phạm vi dữ liệu, các biến đầu vào và biến đầu ra. Loại “thành công” tương ứng với giá trị kết quả mà bạn coi là thành công — trong trường hợp này, việc phê duyệt khoản vay mà chúng tôi đã chỉ định giá trị 1.
Hộp thoại hồi quy logistic thứ hai được hiển thị trong Hình 1.37. Bạn có thể chọn buộc số hạng không đổi bằng 0 và bỏ qua nó khỏi hồi quy. Bạn cũng có thể thay đổi mức độ tin cậy cho các khoảng tin cậy được hiển thị trong kết quả đối với tỷ lệ chênh lệch. Thông thường, điều này được đặt thành 95%. Nút Nâng cao cho phép bạn thay đổi hoặc chọn một số tùy chọn bổ sung; cho mục đích của chúng tôi, chúng tôi để những điều này một mình.
Nút Lựa chọn biến cho phép XLMiner đánh giá tất cả các mô hình có thể có với các tập con của các biến độc lập. Điều này rất hữu ích trong việc lựa chọn các mô hình loại bỏ các biến độc lập không đáng kể. Hình 10.38 cho thấy hộp thoại. Một số tùy chọn có sẵn cho quy trình lựa chọn mà thuật toán sử dụng để chọn các biến trong mô hình:
Loại bỏ ngược: Các biến bị loại bỏ từng biến một, bắt đầu với giá trị nhỏ nhất.
Lựa chọn chuyển tiếp: Các biến được thêm vào từng biến một, bắt đầu từ giá trị quan trọng nhất.
47
Tìm kiếm tận cùng: Tất cả sự kết hợp của các biến được tìm kiếm sao cho
phù hợp nhất (có thể khá tốn thời gian, tùy thuộc vào số lượng biến).
Thay thế tuần tự: Đối với một số biến nhất định, các biến được thay thế tuần tự và các thay thế để cải thiện hiệu suất được giữ lại.
Lựa chọn theo từng bước: Giống như lựa chọn chuyển tiếp, nhưng ở mỗi giai
đoạn, các biến có thể bị loại bỏ hoặc thêm vào.
Mỗi tùy chọn có thể mang lại kết quả khác nhau, vì vậy, thông thường bạn nên thử nghiệm với các tùy chọn khác nhau. Đối với mục đích của chúng tôi, chúng tôi sẽ sử dụng các giá trị mặc định trong hộp thoại này.
Hình 1.39 cho thấy hộp thoại thứ ba. Kiểm tra các tùy chọn thích hợp. Đối với các vấn đề đơn giản, các báo cáo tóm tắt để cho điểm dữ liệu đào tạo và xác nhận là đủ.
Đầu ra hồi quy logistic được hiển thị trên một trang tính mới và bạn có thể sử dụng các liên kết Bộ điều hướng đầu ra để hiển thị các phần khác nhau của trang tính. Hình 1.40 cho thấy mô hình hồi quy và đầu ra các tập con tốt nhất. Đầu ra chứa các hệ số beta, các lỗi tiêu chuẩn của chúng,
48
Hình 1.36 Hội thoại hồi quy Logistic,Bước 1
Hình 1.37 Hình 1.36 Hội thoại hồi quy Logistic,Bước 2
Hình 1.38 Hồi quy Logistic
49
Lựa chọ n biế n tập hợp con tốt nhất
Hình 1.39 Hộ p thoạ i hồi quy logistic, Bước 3
giá trị p, tỷ lệ chênh lệch cho mỗi biến (đơn giản là ví dụ, trong đó x là giá trị của hệ số) và khoảng tin cậy cho tỷ lệ cược. Số liệu thống kê tóm tắt ở bên phải hiển thị bậc tự do còn lại (số lần quan sát - số lượng dự đoán), số đo kiểu độ lệch chuẩn (Phần dư thừa) cho mô hình (thường có phân phối chi bình phương), tỷ lệ phần trăm thành công (1s) trong dữ liệu huấn luyện, số lần lặp cần thiết để phù hợp với mô hình và giá trị R bình phương nhiều lần.
Nếu chúng tôi chọn tùy chọn tập hợp con tốt nhất, thì XLMiner sẽ hiển thị mô hình hồi quy tốt nhất. Hình 1.40 mô tả mô hình hồi quy.
Việc lựa chọn mô hình tốt nhất phụ thuộc vào các giá trị được tính toán của các giá trị lỗi khác nhau và xác suất. RSS là tổng bình phương còn lại hoặc tổng bình phương độ lệch giữa xác suất thành công được dự đoán và giá trị thực tế (1 hoặc 0). Cp là thước đo lỗi trong mô hình tập hợp con tốt nhất, liên quan đến sai số kết hợp tất cả các biến. Các mô hình phù hợp là những mô hình mà Cp gần bằng với số lượng
50
tham số trong mô hình (bao gồ m cả hằ ng số ) và / hoặ c Cp ở mức tối thiể u. Xác
suất là một phép kiểm tra giả thuyết về mệnh đề rằng một tập hợp con đã cho có
thể chấp nhận được; nếu Xác suất * 0,05 chúng ta có thể loại trừ tập hợp con đó.
Các báo cáo tóm tắt về đào tạo và xác nhận được thể hiện trong Hình 10.41. Chúng tôi thấy rằng tất cả các trường hợp đã được phân loại chính xác cho dữ liệu đào tạo và có tỷ lệ lỗi tổng thể là 15% đối với dữ liệu xác thực.
Hình 1.40 Mô hình hồi quy Logistic và đầu ra tập hợp con tốt nhất
51
Hình 1.41 Hồ i quy Logistic, Tóm tắt dữ liệu đào tạo và xác thực
KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU
Các cơ sở dữ liệu với rất nhiều thông tin ẩn có thể được sử dụng để tạo nên các quyết định kinh doanh thông minh. Phân loại là một dạng của phân tích dữ liệu, nó dùng để trích ra các mô hình mô tả các lớp dữ liệu quan trọng hay để dự đoán các khuynh hướng dữ liệu tương lai. Phân loại dùng để dự đoán các nhãn xác thực (hay các giá trị rời rạc). Nhiều phương pháp phân loại được đề xuất bởi các nhà nghiên cứu các lĩnh vực như học máy, hệ chuyên gia, thống kê... Hầu hết các giải thuật dùng với giả thiết kích thước dữ liệu nhỏ. Các nghiên cứu khai phá cơ sở dữ liệu gần đây đã phát triển, xây dựng mở rộng các kỹ thuật phân loại có khả năng sử dụng dữ liệu thường trú trên đĩa lớn. Các kỹ thuật này thường được xem xét xử lý song song và phân tán.
Phân loại là gì?
Phân loại dữ liệu là một xử lý bao gồm hai bước. Ở bước đầu tiên, xây dựng mô hình mô tả một tập cho trước các lớp dữ liệu. Mô hình này có được bằng cách phân tích các bộ cơ sở dữ liệu. Mỗi bộ được giả định thuộc về một lớp cho trước, các lớp này chính là các giá trị của một thuộc tính được chỉ định, gọi là thuộc tính nhãn lớp. Các bộ dữ liệu để xây dựng mô hình gọi là tập dữ liệu huấn luyện. Do nhãn lớp của
52
mỗi mẫu huấn luyện đã biết trước nên bước này cũng được biết đến như là học có giám sát. Điều này trái ngược với học không có giám sát, trong đó các mẫu huấn luyện chưa biết sẽ thuộc về nhãn lớp nào và số lượng hay tập các lớp được học chưa biết trước.
Mô hình học được biểu diễn dưới dạng các luật phân loại, cây quyết định hay công thức toán học. Ví dụ, cho trước một cơ sở dữ liệu thông tin về độ tín nhiệm của khách hàng, các luật phân loại được học để nhận biết các khách hàng có độ tín nhiệm là tốt hay khá tốt
Các luật được dùng để phân loại các mẫu dữ liệu tương lai cũng như cung cấp cách hiểu tốt hơn về nội dung cơ sở dữ liệu.
Tên Tuổi Thu nhập Độ tín nhiệm Sandy <30 Thấp Khá tốt Bill <30 Thấp Tốt Courtney 30-40 Cao Tốt Susan >40 Trung bình Khá tốt Claire >40 Trung bình Khá tốt 53 download by : skknchat@gmail.com
Andre 30-40 Cao Tốt
Tên Tuổi Thu nhập Độ tín nhiệm Frank >40 Cao Khá tốt
Sylvia <30 Thấp Khá tốt Anne 30-40 Cao Tốt
Mô hình được dùng để phân loại. Trước tiên, đánh giá độ chính xác dự đoán
của mô hình (hay classifier). Chương này mô tả một số phương pháp đánh giá độ
chính xác classifier. Phương pháp holdout là một kỹ thuật đơn giản sử dụng một
tập kiểm định các mẫu đã được gắn nhãn lớp. Các mẫu này được chọn lựa ngẫu
nhiên và độc lập với các mẫu huấn luyện. Độ chính xác của mô hình trên một tập
kiểm định cho trước là phần trăm các mẫu của tập kiểm định được mô hình phân
loại đúng. Đối với mỗi mẫu kiểm định, nhãn lớp đã biết được so sánh với dự đoán
lớp của mô hình đã học cho mẫu đó. Nếu độ chính xác của mô hình (John, 30-
40,Cao) Độ tín nhiệm? Tốt Dữ liệu huấn luyện Giải thuật phân loại Các luật phân
loại IF Tuổi 30-40 AND Thu nhập = Cao THEN Độ tín nhiệm = Tốt. Dữ liệu kiểm
định Các luật phân loại dữ liệu mới
54
Được đánh giá dựa trên tập dữ liệu huấn luyện, sự đánh giá này có thể là tối ưu, do vậy mô hình học có khuynh hướng quá phù hợp (overfit) dữ liệu. Bởi vậy, cần dùng một tập kiểm định.
Các vấn đề quan tâm của phân loại
1. Chuẩn bị dữ liệu để phân loại:
Các bước tiền xử lý dữ liệu sau đây giúp cải thiện độ chính xác, hiệu suất và khả năng mở rộng của phân loại.
- Làm sạch dữ liệu: Đây là quá trình thuộc về tiền xử lý dữ liệu để gỡ bỏ hoặc làm giảm nhiễu và cách xử lý các giá trị khuyết. Bước này giúp làm giảm sự mập mờ khi học.
- Phân tích sự thích hợp: Nhiều thuộc tính trong dữ liệu có thể không thích hợp
hay không cần thiết để phân loại. Vì vậy, phép phân tích sự thích hợp được thực
hiện trên dữ liệu với mục đích gỡ bỏ bất kỳ những thuộc tính không thích hợp hay
không cần thiết. Trong học máy, bước này gọi là trích chọn đặc trưng. Phép phân
tích này giúp phân loại hiệu quả và nâng cao khả năng mở rộng.
- Biến đổi dữ liệu: Dữ liệu có thể được tổng quát hoá tới các mức khái niệm cao hơn. Điều này rất hữu ích cho các thuộc tính có giá trị liên tục. Ví dụ, các giá trị số của thuộc tính thu nhập được tổng quát hoá sang các phạm vi rời rạc như thấp, trung
55
bình và cao. Tương tự, các thuộc tính giá trị tên như đường phố được tổng quát hoá tới khái niệm mức cao hơn như thành phố. Nhờ đó các thao tác vào/ra trong quá trình học sẽ ít đi.
Dữ liệu cũng có thể được tiêu chuẩn hoá, đặc biệt khi các mạng nơron hay
các phương pháp dùng phép đo khoảng cách trong bước học. Tiêu chuẩn hoá
biến đổi theo tỷ lệ tất cả các giá trị của một thuộc tính cho trước để chúng rơi vào
phạm vi chỉ định nhỏ như [-1.0,1.0] hay [0,1.0]. Tuy nhiên điều này sẽ cản trở các
thuộc tính có phạm vi ban đầu lớn (như thu nhập) có nhiều ảnh hưởng hơn đối với
các thuộc tính có phạm vi nhỏ hơn ban đầu (như các thuộc tính nhị phân).
2. So sánh các phương pháp phân loại:
Các phương pháp phân loại có thể được so sánh và đánh giá theo các tiêu chí sau:
- Độ chính xác dự đoán: Dựa trên khả năng mô hình dự đoán đúng nhãn lớp của dữ liệu mới.
- Tốc độ: Dựa trên các chi phí tính toán. Chi phí này bao gồm sinh và sử dụng mô
hình.
- Sự tráng kiện: Dựa trên khả năng mô hình đưa ra các dự đoán chính xác