Bảng tiêu chuẩn AIC phân tích luyện kim

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tích và dự báo nợ xấu bằng mô hình cây quyết định hồi quy và mô hình Logit,Probi (Trang 62)

Bảng trên chứa tiêu chuẩn AIC (Akaike Information Criterion), tiêu chuẩn SC (Schwarz Criterion), và âm hai lần của logarit xác suất điều kiện (-2 Log L)

đối với việc chặn mô hình và làm phù hợp mô hình. Các tiêu chuẩn AIC và SC có thể đƣợc sử dụng để so sánh các mô hình khác nhau, và những mô hình nào có giá trị của các chỉ số này thấp hơn đƣợc ƣa chuộng hơn. Kết quả của kiểm thử tỷ số xác suất điều kiện và kiểm thử tính hạng độ hiệu quả đối với việc kiểm thử kết hợp với sự quan trọng của các biến độc lập (ngâm và đốt nóng) đƣợc tổng hợp vào trong bảng “Giả thuyết kiểm thử Global Null: BETA = 0”.

Bảng 3.6: Bảng thống kê xac suất bác bỏ phân tích luyện kim

Bảng “Analysis of Maximum Likelikhood Estimates” trên liệt kê các ƣớc lƣợng tham số, các chuẩn lỗi của chúng, và kết quả của kiểm thử Wald đối với từng tham số riêng lẻ. Tỷ số odds đối với mỗi biến độ nghiêng, ƣớc lƣợng dựa trên số mũ của các tham số ƣơng lƣợng tƣơng ứng, đƣợc chỉ ra trong “các ƣớc lƣợng Tỷ số odds”, cùng với 95% các khoảng cách tin cậy Wald.

Sử dụng các ƣớc lƣợng tham số, chúng ta có thể tính logit đƣợc ƣớc lƣợng của p nhƣ là

-5.5592 + 0.082*Heat + 0.0568*Soak

Nếu Heat = 7 và Soak = 1, khi đó log( )µP  4.9284. Sử dụng ƣớc lƣợng logit

này, bạn có thể tính đƣợc µP nhƣ sau: µ 4.9284 1 0.0072 (1 ) P e   

Công thức này đƣa ra xác suất đƣợc dự báo của sự kiện (thỏi vàng chƣa sẵn sàng để tán) đối với Heat = 7 và Soak =1. Nhớ rằng PROC LOGISTIC có thể

tính ra các con số thống kê này cho bạn; sử dụng câu lệnh OUTPUT với lựa chọn P.

Bảng 3.6: Bảng mô tả tính bao phủ mô hình logistic trong phân tích luyện kim

Sau cùng, bảng “Association of Predicted Probabilities and Observed Responses” chứa 4 chỉ số của sự kết hợp đối với việc truy cập khả năng dự báo của một mô hình. Chúng dựa trên số lƣợng các cặp quan sát với các giá trị phản hồi khác nhau, số lƣợng các cặp thích hợp, và số lƣợng các cặp không thích hợp, cũng đƣợc hiển thị.

Cú pháp sử dụng thủ tục logit trong các chƣơng trình:

PROC LOGISTIC < options >;

BY variables ;

CLASS variable <(v-options)> <variable <(v-options)>... > < / v-options >;

CONTRAST ’label’ effect values <,... effect values>< =options >;

FREQ variable ;

MODEL response = < effects >< / options >;

MODEL events/trials = < effects >< / options >;

OUTPUT < OUT=SAS-data-set >

< keyword=name: : :keyword=name > / < option >; < label: > TEST equation1 < , : : : , < equationk >>< /option >;

UNITS independent1 = list1 < : : : independentk = listk >< /option > ;

WEIGHT variable </ option >;

Trong giới hạn phạm vi của luận văn thì tác giả không thể đi sâu vào các tham số trong cú pháp của thủ tục logit. Chúng ta có thể tham khảo các số này tại trang hƣớng dẫn của SAS: Sysntax: Logistic Procedure.

Nhìn chung, để xây dựng đƣợc một hệ thống phân tích và dự báo dựa theo mô hình logit trên hệ thống SAS ta cần thực hiện các bƣớc sau:

Bƣớc 1: Tập hợp và tiền xử lý dữ liệu

Bƣớc 2: Viết chƣơng trình xử lý dữ liệu. Trong chƣơng trình này cần gọi thủ tục logistic để phân loại dữ liệu.

Bƣớc 3: Sử dụng các công cụ của SAS để hiển thị kết quả trên các mẫu phù hợp với yêu cầu của bài toán.

II.2. MÔ HÌNH CÂY QUYẾT ĐỊNH

1. Giới thiệu

1.1. Mô hình cây quyết định

Cây quyết định (decision tree) là một trong những hình thức mô tả dữ liệu trực quan nhất, dễ hiểu nhất đối với ngƣời dùng. Cấu trúc của một cây quyết định bao gồm các nút và các nhánh. Nút dƣới cùng đƣợc gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá đƣợc gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp. Mỗi một nhánh của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miền giá trị của nút đó. Nút đầu tiên đƣợc gọi là nút gốc của cây. Xem xét một ví dụ về một cây quyết định nhƣ sau:

Bảng 3.7: Bảng dữ liệu quan sát thời tiết trong 2 tuần

Cây quyết định của ví dụ trên có thể đƣợc giải thích nhƣ sau: các nút lá chứa các giá trị của thuộc tính phân lớp (thuộc tính “Play”). Các nút con tƣơng ứng với các thuộc tính khác thuộc tính phân lớp; nút gốc cũng đƣợc xem nhƣ một nút con đặc biệt, ở đây chính là thuộc tính “Outlook”. Các nhánh của cây từ một nút bất kỳ tƣơng đƣơng một phép so sánh có thể là so sánh bằng, so sánh khác, lớn hơn nhỏ hơn… nhƣng kết quả các phép so sánh này bắt buộc phải thể hiện một giá trị logic (Đúng hoặc Sai) dựa trên một giá trị nào đó của thuộc tính của nút. Lƣu ý cây quyết định trên không có sự tham gia của thuộc tính “thu nhập” trong thành phần cây, các thuộc tính nhƣ vậy đƣợc gọi chung là các thuộc tính dƣ thừa bởi vì các thuộc tính này không ảnh hƣởng đến quá trình xây dựng mô hình của cây.

Các thuộc tính tham gia vào quá trình phân lớp thông thƣờng có các giá trị liên tục hay còn gọi là kiểu số (ordered or numeric values) hoặc kiểu rời rạc hay còn gọi là kiểu dữ liệu phân loại (unordered or category values). Ví dụ kiểu dữ liệu lƣơng biểu diễn bằng số thực là kiểu dữ liệu liên tục, kiểu dữ liệu giới tính là kiểu dữ liệu rời rạc (có thể rời rạc hóa thuộc tính giới tính một cách dễ dàng).

1.2. Chiến lƣợc cơ bản để xây dựng cây quyết định

 Bắt đầu từ nút gốc chứa tất cả các mẫu;

 Nếu các mẫu thuộc về cùng một lớp, nút trở thành nút lá và đƣợc gán nhãn bằng lớp đó;

 Ngƣợc lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu vào các lớp;

 Một nhánh đƣợc tạo cho từng giá trị của thuộc tính đƣợc chọn và các mẫu đƣợc phân hoạch theo;

 Dùng đệ quy cùng một quá trình trên để tạo cây quyết định;  Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây là đúng - Tất cả các mẫu cho một nút cho trƣớc đều thuộc về cùng một lớp.

- Không còn thuộc tính nào mà mẫu có thể dựa vào để phân hoạch xa hơn.

- Không còn mẫu nào để phân lớp

Tuy nhiên, nếu không chọn đƣợc thuộc tính phân lớp hợp lý tại mỗi nút, ta sẽ tạo cây rất phức tạp, ví dụ nhƣ cây dƣới đây:

Nhƣ vậy, vấn đề đặt ra là phải chọn đƣợc thuộc tính phân lớp tốt nhất. Phần tiếp theo sẽ giới thiệu các tiêu chuẩn, dựa vào các tiêu chuẩn này, ta sẽ chọn ra thuộc tính phân lớp tốt nhất tại mỗi nút.

1.3. Thuận lợi và hạn chế của mô hình cây quyết định

Một số thuận lợi sau đây của cây quyết định đƣợc xem nhƣ là một công cụ phân loại mà đã chỉ ra trong tài liệu này:

1. Cây quyết định tự giải thích và khi đƣợc gắn kết lại, chúng có thể dễ dàng tự sinh ra. Nói cách khác, nếu cây quyết định mà có số lƣợng nút lá vừa phải thì

ngƣời không chuyên cũng dễ dàng hiểu đƣợc nó. Hơn nữa, cây quyết định cũng có thể chuyển sang tập luật. Vì vậy, cây quyết định đƣợc xem nhƣ là dễ hiểu.

2. Cây quyết định có thể xử lý cả thuộc tính tên và số đầu vào.

3. Thể hiện của cây quyết định là đủ đa dạng để biểu diễn cho bất kỳ giá trị rời rạc nào.

4. Cây quyết định có khả năng xử lý các bộ dữ liệu mà có thể gây ra lỗi. 5. Cây quyết định có khả năng xử lý các bộ dữ liệu mà có giá trị rỗng.

6. Cây quyết định đƣợc xem nhƣ là một phƣơng pháp phi tham số. Điều này có nghĩa là cây quyết định không có giả định về sự phân chia bộ nhớ và cấu trúc phân lớp.

Bên cạnh đó, cây quyết định cũng có những bất lợi sau đây:

1. Hầu hết các thuật toán (nhƣ ID3 hoặc C4.5) bắt buộc các thuộc tính mục tiêu phải là các giá trị rời rạc.

2. Khi cây quyết định sử dụng phƣơng pháp “chia để trị”, chúng có thể thực hiện tốt nếu tồn tại một số thuộc tính liên quan chặt chẽ với nhau, nhƣng sẽ khó khăn nếu một số tƣơng tác phức tạp xuất hiện. Một trong những nguyên nhân gây ra điều này là những sự phân lớp mà có mô tả rất mạch lạc về việc phân lớp cũng có thể gặp khó khăn trong việc biểu diễn bằng cây quyết định. Một minh họa đơn giản của hiện tƣợng này là vấn đề tái tạo cây quyết định (Pagallo và Huassler, 1990). Khi mà hầu hết các cây quyết định phân chia không gian thể hiện thành những khu vực loại trừ lẫn nhau để biểu diễn một khái niệm, trong một số trƣờng hợp, cây nên chứa một vài cây con giống nhau trong thứ tự thể hiện của việc phân lớp. Ví dụ, nếu khái niệm sau mà thể hiện theo hàm nhị phân: y = (A1 A2) (A3 A4) thì cây quyết định đơn biến tối thiểu mà biểu diễn hàm này đã đƣợc biểu diễn trong phần 9.3. Lƣu ý là cây có chứa 2 bản sao của cùng một cây con.

3. Các đặc tính liên quan của cây quyết định dẫn đến những khó khăn khác nhƣ là độ nhạy với tập huấn luyện, các thuộc tính không phù hợp, nhiễu. (Quinlan, 1993).

2. Một số thuật toán

Với tiêu chí xây dựng cây quyết định ngày càng đơn giản, cho độ chính xác phân lớp cao, chi phí thấp, có khả năng mở rộng,… thì có rất nhiều tác giả đã cho ra đời các thuật toán ngày càng tối ƣu hơn. Một số thuật toán tiêu biểu sau:

Algorithms References

CART(Classification And Regression Tree) Breiman et al.(1984) ID3(Interactive Dichotomizer 3) Quinlan(1986)

C4.5 Quinlan(1993)

CHAID (CHi-squared Automatic Interaction Detecor) Kass(1980)

QUEST LohandShih(1997)

CAL5 Muller and Wysotzki(1994)

FACT Loh and Vanichsetakul(1988)

LMDT Brodley and Utgoff(1995)

T1 Holte(1993)

PUBLIC Rastogi and Shim(2000)

MARS Friedman(1991)

SLIQ (Supervised Learning in Quest) Mehta(1996)

SPRINT(A Scalable Parallel Classifier for DataMining) Shafer, Agrawal, Mehta

…. ….

Bảng 3.8: Một số thuật toán xây dựng cây quyết định

Trong phạm vi đồ án môn học này chúng tôi xin trình bày cụ thể 4 thuật toán gồm thuật toán CLS, ID3, C4.5, SPRINT.

2.1. Thuật toán ID3

Thuật toán ID3 đƣợc phát biểu bởi tác giả Quinlan (trƣờng đại học Syney, Australia) và đƣợc công bố vào cuối thập niên 70 của thế kỷ 20. Sau đó, thuật toán này đƣợc giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986. ID3 đƣợc xem nhƣ là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bƣớc. ID3 xây dựng cây quyết định từ trên- xuống (top -down). ID3 sử dụng độ đo

Information Gain (trình bày ở 2.1.1.1)để đo tính hiệu quả của các thuộc tính

phân lớp.Trong quá trình xây dựng cây quyết định theo thuật toán ID3 tại mỗi bƣớc phát triển cây, thuộc tính đƣợc chọn để triển khai là thuộc tính có giá trị Gain lớn nhất.Hàm xây dựng cây quyết định trong thuật toán ID3 [2]

Function induce_tree(tập_ví_dụ, tập_thuộc_tính)

begin

return một nút lá đƣợc gán nhãn bởi lớp đó

else if tập_thuộc_tính là rỗng then

return nút lá đƣợc gán nhãn bởi tuyển của tất cả các lớp trong

tập_ví_dụ

else begin

chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại; xóa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

begin

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P; Gọi induce_tree(phân_vùng V, tập_thuộc_tính), gắn kết quả vào nhánh V end end end

Xét ví dụ 3.1 cho thuật toán ID3:

- Gọi tập huấn luyện là S, số mẫu thuộc lớp ký hiệu là (+) và số mẫu thuộc lớp Không ký hiệu là (-), ta có S[9+,5-] tức tập huấn luyện S có 14 mẫu trong đó có 9 mẫu thuộc lớp và 5 mẫu thuộc lớp Không.

- Để xác định thuộc tính phân lớp ta cần tính Information Gain cho từng thuộc tính của mẫu huấn luyện:

o Thuộc tính Quang Cảnh

Value(QC)={Nắng, Mƣa, Âm u}

Gọi SNắng là tập các mẫu có QC=Nắng ta có SNắng=[2+,3-] Tƣơng tự ta có SMƣa=[3+,2-], SÂm u=[4+,0-]

Tƣ tƣợng đối với các thuộc tínhNhiệt độ, Độ ẩm, Gió ta có Gain tƣơng ứng nhƣ sau:

- Gain(S,ND)= 0.029

- Gain(S,DA)= 0.151

- Gain(S,G)= 0.048

Chọn Quang cảnh làm thuộc tính phân lớp vì có Gain lớn nhất

- Vẽ cây quyết định: Quang Cảnh Có [D1, D2, D8, D9, D11] [D3, D7, D12, D13] [D4, D5, D6, D10, D14] ??? ??? S Nắng[2+,3-] S Âm u[4+,0-] S Mưa[3+,2-] Nắng Mƣa Âm u

Do Quang cảnh=Nắng và Quang cảnh=Mƣa chƣa xác định đƣợc thuộc tính phân lớp nên ta chia tập huấn liệu thành 2 bảng nhƣ hình trên và tiếp tục tìm thuộc tính phân lớp cho 2 bảng mẫu huấn luyện. Kết quả cuối cùng ta có cây quyết định sau:

Từ cây quyết định trên tạo ra các luật:

R1: IF QC=Âm u THEN Chơi Tennis=Có.

R2: IF QC=Nắng AND Độ ẩm=TB THEN Chơi Tennis=Có.

R3: IF QC=Nắng AND Độ ẩm=Cao THEN Chơi Tennis=Không.

R4: IF QC=Mƣa AND Gió=Nhẹ THEN Chơi Tennis=Có

R5: IF QC=Mƣa AND Gió=Mạnh THEN Chơi Tennis=Không

Nhận xét: Với việc tính toán giá trị Gain để lựa chọn thuộc tính tối ƣu cho việc triển khai cây, thuật toán ID3 đƣợc xem là một cải tiến của thuật toán CLS. Tuy nhiên thuật toán ID3 còn các vấn đề chƣa đƣợc giải quyết nhƣ sau:

o Vấn đề overfitting(sẽ trình bày kỹ ở mục 4)

o Độ đo Information Gain chƣa thật sự tốt vì còn thiên về các thuộc tính có nhiều giá trị.

o Xử lý các thuộc tính có kiểu giá trị liên tục (ví dụ nhƣ kiểu số thực) Quang Cảnh Có [D1, D2, D8, D9, D11] [D3, D7, D12, [D4, D5, D6, D10, D14] D13] S Nắng[2+,3-] S Âm u[4+,0-] S Mƣa[3+,2-] Nắng Âm u Mƣa Độ ẩm Có không S TB[2+,0-] S cao[0+,3-] Gió Có không S Nhẹ[3+,0-] S Mạnh[0+,2-] Mạnh Nhẹ Cao TB

o Xử lý các bộ họcthiếu giáthuộc tính (missing-value attributes)

o Xử lý các thuộc tính có chi phí (cost) khác nhau

Vấn đề này sẽ đƣợc giải quyết trong thuật toán C4.5 sau đây.

2.2. Thuật toán C4.5

Thuật toán C4.5 cũngđƣợc tác giả Quinlan phát triển và công bố vào năm 1996. Thuật toán này là một thuật toán đƣợc cải tiến từ thuật toán ID3 và giải quyết hầu hết các vấn đề mà ID3 chƣa giải quyết nhƣ đã nêu trên. Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lƣợc ƣu tiên theo chiều sâu (Depth - First).

Thuật toán xây dựng cây quyết định C4.5

Mô tả thuật toán dƣới dạng giả mã nhƣ sau [2]:

Function xay_dung_cay(T) {

<Tính toán tần xuất các giá trị trong các lớp của T>;

If <Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫu khác lớp>Then <Trả về 1 nút lá>

Else <Tạo một nút quyết định N>;

For <Với mỗi thuộc tính A> Do <Tính giá trị Gain(A)>;

<Tại nút N, thực hiện việc kiểm tra để chọn ra thuộc tính có giá

trị Gain tốt nhất (lớn nhất). Gọi N.test là thuộc tính có Gain lớn

nhất>;

If <Nếu N.test là thuộc tính liên tục> Then <Tìm ngƣỡng cho phép tách của N.test>;

For <Với mỗi tập con T` đƣợc tách ra từ tập T> Do ( T` đƣợc tách ra theo quy tắc:

- Nếu N.test là thuộc tính liên tục tách theo ngƣỡng ở bƣớc 5 - Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá

trị của thuộc tính này.

)

{ If <Kiểm tra, nếu T' rỗng>} Then <Gán nút con này của nút N là nút lá>;

Else

<Gán nút con này là nút đƣợc trả về bằng cách gọi đệ qui lại đối với hàm xay_dung_cay(T'), với tập T'>;

}

<Tính toán các lỗi của nút N>; <Trả về nút N>;

2.3. Một số cài tiến của thuật toán C4.5 so với thuật toán ID3 2.3.1. Chọn độ đo Gain Ratio

Thuật toán ID3 sử dụng độ đo Information Gain để tìm thuộc tính phân lớp tốt nhất nhƣng xu hƣớng của Information Gain là ƣu tiên chọn thuộc tính có nhiều giá trị làm thuộc tính phân lớp. Thật vậy, ta xét ví dụ với tập huấn luyện sau:

Outlook Temp Humidity Windy Play

A Hot High Weak No A Hot High Strong No B Hot High Weak Yes E Mild High Weak Yes

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tích và dự báo nợ xấu bằng mô hình cây quyết định hồi quy và mô hình Logit,Probi (Trang 62)

Tải bản đầy đủ (PDF)

(113 trang)