Luồng hoạt động của cây quyết định

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng (Trang 34 - 37)

2.5.1.3. Các biện pháp lựa chọn thuộc tính

Biện pháp lựa chọn thuộc tính là một heuristic để chọn tiêu chí phân tách dữ liệu phân vùng thành cách tốt nhất cĩ thể. Nĩ cịn được gọi là quy tắc chia tách vì nĩ giúp chúng ta xác định các điểm dừng cho các bộ dữ liệu trên một nút nhất định. ASM (attribute selection measure) cung cấp thứ hạng cho từng tính năng (hoặc thuộc tính) bằng cách giải thích tập dữ liệu đã cho. Thuộc tính điểm tốt nhất sẽ được chọn làm thuộc tính chia ( Nguồn ). Trong trường hợp thuộc tính cĩ giá trị liên tục, các điểm phân chia cho các nhánh cũng cần xác định. Các biện pháp lựa chọn phổ biến nhất là Thơng tin đạt được, Tỷ lệ tăng và Chỉ số Gini.

2.5.1.4. Thơng tin đạt đƣợc

Shannon đã phát minh ra khái niệm entropy, đo lường sự khơng tinh khiết của bộ đầu vào. Trong vật lý và tốn học, entropy được gọi là tính ngẫu nhiên hoặc tạp chất trong hệ thống. Trong lý thuyết thơng tin, nĩ đề cập đến tạp chất trong một nhĩm các ví dụ. Thơng tin đạt được là sự giảm entropy. Độ lợi thơng tin tính tốn sự khác biệt giữa entropy trước khi tách và entropy trung bình sau khi tách bộ dữ liệu dựa trên các giá trị thuộc tính đã cho. Thuật tốn cây quyết định ID3 (Iterative Dichotomiser) sử dụng thơng tin thu được.

( ) ∑

Trong đĩ, Pi là xác suất mà một tuple tùy ý trong D thuộc về lớp Ci.

( ) ∑

( )

Ở đây:

 Thơng tin (D) là lượng thơng tin trung bình cần thiết để xác định nhãn lớp của một tuple trong D.

 | Dj | / | D | đĩng vai trị là trọng lượng của phân vùng thứ j.

 InfoA (D) là thơng tin dự kiến cần cĩ để phân lớp một tuple từ D dựa trên phân vùng của A.

 Thuộc tính A cĩ mức tăng thơng tin cao nhất, Gain (A), được chọn làm thuộc tính tách tại nút N ().

2.5.1.5. Tỷ lệ tăng

Thơng tin đạt được là thiên vị cho thuộc tính với nhiều kết quả. Nĩ cĩ nghĩa là nĩ thích thuộc tính với một số lượng lớn các giá trị riêng biệt. Chẳng hạn, hãy xem xét một thuộc tính cĩ số nhận dạng duy nhất, chẳng hạn như customer_ID khơng cĩ thơng tin (D) vì phân vùng thuần túy. Điều này tối đa hĩa việc đạt được thơng tin và tạo phân vùng vơ dụng.

C4.5, một cải tiến của ID3, sử dụng một phần mở rộng để đạt được thơng tin được gọi là tỷ lệ khuếch đại. Tỷ lệ khuếch đại xử lý vấn đề sai lệch bằng cách bình thường hĩa mức tăng thơng tin bằng cách sử dụng Thơng tin phân tách. Việc triển khai Java của thuật tốn C4.5 được gọi là J48, cĩ sẵn trong cơng cụ Khai phá dữ liệu WEKA.

( ) ∑ ( ) Ở đây,

 | Dj | / | D | đĩng vai trị là trọng lượng của phân vùng thứ j.

 v là số lượng giá trị rời rạc trong thuộc tính A. Tỷ lệ khuếch đại cĩ thể được định nghĩa là

( ) ( ) ( )

Thuộc tính cĩ tỷ lệ khuếch đại cao nhất được chọn làm nút gốc.

2.5.1.6. chỉ số Gini

Một thuật tốn cây quyết định khác sử dụng phương thức Gini để tạo các điểm phân chia.

( ) ∑

Trong đĩ, pi là xác suất mà một tuple trong D thuộc về lớp Ci.

Chỉ số Gini xem xét phân chia nhị phân cho từng thuộc tính. Bạn cĩ thể tính tổng trọng số của tạp chất của từng phân vùng. Nếu phân chia nhị phân trên thuộc tính A phân vùng dữ liệu D thành D1 và D2, chỉ số Gini của D là:

( )

( )

( )

Trong trường hợp thuộc tính cĩ giá trị rời rạc, tập hợp con cung cấp chỉ số gini tối thiểu cho lựa chọn đĩ được chọn làm thuộc tính tách. Trong trường hợp thuộc tính cĩ giá trị liên tục, chiến lược là chọn từng cặp giá trị liền kề làm điểm phân tách và điểm cĩ thể cĩ chỉ số gini nhỏ hơn được chọn làm điểm phân tách.

( ) ( ) ( )

Thuộc tính cĩ chỉ số Gini tối thiểu được chọn làm thuộc tính tách.

Phân lớp Naive Bayes

2.5.2.

2.5.2.1. Quy trình phân lớp

Bất cứ khi nào bạn thực hiện phân lớp, bước đầu tiên là hiểu vấn đề và xác định các tính năng và nhãn tiềm năng. Các tính năng là những đặc điểm hoặc thuộc tính ảnh hưởng đến kết quả của nhãn. Ví dụ: trong trường hợp phân phối cho vay, quản lý ngân hàng xác định nghề nghiệp, thu nhập, tuổi tác, địa điểm, lịch sử cho vay trước đây, lịch sử giao dịch và điểm tín dụng. Những đặc điểm này được gọi là các tính năng giúp mơ hình phân loại khách hàng.

Việc phân lớp cĩ hai giai đoạn, giai đoạn học tập và giai đoạn đánh giá. Trong giai đoạn học tập, trình phân loại đào tạo mơ hình của nĩ trên một tập dữ liệu nhất định và trong giai đoạn đánh giá, nĩ kiểm tra hiệu suất của trình phân loại. Hiệu suất được đánh giá trên cơ sở các thơng số khác nhau như độ chính xác, lỗi, độ chính xác và thu hồi.

Data

Data Training

Data

Test Kiểm thử mơ hình

Biểu diễn mơ hình

1. accuracy – độ chính xác 2. precision - dự đốn 3. recall – độ hồi tưởng Xây dựng mơ hình

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng (Trang 34 - 37)

Tải bản đầy đủ (PDF)

(68 trang)