CHƢƠNG 2 : BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG
2.5. Lựa chọn nghiên cứu thuật tốn
2.5.1.6. chỉ số Gini
Một thuật tốn cây quyết định khác sử dụng phương thức Gini để tạo các điểm phân chia.
( ) ∑
Trong đĩ, pi là xác suất mà một tuple trong D thuộc về lớp Ci.
Chỉ số Gini xem xét phân chia nhị phân cho từng thuộc tính. Bạn cĩ thể tính tổng trọng số của tạp chất của từng phân vùng. Nếu phân chia nhị phân trên thuộc tính A phân vùng dữ liệu D thành D1 và D2, chỉ số Gini của D là:
( )
( )
( )
Trong trường hợp thuộc tính cĩ giá trị rời rạc, tập hợp con cung cấp chỉ số gini tối thiểu cho lựa chọn đĩ được chọn làm thuộc tính tách. Trong trường hợp thuộc tính cĩ giá trị liên tục, chiến lược là chọn từng cặp giá trị liền kề làm điểm phân tách và điểm cĩ thể cĩ chỉ số gini nhỏ hơn được chọn làm điểm phân tách.
( ) ( ) ( )
Thuộc tính cĩ chỉ số Gini tối thiểu được chọn làm thuộc tính tách.
Phân lớp Naive Bayes
2.5.2.
2.5.2.1. Quy trình phân lớp
Bất cứ khi nào bạn thực hiện phân lớp, bước đầu tiên là hiểu vấn đề và xác định các tính năng và nhãn tiềm năng. Các tính năng là những đặc điểm hoặc thuộc tính ảnh hưởng đến kết quả của nhãn. Ví dụ: trong trường hợp phân phối cho vay, quản lý ngân hàng xác định nghề nghiệp, thu nhập, tuổi tác, địa điểm, lịch sử cho vay trước đây, lịch sử giao dịch và điểm tín dụng. Những đặc điểm này được gọi là các tính năng giúp mơ hình phân loại khách hàng.
Việc phân lớp cĩ hai giai đoạn, giai đoạn học tập và giai đoạn đánh giá. Trong giai đoạn học tập, trình phân loại đào tạo mơ hình của nĩ trên một tập dữ liệu nhất định và trong giai đoạn đánh giá, nĩ kiểm tra hiệu suất của trình phân loại. Hiệu suất được đánh giá trên cơ sở các thơng số khác nhau như độ chính xác, lỗi, độ chính xác và thu hồi.
Data
Data Training
Data
Test Kiểm thử mơ hình
Biểu diễn mơ hình
1. accuracy – độ chính xác 2. precision - dự đốn 3. recall – độ hồi tưởng Xây dựng mơ hình
Hình 2.6.3: Quy trình phân lớp