.1Quy trình lựa chọn đặc trƣng của bài tốn cho điểm tín dụng

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 53 - 54)

Tiền xử lý dữ liệu: Trong các bộ dữ liệu tín dụng sử dụng thực nghiệm đƣợc tiền xử lý để loại bỏ các giá trị thiếu, rời rạc hĩa các thuộc tính số. Vì lý do bảo mật đối với lĩnh vực ngân hàng, bộ dữ liệu của Úc đã đƣợc mã hĩa và chuyển đổi.

Lựa chọn đặc trƣng: Để cĩ thể tìm ra tập con đặc trƣng tối ƣu, chúng tơi đã đề xuất phƣơng pháp lựa chọn đặc trƣng dựa trên phƣơng pháp đĩng gĩi. Cải tiến trong phƣơng pháp đề xuất này là xây dựng hàm đánh giá đặc trƣng và thủ tục loại bỏ đặc trƣng cĩ tên FRFE.

Phân lớp: Phƣơng pháp đề xuất cĩ thể sử dụng các bộ phân lớp độc lập nhƣ K-NN, cây quyết định, mạng nơ-ron nhân tạo…Tuy nhiên, bộ dữ liệu tín dụng chứa nhiều kiểu dữ liệu nhƣ kiểu số, xâu, phân loại. Chúng tơi đã lựa chọn bộ phân lớp rừng ngẫu nhiên đối với dữ liệu thực nghiệm bởi bộ phân lớp tính hiệu quả của nĩ.

2.3.2 Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp

Vì bộ dữ liệu tín dụng cĩ số lƣợng đặc trƣng khơng lớn nên chúng tơi đề xuất lựa chọn phƣơng pháp đĩng gĩi sử dụng chiến lƣợc tìm kiếm tồn bộ với hai hƣớng tìm kiếm là tiến và lùi. Các phƣơng pháp đĩng gĩi thƣờng sử dụng độ chính xác dự đốn làm tiêu chí đánh giá đặc trƣng do đĩ trong nhiều trƣờng hợp phƣơng pháp này sẽ bị “quá khớp”. Để khắc phục vấn đề này chúng tơi đã cải tiến hàm đánh giá đặc trƣng sử dụng kiểm chứng chéo n lần trong các phƣơng pháp đề xuất.

2.3.2.1Chiến lược lựa chọn đặc trưngtiến

Trong hƣớng tiếp cận này chúng tơi sử dụng chiến lƣợc tìm kiếm tiến, từ một tập rỗng, lần lƣợt thêm vào tập đĩ từng đặc trƣng tốt nhất. Thuật tốn lựa chọn đặc trƣng dựa trên phƣơng pháp đĩng gĩi đƣợc mơ tả nhƣ sau:

Dữ liệu tín dụng Tiền xử lý dữ liệu Lựa chọn đặc trƣng Phân lớp Độ chính xác dự báo Tập con đặc trƣng Tập đặc trƣng

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 53 - 54)

Tải bản đầy đủ (PDF)

(120 trang)