Lựa chọn thuộc tính

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 51 - 54)

Lựa chọn thuộc tính liên quan đến quá trình lựa chọn một tập con của các thuộc tính liên quan từ một tập các thuộc tính ban đầu. Lựa chọn thuộc tính làm giảm số lƣợng các thuộc tính cho đầu vào các mơ hình nhằm làm

giảm chi phí thu thập dữ liệu và chi phí tính tốn. Hơn nữa, nĩ khơng những mang lại kết quả chính xác hơn mà cịn nhỏ gọn và dễ hiểu hơn."Lựa chọn thuộc tính, như là một bước tiền xử lý cho quá trình học máy, rất hiệu quả trong việc giảm chiều, loại bỏ dữ liệu khơng phù hợp, tăng độ chính xác, và

cải thiện tồn diện kết quả" (Kira & Rendell, 1992). Lựa chọn thuộc tính bao

gồm các lựa chọn riêng lẻ hoặc nhĩm nhỏ. Lựa chọn thuộc tính riêng lẻ xếp các thuộc tính riêng biệt theo một số liệu cụ thể mà lựa chọn nhĩm cĩ tính đến sự tƣơng tác và mối tƣơng quan giữa các thuộc tính.

Trong bài tốn phân lớp, lựa chọn thuộc tính nhằm mục đích chọn tập các thuộc tính cĩ khả năng phân biệt cao. Nĩi cách khác là chọn tính thuộc tính cĩ khả năng phân biệt các mẫu thuộc lớp khác nhau. Do thơng tin của nhãn là sẵn cĩ nên sự phù hợp của các thộc tính đƣợc đánh giá cao.

Lựa chọn thuộc tính chủ yếu ảnh hƣởng đến giai đoạn đào tạo của bài tốn phân lớp [11,16]. Sau khi tạo ra các thuộc tính, thay vì trực tiếp huấn luyện dữ liệu với tồn bộ các thuộc tính, ta thực hiện lựa chọn tập các tính năng và sau đĩ huấn luyện dữ liệu với các tính năng đã đƣợc chọn. Các tính năng đƣợc chọn cĩ thể là độc lập với các thuật tốn học (nhƣ filter models) hoặc cĩ thể lặp đi lặp lại sử dụng các thuật tốn để đánh giá chất lƣợng các tính năng lựa chọn (nhƣ wrapper models). Các tính năng đƣợc lựa chọn cuối cùng đƣợc sử dụng cho giai đoạn phân lớp và dự báo.

Hình 3.3 - Lựa chọn thuộc tính trong phân lớp dữ liệu

Từ dữ liệu thu thập đƣợc và với thời gian phân tích là 3 tháng cho các thuê bao tơi thu thập đƣợc 101 thuộc tính (chi tiết mơ tả tại phụ lục 1 luận văn)[11]. Trong 101 thuộc tính này cĩ 5 thuộc tính nằm trong dữ liệu quản lý khách hàng, 62 thuộc tính của thơng tin chi tiết sử dụng dịch vụ của thuê bao và 34 thuộc tính thuộc dữ liệu hĩa đơn và khuyến mại của thuê bao.

Hình 3.4 - Số lượng thuộc tính được thu thập

Số lƣợng thuộc tính

Info: 5 Service: 62 Bill&Promo: 34

Từ các thuộc tính thu thập đƣợc ban đầu thực hiện lựa chọn và đánh giá từng thộc tính, thực hiện loại bỏ các thuộc tính cĩ độ chính xác thấp và các thuộc tính cĩ tỉ lệ lỗi ta thu đƣợc các thuộc tính lựa chọn (chi tiết phụ lục 2).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 51 - 54)

Tải bản đầy đủ (PDF)

(85 trang)