1.3.1. Rút gọn thuộc tính
Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều - dimension reduction, rút gọn đặc trưng - feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute
selection) và biến đổi thuộc tính (Attribute transformation). Lựa chọn thuộc tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc tính ban đầu của tập dữ liệu. Trong khi đó, biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất. Trong luận án này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính.
1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính
Rút gọn thuộc tính theo tiếp cận lựa chọn thuộc tính, gọi tắt là rút gọn thuộc tính, là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm M thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc tính tốt nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực hiện; nhiều bài toán liên quan đến vấn đề này là những bài toán NP - khó. Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:
(1) Tạo lập tập con, (2) Đánh giá tập con,
(3) Kiểm tra điều kiện dừng, (4) Kiểm chứng kết quả.
Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập con để đánh giá, lựa chọn. Giả sử có M thuộc tính trong tập dữ liệu ban đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là 2M . Với số ứng viên này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc không thể. Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất
trước đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a) đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựa chọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá.
Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất”
này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khác nhau.
Phát sinh
tập con Đánh giá
Tập thuộc tính Tập con
Tiêu chuẩn dừng Hợp lý Tập con
Thích hợp
Dừng Tiếp tục
Hình 1.1. Quy trình rút gọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói). Mỗi cách tiếp cận có những mục tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác.
Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộc tính. Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này.
Ngược lại với cách tiếp cận filter, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính.
Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao
Tập thuộc tính Tập con
được chọn Thuật toán học
Filter
Tập thuộc tính Tạo lập
các tập con Thuật toán học
Wrapper
Các thuộc tính
Sự đánh giá
Tập con được lựa chọn
Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper, một số cách tiếp cận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper [67, 91].