Chương 3: Một số giải thuật trích chọn thuộc tính
3.6. Phương pháp lớn dần
Với kích cỡ dữ liệu ngày càng trở lên lớn hơn, tất cả các phương pháp chọn lựa thuộc tính đều phải đối mặt với vấn đề quá tải dữ liệu do những hạn chế của bộ nhớ máy tính cũng như tốc độ tính toán. Vì vậy, cần thiết phải có một giải pháp xử lý đối với vấn đề đặt ra này. Một câu hỏi đặt ra là liệu chúng ta có thực sự cần quá nhiều dữ liệu cho mỗi phương pháp chọn lựa thuộc tính để chọn ra các thuộc tính liên quan hay không ? Hay chúng ta chỉ cần xử lý với lượng dữ liệu ít hơn ? Câu trả lời cho câu hỏi này vẫn còn nhiều tranh luận. Chúng ta sử dụng tỷ lệ lỗi như một ví dụ cụ thể. Nếu chúng ta tính toán tỷ lệ lỗi chung cho một bộ dữ liệu là E, thì bất kỳ một việc giảm chiều dữ liệu nào cũng sẽ dẫn đến một sự tối ưu, tuy nhiên có thể dẫn đến sự sai lệch
trong tỷ lệ lỗi. Một mặt chúng ta gặp vấn đề đối với dữ liệu có kích cỡ quá lớn và chúng ta muốn giảm dữ liệu tới một kích cỡ phù hợp. Một mặt chúng ta lại cần tất cả các dữ liệu hiện có để đo lường chất lượng của các thuộc tính được chọn lựa.
Chúng ta biết rằng chỉ một vài phần trong bộ bộ dữ liệu lớn có thể đại diện cho toàn bộ bộ dữ liệu trong một chừng mực nào đó. Tuy nhiên, câu hỏi đặt ra ở đây là phần đó là phần nào trong bộ dữ liệu lớn đó và độ lớn của phần đấy là bao nhiêu thì phù hợp. Thay vì việc tìm kiếm chính xác phần dữ liệu này, chúng ta có thể ngẫu nhiên chọn lựa một phần p nào đó, sau đó sử dụng phần này để tìm một tập con thuộc tính thỏa mãn các tiêu chí đánh giá nào đó. Sau đó kiểm chứng tập con này trên phần còn lại của bộ dữ liệu (toàn bộ bộ dữ liệu trừ đi phần dữ liệu lấy ra). Có hai khả năng có thể: (1) Tập con thỏa mãn các tiêu chí đánh giá trên phần còn lại của dữ liệu. Điều này có nghĩa là nhiệm vụ đã hoàn thành; và (2) Có một vài tiêu chí đánh giá chưa được thỏa mãn trên phần còn lại của dữ liệu. Điều này có nghĩa là phần dữ liệu mà chúng ta lấy ra ở trên chưa phải là phần dữ liệu mà chúng ta mong muốn. Nếu gặp phải khả năng thứ hai chúng ta có thể giải quyết như sau: Thêm dữ liệu từ bộ dữ liệu ban đầu vào bộ dữ liệu đã chọn ở trên và thực hiện lại việc chọn lựa thuộc tính trên bộ dữ liệu này. Quá trình này sẽ dừng lại khi tất cả các tiêu chí đánh giá được thỏa mãn.
Thêm một câu hỏi ở đây đó là giá trị của p bao nhiêu là phù hợp. Một cách trực quan, kích cỡ của p không nên quá to cũng như quá nhỏ. Nếu kích cỡ của p quá nhỏ, thì ngay sau lần thử nghiệm đầu tiên sẽ có rất nhiều tiêu chí đánh giá chưa được thỏa mãn. Do đó, sẽ thực hiện việc thêm các thực thể từ bộ dữ liệu còn lại vào p và có thể điều này dẫn đến kích cỡ của p sẽ lớn gần bằng kích cỡ của bộ dữ liệu ban đầu. Nếu kích cỡ của p quá lớn (gần bằng kích cỡ của bộ dữ liệu ban đầu) chúng ta vẫn phải đương đầu với vấn đề quá tải dữ liệu cộng với một vài vấn đề về tiêu chí đánh giá có thể chưa được thỏa mãn. Một cách đơn giản có thể giải quyết được việc này đó là chọn p theo tỷ lệ phần trăm của bộ dữ liệu, ví dụ chọn p=10%, hoặc một cách khác là chọn p tỷ lệ với số lượng thuộc tính của bộ dữ liệu. Một tỷ lệ phần trăm phù hợp được xác định thông qua tiến hành thực nghiệm. Ý tưởng về việc chọn lựa dữ liệu được thể hiện trong giải thuật được đặt tên là LIV được Lui và Setiono đề xuất và năm 1998.
Giải thuật này được thể hiện trong dưới đây. Hàm CalINcon trả lại giá trị của tỷ lệ lỗi và các dữ liệu không phù hợp trong bộ dữ liệu inconData.
LVI
Input: maxTries - the maximum number of loops U - the inconsistency measure
D0 = p% of D chosen randomly Initialize: D1 = D - D0
loop
SLV F = LVF(D0,γ, S)
if (CalIncon(SLV F , D1 + D0, inconData) < γ) return(SLV F)
else
D0 = append(inconData, D0) D1 = remove(inconData, D1) end of loop
Output: SLV F