Với kích cỡ dữ liệu ngày càng trở lên lớn hơn, tất cả các phƣơng pháp chọn lựa thuộc tính đều phải đối mặt với vấn đề quá tải dữ liệu do những hạn chế của bộ nhớ máy tính cũng nhƣ tốc độ tính toán. Do đó cần thiết phải có một giải pháp xử lý đối với vấn đề đặt ra này. Một câu hỏi đặt ra là liệu chúng ta có thực sự cần quá nhiều dữ liệu cho mỗi phƣơng pháp chọn lựa thuộc tính để chọn ra các thuộc tính liên quan? Hay là chúng ta chỉ cần xử lý với lƣợng dữ liệu ít hơn? Câu trả lời cho câu hỏi này vẫn còn nhiều tranh luận. Chúng ta sử dụng tỷ lệ lỗi nhƣ một ví dụ cụ thể. Nếu chúng ta tính toán tỷ lệ lỗi chung cho một bộ dữ liệu là E, thì bất kỳ một việc giảm chiều dữ liệu nào cũng sẽ dẫn đến một sự tối ƣu tuy nhiên có thể dẫn đến sự sai lệch trong tỷ lệ lỗi. Một mặt chúng ta gặp vấn đề đối với dữ liệu có kích cỡ quá lớn, do đó chúng ta muốn giảm dữ liệu tới một kích cỡ phù hợp. Mặt khác chúng ta lại cần tất cả các dữ liệu hiện có để đo lƣờng chất lƣợng của các thuộc tính đƣợc chọn lựa.
Chúng ta biết rằng chỉ một vài phần trong bộ bộ dữ liệu lớn có thể đại diện cho toàn bộ bộ dữ liệu trong một chừng mực nào đó. Tuy nhiên, câu hỏi đặt ra ở đây là phần nào trong bộ dữ liệu và độ lớn của phần đấy là bao nhiêu thì phù hợp. Thay vì việc tìm kiếm chính xác phần dữ liệu này, chúng ta có thể ngẫu nhiên chọn lựa một phần p nào đó, sau đó sử dụng phần này để tìm một tập con thuộc tính thỏa mãn các tiêu chí đánh giá nào đó. Sau đó kiểm chứng tập con này trên phần còn lại của bộ dữ liệu (toàn bộ bộ dữ liệu trừ đi phần dữ liệu lấy ra). Có hai khả năng có thể: (1) Tập con thỏa mãn các tiêu chí đánh giá trên phần còn lại của dữ liệu. Điều này có nghĩa là nhiệm vụ đã hoàn thành; và (2) Có một vài tiêu chí đánh giá chƣa đƣợc thỏa mãn trên phần còn lại của dữ liệu. Điều này có nghĩa là phần dữ liệu mà chúng ta lấy ra ở trên chƣa phải là phần dữ liệu mà chúng ta mong muốn. Nếu gặp phải khả năng thứ hai chúng ta có thể giải quyết nhƣ sau: Thêm dữ liệu từ bộ dữ liệu ban đầu vào bộ dữ liệu đã chọn ở trên và thực hiện lại việc chọn lựa thuộc tính trên bộ dữ liệu này. Quá trình này sẽ dừng lại khi tất cả các tiêu chí đánh giá đƣợc thỏa mãn.
Thêm một câu hỏi ở đây đó là giá trị của p bao nhiêu là phù hợp. Một cách trực quan, kích cỡ của p không nên quá to cũng nhƣ quá nhỏ. Nếu kích cỡ của p quá nhỏ, thì ngay sau lần thử nghiệm đầu tiên sẽ có rất nhiều tiêu chí đánh giá chƣa đƣợc thỏa mãn. Do đó, sẽ thực hiện việc thêm các thực thể từ bộ dữ liệu còn lại vào p và có thể điều này dẫn đến kích cỡ của p sẽ lớn gần bằng kích cỡ của bộ dữ liệu ban đầu. Nếu kích cỡ của p quá lớn (gần bằng kích cỡ của bộ dữ liệu ban đầu) chúng ta vẫn phải đƣơng đầu với vấn đề quá tải dữ liệu cộng với một vài vấn đề về tiêu chí đánh giá có thể chƣa đƣợc thỏa mãn. Một cách đơn giản có thể giải quyết đƣợc việc này đó là chọn p theo tỷ lệ % của bộ dữ liệu, ví dụ chọn p=10%, hoặc một
cách khác là chọn p tỷ lệ với số lƣợng thuộc tính của bộ dữ liệu. Một tỷ lệ % phù hợp đƣợc xác định thông qua tiến hành thực nghiệm. Ý tƣởng về việc chọn lựa dữ liệu đƣợc thể hiện trong giải thuật đƣợc đặt tên là LIV đƣợc Lui và Setiono đề xuất và năm 1998[17, 15, 25].
LVI
Input:maxTries –the maximum number of loops U – the inconsistency measure
D0 – p% of D chosen randomly Initialize :D1=D-D0 loop SLVF=LVF(D0,γ,S) if(Callncon(SLVF,D1+D0,inconData)<γ) return(SLVF) else D0=append(inconData,D0) D1=remove(inconData,D1) end of loop Output:SLVF
Trong giải thuật này hàm CalINcon trả lại giá trị của tỷ lệ lỗi và các dữ liệu không phù hợp trong inconData.
CHƢƠNG 2: THUẬT TOÁN RANDOM FOREST VÀ GIẢI THUẬT DI TRUYỀN