.4 Chiến lƣợc lựa chọn đặc trƣng FRFE

Các nút trong cây đƣợc gán nhãn Ni,j trong đĩ i là mức của cây, cịn j là chỉ số của đặc trƣng bị loại bỏ trong từng mức.

Bƣớc đầu tiên: tính tốn và lƣu lại hạng của từng đặc trƣng trong nút N0,0, xác định đây là hạng tốt nhất của tập tất các đặc trƣng Rbest=R0,0

Bƣớc tiếp theo: loại bỏ từng đặc trƣng trong tập đặc trƣng ban đầu và tính hạng của các tập con đặc trƣng cĩ thể {N1,1,N1,2,N1,3}. Tập các giá trị xếp hạng của ba nút này là {R1,1,R1,2,R1,3}.Giả sử R1,1<Rbest<R1,3<R1,2 Khi đĩ chúng tơi chọn nút N1,2 là nút cĩ tập con đặc trƣng cĩ giá trị hạng cao nhất và gán Rbest=R1,2. Các khả năng cĩ thể từ nút N1,2 là tập {N2,3,N2,1}. Tiếp tục tính hạng cho các tập con này và giả sử cĩ kết quả R2,1<(Rbest=R1,2)<R2,3. Dựa theo các giá trị xếp hạng này chúng tơi chuyển tới nút N2,3 với Rbest=R2,3. Lúc này tập đặc trƣng chỉ cịn một đặc trƣng và khơng cĩ giá trị xếp hạng mới nào cao hơn Rbest. Lúc này hàm sẽ quay lại nút trƣớc đĩ và chọn nút tốt nhất thứ hai là nút N1,3. Lúc này cĩ hai tập con đặc trƣng ứng viên là N2,1 và N2,2. Tiếp tục lặp lại quá trình tính tốn giá trị xếp hạng và so sánh chúng với giá trị tốt nhất hiện tại.

1 1 1 1 0 1 0 1 0 0 0 0 0 1 1 1 1 0 1 0 0 0 0 1 Tập đặc trƣng đầy đủ Tập đặc trƣng rỗng N0,0 N1,1 N1,2 N1,3 N2,1 N2,2 N2,3 N3,0

Cĩ thể nhận thấy giá trị xếp hạng thu đƣợc tốt hơn giá trị xếp hạng tốt nhất hiện tại thì hàm tiếp tục thực hiện loại bỏ và tập con đặc trƣng sẽ thu nhỏ lại. Nếu khơng cĩ giá trị xếp hạng nào tốt hơn thì sẽ quay lại nút trƣớc đĩ nhƣ trình bày ở trên.Quá trình sẽ dừng lại khi chỉ cịn lại 1 đặc trƣng hoặc khơng cịn đƣờng nào để đi.

Thủ tục FRFE loại bỏ đệ qui sử dụng chiến lƣợc tìm kiếm theo kinh nghiệm nhƣ đã đƣợc trình bày trong chƣơng mộtnhằm giảm bớt khơng gian tìm kiếm. Trong trƣờng hợp xấu nhất sẽ là tìm kiếm vét cạn và độ phức tạp tính tốn là 𝛰 2𝑁 . Cịn trong trƣờng hợp tốt thì nĩ tìm ra tập con đặc trƣng nằm trên một đƣờng thẳng.

2.3.3 Cải tiến tốc độ xử lý bằng thư viện H20

2.3.3.1Kiến trúc H20

Kiến trúc H2O sử dụng cho thống kê, học máy và tốn học trên dữ liệu lớn. H2O sử dụng giao diện quen thuộc nhƣ Excel, JSON, R, Python và Scala, cho phép

ngƣời dùng cĩ thể khám phá, mơ hình hĩa bộ dữ liệu sử dụng các thuật tốn phân lớp cĩ khả năng xử lý song song và phân tán. Nĩ cũng cho phép bổ sung thuật tốn

.4 Chiến lƣợc lựa chọn đặc trƣng FRFE

.1 Phân tích dữ liệu ung thƣ