Chính xác GA_Kernel k-NN và công bố khác trên Arcene

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 45 - 46)

Hình 3.4 minh họa cho số liệu của Bảng 3.5, Cột ở vị trí đầu tiên thể hiện cho độ

chính xác phân lớp trung bình của thuật toán GA_Kernel k-NN sau 50 lần thực

nghiệm. Với độ chính xác 90.05 % và phương sai 2.03 %, việc áp dụng thuật toán của tôi cho kết quả cao nhất và ổn định nhất.

Đối với bộ dữ liệu Arcene, việc sử dụng một số bộ lọc để chuẩn hóa dữ liệu làm số lượng thuộc tính giảm nhiều từ 10000 còn 451, giúp cải thiện rất nhiều thời gian thực thi thuật toán đề xuất, nhưng vẫn cho kết quả phân lớp cao, phương sai khá nhỏ, số thuộc tính trích chọn ít và tương đối đồng đều giữa các lần thực nghiệm. Vì vậy, việc lựa chọn một số bộ lọc và áp dụng thuật toán do tôi đề xuất đối với bộ dữ liệu này rất hiệu quả.

3.3.3. Kết quả chạy trên bộ dữ liệu DLBCL (Diffuse large B-cell lymphoma) lymphoma)

- Mô tả dữ liệu :

Bộ dữ liệu DLBCL (Diffuse large B-cell lymphoma) chứa mẫu Gen bệnh ung thư ác tính u lym phô rất phổ biến ở người lớn, mẫu Gen trong bộ dữ liệu có thể xuất hiện khoảng dưới 50% bệnh nhân. Bộ dữ liệu bao gồm 5649 thuộc tính và 77 mẫu được phân thành hai lớp bị bệnh và không bị bệnh, kiểu dữ liệu các thuộc tính là kiểu số thực.

Việc chuẩn hóa dữ liệu thông qua các bộ lọc nearZeroVar, findCorrelation, filterVarImp và predict cũng được thực hiện. Bộ dữ liệu DLBCL từ 5649 thuộc tính giảm xuống còn 2773 thuộc tính. Các bộ lọc đã loại bỏ thuộc tính nhiễu trong khi số mẫu và thuộc tính phân lớp không đổi.

Đối với thuật toán GA_Kernel k-NN được xác định tham số đầu vào như sau :

 GA : số lần khởi tạo quần thể là 3, số lần các chuỗi Gen được tạo mới là 150

Kernel k-NN : tham số k=7, sigma = 0.066, isweightvalue = true

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 45 - 46)