Tổng quan các bộ dữ liệu sử dụng

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 41 - 42)

Đầu tiên tôi thực hiện việc thu gọn dữ liệu thông qua các bộ lọc (trình bày chi tiết tại mục 3.2.1). Tổng số thuộc tính được rút gọn như sau :

- Bộ dữ liệu Arcene từ 10000 thuộc tính ban đầu giảm còn 451 thuộc tính - Bô dữ liệu DLBCL từ 5469 thuộc tính ban đầu giảm còn 2773 thuộc tính

Các bộ dữ liệu này là dữ liệu đầu của thuật toán GA_Kernel k-NN và thuật

toán GA_RF. Thuật toán Rừng ngẫu nhiên (RF) là một thuật toán điển hình, cho kết quả phân tích dữ liệu rất cao. Kết hợp giải thuật Di truyền và RF giúp nâng cao kết quả phân tích dữ liệu. Việc lấy kết quả của thuật toán GA_RF ra để đối chiếu, chứng tỏ tính hiệu quả cao từ thuật toán do tôi để xuất. Tôi sử dụng tổng số thuộc tính trích chọn được và độ chính xác phân lớp là tiêu trí để so sánh. Hai thuật toán được chạy 50 lần để kiểm tra độ ổn định.

3.3.2. Kết quả chạy trên bộ dữ liệu Arcene

- Bộ dữ liệu Arcene :

Bộ dữ liệu Arcene gồm 10000 thuộc tính và 100 mẫu Gen liên quan bệnh ung thư, bao gồm mẫu Gen bị bệnh và mẫu Gen bình thường. Giá trị các thuộc tính thu được từ việc đo độ tập trung phổ. Kiểu dữ liệu của các thuộc tính là kiểu số thực. Bộ dữ liệu Arcene luận văn sử dụng, là một trong năm bộ dữ liệu của tổ chức NIPS (Neural Information Processing Systems) cung cấp. Phân tích dữ liệu Arcene, cụ thể như việc phân lớp các mẫu Gen là một trong những thách thức được NIPS đưa ra trong năm 2003. Bộ dữ liệu Arcene là đối tượng nghiên cứu điển hình của nhiều nhà phân tích dữ liệu.

- Độ chính xác phân lớp GA_Kernel k-NN và GA_RF

Đầu tiên tôi thực hiện việc chuẩn hóa dữ liệu thông qua các bộ lọc nearZeroVar, findCorrelation, filterVarImp và predict. Bộ dữ liệu Arcene từ 10000 thuộc tính giảm xuống còn 451 thuộc tính. Các bộ lọc đã loại bỏ rất nhiều thuộc tính dư thừa trong khi số mẫu và thuộc tính phân lớp không đổi.

Đối với thuật toán GA_Kernel k-NN được xác định tham số đầu vào như sau :

 GA : số lần khởi tạo quần thể là 3, số lần các chuỗi Gen được tạo mới là 150

Kernel k-NN : tham số k=7, sigma = 0.066, isweightvalue = true

Hình 3.2: Độ chính xác GA_RF và GA_Kernel k-NN trên dữ liệu Arcene

Trong Hình 3.2, đường nét đậm thể hiện kết quả thuật toán GA_Kernel k-NN

của tôi. Đường nét đứt thể hiện kết quả thuật toán GA_RF sau khi chạy 50 lần

Thuật toán

Độ chính xác phân lớp (Accuracy) Thấp nhất Trung bình Cao nhất

GA_Kernel k-NN 85.98 % 90.50 % 96.02 %

GA_RF 83.04 % 88.12 % 92.01 %

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 41 - 42)