.3Tổng hợp các bộ dữ liệu ung thƣ đƣợc sử dụng trong thực nghiệm

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 99 - 100)

Tên bộ dữ liệu Số thuộc tính Số

mẫu Số lớp Bài tốn cần giải quyết

Colon 2000 62 2 Phát hiện ung thƣ ruột kết

Leukemia 7129 72 2 Phát hiện bệnh bạch cầu cấp tính Lymphoma 2647 77 2 Phát hiện máu trắng

Prostate 2135 102 2 Phát hiện khối u tiền liệt tuyến

Bộ dữ liệu ung thƣ ruột kết (Colon Tumor) đƣợc tạo thành từ 2000 đặc trƣng trong đĩ cĩ 40 mẫu bị bệnh và 22 mẫu bình thƣờng. Bộ dữ liệu này cĩ sẵn trên trang web:http://www.molbio.princeton.edu/colondata.Chúng tơi thực hiện việc tiền xử lý dữ liệu ung thƣ và tạo ra một bộ dữ liệu đƣợc chuẩn hĩa.

Bộ dữ liệu bạch cầu (Leukemia) đƣợc tạo thành bởi 7129 đặc trƣng, trong đĩ các mẫu thuộc hai lớp bạch cầu: 47 trƣờng hợp thuộc loại (ALL), 25 trƣờng hợp thuộc loại (AML). Dữ liệu cĩ thể đƣợc tải về từ trang web http://www.genome.wi.mit.edu. Dữ liệu đƣợc tiền xử lý trƣớc khi phân tích.

Bộ dữ liệumáu trắng (Lymphoma) cĩ đƣợc từ việc nghiên cứu biểu hiện gen của ba khối máu trắng: B-cell (B-CLL), nang lymphoma (FL) và u khuếch tán lớn B-cell lymphoma (DLCL). Trong số 96 mẫu, chúng tơi chọn ra 77 mẫu chứa 2647đặc trƣng thuộc hai lớp: 19 mẫu FL và 58 mẫu thuộc loại DLCL. Bộ dữ liệu này cĩ thể lấy về tại http://genome-www.stanford.edu/lymphoma. Sau khi tiền xử lý dữ liệu, bộ dữ liệu đƣợc biến đổi và chuẩn hĩa cho quá trình phân tích.

Bộ dữ liệu ung thƣ tuyến tiền liệt(Prostate)cĩ 2135 đặc trƣng với 102 mẫu. Trong số đĩ cĩ 52 mẫu bệnh chiếm tỉ lệ 51%. Các trƣờng hợp bình thƣờng là 49%

với 50 mẫu. Dữ liệu cĩ thể đƣợc tải về từ trang http://www- genome.wi.mit.edu/mpr/prostate.

3.4.3 Kết quả thực nghiệm

Trong quá trình thực nghiệm chúng tơi kết hợp và lựa chọn hàm nhân tốt nhất cho KPCA sau đĩ tiến hành phân lớp dữ liệu đƣợc trích xuất, việc so sánh hiệu năng phân lớp đƣợc chia làm ba mục:

(1)Sử dụng tất cả các đặc trƣng

(2)Sử dụng các đặc trƣng đƣợc trích xuất bởi KPCA (hàm nhân RBF)

(3) Sử dụng các đặc trƣng đƣợc trích xuất bởi C-KPCA (hàm nhân kết hợp). Kết quả thực nghiệm trên từng bộ dữ liệu ung thƣ nhƣ sau:

3.4.3.1Bộ dữ liệu ung thư ruột kết

Trong quá trình thực nghiệm để trích xuất ra các đặc trƣng bằng KPCA, chúng tơi lựa chọn và kết hợp ba hàm nhân nhƣ mơ tả trong Bảng 3.2. Kết quả độ chính xác phân lớp trong quá trình huấn luyện và đánh giá để chọn ra hàm nhân tốt nhất đƣợc thể hiện trong Bảng 3.4.

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 99 - 100)