.5Hiệu năng của các bộ phân lớp khác nhau trênbộ dữ liệu tín dụng của Úc

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 81 - 88)

Bộ phân lớp Phƣơng pháp Lọc Phƣơng pháp Đĩng gĩi Phƣơng

pháp cơ sở

t-test LDA LR GA PSO

SVM 85,52 85,52 85,52 85,52 85,52 85,52 CART 85,25 85,46 85,11 84,85 84,82 85,20 k-NN 86,06 85,31 84,81 84,69 84,64 84,58 Nạve Bayes 68,52 67,09 66,74 86,09 85,86 68,55 MLP 85,60 86,00 85,89 85,57 85,49 84,15 Random forest 86,81 FRFE 89,16

Bằng việc sử dụng kỹ thuật song song của kiến trúc H2O, thời gian chạy huấn luyện với kiểm chứng chéo 5-lần chỉ mất 09 phút với bộ dữ liệu tín dụng Úc.

So sánh hai phương pháp tìm kiếm:

Nhƣ đã trình bày và phân tích ở chƣơng một, chiến lƣợc lựa chọn đặc trƣng FRFE theo hƣớng lùi cho kết quả cao hơn so với chiến lƣợc tìm kiếm tiến. Tuy nhiên, thời gian thực hiện thì lại lâu hơn do phải quay lui thực hiện tính tốn nhiều lần.

2.5 Kết luận chƣơng

Trong chƣơng này, chúng tơi đề xuất hai phƣơng pháp lựa chọn đặc trƣng để cải tiến hiệu năng của bài tốn cho điểm tín dụng dựa trên hƣớng tìm kiếm tiến và tìm kiếm lùi đã đƣợc trình bày trong chƣơng 1. Hƣớng thứ nhất là lựa chọn đặc trƣng theo hƣớng tìm kiếm tiến, trong đĩ việc thêm đặc trƣng tốt nhất đƣợc thực hiện bằng cách sử dụng các luật lựa chọn đặc trƣng cĩ tiêu chí xếp hạng cao nhất. Phƣơng pháp thứ hai là lựa chọn đặc trƣng theo tìm kiếm lùi cĩ tên là FRFE dựa trên việc loại bỏ đặc trƣng đệ quy dựa trên cơng thức tính hạng do chúng tơi đề xuất kết hợp với rừng ngẫu nhiên. Kết quả thực nghiệm của phƣơng pháp đề xuất trên

các bộ dữ liệu tín dụng đã cho kết quả tốt hơn so với một số phƣơng pháp truyền thống.

Chƣơng 3. KỸ THUẬT TRÍCH XUẤT ĐẶC TRƢNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƢ

Trong chƣơng này chúng tơi áp dụng hƣớng tiếp cận trích xuất đặc trƣng với mục tiêu tìm ra một phép biến đổi phù hợp để cĩ thể tăng hiệu quả của việc phân tích dữ liệu. Chúng tơi đề xuất phƣơng pháp trích xuất đặc trƣng dựa trên việc kết hợp các hàm nhân cơ bản cho KPCA đƣợc sử dụng nhằm cải thiện hiệu năng phân lớp. Phƣơng pháp đƣợc chúng tơi đề xuất đƣợc thực nghiệm trên các bộ dữ liệu ung thƣ nhƣ ung thƣ ruột kết, bệnh bạch cầu, bệnh ung thƣ máu và tuyến tiền liệt. Phƣơng pháp C-KPCA cho một độ chính xác phân loại tốt hơn so với KPCA và trong một số trƣờng hợp kết quả cao hơn so với một số thuật tốn lựa chọn đặc trƣng khác. Kết quả nghiên cứu đã đƣợc cơng bố tại kỷ yếu của hội thảo quốc tế lần thứ 12 về học máy và khai phá dữ liệu MLDM-2016 (Cơng trình SANGHV4).

3.1 Bài tốn phân tích dữ liệu ung thƣ

Hiện nay tỷ lệ tử vong do chẩn đốn muộn bệnh ung thƣ là tƣơng đối cao; chiếm tới 2/3 số lƣợng bệnh nhân đƣợc phát hiện ung thƣ. Các bác sĩ chỉ tập trung vào một số các triệu chứng chính trong khi chẩn đốn mà bỏ qua các yếu tố nguy cơ tiềm ẩn. Ứng dụng khai phá dữ liệu trong chẩn đốn bệnh ung thƣ là một hƣớng tiếp cận mới nhằm tăng tỷ lệ phát hiện ung thƣ sớm nhờ việc phân tích các dữ liệu lâm sàng với mục tiêu giảm tỷ lệ tử vong ở các bệnh nhân mắc các căn bệnh ung thƣ . Các nhà nghiên cứu cho biết việc nhận biết sớm các biểu hiện ung thƣ cĩ thể giúp cứu sống trên 5000 ngƣời mỗi năm. Quy trình phân tích dữ liệu ung thƣ đƣợc thể hiện ở Hình 3.1.

Hình 3.1 Phân tích dữ liệu ung thƣ

Lý do trích xuất đặc trƣng cho bài tốn phân tích dữ liệu ung thƣ

Trong lĩnh vực khai phá dữ liệu, xử lý dữ liệu cĩ số chiều cao là một nhiệm vụ hết sức quan trọng. Hầu hết các thuật tốn phân lớp hiện tại chỉ cĩ thể xử lý một số lƣợng dữ liệu hữu hạn và dữ liệu này cĩ số chiều thấp. Cơng nghệ microarray đã tạo ra hàng terabyte dữ liệu sinh học trong đĩ dữ liệu microarray thƣờng chứa một lƣợng nhỏ các mẫu với một số lƣợng lớn (hàng ngàn tới hàng chục ngàn) biểu hiện gen dƣới dạng các đặc trƣng. Sự gia tăng của các đặc trƣng dẫn tới vấn đề bùng nổ tổ hợp (curse of dimensionality). Thêm vào đĩ, các dữ liệu biểu hiện gen chứa các đặc trƣng khơng liên quan, dƣ thừa và nhiễu địi hỏi độ phức tạp tính tốn cao làm cho việc phát hiện các gen cĩ liên quan hết sức khĩ khăn. Dữ liệu dƣ thừa và nhiễu cĩ thể làm giảm độ chính xác phân lớp và dẫn đến những quyết định sai lầm. Để giải quyết những vấn đề này, lựa chọn đặc trƣng và trích xuất đặc trƣng là hai kỹ thuật phổ biến đƣợc sử dụng trong việc rút gọn đặc trƣng. Nhiều nhà nghiên cứu đã áp dụng thành cơng phƣơng pháp lựa chọn đặc trƣng cho bài tốn phân tích dữ liệu ung thƣ. Tuy nhiên, đặc điểm của bộ dữ liệu ung thƣ là cĩ số mẫu nhỏ và số đặc trƣng lớn. Các bộ dữ liệu này cĩ thể coi là dữ liệu chiều cao và thƣa, phân bổ dữ

liệu hết sức phức tạp. Mức độ quan trọng của các thuộc tính trong bộ dữ liệu ung thƣ là khĩ xác định do đĩ khơng thể chắc chắn là nên loại bỏ thuộc tính nào. Bộ dữ liệu ung thƣ đƣợc phân bố rời rạc và cĩ thể nĩ là thƣa. Nhận thấy việc loại bỏ các thuộc tính cĩ thể gây mất mát thơng tin cĩ ích nên luận án đã tập trung tìm hiểu việc dựa vào kỹ thuật trích xuất đặc trƣng nhằm tìm ra một phép biến đổi phù hợp để cĩ thể chuyển đổi dữ liệu ban đầu sang một khơng gian mới. Trong khơng gian mới này việc phân tích dữ liệu hiệu quả hơn.

3.2 Các nghiên cứu liên quan

Các phƣơng pháp học máy đƣợc áp dụng cho dữ liệu microarray sớm nhất là các phƣơng pháp phân cụm và trong số đĩ phổ biến nhất là phƣơng pháp phân cụm theo thứ bậc. Các phƣơng pháp phân cụm đƣợc sử dụng phổ biến do chúng hết sức linh hoạt. Tuy nhiên, dữ liệu ngày càng gia tăng với số lƣợng lớn làm cho các phƣơng pháp này trở nên kém hiệu quả. Nhiều phƣơng pháp đã đƣợc phát triển nhằm trích xuất các thơng tin quan trọng từ dữ liệu ung thƣ. Cĩ thể chia các phƣơng pháp trích xuất này thành hai nhĩm là nhĩm các phƣơng pháp tuyến tính và nhĩm các phƣơng pháp phi tuyến.

- Các phương pháp tuyến tính

Nhƣ đã trình bày ở trên thuật tốn rút gọn đặc trƣng phổ biến nhất chính là PCA. Sử dụng ma trận hiệp phƣơng sai và giá trị riêng, vector riêng, PCA tìm ra các thành phần chính trong dữ liệu ung thƣ. PCA và các biến thể của nĩ đƣợc áp dụng nhƣ là các cách để giảm chiều dữ liệu ung thƣ [45][17][19]. Các tác giả trong nghiên cứu [10] cho rằng khi tính tốn các thành phần chính của một tập dữ liệu thì khơng cĩ cơ sở nào đảm bảo rằng các thành phần này cĩ liên quan tới lớp. Do đĩ, phƣơng pháp phân tích thành phần chính cĩ giám sát (SPCA) đã đƣợc đề xuất để lựa chọn các thành phần chính cĩ liên quan tới lớp. Mặc dù, phƣơng pháp này hoạt động tốt hơn phƣơng pháp PCA truyền thống nhƣng nĩ vẫn tồn tại một điểm yếu là khơng thể tìm đƣợc các mối quan hệ phi tuyến trong dữ liệu, đặc biệt là trong các hệ thống sinh học phức tạp.

Một phƣơng pháp tƣơng tự là phƣơng pháp phân tích toạ độ chính (Principal Coordinates Analysis)[14] để tính tốn ma trận khơng tƣơng quan với bất cứ ma trận đầu vào nào. Phƣơng pháp này đƣợc sử dụng với các bộ dữ liệu gen lớn bởi tính hiệu quả của nĩ.

- Các phương pháp phi tuyến:

Các phƣơng pháp giảm chiều phi tuyến làm việc theo một cách khác so với các phƣơng pháp tuyến tính. Cụ thể dữ liệu cĩ chiều thấp cĩ thể đƣợc ánh xạ sang một khơng gian cĩ chiều cao trong đĩ mối quan hệ phi tuyến của các đặc trƣng cĩ thể đƣợc tìm thấy. Trong lý thuyết một hàm f cĩ thể đƣợc sử dụng để ánh xạ các đặc trƣng sang một khơng gian cĩ chiều cao hơn. Trong khơng gian này, mối quan hệ giữa các đặc trƣng cĩ thể xem nhƣ là tuyến tính và cĩ thể dễ dàng phát hiện ra. Sau đĩ đƣợc ánh xạ ngƣợc trở lại khơng gian cĩ chiều thấp hơn và mối quan hệ đƣợc xem nhƣ là phi tuyến. Trong thực tế, các hàm nhân đƣợc sử dụng để làm việc này một cách hiệu quả. Cách tiếp cận khác là sử dụng đa tạp (manifold). Cách tiếp cận này dựa trên giả định rằng dữ liệu nằm trên một khơng gian phi tuyến cĩ chiều thấp hơn khơng gian dữ liệu ban đầu. Một số thuật tốn làm việc trong khơng gian đa tạp và ứng dụng cho dữ liệu ung thƣ. Isomap [87] là phƣơng pháp đƣợc sử dụng phổ biến để tìm ra một khơng gian đa tạp phù hợp. Isomap đƣợc áp dụng với dữ liệu ung thƣ với những kết quả tốt [22], tuy nhiên Orsenigo và Vercellis [71] chỉ ra điểm yếu của Isomap là do ảnh hƣởng dữ liệu nhiễu và ngoại lai. So với PCA, Isomap cĩ khả năng trích xuất nhiều thơng tin cĩ cấu trúc hơn. Các thuật tốn khác hay đƣợc sử dụng trong dữ liệu ung thƣ gồm Locally Linear Embedding (LLE) [60] và Laplacian Eigenmaps [62][25]. PCA và các phƣơng pháp học đa tạp thƣờng đƣợc sử dụng cho việc trực quan hĩa dữ liệu ung thƣ. Các cụm cĩ thể đƣợc tách biệt một cách dễ dàng với phƣơng pháp LLE đa tạp và Isomap, tuy nhiên PCA thực hiện nhanh hơn hai phƣơng pháp trên.

Phƣơng pháp phi tuyến khác là Phân tích thành phần chính dựa trên hàm nhân (KPCA). Phƣơng pháp này cĩ nhiều ƣu điểm bởi trong bài tốn phân tích dữ liệu ung thƣ, số lƣợng lớn thuộc tính làm cho quá trình học chậm và việc phân tích

trở nên khĩ khăn. Trong chƣơng này chúng tơi sẽ áp dụng kỹ thuật trích xuất đặc trƣng để giảm chiều dữ liệu ung thƣ.

3.3 Phƣơng pháp giải quyết

3.3.1 Sơ đồ hệ thống trích xuất đặc trưng

Nội dung của phƣơng pháp đề xuất là sử dụng phân tích giá trị riêng (SVD) và phân tích thành phần chính dựa trên hàm nhân (KPCA) với bộ dữ liệu ung thƣ để chẩn đốn khả năng bị bệnh. Quy trình cơ bản của hệ thống bao gồm các bƣớc: tiền xử lý dữ liệu, giảm chiều và phân lớp dữ liệu (Hình 3.2).

Hình 3.2Quy trình trích xuất đặc trƣngcho bài tốn phân tích dữ liệu ung thƣ Dữ liệu ung thƣ: bộ dữ liệu ung thƣ đƣợc thu thập từ các số liệu lâm sàng Dữ liệu ung thƣ: bộ dữ liệu ung thƣ đƣợc thu thập từ các số liệu lâm sàng của các bệnh nhân khác nhau. Dữ liệu thơ chƣa đƣợc định dạng đƣợc thu thập và lƣu dƣới dạng tệp tin văn bản gồm hai tệp: tệp dữ liệu của gen và tệp tên của gen. Ví dụ về mã gen và mơ tả của các gen trong bộ dữ liệu ung thƣ ruột kết (Colon tumor) Dữ liệu ung thƣ Tiền xử lý dữ liệu KPCA hàm nhân tùy chọn (C-KPCA) Phân lớp Độ chính xác dự báo Tập đặc trƣng mới

Dữ liệu sau khi đƣợc định dạng đƣợc lƣu trữ trong ba tệp: -Tệp dữ liệu biểu hiện gen: expression_profiles.csv -Tệp dữ liệu chứa tên các gen: genes.txt

-Tệp dữ liệu chữa nhãn của các gen bệnh: classification.txt Kết hợp các tệp dữ liệu cĩ đƣợc bảng dữ liệu dƣới dạng:

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 81 - 88)

Tải bản đầy đủ (PDF)

(120 trang)