Lý do trích xuất đặc trƣng cho bài tốn phân tích dữ liệu ung thƣ
Trong lĩnh vực khai phá dữ liệu, xử lý dữ liệu cĩ số chiều cao là một nhiệm vụ hết sức quan trọng. Hầu hết các thuật tốn phân lớp hiện tại chỉ cĩ thể xử lý một số lƣợng dữ liệu hữu hạn và dữ liệu này cĩ số chiều thấp. Cơng nghệ microarray đã tạo ra hàng terabyte dữ liệu sinh học trong đĩ dữ liệu microarray thƣờng chứa một lƣợng nhỏ các mẫu với một số lƣợng lớn (hàng ngàn tới hàng chục ngàn) biểu hiện gen dƣới dạng các đặc trƣng. Sự gia tăng của các đặc trƣng dẫn tới vấn đề bùng nổ tổ hợp (curse of dimensionality). Thêm vào đĩ, các dữ liệu biểu hiện gen chứa các đặc trƣng khơng liên quan, dƣ thừa và nhiễu địi hỏi độ phức tạp tính tốn cao làm cho việc phát hiện các gen cĩ liên quan hết sức khĩ khăn. Dữ liệu dƣ thừa và nhiễu cĩ thể làm giảm độ chính xác phân lớp và dẫn đến những quyết định sai lầm. Để giải quyết những vấn đề này, lựa chọn đặc trƣng và trích xuất đặc trƣng là hai kỹ thuật phổ biến đƣợc sử dụng trong việc rút gọn đặc trƣng. Nhiều nhà nghiên cứu đã áp dụng thành cơng phƣơng pháp lựa chọn đặc trƣng cho bài tốn phân tích dữ liệu ung thƣ. Tuy nhiên, đặc điểm của bộ dữ liệu ung thƣ là cĩ số mẫu nhỏ và số đặc trƣng lớn. Các bộ dữ liệu này cĩ thể coi là dữ liệu chiều cao và thƣa, phân bổ dữ
liệu hết sức phức tạp. Mức độ quan trọng của các thuộc tính trong bộ dữ liệu ung thƣ là khĩ xác định do đĩ khơng thể chắc chắn là nên loại bỏ thuộc tính nào. Bộ dữ liệu ung thƣ đƣợc phân bố rời rạc và cĩ thể nĩ là thƣa. Nhận thấy việc loại bỏ các thuộc tính cĩ thể gây mất mát thơng tin cĩ ích nên luận án đã tập trung tìm hiểu việc dựa vào kỹ thuật trích xuất đặc trƣng nhằm tìm ra một phép biến đổi phù hợp để cĩ thể chuyển đổi dữ liệu ban đầu sang một khơng gian mới. Trong khơng gian mới này việc phân tích dữ liệu hiệu quả hơn.
3.2 Các nghiên cứu liên quan
Các phƣơng pháp học máy đƣợc áp dụng cho dữ liệu microarray sớm nhất là các phƣơng pháp phân cụm và trong số đĩ phổ biến nhất là phƣơng pháp phân cụm theo thứ bậc. Các phƣơng pháp phân cụm đƣợc sử dụng phổ biến do chúng hết sức linh hoạt. Tuy nhiên, dữ liệu ngày càng gia tăng với số lƣợng lớn làm cho các phƣơng pháp này trở nên kém hiệu quả. Nhiều phƣơng pháp đã đƣợc phát triển nhằm trích xuất các thơng tin quan trọng từ dữ liệu ung thƣ. Cĩ thể chia các phƣơng pháp trích xuất này thành hai nhĩm là nhĩm các phƣơng pháp tuyến tính và nhĩm các phƣơng pháp phi tuyến.
- Các phương pháp tuyến tính
Nhƣ đã trình bày ở trên thuật tốn rút gọn đặc trƣng phổ biến nhất chính là PCA. Sử dụng ma trận hiệp phƣơng sai và giá trị riêng, vector riêng, PCA tìm ra các thành phần chính trong dữ liệu ung thƣ. PCA và các biến thể của nĩ đƣợc áp dụng nhƣ là các cách để giảm chiều dữ liệu ung thƣ [45][17][19]. Các tác giả trong nghiên cứu [10] cho rằng khi tính tốn các thành phần chính của một tập dữ liệu thì khơng cĩ cơ sở nào đảm bảo rằng các thành phần này cĩ liên quan tới lớp. Do đĩ, phƣơng pháp phân tích thành phần chính cĩ giám sát (SPCA) đã đƣợc đề xuất để lựa chọn các thành phần chính cĩ liên quan tới lớp. Mặc dù, phƣơng pháp này hoạt động tốt hơn phƣơng pháp PCA truyền thống nhƣng nĩ vẫn tồn tại một điểm yếu là khơng thể tìm đƣợc các mối quan hệ phi tuyến trong dữ liệu, đặc biệt là trong các hệ thống sinh học phức tạp.
Một phƣơng pháp tƣơng tự là phƣơng pháp phân tích toạ độ chính (Principal Coordinates Analysis)[14] để tính tốn ma trận khơng tƣơng quan với bất cứ ma trận đầu vào nào. Phƣơng pháp này đƣợc sử dụng với các bộ dữ liệu gen lớn bởi tính hiệu quả của nĩ.
- Các phương pháp phi tuyến:
Các phƣơng pháp giảm chiều phi tuyến làm việc theo một cách khác so với các phƣơng pháp tuyến tính. Cụ thể dữ liệu cĩ chiều thấp cĩ thể đƣợc ánh xạ sang một khơng gian cĩ chiều cao trong đĩ mối quan hệ phi tuyến của các đặc trƣng cĩ thể đƣợc tìm thấy. Trong lý thuyết một hàm f cĩ thể đƣợc sử dụng để ánh xạ các đặc trƣng sang một khơng gian cĩ chiều cao hơn. Trong khơng gian này, mối quan hệ giữa các đặc trƣng cĩ thể xem nhƣ là tuyến tính và cĩ thể dễ dàng phát hiện ra. Sau đĩ đƣợc ánh xạ ngƣợc trở lại khơng gian cĩ chiều thấp hơn và mối quan hệ đƣợc xem nhƣ là phi tuyến. Trong thực tế, các hàm nhân đƣợc sử dụng để làm việc này một cách hiệu quả. Cách tiếp cận khác là sử dụng đa tạp (manifold). Cách tiếp cận này dựa trên giả định rằng dữ liệu nằm trên một khơng gian phi tuyến cĩ chiều thấp hơn khơng gian dữ liệu ban đầu. Một số thuật tốn làm việc trong khơng gian đa tạp và ứng dụng cho dữ liệu ung thƣ. Isomap [87] là phƣơng pháp đƣợc sử dụng phổ biến để tìm ra một khơng gian đa tạp phù hợp. Isomap đƣợc áp dụng với dữ liệu ung thƣ với những kết quả tốt [22], tuy nhiên Orsenigo và Vercellis [71] chỉ ra điểm yếu của Isomap là do ảnh hƣởng dữ liệu nhiễu và ngoại lai. So với PCA, Isomap cĩ khả năng trích xuất nhiều thơng tin cĩ cấu trúc hơn. Các thuật tốn khác hay đƣợc sử dụng trong dữ liệu ung thƣ gồm Locally Linear Embedding (LLE) [60] và Laplacian Eigenmaps [62][25]. PCA và các phƣơng pháp học đa tạp thƣờng đƣợc sử dụng cho việc trực quan hĩa dữ liệu ung thƣ. Các cụm cĩ thể đƣợc tách biệt một cách dễ dàng với phƣơng pháp LLE đa tạp và Isomap, tuy nhiên PCA thực hiện nhanh hơn hai phƣơng pháp trên.
Phƣơng pháp phi tuyến khác là Phân tích thành phần chính dựa trên hàm nhân (KPCA). Phƣơng pháp này cĩ nhiều ƣu điểm bởi trong bài tốn phân tích dữ liệu ung thƣ, số lƣợng lớn thuộc tính làm cho quá trình học chậm và việc phân tích
trở nên khĩ khăn. Trong chƣơng này chúng tơi sẽ áp dụng kỹ thuật trích xuất đặc trƣng để giảm chiều dữ liệu ung thƣ.
3.3 Phƣơng pháp giải quyết
3.3.1 Sơ đồ hệ thống trích xuất đặc trưng
Nội dung của phƣơng pháp đề xuất là sử dụng phân tích giá trị riêng (SVD) và phân tích thành phần chính dựa trên hàm nhân (KPCA) với bộ dữ liệu ung thƣ để chẩn đốn khả năng bị bệnh. Quy trình cơ bản của hệ thống bao gồm các bƣớc: tiền xử lý dữ liệu, giảm chiều và phân lớp dữ liệu (Hình 3.2).