Bài báo trình bày các kết quả thực nghiệm của chúng tôi tiến hành theo các đề xuất của Jun Liu. Kết quả cho thấy rằng phương pháp này có khả năng phân lớp dự đoán bệnh ung thư (dựa trên mẫu dữ liệu CGH của bệnh nhân) chính xác hơn so với các phương pháp thường được sử dụng trước đó.
JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol 56, pp 48-58 PHÂN LỚP DỮ LIỆU CGH DỰ ĐOÁN BỆNH UNG THƯ Ở NGƯỜI Hồ Cẩm Hà(∗), Nguyễn Thị Hạnh Khoa CNTT - ĐHSP Hà Nội (∗) Email: hahc@hnue.edu.vn Tóm tắt Bằng phép lai gen so sánh CGH (Comparative Genomic Hybridization), người ta phát cân số lượng chép (Copy Number Alterations) ADN gen đột biến gây ung thư Tiến sĩ Jun Liu [2] đề xuất phương pháp sử dụng phân loại vectơ hỗ trợ SVM (Support Vector Machine) với hàm nhân Raw phương pháp lựa chọn đặc trưng phân lớp MIFS (Maximum Influence Feature Selection) để phân tích liệu CGH Bài báo trình bày kết thực nghiệm tiến hành theo đề xuất Jun Liu Kết cho thấy phương pháp có khả phân lớp dự đốn bệnh ung thư (dựa mẫu liệu CGH bệnh nhân) xác so với phương pháp thường sử dụng trước Giới thiệu Ung thư bệnh nguy hiểm đe dọa mạng sống người khơng phải khơng thể chữa trị Nhiệm vụ quan trọng hàng đầu đặt cho nghiên cứu bệnh phát phân loại bệnh nhân ung thư sớm trước có triệu chứng lâm sàng, dựa việc phân tích di truyền học phân tử đột biến gen gây ung thư Một cách tiếp cận đề xuất khai phá nguồn liệu CGH để hỗ trợ cho việc xác định sớm bệnh nhân có mắc ung thư hay không, cụ thể ung thư loại (nếu có) Đây tốn phân lớp liệu (classification) lĩnh vực học máy (Machine Learning) Mục tiêu toán phân lớp liệu CGH để chuẩn đoán phân loại bệnh nhân ung thư từ giai đoạn tiền phát thơng qua phân tích thay đổi cấu trúc phân tử ADN người bệnh Đã có nhiều nghiên cứu phân lớp liu CGH vi cỏc phng phỏp khỏc nh Naăve Bayes, K-láng giềng gần (K-nearest neighbor), định (Decision Tree), Trong phương pháp dùng phân loại vectơ hỗ trợ SVM cho kết tốt [2] SVM đánh giá công cụ mạnh việc phân tích liệu chuỗi nhỏ (microarray) nói chung liệu CGH nói riêng Tuy nhiên, 48 Phân lớp liệu CGH dự đoán bệnh ung thư người đặc thù riêng liệu CGH, phân loại SVM với hàm nhân tuyến tính (linear kernel) chưa khai thác hết mối quan hệ cặp mẫu học trình huấn luyện Chính lẽ đó, hàm nhân phi tuyến Raw đề xuất Jun Liu Đặc điểm liệu CGH có số lượng đặc trưng lớn khoảng gen tương ứng với đặc trưng có số khoảng gen bị đột biến gây ung thư Do cần thiết lựa chọn tập đặc trưng có tác động lớn đến kết phân lớp Việc lựa chọn tập đặc trưng làm tăng tính xác tốc độ phân lớp mà cịn tìm khoảng gen đột biến quan trọng gây ung thư Tiến hành nghiên cứu, so sánh tác động phương pháp lựa chọn đặc trưng khác SVM tới kết phân lớp liệu biểu diễn gen, Chai Domeniconi phương pháp nhóm đóng gói (ví dụ: R-SVM, SVM-RFE) cho hiệu tốt phương pháp nhóm lọc (VD: MRMR) [3] Do đó, dựa sở phương pháp nhóm đóng gói, Jun Liu đề xuất phương pháp lựa chọn đặc trưng phân lớp dựa tác động tối đa MIFS (Maximum Influence Feature Selection) nhúng vào phân loại SVM với hàm nhân Raw Chúng tiến hành chạy thực nghiệm 5918 mẫu liệu CGH 23 loại bệnh ung thư biểu mô (Carcinomas) người, sử dụng phương pháp thẩm định chéo 10-fold (cross validation 10-fold) Kết cho thấy, SVM với hàm nhân Raw phân lớp xác SVM với hàm nhân tuyến tính SVM với hàm nhân Raw sử dụng MIFS cho kết tốt sử dụng phương pháp lựa chọn đặc trưng phổ biến thuộc nhóm đóng gói SVM-RFE tốt nhiều so với trường hợp không sử dụng phương pháp lựa chọn đặc trưng 2.1 Nội dung nghiên cứu Một số khái niệm Phép lai gen so sánh CGH (Comparative Genomic Hybridization): Phương pháp dùng để đo quang sai gen, giới thiệu Kallioniemi năm 1992 CGH có khả phân tích phân tử học di truyền để phát đồng thời hàng nghìn gen cân thuộc loại đột biến CNV (Copy Number Variant) thí nghiệm Người ta tiến hành phép quang sai chip silicon đo mật độ ảnh quang sai lỗ nhỏ (spot) Nếu gen tham khảo bình thường, tức khơng có đột biến gen, việc tăng hay giảm tỉ lệ mật độ huỳnh quang phép lai vị trí ADN tương ứng hai gen định trực tiếp thay đổi số lượng chép ADN gen tế bào kiểm tra Dữ liệu CGH: Là kết phương pháp lai gen so sánh CGH Giá trị liệu phép lai dãy số liên tục tính cách đo tỉ lệ màu quang sai Các giá trị tiền xử lý trước dùng để khai phá Sau tiền xử lý, 49 Hồ Cẩm Hà, Nguyễn Thị Hạnh mẫu liệu CGH gồm dãy giá trị trạng thái 1, -1, Trong đại diện cho khoảng gen tương ứng thừa đoạn AND, -1 tương ứng với thiếu đoạn ADN, tương ứng với không bị đột biến CNV khoảng gen xét Trong sở liệu Progenetix, mẫu liệu CGH gồm 862 khoảng gen 2.2 2.2.1 Các kỹ thuật khai phá Phương pháp phân lớp SVM sử dụng hàm nhân Raw Nhằm cải thiện hiệu phân lớp liệu CGH cách khai thác mối liên hệ tiềm ẩn bên liệu, Jun Liu đề xuất hàm nhân phi tuyến Raw [2] Hàm sử dụng độ đo Raw để tính mức độ tương đồng cặp mẫu học, làm tăng độ xác kết phân lớp Sự tương đồng cặp mẫu học CGH thể mức độ sai khác số lượng chép đoạn ADN khoảng gen tương ứng Chúng biểu diễn giống giá trị thừa (1), thiếu (-1) hay không thay đổi (0) quang sai đặc trưng Cho cặp mẫu a = a1 , a2 , , am b = b1 , b2 , , bm Sự tương đồng hai mẫu a b tính tốn độ đo Raw theo công thức: m S(ai , bi ) Raw(a, b) = i=1 Ở S(ai , bi ) = = bi = có nghĩa hai giá trị đặc trưng thừa đoạn ADN (ai = bi = 1); thiếu đoạn ADN (ai = bi = -1) mức độ tương đồng chúng Các trường hợp cịn lại S(ai , bi ) = Để sử dụng độ đo Raw hàm phi tuyến huấn luyện SVM, Raw phải hàm nhân tồn ánh xạ phi tuyến Φ xác định Raw Sử dụng hàm nhân Raw huấn luyện SVM Sử dụng SVM với hàm nhân Raw có nghĩa giải tốn tối ưu bậc sau: Cực đại hóa J αi : n J= i=1 n αi − αi αj yi yj Raw(xi xj ) i=1,j=1 n αi ≥ 0, αi y i = (2.1) i=1 Theo hàm định kết phân lớp mẫu z phải là: n D(z) = αi yi Raw(xi , z) + b (2.2) i=1 Nếu D(z) ≥ z thuộc lớp mẫu dương; Nếu D(z) < x thuộc lớp mẫu âm Bộ phân loại SVM đề cập có khả phân lớp hai mẫu học, cịn toán phân lớp liệu CGH phân đa lớp, cần phải sử dụng SVM 50 Phân lớp liệu CGH dự đoán bệnh ung thư người đa lớp Các SVM đa lớp xây dựng dựa việc huấn luyện tập SVM nhị phân theo hai chiến lược SVM One - Versus - All (OVA: đối lại tất cả) One - Versus - One (OVO: đối lại một) Các thí nghiệm Ben Aisen cho thấy nhiều tập liệu hai phương pháp có độ xác tốc độ huấn luyện gần tương đương [4] Trong trường hợp phân lớp liệu CGH đây, sử dụng SVM OVA cải tiến giới thiệu Vladimir Vapnik năm 1998 [1] Việc phân lớp cho mẫu liệu SVM OVA thực chiến lược winner - takes - all Nghĩa ta tính tốn hàm phân lớp đầu cho mẫu liệu SVM nhị phân, nhãn lớp mẫu nhãn lớp tương ứng với giá trị hàm đầu lớn SVM OVA cải tiến chiến lược phổ biến cho việc huấn luyện SVM đa lớp 2.2.2 Phương pháp lựa chọn đặc trưng phân lớp Khi số lượng đặc trưng lớn tìm kiếm có chất lượng tập đặc trưng hợp lý cho phân lớp trở nên khó khăn Bởi sử dụng chiến lược tìm kiếm tham lam lựa chọn dần đặc trưng tốt Tiêu chí tương đồng dùng để lựa chọn đặc trưng tiếp theo, đưa vào tập đặc trưng lựa chọn Ý tưởng phương pháp MIFS tính tốn thay đổi giá trị hàm mục tiêu thêm vào hay bớt đặc trưng lựa chọn, từ xác định tập đặc trưng làm tối ưu hàm mục tiêu Đặc trưng thêm vào bước đặc trưng có tác động tối đa tới hàm mục tiêu (khi so với đặc trưng lại chưa lựa chọn) Các đặc trưng có tác động tối đa tới hàm mục tiêu sau [2]: Cho S tập đặc trưng lựa chọn bước thuật toán đưa J(S) giá trị hàm mục tiêu sử dụng tập đặc trưng lựa chọn S Cho k đặc trưng không chứa S Sự thay đổi giá trị hàm mục tiêu SVM sau thêm k vào tập S tính DJ(k) = |J(S ∪ k) − J(S)| Với hàm mục tiêu: n n n J(S) = αi − αi αj yi yj Raw(xi , xj ) αi ≥ 0, αi yi = i=1,j=1 i=1 i=1 Cho đặc trưng k thêm vào S, thực tính tốn giá trị hàm mục tiêu J(S(+k)) (tức J(S ∪ {k})) Để tính tốn dễ dàng, ta coi giá trị hệ số αi không thay đổi thêm k vào Giả thuyết cho phép ta huấn luyện lại SVM, tức khơng cần tính lại αi cho tốn đối ngẫu Lagrange Khi hàm mục tiêu sau thêm k vào là: n J(S ∪ {k}) = i=1 n αi − αi αj yi yj Raw(xi (+k), xj (+k)) i=1,j=1 (2.3) Trong xi (+k) mẫu huấn luyện i với đặc trưng k thêm vào 51 Hồ Cẩm Hà, Nguyễn Thị Hạnh Từ (2.1) (2.3) suy : DJ(k) = n n i=1,j=1 αi αj yi yj Raw(xi , xj ) − αi αj yi yj Raw(xi (+k), xj (+k)) i=1,j=1 (2.4) Sau tính tốn với tất đặc trưng k khơng thuộc S, tiến hành so sánh, tìm đặc trưng k có giá trị DJ(k) lớn k để đưa thêm vào tập S Quá trình lựa chọn đặc trưng trường hợp mơ tả thuật tốn sau [2]: Đầu vào: - Tập mẫu {x1 , x2 , xn } có nhãn lớp tương ứng {y1 , y2 , yn }, y ∈ {−1, 1} - Khởi tạo tập S, số lượng đặc trưng dự đoán trước r - D tập tất đặc trưng Khởi tạo Danh sách đặc trưng xếp RL = S (RL danh sách đặc trưng sau xếp tập S, |S| số lượng đặc trưng S) L = D − S Thực vòng lặp Trong |S| < r a Huấn luyện SVM sử dụng tập mẫu huấn luyện với đặc trưng RL b Tính tốn thay đổi hàm mục tiêu DJ(k) cho tất đặc trưng k ∈ L c Tìm đặc trưng e có DJ(k) lớn d Cập nhật RL = [RL, e] (đồng nghĩa với thêm e vào S) L = L − {e} Kết trả Trả danh sách đặc trưng lựa chọn xếp RL Để tăng tốc độ tính tốn giá trị r lớn, chọn đặc trưng đưa vào tập RL (hay S) bước 2d thuật toán Độ phức tạp thời gian thuật toán: Với n số mẫu liệu, r số lượng đặc trưng lựa chọn, độ phức tạp thời gian thuật toán tối ưu trường hợp thông thường O(n3 r ), trường hợp học có kinh nghiệm O(n1.7 r ) Phương pháp yêu cầu tập đặc trưng S ban đầu không rỗng (do trước thêm vào đặc trưng bước 2d có tính tốn huấn luyện SVM tập RL = S) Vì để thực thuật toán này, cần xác định đặc trưng S Một cách phổ biến để giải vấn đề xếp đặc trưng theo thứ tự sức mạnh dự đoán chúng nhãn lớp, sau lựa chọn S đặc trưng có sức mạnh dự đốn lớn Có nhiều tiêu chí để đánh giá khả dự đốn đặc trưng, sử dụng phương pháp thơng dụng, lấy tiêu chí đánh giá tương tác đặc trưng tới nhãn lớp theo công thức: I(r, s) = p(ri , si ) log i,j 52 p(ri , si ) p(ri )p(si ) (2.5) Phân lớp liệu CGH dự đoán bệnh ung thư người Cho đặc trưng k, tập nhãn lớp y = {y1 , y2 , yn }, I(k, y) giá trị mức độ tương tác, tức mức độ ảnh hưởng k tới việc xác định nhãn lớp y Đặc trưng k có giá trị I(k, y) lớn chọn làm đặc trưng khởi đầu cho tập S thuật toán nêu Phương pháp lựa chọn đặc trưng phân lớp MIFS sử dụng cho trường hợp phân liệu thành hai lớp Bài toán phân lớp liệu CGH phân thành nhiều lớp tương ứng với phân nhóm nhiều loại bệnh ung thư khác Vì cần mở rộng phương pháp MIFS cho trường hợp phân liệu đa lớp Sử dụng phương pháp lựa chọn đặc trưng phân lớp MIFS cho trường hợp nhiều lớp chiến lược huấn luyện SVM OVA sau [2]: Bước 1: Cho C ≥ 3, C dùng số lớp Với ≤ I ≤ C, SVM nhị phân dùng phân tách lớp thứ i lớp khác huấn luyện tập đặc trưng S Bước 2: Với SVM nhị phân, tính tốn DJ(k) cho đặc trưng k S Thực xếp tất đặc trưng dựa giá trị hàm DJ Kết đạt danh sách đặc trưng xếp theo thứ tự tác động tới giá trị hàm mục tiêu SVM nhị phân tập C Mỗi danh sách xếp tương ứng với vectơ phân loại C Khi đặc trưng ứng viên tương ứng với vectơ thể thứ tự xếp phân loại SVM nhị phân khác C Bước 3: Một đặc trưng có thứ tự thấp danh sách có thứ tự cao danh sách Các đặc trưng quan tâm đặc trưng có nhiều thông tin việc phân tách lớp so với đặc trưng khác, chứa thơng tin cho việc phân tách lớp khác Các đặc trưng có thứ tự thấp đặc trưng tốp đầu danh sách thêm vào S Vì với tập S, đặc trưng xếp dựa thứ tự thêm vào danh sách Thuật tốn lựa chọn đặc trưng phân lớp MIFS cho trường hợp phân đa lớp mơ tả thuật tốn sau [2]: Đầu vào: Tập mẫu huấn luyện {x1 , x2 , , xn }, nhãn lớp tương ứng {y1 , y2 , , yn }, ≤ yi ≤ C Khởi tạo tập S, số lượng đặc trưng dự đoán trước r D tập tất đặc trưng Khởi tạo danh sách đặc trưng xếp RL = S L = D − S Thực vòng lặp: While |S| < r a For i = to C - Xây dựng nhãn lớp {y1 , y2, , yn }, yi = yj = i trường hợp khác yj = −1 53 Hồ Cẩm Hà, Nguyễn Thị Hạnh - Huấn luyện SVM sử dụng tập mẫu huấn luyện với đặc trưng RL - Tính tốn thay đổi hàm mục tiêu DJ(k) cho đặc trưng ứng viên k ∈ L - Sắp xếp đặc trưng k theo thứ tự DJ(k) giảm dần để tạo danh sách xếp tập đặc trưng (các đặc trưng có tác động mạnh tức giá trị DJ lớn xếp trước, ngược lại) b Tính tốn vectơ thể thứ tự xếp cho tất đặc trưng L từ danh sách xếp C c Sắp xếp thành phần vectơ theo thứ tự tăng dần d Thực thuật toán xếp Radix cho tất vectơ để tạo danh sách xếp toàn cục đặc trưng e Tìm đặc trưng e đầu danh sách xếp tồn cục nói cập nhật RL = [RL, e] and L = L − {e} Kết trả về: Danh sách đặc trưng xếp RL Cũng tương tự thuật toán lựa chọn đặc trưng cho việc phân hai lớp, để tăng tốc độ tính tốn trường hợp r lớn, bước 2e thuật toán chọn đặc trưng đưa vào RL (hay S) Độ phức tạp thời gian thuật toán: với n số mẫu liệu, r số lượng đặc trưng lựa chọn, C số lượng SVM nhị phân SVM OVA, độ phức tạp thời gian thuật tốn tối ưu trường hợp thơng thường O(n3 r C), trường hợp học có kinh nghiệm O(n1.7r C) 2.3 2.3.1 Thực nghiệm Chuẩn bị liệu thực nghiệm Dữ liệu thực nghiệm lấy từ CSDL Progenetix (http://www.progenetix.net) bao gồm 5918 mẫu CGH 23 loại bệnh ung thư biểu mô (Carcinomas) người Dữ liệu lấy mẫu chuẩn hóa sẵn cơng cụ tiền xử lý Mỗi mẫu gồm 862 đặc trưng, tương ứng với 862 khoảng gen, trích xuất từ 24 nhiễm sắc thể Mỗi đặc trưng mang giá trị trạng thái: 1(thừa), -1 (thiếu), (khơng thay đổi) Ngồi ra, mẫu cịn chứa thơng tin tiểu sử bệnh nhân lấy mẫu nguồn gốc tập mẫu Mỗi tập liệu biểu diễn tệp phẳng có định dạng hình Dữ liệu biểu diễn dạng ma trận Hàng cho biết mã khoảng gen trường thông tin thể mẫu liệu Các hàng tiếp theo, hàng mẫu liệu, hay gọi trường hợp liệu Cột cho biết tên mẫu liệu, cột trường giá trị thông tin mẫu Tập liệu 5918 mẫu chia thành 10 tập sử dụng phương 54 Phân lớp liệu CGH dự đoán bệnh ung thư người pháp thẩm định chéo 10-fold (cross validation 10-fold) Mỗi tập lại chia làm 10 phần có kích thước tương đương Trong chín phần dùng để huấn luyện, phần dùng để kiểm tra độ xác kết huấn luyện Kích thước tập liệu thể bảng Hình Mẫu tệp liệu CGH Tập Train (mẫu) Test (mẫu) Bảng 1: Các tập liệu thực nghiệm 533 59 533 59 533 60 533 59 533 60 532 59 532 59 532 59 532 59 10 533 59 Kết thực nghiệm đánh giá phương pháp xác suất thống kê 10 tập mẫu liệu CGH 2.3.2 Chương trình thực nghiệm Chương trình thực nghiệm tốn ứng dụng cải tiến từ hai cơng cụ có sẵn DAGSVM (http://www.support-vector-machines.org/SVM_soft.html, xây dựng Cawly năm 2000, cho mục đích phân lớp liệu đa lớp phương pháp SVM, hàm nhân tuyến tính hàm nhân đa thức) Feature (http://bioinformatics.oxfordjournals.org/content/24/13/i86.full, xây dựng Jun Liu năm 2008, dùng để demo cho phương pháp lựa chọn đặc trưng MIFS SVM đa lớp) Chương trình sử dụng kỹ thuật tối ưu hóa tối thiểu SMO (Sequential Minimal Optimization), chiến lược phân chia SVM đa lớp OVA cải tiến Chương trình viết Matlab C++ 2.4 Kết thảo luận Tiến hành chạy thực nghiệm so sánh 10 tập liệu CGH nhóm bệnh ung thư biểu mơ người phương pháp thẩm định chéo 10-fold Kết 55 Hồ Cẩm Hà, Nguyễn Thị Hạnh độ phân lớp xác sử dụng hàm nhân Raw hàm nhân tuyến tính (linear) tổng hợp so sánh bảng sau (chú ý: = 100%, = 0%) Tập Raw Linear Bảng 2: So sánh hàm nhân Raw hàm nhân tuyến tính 10 TB 0.74074 0.75862 0.71429 0.69388 0.72727 0.87234 0.73333 0.60784 0.67347 0.68627 0.720805 0.74074 0.7069 0.73469 0.67347 0.72727 0.78723 0.77778 0.62745 0.65306 0.58824 0.701683 Nhìn vào bảng số liệu ta thấy, hàm nhân Raw cho kết phân lớp xác hàm nhân tuyến tính đa số tập liệu Thậm chí có trường hợp hàm nhân Raw xác hàm nhân tuyến tính tới gần 10% tập liệu 10 Tỉ lệ phân lớp xác trung bình hàm nhân Raw 10 tập liệu 0.720805, lớn tỉ lệ trung bình hàm nhân tuyến tính 0.701683 Vậy theo đánh giá xác suất thống kê nhìn chung hàm nhân Raw tốt hàm nhân tuyến tính việc phân lớp liệu CGH Bảng 3: So sánh phương pháp MIFS SVM-RFE (viết tắt RFE) Tập liệu 10 Trung bình Phương pháp MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE MIFS RFE 0.64815 0.66667 0.60345 0.58621 0.46939 0.42857 0.53061 0.46939 0.45455 0.61364 0.68085 0.59574 0.6 0.57778 0.39216 0.4902 0.53061 0.5102 0.4902 0.41176 0.539997 0.535016 16 0.7037 0.66667 0.74138 0.68966 0.59184 0.59184 0.65306 0.61224 0.63636 0.63636 0.74468 0.68085 0.68889 0.71111 0.58824 0.5098 0.71429 0.69388 0.56863 0.54902 0.663107 0.634143 40 0.7037 0.7037 0.72414 0.74138 0.73469 0.71429 0.73469 0.73469 0.72727 0.65909 0.85106 0.80851 0.75556 0.75556 0.60784 0.54902 0.71429 0.71429 0.60784 0.5098 0.716108 0.689033 60 0.77778 0.7037 0.75862 0.72414 0.79592 0.73469 0.7551 0.7551 0.75 0.68182 0.89362 0.85106 0.7778 0.71111 0.56863 0.56863 0.69388 0.67347 0.60784 0.66667 0.737919 0.707039 100 0.75926 0.72222 0.75862 0.68966 0.71924 0.71429 0.71429 0.67347 0.72727 0.75 0.87234 0.80851 0.8 0.75556 0.62745 0.60784 0.65306 0.69388 0.66667 0.58824 0.72982 0.700367 250 0.72222 0.72222 0.75862 0.72414 0.71429 0.71429 0.69388 0.69388 0.68182 0.72727 0.85106 0.87234 0.75556 0.75556 0.62745 0.62745 0.65306 0.69388 0.68627 0.62745 0.714423 0.715848 500 0.72222 0.72222 0.75862 0.75862 0.69388 0.71429 0.67347 0.67347 0.72727 0.72727 0.85106 0.85106 0.75556 0.75556 0.60784 0.58824 0.65306 0.65306 0.68627 0.64706 0.712925 0.709085 Nhằm xem xét tính hiệu phương pháp MIFS, tiến hành thực nghiệm so sánh tỉ lệ phân lớp xác SVM sử dụng hàm nhân Raw với phương pháp lựa chọn đặc trưng MIFS, SVM-RFE 10 tập liệu CGH nhóm bệnh ung thư biểu mơ Đồng thời chúng tơi so sánh 56 Phân lớp liệu CGH dự đoán bệnh ung thư người trường hợp số lượng đặc trưng lựa chọn khác (8, 16, 40, 60, 100, 250, 500) để tìm đặc trưng thực tác động tốt tới kết phân lớp Thí nghiệm tiến hành theo phương pháp thẩm định chéo 10-fold Nhìn vào bảng 3, ta rút kết luận phương pháp MIFS cho kết phân lớp tốt phương pháp SVM-RFE tất tập liệu Bên cạnh đó, kết tất 862 đặc trưng mẫu liệu có tác động tới hiệu phân lớp Kết phân lớp tốt chọn khoảng từ 60 - 100 đặc trưng, tức khoảng 10-20% tổng số đặc trưng Kết luận rút từ mật độ tập trung cao kết in đậm, kết phân lớp có độ xác cao tập liệu, bảng thống kê Điều có nghĩa thực chất có khoảng 10 – 20% số đặc trưng có ý nghĩa việc phân lớp liệu CGH, mẫu liệu có số đột biến số khoảng gen tương ứng nguyên nhân gây bệnh ung thư Các đặc trưng khác tập mẫu liệu, tùy thuộc vào bệnh ung thư Ví dụ tập liệu thứ hai mười tập trên, đặc lựa chọn cho hiệu phân lớp tốt 60 đặc trưng vị trí số: 845, 704, 4, 63, 752, Ngoài ra, ta cịn thấy phân lớp liệu CGH cần chọn khoảng từ 10% - 20% số lượng đặc trưng mà đạt kết phân lớp xác không trường hợp chọn 100% số đặc trưng Sau phân tích kết thực nghiệm, chúng tơi rút kết luận sau: - Hàm nhân Raw cho kết phân lớp xác hàm nhân tuyến tính đa số tập liệu - Phương pháp lựa chọn đặc trưng MIFS có tác động tốt phương pháp SVM-RFE việc phân lớp liệu CGH - Trong thực tế có số đặc trưng thực có ý nghĩa tới việc phân lớp liệu CGH, cụ thể với 10 tập liệu kể số lượng khoảng từ 10 – 20% đặc trưng - Khi số lượng đặc trưng lựa chọn hợp lý phương pháp MIFS có khả cải tiến hiệu phân lớp SVM sử dụng hàm nhân Raw, chẳng hạn theo thống kê trung bình 10 tập liệu bảng 3, lựa chọn khoảng từ 60 - 100 đặc trưng cho kết phân lớp xác trường hợp chọn 862 đặc trưng (0.737919 > 0.720805 0.72982 > 0.720805) Kết luận Kỹ thuật phân lớp liệu CGH có khả phân loại phát sớm bệnh ung thư, dựa phân tích cấu trúc di truyền học phân tử tế bào khối u bệnh nhân Do tính chất đặc thù loại liệu CGH, Jun Liu đề xuất hàm nhân Raw phương pháp lựa chọn đặc trưng phân lớp MIFS dùng phân loại vectơ hỗ trợ SVM Bằng phương pháp chạy thực nghiệm, chứng minh đề xuất có khả cải tiến độ xác 57 Hồ Cẩm Hà, Nguyễn Thị Hạnh kết phân lớp liệu CGH so với số phương pháp thơng dụng khác Tuy độ xác trung bình phương pháp liệu chưa cao, khoảng 73%, chưa đủ khả áp dụng vào thực tế để chuẩn đoán điều trị bệnh ung thư, kết tiền đề hữu ích cho nghiên cứu REFERENCES [1] Ben Aisen, (2006) A Comparison of Multiclass SVM Methods [2] Jun Liu, (2008) Mining Comparative Genomic Hybridization Data University of Florida [3] H.Chai, C.Domeniconi, (2004) An evaluation of gene selection methods for multi-class microarray data classification [4] Nello Cristianini, John Shawe-Taylor, (2000) An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods Cambridge University Press [5] http://en.wikipedia.org/wiki/Data_Mining [6] http://en.wikipedia.org/wiki/Comparative_genomic_hybridization [7] http://en.wikipedia.org/wiki/Radix_sort [8] http://www.progenetix.net [9] http://www.support-vector-machines.org ABSTRACT Classification of CGH data sample for predicting human cancer By the technique of Comparative Genomic Hybridization (CGH), it was found that Copy Number Alterations in mutant genes results in cancer The method of Support Vector Machine with Raw function and specific method of Maximum Influence Feature Selection were proposed by Dr Jun Liu [2] His study has improved the accuracy of classification and prediction of CGH data samples as compared to previously used methods This paper deals with the Dr Jun Liu’s proposals and conducts experiments to test them on a different set of CGH data The results showed that such proposals give more accurate predictions and classification of cancer based on the CGH data of patients than that of previous methods 58 ... học, cịn tốn phân lớp liệu CGH phân đa lớp, cần phải sử dụng SVM 50 Phân lớp liệu CGH dự đoán bệnh ung thư người đa lớp Các SVM đa lớp xây dựng dựa việc huấn luyện tập SVM nhị phân theo hai chiến... hợp phân liệu thành hai lớp Bài toán phân lớp liệu CGH phân thành nhiều lớp tương ứng với phân nhóm nhiều loại bệnh ung thư khác Vì cần mở rộng phương pháp MIFS cho trường hợp phân liệu đa lớp. .. lệ phân lớp xác SVM sử dụng hàm nhân Raw với phương pháp lựa chọn đặc trưng MIFS, SVM-RFE 10 tập liệu CGH nhóm bệnh ung thư biểu mô Đồng thời so sánh 56 Phân lớp liệu CGH dự đoán bệnh ung thư người