.1Cấu trúc bảng dữ liệu ung thƣ ruột kết

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 88 - 98)

STT H55933 R39465 R39465 .. T49647 Lớp 1 8589.416 5468.241 4263.408 .. 28.70125 - 2 9164.254 6719.53 4883.449 .. 16.77375 + 3 3825.705 6970.361 5369.969 .. 15.15625 - 4 6246.449 7823.534 5955.835 .. 16.085 + 5 3230.329 3694.45 3400.74 .. 31.8125 - .. .. .. .. .. .. .. 62 7472.01 3653.934 2728.216 7472.01 39.63125 -

Tiền xử lý dữ liệu: dữ liệu đầu vào đƣợc tiền xử lý trƣớc bằng hàm chuẩn hĩa, chuyển đổi để đƣa các giá trị về khoảng 0-1. Việc chuẩn hĩa dữ liệu ung thƣ cĩ ảnh hƣởng tới hiệu quả của việc phân tích và phân lớp dự báo. Kỹ thuật SVD[6]

đƣợc sử dụng để giảm chiều của dữ liệu ung thƣ thơng qua việc phân rã ma trận dữ liệu đầu vào thành các giá trị duy nhất.

Trích xuất đặc trƣng: Chúng tơi đề xuất hàm nhân mới cho KPCA để biến đổi khơng gian dữ liệu ban đầu vào khơng gian đặc trƣng mới. Trong khơng gian này dữ liệu cĩ thể đƣợc phân lớp dễ hơn.

Phân lớp: Sau khi đã trích xuất đƣợc các thành phần chính, bộ phân lớp đƣợc lựa chọn thực hiện việc phân lớp ung thƣ.Trong chƣơng này chúng tơi sử dụng hai bộ phân lớp là rừng ngẫu nhiên (đã đƣợc giới thiệu ở chƣơng 2) và máy vector hỗ trợ để tiến hành phân lớp trên bộ dữ liệu thực nghiệm.

Máy vector hỗ trợ (Support Vector Machines - SVM) đƣợc Vladimir Vapnik và Corinna Cortes giới thiệu [20], là thuật tốn học thuộc lớp giải thuật phân lớp thống kê. SVM cĩ khả năng xử lý dữ liệu tuyến tính và dữ liệu phi tuyến. Ý tƣởng chính của thuật tốn này là việc xây dựng một siêu phẳng để phân chia dữ liệu thành hai nửa. Trong trƣờng hợp nếu khơng thể phân chia các lớp dữ liệu một cách tuyến tính thì cần phải sử dụng một hàm nhân (kernel function) để chuyển đổi tập dữ liệu ban đầu sang một khơng gian mới cĩ số chiều lớn hơn để xử lý.

3.3.2 Hàm nhân tùy chọn cho PCA

3.3.2.1Phương pháp hàm nhân

Trong thực tế, dữ liệu miền ứng dụng D đƣợc biểu diễn trong khơng gian 𝑅𝑛

theo phân tích ban đầu là khơng “khả tách tuyến tính” (linear separability), cĩ nghĩa là khơng tồn tại một siêu phẳng trong 𝑅𝑛 tách D thành hai lớp riêng biệt. Trong tình huống đĩ, hiệu năng của mơ hình phân lớp theo thuật tốn phân lớp SVM đối với tập dữ liệu D tƣơng đối thấp, vì vậy, khơng thể áp dụng trực tiếp thuật tốn phân lớp SVM đối với tập dữ liệu D nhƣ biểu diễn ban đầu đƣợc. Trong trƣờng hợp này, cần phải tìm một biểu diễn dữ liệu thuộc D vào một khơng gian 𝑅𝑚 (nm, mà trong trƣờng hợp chung thì n<m) mà theo biểu diễn đĩ, tập dữ liệu D sẽ khả tách tuyến tính. Thủ tục chuyển dạng dữ liệu trong trƣờng hợp này bao gồm hai bƣớc:

- Bƣớc 1: Sử dụng một ánh xạ phi tuyến  (trƣờng hợp đặc biệt là hàm tuyến tính kiểu hàm phạt) chuyển biểu diễn dữ liệu thuộc D từ khơng gian 𝑅𝑛 sang khơng gian 𝑅𝑚 mà theo biểu diễn đĩ tập dữ liệu D là khả tách tuyến tính. - Bƣớc 2: Thực hiện thuật tốn phân lớp SVM trên tập dữ liệu D theo biểu diễn

dữ liệu mới trong khơng gian 𝑅𝑚. Khi đĩ, một thuật tốn rút gọn đặc trƣng phù hợp (chẳng hạn PCA) cũng sẽ đƣợc áp dụng..

Hình 3.3[21] mơ tả việc chuyển dạng dữ liệu đối với tập dữ liệu D để nĩ khơng khả tách tuyến tính khi biểu diễn trong khơng gian 𝑅𝑛 thành khả tách tuyến tính khi biểu diễn trong khơng gian 𝑅𝑚.

Hình 3.3 Chuyển dữ liệu sang khơng gian cĩ chiều lớn hơn[21]

Khi áp dụng mơ hình phân lớp SVM, dữ liệu đầu vào đƣợc chuyển dạng theo ánh xạ  đã chọn và giải pháp rút gọn đặc trƣng (chẳng hạn PCA) đƣợc tiến hành trên dữ liệu sau khi chuyển dạng.

Theo phƣơng pháp hàm nhân, hàm chuyển dạng biểu diễn dữ liệu đƣợc tiến hành dựa trên các hàm nhân nhƣ đƣợc giới thiệu sơ bộ sau đây.

3.3.2.2Một số hàm nhân phổ biến

Các hàm nhân thƣờng đƣợc dùng là hàm nhân tuyến tính, hàm nhân đa thức, hàm nhân RBF và Sigmoid

Hàm nhân tuyến tính [40]đƣợc mơ tả nhƣ sau:

𝑘 𝑥𝑖,𝑥𝑗 = 𝑥𝑖𝑇𝑥𝑗 +𝑐 (3.1)

Nhân tuyến tính chỉ cĩ một tham số là c. Hàm nhân này thực hiện tƣơng đối tốt và nhanh trên bộ dữ liệu cĩ thể phân tách tuyến tính, tuy nhiên hầu hết dữ liệu trong các bài tốn thực tế là khĩ phân tách tuyến tính.

Hàm nhân đa thức[40] đƣợc mơ tả nhƣ sau:

𝑘 𝑥𝑖,𝑥𝑗 = 𝛾𝑥𝑖𝑇𝑥𝑗 +𝑟 𝑑,𝛾 > 0 (3.2)

Trong số các hàm nhân thì hàm nhân đa thức cĩ số lƣợng tham số nhiều hơn cả. Ngồi tham số C và γ cịn cĩ hai tham số quan trọng khác là bậc d và r. Tham số

d cần phải đƣợc lựa chọn cẩn thận vì nếu d quá lớn thì giá trị của kernel sẽ là vơ hạn hoặc bằng 0.

Hàm nhân RBF[40]cịn gọi là Gaussian hay RBF cĩ dạng:

𝑘 𝑥𝑖,𝑥𝑗 =𝑒𝑥𝑝 − 1

2𝛼2 𝑥𝑖 − 𝑥𝑗 (3.3)

Hoặc cĩ thể thay bằng dạng:

𝑘 𝑥𝑖,𝑥𝑗 = exp⁡ −𝛾 𝑥𝑖 − 𝑥𝑗 2 (3.4)

RBF đƣợc sử dụng phổ biến bởi nĩ cĩ khả năng phân lớp dữ liệu phi tuyến. Số lƣợng tham số ít hơn so với các hàm nhân khác, tham số 𝛾 ảnh hƣởng nhiều tới hiệu năng của nhân.

Hàm nhân Sigmoid[40]đƣợc mơ tả nhƣ sau:

𝑘 𝑥𝑖,𝑥𝑗 =𝑡𝑎𝑛𝑕 𝛾𝑥𝑖𝑇𝑥𝑗 +𝑐 ,𝛾 > 0 (3.5)

Hai tham số cần lựa chọn của hàm nhân này là γ và c.

3.3.2.3Kernel PCA[80]

Phân tích thành phần chính dựa trên hàm nhân (KPCA) là một cách tiếp cận hiệu quả nhờ việc xây dựng một khơng gian đặc trƣng mới cĩ số chiều cao hơn bằng cách sử dụng hàm phi tuyến 𝜇(𝑥𝑡), 𝑧 =𝜇(𝑥𝑡) và phân tích thành phần chính (PCA) thực hiện tƣơng tự nhƣ áp dụng PCA phi tuyến trong khơng gian ban đầu.

Cho trƣớc một tập các dữ liệu 𝑥𝑖 ∈ 𝑅𝑝,𝑖 = 1,…,𝑛, khơng gian dữ liệu phi tuyến ban đầu đƣợc ánh xạ sang khơng gian đặc trƣng mới F bởi ánh xạ ∅: 𝑅𝑝 → 𝐹 Khi thực hiện ánh xạ, giả sử xảy ra vấn đề dữ liệu bị tập trung trong khơng gian mới là 𝑛 ∅(𝑥𝑖)

𝑖−1 = 0. Trong F ma trận hiệp phƣơng sai cĩ dạng:

𝐶 = 1

𝑛 ∅(𝑥𝑗)∅𝑇(𝑥𝑗)

𝑛

𝑗 −1

(3.6)

Cần tìm kiếm một giá trị riêng 𝜆 ≥0 và véc tơ riêng khác khơng 𝑣 ∈ 𝐹\ 0

thỏa mãn 𝐶𝑣 =𝜆𝑣 trong khoảng ∅ 𝑥𝑗

𝑖−1

𝑛

. Thứ nhất, xét tập các phƣơng trình:

∅ 𝑥𝑗 ,𝐂v = λ ∅ 𝑥𝑗 , v (3.7)

Với tất cả j=1,…,n, trong đĩ . , . là tích vơ hƣớng đƣợc xác định trong F. Thứ hai, tồn tại hệ số αi, i=1,…,n, sao cho:

𝑣 = 𝛼𝑖∅(𝑥𝑖)

𝑛

𝑖−1

(3.8)

Kết hợp cơng thức (3.7) và (3.8), từ đĩ cĩ đƣợc hai kết quả của bài tốn giá trị riêng cho các giá trị riêng khác khơng:

=n λα (3.9)

Trong đĩ 𝑲= 𝐾 𝑥𝑖,𝑥𝑗 𝑖,𝑗 = 1, . . ,𝑛 là tập ma trận hàm nhân; 𝑲 là một hàm nhân mà tích vơ hƣớng trong F thoả mãn ∅ 𝑥𝑖 ,∅ 𝑥𝑗 = 𝐾 𝑥𝑖,𝑥𝑗 với𝜆1 ≥ 𝜆12 ≥. .≥ 𝜆𝑛là giá trị riêng của 𝑲 vàα1,…,α𝑛 là tập các véc tơ riêng đƣợc chuẩn hĩa tƣơng ứng, với 𝜆𝑟 là giá trị riêng cuối cùng khác 0. Để trích xuất thành phần chính, cần tính tốn phép chiếu lên véc tơ riêngv𝑗 trong F, j=1,…,r. Nếu x là điểm kiểm tra, với một ảnh ∅(x) trong F tƣơng ứng thì:

v𝑗,∅ 𝑥 = ∝𝑖𝑗

𝑛

𝑖−1

𝐾 𝑥𝑖,𝑥 (3.10)

3.3.3 Xây dựng hàm nhân tùy chọn

Một số ký hiệu và định nghĩa:

Ma trận nửa xác định dƣơng[39]: (positive semi-definite matrix): Một ma trận

𝐾𝑀×𝑀 đƣợc gọi là nửa xác định dƣơng nếu bất cứ dạng tồn phƣơng 𝒓𝑇𝐾𝒓nào trên K đều khơng âm, nghĩa là với mọi 𝑟𝑖 ∈ ℝ,𝑖 = 1, . . ,𝑀 ta cĩ

𝑟𝑖𝑟𝑗𝐾𝑖𝑗

𝑀

𝑖,𝑗=1 𝑐

≥0 (3.11)

Hàm nửa xác định dƣơng[39]: Một hàm kernel 𝐾: X ×→ ℝ đƣợc gọi là nửa xác định dƣơng nếu nĩ thoả mãn

- Đối xứng

- Với mọi tập 𝑥1, . . ,𝑥𝑀 ∈ X , ma trận K đƣợc tạo thành với 𝐾𝑖𝑗 =𝑘(𝑥𝑖,𝑥𝑗) là nửa xác định dƣơng.

Định lý Mercer[39]: Một hàm 𝐾 𝑥,𝑦 là một hàm nhân hợp lệ nếu nĩ thỏa mãn hai điều kiện sau:

- Đối xứng: 𝐾 𝑥,𝑦 =𝐾(𝑦,𝑥)

- Nửa xác định dƣơng: 𝐾 𝑥,𝑥 ≥0

Nello Cristianini và John Shawe-Taylor [21] chỉ ra một số cách để xây dựng một hàm nhân mới.Cách xây dựng hàm nhân mới đƣợc trình bày trong bổ đề dƣới đây.

Bổ đề 3.1 Giả sử K1 và K2 là các hàm nhân trên 𝑋 ∗ 𝑋,𝑋 ⊆ 𝑅𝑛,𝑎 ∈ 𝑅+,𝑓(∙) là một hàm tính tốn giá trị thực trên X

𝜙:𝑋 → ℝ𝑚

Với K3 là một hàm nhân trên ℝ𝑚×ℝ𝑚 và B là một ma trận nửa xác định dƣơng (positive semi-definite) n*n . Khi đĩ hàm trên X là các hàm nhân:

1 2 1 1 2 3 1. ( , ) ( , ) ( , ) 2. ( , ) * ( , ) 3. ( , ) ( , ) * ( , ) 4. ( , ) ( )* ( ) 5. ( , ) ( ( ), ( )) 6. ( , ) ' K x z K x z K x z K x z a K x z K x z K x z K x z K x z f x f z K x z K x z K x z x Bz         

Trong luận án này chúng tơi sử dụng bổ đề 3.1 để xây dựng hàm nhân mới.Bổ đề này đã đƣợc chứng minh trong tài liệu[21]. Cách xây dựng hàm nhân phức tạp hơn dựa trên các hàm nhân khác đƣợc dựa trên nguyên lý của bổ đề này. Cụ thể, một hàm nhân mới đƣợc tạo ra bằng cách kết hợp các hàm nhân khác sử dụng các tốn tử nhƣ sau:

𝐾𝑐 =𝛼1(𝐾1)∘ 𝛼2(𝐾2)∘ ⋯ ∘ 𝛼𝑚(𝐾𝑚),𝛼𝑖 ≥0 (3.12)

Trong đĩ:

{𝐾𝑖 | i =1, …, m} là tập các hàm nhân dùng để kết hợp.

𝛼𝑖 : là các hệ số của mỗi hàm nhân.

và ◦ biểu diễn một tốn tử giữa hai hàm nhân (cộng và nhân).

Chứng minh 𝑲𝒄 là một hàm nhân hợp lệ

Theo mệnh đề Mercer 𝐾𝑐là một hàm nhân hợp lệ nếu thỏa mãn: - 𝐾𝑐 đối xứng

- 𝐾𝑐 nửa xác định dƣơng Thật vậy:

Trƣờng hợp 1: ◦ biểu diễn tốn tử cộng (+) giữa hai hàm nhân Khi đĩ hàm nhân 𝐾𝑐cĩ dạng:

𝐾𝑐 =𝛼1(𝐾1) +𝛼2(𝐾2) +⋯+𝛼𝑚(𝐾𝑚),𝛼𝑖 ≥0 (3.13)

Chứng minh: a. 𝑲𝒄là đối xứng

Với mọi hàm nhân 𝐾𝒊 𝑥,𝑦 hợp lệ cĩ

𝐾𝒊 𝑥,𝑦 =𝐾𝒊 𝑦,𝑥 ,𝑖 = 1… 𝑚 (3.14) Cĩ 𝐾𝒄 𝑥,𝑦 = 𝛼𝑖𝐾𝒊 𝑥,𝑦 𝒎 𝒊=𝟏 (3.15) Do (3.14) ta cĩ

𝐾𝒄 𝑥,𝑦 = 𝛼𝑖𝐾𝒊 𝑦,𝑥 𝒎 𝒊=𝟏 (3.16) 𝛼𝑖𝐾𝒊 𝑦,𝑥 =𝐾𝒄 𝑦,𝑥 𝒎 𝒊=𝟏 (3.17) 𝐾𝒄 𝑥,𝑦 =𝐾𝒄 𝑦,𝑥 (3.18) Nên 𝑲𝒄 là đối xứng. b. 𝑲𝒄 ≥ 𝟎 Với mọi x, x‟: 𝐾𝑖 𝑥,𝑥′ ≥ 0 ∀𝑖 = 1. .𝑚

Do giả thiết 𝛼𝑖 ≥0,∀𝑖nên

𝛼𝑖(𝐾𝑖) ≥0,𝑖 = 1… 𝑚 (3.19)

Từ (3.18) và (3.19) và ta cĩ

𝐾𝑐 =𝛼1(𝐾1) +𝛼2(𝐾2) +⋯+𝛼𝑚(𝐾𝑚)≥0,𝑖 = 1… 𝑚 (3.20)

thỏa mãn tính chất đối xứng và bán định dƣơng nên 𝐾𝑐là một hàm nhân hợp lệ.

Trƣờng hợp 2: ◦ biểu diễn tốn tử nhân (*) giữa hai hàm nhân Khi đĩ hàm nhân 𝐾𝑐 cĩ dạng:

𝐾𝑐 =𝛼1(𝐾1)∗ 𝛼2(𝐾2)∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚),𝛼𝑖 ≥ 0 (3.21)

𝐾𝑐 là một hàm nhân hợp lệ Chứng minh:

a. 𝑲𝒄 là đối xứng

Với mọi hàm nhân 𝐾𝒊 𝑥,𝑦 hợp lệ cĩ

𝐾𝒊 𝑥,𝑦 =𝐾𝒊 𝑦,𝑥 ,𝑖 = 1… 𝑚 (3.22)

𝐾𝒄 𝑥,𝑦 = 𝛼𝑖𝐾𝒊 𝑥,𝑦 𝒎 𝒊=𝟏 (3.23) Do (3.13) ta cĩ 𝐾𝒄 𝑥,𝑦 = 𝛼𝑖𝐾𝒊 𝑦,𝑥 𝒎 𝒊=𝟏 (3.24) 𝛼𝑖𝐾𝒊 𝑦,𝑥 𝒎 𝒊=𝟏 =𝐾𝒄 𝑦,𝑥 (3.25) 𝐾𝒄 𝑥,𝑦 =𝐾𝒄 𝑦,𝑥 (3.26) Nên 𝑲𝒄 là đối xứng. b. 𝑲𝒄 ≥ 𝟎 Với mọi x, x‟: 𝐾𝑖 𝑥,𝑥′ ≥ 0 ∀𝑖 = 1. .𝑚

Do giả thiết 𝛼𝑖 ≥0,∀𝑖 nên

𝛼𝑖(𝐾𝑖) ≥0,𝑖 = 1… 𝑚 (3.27)

Từ (3.26) và (3.27) và ta cĩ

𝐾𝑐 =𝛼1(𝐾1)∗ 𝛼2(𝐾2)∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚) ≥0,𝑖 = 1… 𝑚 (3.28)

thỏa mãn tính chất đối xứng và bán định dƣơng nên 𝐾𝑐 là một hàm nhân hợp lệ.

Trƣờng hợp 3: ◦ biểu diễn tốn tử cộng (+) hoặc tốn tử nhân (*) giữa hai hàm nhân.

Khi đĩ hàm nhân 𝐾𝑐 cĩ dạng:

𝐾𝑐 =𝛼1(𝐾1) +𝛼2(𝐾2)∗ ⋯+𝛼𝑚(𝐾𝑚),𝛼𝑖 ≥0 (3.29)

𝐾𝑐 cũng là một hàm nhân hợp lệ. Chứng minh:

Giả sử K1, K2 là các hàm nhân hợp lệ đƣợc kết hợp bằng tốn tử cộng (+) hoặc nhân (*)

Trƣờng hợp 3.1: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 tốn tử nhân (*) và các tốn tử cịn lại là tốn tử cộng (+)

Ta xây dựng các hàm nhân mới cĩ dạng:

𝐾∗=𝛼1𝐾1 ∗ 𝛼2𝐾2

Khi đĩ 𝐾𝑐 cĩ dạng

𝐾𝑐 =𝛼1(𝐾1) +𝛼∗(𝐾∗) +⋯+𝛼𝑚(𝐾𝑚)≥0,𝑖 = 1… 𝑚 (3.30)

Chứng minh tƣơng tự trƣờng hợp 1: ta cĩ 𝐾𝑐là một hàm nhân hợp lệ.

Trƣờng hợp 3.2: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 tốn tử cộng (+) và các tốn tử cịn lại là tốn tử cộng (*)

Ta xây dựng các hàm nhân mới cĩ dạng:

𝐾+ =𝛼1𝐾1 +𝛼2𝐾2

Khi đĩ 𝐾𝑐 cĩ dạng

𝐾𝑐 =𝛼1(𝐾1)∗ 𝛼+(𝐾+)∗ ⋯ ∗ 𝛼𝑚(𝐾𝑚) ≥0,𝑖 = 1… 𝑚 (3.31)

Chứng minh tƣơng tự trƣờng hợp 2: ta cĩ 𝐾𝑐là một hàm nhân hợp lệ.

Trƣờng hợp 3.3: Nếu trong 𝐾𝑐 tồn tại ít nhất 01 tốn tử chia (/) và các tốn tử cịn lại là tốn tử cộng (+) hoặc tốn tử (*)

Ta cần chứng minh:1 𝐾(𝑥,𝑦) là đối xứng với mọi hàm nhân K

Thật vậy: 𝐾 𝑥,𝑦 = 1 𝐾′(𝑥,𝑦)= 1 𝐾′(𝑦,𝑥)=𝐾(𝑦,𝑥) (3.32) Mặt khác 𝐾𝑖 ≥0 ∀𝑖 = 1. .𝑚

Chứng minh tƣơng tự trƣờng hợp 1 và 2: ta cĩ 𝐾𝑐là một hàm nhân hợp lệ. Độ phức tạp tính tốn của kỹ thuật trích xuất đặc trƣng đề xuất là độ phức tạp tính tốn của phƣơng pháp KPCA và độ phức tạp khi kết hợp các hàm nhân. Theo nghiên cứu [31], trong pha kiểm tra để đánh giá hàm nhân mất thời gian tính

tốn là 𝛰 𝑛𝑑 . Do đĩ, độ phức tạp tính tốnvề thời gian là của kỹ thuật đề xuất𝛰 𝑛2 +𝑛𝑑

3.4 Thực nghiệm và kết quả

3.4.1 Thiết lập thực nghiệm

Phƣơng pháp đề xuất của chúng tơi đƣợc thực hiện trên ngơn ngữ R(http://www.r-project.org) và thực nghiệm trên hiện trên máy tính laptop (bộ vi xử lý core i7 2.7GHz và 8G Ram) với một số bộ dữ liệu ung thƣ bao gồm: ung thƣ ruột kết (colon tumor), ung thƣ bạch cầu (leukemia), máu trắng (lymphoma) và ung thƣ tuyến tiền liệt (prostate). Chúng tơi sử dụng kết quả phân lớp bằng phƣơng pháp KPCA làm cơ sở để so sánh với kết quả của phƣơng pháp đề xuất trên cùng một bộ dữ liệu ung thƣ.Chúng tơi sử dụng ba loại hàm nhân nhƣ trong Bảng 3.2 để thực hiện kết hợp bằng các tốn tử cộng và nhân.

Một phần của tài liệu Nghiên cứu và cải tiến kỹ thuật học máy dựa trên hướng tiếp cận trích chọn đặc trưng (Trang 88 - 98)