Các tập dữ liệu trong học máy

Một phần của tài liệu Nghiên cứu đặc trưng điện não sử dụng cho phát hiện bệnh tâm thần phân liệt (Trang 44)

Quá trình xây dựng một mơ hình học máy cĩ thể tĩm gọn lại trong các bước

như trong Hình 4-6, dữ liệu sau khi thu thập, làm sạch và chuẩn hĩa được tính tốn

các đặc trưng cho từng nhĩm đối tượng, xây dựng các mơ hình học máy phù hợp với từng yêu cầu cụ thể, cuối cùng là đánh giá mơ hình vừa xây dựng dựa trên một số thơng số (sẽ được trình bày ở phần ngay sau).

Hình 3.6.Machine learning workflows

Để xây dựng được mơ hình học máy phù hợp, các đặc trưng đã tính tốn được trong chia làm ba phần: training data, validation và testing data. Tập training dùng cho quá trình huấn luyện mơ hình, sau đĩ hiệu suất của mơ hình sẽ được kiểm tra trên tập validation để cĩ thể đánh giá mơ hình hay chính là đánh giá hyperparameter của mơ hình đĩ, để chọn ra bộ hyperparameter phù hợp nhất. Mơ hình được lựa chọn sẽ được đánh giá lại bằng tập testing data, nếu cho kết quả tốt thì cĩ thể được sử dụng, ngược lại, cần chọn bộ hyperparameter khác hoặc chọn thuật tốn học máy khác phù hợp hơn với bài tốn. Như vậy, để so sánh các mơ

hình với nhau khơng thể dựa trên dữ liệu training mà cần sử dụng các dữ liệu mới

hồn tồn (chưa gặp trong quá trình huấn luyện). Tập validation giúp chọn các tham số tốt nhất cho mơ hình cịn tập testing data giúp đánh giá mơ hình đĩ [38].

35

Hình 3.7.Training data, validation data và testing data 3.3.3 Các tham số đánh giá mơ hình

Việc đánh giá mơ hình phân loại là phù hợp và cĩ thể ứng dụng hay khơng dựa trên một số tham số được trình bày sau đây. Các dữ liệu được dự đốn dựa trên mơ hình học máy cĩ thể rơi vào các trường hợp được liệt kê trong Bảng 3-4.

Bảng 3.3.Các kết quả phân lớp

Thực tế Dự đốn Positive Negative

Positive True positive (TP) False negative (FN) Negative False positive (FP) True negative (TN)

- True positive: cả thực tế và kết quả dự đốn đều là positive.

- True negative: cả thực tế và kết quả dự đốn đều là negative.

- False positive: thực tế là negative nhưng mơ hình dự đốn là positive.

- False negative: thực tế là positive nhưng mơ hình dự đốn là

negative.

Bài tốn phân loại lý tưởng là bài tốn chỉ cĩ TP và TN, khơng cĩ bất kỳ mẫu nào bị phân loại sai (FP và FN), mơ hình dự đốn đúng tuyệt đối. Thực tế, trường

hợp đĩ khĩ cĩ thể xảy ra, đặc biệt với dữ liệu cĩ cấu trúc phức tạp. Một mơ hình

phân loại tốt nếu cĩ FP và FN nhỏ, cụ thể các bài tốn về phân loại trong y tế thường yêu cầu FN rất nhỏ để khơng để sĩt trường hợp positive.

36

Accuracy

Accuracy là độ chính xác trong phân loại của mơ hình. Cơng thức tính Accuracy:

𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝑟𝑟𝑎𝑎𝐴𝐴𝑦𝑦 = 𝑇𝑇𝑃𝑃+𝑇𝑇𝑇𝑇𝑇𝑇𝑃𝑃++𝑇𝑇𝑇𝑇𝐹𝐹𝑃𝑃+𝐹𝐹𝑇𝑇

Trong trường hợp số lượng mẫu khơng cân bằng (ví dụ: tổng số mẫu dương tính chỉ chiếm 0.01%) thì nếu mơ hình dự đốn tất cả kết quả là negative, mơ hình sẽ cĩ Accuracy = 99.9% nhưng mơ hình đĩ khơng phải một mơ hình tốt. Vì vậy cần cĩ các tham số Precision, Recall và F1 score làm tiêu chuẩn đánh giá mơ hình.

Precision

Precision là tỷ lệ số mẫu được dự đốn dương tính là đúng trên tổng số mẫu được dự đốn là dương tính.

𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃+𝐹𝐹𝑃𝑃

Recall

Recall là tỷ lệ số mẫu được dự đốn dương tính là đúng trên tổng số mẫu thực tế là dương tính.

𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃+𝐹𝐹𝑇𝑇

F1 score

F1 score là tham số kết hợp giữa Precision và Recall:

𝐹𝐹1 𝑠𝑠𝐴𝐴𝑙𝑙𝑟𝑟𝑃𝑃 = 2𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛𝑃𝑃𝑟𝑟𝑃𝑃𝐴𝐴𝑖𝑖𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛 ∗ 𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙+𝑅𝑅𝑃𝑃𝐴𝐴𝑎𝑎𝑙𝑙𝑙𝑙

F1 càng tiệm cận 1 thì mơ hình cĩ Precision và Recall càng cao (gần 1), cho thấy đĩ là một mơ hình dự đốn tốt và ngược lại [40].

AUC (Area under the ROC curve)

ROC là đường phụ thuộc vào tỷ lệ True Positive và True Negative, nếu hai tỷ lệ này càng lớn thì đường ROC càng cong lên, khiến vùng diện tích dưới đường ROC (Area under the ROC curve – AUC) càng lớn. Vậy một mơ hình phân loại

tốt là mơ hình cĩ AUC lớn. Hình 3-8 mơ tả đường ROC màu đỏ và và AUC là

37

Hình 3. 8.Area under the ROC curve (AUC) 3.3.4 Một số bộ phân loại

Trong bài tốn phân loại, cĩ rất nhiều bộ phân loại với các thuật tốn, ứng dụng và hiệu suất rất khác nhau. Với bài tốn phân loại nhị phân, cĩ thể kể đến một vài thuật tốn phân loại hiệu quả như Support Vector Machine, Decision Tree, K-Nearest Neighbor, Nạve Bayes…

3.3.4.1. Decision Tree

Con người đưa ra các quyết định thường bắt đầu bằng việc quan sát, suy nghĩ và đặt các câu hỏi. Trong học máy cũng cĩ một mơ hình dựa trên các câu hỏi để ra quyết định, cĩ tên là cây quyết định (Decision Tree).

Hình 4-9 minh họa ví dụ phân loại sử dụng mơ hình Decision Tree với hai class màu xanh và đỏ trên khơng gian hai chiều. Bài tốn yêu cầu tìm ranh giới đơn giản giúp phân chia hai class này. Đây là một bài tốn phân loại, ta cần xây dựng một bộ phân loại giúp quyết định một điểm dữ liệu mới thuộc vào class nào. Quan sát hình ta thấy ranh giới cho hai class là các đường song song với các trục

toạ độ. Nếu một điểm cĩ thành phầntung độ (y) lớn hơn ngưỡng y1, ta quyết định

ngay được rằng nĩ thuộc class xanh. Nếu một điểm cĩ thành phần tung độ (y) nhỏ hơn ngưỡng y1 và thành phần hồnh độ (x) nhỏ hơn ngưỡng x1 cũng thuộc class xanh. Các điểm khơng thoả mãn các điều kiện trên được xếp vào class đỏ. Việc ra

quyết định một điểm thuộc class nào được mơ tả trên Decision Tree Hình 3-9.

Decision tree dùng cấu trúc cây để đưa ra một hàm phân lớp cần học. Một

decision tree cĩ thể được biểu diễn bằng một tập các luật if-then dễ hiểu và áp dụng

hiệu quả trong rất nhiều các bài tốn ứng dụng thực tế. Trong mơ hình Decision

38 hiện đầu ra (màu xanh và đỏ) được gọi là node lá (leaf node hay terminal node).

Các node thể hiện câu hỏi là các non-leaf node. Non-leaf node trên cùng (câu hỏi

đầu tiên) được gọi là node gốc (root node). Các non-leaf node nhiều hơn hai node

con (child node). Các child node này cĩ thể là một leaf node hoặc một non-leaf

node khác. Các child node cĩ cùng bố mẹ được gọi là sibling node. Nếu tất cả các

non-leaf node chỉ cĩ hai child node, cây quyết định đĩ được gọi là binary decision

tree (cây quyết định nhị phân).

Hình 3. 9.Ví dụ bài tốn sử dụng mơ hình Decision tree [42]

Biểu diễn của Decision tree:

-Root node (node gốc) là một thuộc tính bất kỳ, sử dụng để tạo nhánh và tạo

các decision nodes.

-Mỗi decision node (node quyết định) biểu diễn một thuộc tính cần kiểm tra

giá trị đối với các quan sát.

-Mối branch (nhánh) từ một node sẽ tương ứng với một giá trị cĩ thể của

thuộc tính gắn với node đĩ.

-Mỗi leaf node (node lá) biểu diễn một lớp

-Một decision tree sẽ thực hiện phân lớp cho một quan sát bằng cách duyệt

cây từ root đến leaf node. Nhãn lớp gắn với leaf node đĩ sẽ được gán cho mẫu.

-Mỗi đường đi (path) từ root node đến leaf node tương ứng với một kết hợp

(conjunction) của các kiểm tra giá trị thuộc tính (attribute tests).

-Decision tree chính là một phép tuyển (disjunction) của các kết hợp

(conjunction).

Hạn chế lớn nhất Decision Tree là việc nếu một điểm dữ liệu mới rơi vào nhầm nhánh ở ngay những node quyết định đầu tiên, kết quả cuối cùng sẽ khác đi rất nhiều. Việc rơi vào nhầm nhánh này rất dễ xảy ra trong trường hợp thuộc

39 tính liên tục được chia thành nhiều nhĩm nhỏ, hai điểm cĩ thuộc tính tương ứng rất gần nhau cĩ thể rơi vào hai nhĩm khác nhau.

3.3.4.2. K-Nearest Neighbor (k-NN)

k-NN là một trong những thuật tốn supervised-learning đơn giản nhất trong

học máy, thuộc nhĩm lazy learner. Khi training, thuật tốn này khơng học điều gì

từ dữ liệu huấn luyện (do đĩ được xếp vào loại lazy learning), mọi tính tốn được

thực hiện khi nĩ cần dự đốn kết quả của dữ liệu mới. Ý tưởng của k-NN là khơng

xây dựng một mơ hình mơ tả rõ ràng cho hàm mục tiêu cần học mà quá trình học chỉ lưu lại các training data, việc dự đốn cho một quan sát mới sẽ dựa vào các lân cận gần nhất (nearest neighbor). Việc xác định nearest neighbor được dựa trên độ đo tương đồng giữa các đối tượng. Trong đĩ, k là số lân cận được sử dụng cho quá trình tính tốn giá trị dự đốn.

Trong bài tốn Classification sử dụng phương pháp K-NN, nhãn (đầu ra) của

một điểm dữ liệu mới được suy luận trực tiếp từ K điểm dữ liệu gần nhất trong tập huấn luyện. Đầu ra của một dữ liệu trong tập kiểm thử được quyết định bằng major voting giữa các điểm gần nhất, hoặc nĩ cĩ thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất.

Như vậy, K-NN là thuật tốn đi tìm đầu ra của một điểm dữ liệu mới bằng cách

chỉ dựa trên thơng tin của K điểm dữ liệu trong tập huấn luyện gần nĩ nhất (K-lân

cận. Hình 3-10 là một ví dụ về K-NN trong bài tốn phân loại với K = 1.

Hình 3. 10.Bản đồ 1-NN

Ví dụ trên hình 3-10 là bài tốn phân loại 03 lớp: Đỏ, Lam, Lục. Mỗi điểm dữ

40 Việc chọn số lượng nearest neighbor ảnh hưởng rất nhiều đến kết quả đầu ra (nhãn) của dữ liệu mới đưa vào. Ví dụ về thay đổi k dẫn đến thay đổi kết quả phân

loại được thể hiện trong Hình 3-11. Nếu xét 1, 3, 5 nearest neighbor thì z lần lượt

được gán vào lớp c2, c1, c1.

Hình 3. 11.Ví dụ về số lượng nearest neighbor ảnh hưởng tới kết quả phân loại.

Kết quả phân loại của k-NN phụ thuộc rất nhiều vào cách chọn số lượng nearest

neighbor nên chọn số lượng cụm là vấn đề quan trọng nhất của k-NN. Về lý thuyết,

1-NN cũng cĩ thể là một trong số các phương pháp tối ưu, nhưng trong thực tiễn

nên lấy nhiều nearest neighbor (k>1) khi cần phân lớp, tuy vậy k cũng khơng nên

quá lớn. Nếu k quá nhỏ, modelsẽ dễ bị ảnh hưởng bởi nhiễu; nếu k quá lớn sẽ phá

vỡ cấu trúc tiềm ẩn trong dữ liệu.

Khoảng cách d là yếu tố để lựa chọn nearest neighbor. Cĩ nhiều cách tính

khoảng cách trong k-NN:

- Các hàm khoảng cách hình học: cĩ thể phù hợp với các bài tốn cĩ các

thuộc tính đầu vào là kiểu số thực.

- Hàm khoảng cách Hamming: Cĩ thể phù hợp với các bài tốn cĩ các thuộc

tính đầu vào là kiểu nhị phân.

Một số hàm tính khoảng cách hình học thường dùng: - Hàm Euclid (p = 2): 𝑑𝑑(𝑥𝑥,𝑧𝑧) = �� 𝑑𝑑 𝑖𝑖=1 |𝑥𝑥𝑖𝑖 − 𝑧𝑧𝑖𝑖|2 - Hàm Manhattan (p = 1):

41 𝑑𝑑(𝑥𝑥,𝑧𝑧) = � 𝑑𝑑 𝑖𝑖=1 |𝑥𝑥𝑖𝑖 − 𝑧𝑧𝑖𝑖| - Hàm Minkowski (p-norm): 𝑑𝑑(𝑥𝑥,𝑧𝑧) =�� 𝑑𝑑 𝑖𝑖=1 |𝑥𝑥𝑖𝑖− 𝑧𝑧𝑖𝑖|𝑝𝑝�1/𝑝𝑝

Phương pháp K-NN cĩ một số ưu điểm như sau: độ phức tạp tính tốn của quá

trình training là bằng 0, dự đốn kết quả của dữ liệu mới rất đơn giản và khơng cần giả sử gì về phân phối của các lớp.

Bên cạnh đĩ cũng cĩ một số nhược điểm: K-NN rất nhạy cảm với nhiễu khi K

nhỏ; K-NN là một thuật tốn mà mọi tính tốn đều nằm ở khâu test, khi đĩ việc

tính khoảng cách tới từng điểm dữ liệu trong training set sẽ tốn rất nhiều thời gian, đặc biệt là với các cơ sở dữ liệu cĩ số chiều lớn và cĩ nhiều điểm dữ liệu.

3.3.5 Nạve Bayes

Xét bài tốn phân loại với C lớp. Giả sử cĩ một điểm dữ liệu 𝑥𝑥 ∈ 𝑅𝑅𝐷𝐷, xác suất để điểm dữ liệu này rơi vào lớp c là: 𝑝𝑝(𝑦𝑦 =𝐴𝐴|𝑥𝑥) hay 𝑝𝑝(𝐴𝐴|𝑥𝑥). Nếu tính tất cả các xác suất điểm dữ liệu rơi vào các lớp 1, 2, ...C thì cĩ thể xác định lớp của điểm dữ

liệu đĩ bằng cách chọn ra lớp cĩ xác suất cao nhất:

𝐴𝐴 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝑥𝑥);𝐴𝐴 ∈{1, 2, …𝐶𝐶}

Biểu thức trên thường khĩ được tính trực tiếp, thay vào đĩ, quy tắc Bayes được sử dụng:

𝐴𝐴 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥 𝑝𝑝(𝑝𝑝𝐴𝐴)(𝑝𝑝𝑥𝑥() 𝐴𝐴) ⇔ 𝐴𝐴 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝐴𝐴)𝑝𝑝(𝐴𝐴)

p(c) là xác suất để một điểm rơi vào lớp c. Giá trị này cĩ thể được tính bằng

phương pháp ước lượng hợp lý cực đại (Maximum likelihood function – MLE),

tức tỉ lệ số điểm dữ liệu trong tập training rơi vào lớp này chia cho tổng số lượng dữ liệu trong tập training; hoặc cũng cĩ thể được đánh giá bằng phương pháp Maximum a Posterior estimation - MAP. Trường hợp thứ nhất thường được sử dụng nhiều hơn.

Thành phần cịn lại p(x|c)tức phân phối của các điểm dữ liệu trong lớp c thường

rất khĩ tính tốn vì xlà một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều dữ liệu

training để cĩ thể xây dựng được phân phối đĩ. Để giúp cho việc tính tốn được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phần của

42

biến ngẫu nhiên x là độc lập với nhau, nếu biếtc. Khi đĩ p(x|c) sẽ được tính theo

cơng thức:

𝑝𝑝(𝐴𝐴) = 𝑝𝑝(𝐴𝐴) = �

𝑑𝑑 𝑖𝑖=1

𝑝𝑝(𝑥𝑥𝑖𝑖|𝐴𝐴)

Ở bước test, với một điểm dữ liệu mới x, lớp của nĩ sẽ được xác định bởi:

𝐴𝐴 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑝𝑝(𝐴𝐴)�

𝑑𝑑 𝑖𝑖=1

𝑝𝑝(𝐴𝐴);𝐴𝐴 ∈{1, 2, …𝐶𝐶}

Khi d lớn và các giá trị xác suất rất nhỏ, cơng thức trên cĩ thể được viết lại

thành:

𝐴𝐴 =𝑎𝑎𝑟𝑟𝑙𝑙𝑚𝑚𝑎𝑎𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 (𝑝𝑝(𝐴𝐴))�

𝑑𝑑 𝑖𝑖=1

𝑙𝑙𝑙𝑙𝑙𝑙 (𝑝𝑝(𝐴𝐴))

Mặc dù giả thiết mà Nạve Bayes Classifiers (NBC) sử dụng là quá phi thực tế, cả việc training và test của NBC nhanh hơn nhiều các phương pháp phân loại phức tạp khác. Việc giả sử các thành phần trong dữ liệu là độc lập với nhau, nếu biết

nhãn lớp, khiến cho việc tính tốn mỗi phân phối p(x|c) trở nên rất nhanh.

Mỗi giá trị p(c) cĩ thể được xác định như là tần suất xuất hiện của lớp c trong

training data.

Việc tính tốn p(xi|c) phụthuộc vào loại dữ liệu. Cĩ ba loại được sử dụng phổ

biến là: Gaussian Nạve Bayes, Multinomial Nạve Bayes, và Bernoulli Nạve. Trong bài tốn phân loại nhị phân, mơ hình Bernoulli Nạve thường được sử dụng.

Cơng thức p(xi|c) được tính theo mơ hình Bernoulli Nạve Bayes:

𝑝𝑝(𝑥𝑥𝑖𝑖|𝐴𝐴) = 𝑝𝑝(𝑖𝑖|𝐴𝐴)𝑥𝑥𝑖𝑖(1− 𝑝𝑝(𝑖𝑖|𝐴𝐴))1−𝑥𝑥𝑖𝑖

3.3.6 Support vector machine (SVM)

Support vector machine là một trong các bộ phân loại nhị phân cĩ độ chính xác phân loại cao nhất, dựa vào đặc tính tối ưu khoảng cách lề (margin) giữa hai lớp.

Thuật tốnnày đi tìm một hyperplane phân tách các điểm dữ liệu. Các hyperplane

43

Hình 3. 12.Các hyperlan phân tách dữ liệu thành hai miền

SVM đi tìm mặt phân cách sao cho margin tìm được là lớn nhất, đồng nghĩa với việc các điểm dữ liệu an tồn nhất so với mặt phân cách. Khoảng cách lề được

cho là tối ưu khi khoảng cách lề của hai lớp là bằng nhau và lớn nhất. Hình 3-13

mơ tả khoảng cách lề của hai lớp sử dụng bộ phân loại SVM và bộ phân loại khác.

Hình 3. 13.Lề của hai lớp là khơng bằng nhau (bên trái) và bằng nhau (bên phải)

Thuật tốn SVM được chia làm hai loại: hard margin SVM và soft margin SVM. Hard margin SVM thường dùng cho các bài tốn mà dữ liệu cĩ thể phân tách tuyến tính giữa các lớp. Ngược lại, soft margin SVM áp dụng được cho trường

hợp dữ liệu khơng phân tách được (non-separable).

Trong thuật tốn soft margin SVM, quá trình tối ưu thuật tốn là tìm các hyperparameter phù hợp nhất với training data. Các tham số này bao gồm chọn hàm kernel, hệ số C và tham số𝛾𝛾. Để chọn được bộ tham số phù hợp, cĩ thể sử

dụng kỹ thuật grid search, tạo các mơ hình nhận tham số là sự kết hợp của một tập

xác định các tham số (kernel, C, 𝛾𝛾) và đánh giá kết quả phân loại trên tập validation.

Bộ phân loại cho kết quả tốt nhất sẽđược trích xuất bộ tham số (kernel, C, 𝛾𝛾) để xây dựng một mơ hình SVM duy nhất.

44 Để đánh giá khách quan khả năng phân loại của mơ hình cần xem xét khả năng

Một phần của tài liệu Nghiên cứu đặc trưng điện não sử dụng cho phát hiện bệnh tâm thần phân liệt (Trang 44)

Tải bản đầy đủ (PDF)

(83 trang)