2.5.2 Nhận dạng mẫu và phân lớp siêu phẳng
Trong bài tốn nhận dạng mẫu, em cĩ một tập các điểm được biểu diễn như sau: (𝑥1,𝑦1 ), ..........., (𝑥𝑚,𝑦𝑚) ∈ 𝑅𝑛 × { - 1, +1}
Nĩ thể hiện các vector n chiều 𝑥1 và nhãn 𝑦1 của nĩ. Một nhãn với giá trị +1 xác định vector đĩ được phân vào lớp +1 và nhãn với giá trị -1 xác định vector đĩ được phân vào lớp -1. Em cần tìm một hàm:
f(x) = y : 𝑅𝑛 → { + 1, - 1}
để cĩ thể phân lớp một cách chính xác các mẫu trong dữ liệu huấn luyện. Máy vector hỗ trợ dựa trên một lớp các siêu phẳng sau:
w . x + b = 0, w ∈ 𝑅𝑛 , b ∈ R
Trong đĩ, vector w định nghĩa một hướng vuơng gĩc với một siêu phẳng, các giá trị khác nhau của b dịch chuyển siêu phẳng này song song với nĩ. Từ đĩ, siêu phẳng này cĩ thể chia khơng gian đầu vào thành hai phần: một phần chứa các vector thuộc lớp -1 và phần cịn lại thuộc vào lớp +1 (Hình 2.9). Nếu tồn tại một siêu phẳng đĩ, dữ liệu sẽ được phân chia một cách tuyến tính. Để tìm lớp cho một vector x, em cĩ thể sử dụng hàm sau [4]:
Hình 2.9 : Một sự phân chia siêu phẳng (w, b) cho một tập dữ liệu huấn luyện hai chiều [4]
2.5.3 Siêu phẳng tối ưu
Như em thấy biểu đồ bên phải của hình 2.10, cĩ rất nhiều siêu phẳng phân lớp chính xác các dữ liệu huấn luyện. Câu hỏi của em là bộ phân chia tuyến tính nào là tối ưu nhất và làm thế nào để em xác định được giá trị của bộ phân chia tối ưu này.
Hình 2.10: Cực đại lề siêu phẳng với các vector hỗ trợ [4]
Như em thấy ở hình 2.10 trên đây, các vector hỗ trợ cĩ thể hỗ trợ tạo ra một siêu phẳng phân chia hai lớp với lề cực đại. Siêu phẳng loại này thường được gọi là lề siêu phẳng tối ưu và chỉ cĩ duy nhất một siêu phẳng như vậy.
Để tính tốn được lề này, em phải xây dựng hai siêu phẳng song song, mỗi một siêu phẳng thuộc về các lớp tương ứng. Một sự phân chia tốt được thực hiện bởi một siêu phẳng cĩ khoảng cách lớn nhất đến các điểm của hai lớp.
Một cách mơ hình hĩa, em cĩ một tập S các điểm 𝑥𝑖 ∈ 𝑅𝑛 với i = 1, 2, 3... m. Mỗi một điểm 𝑥𝑖 thuộc một trong hai lớp với mức 𝑦𝑖 ∈ {-1, +1}. Mục đích của em là thiết lập một cơng thức siêu phẳng phân chia một cách rõ ràng các điểm trong khơng gian đa
Cặp (w, b) định nghĩa một siêu phẳng với cơng thức: w.x + b = 0
được gọi là siêu phẳng phân cách. Giá trị 2/||w|| là khoảng cách giữa hai lớp. Trong đĩ hướng của vector w được gọi là lề.
1/||w|| là khoảng cách nhỏ nhất giữa điểm 𝑥𝑖 và siêu phẳng (w, 𝑥𝑖). Do vậy, đối với tập S cĩ thể phân chia tuyến tính, siêu phẳng cĩ thể phân chia tối ưu là siêu phẳng phân chia với khoảng cách cực đại các điểm của S.
Khi khoảng của điểm gần nhất bằng 1/||w||, siêu phẳng phân chia tối ưu cĩ thể liên quan đến giải pháp sau:
Tối tiểu hĩa: ||𝑤||2 / 2
Với ràng buộc: 𝑦𝑖 ( w.𝑥1+ b) – 1 ≥ 0
Do đĩ, em cĩ thể tìm cặp các siêu phẳng cĩ thể đưa ra lề cực đại bằng việc tối tiểu hĩa ||𝑤||2 thỏa mãn (2). Các vector đĩ được gọi là các vector hỗ trợ, được mơ tả trong hình 2.11.
Vấn đề hạn chế trên cĩ thể được giải quyết bằng việc sử dụng phương thức hàm nhân Lagrange. Cĩ hai lý do để em cĩ thể sử dụng hàm nhân này. Thứ nhất, hằng số (2) sẽ được thay thế bằng hằng số trong hàm nhân Lagrange cĩ thể rất dễ để nắm bắt. Thứ hai, dữ liệu huấn luyện chỉ xuất hiện trong mơ hình các điểm chấm giữa các vector.
Do đĩ, em gọi một tham số 𝑎𝑖 , i = 1,2,....,m. Em cần nhớ lại luật rằng, ràng buộc của mẫu 𝑐𝑖 ≥ 0, cơng thức ràng buộc được nhân với hệ số nhân Lagrange và trừ đi hàm mục tiêu. Với các ràng buộc bình đẳng, hàm nhân Lagrange khơng bị ràng buộc.
𝐿 =1
2||𝑤||2− ∑𝑚𝑖=1𝛼𝑖𝑦𝑖(𝑥𝑖. 𝑤 + 𝑏) + ∑𝑚𝑖=1𝛼𝑖 (3)
Đây cũng chính là vấn đề lập trình phương trình bậc hai lồi, giải pháp của vấn đề này là tìm ra các điểm yên ngựa tương đương của vấn đề trên.
𝜕𝐿
𝜕𝑏 = ∑𝑚𝑖=1𝑦𝑖𝛼𝑖 = 0 𝜕𝐿
𝜕𝑏 = 𝑤. ∑𝑚𝑖=1𝛼𝑖𝑦𝑖𝑥𝑖 = 0
W = ∑𝑚𝑖=1𝛼𝑖𝑦𝑖𝑥𝑖
Nếu em thay thế hai cơng thức trên vào cơng thức (3), em sẽ cĩ:
L(𝛼) = ∑ 𝛼𝑖 −1 2 𝑚
𝑖=1 ∑𝑚𝑖,𝑗=1𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝑥𝑖. 𝑥𝑗 (4)
Vấn đề mới này được gọi là sự chia đơi vấn đề chính ban đầu. Nĩ cĩ một thuộc tính là giá trị cực đại của L, cĩ ràng buộc α ≥ 0, xảy ra tại các giá trị giống nhau của w, b và α, chính là giá trị tối tiểu của L, liên quan đến ràng buộc:
𝑦𝑖 (w.𝑥𝑖 + b) ≥ 0 do đĩ, chúng ta cĩ thể xây dựng vấn đề lại thành: Tối tiểu hĩa:
L(𝛼) = ∑ 𝛼𝑖−1 2 𝑚 𝑖=1 ∑𝑚𝑖,𝑗=1𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝑥𝑖. 𝑥𝑗 Với ràng buộc: ∑ 𝑦𝑖𝑎𝑖 𝑚 𝑖=1 = 0 𝛼 ≥ 0
Chú ý rằng chỉ 𝑎𝑖 cĩ thể khác khơng trong cơng thức (4) thỏa mãn ràng buộc (2) được thỏa mãn khi bằng nhau.
Với tham số w, tham số b cĩ thể được tính bằng: b = 𝑦𝑖 – w.𝑎𝑖
Do đĩ, vấn đề phân lớp một điểm dữ liệu 𝑥𝑖 bây giờ sẽ được giải quyết bằng việc tính hàm dấu:
Sign ( ∑𝑚𝑖=𝑗𝛼𝑖𝑦𝑖𝑥𝑖. 𝑥 + 𝑏)
với 𝑥𝑖 là vector hỗ trợ.
sai cĩ thể nằm ở bên trong hoặc ở vùng bên kia của lề).
Hình 2.12: Phân lớp lề mềm [4]
Em phải tìm ra được giá trị khoảng cách của mỗi điểm bị phân loại sai so với phân lề siêu phẳng. Để giải quyết vấn đề này, em gọi một biến mềm ξi. Biến mềm này cĩ thể được thêm vào để cho phép sự phân lớp sai, kết quả của lề này được gọi là lề mềm.
Do đĩ, điều kiện cho siêu phẳng phân cách trong cơng thức (1) cĩ thể được tính tốn một cách linh hoạt dựa vào biến mềm:
𝑦𝑖 (𝑤. 𝑥𝑖+ 𝑏) ≥ 1 − 𝜉𝑖 (1)
Nếu điểm 𝑥𝑖 thỏa mãn cơng thức (1), khi đĩ ξi bằng khơng và cơng thức trên cĩ thể tối giản thành cơng thức (1). Ngược lại, nếu 𝑥𝑖 khơng thỏa mãn cơng thức (1), tham số ξi là hệ số khử ở bên phải của cơng thức (1). Siêu phẳng phân cách tối ưu cĩ thể được tổng quát lại bằng cơng thức sau:
Tối tiểu hĩa:
1
2 ∥ 𝑤 ∥
2+ 𝐶 ∑ 𝜉𝑖 𝑚
Với ràng buộc :
𝑦𝑖(𝑤. 𝑥𝑖+ 𝑏) ≥ 1 − 𝜉𝑖 𝜉 ≥ 0
Tổng ∑𝑚𝑖=1𝜉𝑖 cĩ thể hiểu là tổng các khoảng cách từ các điểm bị phân loại sai đến mặt siêu phẳng phân cách. Mặt khác, tổng này cũng làm cho mặt siêu phẳng phân cách tối ưu ít nhạy cảm hơn so với sự xuất hiện của biên ngồi trong tập dữ liệu huấn luyện. Ở đây, C chính là một tham số quy tắc cĩ thể điều khiển giữa hai giá trị: cực đại hĩa lề và tối tiểu hĩa lỗi huấn luyện. Nếu C cĩ giá trị nhỏ thì sẽ cĩ xu hướng nhấn mạnh lề khi bỏ qua biên ngồi trong dữ liệu huấn luyện, nếu C cĩ giá trị lớn thì sẽ xử lý dữ liệu huấn luyện tốt hơn.
Tương tự với các bước với lề tuyến tính như ở trên, em cĩ thể mơ hình lại bài tốn khi áp dụng hàm nhân Lagrange [4]:
Tối tiểu hĩa:
L(𝛼) = ∑𝑚𝑖=1𝛼𝑖 − 1
2 ∑ 𝛼𝑚𝑖,𝑗 𝑖𝛼𝑗𝑦𝑖𝑦𝑖𝑥𝑖𝑥𝑖
Với Điều kiện
∑ 𝑦𝑖𝛼𝑖 = 𝑚
𝑖=1
0
0 ≤ 𝛼𝑖 ≤ 𝑐
Mơ hình Lagrange này cũng tương tự như mơ hình với phân lớp tuyến tính, nhưng cĩ thêm biên trên C của 𝛼𝑖.
2.6 Tổng kết Chương 2
Chương này trình bày về chi tiết một số phương pháp học máy cĩ giám sát và một số kỹ thuật áp dụng cho các phương pháp học máy như: phương pháp cây quyết định (Decision Tree), phương pháp Bayesian, phương pháp Random Forest(rừng ngẫu nhiên), phương pháp máy hỗ trợ vector (SVM).
liệu một ký tự viết tay đơn lẻ, tồn bộ một từ viết tay, hay tồn bộ một dịng chữ viết tay… Bước 2: Thu thập tập dữ liệu huấn luyện. Khi thu thập tập dữ liệu huấn luyện cần phải đảm bảo được sự đặc trưng cho thực tế sử dụng của hàm chức năng. Do đĩ tập các dữ liệu đầu vào và đầu ra tương ứng phải được thu thập từ các chuyên gia hoặc từ việc đo đạc tính tốn.
Bước 3: Xác định việc biểu diễn các đặc trưng đầu vào cho hàm mục tiêu cần tìm. Độ chính xác của mục tiêu phụ thuộc rất lớn vào các đối tượng đầu vào được biểu diễn như thế nào.
Bước 4: Xác định cấu trúc của hàm mục tiêu cần tìm và giải thuật học tương ứng. Ví dụ, em cĩ thể sử dụng mạng nơ-ron nhân tạo, cây quyết định, …
Bước 5: Hồn thiện và thiết kế chương trình.
Tiến hành chạy giải thuật học với tập dữ liệu huấn luyện thu thập được. Em cĩ thể điều chỉnh các tham số của giải thuật học bằng cách tối ưu hĩa hiệu năng trên một tập con của tập huấn luyện, (gọi là tập kiểm chứng -validation set) của tập huấn luyện hay thơng qua kiểm chứng chéo (cross-validation). Sau đĩ em tiến hành đo đạc hiệu năng của giải thuật trên một tập dữ liệu kiểm tra độc lập với tập huấn luyện.
Ví dụ về học giám sát
3.1.1 Học cĩ giám sát và ứng dụng hỗ trợ chẩn đốn bệnh ung thư vú
Các nhà nghiên cứu từ Đại học Helsinki đã chứng minh khả năng của các thuật tốn dựa trên trí tuệ nhân tạo trong việc dự đốn hiệu quả của một liệu pháp điều trị ung thư nhắm đích chỉ dựa trên cấu trúc mơ khối u mà khơng cần các xét nghiệm phân tử cụ thể. Kết quả cho thấy trí tuệ nhân tạo cĩ thể khám phá ra các mẫu trước đây đã bị ẩn đi trong các mẫu khối u và cho phép khám phá các đặc điểm khối u mới để dự đốn kết quả và hiệu quả của việc điều trị.
Trí tuệ nhân tạo dưới dạng học máy ngày càng được sử dụng nhiều hơn trong nghiên cứu ung thư và cĩ tiềm năng to lớn trong việc hỗ trợ chẩn đốn y tế. Các thuật tốn đã được đào tạo để giải quyết nhiều nhiệm vụ phức tạp như phát hiện mơ ung thư và phân loại khối u.
Hình 3.2 : Ánh mịnh hoạ (1)
Trong nghiên cứu được cơng bố trên tạp chí Scientific Reports vào ngày 17/2, một nhĩm do Giáo sư Johan Lundin dẫn đầu với mục đích thúc đẩy khả năng của các phương pháp này hơn nữa. Các nhà nghiên cứu tập trung vào việc phát triển một cơng cụ cĩ thể phát hiện các đặc điểm hình thái khối u điển hình cho ung thư vú dương tính với ERBB2. ERBB2 (cịn thường được gọi là HER2) là một oncoprotein cĩ tác dụng thúc đẩy sự phát triển của tế bào ung thư. Cứ trong 5 bệnh nhân ung thư vú thì cĩ 1 bệnh nhân cĩ thêm bản sao của gen ERBB2 và khối u của họ biểu hiện quá mức protein ERBB2. Những bệnh nhân này cĩ thể được hưởng lợi từ liệu pháp điều trị bằng kháng thể đơn dịng chống lại thụ thể ERBB2 (HER2).
Kết quả của nghiên cứu cho thấy thuật tốn trí tuệ nhân tạo cĩ thể học các mẫu dự đốn tình trạng ERBB2 của khối u trực tiếp từ hình thái khối u ở một loạt bệnh nhân ung thư vú (Nghiên cứu FinProg) mà khơng cần sử dụng xét nghiệm phân tử cụ thể.
Hình 3.3: Ảnh minh hoạ (2)
Tác giả chính của nghiên cứu, Dmitrii Bychkov đến từ Viện Y học Phân tử Phần Lan FIMM thuộc Đại học Helsinki cho biết: "Kết quả của chúng tơi cho thấy các đặc điểm hình thái của khối u chứa thơng tin rộng lớn về sinh học của căn bệnh cĩ thể được trích xuất bằng phương pháp học máy. Dữ liệu quý giá này cĩ thể hỗ trợ việc ra quyết định lâm sàng".
Để kiểm tra khả năng ứng dụng của phương pháp này, tiếp theo các nhà nghiên cứu đã áp dụng thuật tốn trí tuệ nhân tạo cho các mẫu mơ của bệnh nhân ung thư vú đã tham gia một thử nghiệm lâm sàng lớn (thử nghiệm FinHer) về điều trị kháng ERBB2 và tình trạng và kết quả ERBB2 của họ đã được biết.
Thật thú vị, thuật tốn cĩ thể phân biệt những bệnh nhân được điều trị bằng liệu pháp kháng ERBB2 (trastuzumab), một phương pháp điều trị nhắm đích cho các bệnh ung thư dương tính với ERBB2, thành hai nhĩm cĩ tiên lượng khác nhau. Những bệnh nhân cĩ khối u mà thuật tốn trí tuệ nhân tạo dự đốn là dương tính với ERBB2. dựa trên hình thái khối u được chứng minh là cĩ kết quả bệnh tốt hơn so với kết quả bệnh được trí tuệ nhân tạo dự đốn là âm tính ERBB2.
Phĩ giáo sư Nina Linder, người đồng giám sát nghiên cứu cho biết: “Các phương pháp dựa trên trí tuệ nhân tạo này mở ra cơ hội mới để khám phá các mơ hình ẩn trong kiến trúc mơ thúc đẩy sự phát triển của khối u và cĩ thể gĩp phần vào việc chẩn đốn chính xác hơn và đưa ra quyết định điều trị cá nhân hĩa tốt hơn ở bệnh ung thư vú”.
Các quan sát của nghiên cứu cũng cho thấy rằng một số khối u âm tính với ERBB2 theo các xét nghiệm phân tử cĩ các đặc điểm hình thái điển hình cho các khối u
dương tính với ERBB2. Theo các nhà nghiên cứu, những bệnh nhân này cĩ thể được hưởng lợi từ các phương pháp điều trị phù hợp với bệnh nhân dương tính với ERBB2.
Giáo sư Heikki Joensuu đến từ Trung tâm ung thư HUS và Đại học Helsinki, đồng tác giả của nghiên cứu, cho biết: "Các phương pháp dựa trên trí tuệ nhân tạo cĩ thể khơng chỉ bổ sung cho các phương pháp chẩn đốn phân tử hiện tại mà cịn cĩ thể vượt xa hơn nữa và dẫn đến cải thiện việc lựa chọn một số phương pháp điều trị ung thư đích cho bệnh nhân. Chúng tơi cĩ thể cần thiết kế các thử nghiệm lâm sàng để kiểm tra giả thuyết này. Quan trọng là, xét nghiệm cĩ thể được thực hiện từ phần khối u tiêu chuẩn".
Giáo sư Johan Lundin cho biết: “Đây là một trong những nghiên cứu đầu tiên cho thấy trí tuệ nhân tạo được áp dụng cho các mẫu khối u khơng chỉ cĩ thể dự đốn kết quả của bệnh mà cịn cả hiệu quả của một phương pháp điều trị ung thư nhắm đích phân tử”.
3.1.2 Giới thiệu về ung thư vú
Nguyên nhân chính thứ hai gây tử vong ở phụ nữ là ung thư vú (sau ung thư phổi) 1. 246.660 trường hợp phụ nữ mắc mới ung thư vú xâm lấn dự kiến sẽ được chẩn đốn ở Hoa Kỳ trong năm 2016 và 40,450 phụ nữ tử vong là ước tính. Ung thư vú chiếm khoảng 12% tổng số ca ung thư mới và 25% tổng số ca ung thư ở phụ nữ. Cơng nghệ Thơng tin và Truyền thơng (ICT) cĩ thể đĩng những vai trị tiềm năng trong việc chăm sĩc bệnh ung thư. Trên thực tế, dữ liệu lớn cĩ nâng cao khơng chỉ kích thước của dữ liệu mà cịn tạo ra giá trị từ nĩ; Dữ liệu lớn, trở thành đồng nghĩa của dữ liệu khai thác, phân tích kinh doanh và thơng minh kinh doanh, đã tạo ra một thay đổi lớn trong BI từ báo cáo và quyết định đến kết quả dự đốn. Ví dụ, các phương pháp tiếp cận khai thác dữ liệu được áp dụng cho các chủ đề khoa học y tế tăng lên nhanh chĩng do hiệu suất cao trong việc dự đốn kết quả, giảm chi phí thuốc, nâng cao sức khỏe của bệnh nhân, cải thiện giá trị và chất lượng chăm sĩc sức khỏe và trong việc đưa ra quyết định theo thời gian thực để cứu sống con người. Cĩ nhiều thuật tốn để phân loại và dự đốn kết quả ung thư vú. Bài báo hiện tại cho một so sánh giữa hiệu suất của bốn bộ phân loại: SVM5, NB6, C4.57 và k-NN8 nằm trong số những các thuật tốn khai thác dữ liệu cĩ ảnh hưởng trong cộng đồng nghiên cứu và nằm trong số 10 thuật tốn khai thác dữ liệu hàng đầu 9,10. Của em mục đích là đánh giá hiệu quả và hiệu quả của các thuật tốn đĩ về độ chính xác, độ nhạy, độ đặc hiệu và độ chính xác.