Chương này trình bày về chi tiết một số phương pháp học máy cĩ giám sát và một số kỹ thuật áp dụng cho các phương pháp học máy như: phương pháp cây quyết định (Decision Tree), phương pháp Bayesian, phương pháp Random Forest(rừng ngẫu nhiên), phương pháp máy hỗ trợ vector (SVM).
liệu một ký tự viết tay đơn lẻ, tồn bộ một từ viết tay, hay tồn bộ một dịng chữ viết tay… Bước 2: Thu thập tập dữ liệu huấn luyện. Khi thu thập tập dữ liệu huấn luyện cần phải đảm bảo được sự đặc trưng cho thực tế sử dụng của hàm chức năng. Do đĩ tập các dữ liệu đầu vào và đầu ra tương ứng phải được thu thập từ các chuyên gia hoặc từ việc đo đạc tính tốn.
Bước 3: Xác định việc biểu diễn các đặc trưng đầu vào cho hàm mục tiêu cần tìm. Độ chính xác của mục tiêu phụ thuộc rất lớn vào các đối tượng đầu vào được biểu diễn như thế nào.
Bước 4: Xác định cấu trúc của hàm mục tiêu cần tìm và giải thuật học tương ứng. Ví dụ, em cĩ thể sử dụng mạng nơ-ron nhân tạo, cây quyết định, …
Bước 5: Hồn thiện và thiết kế chương trình.
Tiến hành chạy giải thuật học với tập dữ liệu huấn luyện thu thập được. Em cĩ thể điều chỉnh các tham số của giải thuật học bằng cách tối ưu hĩa hiệu năng trên một tập con của tập huấn luyện, (gọi là tập kiểm chứng -validation set) của tập huấn luyện hay thơng qua kiểm chứng chéo (cross-validation). Sau đĩ em tiến hành đo đạc hiệu năng của giải thuật trên một tập dữ liệu kiểm tra độc lập với tập huấn luyện.
Ví dụ về học giám sát
3.1.1 Học cĩ giám sát và ứng dụng hỗ trợ chẩn đốn bệnh ung thư vú
Các nhà nghiên cứu từ Đại học Helsinki đã chứng minh khả năng của các thuật tốn dựa trên trí tuệ nhân tạo trong việc dự đốn hiệu quả của một liệu pháp điều trị ung thư nhắm đích chỉ dựa trên cấu trúc mơ khối u mà khơng cần các xét nghiệm phân tử cụ thể. Kết quả cho thấy trí tuệ nhân tạo cĩ thể khám phá ra các mẫu trước đây đã bị ẩn đi trong các mẫu khối u và cho phép khám phá các đặc điểm khối u mới để dự đốn kết quả và hiệu quả của việc điều trị.
Trí tuệ nhân tạo dưới dạng học máy ngày càng được sử dụng nhiều hơn trong nghiên cứu ung thư và cĩ tiềm năng to lớn trong việc hỗ trợ chẩn đốn y tế. Các thuật tốn đã được đào tạo để giải quyết nhiều nhiệm vụ phức tạp như phát hiện mơ ung thư và phân loại khối u.
Hình 3.2 : Ánh mịnh hoạ (1)
Trong nghiên cứu được cơng bố trên tạp chí Scientific Reports vào ngày 17/2, một nhĩm do Giáo sư Johan Lundin dẫn đầu với mục đích thúc đẩy khả năng của các phương pháp này hơn nữa. Các nhà nghiên cứu tập trung vào việc phát triển một cơng cụ cĩ thể phát hiện các đặc điểm hình thái khối u điển hình cho ung thư vú dương tính với ERBB2. ERBB2 (cịn thường được gọi là HER2) là một oncoprotein cĩ tác dụng thúc đẩy sự phát triển của tế bào ung thư. Cứ trong 5 bệnh nhân ung thư vú thì cĩ 1 bệnh nhân cĩ thêm bản sao của gen ERBB2 và khối u của họ biểu hiện quá mức protein ERBB2. Những bệnh nhân này cĩ thể được hưởng lợi từ liệu pháp điều trị bằng kháng thể đơn dịng chống lại thụ thể ERBB2 (HER2).
Kết quả của nghiên cứu cho thấy thuật tốn trí tuệ nhân tạo cĩ thể học các mẫu dự đốn tình trạng ERBB2 của khối u trực tiếp từ hình thái khối u ở một loạt bệnh nhân ung thư vú (Nghiên cứu FinProg) mà khơng cần sử dụng xét nghiệm phân tử cụ thể.
Hình 3.3: Ảnh minh hoạ (2)
Tác giả chính của nghiên cứu, Dmitrii Bychkov đến từ Viện Y học Phân tử Phần Lan FIMM thuộc Đại học Helsinki cho biết: "Kết quả của chúng tơi cho thấy các đặc điểm hình thái của khối u chứa thơng tin rộng lớn về sinh học của căn bệnh cĩ thể được trích xuất bằng phương pháp học máy. Dữ liệu quý giá này cĩ thể hỗ trợ việc ra quyết định lâm sàng".
Để kiểm tra khả năng ứng dụng của phương pháp này, tiếp theo các nhà nghiên cứu đã áp dụng thuật tốn trí tuệ nhân tạo cho các mẫu mơ của bệnh nhân ung thư vú đã tham gia một thử nghiệm lâm sàng lớn (thử nghiệm FinHer) về điều trị kháng ERBB2 và tình trạng và kết quả ERBB2 của họ đã được biết.
Thật thú vị, thuật tốn cĩ thể phân biệt những bệnh nhân được điều trị bằng liệu pháp kháng ERBB2 (trastuzumab), một phương pháp điều trị nhắm đích cho các bệnh ung thư dương tính với ERBB2, thành hai nhĩm cĩ tiên lượng khác nhau. Những bệnh nhân cĩ khối u mà thuật tốn trí tuệ nhân tạo dự đốn là dương tính với ERBB2. dựa trên hình thái khối u được chứng minh là cĩ kết quả bệnh tốt hơn so với kết quả bệnh được trí tuệ nhân tạo dự đốn là âm tính ERBB2.
Phĩ giáo sư Nina Linder, người đồng giám sát nghiên cứu cho biết: “Các phương pháp dựa trên trí tuệ nhân tạo này mở ra cơ hội mới để khám phá các mơ hình ẩn trong kiến trúc mơ thúc đẩy sự phát triển của khối u và cĩ thể gĩp phần vào việc chẩn đốn chính xác hơn và đưa ra quyết định điều trị cá nhân hĩa tốt hơn ở bệnh ung thư vú”.
Các quan sát của nghiên cứu cũng cho thấy rằng một số khối u âm tính với ERBB2 theo các xét nghiệm phân tử cĩ các đặc điểm hình thái điển hình cho các khối u
dương tính với ERBB2. Theo các nhà nghiên cứu, những bệnh nhân này cĩ thể được hưởng lợi từ các phương pháp điều trị phù hợp với bệnh nhân dương tính với ERBB2.
Giáo sư Heikki Joensuu đến từ Trung tâm ung thư HUS và Đại học Helsinki, đồng tác giả của nghiên cứu, cho biết: "Các phương pháp dựa trên trí tuệ nhân tạo cĩ thể khơng chỉ bổ sung cho các phương pháp chẩn đốn phân tử hiện tại mà cịn cĩ thể vượt xa hơn nữa và dẫn đến cải thiện việc lựa chọn một số phương pháp điều trị ung thư đích cho bệnh nhân. Chúng tơi cĩ thể cần thiết kế các thử nghiệm lâm sàng để kiểm tra giả thuyết này. Quan trọng là, xét nghiệm cĩ thể được thực hiện từ phần khối u tiêu chuẩn".
Giáo sư Johan Lundin cho biết: “Đây là một trong những nghiên cứu đầu tiên cho thấy trí tuệ nhân tạo được áp dụng cho các mẫu khối u khơng chỉ cĩ thể dự đốn kết quả của bệnh mà cịn cả hiệu quả của một phương pháp điều trị ung thư nhắm đích phân tử”.
3.1.2 Giới thiệu về ung thư vú
Nguyên nhân chính thứ hai gây tử vong ở phụ nữ là ung thư vú (sau ung thư phổi) 1. 246.660 trường hợp phụ nữ mắc mới ung thư vú xâm lấn dự kiến sẽ được chẩn đốn ở Hoa Kỳ trong năm 2016 và 40,450 phụ nữ tử vong là ước tính. Ung thư vú chiếm khoảng 12% tổng số ca ung thư mới và 25% tổng số ca ung thư ở phụ nữ. Cơng nghệ Thơng tin và Truyền thơng (ICT) cĩ thể đĩng những vai trị tiềm năng trong việc chăm sĩc bệnh ung thư. Trên thực tế, dữ liệu lớn cĩ nâng cao khơng chỉ kích thước của dữ liệu mà cịn tạo ra giá trị từ nĩ; Dữ liệu lớn, trở thành đồng nghĩa của dữ liệu khai thác, phân tích kinh doanh và thơng minh kinh doanh, đã tạo ra một thay đổi lớn trong BI từ báo cáo và quyết định đến kết quả dự đốn. Ví dụ, các phương pháp tiếp cận khai thác dữ liệu được áp dụng cho các chủ đề khoa học y tế tăng lên nhanh chĩng do hiệu suất cao trong việc dự đốn kết quả, giảm chi phí thuốc, nâng cao sức khỏe của bệnh nhân, cải thiện giá trị và chất lượng chăm sĩc sức khỏe và trong việc đưa ra quyết định theo thời gian thực để cứu sống con người. Cĩ nhiều thuật tốn để phân loại và dự đốn kết quả ung thư vú. Bài báo hiện tại cho một so sánh giữa hiệu suất của bốn bộ phân loại: SVM5, NB6, C4.57 và k-NN8 nằm trong số những các thuật tốn khai thác dữ liệu cĩ ảnh hưởng trong cộng đồng nghiên cứu và nằm trong số 10 thuật tốn khai thác dữ liệu hàng đầu 9,10. Của em mục đích là đánh giá hiệu quả và hiệu quả của các thuật tốn đĩ về độ chính xác, độ nhạy, độ đặc hiệu và độ chính xác.
giản; để tìm bộ phân loại tốt nhất trong bộ dữ liệu ung thư vú. Kết quả thử nghiệm cho thấy hạt nhân SVM-RBF chính xác hơn các bộ phân loại khác; nĩ đạt độ chính xác 96,84% trong bộ dữ liệu Ung thư vú Wisconsin (gốc). Djebbari etal. xem xét tác động của tập hợp các kỹ thuật máy học để dự đốn thời gian sống sĩt trong bệnh ung thư vú. Kỹ thuật của họ cho thấy độ chính xác tốt hơn trên tập dữ liệu ung thư vú của họ so với các kết quả trước đĩ. S. Aruna và L.V Nandakishore [15], so sánh hiệu suất của C4.5, Nạve Bayes, Hỗ trợ Vector Machine (SVM) và K- Nearest Neighbor (K-NN) để tìm bộ phân loại tốt nhất trong WBC. SVM được chứng minh là bộ phân loại chính xác nhất 96,99%. Angeline Christobel. Y và Tiến sĩ Sivaprakasam[16], đạt độ chính xác 69,23% bằng cách sử dụng bộ phân loại cây quyết định (CART) trong bộ dữ liệu ung thư vú.
Độ chính xác của thuật tốn khai thác dữ liệu SVM, IBK, BF Tree được so sánh bởi A. Pradesh[17]. Hiệu suất của SMO cho thấy giá trị cao hơn so với các bộ phân loại khác. T.Joachims[18]. đạt độ chính xác 95,06% với kỹ thuật làm mờ nơ-ron khi sử dụng bộ dữ liệu Ung thư vú Wisconsin (gốc). Trong nghiên cứu này, một phương pháp lai được đề xuất để nâng cao độ chính xác phân loại của bộ dữ liệu Ung thư vú Wisconsin (gốc) (95,96) với 10 lần chéo Thẩm định. Liu Ya-Qin’s, W. Cheng và Z. Lu[19] đã thử nghiệm trên dữ liệu ung thư vú bằng thuật tốn C5 với đĩng bao; bằng cách tạo dữ liệu bổ sung để đào tạo từ tập hợp ban đầu bằng cách sử dụng các kết hợp cĩ lặp lại để tạo ra nhiều tập hợp cĩ cùng kích thước với dữ liệu ban đầu của bạn; để dự đốn khả năng sống sĩt của ung thư vú. Delen et al. Lu[20] lấy 202.932 hồ sơ bệnh nhân ung thư vú, sau đĩ được phân loại trước thành hai nhĩm “sống sĩt” (93.273) và “khơng sống sĩt” (109,659). Kết quả dự đốn khả năng sống sĩt nằm trong khoảng 93% sự chính xác.
Trong nghiên cứu này, trên cơ sở dữ liệu bệnh ung thư vú Wisconsin (gốc) đã thu thập, tác giả đã nghiên cứu và tiến hành thực nghiệm với các thuật tốn phổ biến gồm:
SVM, NB, K-NN và J48. Kết quả cho thấy SVM đạt độ chính xác cao nhất (96.42%) với tỷ lệ sai số thấp nhất (0,03%) khơng giống như J48 cĩ độ chính xác thay đổi từ 92,85% sai số tỷ lệ thay đổi trong khoảng 0,09, cịn Nạve Bayes và k-NN cĩ độ chính xác thay đổi từ 95,71% và sai số tỷ lệ thay đổi trong khoảng 0,04.
3.1.4 Thu thập, tiền xử lý và mã hĩa dữ liệu
Dữ liệu thực nghiệm Breast Cancer được thu thập lấy từ kho lưu trữ học máy của UCI thu thập https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
Chi tiết của bộ dữ liệu đã thu thập này được cung cấp bởi bảng 3.1 và bảng 3.2
Bảng 3.1 : Tổng hợp dữ liệu thu thập Data Set Characteristics Multivariate Number of Instances 699 Area Life Attribute Characteristics Real Number of Attributes 11 Date Donated 1992-07-15
Associated Tasks Classification Missing Values
Yes Number of
Web Hits
756567
Biến ID thể hiện thơng tin của quan sát Biến Class thể hiện chẩn đốn xem khối u
lành tính (65,52% trường hợp) ác tính (34,48% trường hợp). Các biến đầu vào cịn lại được đo trên thang đo thứ tự (1-10), với giá trị 1 cho biết trạng thái bình thường và giá trị 10 cho biết trạng thái bất thường cao. Các giá trị bị thiếu : Cĩ 16 trường hợp chứa một giá trị thuộc tính bị thiếu được biểu thị bằng "?".
Bảng 3.2 : Các tính năng dành cho các dữ liệu bệnh ung thư vú
TT Đặc trưng Kiểu dữ liệu Giá trị danh nghĩa
1 ID number numeric ID number
2 Clump Thickness numeric Thickness from 1-10 3 Uniformity of Cell
Size
numeric Size from 1-10 4 Uniformity of Cell
Shape
numeric Shape from 1-0 5 Marginal Adhesion numeric Marginal from 1-0 6 Single Epithelial Cell numeric Single Epithelial Cell
from 1-10
7 Bare Nuclei numeric Bare Nuclei from 1-10
8 Bland Chromatin numeric 1-10
❖ Rút trích đặc trưng (Extract features)
Để xây dựng một mơ hình phân lớp, trước tiên em trích xuất các tính năng mà đĩng gĩp nhiều nhất cho quá trình phân lớp. Trong tập dữ liệu ung thư, các dữ liệu được ghi nhãn với hai lớp - 4 (ác tính) và 2 (khơng ác tính).
Để cho các tính năng sẽ được sử dụng bởi một thuật tốn máy học, các tính năng được biến đổi và đưa vào Vectors tính năng, mà là vectơ các số đại diện cho các giá trị cho mỗi tính năng.
Hình 3.4: Sơ đồ phương pháp phân lớp bệnh ung thư vú (Breast cancer)
3.1.5 Mơ tả sơ lược về dữ liệu
Để nạp dữ liệu breast cancer và weka, em cần thêm thơng tin các thuộc tính nằm trong file mơ tả vào tập dữ liệu, sau đĩ chuyển đuơi mở rộng thành *.csv (breast cancer.csv)
Hình 3.5: Load breast cancer data
● Số lượng mẫu: 699. ● Số lượng thuộc tính: 11.
● Kiểu của mỗi thuộc tính: numeric.
3.2 Giới thiệu về cơng cụ Weka, cấu hình và ứng dụng trong hỗ trợ chẩn đốn bệnh ung thư vú bệnh ung thư vú
3.2.1 Khái niệm của cơng cụ Weka
Weka là một bộ phần mềm mã nguồn mở miễn phí khai thác dữ liệu, được xây dựng bằng ngơn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổ chức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu. Weka là phần mềm thuộc dự án phát triển của Đại học Waikato, New Zealand, nĩ là tên viết tắt của Waikato Environment for Knowledge Analysis. Ngồi khuơn khổ trường đại học, Weka được phát âm vần điệu với Mecca, đây là một lồi chim khơng bay với bản chất tị mị chỉ tìm thấy trên các đảo ở New Zealand, đồng thời, lồi chim này cũng chính là biểu tượng cho phần mềm Weka.
Hình 3.6: Giao diên ban đầu phần mền WEKA
Weka cung cấp các thuật tốn học tập mà em cĩ thể dễ dàng áp dụng cho các bộ dữ liệu (dataset). Nĩ cũng bao gồm một loạt các cơng cụ để chuyển đổi các bộ dữ liệu như các thuật tốn để phân loại và lấy mẫu mà khơng cần phải viết bất kỳ mã chương trình nào.
Theo KDNuggets (2005) đánh giá, Weka là sản phẩm khai thác dữ liệu được sử dụng nhiều nhất, nổi bật và hiệu quả nhất năm 2005.
Weka chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu cũng như lập các mơ hình dự đốn, cùng với các giao diện người dùng đồ họa để dễ dàng truy cập các chức năng này.
3.2.2 Ưu điểm của Weka
Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 và được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục và nghiên cứu bởi những ưu điểm sau:
• Tính khả dụng miễn phí theo Giấy phép Cơng cộng GNU (giấy phép cung cấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự do chạy, nghiên cứu, chia sẻ và thay đổi phần mềm).
• Được thực hiện bởi ngơn ngữ lập trình Java nên Weka cĩ tính di động khi nĩ chạy được trên hầu hết bất kỳ nền tảng điện tốn hiện đại nào đã được thử nghiệm như Linux, Windows hay hệ điều hành Macintosh.
• Giao diện đồ họa giúp người dùng dễ sử dụng.
Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng. Tất cả