3.1 Tổng quan bài tốn học cĩ giám sát, hỗ trợ chẩn đốn bệnh ung thư vú
3.1.2 Giới thiệu về ung thư vú
Nguyên nhân chính thứ hai gây tử vong ở phụ nữ là ung thư vú (sau ung thư phổi) 1. 246.660 trường hợp phụ nữ mắc mới ung thư vú xâm lấn dự kiến sẽ được chẩn đốn ở Hoa Kỳ trong năm 2016 và 40,450 phụ nữ tử vong là ước tính. Ung thư vú chiếm khoảng 12% tổng số ca ung thư mới và 25% tổng số ca ung thư ở phụ nữ. Cơng nghệ Thơng tin và Truyền thơng (ICT) cĩ thể đĩng những vai trị tiềm năng trong việc chăm sĩc bệnh ung thư. Trên thực tế, dữ liệu lớn cĩ nâng cao khơng chỉ kích thước của dữ liệu mà cịn tạo ra giá trị từ nĩ; Dữ liệu lớn, trở thành đồng nghĩa của dữ liệu khai thác, phân tích kinh doanh và thơng minh kinh doanh, đã tạo ra một thay đổi lớn trong BI từ báo cáo và quyết định đến kết quả dự đốn. Ví dụ, các phương pháp tiếp cận khai thác dữ liệu được áp dụng cho các chủ đề khoa học y tế tăng lên nhanh chĩng do hiệu suất cao trong việc dự đốn kết quả, giảm chi phí thuốc, nâng cao sức khỏe của bệnh nhân, cải thiện giá trị và chất lượng chăm sĩc sức khỏe và trong việc đưa ra quyết định theo thời gian thực để cứu sống con người. Cĩ nhiều thuật tốn để phân loại và dự đốn kết quả ung thư vú. Bài báo hiện tại cho một so sánh giữa hiệu suất của bốn bộ phân loại: SVM5, NB6, C4.57 và k-NN8 nằm trong số những các thuật tốn khai thác dữ liệu cĩ ảnh hưởng trong cộng đồng nghiên cứu và nằm trong số 10 thuật tốn khai thác dữ liệu hàng đầu 9,10. Của em mục đích là đánh giá hiệu quả và hiệu quả của các thuật tốn đĩ về độ chính xác, độ nhạy, độ đặc hiệu và độ chính xác.
giản; để tìm bộ phân loại tốt nhất trong bộ dữ liệu ung thư vú. Kết quả thử nghiệm cho thấy hạt nhân SVM-RBF chính xác hơn các bộ phân loại khác; nĩ đạt độ chính xác 96,84% trong bộ dữ liệu Ung thư vú Wisconsin (gốc). Djebbari etal. xem xét tác động của tập hợp các kỹ thuật máy học để dự đốn thời gian sống sĩt trong bệnh ung thư vú. Kỹ thuật của họ cho thấy độ chính xác tốt hơn trên tập dữ liệu ung thư vú của họ so với các kết quả trước đĩ. S. Aruna và L.V Nandakishore [15], so sánh hiệu suất của C4.5, Nạve Bayes, Hỗ trợ Vector Machine (SVM) và K- Nearest Neighbor (K-NN) để tìm bộ phân loại tốt nhất trong WBC. SVM được chứng minh là bộ phân loại chính xác nhất 96,99%. Angeline Christobel. Y và Tiến sĩ Sivaprakasam[16], đạt độ chính xác 69,23% bằng cách sử dụng bộ phân loại cây quyết định (CART) trong bộ dữ liệu ung thư vú.
Độ chính xác của thuật tốn khai thác dữ liệu SVM, IBK, BF Tree được so sánh bởi A. Pradesh[17]. Hiệu suất của SMO cho thấy giá trị cao hơn so với các bộ phân loại khác. T.Joachims[18]. đạt độ chính xác 95,06% với kỹ thuật làm mờ nơ-ron khi sử dụng bộ dữ liệu Ung thư vú Wisconsin (gốc). Trong nghiên cứu này, một phương pháp lai được đề xuất để nâng cao độ chính xác phân loại của bộ dữ liệu Ung thư vú Wisconsin (gốc) (95,96) với 10 lần chéo Thẩm định. Liu Ya-Qin’s, W. Cheng và Z. Lu[19] đã thử nghiệm trên dữ liệu ung thư vú bằng thuật tốn C5 với đĩng bao; bằng cách tạo dữ liệu bổ sung để đào tạo từ tập hợp ban đầu bằng cách sử dụng các kết hợp cĩ lặp lại để tạo ra nhiều tập hợp cĩ cùng kích thước với dữ liệu ban đầu của bạn; để dự đốn khả năng sống sĩt của ung thư vú. Delen et al. Lu[20] lấy 202.932 hồ sơ bệnh nhân ung thư vú, sau đĩ được phân loại trước thành hai nhĩm “sống sĩt” (93.273) và “khơng sống sĩt” (109,659). Kết quả dự đốn khả năng sống sĩt nằm trong khoảng 93% sự chính xác.
Trong nghiên cứu này, trên cơ sở dữ liệu bệnh ung thư vú Wisconsin (gốc) đã thu thập, tác giả đã nghiên cứu và tiến hành thực nghiệm với các thuật tốn phổ biến gồm:
SVM, NB, K-NN và J48. Kết quả cho thấy SVM đạt độ chính xác cao nhất (96.42%) với tỷ lệ sai số thấp nhất (0,03%) khơng giống như J48 cĩ độ chính xác thay đổi từ 92,85% sai số tỷ lệ thay đổi trong khoảng 0,09, cịn Nạve Bayes và k-NN cĩ độ chính xác thay đổi từ 95,71% và sai số tỷ lệ thay đổi trong khoảng 0,04.
3.1.4 Thu thập, tiền xử lý và mã hĩa dữ liệu
Dữ liệu thực nghiệm Breast Cancer được thu thập lấy từ kho lưu trữ học máy của UCI thu thập https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
Chi tiết của bộ dữ liệu đã thu thập này được cung cấp bởi bảng 3.1 và bảng 3.2
Bảng 3.1 : Tổng hợp dữ liệu thu thập Data Set Characteristics Multivariate Number of Instances 699 Area Life Attribute Characteristics Real Number of Attributes 11 Date Donated 1992-07-15
Associated Tasks Classification Missing Values
Yes Number of
Web Hits
756567
Biến ID thể hiện thơng tin của quan sát Biến Class thể hiện chẩn đốn xem khối u
lành tính (65,52% trường hợp) ác tính (34,48% trường hợp). Các biến đầu vào cịn lại được đo trên thang đo thứ tự (1-10), với giá trị 1 cho biết trạng thái bình thường và giá trị 10 cho biết trạng thái bất thường cao. Các giá trị bị thiếu : Cĩ 16 trường hợp chứa một giá trị thuộc tính bị thiếu được biểu thị bằng "?".
Bảng 3.2 : Các tính năng dành cho các dữ liệu bệnh ung thư vú
TT Đặc trưng Kiểu dữ liệu Giá trị danh nghĩa
1 ID number numeric ID number
2 Clump Thickness numeric Thickness from 1-10 3 Uniformity of Cell
Size
numeric Size from 1-10 4 Uniformity of Cell
Shape
numeric Shape from 1-0 5 Marginal Adhesion numeric Marginal from 1-0 6 Single Epithelial Cell numeric Single Epithelial Cell
from 1-10
7 Bare Nuclei numeric Bare Nuclei from 1-10
8 Bland Chromatin numeric 1-10
❖ Rút trích đặc trưng (Extract features)
Để xây dựng một mơ hình phân lớp, trước tiên em trích xuất các tính năng mà đĩng gĩp nhiều nhất cho quá trình phân lớp. Trong tập dữ liệu ung thư, các dữ liệu được ghi nhãn với hai lớp - 4 (ác tính) và 2 (khơng ác tính).
Để cho các tính năng sẽ được sử dụng bởi một thuật tốn máy học, các tính năng được biến đổi và đưa vào Vectors tính năng, mà là vectơ các số đại diện cho các giá trị cho mỗi tính năng.
Hình 3.4: Sơ đồ phương pháp phân lớp bệnh ung thư vú (Breast cancer)
3.1.5 Mơ tả sơ lược về dữ liệu
Để nạp dữ liệu breast cancer và weka, em cần thêm thơng tin các thuộc tính nằm trong file mơ tả vào tập dữ liệu, sau đĩ chuyển đuơi mở rộng thành *.csv (breast cancer.csv)
Hình 3.5: Load breast cancer data
● Số lượng mẫu: 699. ● Số lượng thuộc tính: 11.
● Kiểu của mỗi thuộc tính: numeric.
3.2 Giới thiệu về cơng cụ Weka, cấu hình và ứng dụng trong hỗ trợ chẩn đốn bệnh ung thư vú bệnh ung thư vú
3.2.1 Khái niệm của cơng cụ Weka
Weka là một bộ phần mềm mã nguồn mở miễn phí khai thác dữ liệu, được xây dựng bằng ngơn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổ chức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu. Weka là phần mềm thuộc dự án phát triển của Đại học Waikato, New Zealand, nĩ là tên viết tắt của Waikato Environment for Knowledge Analysis. Ngồi khuơn khổ trường đại học, Weka được phát âm vần điệu với Mecca, đây là một lồi chim khơng bay với bản chất tị mị chỉ tìm thấy trên các đảo ở New Zealand, đồng thời, lồi chim này cũng chính là biểu tượng cho phần mềm Weka.
Hình 3.6: Giao diên ban đầu phần mền WEKA
Weka cung cấp các thuật tốn học tập mà em cĩ thể dễ dàng áp dụng cho các bộ dữ liệu (dataset). Nĩ cũng bao gồm một loạt các cơng cụ để chuyển đổi các bộ dữ liệu như các thuật tốn để phân loại và lấy mẫu mà khơng cần phải viết bất kỳ mã chương trình nào.
Theo KDNuggets (2005) đánh giá, Weka là sản phẩm khai thác dữ liệu được sử dụng nhiều nhất, nổi bật và hiệu quả nhất năm 2005.
Weka chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu cũng như lập các mơ hình dự đốn, cùng với các giao diện người dùng đồ họa để dễ dàng truy cập các chức năng này.
3.2.2 Ưu điểm của Weka
Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 và được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục và nghiên cứu bởi những ưu điểm sau:
• Tính khả dụng miễn phí theo Giấy phép Cơng cộng GNU (giấy phép cung cấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự do chạy, nghiên cứu, chia sẻ và thay đổi phần mềm).
• Được thực hiện bởi ngơn ngữ lập trình Java nên Weka cĩ tính di động khi nĩ chạy được trên hầu hết bất kỳ nền tảng điện tốn hiện đại nào đã được thử nghiệm như Linux, Windows hay hệ điều hành Macintosh.
• Giao diện đồ họa giúp người dùng dễ sử dụng.
Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ liệu cĩ sẵn dưới dạng một tệp phẳng hoặc quan hệ, trong đĩ mỗi điểm dữ liệu được mơ tả bằng một số thuộc tính cố định (thơng thường là thuộc tính số hoặc danh nghĩa, nhưng một số loại thuộc tính khác cũng được hỗ trợ). Weka cung cấp quyền truy cập vào cơ sở dữ liệu SQL bằng cách sử dụng Java Database Connectivity và cĩ thể xử lý kết quả được trả về bởi truy vấn cơ sở dữ liệu.
3.2.3 Kiến trúc thư viện Weka
Để thuận tiện cho việc sử dụng của người dùng, kiến trúc thư viện của Weka được xây dựng với hơn 600 lớp và được tổ chức thành 10 gĩi (package), trong đĩ, mỗi package sẽ thực hiện một nhiệm vụ chức năng riêng biệt trong quá trình khai thác dữ liệu. Để người dùng cĩ thể tự xây dựng ứng dụng của bản thân mình thì người dùng cĩ thể trực tiếp sử dụng những package này để xây dựng các chương trình. Weka cĩ một số lượng lớn các cơng cụ hồi quy và phân loại. Một số cơng cụ hồi quy phổ biến là:
● M5Rules (thuật tốn M5' được trình bày dưới dạng hàm tốn học khơng cĩ cây) ● DecisionStump (giống như M5' nhưng với một đầu ra số duy nhất trong mỗi nút) ● M5P (tách miền thành các vùng nhị phân kế tiếp và sau đĩ phù hợp với các mơ hình tuyến tính cho mỗi nút cây)
● RandomForest (một số cây mơ hình kết hợp) ● RepTree (một số cây mơ hình kết hợp) ● ZeroR (giá trị trung bình của kết quả đầu ra)
● DecisionRules (chia tách dữ liệu thành nhiều vùng dựa trên một biến độc lập và cung cấp một giá trị đầu ra cho mỗi phạm vi)
● LinearRegression
● Sự hồi quy vector hỗ trợ
● SimpleLinearRegression (sử dụng một biến chặn và chỉ 1 biến đầu vào cho dữ liệu đa biến)
● MultiLayerPerceptron (mạng nơron) ● GaussianProcesses
kê (Statistical tests) giữa các mơ hình học máy ● KnowledgeFlow
Mơi trường cho phép bạn tương tác đồ hoạ kiểu kéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm
3.2.5 Định dạng dữ liệu của Weka
Weka hỗ trợ khá nhiều định dạng như: ● ARFF: *.arff
● CVS files: *.cvs
● C4.5 files: *.name, *.data ● XRFF files: *.xrff
Trong đĩ, ARFF là định dạng chính được sử dụng phổ biến nhất trong Weka. ARFF là định dạng được sử dụng chính trong Weka, được biểu diễn dưới một dạng file text cĩ thể đọc được một cách đơn giản bằng các chương trình như notepad… mà khơng cần phải cĩ chương trình chuyên dụng. Các dữ liệu trong file là giá trị thuộc tính của các thể hiện (instance) cĩ chung tập hợp các thuộc tính. ARFF dễ thao tác và dễ hiểu, người dùng cĩ thể tự tạo cho mình một file ARFF khi hiểu về những quy định chuẩn của nĩ. Tuy nhiên, vì là định dạng chuyên dụng cho mỗi chương trình Weka nên những ứng dụng khác khơng thể đọc được nĩ. Do đĩ, khi sử dụng kết hợp Weka với các chương trình khác thì người dùng buộc phải xây dựng các module để chuyển kiểu dữ liệu từ ARFF sang kiểu dữ liệu tương ứng với chương trình đĩ. Cấu trúc tập tin *.ARFF bao gồm các thành phần:
● Header: chứa khai báo quan hệ, danh sách các thuộc tính (tên, kiểu dữ liệu). ● Data: gồm nhiều dịng, mỗi dịng thể hiện giá trị của các thuộc tính cho một mẫu.
● Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm: - numeric: là kiểu dữ liệu số, gồm real và integer - nominal: là kiểu dữ liệu danh sách.
- string: là kiểu dữ liệu dạng chuỗi
- date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)
Các dịng bắt đầu bằng % là nhận xét. @RELATION, @ATTRIBUTE và Khai báo @DATA khơng phân biệt chữ hoa chữ thường
3.2.6 Các bước chức năng phân lớp (Classify)
Các bước thực hiện:
● Bước 1: Tại tab Preprocess, chọn tập dữ liệu và thực hiện tiền xử lý dữ liệu
Hình 3.8: Biểu diễn chọn tap Classify để phân loại
● Bước 2: Chọn thuật tốn phân loại và xác định tham số
● Bước 3: Chọn kiểu test và tập dữ liệu test nếu cĩ
Hình 3.10: Biểu diễn chọn kiểu test
Sau khi em chọn tập dữ liệu, thuật tốn phân loại và xác định số, chọn kiểu test, và tập dữ liệu test nếu cần chạy thuật tốn phân loại.
Hình 3.12: Bảng lưu thơng tin
● Bước 5: Ghi nhận kết quả
3.2.7 Mơ tả chức năng phân lớp (Classify)
Phân tích kết quả: Trong hình 3.14 trên là màn hình kết quả biểu diễn cho xem xét kết quả sau khi chạy:
● Running Information: Là thơng tin về mơ hình học, tên quan hệ, số mẫu, thuộc tính và kiểu test
Hình 3.14 : Giải thích Running Information
● Classifier model (Full training set): Cho biết mơ hình phân loại được xây dựng dựa trên cả tập huấn luyện
Hình 3.16 : Giải thích xem xét tổng kết số liệu thống kê tập dữ liệu
● Độ chính xác chi tiết cho từng phân lớp
Hình 3.17: Độ chính xác chi tiết cho từng phân lớp
● Confusion matrix: Cho biết bao nhiêu mẫu được gán vào từng lớp. Các phần tử của ma trận thể hiện số mẫu test cĩ lớp thật sự là dịng và lớp dự đoạn là cột
Hình 3.18: Confusion matrix của bộ phân loại dữ liệu BreastCancer
3.3 Phân tích, đánh giá kết quả thực nghiệm
Trong luận văn này, em sẽ phân tích, đánh giá kết quả thực nghiệm (Classification) trên tập dữ liệu BreastCancer. Đây là tập dữ liệu mơ tả các đặc tính của bệnh ung thư vú, cùng với nhãn phân loại cĩ bị bệnh hay khơng bị bệnh. Các thuật tốn được sử dụng gồm: Nạve Bayes, Support Vector Machines, Decision tree (J48), Nearest neighbor. Bơ cơng cụ Weka được sử dụng để xây dựng và huấn luyện mơ hình phân tích dự đốn.
Mơ hình phân loại dự đốn đề xuất trong đề tài này được hiển thị chi tiết qua hình dưới đây:
Hình 3.19: Sơ đồ tổng thể mơ hình phân lớp dự đốn bệnh ung thư (breast cancer)
3.3.1 Thực nghiệm
Để so sánh hiệu quả của các phương pháp SVM, NB, J48 và k-NN, em đã tiến hành một thử nghiệm tập trung vào đánh giá cả hiệu quả và hiệu quả của các thuật tốn. Chính xác hơn, các câu hỏi nghiên cứu đặt ra cho thử nghiệm là: Thuật tốn nào khai thác hiệu quả tốt hơn? Thuật tốn nào hiệu quả hơn? Cái mà thuật tốn cung cấp độ chính xác cao hơn?
3.3.1.1 Mơi trường thử nghiệm
Tất cả các thử nghiệm trên bộ phân loại được mơ tả trong luận văn này được thực hiện bằng cách sử dụng các thư viện từ Weka mơi trường học máy. WEKA chứa một bộ sưu tập các thuật tốn học máy để xử lý trước dữ liệu, phân loại, hồi quy, phân cụm và các quy tắc kết hợp. Các kỹ thuật học máy được triển khai trong WEKA được áp