45 CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU VÀ HƯỚNG PHÁT TRIỂN 4 1 Cơ sở dữ liệu ảnh Bộ cơ sở dữ liệu ảnh dùng để nghiên cứu được lấy là Breast Cancer Digital Repository (BCDR), được phát triển bởi dự án IMED nhằm mục đích tạo kho lưu trữ hình ảnh y tế và khám phá các phương pháp hỗ trợ chuẩn đoán trên máy tính Dự án IMED được phát triển bởi INEGI, FMUP CHSJ – Đại học Porto, Bồ Đào Nha, CETA CIEMAT, Tây ban nha và Đại học Aveiro, Bồ Đào Nha Hiện tại, BCDR chứa khoảng 1010 bệnh nhân có hình chụp nhũ ảnh và s.
CHƯƠNG KẾT QUẢ NGHIÊN CỨU VÀ HƯỚNG PHÁT TRIỂN 4.1 Cơ sở liệu ảnh Bộ sở liệu ảnh dùng để nghiên cứu lấy Breast Cancer Digital Repository (BCDR), phát triển dự án IMED nhằm mục đích tạo kho lưu trữ hình ảnh y tế khám phá phương pháp hỗ trợ chuẩn đốn máy tính Dự án IMED phát triển INEGI, FMUP-CHSJ – Đại học Porto, Bồ Đào Nha, CETA-CIEMAT, Tây ban nha Đại học Aveiro, Bồ Đào Nha Hiện tại, BCDR chứa khoảng 1010 bệnh nhân có hình chụp nhũ ảnh siêu âm, tiền sử lâm sàng, phân đoạn tổn thương mô tả dựa hình ảnh tính tốn trước Kết bệnh nhân phân loại thích thực bác sĩ X-ray chuyên khoa BCDR triển khai lên website vào 18/04/2012 tiếp tục phát triển Hiện tại, khối liệu chuẩn bao gồm khối masses-based khối microcalcifications and calcifications-based tổn thương lành tính ác tính (đã chứng minh sinh thiết) bao gồm trường hợp tính lâm sàng dựa hình ảnh có sẵn cho phép người dùng đăng ký tải xuống[3] Hình 4.1 Trang web sở dự liệu ảnh BCDR 45 4.2 Kết thực nghiệm Các ảnh chụp nhũ ảnh ảnh xám vùng đánh giá “lành tính” “ác tính” thường vùng màu sáng Dựa vào độ sáng – tối vùng mà luận văn đưa cách tiếp cận giải vấn đề sau: - Bước 1: chuẩn bị ảnh dùng để tạo tập liệu huấn luyện (98 ảnh) tập liệu kiểm tra (49 ảnh) - Bước 2: tạo tập liệu huấn luyện - Bước 2.1: từ ảnh xác định vùng nghi ngờ chuyên gia, luận văn tiến hành lọc lấy vùng nghi ngờ Sau đó, chia vùng nghi ngờ thành vùng nhỏ trích xuất đặc trưng (thơng số) vùng Kết hợp với đặc trưng chuyên gia tạo thành tập 47 đặc trưng Đây tập liệu huấn luyện ban đầu - Bước 2.2: sử dụng ma trận tương quan để đánh giá đặc trưng có độ tương quan với cao để loại bỏ bớt Tiếp đến, luận văn sử dụng phương pháp Wrap để đánh giá tập đặc trưng cho tốt Đây tập liệu huấn luyện cuối - Bước 3: tạo tập liệu kiểm tra - Bước 3.1: từ vùng xác định nghi ngờ chuyên gia, luận văn tiến hành tính Q1, Q2, Q3 IQR Từ đó, luận văn tính ngưỡng hình - Bước 3.2: Sử dụng ngưỡng để lọc vùng nghi ngờ hình ảnh dùng để tạo tập kiểm tra Sau đó, trích xuất đặc trưng vùng tương tự Bước 2.1 - Bước 3.3: kết hợp kết Bước 3.2, đặc trưng chuyên gia kết đặc trưng cuối chọn Bước 2.2, luận văn tạo tập liệu kiểm tra cuối - Bước 4: sử dụng thuật toán rừng ngẫu nhiên để học tập liệu huấn luyện kiểm tra kết tập liệu kiểm tra 4.2.1 Kết giai đoạn thu thập phân tích liệu ảnh Luận văn sử dụng tập huấn luyện gồm 98 ảnh 49 ảnh bác sĩ chuyên gia đánh giá “lành tính” 49 ảnh đánh giá “ác tính” 46 Luận văn sử dụng tập kiểm tra gồm 49 ảnh 24 ảnh đánh giá “lành tính” 25 ảnh đánh giá “ác tính” Hình 3.1 Hình 3.2 ví dụ cho trường hợp “lành tính” “ác tính” 4.2.2 Kết giai đoạn lập bảng liệu huấn luyện 4.2.2.1 Kết tạo tập huấn luyện ban đầu Luận văn sử dụng Phần mềm Mathlab để tiến hành trích xuất vùng đánh dấu nghi ngờ lập bảng huấn luyện ban đầu Hình 4.2 Trích xuất vùng nghi ngờ Bảng 4.1 Bảng liệu huấn luyện ban đầu – phần tự trích xuất Bảng 4.2 Bảng liệu huấn luyện ban đầu – phần chuyên gia 47 Bảng 4.3 Bảng liệu huấn luyện ban đầu – phần chuyên gia Bảng liệu huấn luyện có 98 mẫu 49 mẫu đánh giá “lành tính” 49 mẫu đánh giá “ác tính” 4.2.2.2 Kết sử dụng phương pháp Wrap để lựa chọn tập đặc trưng tốt Luận văn sử dụng ma trận tương quan để đánh giá mức độ tương quan đặc trưng ban đầu đạt kết hình Hình 4.3 Ma trận tương quan đặc trưng Kết đánh giá cho thấy đặc trưng “height” đặc trưng “area” có mức độ tương quan với cao với giá trị 0.932001 Vì vậy, luận văn loại bỏ đặc trưng giữ lại đặc trưng Tương tự, giá trị khoanh đỏ Hình 4.3 giá trị có mức độ tương quan cao Qua thống kê, luận văn loại bỏ 24 đặc trưng có mức độ tương quan cao là: Maximum, area2, Median, std1, YCcentroid, Area, StatisticalMode, stdAll, XCentroid, width, min3, max2, Shape, max3, areaAll, Mean, std2, Circularity, HxW, min2, min1, Perimeter, max1, std3 Hình 4.4 Các đặc trưng cần loại bỏ 48 Và giữ lại 23 đặc trưng là: Age, height, minAll, maxAll, meanAll, area1, mean1, mean2, area3, mean3, Correlation, Minimum, StandardDeviation, InverseDifferenceMoment, XCenterMass, YCenterMass , Skewness, Kurtosis, Elongation, Roughness, Contrast, Entropy, AngularSecondMoment Hình 4.5 Các đặc trưng giữ lại Vậy tập liệu huấn luyện sau loại bỏ đặc trưng tương quan là: Bảng 4.4 Bảng liệu huấn luyện sau loại bỏ đặc trưng tương quan Tiếp theo, luận văn sử dụng thuật toán SequentialFeatureSelector để tiến hành kết hợp đặc trưng đánh giá xem tập kết hợp tốt Hình 4.6 Sơ đồ đánh giá tập đặc trưng tốt theo số lượng đặc trưng 49 Kết đánh giá tập đặc trưng tốt nhất: Hình 4.7 Kết đánh giá tập đặc trưng tốt Kết đánh giá cho thấy tập thứ 10 bao gồm 10 đặc trưng vị trí: 0, 1, 2, 4, 11, 12, 13, 17, 20, 21 tương ứng Age, height, minAll, meanAll, Minimum, StandardDeviation, InverseDifferenceMoment, Kurtosis, Contrast, Entropy tập kết hợp đánh giá tốt với số đánh giá 0.818 Vậy, bảng huấn luyện cuối Bảng 4.5 Bảng liệu huấn luyện cuối 4.2.3 Kết giai đoạn lập bảng liệu kiểm tra 4.2.3.1 Kết tính ngưỡng vùng nghi ngờ Từ hình ảnh có vùng nghi ngờ (bộ ảnh huấn luyện), luận văn sử dụng công cụ Mathlab để lọc vùng nghi ngờ 50 Bảng 4.6 Một số kết trích xuất vùng nghi ngờ STT Ảnh ban đầu Vùng nghi ngờ mean = 113 mean = 110 Từ sử dụng lý thuyết độ trải để tìm ngưỡng hình Luận văn tính tốn bảng kết sau đây: 51 Bảng 4.7 Bảng kết tính ngưỡng cho hình 4.2.3.2 Kết sử dụng ngưỡng để lọc trích xuất thơng tin vùng nghi ngờ Thực tương tự mục 4.2.2.1, luận văn trích xuất thơng tin vùng nghi ngờ (xem Bảng 4.8) Bảng 4.8 Bảng thơng tin trích xuất từ vùng nghi ngờ 4.2.3.3 Kết tạo tập kiểm tra cuối Từ kết mục 4.2.3.2 kết hợp với tập đặc trưng chuyên gia sử dụng lại kết đánh giá tập đặc trưng tốt mục 4.2.2.2 luận văn lập bảng liệu kiểm tra cuối với đặc trưng sau: Bảng 4.9 Bảng liệu kiểm tra cuối 52 4.2.4 Giai đoạn sử dụng thuật toán Rừng ngẫu nhiên để học kiểm tra kết Luận văn sử dụng thuật toán Rừng ngẫu nhiên thực ngôn ngữ Python để tiến hành học tập liệu huấn luyện dự đoán cho liệu kiểm tra Luận văn kết sau: Hình 4.8 Kết dự đốn liệu kiểm tra Với nguồn bao gồm 98 liệu huấn luyện 49 liệu kiểm tra, kết cho thấy sau q trình huấn luyện, q trình dự đốn cho 41 trường hợp xác, sai lệch trường hợp, đạt 81.63% 53 KẾT LUẬN VÀ KIẾN NGHỊ Chương tổng kết lại kết đạt đề tài, đóng góp đề tài hướng phát triển Kết luận Ung thư vú dạng u vú ác tính Nó xảy tế bào vú trở nên bất thường phân chia khơng có kiểm sốt hay trật lý Ung thư vú loại bệnh nguy hiểm không phát sớm chữa trị kịp thời Để xác định người có bị bệnh ung thư vú hay khơng người bệnh phải tiến hành thăm khám, thực loại xét nghiệm, chuẩn đốn, sau bác sĩ chuyên khoa dựa vào kết để đưa kết luận tình trạng có bệnh hay khơng? Việc tốn nhiều kinh phí thời gian bệnh nhân Vì vậy, đề tài “xác định mức độ ung thư vú thông qua ảnh chụp X-ray phương pháp phát triển vùng ảnh” nghiên cứu để góp phần tiết kiệm thời gian kinh phí bệnh nhân Trong q trình nghiên cứu đề tài, luận văn đạt thành tựu sau: Hiểu rõ bệnh ung thư vú, tác hại, giai đoạn, biểu bệnh lý bệnh ung thư vú phương pháp điều trị Sử dụng phương pháp Wrap để lựa chọn tập đặc trưng đánh giá tốt đạt độ xác 81.76% Sử dụng thật toán Rừng ngẫu nhiên để huấn luyện kiểm tra kết Kết thực nghiệm cho thấy độ xác đạt 81.63% Bên cạnh đó, luận văn gặp phải khó khăn hạn chế sau: - Không phải tất vùng sáng ảnh chụp nhũ ảnh đánh giá có bệnh khơng có bệnh 54 - Việc lựa chọn vùng sáng để đánh giá luận văn dựa kết có chuyên gia Vì vậy, để áp dụng vấn đề vào thực tế cần có chuyên gia lựa chọn vùng nghi ngờ để luận văn dự đoán - Việc xác định giá trị Ngưỡng phương sai cho hình ảnh chưa cao, số trường hợp cần phải điều giá trị 𝑥 để lọc vùng nghi ngờ phù hợp Cần nghiên cứu sâu hơn, kỹ để đạt kết tốt Kiến nghị Với kết nghiên cứu tại, luận văn đạt độ dự đốn xác khoảng 81.63%, luận văn đưa kiến nghị cho hướng nghiên cứu như: - Nghiên cứu phương pháp khác để xác định Ngưỡng phương sai xác - Nghiên cứu phương pháp khác để tạo chọn lọc tập đặc trưng đánh giá tốt tốt - Nghiên cứu thuật toán phân loại khác để có kết dự đoán tốt - Tăng số lượng mẫu tập liệu huấn luyện tập liệu kiểm tra 55 TÀI LIỆU THAM KHẢO [1] The National Breast Cancer Foundation INC “Breast Cancer Stage.” Internet: http://www.nationalbreastcancer.org/breast-cancer-stages, 2016 [2] The Cancer Treatment Centers of America “Breast Cancer Stages.” Internet: http://www.cancercenter.com/breast-cancer/stages, 2019 [3] Institute of Electronics and Telematics Engineering of University of Aveiro “Breast cancer digital repository.” Internet: https://bcdr.eu/patient/list, April 18, 2012 [4] N Senthilkumaran and S Vaithegi “Image Segmentation by using Thresholding Technique for Medical Images.” Computer Science & Engineering: An International Journal (CSEIJ) Vol 6, no 1, Feb 2016 [5] Trương Xuân Đạt “Kỹ thuật Gray-scale Nhị phân hoá ảnh (Adaptive Threshold).” Internet: https://www.stdio.vn/articles/ky-thuat-grayscale-va-nhi-phanhoa-anh-adaptive-threshold-383, August 29, 2015 [6] P.G Kumbhar and P.S.N Holambe “A Review of Image Thresholding Techniques.” International Journal of Advanced Research in Computer Science and Software Engineering Vol 5, June 2015 [7] C Nanthakumar et al “Construction of Interquartile range (IQR) control chart using process capability for mean.” International Journal of Modern Sciences and Engineering Technology (IJMSET) Vol 22, pp 52-59, 2015 [8] U Malik “Applying Wrapper Methods in Python for Feature Selection.” Internet: https://stackabuse.com/applying-wrapper-methods-in-python-for-feature-selection, November 06, 2018 [9] S Raschka “Sequential Feature Selector.” Internet: http://rasbt.github.io/mlxtend/user_guide/feature_selection/SequentialFeatureSelect or, 2014 [10] A Navlani “Understanding Random Forests Classifiers in Python.” Internet: https://www.datacamp.com/community/tutorials/random-forests-classifier-python, May 16, 2018 56 [11] Cổng thông tin Điện tử Bộ Y tế “Tổng quan bệnh ung thư vú.” Internet: http://moh.gov.vn/news/pages/tinkhac.aspx?ItemID=1273, 2019 [12] PGS Nguyễn Chấn Hùng Ung thư học nội khoa Nhà xuất Y học Thành phố Hồ Chí Minh, 2014, tr 18-19 [13] American Cancer Society Inc “If you have Breast Cancer – Vietnamese.” Internet: https://www.cancer.org/content/dam/cancer-org/cancer- control/vi/booklets-flyers/if-you-have-breast-cancer-vietnamese.pdf, 2018 [14] Singapore – Vietnam Cancer Center “Tìm hiểu bệnh ung thư vú.” Internet: https://svcancercenter.com/tag/ung-thu-vu, 2019 [15] Cancer Treatment Center of American “Breast Cancer.” Internet: https://www.cancercenter.com/cancer-types/breast-cancer/stages, 2019 [16] National Breast Cancer Foundation Inc “Stage of Breast Cancer.” Internet: https://www.nationalbreastcancer.org/breast-cancer-stage-0-and-stage-1, 2016 [17] Wikipedia “Ma trận (toán học).” Internet: https://vi.wikipedia.org/wiki/Ma_tr%E1%BA%ADn_(to%C3%A1n_h%E1%BB%8 Dc), May 19, 2018 [18] I Despotović et al “MRI Segmentation of the Human Brain: Challenges, Methods, and Applications.” Computational and Mathematical Methods in Medicine Vol 2015, pp 1-2, 2015 [19] L.M Ha N.T Thuy Nhập môn xử lý ảnh số Nhà xuất Khoa học kỹ thuật Hà Nội, 2003, pp 7-9 [20] Songwon Seo “A Review and Comparison of Methods for Detecting Outliers in Univariate Data Sets,” presented at Annual Science Conference, University of Pittsburgh, 2006 [21] Learning Enhancement Team “Measurements of Spread I: Range and Interquartile Range,” presented at University of East Anglia, University of East Anglia, 2007 57 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Xuân Thiên Giới tính: Nam Ngày, tháng, năm sinh: 21/02/1992 Nơi sinh: Bình Thuận Email: thiennx21021992@gmail.com Điện thoại: 097 8383 443 II QUÁ TRÌNH ĐÀO TẠO: - 2015 đến nay: Học Thạc sĩ Chuyên ngành: Khoa học Máy tính trường Đại học Cơng nghiệp TP.HCM - Từ 2010-2014: Học Đại học Chuyên ngành: Khoa học Máy tính trường Đại học Cơng nghiệp TP.HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Cơng việc đảm nhiệm 2019 – Công ty TNHH Interactive Partners Việt Nam Nhân viên Lập trình 2018 – 2019 Công ty CP Việt Thái Quốc Tế Nhân viên Lập trình 2017 – 2018 Cơng ty CP Quốc Tế Topcom Nhân viên Lập trình 2016 – 2017 Cơng ty CP Thế giới Di động Nhân viên Lập trình 2015 – 2016 Cơng ty TNHH Phần mềm Sao Sài Gịn Nhân viên Lập trình Tp HCM, ngày 17 tháng 09 Năm 2019 Người khai 58 ... tốn nhiều kinh phí thời gian bệnh nhân Vì vậy, đề tài ? ?x? ?c định mức độ ung thư vú thông qua ảnh chụp X- ray phương pháp phát triển vùng ảnh? ?? nghiên cứu để góp phần tiết kiệm thời gian kinh phí... góp đề tài hướng phát triển Kết luận Ung thư vú dạng u vú ác tính Nó x? ??y tế bào vú trở nên bất thư? ??ng phân chia khơng có kiểm sốt hay trật lý Ung thư vú loại bệnh nguy hiểm không phát sớm chữa trị... tựu sau: Hiểu rõ bệnh ung thư vú, tác hại, giai đoạn, biểu bệnh lý bệnh ung thư vú phương pháp điều trị Sử dụng phương pháp Wrap để lựa chọn tập đặc trưng đánh giá tốt đạt độ x? ?c 81.76% Sử dụng