Dự đoán bệnh ung thư tiền liệt tuyến bằng cây quyết định (tt)

10 13 0
Dự đoán bệnh ung thư tiền liệt tuyến bằng cây quyết định (tt)

Đang tải... (xem toàn văn)

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MẠNH HÙNG DỰ ĐOÁN BỆNH UNG THƯ TIỀN LIỆT TUYẾN BẰNG CÂY QUYẾT ĐỊNH Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS.NGUYỄN DUY PHƯƠNG Phản biện 1: ………………………………………………………… Phản biện 2: ………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong thời buổi đại với môi trường ô nhiễm với chế độ sống, sinh hoạt người thiếu khoa học bệnh ung thư ngày gia tăng Theo Tiến sĩ Roaslie David – trường đại học Manchester – Anh Tiến sĩ Michael Zimmermann – trường đại học Villanova nghiên cứu khẳng định: sống xã hội thời đại góp phần đẩy mạnh hình thành nhiều yếu tố gây ung thư Theo dự báo nhà khoa học Anh, kỷ 21, ung thư tiếp tục bệnh có tỉ lệ tử vong cao giới Việc phòng tránh điều trị sớm góp phần đáng kể tỉ lệ tử vong ung thư gây Việc phòng tránh ung thư cần nỗ lực chủ yếu từ yếu tố người Nhưng phát ung thư phải có hỗ trợ tốt từ bác sĩ cơng nghệ hỗ trợ từ máy móc, cơng nghệ để loại bỏ bệnh quái ác Trong trình kiểm tra, theo dõi định đưa từ bác sĩ để áp dụng phương pháp điều trị có khả chữa trị cao đòi hỏi kiến thức kinh nghiệm từ nhiều năm chữa bệnh học hỏi từ nhiều người ngành Với hỗ trợ công nghệ, vấn đề xử lý liệu từ hàng ngàn bệnh nhân kỹ thuật thống kê, phân tích, so sánh, khai phá liệu giúp đỡ nhiều để giúp bác sĩ đưa định chữa bệnh phù hợp Khai phá liệu coi là: “Một phát triển mang tính cách mạng thập kỷ tới” theo tạp chí cơng nghệ trực tuyến ZDNet News (ngày 08 tháng năm 2001) Một yêu cầu có ý nghĩa to lớn lựa chọn khai phá liệu vấn đề y khoa Đề tài “KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ÁP DỤNG VÀO DỰ ĐOÁN VẤN ĐỀ UNG THƯ TIỀN LIỆT TUYẾN” thực khuôn khổ luận văn thạc sỹ ngành công nghệ thông tin thực nhằm sử dụng kỹ thuật khai phá liệu với phương pháp định để áp dụng vào việc đưa định phương pháp điều trị bác sĩ bệnh nhân ung thư tiền liệt tuyến Mục tiêu luận văn Nghiên cứu phương pháp khai phá liệu tập trung vào phương pháp định thuật toán sử dụng phương pháp định Mục đích luận văn giúp đưa định cho việc chọn lựa phương pháp chữa bệnh bệnh nhân ung thư tiền liệt tuyến Giúp cho việc chữa trị đạt hiệu quả, có khả lành bệnh cao Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu:
 - Các phương pháp khai phá liệu.
 - Dữ liệu bệnh nhân ung thư tiền liệt tuyến 
 Phạm vi nghiên cứu:
 - Các kỹ thuật khai phá liệu.
 - Các thuật toán phương pháp định 
 Phương pháp nghiên cứu Lý thuyết:
 - Tìm hiểu tổng quan khai phá liệu.
 - Tìm hiểu kỹ thuật khai phá liệu.
 - So sánh kỹ thuật khai phá liệu.
 - Tìm hiểu thuật tốn phương pháp định Thực nghiệm:
 - Cài đặt phần mềm để áp dụng phương pháp định - Áp dụng phương pháp định cho việc dự đoán - Đánh giá kết đạt Ngoài phần mở đầu kết luận, luận văn chia làm chương, cụ thể nội dung chương sau: 
 Chương 1: Tổng quan khai phá liệu lĩnh vực y khoa Những thành tựu đạt khai phá liệu lĩnh vực Chương 2: Nghiên cứu, tìm hiểu thuật tốn thường sử dụng việc khai phá liệu Biết điểm mạnh, điểm yếu thuật toán Chương 3: Tập trung nghiên cứu thuật toán Cây định áp dụng vào xử lý liệu bệnh nhân ung thư tiền liệt tuyến 3 CHƯƠNG - GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu khai phá liệu Quá trình phát tri thức từ cơ sở liệu Bước thứ tìm hiểu lĩnh vực ứng dụng hình thành tốn, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Quá trình khai phá liệu 1.2 Ứng dụng khai phá liệu Ứng dụng phân tích liệu tài (Financial Data Analysis) Ứng dụng phân tích liệu tài (Financial Data Analysis) Ứng dụng công nghiệp viễn thông (Telecommunication Industry) Ứng dụng phân tích liệu sinh học (Biological Data Analysis) Ứng dụng phân tích liệu sinh học (Biological Data Analysis) 1.3 Ứng dụng khai phá liệu y học Gian lận bảo hiểm y tế: Chẩn đoán ung thư: 1.4 Kết luận Chẩn đoán y khoa coi nhiệm vụ phức tạp có nhiều ý nghĩa Nó u cầu xác hiệu Quyết định lâm sàng bác sĩ đưa dựa trực giác kinh nghiệm mà thu từ tập liệu đầy đủ Điều dẫn đến kết sai sót hoặc thừa khơng mong muốn đồng thời chi phí chữa bệnh cao mà chất lượng khơng cao Khai phá liệu có tiềm để sinh môi trường tri thức cao giúp cải thiện chất lượng định lâm sàng Công việc đề xuất tăng cường mở rộng việc tự động định cho bác sĩ bệnh nhân Để áp dụng khai phá liệu y khoa gặp nhiều thách thức cản trở Tuy nhiên nhiều chương trình áp dụng vào thực tế giúp thúc đẩy tổ chức khác tăng cường khai thác điểm mạnh khai phá liệu 5 CHƯƠNG – CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 2.1 Tìm hiểu K-means 2.1.1 Giới thiệu K-means Mục đích phân cụm tìm chất bên nhóm liệu Các thuật toán phân cụm (Clustering Algorithms) sinh cụm Tuy nhiên, khơng có tiêu chí xem tốt để đánh hiệu của phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: giảm bớt liệu, cụm tự nhiên (natural clusters), cụm hữu dụng (useful clusters), phát phần không liên quan (outlier detection) 2.1.2 K-means thực tiễn Kỹ thuật phân cụm áp dụng nhiều lĩnh vực như: - Tiếp thị: Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại dự đoán hành vi khách hàng) sử dụng sản phẩm hay dịch vụ cơng ty để giúp cơng ty có chiến lược kinh doanh hiệu - Sinh học: Phận nhóm động vật thực vật dựa vào thuộc tính chúng - Thư viện: Theo dõi độc giả, sách, dự đoán nhu cầu độc giả - Bảo hiểm, tài chính: Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đốn xu hướng khách hàng, phát gian lận tài - Internet: Phân loại tài liệu, phân loại người dùng web 2.2 Tìm hiểu EM (Expectation maximization) 2.2.1 Giới thiệu EM Phương pháp hữu ích cho tác vụ gom nhóm hình thành mơ hình qua tham số Khi biết nhóm tham số mơ hình, ta suy luận điểm liệu thuộc nhóm EM có vài điểm hạn chế - Thứ nhất, EM chạy nhanh ở vòng lặp ban đầu chậm ở vịng lặp sau Thứ hai, EM khơng phải lúc tìm tham số tối ưu bị mắc kẹt ở điểm tối ưu cục (local optima) thay tồn cục (global optima) 6 2.2.2 EM thực tiễn EM thường xuyên sử dụng cho phân cụm liệu học máy thị giác máy tính Trong xử lý ngơn ngữ tự nhiên, hai ví dụ bật thuật tốn thuật tốn BaumWelch thuật tốn trong-ngồi cho ngữ pháp ngữ cảnh thơng thường 2.3 Tìm hiểu Nạve Bayes 2.3.1 Giới thiệu Naïve Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho B hoặc phụ thuộc vào giá trị 2.3.2 Nạve Bayes thực tiễn Dự đoán theo thời gian thực Dự đoán nhiều lớp 2.4 Tìm hiểu Cây định 2.4.1 Giới thiệu Cây định Cây định phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định cịn chuyển sang dạng biểu diễn tương đương dạng tri thức luật If-Then 2.4.2 Cây định thực tiễn - Phát triển phần mềm: Cây hồi quy sử dụng để ước lượng lực lượng cần sử dụng để phát triển mô đun - Vật lý: Cây định sử dụng để phát hạt vật lý 2.5 Kết luận chương Ở chương hai luận văn, học viên tìm hiểu thuật toán Những ưu điểm, nhược điểm áp dụng vào thực tiễn Từ tìm hiểu thuật toán, học viên tập trung vào thuật toán Cây định muốn áp dụng thuật toán Cây định vào thực liệu bệnh nhân ung thư tiền liệt tuyến 7 CHƯƠNG – ÁP DỤNG CÂY QUYẾT ĐỊNH TRONG THỰC TIỄN VỚI DỮ LIỆU BỆNH NHÂN UNG THƯ TIỀN LIỆT TUYẾN 3.1 Cài đặt phần mềm 3.2 Chuẩn bị liệu bệnh nhân ung thư tiền liệt tuyến Trong phạm vi luận văn, liệu lấy từ phịng thí nghiệm Stamey chuẩn bị theo dạng text (prostate.csv) Kết sinh thiết biến n = 97 người đàn ông ở độ tuổi khác Thông tin bao gồm - Điểm Gleason: điểm gán bởi hai khối u phổ biến, biên độ từ đến 10; liệu này, biên độ từ đến - Kháng nguyên đặc hiệu tiền liệt tuyến (PSA): kết từ phịng thí nghiệm - Capsular penetration (CP): phạm vi ung thư chất lót tuyến Lượng tăng sản tuyến tiền luyệt lành tính (bph): kích thước tuyến tiền luyệt 3.3 Áp dụng phương pháp định 3.4 Kết thử nghiệm Sau thực nghiệm với phương pháp định tập liệu bệnh nhân ung thư tiền liệt tuyến, học viên đưa kết luận thuật toán định hỗ trợ tốt việc xử lý liệu để phân chia biểu diễn khối u tương ứng với bệnh nhân vào vùng không gian để đưa định xử lý cho bệnh nhân 3.5 Kết luận chương Ở chương ba luận văn học viên áp dụng thuật toán định vào xử lý liệu bệnh nhân ung thư tiền liệt tuyến Đồng thời sâu vào cách sử dụng thuật toán Cây định cho liệu bệnh nhân 8 KẾT LUẬN Việc nghiên cứu thuật toán để biết điểm mạnh điểm yếu thuật toán việc khai phá liệu ứng dụng thực tế thuật toán Luận văn tập trung vào thuật toán Cây định áp dụng vào liệu cụ thể liệu bệnh nhân ung thư tiền liệt tuyến Sau luận văn thu cách áp dụng thuật toán Cây định vào xử lý liệu bệnh nhân Một số kết đạt được: Nghiên cứu thuật toán K-means, EM, Naive Bayes, Cây định để biết chế hoạt động, ứng dụng phương pháp sử dụng thuật toán Cài đặt sử dụng R, RStudio, R commander với liệu prostate.csv Đánh giá độ xác thuật toán CART Sử dụng liệu bệnh nhân ung thư tiền liệt tuyến áp dụng thuật toán Cây định vào việc xử lý liệu dự đoán Một số hướng phát triển đề tài: Trong khuôn khổ luận văn, thời gian không cho phép nên dừng lại ở việc áp dụng thuật toán Cây định vào việc xử lý liệu cách sử dụng Cây định Để tiếp tục cải thiện hạn chế, tương lai luận văn có xác định hướng để tiếp tục nâng cao hiệu việc nghiên cứu: Tìm hiểu nhu cầu thực tế để từ cải tiến chương trình, cài đặt lại tốn theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có sản phẩm thị trường Phân tích chuẩn bị liệu từ bệnh viện nước bệnh khác chứng đau nửa đầu, … Tìm hiểu sử dụng thuật tốn để so sánh hiệu độ xác thuật toán ... trung vào thuật toán Cây định muốn áp dụng thuật toán Cây định vào thực liệu bệnh nhân ung thư tiền liệt tuyến 7 CHƯƠNG – ÁP DỤNG CÂY QUYẾT ĐỊNH TRONG THỰC TIỄN VỚI DỮ LIỆU BỆNH NHÂN UNG THƯ TIỀN... đặc hiệu tiền liệt tuyến (PSA): kết từ phịng thí nghiệm - Capsular penetration (CP): phạm vi ung thư chất lót tuyến Lượng tăng sản tuyến tiền luyệt lành tính (bph): kích thư? ??c tuyến tiền luyệt... liệu bệnh nhân ung thư tiền liệt tuyến Sau luận văn thu cách áp dụng thuật toán Cây định vào xử lý liệu bệnh nhân Một số kết đạt được: Nghiên cứu thuật toán K-means, EM, Naive Bayes, Cây định

Ngày đăng: 19/03/2021, 17:48

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan