1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ

62 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Học Máy Để Phân Loại Ung Thư Vú
Tác giả Vũ Huy Hoàng
Người hướng dẫn PGS TS. Lê Đức Hậu
Trường học Trường Đại Học Thủy Lợi
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 891,42 KB

Cấu trúc

  • CHƯƠNG 1 GIỚI THIỆU (16)
    • 1.1 Đặt vấn đề (16)
    • 1.2 Nội dung (17)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT (17)
    • 2.1 Học máy (19)
      • 2.1.1 Giới thiệu (19)
      • 2.1.2 Vai trò của học máy (19)
      • 2.1.3 Phân loại và ứng dụng học máy (20)
      • 2.1.4 Ứng dụng của học máy (22)
      • 2.1.5 Thuật tốn Nạve Bayes (24)
      • 2.1.6 Thuật toán SVM (Support Vector Machine) (27)
      • 2.1.7 Chuẩn hóa dữ liệu (31)
      • 2.1.8 Phương pháp đánh giá (34)
    • 2.2 Python với học máy (39)
      • 2.2.1 Giới thiệu về ngôn ngữ lập trình Python (0)
      • 2.2.2 Python với học máy (40)
  • CHƯƠNG 3 PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TOÁN (17)
    • 3.1 Bối cảnh bài toán (42)
    • 3.2 Thu thập và xử lý dữ liệu (43)
      • 3.2.1 Tổng quan về dữ liệu (43)
      • 3.2.1 Tiền xử lý dữ liệu (47)
      • 3.2.2 Chia dữ liệu (48)

Nội dung

GIỚI THIỆU

Đặt vấn đề

Trong những năm gần đây, ung thư, đặc biệt là ung thư vú, đã trở thành một gánh nặng lớn đối với nhiều quốc gia, bao gồm cả Việt Nam Ung thư vú chiếm khoảng 1/3 số ca ung thư mới được chẩn đoán ở phụ nữ, và tỷ lệ mắc bệnh này đang có xu hướng gia tăng Mặc dù tỷ lệ tử vong do ung thư vú đang giảm nhờ vào những tiến bộ trong chẩn đoán và điều trị, việc phát hiện sớm vẫn là yếu tố quan trọng giúp bác sĩ có phương pháp điều trị hiệu quả, từ đó giảm thiểu nguy cơ tử vong cho bệnh nhân Ung thư vú hiện đang đứng thứ hai trong số các loại ung thư được chẩn đoán phổ biến nhất.

Ung thư vú là loại ung thư phổ biến nhất ở phụ nữ và đứng thứ hai trong số các nguyên nhân gây tử vong do ung thư Mặc dù hiếm gặp, ung thư vú cũng có thể xảy ra ở nam giới.

Ung thư vú là loại ung thư bắt nguồn từ sự phát triển của các khối u ác tính trong tế bào vú, chủ yếu xảy ra ở phụ nữ từ 40 tuổi trở lên Tình trạng này xảy ra khi các tế bào trong các tuyến sản xuất sữa (thùy) phát triển bất thường và phân chia mạnh mẽ Để chẩn đoán chính xác ung thư vú, cần có hệ thống phát hiện hỗ trợ máy tính (CAD) sử dụng phương pháp học máy, giúp phát hiện ung thư ở giai đoạn đầu Phát hiện sớm ung thư vú sẽ tăng tỷ lệ sống sót nhờ vào khả năng điều trị hiệu quả hơn.

Xuất phát từ những vấn đề thực tiễn trong lĩnh vực y tế, cần thiết phải có các giải pháp cụ thể để giải quyết Với kiến thức hiện có, tôi đã tìm hiểu và nghiên cứu để phát triển những giải pháp hiệu quả Do đó, tôi quyết định chọn đề tài “Ứng dụng của học máy để phân loại ung thư vú” cho đề tài tốt nghiệp của mình.

Nội dung

Các nội dung chính được trình bày trong báo cáo này:

 Tìm hiểu các kiến thức liên quan về học máy, các công cụ xử lý dữ liệu và xây dựng ứng dụng.

 Nghiên cứu các thuật tốn: Thuật tốn Nạve Bayes, Thuật tốn SVM (Support Vector Machine)

 Đánh giá và xác định thuật toán tốt nhất.

Cấu trúc của báo cáo:

CƠ SỞ LÝ THUYẾT

Học máy

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, trí tuệ nhân tạo (AI) đã trở thành xu hướng công nghệ chủ đạo mà các doanh nghiệp toàn cầu đang đẩy mạnh đầu tư và phát triển Bài viết này sẽ tập trung vào lĩnh vực học máy, một nhánh quan trọng của AI, cùng với một số thuật toán sẽ được nghiên cứu và ứng dụng trong đề tài nghiên cứu này.

Học máy, một nhánh của trí tuệ nhân tạo, nghiên cứu và phát triển các kỹ thuật cho phép hệ thống tự động học từ dữ liệu để giải quyết các vấn đề cụ thể Quá trình này bao gồm phân tích dữ liệu và sử dụng thuật toán để máy móc có thể tự động học từ lượng lớn thông tin Qua việc phân tích, máy sẽ tìm ra các quy tắc từ dữ liệu và cải thiện hiệu suất, từ đó có khả năng tự động phán đoán hoặc dự đoán.

2.1.2 Vai trò của học máy

Machine learning đóng vai trò quan trọng trong việc cung cấp cái nhìn sâu sắc về hành vi khách hàng và mô hình kinh doanh, đồng thời hỗ trợ phát triển sản phẩm mới Các công ty hàng đầu như Facebook, Google và Uber đã tích hợp machine learning vào hoạt động chính của họ Điều này đã biến machine learning thành yếu tố cạnh tranh nổi bật cho nhiều doanh nghiệp.

Hình 2.1 Các phương pháp học máy phổ biến hiện nay 2.1.3 Phân loại và ứng dụng học máy

Máy học cổ điển được phân loại dựa trên cách mà thuật toán cải thiện độ chính xác trong dự đoán, với bốn phương pháp chính: học có giám sát, học không giám sát, học bán giám sát và học tăng cường Sự lựa chọn loại dữ liệu của các nhà khoa học phụ thuộc vào loại dự đoán mà họ mong muốn thực hiện.

 Học có giám sát (supervised learning)

Trong học có giám sát, máy tính học cách mô hình hóa các mối quan hệ từ dữ liệu được gán nhãn Sau khi xác định được phương pháp tối ưu để mô hình hóa, các thuật toán được huấn luyện sẽ áp dụng cho các bộ dữ liệu mới Các thuật toán học tập có giám sát thường được sử dụng cho nhiều tác vụ khác nhau.

+) Phân loại nhị phân: Chia dữ liệu thành hai loại

+) Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời.

+) Mô hình hồi quy: Dự đoán các giá trị liên tục

+) Kết hợp: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dự đoán chính xác.

 Học không giám sát (unsupervised learning).

Trong học không giám sát, máy tính nhận dữ liệu không có nhãn và sử dụng các thuật toán để phân tích và mô tả cấu trúc của dữ liệu đó Các thuật toán học tập không giám sát rất hiệu quả cho nhiều tác vụ khác nhau.

+) Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau.

+) Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ liệu

+) Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu thường xuyên xảy ra cùng nhau.

+) Giảm kích thước: Giảm số lượng biến trong tập dữ liệu

 Học bán giám sát (Semi-supervised learning)

Cách tiếp cận học máy này kết hợp giữa học có giám sát và không giám sát, cho phép các nhà khoa học dữ liệu cung cấp thuật toán với dữ liệu đào tạo được gắn nhãn, trong khi mô hình có thể tự khám phá và phát triển hiểu biết riêng về tập dữ liệu Phương pháp học bán giám sát được áp dụng trong nhiều lĩnh vực khác nhau.

+) Dịch máy: Dạy thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điển từ đầy đủ.

+) Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một vài ví dụ tích cực.

Dán nhãn dữ liệu là quá trình mà các thuật toán được đào tạo trên tập dữ liệu nhỏ có khả năng tự động áp dụng nhãn cho các tập dữ liệu lớn hơn Các nhà khoa học dữ liệu lập trình thuật toán để thực hiện một nhiệm vụ cụ thể và cung cấp tín hiệu tích cực hoặc tiêu cực khi thuật toán hoàn thành nhiệm vụ Tuy nhiên, phần lớn thời gian, thuật toán tự quyết định các bước cần thực hiện trong quá trình này Học tập củng cố thường được ứng dụng trong nhiều lĩnh vực khác nhau.

+) Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới vật chất bằng cách sử dụng kỹ thuật này.

+) Trò chơi video: Học tập củng cố đã được sử dụng để dạy bot chơi một số trò chơi điện tử.

Quản lý nguồn lực là yếu tố quan trọng trong doanh nghiệp, đặc biệt khi đối mặt với nguồn lực hạn chế và mục tiêu rõ ràng Việc học củng cố giúp các doanh nghiệp lên kế hoạch hiệu quả cho việc phân bổ nguồn lực, từ đó tối ưu hóa hoạt động và đạt được kết quả mong muốn.

2.1.4 Ứng dụng của học máy

Học máy có nhiều ứng dụng thực tế, trong đó hai lĩnh vực chính là khai phá dữ liệu và nhận dạng mẫu.

Khai phá dữ liệu là quá trình ứng dụng kỹ thuật học máy vào các cơ sở dữ liệu lớn nhằm phát hiện quy luật và tri thức tiềm ẩn trong dữ liệu, cũng như dự đoán thông tin quan trọng trong tương lai.

Nhận dạng mẫu là quá trình sử dụng kỹ thuật học máy để phát hiện các quy luật trong dữ liệu, chủ yếu là hình ảnh và âm thanh Một ứng dụng cụ thể của nhận dạng mẫu là xác định nhãn cho các đầu vào, chẳng hạn như nhận diện khuôn mặt để xác định danh tính của người trong bức ảnh.

Khai phá dữ liệu và nhận dạng mẫu có nhiều điểm tương đồng trong nghiên cứu và ứng dụng, nhưng khác nhau chủ yếu ở lĩnh vực áp dụng và kỹ thuật Khai phá dữ liệu thường liên quan đến dữ liệu thương mại, trong khi nhận dạng mẫu chủ yếu tập trung vào dữ liệu âm thanh và hình ảnh, được sử dụng rộng rãi trong các kỹ thuật công nghệ.

Sau đây là một số ví dụ ứng dụng cụ thể của học máy:

+) Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký tự tương ứng

Phát hiện và nhận dạng khuôn mặt là quá trình xác định vùng chứa khuôn mặt trong hình ảnh và nhận diện danh tính của người đó dựa trên các bức ảnh đã lưu trữ trước đó Quá trình này giúp phân loại hình ảnh theo từng cá nhân cụ thể, tạo ra sự phân biệt rõ ràng giữa các khuôn mặt khác nhau.

+) Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại

“thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhau như “xã hội”, “kinh tế”, “thể thao” …

Dịch tự động là quá trình sử dụng dữ liệu huấn luyện từ các văn bản song ngữ để hệ thống học cách chuyển đổi giữa các ngôn ngữ Một ví dụ tiêu biểu của hệ thống dịch tự động này là Google Translate.

+) Chẩn đoán y tế: học cách dự đoán người bệnh có mắc hay không mắc một số bệnh nào đó dựa trên triệu chứng quan sát được.

+) Phân loại khách hàng và dự đoán sở thích: sắp xếp khách hàng vào một số loại, từ đây dự đoán sở thích tiêu dùng của khách hàng.

PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TOÁN

Bối cảnh bài toán

Theo Tổ chức Y tế Thế giới (WHO), vào năm 2008, có 12,6 triệu người mắc ung thư trên toàn cầu, trong đó 7,5 triệu người đã tử vong Đến năm 2015, số người mắc ung thư đã tăng lên khoảng 90,5 triệu, với 14,1 triệu ca mới mỗi năm và 8,8 triệu ca tử vong, chiếm 15,7% Tại Mỹ và các quốc gia phát triển, ung thư gây ra khoảng 25% số ca tử vong và hàng năm, khoảng 0,5% dân số được chẩn đoán mắc bệnh này.

Hiện nay, toàn cầu có 23 triệu người đang mắc ung thư Mỗi năm có hơn 14 triệu người mắc mới và 8,2 triệu người tử vong.

Ung thư phổi là loại ung thư phổ biến nhất, chiếm tỷ lệ 12,4% trong tổng số các loại ung thư Tiếp theo là ung thư dạ dày, ung thư vú, ung thư đại trực tràng, ung thư gan, ung thư tiền liệt tuyến và ung thư cổ tử cung Đặc biệt, tỷ lệ mắc ung thư phổi ở nam giới cao nhất tại Đông Âu với 53,5 ca trên 100.000 dân và tại Đông Nam Á với 50,5 ca trên 100.000 dân.

Nữ giới, tỉ lệ mắc cao nhất ở Bắc Mỹ (33,8/100.000) và bắc Âu (23,7/100.000)

Việt nam cũng là một trong số nước có tỷ lệ mắc ung thư cao trên thế giới (thuộc nhóm 2)

Tìm hiểu về tình hình ung thư, thực trạng chẩn đoán và điều trị, cũng như các nguyên nhân gây ung thư là cần thiết để phát triển các giải pháp hiệu quả nhằm hạn chế bệnh ung thư tại Việt Nam.

Ung thư vú là loại ung thư phổ biến nhất và đứng thứ hai trong số các nguyên nhân gây tử vong do ung thư ở phụ nữ, trong khi ít gặp ở nam giới Để hiểu rõ về ung thư vú, cần nắm vững cấu trúc giải phẫu của vú, chủ yếu bao gồm mô mỡ, dây chằng, mô liên kết, mạch bạch huyết và các hạch, cùng với mạch máu Vú nữ có từ 12 đến 20 thùy, mỗi thùy tạo thành các tiểu thùy nhỏ có chức năng sản xuất sữa, và các thùy này được kết nối với nhau bằng các ống dẫn, giúp vận chuyển sữa tới núm vú.

Ung thư vú phổ biến nhất là ung thư ống dẫn, hay còn gọi là ung thư biểu mô ống động mạch, chiếm hơn 80% tổng số ca ung thư vú Trong khi đó, ung thư biểu mô tiểu thùy chỉ chiếm hơn 10% các trường hợp Phần còn lại của ung thư vú bao gồm các loại có đặc điểm của cả hai dạng ung thư trên hoặc có nguồn gốc không xác định.

Việc ứng dụng các thuật toán học máy vào chẩn đoán ung thư, đặc biệt là ung thư vú, đang trở nên ngày càng cần thiết Dự đoán tình trạng khối u là ác tính hay lành tính đóng vai trò quan trọng trong việc điều trị sớm bệnh ung thư vú Xuất phát từ những thực tiễn này, tôi đã bắt đầu nghiên cứu và tìm giải pháp cho các vấn đề liên quan đến chẩn đoán ung thư.

Thu thập và xử lý dữ liệu

3.2.1 Tổng quan về dữ liệu

Dữ liệu trong đồ án này được thu thập từ kho lưu trữ học máy của Đại học California-Irvine (UCI), với bộ dữ liệu chẩn đoán ung thư vú Wisconsin (WDBC) được phát hành vào ngày 1 tháng 11 năm 1995 Bộ dữ liệu này bao gồm 569 trường hợp, trong đó có 357 trường hợp là lành tính và 212 trường hợp ác tính Nó chứa 32 thuộc tính, bao gồm hai nhãn lớp (B = lành tính, M = ác tính), số ID và 30 thuộc tính định giá lại, được tính toán từ hình ảnh số hóa của thủ tục khát vọng kim tốt (FNA) của khối lượng vú, nhằm mô tả các đặc điểm của hạt nhân tế bào Chi tiết các trường dữ liệu được trình bày trong bảng dưới đây.

Bảng 3.2 Bảng chi tiết dữ liệu

Bài viết này trình bày các thông số quan trọng liên quan đến tế bào, bao gồm tên trường, mô tả, và các chỉ số như độ lệch tiêu chuẩn của các giá trị thang xám tế bào, chu vi, diện tích, độ nhẵn, độ chặt, độ lõm, số lượng các điểm lõm, và đối xứng Ngoài ra, các thông số như bán kính, kết cấu, chu vi, diện tích, độ nhẵn, độ chặt, độ lõm, và các điểm lõm cũng được phân tích theo tiêu chuẩn lỗi Cuối cùng, các chỉ số xấu nhất cho từng thông số cũng được nêu rõ, bao gồm bán kính xấu nhất, kết cấu xấu nhất, chu vi xấu nhất, độ chặt xấu nhất, độ lõm xấu nhất, số lượng các điểm lõm xấu nhất, đối xứng xấu nhất và kích thước đường biên xấu nhất.

Bài toán phân loại có hai lớp dự đoán: M (ác tính) và B (lành tính), với tổng số bản ghi là 569, trong đó lớp B có 357 bản ghi và lớp M có 212 bản ghi Thông tin chi tiết được trình bày trong hình dưới đây.

Hình 3.6 Phân bổ của dữ liệu vào 2 lớp

3.2.1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước thiết yếu trong Machine Learning, vì dữ liệu đóng vai trò quan trọng trong việc huấn luyện mô hình Việc tiền xử lý giúp loại bỏ hoặc bù đắp dữ liệu thiếu hụt và xử lý các dữ liệu sai lệch, từ đó nâng cao hiệu quả huấn luyện mô hình.

Bài viết này mô tả một tập dữ liệu gồm 32 trường, trong đó có 31 trường dữ liệu và một trường nhãn Bước đầu tiên trong quá trình xử lý dữ liệu là tách trường nhãn ra khỏi các trường dữ liệu khác, với trường nhãn được xác định là cột diagnosis.

Trường dữ liệu ID không có giá trị thông tin hữu ích cho quá trình huấn luyện, do đó sẽ bị loại bỏ Trong quá trình kiểm tra, không có trường dữ liệu nào bị thiếu, vì vậy bước này sẽ được bỏ qua.

Chuẩn hóa dữ liệu là bước quan trọng trong giải quyết vấn đề học máy, không chỉ vì thông tin thu được từ dữ liệu mà còn do các phương pháp phân tích dữ liệu khác nhau tập trung vào các khía cạnh khác nhau Ví dụ, phương pháp phân cụm tập trung vào sự tương tự của các điểm dữ liệu, trong khi phương pháp phân tích các thành phần chính (PCA) lại chú trọng vào độ rộng của các thành phần chính Việc chuẩn hóa và thay đổi thuộc tính của dữ liệu có thể nâng cao hiệu quả của phương pháp phân cụm nhưng lại có thể làm giảm độ rõ ràng của kết quả từ phương pháp PCA.

Khi đối mặt với một vấn đề mà bạn muốn giải quyết nó bằng Học Máy, bạn cần

Bạn đã nắm vững các phép toán cơ bản để làm sạch dữ liệu, bao gồm xử lý dữ liệu nan (not a number), loại bỏ dữ liệu dư thừa và điền vào các giá trị bị khuyết Những công việc này là phần quan trọng trong bước tinh chỉnh dữ liệu trong quy trình phân tích dữ liệu.

Cuối cùng, bạn đã nắm được cách mã hóa đặc trưng dữ liệu một cách chính xác trong bối cảnh học máy Đôi khi, việc tiền xử lý dữ liệu có thể diễn ra trong quá trình thu thập, điều này thực sự thuộc về bước biến đổi dữ liệu Tuy nhiên, điều này không gây khó khăn, vì không có một quy trình cứng nhắc nào cho việc chuẩn bị dữ liệu trước khi đưa vào huấn luyện.

Trong lĩnh vực machine learning, việc kiểm thử là cần thiết để dự đoán hiệu quả hoạt động của mô hình trong thực tế Có nhiều phương pháp khác nhau để kiểm thử và đánh giá hiệu suất của mô hình.

Để đánh giá và ước lượng hiệu quả của mô hình, chúng ta nên sử dụng một tập dữ liệu kiểm thử độc lập với tập dữ liệu huấn luyện Thông thường, tập huấn luyện và tập kiểm thử được tách ra từ dữ liệu quan sát, ví dụ như sử dụng 80% dữ liệu để huấn luyện và 20% còn lại để đánh giá.

 Training Set (Tập huấn luyện)

Tập huấn luyện là bộ dữ liệu thiết yếu cho việc huấn luyện mô hình trong các thuật toán học máy Mỗi thuật toán và mô hình sẽ có cách học khác nhau từ tập dữ liệu này, ảnh hưởng đến hiệu quả của quá trình học.

Các thuật toán thường tối ưu hóa sai số dự đoán trên tập huấn luyện để đạt được kết quả tốt nhất Tuy nhiên, trong trường hợp overfitting, sai số dự đoán của mô hình có thể giảm xuống rất thấp, thậm chí đạt mức 0%.

 Testing Set (Tập kiểm thử)

Mục tiêu của machine learning là phát triển các mô hình có khả năng tổng quát hóa, cho phép dự đoán chính xác trên dữ liệu chưa thấy Để đánh giá hiệu quả của một thuật toán hoặc mô hình, cần sử dụng bộ dữ liệu kiểm thử để tính toán độ chính xác hoặc sai số của mô hình đã được huấn luyện Trong quá trình này, chúng ta sẽ giả định không biết nhãn thực của các điểm trong bộ dữ liệu kiểm thử và đưa các giá trị đầu vào vào mô hình để nhận kết quả dự đoán Sau đó, bằng cách so sánh các nhãn thực với kết quả dự đoán, chúng ta có thể xác định độ chính xác của mô hình Cuối cùng, bằng cách tính trung bình các lỗi dự đoán, chúng ta có thể đánh giá được hiệu suất của mô hình trên tập kiểm thử.

 Tập dữ liệu kiểm chứng (Vadidation Set)

Sau khi thử nghiệm nhiều tỷ lệ chia dữ liệu khác nhau, em đã quyết định chia dữ liệu thành hai tập, với 70% dành cho tập huấn luyện và 30% cho tập thử nghiệm.

3.2.3 Tìm tham số tối ưu

Ngày đăng: 14/10/2022, 21:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] "Wikipedia", [Online], Available: https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y Sách, tạp chí
Tiêu đề: Wikipedia
[2] "m2tech", [Online], Available : https://m2tech.buyit.vn/hoc-may-machine-learning-la-gi-ung-dung-cua-hoc-may/ Sách, tạp chí
Tiêu đề: m2tech
[4] "Wordpress", [Online], Available : https://neralnetwork.wordpress.com/2018/05/11/thuat-toan-support-vector-machine-svm/ Sách, tạp chí
Tiêu đề: Wordpress
[5] "Viblo", [Online], Available : https://viblo.asia/p/support-vector-machine-trong-hoc-may-mot-cai-nhin-don-gian-hon-XQZkxoQmewA Sách, tạp chí
Tiêu đề: Viblo
[6] "vimentor.com", [Online], Available : https://www.vimentor.com/vi/lesson/tien-xu-ly-du-lieu-trong-linh-vuc-hoc-may-phan-3 Sách, tạp chí
Tiêu đề: vimentor.com
[7] "Viblo", [Online], Available : https://viblo.asia/p/confusion-matrix-ma-tran-nham-lan-ma-tran-loi-V3m5WQB7ZO7 Sách, tạp chí
Tiêu đề: Viblo
[8] "hoctructuyen123", [Online], Available : http://hoctructuyen123.net/cac-phuong-phap-danh-gia-mot-mo-hinh-phan-lop-du-lieu Sách, tạp chí
Tiêu đề: hoctructuyen123
[9] "Openplanning.net", [Online], Available : https://openplanning.net/11385/gioi-thieu-ve-python Sách, tạp chí
Tiêu đề: Openplanning.net
[12] "ichi.pro", [Online], Available : https://ichi.pro/vi/tien-xu-ly-du-lieu-voi-python-62761617448240 Sách, tạp chí
Tiêu đề: ichi.pro
[13] "tek4.vn", [Online], Available : https://tek4.vn/khoa-hoc/machine-learning-co-ban/training-set-va-testing-set Sách, tạp chí
Tiêu đề: tek4.vn
[14] D. Graffox, "IEEE Citation Reference," Sep. 2009. [Online]. Available: http://www.ieee.org/documents/ieeecitationref.pdf Sách, tạp chí
Tiêu đề: IEEE Citation Reference
[19] P. J. Denning, "Editorial: Plagiarism in the Web," Communications of the ACM, vol. 98, no. 12, p. 29, Dec. 1995 Sách, tạp chí
Tiêu đề: Editorial: Plagiarism in the Web
[3] N.T.HOP, [Online], Available : https://viblo.asia/p/thuat-toan-phan-lop-naive-bayes-924lJWPm5PM Link
[10] tecktrending.com, [Online], Available : https://tecktrending.com/thu-vien-python-cho-khoa-hoc-du-lieu/ Link
[11] Benhvien103, [Online], Available : http://www.benhvien103.vn/thuc-trang-va-cap-nhat-ung-thu-tai-viet-nam/ Link
[15] Apr. 2011. [Online]. Available: http://libinfo.uark.edu/reference/citingyoursources.asp Link
[16] [Online]. Available: http://www.ijssst.info/info/IEEE-Citation-StyleGuide.pdf. [Accessed 2 5 2011] Link
[18] N. Wells, 2007. [Online]. Available: http://www.nissawells.com/samples/w-manual.pdf Link
[22] T. Doe, Dec. 2011. [Online]. Available: http://grad.uark.edu/dean/thesisguide.php Link
[23] Cornell University Library PSEC Documentation Committee, Feb. 2010. [Online]. Available: http://www.library.cornell.edu/resrch/citmanage/apa Link

HÌNH ẢNH LIÊN QUAN

- Thôn Gốm, xã Thụy Lôi, huyện Kim Bảng Từ 04/05 - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
h ôn Gốm, xã Thụy Lôi, huyện Kim Bảng Từ 04/05 (Trang 1)
Hình 2.1 Các phương pháp học máy phổ biến hiện nay - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 2.1 Các phương pháp học máy phổ biến hiện nay (Trang 20)
Hình 2.2 Minh họa siêu phẳng trong SVM - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 2.2 Minh họa siêu phẳng trong SVM (Trang 28)
Hình 2.3 Vấn đề chọn siêu phẳng trong SVM - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 2.3 Vấn đề chọn siêu phẳng trong SVM (Trang 29)
Hình 2.4 Margin trong vấn đề chọn siêu phẳng - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 2.4 Margin trong vấn đề chọn siêu phẳng (Trang 30)
Confusion Matrix ma trận nhầm lẫn hay ma trận lỗi là một bố cục bảng cụ thể cho phép hình dung hiệu suất của một thuật tốn - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
onfusion Matrix ma trận nhầm lẫn hay ma trận lỗi là một bố cục bảng cụ thể cho phép hình dung hiệu suất của một thuật tốn (Trang 36)
Một mơ hình phân lớp tốt là mơ hình cĩ cả Precision và Recall đều cao, tức càng gần một càng tốt - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
t mơ hình phân lớp tốt là mơ hình cĩ cả Precision và Recall đều cao, tức càng gần một càng tốt (Trang 39)
Từ tình hình thực tiễn trên, em nhận thấy việc ứng dụng các thuật tốn học máy vào chẩn đốn ung thư đang ngày càng trở nên cần thiết hơn - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
t ình hình thực tiễn trên, em nhận thấy việc ứng dụng các thuật tốn học máy vào chẩn đốn ung thư đang ngày càng trở nên cần thiết hơn (Trang 43)
Hình 3.6 Phân bổ của dữ liệu vào 2 lớp - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 3.6 Phân bổ của dữ liệu vào 2 lớp (Trang 46)
Mục tiêu của machinelearning là tạo ra những mơ hình cĩ khả năng tổng quát hĩa để dự đốn tốt trên cả dữ liệu chưa thấy bao giờ (nằm ngồi tập huấn luyện), do đĩ, để biết một thuật tốn hay mơ hình cĩ tốt hay khơng thì sau khi được huấn luyện, mơ hình cần đư - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
c tiêu của machinelearning là tạo ra những mơ hình cĩ khả năng tổng quát hĩa để dự đốn tốt trên cả dữ liệu chưa thấy bao giờ (nằm ngồi tập huấn luyện), do đĩ, để biết một thuật tốn hay mơ hình cĩ tốt hay khơng thì sau khi được huấn luyện, mơ hình cần đư (Trang 49)
 Kiểm thử mơ hình - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
i ểm thử mơ hình (Trang 51)
3.2.4.2 Huấn luyện với mơ hình SVM (Support Vector Machine) - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
3.2.4.2 Huấn luyện với mơ hình SVM (Support Vector Machine) (Trang 52)
Hình 3.9 Mơ hình huấn luyện với thuật tốn SVM - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Hình 3.9 Mơ hình huấn luyện với thuật tốn SVM (Trang 53)
Sau khi huấn luyện thì các mơ hình đã được huấn luyện sẽ được thử nghiệm với tập huấn luyện - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
au khi huấn luyện thì các mơ hình đã được huấn luyện sẽ được thử nghiệm với tập huấn luyện (Trang 54)
Bảng dưới là kết quả chẩn đố nu ác tính M dựa theo việc đánh giá bằng Precision và Recall dựa trên hai thuật tốn Nạve Bayes và SVM - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Bảng d ưới là kết quả chẩn đố nu ác tính M dựa theo việc đánh giá bằng Precision và Recall dựa trên hai thuật tốn Nạve Bayes và SVM (Trang 56)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w