Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ

16 6 0
Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ Báo cáo bởi Phan Trường Giang 1 Thành phố Hồ Chí Minh Tháng 01,2019 Mục lục Lời mở đầu Bài viết trình bày về cách áp dụng thuật toán cho hệ thống tin y tế trong việc chẩn đoán các bệnh về ruột Trong bài viết này, CMC SISG chủ yếu áp dụng để chẩn đoán bệnh về ruột già - loại bệnh dễ dẫn đến ung thư trực tràng và bệnh Crohn (các bệnh về viêm nhiễm trùng ruột) Để tìm ra các quy tắc phân biệt hai bệnh này, các phương pháp khai thác và thống kê dữ liệu được sử dụng và phối hợp cùng nhau để hiện kết quả phân loại và hỗ trợ chẩn đoán Mục đích của đề tài: áp dụng thuật toán máy học được sử dụng để giải quyết các loại vấn đề phân loại trong y học Trong đó, giới hạn của đề tài là các vấn đề về ruột, cụ thể là viêm loét đại tràng Bệnh viêm loét đại tràng ảnh hưởng đến đại tràng hoặc trực tràng và phá hủy phần trong cùng của niêm mạc Viêm loét đại tràng gây viêm và loét ở ruột già, có thể gây ra cảm giác muốn đi cầu thường xuyên, gây xuất huyết khi đi ngoài, và có khả năng dẫn đến tử vong Có khoảng 11,2 triệu người nhiễm bệnh vào năm 2015 (theo GBD 2015 Căn bệnh và tỷ lệ mắc bệnh công bố ngày 8 tháng 10 năm 2016 trong tạp chí “Global, regional, and national incidence, prevalence, and years TRANG 2 lived with disability for 310 diseases and injuries, 1990-2015: a systematic analysis for the Global Burden of Disease Study 2015.”) Theo thống kê của Bộ Y tế, số lượng người Việt Nam mắc bệnh đại tràng mãn tính đã lên tới 4 triệu người, cao gấp 4 lần tỷ lệ mắc bệnh trung bình trên toàn cầu, lớn hơn tổng lượng người mắc bệnh của toàn châu Âu (VTV- 02/04/2018) Vì vậy, đề tài này mang tính thiết thực đối với ngành y học của Việt Nam nói riêng Nội dung bài trình bày 1 Giới thiệu và những giả định được đặt ra 2.1 Giới thiệu Các thuật toán Machine Learning đã được sử dụng rộng rãi để giải quyết các loại vấn đề phân loại dữ liệu khác nhau trong y học Viêm loét đại tràng là một căn bệnh gây viêm đại tràng lâu dài, tạo ra kích ứng hoặc loét dẫn đến xuất huyết Điều này có thể dẫn đến suy nhược cơ thể, đau bụng và các biến chứng có khả năng đe dọa tính mạng Nó ảnh hưởng đến đại tràng hoặc trực tràng và phá hủy phần trong cùng của niêm mạc ruột Viêm loét đại tràng gây viêm và loét ở ruột già, có thể gây ra cảm giác thường xuyên cần phải đi tiêu Nguyên nhân chính xác của bệnh không được biết đến, do đó tìm kiếm nguồn gốc bệnh, phát hiện sớm là vô cùng quan trọng 2.2 Những giả định Nhóm tác giả làm việc trên dữ liệu được trình bày dưới dạng bảng quyết S = (X ; A; V) trong đó: • X là tập hợp các đối tượng không trống, hữu hạn, • A là tập hợp các thuộc tính không trống, hữu hạn, • V (Va: a thuộc A) A là tập hợp tất cả các giá trị thuộc tính Ngoài ra, a: X-> Va: Va là một hàm cho bất kỳ a thuộc A, giá trị thuộc tính của một đối tượng đã cho Các thuộc tính được chia thành các loại khác nhau: bộ thuộc tính ổn định ASt (ví dụ: ngày sinh, nơi sinh, màu da), bộ thuộc tính linh hoạt AFl (huyết áp, cân nặng, mức đường) và bộ thuộc tính quyết định D (ví dụ: phương pháp điều trị, loại bệnh) sao cho A: TRANG 3 Trong bài báo này, chúng tôi phân tích các hệ thống thông tin chỉ với một thuộc tính quyết định D Ví dụ về hệ thống thông tin được trình bày dưới dạng Bảng 1 Hệ thống thông tin được đại diện bởi tám đối tượng, một thuộc tính ổn định a (giá trị của nó không thể thay đổi), hai thuộc tính linh hoạt b; c (giá trị của chúng có thể thay đổi trong một số điều kiện) và một thuộc tính quyết định 2 Những phương pháp luận và kỹ thuật được trình bày và áp dụng 1 Classification - Phân loại Trình phân loại là một thuật toán thực hiện phân loại, đặc biệt là trong việc triển khai Có nhiều cách phân loại khác nhau và nhiều loại kết quả phân loại khác nhau Đặc biệt là làm việc với dữ liệu y tế, để quyết định thuật toán phân loại nào là hiệu quả nhất cho tập hợp dữ liệu đã cho Việc hiểu biết rộng về dữ liệu y tế và quyết định chọn cách phân loại phù hợp, sẽ cho một kết quả tốt hơn Có hai lựa chọn: Đầu tiên, tin vào ý kiến chuyên gia Hai là, chạy thử các cách phân loai trên tập dữ liệu dataset, cân nhắc các kết quả và chọn phương pháp phân loại phỳ hợp trong bài nghiên cứu, nhóm những nhà nghiên cứu đã sử dụng phương pháp phân loại, trong đó bao gồm kỹ thuật khai thác dữ liệu và phương pháp thống kê nhằm chia các đối tượng thành các tập dữ liệu khác nhau Trong bước đầu tiên, nhóm nghiên cứu mô tả một tập hợp dữ liệu được xác định trước trên cơ sở hồi quy Mỗi tập hập được giả định là thuộc về một nhóm được TRANG 4 xác định trước theo thuộc tính phân loại Tập hợp dữ liệu được sử dụng để xây dựng mô hình, được gọi là training sets Mô hình có thể được biểu diễn theo các quy tắc phân loại, cây quyết định hoặc các công thức toán học Mô hình được sử dụng để dự đoán các xu hướng dữ liệu trong tương lai, hoặc phân loại lại các đối tượng Mô hình ước tính độ chính xác của căn cứ trên các training sets Test sets luôn độc lập với các training sets 2.3 Decision tree- Cây quyết định Trong số các phương pháp phân loại, một trong những phương pháp phổ biến nhất là cây quyết định Nó đặc biệt vì cách thức biểu diễn tri thức được hiểu theo con người So với các phương pháp phân loại khác, cây quyết định có thể được xây dựng tương đối nhanh chóng Ưu điểm chính của họ là thể hiện rõ ràng kiến thức, khả năng sử dụng dữ liệu đa chiều và khả năng mở rộng với việc sử dụng các tập dữ liệu lớn Ngoài ra, còn phải kể đến độ chính xác của phương pháp này Tuy nhiên, nhược điểm chính của phương pháp này là độ nhạy cảmvới các giá trị thiếu của các thuộc tính Những nhược điểm khác như không có khả năng nắm bắt được mối tương quan giữa các thuộc tính Do đó, nhóm nghiên cứu sử dụng thuật toán ERID trước tiên, giúp giảm một số giá trị bị thiếu trong tập dữ liệu với độ chính xác cao Thuật toán tạo cây quyết định có thể được viết như sau: • Đối với một tập hợp các đối tượng đã cho, sử dụng thuật toán ERID, nhóm nghiên cứu tìm thấy tất cả các giá trị thiếu của thuộc tính, biểu diễn mối quan hệ và hoàn thiện hế thống • Kiểm tra các thuộc tính tương ứng với các đối tượng Nhóm nghiên cứu kiểm tra xem chúng có thuộc cùng một nhóm hay không (nếu chúng thuộc về một nhóm- kết thúc quá trình, nếu chúng không thuộc về nhau - xem xét các thuộc tính để chia thành các tập hợp con đồng nhất) • Đánh giá chất lượng của từng tập dữ liệu con theo tiêu chí được chấp nhận trước đó • Chia các đối tượng theo nhóm các thuộc tính TRANG 5 • Lặp lại các bước trên cho mỗi tập con Theo cách hiểu của cá nhân, phần này được nhóm nghiên cứu thực hiện như sau: • Bước 1: t là chọn ra một feature (đặc trưng) nào đó từ Feature Vector để phân chia dữ liệu vào các nhánh Với feature được chọn, dữ liệu sẽ được chia thành các tập con Tập con #1 sẽ đi vào nhánh #1, tập con #2 sẽ đi vào nhánh #2 • Bước 2: Nếu toàn bộ dữ liệu của một tập con cùng thuộc một category (có độ vẩn đục là 0) thì coi như quá trình phân loại đã kết thúc và quyết định sẽ được đưa ra • Bước 3: Ngược lại, chúng ta sẽ cần chọn ra một feature khác để tiếp tục phân loại dữ liệu thành các tập con nhỏ hơn Quá trình này sẽ lặp lại cho đến khi có thể phân loại tất cả dữ liệu một cách chính xác 2.4 Support Vector Machine (SVM) Support Vector Machine - Thuật toán SVM ban đầu được tìm ra bởi Vladimir N Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995 SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể Support vector machine (SVM) xây dựng (learn) một siêu phẳng (hyperplane) để phân lớp (classify) tập dữ liệu thành 2 lớp riêng biệt (Một siêu phẳng là một hàm tương tự như phương trình đường thẳng, y = ax + b ) Về ý tưởng thì SVM sử dụng thủ thuật để ánh xạ tập dữ liệu ban đầu vào không gian nhiều chiều hơn Khi đã ánh xạ sang không gian nhiều chiều, SVM sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để phân lớp tập dữ liệu đó Trong tài liệu này, thuật toán SVM có lợi thế là nó không ảnh hưởng đến cực tiểu tối thiểu Chúng tôi đã sửa đổi phương pháp này và các ràng buộc Do đó, các siêu mặt phẳng được xây dựng độc lập hơn Quy trình chính bắt đầu với việc phân vùng tất TRANG 6 cả các đối tượng thành các cụm dày đặc Bước tương tự được lặp lại cho tất cả các đối tượng tích cực cũng chia chúng thành các cụm dày đặc Lấy dữ liệu y tế với 152 trường hợp bị ảnh hưởng bởi viêm loét đại tràng, ví dụ, chúng tôi cho thấy rằng sự hỗ trợ và tin cậy chung của các quy tắc, được trích xuất từ cơ sở dữ liệu đó Trong không gian hai chiều, hai nhóm có thể được phân tách bằng một dòng, sử dụng phương trình ax+by < c cho nhóm thứ nhất và ax+by >c cho nhóm thứ hai Ưu điểm của SVM, là SVM có tính năng cho phép bỏ qua các ngoại lệ và tìm ra hyper-plane có biên giới tối đa Do đó chúng chúng ta có thể nói, SVM có khả năng mạnh trong việc chấp nhận ngoại lệ Để chọn siêu phẳng(hyper -plane) tốt nhất có thể và giảm thiểu rủi ro của việc nhiễu, điều rất quan trọng là tìm một biên độ tối đa giữa hai lớp Đây là một vấn đề tối ưu hóa điển hình có thể được giải quyết bằng công thức Lagrangian Sau khi tìm thấy siêu phẳng tối ưu, chỉ các điểm dữ liệu gần nhất với siêu phẳng sẽ có trọng số dương, trong khi các điểm khác sẽ bằng không 2.5 Đánh giá các kết quả phân tích Mỗi cách phân loại nên được đánh giá về chất lượng Đối với mục đích này, hai bộ dữ liệu là cần thiết Bộ training set, được gọi là dành cho việc phân loại Validation test được sử dụng để kiểm tra các phân loại Trong cả hai bộ, cần phải biết các mẫu thuộc về các lớp nào Trong nhiều trường hợp, việc phân chia dữ liệu thành một bộ giảng dạy và kiểm tra không được đưa ra Sau đó, một phân chia ngẫu nhiên thành hai bộ tách rời có thể được thực hiện lặp đi lặp lại, TRANG 7 thường là chọn theo cách bộ training test sẽ có số lượng dữ liệu nhỏ hơn bộ validation test Trong trường hợp như vậy, chúng tôi có một cách đơn giản Một kiểu xác nhận khác là xác thực k-Fold được gọi là kiểm tra chéo k-Fold (hay còn được gọi là xác thực chéo k-Fold Toàn bộ dữ liệu được chia thành K tập con Quá trình học của máy có K lần Trong mỗi lần, một tập con được dùng để kiểm tra và K-1 tập còn lại dùng để dạy 2.6 Các giá trị xác định Các số liệu khác nhau được sử dụng để đánh giá bộ phân loại Để trình bày các số liệu được sử dụng trong bài báo cáo, các chỉ định về trình bày số liệu như trong Bảng 1 Trong lĩnh vực machine learning, cụ thể là vấn đề phân loại thống kê, ma trận nhầm lẫn (Bảng 2), còn được gọi là ma trận lỗi, là cách bố trí bảng cụ thể của việc học được giám sát- supervised learning Đây là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp Một confusion matrix gồm 4 chỉ số sau đối với mỗi lớp phân loại: Để đơn giản hóa, ta sẽ sử dụng lại bài toán về chẩn đoán bệnh ung thư trực tràng để giải thích 4 chỉ số này Trong bài toán chuẩn đoán ung thư trực tràng ta có 2 TRANG 8 lớp: lớp bị ung thư được chuẩn đoán Positive và lớp không bị ung thư được chuẩn đoán là Negative: • TP (True Positive): Số lượng dự đoán chính xác Là khi mô hình dự đoán đúng một người bị ung thư trực tràng • TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp Là khi mô hình dự đoán đúng một người không bị ung thư trực tràng, tức là việc không chọn trường hợp bị ung thư trực tràng là chính xác • FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch Là khi mô hình dự đoán một người bị ung thư trực tràng và người đó hoàn toàn khỏe mạnh • FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách gián tiếp Là khi mô hình dự đoán một người không bị ung thư trực tràng nhưng người đó bị ung thư trực tràng, tức là việc không chọn trường hợp bị ung thư trực tràng là sai Sensitivity – (TPR): là tỷ lệ xét nghiệm dương tính trên tổng cộng người có bệnh Xác suất phân loại sẽ chính xác, với điều kiện là trường hợp dương tính Đối với lĩnh vực y tế, nó có thể là xác suất mà kết quả xét nghiệm được thực hiện bởi một bệnh nhân bị bệnh, sau khi thực hiện, anh ta mắc bệnh đúng như dự đoán Chỉ số này được tính theo công thức: Specificity – (TNR): là tỷ lệ xét nghiệm âm tính trên tổng cộng người không bệnh Tỉ lệ loại trừ đúng trên tổng số các trường hợp Negative hay còn gọi là Specificity (độ đặc hiệu) trong y học lâm sàng Xác suất phân loại sẽ chính xác, với điều kiện trường hợp bệnh nhân âm tính Một ví dụ là xác suất một người khỏe mạnh sẽ không được chẩn đoán bằng xét nghiệm, anh ta sẽ được dự đoán theo tỷ lệ loại trừ đúng Độ đặc hiệu được xác định theo công thức sau: TRANG 9 False positive rate – (FPR): là tỷ lệ xét nghiệm dưong tính trên tổng cộng người không bệnh ệ số của các trường hợp được phân loại dương tính giả là một nhóm khác, mà chúng tôi viết với công thức sau: False discovery rate – (FDR) : FDR nhằm mục đích kiểm soát tỷ lệ phát hiện không chính xác của các xét nghiệm: Positive predictive value – (PPV, precision) : Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự đoán là chính xác? Chỉ số này được tính theo công thức Negative predictive value – (NPV): Chỉ số này trả lời câu hỏi ví dụ: Nếu kết quả xét nghiệm dương tính, xác suất bệnh nhân mắc bệnh là bao nhiêu? Chúng ta có thể biểu thị số đo bằng công thức sau: TRANG 10 Negative predictive value – (NPV) : chỉ số trả lời câu hỏi: Nếu kết quả xét nghiệm là âm tính, xác suất bệnh nhân khỏe mạnh là bao nhiêu? F1-score – t: được dùng khi ta quan tâm đồng đều vai trò của cả PPV và TPR, nói cách khác ta muốn Mô hình (quy luật chẩn đoán) vừa Nhạy, vừa chính xác Đây là biện pháp đánh giá mối quan hệ giữa độ nhạy và độ chính xác Tuy nhiên, nó không bao gồm kết quả âm tính thực sự Việc lựa chọn giữa các kết quả Âm tính và dương tính (PPV) tùy thuộc vào mục tiêu ứng dụng của mô hình: người bác sĩ muốn Tầm soát bệnh hay muốn Xác định bệnh ? 3 Kết quả phân tích Số liệu của chúng tôi chứa dữ liệu lâm sàng của 152 bệnh nhân bị ảnh hưởng bởi viêm loét đại tràng Bệnh nhân được đặc trưng bởi 117 thuộc tính và phân thành hai nhóm: bệnh nhân viêm loét đại tràng (UC) và bệnh nhân bị bệnh Crohn (CD) Mục tiêu của chúng tôi là tìm các quy tắc phân loại bệnh Nhóm đối tượng được nghiên cứu bao gồm bệnh nhân bị bệnh viêm ruột Ở nhóm thứ nhất, viêm loét đại tràng được chẩn đoán (N = 86, phụ nữ N = 32, nam N = 54) và nhóm thứ hai là bệnh nhân bị bệnh Crohn (N = 66, phụ nữ N = 32, nam N = 34) Quá nhiều biến có thể tác động tiêu cực đến hiệu suất của mô hình Kết quả là, các giai đoạn đầu tiên của nghiên cứu, trong đó bao gồm việc xử lý dữ liệu ban đầu, rất quan trọng Dữ liệu có thể được lựa chọn, chuyển đổi hoặc xóa các biến không cần thiết TRANG 11 Sau khi hoàn thành chọc lọc và xử lý dữ liệu ban đầu bằng ERID và loại bỏ các biến trong đó tỷ lệ phần trăm dữ liệu bị thiếu vượt quá 60%, số lượng thuộc tính còn lại là 73 thuộc tính Sau đó, tất cả các thuộc tính liên quan đến điều trị đã bị loại khỏi phân tích, vì các vị từ mô tả phương pháp điều trị không thể xác định diễn biến của bệnh Sau đó, các thuộc tính đã được chọn Cuối cùng, một tập hợp các thuộc tính đã thu được có sự khác biệt đáng kể trong hai nhóm được dùng để phân tích Các giai đoạn tiếp theo của phân tích được thực hiện bằng phương pháp khai thác dữ liệu Các thuật toán phân loại như J48, SVM và Random Forest đã được sử dụng Cuối cùng, thuật toán tốt nhất đã được chọn bằng cách phân tích chất lượng của các biện pháp phân loại Sau khi sử dụng mô hình hồi quy logic được kết nối với thuật toán ERID, các giá trị như highest values of sensitivity và high specificity được sử dụng bằng thuật toán random forest Đối với phân loại đã nói ở trên, sensitivity bằng 100%, điều này chứng tỏ khả năng lý tưởng để phát hiện bệnh nhân bị CD High specificity xác định khả năng phát hiện người bị UC trong vòng 98,48% Sau khi áp dụng thuật toán J48, , sensitivity là 94,19% và specificity 90,91% Trong trường hợp của SVM, , sensitivity đạt 93,02% và specificity là 84,85% Tần suất báo động sai (false alarms) trong trường hợp thuật toán J48 ở mức 0,09, trong khi tần suất phát hiện sai (frequency of false) là 0,07 Đối với thuật toán SVM và Random Forest, các giá trị này lần lượt là 0,15 và 0,11 và 0,02 và 0,01 Trong bước tiếp theo, các thuộc tính dự đoán của mô hình đã được xác định Độ Chính xác dương trong trường hợp thuật toán J48 ở mức 0,93, trong khi hai phương pháp còn lại lần lượt là: 0, 89 và 0,99 Giá trị chính xác âm tương ứng là J48: 0,92, SVM: 0,9 và Random Forest 1 Ngoài ra, giá trị của điểm F1, là một thước đo cân bằng, ở một mức độ nhất định mô tả toàn bộ mô hình, đã được tính toán Trong thuật toán thảo luận đầu tiên F1 = 0,92, hai F1 còn lại = 0,91 cho SVM và F1 = 0,99, cho Random Forrest Phương pháp đề xuất được so sánh với các phương pháp hiện đang sử dụng Tất cả các biến được đưa vào bộ phân loại và ba thuật toán được so sánh: J48, SVM và Random Forrest Các kết quả được hiển thị (Bảng 8 và 9) TRANG 12 Độ nhạy trong trường hợp thuật toán J48 là 89,53% và đạt giá trị thấp hơn 5 %, so với giả thuyết đã thảo luận trước đó Đồng thời, nó là giá trị thấp nhất trong số ba thuật toán được so sánh Đối với trình phân loại được xây dựng bằng phương pháp SVM, giá trị được thảo luận là 90,70%, trong khi đối với Random Forrest là 97,67% Các giá trị này, trong cả hai trường hợp, đều thấp hơn so với mô hình được xây dựng trên cơ sở phương pháp luận đã phát triển Kết quả tương tự đã thu Số đo trong câu hỏi trong thuật toán J48 đạt giá trị 89,39%, SVM - 74,24% và đối với Random Forrest - 93,94% Trong trường hợp của ba thuật toán, thang đo thấp hơn so với giả thuyết được thảo luận trước đó Tỷ lệ cá thể được phân loại sai - rate falsely classified (FPR) đã đạt được các giá trị sau cho ba thuật toán tương ứng: 0,11 (J48), 0,26 (SVM), 0,06 (Random Forrest) The type I error rate (FDR) giả định các mức sau: 0,08, 0,18, 0,05 The positive precision là 0,92 (J48), 0,82 (SVM), 0,95 (Random Forrest) Giả định tiêu cực cho J48 là 0,87, SVM 0,86, Random Forrest là 0,97 4 Kết quả 5 TRANG 13 6 Trong nghiên cứu này, chúng tôi đã xử lý dữ liệu của bệnh nhân bị viêm loét đại tràng và bệnh Crohn Để tìm ra các quy tắc phân biệt hai bệnh này, các phương pháp phân loại đã được sử dụng Ba phương pháp phân loại phổ biến được dùng là: phương pháp cây quyết định (J48 và Random Forest) và SVM 7 Dữ liệu bệnh nhân được chọn bằng phương pháp thống kê Hướng phát triển trong tương lai, các mô hình phân loại sẽ được sử dụng để xây dựng các quy tắc hành động, từ đó phân loại lại bệnh nhân thành từng nhóm cụ thể TRANG 14 ... trình bày cách áp dụng thuật toán cho hệ thống tin y tế việc chẩn đoán bệnh ruột Trong viết này, CMC SISG chủ yếu áp dụng để chẩn đoán bệnh ruột già - loại bệnh dễ dẫn đến ung thư trực tràng bệnh. .. (các bệnh viêm nhiễm trùng ruột) Để tìm quy tắc phân biệt hai bệnh này, phương pháp khai thác thống kê liệu sử dụng phối hợp để kết phân loại hỗ trợ chẩn đốn Mục đích đề tài: áp dụng thuật toán. .. sử dụng Ba phương pháp phân loại phổ biến dùng là: phương pháp định (J48 Random Forest) SVM Dữ liệu bệnh nhân chọn phương pháp thống kê Hướng phát triển tương lai, mơ hình phân loại sử dụng để

Ngày đăng: 11/12/2022, 21:27

Mục lục

  • Lời mở đầu

  • Nội dung bài trình bày

    • 2.1. Giới thiệu.

    • 2.2. Những giả định.

    • 2. Những phương pháp luận và kỹ thuật được trình bày và áp dụng.

      • 1 Classification - Phân loại.

      • 2.3. Decision tree- Cây quyết định.

      • 2.4. Support Vector Machine (SVM).

      • 2.5. Đánh giá các kết quả phân tích.

      • 2.6. Các giá trị xác định.

      • 3. Kết quả phân tích.

      • 4. Kết quả.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan