1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học

96 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Tác giả Dang Minh Tien, Truong Hoang Khang
Người hướng dẫn TS. Duong Minh Duc
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Kỹ thuật phần mềm
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2020
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 96
Dung lượng 38,35 MB

Cấu trúc

  • 3.3.2 Lua chon dc trun ..":.':.:'"::'-.- (0)
  • 3.3.3. Trích xuất đặc trưng..........................--- ¿2+2 2 2 EEEEEE1211211 271.1211111. 48 (66)
  • 3.3.4 Xây dựng các mô hình phân lớp........................ .- --- -¿- ¿+52 ++e>++++++e>+x+xerxxs 48 (0)
  • 3.3.5 Phương pháp kiểm tra mô hình........................--- 2 ++s+2++2£++E+++£x+zzsezzerrxs 48 (66)
  • 3.3.6 Lựa chọn tham $6...cccccccccccsssssssssscsscsesseseceesecevsuceesucersucersucavsnsarsessvencavene 49 (67)
  • 3.3.7 Đánh giá và lựa chọn mô hình ........................ .-- óc 2+ **+£+sxseeeexeereeersse 50 3.3.8. Tiêu chí đánh giá hiệu năng hệ thống.........................----- 2 ++z++cze+zzczxz 50 3.4. Các công cụ và thư viện hỗ trỢ.................--- 52 + +s+E+E+E2E2E2EEEEEEEEEEErrkerrrre 52 (68)
  • 3.4.1 Python... Ger Qn "` (70)
  • 3.4.2 Thư viện Scikit-learn 0.0.0... cccccccecsccessscceesseccessecsesseceesseeesssseeeesaees 53 CHƯƠNG 4. THỰC NGHIEM VA DANH GIÁ MÔ HINH (71)
  • 4.1 acc. 6 V ca SN PP (0)
    • 4.1.1 Bộ dữ liệu thực nghiệm Cleverland............................ - ¿+55 + 5s ++s£+sxx+xeexss 54 (72)
    • 4.1.2 Phương pháp thực hiện và đánh giá....................... .-- 55c 3c *++++s£ssssereerss 54 4.1.3. Kết quả thực nghi@m.e...cec cece css eesessessessessssssessessessesssessesseeseeees 55 (72)
    • 4.2.1 Bộ dữ liệu thực nghiỆm............................ - G3. 921111131 1E key 57 (75)
    • 4.2.2 Phương pháp thực hiện và đánh giá....................... .-- + Sc*+>+sssxsereerss 58 (76)
    • 4.2.3 Kết quả thực nghi@m ec. cececceccccccccscsessessesssessessessscsssssessessesssessesseesessees 60 CHƯƠNG 5. THỰC HIEN UNG DUNG MINH HỌA.........................-- 2-52 62 (0)
  • 5.1 Thiết kế hệ thống.............................--¿-2¿©2++22+22E2222E2212221122122212112711221 22.21. e 62 (0)
  • 5.2 Cài đặt môi tTƯỜng S€TVCT......................-.- c2. 212 23191121191 111 1111111 118111111 1k txeE 62 (0)
    • 5.2.1 Cài đặt Anaconda trên hệ điều hành Ưbuntu (80)
  • Hinh 2.3. Hé thống đa phân lớp được xây dựng bằng cách xáo trộn các mẫu hoặc các đặc trưng của tập huấn luyện. .....................----- 2-52 ©S222E2EE22E2E1271711211211221211 211110, 10 Hình 2.4. Cầu tạo một Neural...................---5cccc222ttrtrrtrttrrrrrrrrtrirrrrrrirrrrrirrrre 19 Hình 3.1. Thống kê lượng dữ liệu rỗng.........................---2- 22 2 E+EEt2E2EE2EEeEEzEErrxerreee 33 Hình 3.2. Ma trận tương quan với bản d6 nhiỆt...................... 2-2: 52+52+s£Ee£E+zEerxeez 34 Hình 3.3. Thống kê số lượng mắc bệnh theo giới tính........................----- 2-5222 s25: 35 Hình 3.4. Thống kê số lượng mắc bệnh theo loại cơn đau....................-- 2-5552 s+sz+s2 35 Hình 3.5. Thống kê số lượng mắc bệnh theo triệu chứng đau thắt ngực khi tập thê dục............................... MM z2⁄2...st.............À...............À (0)

Nội dung

Mô hình nhóm em đề xuất là sử dụng phương pháp lựa chọn đặc trưng dựa trên mối tương quan về đữ liệu dựa trên tiêu chí hệ số tương quan Pearson, trích xuất đặc trưng bằng PCA và áp dụng

Trích xuất đặc trưng - ¿2+2 2 2 EEEEEE1211211 271.1211111 48

Trích xuất đặc trưng giúp xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặc trưng nhỏ hơn Phương pháp được sử dụng trong các thí nghiệm là PCA PCA có thé sử dụng dé trích xuất các thông tin liên quan nhiều nhất từ một tập dữ liệu có chứa thông tin dư thừa hoặc nhiễu.

3.3.4 Xáy dựng các mô hình phân lớp

Các thuật toán máy học như Cây quyết định, SVM, KNN, Bagging, Random Subspace, RF, GPC sẽ được sử dụng đề xây dựng nên các hệ phân lớp Bên cạnh đó, các thuật toán và phương pháp máy học cũng được sử dụng dé lai ghép nham tìm ra sự hiệu quả của các mô hình.

3.3.5 Phương pháp kiểm tra mô hình

Phương pháp kiêm chứng chéo (K-Fold Cross-Validation - CV) là phương pháp chủ yếu được sử dụng để kiểm tra mô hình dựa trên tiêu chí độ chính xác.

Kiểm chứng chéo (K-Fold Cross-Validation) dùng đề tránh việc trùng lặp giữa các tập kiểm thử (một số ví dụ cùng xuất hiện trong các tập kiểm thử khác nhau).

Trong kiểm chứng chéo: e Tập toàn bộ các ví dụ D được chia thành K tập con không giao nhau (gọi là “fold”) có kích thước xấp xi nhau. ¢ Mỗi lần (trong số K lần) lặp, một tập con được sử dụng làm tập kiểm thử, và (K-1) tập con còn lại được dùng dé làm tập huấn luyện. eK giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình cộng dé thu được giá trị lỗi tổng thé.

Các lựa chọn thông thường của K là 10, hoặc 5.

Thông thường, mỗi tập con (fold) được lấy xấp xi phân tầng (xấp xi phân bố lớp) trước khi áp dụng quá trình kiểm chứng chéo.

Phương pháp này phù hợp khi ta có tập ví dụ D vừa và nhỏ.

Nhiều phương pháp học máy thường có (tập) siêu tham số (hyperparameters), buộc người dùng phải đưa giá tri vào.

Dé lựa chọn giá trị tốt nhất cho các tham số chúng ta sẽ dựa vào model selection.

Model selection: từ một tap học D, cần lựa chon bộ tham số trong phương pháp học A sao cho hệ thống được huấn luyện tốt nhất từ D.

Tập tối ưu (validation set) được sử dụng đề tối ưu giá trị các tham số trong giải thuật học máy (thường lấy từ tập D) Đối với một tham só, giá trị tối ưu là giá trị giúp sinh ra hiệu năng cực đại đôi với tập tôi ưu.

Lựa chọn tham số bằng cách sử dụng K-fold Cross-Validation được tiễn hanh như sau:

- Cho trước tập quan sát D, ta lựa chọn tham số 2 cho phương pháp học A như sau: e Chọn tập hữu hạn S mà chứa các giá tri tiềm năng cho i. ¢ Chọn độ đo P dé đánh giá hiệu năng. e Chia D thành K tập con không giao nhau, có kích thước xấp xỉ nhau: (K-

1) Dưain và 1T validation Trong thực nghiệm của luận văn sẽ chọn K. e Với mỗi giá trị À © S: Hoc A từ tập học Dưain trong lần lập K với tham số đầu vào À Do hiệu năng trên tập Tyatidation => thu được Py. e ChọnA' có P; tốt nhất.

- C6 thể hoc lại A từ D với tham số A” để hệ thống thu được kết quả tốt nhất.

3.3.7 Đánh giá và lựa chọn mô hình

Cho trước tập quan sát D, ta cần lựa chọn tham số A (model selection) cho phương pháp học A và đánh giá chất lượng tổng thể của A.

- Chon tập hữu hạn S mà chứa các giá tri tiềm năng cho A.

- Chon độ đo P dé đánh giá hiệu năng.

- Chia tập D thành 3 tập rời nhau: Dưain, Tvalidation Và Ttest.

- _ Sử dụng phương pháp lựa chọn tham số K-Fold Cross-Validation với K dé chọn ra A* mà có P¿ tốt nhất từ tập Dưain, Tvalidaton.

- Huan luyện A trên tập Dưain hợp với Tyatidation với tham số A* Đo hiệu năng của hệ thống trên tập Test.

Xem thêm chỉ tiết tài liệu tham khảo “Đánh giá kết quả phân tích” [§]

3.3.8 Tiêu chí đánh giá hiệu năng hệ thong Đề đánh giá hiệu năng của hệ thống, trong luận văn sẽ sử dụng tỉ lệ phân lớp lỗi để xác định tỉ lệ lỗi xảy ra khi dự đoán (phân lớp) của hệ thống (đã được huấn luyện) đối với các ví dụ kiểm chứng (test instances).

Ap dụng ma trận nhằm lẫn đề xác định các giá trị cần thiết dé xác định các giá trị cần sử dụng dé đánh giá hệ thống.

Ma trận nhầm lẫn (confusion matrix) hay còn gọi là Contingency Table, chỉ được dùng trong bài toán phân lớp Ma trận nhằm lẫn có kích thước 2x2, trong đó chứa các giá trị TP, FP, TN, FN.

Bang 3.5 Ma trận nhằm lẫn Được phân loại bởi hệ thông

Thuộc Không thuộc Nhãn lớp thực sự | Thuộc TP TN

(đúng) Không thuộc FP FN

Các giá trị trong ma trận nhằm lẫn cụ thể được mô tả như sau: e TP (true positive): Số lượng dữ liệu thuộc lớp C được phân loại chính xác vào lớp C. e FP (false positive): Số lượng dữ liệu bên ngoài bi phân loại nhằm vào lớp

C. e TN (true negative): Số lượng dữ liệu không thuộc lớp C được phân loại

(chính xác). e FN: (false negative): Số lượng dit liệu thuộc lớp C bị phân loại nhằm (vào các lớp C khác).

Từ ma trận nhằm lẫn, ta có các tiêu chí dé đánh giá mô hình máy học như: e Độ chính xác phân lớp: độ chính xác thể hiện tông hiệu suất của hệ phân lớp như sau: e _ Tỉ lệ phân lớp lỗi: là tổng phân lớp lỗi của mô hình phân lớp được tinh theo công thức: accuracy = error =

3.4 Các công cụ và thư viện hỗ trợ

Python là một ngôn ngữ lập trình thông dịch, hướng đối tượng, và là một ngôn ngữ bậc cao Python hỗ trợ các module và gói, khuyến khích chương trình module hóa và tái sử dụng mã Trình thông dịch Python và thư viện chuẩn mở rộng có sẵn dưới dạng mã nguồn hoặc dạng nhị phân miễn phí cho tắt cả các nền tảng chính và được phân phối tự do.

Một số đặc điểm của Python: ¢ Cú pháp đơn giản, dé học. ® - Vừa hướng thủ tục, vừa hướng đối tượng. e Hỗ trợ module và hỗ trợ gói. e Kiểu dữ liệu động ở mức cao. © Có các bộ thư viện chuẩn và các module ngoài, đáp ứng tat cả các nhu cầu lập trình. © (C6 khả năng tương tác với các module khác được viết trên ngôn ngữ khác như C/C++, Java e Có thể nhúng vào ứng dụng như một giao tiếp kịch ban (scripting interface).

Python có kha năng chạy trên nhiều nền tảng và nhiều hệ điều hành Bên cạnh đó, Python còn là một mã nguồn mở có cộng đồng lập trình lớn với nhiều hệ thống thư viện chuẩn và các thư viện mã nguồn được chia sẽ trên mạng.

Hiện tại các thí nghiệm trong luận văn đều sử dụng Python phiên bản 3.7 để cài đặt.

Hiện nay có khá nhiều thư viện mã nguồn mở phục vụ cho việc nghiên cứu máy học như scikit-learn, LibSVM, TensorFlow, Keras, v.v Tuy nhiên, scikit-learn cho phép ta sử dụng ngay các thuật toán quan trọng một cách đơn giản và hiệu quả.

Phương pháp kiểm tra mô hình - 2 ++s+2++2£++E+++£x+zzsezzerrxs 48

Phương pháp kiêm chứng chéo (K-Fold Cross-Validation - CV) là phương pháp chủ yếu được sử dụng để kiểm tra mô hình dựa trên tiêu chí độ chính xác.

Kiểm chứng chéo (K-Fold Cross-Validation) dùng đề tránh việc trùng lặp giữa các tập kiểm thử (một số ví dụ cùng xuất hiện trong các tập kiểm thử khác nhau).

Trong kiểm chứng chéo: e Tập toàn bộ các ví dụ D được chia thành K tập con không giao nhau (gọi là “fold”) có kích thước xấp xi nhau. ¢ Mỗi lần (trong số K lần) lặp, một tập con được sử dụng làm tập kiểm thử, và (K-1) tập con còn lại được dùng dé làm tập huấn luyện. eK giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình cộng dé thu được giá trị lỗi tổng thé.

Các lựa chọn thông thường của K là 10, hoặc 5.

Thông thường, mỗi tập con (fold) được lấy xấp xi phân tầng (xấp xi phân bố lớp) trước khi áp dụng quá trình kiểm chứng chéo.

Phương pháp này phù hợp khi ta có tập ví dụ D vừa và nhỏ.

Lựa chọn tham $6 cccccccccccsssssssssscsscsesseseceesecevsuceesucersucersucavsnsarsessvencavene 49

Nhiều phương pháp học máy thường có (tập) siêu tham số (hyperparameters), buộc người dùng phải đưa giá tri vào.

Dé lựa chọn giá trị tốt nhất cho các tham số chúng ta sẽ dựa vào model selection.

Model selection: từ một tap học D, cần lựa chon bộ tham số trong phương pháp học A sao cho hệ thống được huấn luyện tốt nhất từ D.

Tập tối ưu (validation set) được sử dụng đề tối ưu giá trị các tham số trong giải thuật học máy (thường lấy từ tập D) Đối với một tham só, giá trị tối ưu là giá trị giúp sinh ra hiệu năng cực đại đôi với tập tôi ưu.

Lựa chọn tham số bằng cách sử dụng K-fold Cross-Validation được tiễn hanh như sau:

- Cho trước tập quan sát D, ta lựa chọn tham số 2 cho phương pháp học A như sau: e Chọn tập hữu hạn S mà chứa các giá tri tiềm năng cho i. ¢ Chọn độ đo P dé đánh giá hiệu năng. e Chia D thành K tập con không giao nhau, có kích thước xấp xỉ nhau: (K-

1) Dưain và 1T validation Trong thực nghiệm của luận văn sẽ chọn K. e Với mỗi giá trị À © S: Hoc A từ tập học Dưain trong lần lập K với tham số đầu vào À Do hiệu năng trên tập Tyatidation => thu được Py. e ChọnA' có P; tốt nhất.

- C6 thể hoc lại A từ D với tham số A” để hệ thống thu được kết quả tốt nhất.

Đánh giá và lựa chọn mô hình óc 2+ **+£+sxseeeexeereeersse 50 3.3.8 Tiêu chí đánh giá hiệu năng hệ thống . - 2 ++z++cze+zzczxz 50 3.4 Các công cụ và thư viện hỗ trỢ . - 52 + +s+E+E+E2E2E2EEEEEEEEEEErrkerrrre 52

Cho trước tập quan sát D, ta cần lựa chọn tham số A (model selection) cho phương pháp học A và đánh giá chất lượng tổng thể của A.

- Chon tập hữu hạn S mà chứa các giá tri tiềm năng cho A.

- Chon độ đo P dé đánh giá hiệu năng.

- Chia tập D thành 3 tập rời nhau: Dưain, Tvalidation Và Ttest.

- _ Sử dụng phương pháp lựa chọn tham số K-Fold Cross-Validation với K dé chọn ra A* mà có P¿ tốt nhất từ tập Dưain, Tvalidaton.

- Huan luyện A trên tập Dưain hợp với Tyatidation với tham số A* Đo hiệu năng của hệ thống trên tập Test.

Xem thêm chỉ tiết tài liệu tham khảo “Đánh giá kết quả phân tích” [§]

3.3.8 Tiêu chí đánh giá hiệu năng hệ thong Đề đánh giá hiệu năng của hệ thống, trong luận văn sẽ sử dụng tỉ lệ phân lớp lỗi để xác định tỉ lệ lỗi xảy ra khi dự đoán (phân lớp) của hệ thống (đã được huấn luyện) đối với các ví dụ kiểm chứng (test instances).

Ap dụng ma trận nhằm lẫn đề xác định các giá trị cần thiết dé xác định các giá trị cần sử dụng dé đánh giá hệ thống.

Ma trận nhầm lẫn (confusion matrix) hay còn gọi là Contingency Table, chỉ được dùng trong bài toán phân lớp Ma trận nhằm lẫn có kích thước 2x2, trong đó chứa các giá trị TP, FP, TN, FN.

Bang 3.5 Ma trận nhằm lẫn Được phân loại bởi hệ thông

Thuộc Không thuộc Nhãn lớp thực sự | Thuộc TP TN

(đúng) Không thuộc FP FN

Các giá trị trong ma trận nhằm lẫn cụ thể được mô tả như sau: e TP (true positive): Số lượng dữ liệu thuộc lớp C được phân loại chính xác vào lớp C. e FP (false positive): Số lượng dữ liệu bên ngoài bi phân loại nhằm vào lớp

C. e TN (true negative): Số lượng dữ liệu không thuộc lớp C được phân loại

(chính xác). e FN: (false negative): Số lượng dit liệu thuộc lớp C bị phân loại nhằm (vào các lớp C khác).

Từ ma trận nhằm lẫn, ta có các tiêu chí dé đánh giá mô hình máy học như: e Độ chính xác phân lớp: độ chính xác thể hiện tông hiệu suất của hệ phân lớp như sau: e _ Tỉ lệ phân lớp lỗi: là tổng phân lớp lỗi của mô hình phân lớp được tinh theo công thức: accuracy = error =

3.4 Các công cụ và thư viện hỗ trợ

Python Ger Qn "`

Python là một ngôn ngữ lập trình thông dịch, hướng đối tượng, và là một ngôn ngữ bậc cao Python hỗ trợ các module và gói, khuyến khích chương trình module hóa và tái sử dụng mã Trình thông dịch Python và thư viện chuẩn mở rộng có sẵn dưới dạng mã nguồn hoặc dạng nhị phân miễn phí cho tắt cả các nền tảng chính và được phân phối tự do.

Một số đặc điểm của Python: ¢ Cú pháp đơn giản, dé học. ® - Vừa hướng thủ tục, vừa hướng đối tượng. e Hỗ trợ module và hỗ trợ gói. e Kiểu dữ liệu động ở mức cao. © Có các bộ thư viện chuẩn và các module ngoài, đáp ứng tat cả các nhu cầu lập trình. © (C6 khả năng tương tác với các module khác được viết trên ngôn ngữ khác như C/C++, Java e Có thể nhúng vào ứng dụng như một giao tiếp kịch ban (scripting interface).

Python có kha năng chạy trên nhiều nền tảng và nhiều hệ điều hành Bên cạnh đó, Python còn là một mã nguồn mở có cộng đồng lập trình lớn với nhiều hệ thống thư viện chuẩn và các thư viện mã nguồn được chia sẽ trên mạng.

Hiện tại các thí nghiệm trong luận văn đều sử dụng Python phiên bản 3.7 để cài đặt.

Thư viện Scikit-learn 0.0.0 cccccccecsccessscceesseccessecsesseceesseeesssseeeesaees 53 CHƯƠNG 4 THỰC NGHIEM VA DANH GIÁ MÔ HINH

Hiện nay có khá nhiều thư viện mã nguồn mở phục vụ cho việc nghiên cứu máy học như scikit-learn, LibSVM, TensorFlow, Keras, v.v Tuy nhiên, scikit-learn cho phép ta sử dụng ngay các thuật toán quan trọng một cách đơn giản và hiệu quả.

Scikit-learn còn là một trong những lựa chon hàng đầu của các nhà nghiên cứu và các nhà phát triển Đứng sau scikit-learn là các viện nghiên cứu hàng đầu thế giới, gồm có Inria, Télécom Paristech, Paris Saclay (Pháp), NYU Moore-Sloan Data Science Environment và Columbia University. scikit-learn algorithm cheat-sheet classification dimensionality reduction

Scikit-learn (viết tắt là sklearn) là một thư viện mã nguồn mở hỗ trợ rất mạnh mẽ trong máy học và thông dụng với cộng đồng Python Scikit-learn chứa hầu hết các thuật toán máy học hiện đại nhất, đi kèm với tài liệu chỉ tiết cho từng thuật toán. Điểm mạnh của thư viện này là nó được sử dụng phổ biến trong các học viện và vai ngành công nghiệp, do đó nó luôn được nâng cấp và có một cộng đồng phát triển rất tích cực.

acc 6 V ca SN PP

Bộ dữ liệu thực nghiệm Cleverland - ¿+55 + 5s ++s£+sxx+xeexss 54

Bảng 4.1 Tóm tắt dữ liệu thí nghiệm 1

Số lượng mẫu Số đặc trưng Số phân lớp

Phương pháp thực hiện và đánh giá . 55c 3c *++++s£ssssereerss 54 4.1.3 Kết quả thực nghi@m.e cec cece css eesessessessessssssessessessesssessesseeseeees 55

Phương pháp thực hiện là tiến hành thí nghiệm và đối sánh các hệ phân lớp độc lập, hệ đa phân lớp và đánh giá hiệu suất của mô hình Tập dữ liệu Cleveland và sẽ được dùng đề thực nghiệm và đối sánh hiệu suất với tác giả [11].

Tiến hành tìm kiếm vét cạn trên bộ dữ liệu đầu vao dé tìm ra bộ tham số tối ưu cho từng thuật toán Trong mỗi lần lựa chọn tham sé, hệ phân lớp sẽ được kiểm chứng chéo với 10-fold để đánh giá mô hình.

Thí nghiệm và đánh giá hiệu năng bao gồm các công đoạn: e Phân chia bộ dữ liệu thành hai tap huấn luyện và kiểm tra theo tỉ lệ lần lượt là 80%, 20% Trong đó độ cân bằng của các nhãn trong cả 2 tập huấn luyện và tập kiểm thử phải tương đối 6n định. e_ Tiền xử lý dữ liệu dé xử lý các đối tượng gây nhiễu và chuẩn hóa dữ liệu bằng phương pháp chuẩn hóa Min-Max. e _ Lựa chọn các đặc trưng thích hợp va biến đôi các đặc trưng. e Sử dụng bộ tham số tối ưu đã tìm được, tiến hành xây dựng mô hình tốt nhất và huấn luyện với 80% đữ liệu từ tập huấn luyện. e_ Tiến hành dự đoán 10 lần trên tập kiểm tra.

54 e Sử dụng chỉ số tỉ lệ lỗi phân lớp, lấy trung bình cộng sau 10 lần dự đoán dé đánh giá hiệu suất của hệ thống. ies 42/88) Lựa chọn các đặc Tiền xử lý dữ liệu Ỷ

Xây dựng hệ thống phân lớp Í

Hình 4.1 Quy trình thí nghiệm với bộ dữ liệu của UCI.

Thực nghiệm các phương pháp trên cơ sở dữ liệu của Cleveland

Tỉ lệ phân lớp lỗi (%)

0 | ¢ S$ ở CC § ¥ ¥ es ££ về sẽ v x a vế = sổ vớ về về và rs R ge „° RS ô xế se x PS x s & ô@ se ee sụ

& $ e > cd s rs sế về & Nod ss é &

Hình 4.2 Kết qua tỉ lệ phân lớp lỗi trên tập đữ liệu Cleveland.

Bang 4.2 Kết quả tỉ lệ phân lớp lỗi trên tập dit liệu Cleverland

Phương pháp Tỉ lệ lỗi phân lớp (%)

Bảng 4.3 Kết quả tỉ lệ phân lớp lỗi của các phương pháp tốt nhất thu được từ thực nghiệm đối sánh với tác giả [11]

Phương pháp Kết quả tác giả Kết quả thực nghiệm

Phân tích và đối sánh kết qua từ thi nghiệm thu được với các phan cài đặt tac giả [11] ta thấy:

- _ Việc tiền xử lý đữ liệu, điều chỉnh bộ tham số SVM với hàm nhân (kernel function) là RBF và tăng cường số lượng bộ phân lớp cũng như biến đổi luật kết hợp theo bỏ phiếu số đông đã cho kết quả tốt hơn đối với thuật toán tốt nhất của bài báo [11].

- _ Kết quả của việc tối ưu tham số và thay đổi luật kết hợp đã cho hiệu suất tốt hơn so với cách tiếp cận cua tác gia, cu thé tốt hon 3.76%.

- Béncanh đó mô hình phân lớp độc lap SVM cũng cho hiệu suất rất tốt trong việc phân lớp.

Trong thí nghiệm 2, tập dữ liệu sẽ được xử lý và chọn lọc lại theo phương pháp lựa chọn đặc trưng dựa mối tương quan của di liệu để sinh ra tập con tốt nhất và chọn ra các tham sô tot nhât dé tiên hành thực nghiệm và đánh giá hiệu suât của các mô hình.

Bộ dữ liệu thực nghiỆm - G3 921111131 1E key 57

Bảng 4.4 Tóm tắt dữ liệu thí nghiệm 2

Số lượng mẫu Số đặc trưng Số phân lớp

Phương pháp thực hiện và đánh giá . + Sc*+>+sssxsereerss 58

Thực hiện khảo sát độ tương quan đữ liệu của các đặc trưng với nhãn dữ liệu, sau đó tiến hành chọn các đặc trưng có độ tương quan cao nhất (dựa trên hệ sỐ

Pearson) làm đặc trưng của tập dữ liệu.

Bảng 4.5 Bảng khảo sát độ tương quan các đặc trưng với nhãn dữ liệu

Thuộc tính Độ tương quan | Thuộc tính Độ tương quan thalach -0.40233 chol 0.120279 thaldur -0.2479 lvf 0.126455 met -0.23345 prop 0.132682 dig -0.1613 dummy 0.139142 thalrest -0.14391 trestbps 0.139142

| tpeakbps -0.09952 nitr 0.161801 ekgday -0.09544 restecg 0.173574 cday -0.05542 thaltime 0.182628

| pro -0.05517 age 0.203463 cyr -0.05316 Imt 0.236267 ekgyr -0.0497 sex 0.310521 diuretic -0.04653 slope 0.326782 fos 0.007679 cp 0.401259 ekgmo 0.031066 oldpeak 0.418396 cmo 0.039936 rcadist 0.428725 tpeakbpd 0.047695 exang 0.429663 htn 0.056863 ladprox 0.455635 trestbpd 0.072921 ca 0.458851 rldvSe 0.074571 cxmain 0.481873 cigs 0.083735 oml 0.494786 famhist 0.094576 rcaprox 0.513943

Dựa vào kết quả khảo sát, chọn ra được 11 đặc trưng có độ tương quan dữ liệu với nhãn cao nhất thành tập dữ liệu đề thực hiện thí nghiệm.

Tiến hành tìm kiếm vét cạn trên bộ dữ liệu đầu vao dé tìm ra bộ tham số tối ưu cho từng thuật toán Trong mỗi lần lựa chọn tham số, hệ phân lớp sẽ được kiểm chứng chéo với 10-fold để đánh giá mô hình.

Thí nghiệm và đánh giá hiệu năng bao gồm các công đoạn: e Phân chia bộ dữ liệu thành hai tập huấn luyện và kiểm tra theo tỉ lệ lần lượt là 50%, 50% Trong đó độ cân bằng của các nhãn trong cả 2 tập huấn luyện và tập kiểm thử phải tương đối ôn định. e_ Tiền xử lý dữ liệu dé xử lý các đối tượng gây nhiễu và chuẩn hóa dữ liệu bằng phương pháp chuẩn hóa Min-Max. e Ap dụng phương pháp lựa chon đặc trưng dựa trên hệ số tương quan

Pearson dé chon ra các đặc trưng có độ tương quan cao nhất. e©_ Trích xuất các đặc trưng với PCA (sử dụng cho một số thuật toán). e Sử dụng bộ tham số tôi ưu đã tìm được, tiễn hành xây dựng mô hình tốt nhất có kiểm chứng chéo 10-fold và huấn luyện với 50% dữ liệu từ tập huấn luyện. e_ Tiến hành dự đoán 10 lần trên tập kiểm tra. e_ Sử dụng chỉ số tỉ lệ lỗi phân lớp, lấy trung bình cộng sau 10 lần dự đoán dé đánh giá hiệu suất của hệ thống.

Tập đặc trưng con tốt nhất

Tính toán và xếp hạng Tiền xử lý dữ liệu ——| theo độ đo là hệ số h xuất đặc trưng tương quan Pearson

Xây dựng hệ phân lớp Ỷ

Tất cả đặc trưng Chọn lọc

Hình 4.3 Quy trình thực hiện thí nghiệm 2.

Thực nghiệm các phương pháp trên cơ sở dit liệu của Cleveland đã được chon lại đặc trưng.

Tỉ lệ phân lớp lỗi (%)

& ° & * vế” cà về = mm na sd roe

“ SF ii SF FF SF S e cò s

S Cy ằ kà Ss s gề ° s * es & s

Hình 4.4 Kết quả tỉ lệ phân lớp lỗi trên tap đữ liệu Cleveland.

Bang 4.6 Kết quả tỉ lệ phân lớp lỗi trên tap dit liệu Cleverland

Phương pháp Tỉ lệ lỗi phân lớp (%)

Phân tích và đối sánh kết qua từ thí nghiệm thu được với các phan cài đặt tác giả

- Với phương pháp tiếp cận thay đôi bộ đặc trưng, mô hình phân lớp Random

Forest + PCA đã cho kết quả tốt hơn so với kỹ thuật tốt nhất (13.6%) của bai báo [11].

- Kết quả tốt nhất cho ra của Random Forest + PCA là 2.26%, tốt hon

- _ Ngoài ra một số phương pháp phân lớp khác cũng giảm tỉ lệ lỗi đáng kế như Random Subspace + PCA, SVM + Bagging, Lựa chọn đặc trưng là một trong những phương pháp hết sức tự nhiên để giải quyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữ liệu Nó còn giúp cải thiện hiệu năng, giảm chiều và loại nhiễu cho một số thuật toán phân lớp và mang lợi những lợi ich đáng kế trong bài toán phân lớp dữ liệu.

CHUONG 5 THỰC HIỆN UNG DUNG MINH HỌA

5.1 Thiét kế hệ thống Đề thiết kế mô hình minh họa việc ứng dụng machine learning vào dự đoán nguy cơ bệnh tim chúng ta xây dựng theo mô hình Server-Client.

Mô hình được huấn luyện sẽ được thiết lập trên server, ứng dụng phía client được xây dựng trên thiết bị di động.

Mobile Client Restful API service

Hình 5.1 Mô hình xây dựng ứng dụng minh hoa chân đoán bệnh tim.

5.2 Cài đặt môi trường server

5.2.1 Cài đặt Anaconda trên hệ điều hành Ubuntu Đăng nhập vào máy chủ Ubuntu 18.04 của bạn với tư cách là người dùng không phải root sudo, di chuyển vào thư mục /tmp và sử dụng curl để tải xuống gói cài đặt từ trang web Anaconda:

$ curl -O https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux- x86_64.sh

Sau khi đã tải xong gói cài đặt chúng ta có thé kiểm tra tính toàn vẹn dit liệu gói cài đặt bằng cách xác minh mã băm thông qua kiểm tra SHA-256.

$ sha256sum Anaconda3-2019.03-Linux-x86_64.sh

Sau khi kiểm tra tính toàn ven dữ liệu, chúng ta bat đầu chạy mã cài đặt anaconda.

Chúng ta sẽ những được xem những thỏa thuận cấp phép bang cách nhấn ENTER đến cuối trang.

In order to continue the installation process, please review the license agreement.

Please, press ENTER to continue

Do you approve the license terms? [yes|no]

Khi đến cuối trang, hãy nhập yes nếu ban đồng ý với giấy phép dé hoàn tat cài đặt.

Tiếp đến chúng ta chọn vị trí cài đặt Anaconda.

Anaconda3 will now be installed into this location:

- Press ENTER to confirm the location

- Press CTRL-C to abort the installation

- Or specify a different location below

Sau khi cai đặt xong chúng ta sé nhận được thông bao như sau: installation finished.

Do you wish the installer to prepend the Anaconda3 install location to PATH in your /home/sammy/.bashrc ? [yes|no]

5.2.2 Cai đặt môi trưòng Anaconda của ứng dụng

Sao chép thư mục chứa mã nguồn backend của ứng dụng lên máy chủ Ubuntu.

Bên trong thư mục ứng dụng, chúng ta sẽ thấy file quan trọng được cấu hình san như environment.yml — Đây là file cấu hình môi trường ma ứng dung cần.

B environment.yml [ 159 Bytes name: heartml-env dependencies:

Hình 5.2 Tập tin cấu hình môi trường trên Anaconda.

Tạo môi trường heartml-env từ yêu cầu ứng dụng

$ conda env create -n heartml-env file environment.yml

5.2.3 Khởi chạy ứng dung backend trên server

Sau khi cài đặt môi trường conda cần thiết cho ứng dụng, chúng ta bắt đầu khởi chạy main.py.

Trước tiên chúng ta cần kích hoạt môi trường heartml-env đã được tạo bên trên.

Sau đó chúng ta có thé khởi chạy ứng dụng bằng lệnh:

Sau khi ứng dụng được khởi chạy thành công, chúng ta có thé kiểm tra hoạt động của API bang đoạn mã javascript sau: fetch(http://: /apr, { method: 'POST', body: JSON stringify({ sex: l, age: 60, cp: 2, trestbps: 160, chol: 207, fbs: 1, restecg: 1, thalach: 158, exang: I, oldpeak: 1.4, slope: 1,

then(async (res) => { const kq = await res.text(); console.log(kq); là)

catch((err) => { console.log(err);

Ung dung chan đoán bệnh tim dựa trên kỹ thuật máy học được viết bang React Native — framework ma nguon mở được phát triển bởi facebook, được sử dụng dé phát triển ứng dụng di động trên iOS, Android.

Hiện tại ứng dụng đã được build trên Android và iOS sử dung API từ server mà nhóm đã setup dé demo Các nhóm phat triển sau có thé đóng gói lại ứng dung dựa trên mã nguôn mà nhóm thực hiện đô án cung cap.

Tổng quan về ứng dụng minh họa, chúng em hiển thị các câu hỏi yêu cầu người dùng cung cấp các thông tin như tuổi tác, giới tinh, các triệu chứng và kết quả xét nghiệm Các thông tin đó được gửi về máy chủ dé dự đoán nguy cơ tiềm an về bệnh tim của người dùng.

Giao diện cơ bản của ứng dụng Ứng dụng gồm 13 màn hình nhập thông tin tương ứng với số lượng đặc trưng cân đê thực hiện chân đoán bệnh

Hình 5.3 Màn hình nhập thông tin giới tính người dùng.

Hình 5.4 Màn hình nhập thông tin tuổi của người dùng.

Huyết áp lúc nghỉ Đau thắt ngực không điền hình

Hình 5.5 Man hình nhập thông tin cơn đau ngực.

Hình 5.6 Màn hình nhập thông tin huyết áp.

68 Đường huyết Cholesterol trong huyết thanh

Từ 120 mg/dl trở xuông

Hình 5.7 Màn hình nhập thông tin cholesterol.

Hình 5.8 Màn hình nhập thông tin đường huyết.

Kết quả điện tâm đồ

Nhịp tim tối da đạt được

Hình 5.9 Màn hình nhập thông tin kết qua điện tâm đồ.

Hình 5.10 Màn hình nhập thông tin nhịp tim.

70 Đau thắt ngực do vận động?

ST giảm do luyện tập gây ra so với lúc nghỉ ngơi

Hình 5.11 Màn hình nhập thông tin cơn đau thắt ngực do vận động.

Hình 5.12 Màn hình nhập thông tin giá trị ST depression do tập thể dục so với lúc nghỉ ngơi.

71 Đoạn ST được đo theo độ dốc khi kiểm tra cao điềm biéu dién qua các giá trị:

Số ống chứa được tô màu bởi nội soi huỳnh quang

Hình 5.13 Man hình nhập thông tin độ đốc của đoạn ST khi tập thé dục.

Hình 5.14 Màn hình nhập thông tin số lượng ống chứa được tô màu khi thực hiện nội soi huỳnh quang.

- Đau that ngực không điền hình

7 Kết quả điện tâm đồ

Trạng thái tim? - Sóng ST-T bất thường

8 Nhịp tim tối đa đạt được

9 Đau thắt ngực do vận động?

10 ST giảm do luyện tập gây ra so với lúc nghi ngơi

T1 Đoạn ST được do theo độ dốc khi kiểm tra cao điểm biểu diễn qua các giá trị?

12 Số ống chứa được tô màu bởi nội soi huỳnh

Hình 5.16 Màn hình kiểm tra lại thông tin nhập.

Hình 5.17 Màn hình nhận kết quả chan đoán bệnh.

CHUONG 6 | KET LUẬN VA HƯỚNG PHÁT TRIEN

Kết quả thu được từ các thí nghiệm đã chỉ ra việc tối ưu các bộ tham số và lựa chọn lại đặc trưng đã góp phần tạo nên những tác động tích cực cho các mô hình Đối sánh kết quả với nghiên cứu của tác giả [11], những cách tiếp cận khác nhau trong 2 thí nghiệm đã cho ra những kết quả đáng mong đợi, cũng như cải thiện và tăng hiệu suất cho các mô hình, giảm tỉ lệ lỗi khi phân lớp.

Cài đặt môi tTƯỜng S€TVCT -.- c2 212 23191121191 111 1111111 118111111 1k txeE 62

Cài đặt Anaconda trên hệ điều hành Ưbuntu

Đăng nhập vào máy chủ Ubuntu 18.04 của bạn với tư cách là người dùng không phải root sudo, di chuyển vào thư mục /tmp và sử dụng curl để tải xuống gói cài đặt từ trang web Anaconda:

$ curl -O https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux- x86_64.sh

Sau khi đã tải xong gói cài đặt chúng ta có thé kiểm tra tính toàn vẹn dit liệu gói cài đặt bằng cách xác minh mã băm thông qua kiểm tra SHA-256.

$ sha256sum Anaconda3-2019.03-Linux-x86_64.sh

Sau khi kiểm tra tính toàn ven dữ liệu, chúng ta bat đầu chạy mã cài đặt anaconda.

Chúng ta sẽ những được xem những thỏa thuận cấp phép bang cách nhấn ENTER đến cuối trang.

In order to continue the installation process, please review the license agreement.

Please, press ENTER to continue

Do you approve the license terms? [yes|no]

Khi đến cuối trang, hãy nhập yes nếu ban đồng ý với giấy phép dé hoàn tat cài đặt.

Tiếp đến chúng ta chọn vị trí cài đặt Anaconda.

Anaconda3 will now be installed into this location:

- Press ENTER to confirm the location

- Press CTRL-C to abort the installation

- Or specify a different location below

Sau khi cai đặt xong chúng ta sé nhận được thông bao như sau: installation finished.

Do you wish the installer to prepend the Anaconda3 install location to PATH in your /home/sammy/.bashrc ? [yes|no]

5.2.2 Cai đặt môi trưòng Anaconda của ứng dụng

Sao chép thư mục chứa mã nguồn backend của ứng dụng lên máy chủ Ubuntu.

Bên trong thư mục ứng dụng, chúng ta sẽ thấy file quan trọng được cấu hình san như environment.yml — Đây là file cấu hình môi trường ma ứng dung cần.

B environment.yml [ 159 Bytes name: heartml-env dependencies:

Hình 5.2 Tập tin cấu hình môi trường trên Anaconda.

Tạo môi trường heartml-env từ yêu cầu ứng dụng

$ conda env create -n heartml-env file environment.yml

5.2.3 Khởi chạy ứng dung backend trên server

Sau khi cài đặt môi trường conda cần thiết cho ứng dụng, chúng ta bắt đầu khởi chạy main.py.

Trước tiên chúng ta cần kích hoạt môi trường heartml-env đã được tạo bên trên.

Sau đó chúng ta có thé khởi chạy ứng dụng bằng lệnh:

Sau khi ứng dụng được khởi chạy thành công, chúng ta có thé kiểm tra hoạt động của API bang đoạn mã javascript sau: fetch(http://: /apr, { method: 'POST', body: JSON stringify({ sex: l, age: 60, cp: 2, trestbps: 160, chol: 207, fbs: 1, restecg: 1, thalach: 158, exang: I, oldpeak: 1.4, slope: 1,

then(async (res) => { const kq = await res.text(); console.log(kq); là)

catch((err) => { console.log(err);

Ung dung chan đoán bệnh tim dựa trên kỹ thuật máy học được viết bang React Native — framework ma nguon mở được phát triển bởi facebook, được sử dụng dé phát triển ứng dụng di động trên iOS, Android.

Hiện tại ứng dụng đã được build trên Android và iOS sử dung API từ server mà nhóm đã setup dé demo Các nhóm phat triển sau có thé đóng gói lại ứng dung dựa trên mã nguôn mà nhóm thực hiện đô án cung cap.

Tổng quan về ứng dụng minh họa, chúng em hiển thị các câu hỏi yêu cầu người dùng cung cấp các thông tin như tuổi tác, giới tinh, các triệu chứng và kết quả xét nghiệm Các thông tin đó được gửi về máy chủ dé dự đoán nguy cơ tiềm an về bệnh tim của người dùng.

Giao diện cơ bản của ứng dụng Ứng dụng gồm 13 màn hình nhập thông tin tương ứng với số lượng đặc trưng cân đê thực hiện chân đoán bệnh

Hình 5.3 Màn hình nhập thông tin giới tính người dùng.

Hình 5.4 Màn hình nhập thông tin tuổi của người dùng.

Huyết áp lúc nghỉ Đau thắt ngực không điền hình

Hình 5.5 Man hình nhập thông tin cơn đau ngực.

Hình 5.6 Màn hình nhập thông tin huyết áp.

68 Đường huyết Cholesterol trong huyết thanh

Từ 120 mg/dl trở xuông

Hình 5.7 Màn hình nhập thông tin cholesterol.

Hình 5.8 Màn hình nhập thông tin đường huyết.

Kết quả điện tâm đồ

Nhịp tim tối da đạt được

Hình 5.9 Màn hình nhập thông tin kết qua điện tâm đồ.

Hình 5.10 Màn hình nhập thông tin nhịp tim.

70 Đau thắt ngực do vận động?

ST giảm do luyện tập gây ra so với lúc nghỉ ngơi

Hình 5.11 Màn hình nhập thông tin cơn đau thắt ngực do vận động.

Hình 5.12 Màn hình nhập thông tin giá trị ST depression do tập thể dục so với lúc nghỉ ngơi.

71 Đoạn ST được đo theo độ dốc khi kiểm tra cao điềm biéu dién qua các giá trị:

Số ống chứa được tô màu bởi nội soi huỳnh quang

Hình 5.13 Man hình nhập thông tin độ đốc của đoạn ST khi tập thé dục.

Hình 5.14 Màn hình nhập thông tin số lượng ống chứa được tô màu khi thực hiện nội soi huỳnh quang.

- Đau that ngực không điền hình

7 Kết quả điện tâm đồ

Trạng thái tim? - Sóng ST-T bất thường

8 Nhịp tim tối đa đạt được

9 Đau thắt ngực do vận động?

10 ST giảm do luyện tập gây ra so với lúc nghi ngơi

T1 Đoạn ST được do theo độ dốc khi kiểm tra cao điểm biểu diễn qua các giá trị?

12 Số ống chứa được tô màu bởi nội soi huỳnh

Hình 5.16 Màn hình kiểm tra lại thông tin nhập.

Hình 5.17 Màn hình nhận kết quả chan đoán bệnh.

CHUONG 6 | KET LUẬN VA HƯỚNG PHÁT TRIEN

Kết quả thu được từ các thí nghiệm đã chỉ ra việc tối ưu các bộ tham số và lựa chọn lại đặc trưng đã góp phần tạo nên những tác động tích cực cho các mô hình Đối sánh kết quả với nghiên cứu của tác giả [11], những cách tiếp cận khác nhau trong 2 thí nghiệm đã cho ra những kết quả đáng mong đợi, cũng như cải thiện và tăng hiệu suất cho các mô hình, giảm tỉ lệ lỗi khi phân lớp.

Ngoài ra kết quả của một số hệ phân lớp độc lập sử dụng máy véc-tơ hỗ trợ (SVM) cũng cho tỉ lệ tốt hơn nghiên cứu của bai báo [11], điều mà vẫn tồn đọng trong nghiên cứu của các tác giả. Đề tài đã tìm ra các phương pháp hiệu quả thé hiện sự tiến bộ trong việc cải thiện các mô hình và đối sánh với các nghiên cứu của tác giả khác Bên cạnh đó, việc mô hình tốt nhất được áp dụng dé xây dựng ứng dụng sẽ hỗ trợ các chuyên gia ra quyết định trong chân đoán bệnh, giúp giảm các rủi ro, chi phí, nguồn nhân lực y tế. Tạo tiền đề để phát triển các công cụ chan bệnh từ xa, giúp sàng lọc được nhanh các rủi ro và nguy cơ bệnh. Đề tài đã đáp ứng được các mục tiêu đề ra là dùng tri thức và các kỹ thuật máy học phô biến dé xây dựng “Hệ hỗ trợ chân đoán bệnh tim dựa trên kỹ thuật máy học” với các kết quả tương đối chính xác, khoa học và chọn lọc kỹ càng nhằm góp phần nâng cao tính tích cực và hiệu quả trong trong công tác chăm sóc sức khỏe cộng đồng.

6.2 Hạn chế của đề tài

Dữ liệu nghiên cứu còn ít và khuyết nhiều đặc trưng khiến cho kết quả nghiên cứu giữa các tập dữ liệu khác nhau cho kết quả không tương đồng.

Một số thông tin trong các đặc trưng bi thiếu thông tin mô tả hoặc khó để thu được số liệu khi triển khai thực tế, đòi hỏi phải có những máy móc kỹ thuật tiên tiến dé có thé chân đoán cũng tạo nên một số hạn chế khi hiện thực hóa phần mềm, công cụ dé hỗ trợ công tác chăm sóc sức khỏe, đặc biệt là tại Việt Nam.

Những công việc có thể nghiên cứu và phát triển thêm dựa trên tài liệu này bao gồm việc áp dụng một số phương pháp Hybrid, xây dựng các mô hình phân lớp có thê kết hợp thêm với các phương pháp khác đề tạo ra những mô hình cho độ chính xác cao hơn.

Về mặt thực tiễn, nhóm nghiên cứu mong muốn có thé xây dựng một ứng dụng phù hợp với tình hình y tế ở Việt Nam hơn Các công việc bao gồm: e Thu thập và xây dựng bộ dit liệu từ các cơ sở y tế ở Việt Nam. e Ap dụng các mô hình trong luận văn này và các tài liệu khác dé đối sánh tìm ra một phương pháp phù hợp nhất. e Cho phép lưu trữ bệnh án và cải thiện dữ liệu học qua ứng dụng. e Thêm các tính năng khuyên nghị và tư vân vê van đê sức khỏe.

L Breiman, “Bagging predictors”, Mach Learn., 1996, doi: 10.1007/bf00058655.

L Breiman, “Random forests’, Mach lLearn., 2001, - doi: 10.1023/A:1010933404324.

N Cristianini va J Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge University Press,

R O Duda, P E Hart, va D G Stork, “Pattern classification”, New York John Wiley, Sect., 2001.

K Era Singh va Nishika, “Prediction of Heart Disease using Data Mining Techniques”, 2015.

M A Hall, “Correlation-based Feature Selection for Machine Learning”, 36 p-h April, 1999.

T K Ho, “The random subspace method for constructing decision forests”, IEEE Trans Pattern Anal Mach Intell., 1998, doi: 10.1109/34.709601.

J Kittler, M Hatef, R P W Duin, va J Matas, “On combining classifiers”, IEEE Trans Pattern Anal Mach Intell., 1998, doi: 10.1109/34.667881.

A Methaila, P Kansal, H Arya, va P Kumar, “Early Heart Disease Prediction Using Data Mining Techniques”, trong Computer Science & Information Technology (CS & TT), thang 8 2014, tr 53-59, doi: 10.5121/csit.2014.4807.

L Nanni, S Brahnam, A Lumini, và T Barrier, “Data mining based on intelligent systems for decision support systems in healthcare”, Stud Comput. Intell., 2010, doi: 10.1007/978-3-642-16095-0 4.

Ngày đăng: 02/10/2024, 08:33

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Các công đoạn của tiến trình khám phá tri thức từ CSDL. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 2.1. Các công đoạn của tiến trình khám phá tri thức từ CSDL (Trang 25)
Hình 2.2. Sơ lược chung về hệ thống phân lớp độc lập. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 2.2. Sơ lược chung về hệ thống phân lớp độc lập (Trang 27)
Hình 2.3. Hệ thống đa phân lớp được xây dựng bằng cách xáo trộn các mẫu hoặc - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 2.3. Hệ thống đa phân lớp được xây dựng bằng cách xáo trộn các mẫu hoặc (Trang 28)
Hình 2.4. Cau tạo một Neural. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 2.4. Cau tạo một Neural (Trang 37)
Hình 3.1. Thống kê lượng dữ liệu rỗng. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.1. Thống kê lượng dữ liệu rỗng (Trang 51)
Hình 3.2. Ma trận tương quan với ban đồ nhiệt. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.2. Ma trận tương quan với ban đồ nhiệt (Trang 52)
Hình 3.3. Thống kê số lượng mắc bệnh theo giới tính. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.3. Thống kê số lượng mắc bệnh theo giới tính (Trang 53)
Hình 3.6. Thống kê số lượng mắc bệnh theo độ dóc ST segment khi tập thé dục. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.6. Thống kê số lượng mắc bệnh theo độ dóc ST segment khi tập thé dục (Trang 54)
Hình 3.5. Thống kê số lượng mắc bệnh theo triệu chứng đau thắt ngực khi tập thé - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.5. Thống kê số lượng mắc bệnh theo triệu chứng đau thắt ngực khi tập thé (Trang 54)
Hình 3.8. Sự phân bó số người mắc bệnh theo nồng độ cholesterol. - Khóa luận tốt nghiệp Kỹ thuật phần mềm: Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học
Hình 3.8. Sự phân bó số người mắc bệnh theo nồng độ cholesterol (Trang 55)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN