1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận phương pháp nghiên cứu khoa học xây dựng mô hình dự Đoán bệnh tiểu Đường từ bộ dữ liệu text bằng phương pháp machine learning

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Mô Hình Dự Đoán Bệnh Tiểu Đường Từ Bộ Dữ Liệu Text Bằng Phương Pháp Machine Learning
Tác giả Nguyễn Việt Cường, Lê Gia Minh, Trần Thị Bé Quyên
Người hướng dẫn TS. Cao Văn Kiên
Trường học Trường Đại Học Nguyễn Tất Thành
Chuyên ngành Công Nghệ Thông Tin
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố Tp HCM
Định dạng
Số trang 35
Dung lượng 3,38 MB

Nội dung

Phương pháp Machine Learning, đặc biệt là sử d ng dữ liệu văn bảụ n, mang lại tiềm năng lớn trong việc dự đoán bệnh tiểu đường... - Xây dựng và hu n luy n mô hình dấ ệ ựa trên các đặc tr

Trang 1

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

MACHINE LEARNING

Giảng viên hướng dẫn TS : CAO VĂN KIÊN

H c viên th c hiọ ự ện : NGUY N VIỄ ỆT CƯỜNG

Mã s h c viên ố ọ : 2200012121

Ngành/ chuyên ngành : CÔNG NGH THÔNG TIN

Tp HCM, tháng 05 năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

LEARNING

Giảng viên hướng dẫn : TS CAO VĂN KIÊN

H c viên th c hiọ ự ện 1 : LÊ GIA MINH - 2200012142

H c viên thọ ực hiện 2 : TRẦN THỊ BÉ QUYÊN - 2200012092

H c viên th c hiọ ự ện 3 : NGUY N VI Ễ ỆT CƯỜNG 2200012121

Ngành/ chuyên ngành : CÔNG NGH THÔNG TIN

Tp HCM, tháng 05 năm 2023

Trang 3

i

Em xin g i l i cử ờ ảm ơn chân thành đến phía nhà trường, quý th y cô thu c Khoa ầ ộCông nghệ thông tin trường Đạ ọi h c Nguy n Tễ ất Thành đã tạo mọi điều kiện để ọ h c viên như em có thể tiếp cận và học tập trong điều kiện tốt nhất và hoàn thành bài luận một cách

t i ố ưu nhất

Đặc biệt em xin trân tr ng cọ ảm ơn thầ Cao Văn Kiên giảng viên trực tiếp ph y – ụtrách hướng dẫn em trong việc hoàn thành bài báo cáo này Thật sự chính nhờ những kiến

thức, hành trang về lĩnh vực xây d ng mự ột đề tài Nghiên c u khoa h c mà thứ ọ ầy đã truyền

đạt và trang b ịcho em đã đóng một vai trò vô cùng quan trọng để em có th hoàn thành tể ốt được bài luận Đề tài “Nghiên cứu tóm tắt bài báo khoa h c về Dự đoán ọ bệnh tiểu đường

t b dừ ộ ữ liệu Text bằng phương pháp Machine Learning” thuộc bộ môn Phương pháp nghiên c u khoa h c này v i s n l c c a th y trong vi c c g ng truyứ ọ ớ ự ỗ ự ủ ầ ệ ố ắ ền đạt ki n thế ức cùng với đó là sự ỗ ự n l c ti p thu, tìm tòi h c h i c a bế ọ ỏ ủ ản thân em đã được hoàn thành một cách tốt đẹp Nh ng tri th c t n n tữ ứ ừ ề ảng cho đến nâng cao được th y gi ng d y và c nh ng ầ ả ạ ả ữlời khuyên, động viên khích l khi h c viên gệ ọ ặp khó khăn tồn tại trong su t th i gian truyố ờ ền đạt và tương tác qua 45 tiế ọc không quá dài cũng không quá ngắt h n, chất chứa trong đó là

s tự ận tình hướng d n nh ng ph n ki n th c phẫ ữ ầ ế ứ ức tạp, đơn gi n hóa vả ấn đề trong quá trình nghiên c u, tìm hi u bứ ể ộ môn Phương pháp nghiên cứu khoa h c Tọ ừ đó học viên như em

có thể tiếp c n, h c t p, phát tri n tri th c có trong bậ ọ ậ ể ứ ộ môn Phương pháp nghiên cứu khoa

h c nói riêng và cọ ả các kĩ năng đờ ối s ng nói chung mà thầy đã chia sẻ trong quá trình học

tập, trao đổi giữa thầy và các h c viên ọ

Tuy v y v i ki n thậ ớ ế ức và trình độ chưa đủ tốt c a b n thân em thì bài lu n ch c chủ ả ậ ắ ắn

v n s t n t i nhiẫ ẽ ồ ạ ều điểm chưa tốt Đồng thời không th ể tránh được nh ng sai sót trong quữ á trình nghiên c u, h c t p và th c nghi m các k t qu kính mong quý th y cô góp ý, phê ứ ọ ậ ự ệ ế ả ầbình để em có thể hoàn thành tốt hơn các bài luận sau nói riêng và cả trên con đường học

v n sau này nói chung ấ

M t l n n a em xin chân thành cộ ầ ữ ảm ơn! Cuối cùng em xin g i l i chúc s c kh e cử ờ ứ ỏ ủa

em đến quý thầy cô, kính chúc quý thầy cô thật nhiều sức khỏe và đạt được nhiều thành công trong công vi c giệ ảng dạy, nghiên c u ứ

Trân trọng!

Trang 4

ii

LỜI M Ở ĐẦ U

Đề tài nghiên c u này t p trung vào phát tri n m t mơ hình d ứ ậ ể ộ ự đốn bệnh tiểu đường

b ng cách s d ng các kằ ử ụ ỹ thuậ ọt h c máy áp d ng cho dụ ữ liệu văn bản Cụ thể, các phương pháp được sử dụng bao gồm Nạve Bayes, Decision Tree, Random Forest và Support Vector Machine M c tiêu c a nghiên cụ ủ ứu là xác định phương pháp phù hợp nhất để ự d đốn bệnh tiểu đường dựa trên bộ dữ liệu "Pima Indians Diabetes Database" K t qu ế ả đánh giá mơ hình cho thấy Nạve Bayes đạt được độ chính xác cao nh t, v i 75,24% trên tấ ớ ập

hu n luy n và 76,62% trên t p ki m tra Nh ng k t qu này cho th y hi u qu cấ ệ ậ ể ữ ế ả ấ ệ ả ủa Nạve Bayes trong vi c d ệ ự đốn bệnh tiểu đường s d ng b d ử ụ ộ ữ liệu văn bản được cung c p T ng ấ ổthể, nghiên c u này ch ng minh tiứ ứ ềm năng của các thu t tốn hậ ọc máy trong lĩnh vực chăm sĩc sức khỏe để ự đốn bệ d nh tiểu đường Các k t qu nh n m nh Nạve Bayes ế ả ấ ạ là phương pháp phù h p nh t cho nhi m v cợ ấ ệ ụ ụ thể này, mang l i k t quạ ế ả đáng mong đợ ựa trên cơ i d

s dở ữ liệu "Pima Indians Diabetes Database" Nghiên cứu tương lai cĩ thể tiếp t c khám ụphá các thu t tốn h c máy khác hoậ ọ ặc điều tra tích h p các ngu n dợ ồ ữ liệu bổ sung để ải cthiện độ chính xác và tính ổn định của mơ hình dự đốn

Trang 5

iii

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

TRUNG TÂM KHẢO THÍ

K THI K T THÚC HỲ Ế ỌC PHẦN

HỌC KỲ NĂM HỌC 2022 2 - 2023

PHI U CH M THI TI U LU Ế Ấ Ể ẬN/ĐỒ ÁN

Môn thi: Phương pháp nghiên cứu khoa học Lớp học phần: 22MTH1.BD

Học viên th c hi n: 1 ự ệ Lê Gia Minh – 2200012142

2 Tr n Th Bé Quyên 2200012092 ầ ị – 3 Nguy n Viễ ệt Cường 2200012121 – Ngày thi: 31/05/2023 Phòng thi: L.508 Đề tài tiểu luận/báo cáo c a h c viên: Xây dựng mô hình dự đoán ủ ọ bệnh tiểu đường từ b ộ d u Text bữ liệ ằng phương pháp Machine Learning Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Tiêu chí (theo CĐR HP) Đánh giá của GV Điểm tối đa Điểm đạt được Cấu trúc của báo cáo

Nội dung - Các nội dung thành phần

- Lập luận

- Kết luận

Trình bày

TỔNG ĐIỂM

Giả ng viên ch m thi ấ

(ký, ghi rõ h tên) ọ

BM-ChT-11

Trang 6

iv

MỤC L C Ụ

LỜI CẢM ƠN i

LỜI MỞ ĐẦU ii

MỤC LỤC iv

DANH MỤC HÌNH ẢNH/ BẢNG vi

B NG KÝ HI U CÁC CH Ả Ệ Ữ VIẾT TẮT vii

CHƯƠNG 1 MỞ ĐẦU 1

1.1 Tính cấp thiết của đề tài: 1

1.2 Mục tiêu nghiên cứu: 1

1.2.1 M c tiêu t ng quát: 1 ụ ổ 1.2.2 M c tiêu c ụ ụ thể: 1

1.3 Câu h i nghiên c u: 2 ỏ ứ 1.4 Đối tượng và ph m vi nghiên c u: 2 ạ ứ 1.4.1 Đối tượng nghiên cứu: 2

1.4.2 Ph m vi nghiên c u: 2 ạ ứ 1.5 Giả thuyết nghiên c u: 3 ứ 1.6 Nội dung đề tài: 3

CHƯƠNG 2 TỔNG QUAN TÀI LIỆU VÀ CƠ SỞ LÝ THUYẾT 4

2.1 Nghiên c u liên quan: 4 ứ 2.1.1 Bài báo trong nước: 4

2.1.2 Bài báo ngồi nước: 5

2.2 Cơ sở lý thuyết: 5

2.2.1 Phương pháp học máy (Machine Learning): 5

2.2.2 Thu t tốn Nạve Bayes (NB): 7 ậ 2.2.3 Thu t tốn Decision Tree (DT): 7 ậ 2.2.4 Thu t tốn Random Forest (RF): 8 ậ 2.2.5 Thu t tốn Suport Vector Machine (SVM): 8 ậ CHƯƠNG 3 XÂY DỰNG MƠ HÌNH 10

Trang 7

v

3.1 Thu th p d u: 10 ậ ữ liệ 3.2 Trình bày và gi i thích d u: 10 ả ữ liệ 3.3 Ti n x lí và phân tích d u: 11 ề ử ữ liệ 3.3.1 Giá tr r ng trong b d u: 11 ị ỗ ộ ữ liệ 3.3.2 D u ngo i lai: 12 ữ liệ ạ 3.4 Xây d ng mơ hình: 13 ự 3.4.1 Xây d ng t ng quan các mơ hình h c máy 15 ự ổ ọ

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 19

4.1 Kết quả thực nghiệm: 19

4.1.1 Mơ hình Nạve Bayes: 19

4.1.2 Mơ hình Decision Tree: 20

4.1.3 Mơ hình Random Forest: 20

4.1.4 Mơ hình Support Vector Machin 21 e: 4.2 Đánh giá kết quả nghiên cứu: 21

CHƯƠNG 5 KẾT LUẬN – ĐỀ NGHỊ – HƯỚNG PHÁT TRIỂN 24

5.1 Kết luận: 24

5.2 Đề xuất, đề nghị và hướng phát triển: 24 TÀI LIỆU THAM KH O 25 Ả

Trang 8

vi

DANH M C HÌNH Ụ ẢNH / B ẢNG

Hình 1 Thơng tin tổng th t B d u "Pima Indians Diabetes Database" 11ể ừ ộ ữ liệHình 2 Các giá trị ngoại lai trong từng thu c tính d u 12ộ ữ liệHình 3 Kết qu hu n luy n mơ hình v i vi c loả ấ ệ ớ ệ ại bỏ các giá tr outlier 13ịHình 4 Độ l i thơng tin cợ ủa các thu c tính độ ối với k t qu phân l p 14ế ả ớHình 5 Heatmap của Bộ d ữ liệu "Pima Indians Diabetes Database" 14Hình 6 Kết qu ả thực nghi m mơ hình Nạve Bayes 19ệHình 7 Kết qu ả thực nghi m mơ hình Decision Tree 20ệHình 8 Kết qu ả thực nghi m mơ hình Random Forest 20ệHình 9 Kết qu ả thực nghi m mơ hình Support Vector Machine 21ệHình 10 Confusion Matrix của kết quả phân l p 22ớ

B ng 1 Demo 5 dịng d u trong B d u "Pima Indians Diabetes Database" 11 ả ữ liệ ộ ữ liệ

B ng 2 t ng quan các giá tr ả ổ ị thang đo độ chính xác 21

Trang 10

1

CHƯƠNG 1

MỞ ĐẦ U 1.1 Tính c p thi t c ấ ế ủa đề tài:

Những năm gần đây số lượng bệnh tiểu đường gia tăng đáng kể Việc chẩn đoán và

qu n lý b nh tiả ệ ểu đường chính xác và k p thị ời đóng vai trò quan trọng trong ngăn chặn biến chứng và cải thiện chất lượng cu c s ng c a bộ ố ủ ệnh nhân Phương pháp Machine Learning,

đặc biệt là sử d ng dữ liệu văn bảụ n, mang lại tiềm năng lớn trong việc dự đoán bệnh tiểu đường Sử d ng mô hình dự ụ đoán từ ữ d liệu văn bản có thể tự động hóa và tăng cường quá trình chẩn đoán, tiết ki m th i gian và tài nguyên y tệ ờ ế, đồng th i cung c p dờ ấ ự đoán chính xác và đáng tin cậy Đề tài này cũng có khả năng ứng d ng r ng rãi, t ụ ộ ừ các cơ sở y t , phòng ếkhám, mang l i l i ích cho b nh nhân, nhà cung c p d ch v y t và h ạ ợ ệ ấ ị ụ ế ệ thống chăm sóc sức

khỏe

Tóm l i, xây d ng mô hình dạ ự ự đoán bệnh tiểu đường t dừ ữ liệu văn bản b ng ằMachine Learning là một đề tài cấp thi t, mang l i c i thiế ạ ả ện đáng kể trong chẩn đoán, quản

lý và nghiên cứu b nh tiệ ểu đường, và đáp ứng nhu cầu chăm sóc sức khỏe toàn cầu

1.2 M ục tiêu nghiên c ứu:

1.2.1 M c tiêu t ng quát: ụ ổ

Tìm hi u, nghiên c u và xây d ng m t mô hình Machine Learning dể ứ ự ộ ự đoán bệnh tiểu đường từ bộ dữ liệu văn bản, nhằm giúp giúp cho các bác sĩ, các chuyên gia y tế dễ dàng c i thi n quá trình chả ệ ẩn đoán, quản lý và nghiên c u bứ ệnh đường m t cách chính xác ộ

và k p th i ị ờ

1.2.2 M c tiêu c ụ ụ thể:

Phát tri n mể ột mô hình Machine Learning đáng tin cậy d a trên dự ữ liệu văn bản để

d ự đoán khả năng mắc b nh tiệ ểu đường

Trang 11

1.3 Câu h i nghiên c ỏ ứu:

Làm thế nào để xây d ng m t mơ hình Machine Learning d ự ộ ự đốn bệnh tiểu đường

t d ừ ữ liệu văn bản một cách chính xác và đáng tin cậy?

Mơ hình Machine Learning nào tối ưu nhất khi hu n luy n trên B dấ ệ ộ ữ liệu "Pima Indians Diabetes Database”?

1.4 Đối tượng và ph m vi nghiên c ạ ứu:

1.4.1 Đối tượng nghiên c ứu:

B d u "Pima Indians Diabetes Database" [1 v i 9 thu c tính vộ ữ liệ ] ớ ộ ề các bệnh nhân tiểu đường

Nghiên c u s phân tích, x lý, ch n lứ ẽ ử ọ ọc đặc trưng và khai phá các đặc trưng của

b nh nhân tiệ ểu đường để xây d ng mơ hình phân lo i b nh d a trên các thu t tốn h c máy ự ạ ệ ự ậ ọnhư Nạve Bayes, Decision Tree, Random Forest và Support Vector Machine

1.4.2 Ph m vi nghiên cạ ứu:

- Thu th p và x lý các b d ậ ử ộ ữ liệu v b nh nhân tiề ệ ểu đường, bao gồm các đặc trưng

cĩ 9 thuộc tính

- Tiền x lý dử ữ liệu để loạ ỏi b các giá tr sai, giá trị ị trống, ho c nhi u, chu n hĩa ặ ễ ẩ

d u và chuyữ liệ ển đổi các đặc trưng dạng văn bản sang d ng s ạ ố

Trang 12

3

- Phân tích, ch n l c, ọ ọ rút trích các đặc trưng quan trọng t b dừ ộ ữ liệu thu thập được

- Xây dựng và hu n luy n mô hình dấ ệ ựa trên các đặc trưng được chọ ọc.n l

- Phân tích và khai thác thông tin từ các đặc trưng của b nh nhân tiệ ểu đường và đưa ra kết quả phân loại

- So sánh và đánh giá hi u qu ệ ả độ chính xác c a thuủ ật toán phương pháp Machine Learning trong việc phân loại bệnh nhân tiểu đường

- Xây d ng giao diự ện người dùng để ỗ trợ ệ h vi c phân lo i b nh nhân tiạ ệ ểu đường

dựa trên các thuật toán

1.5 Giả thuy t nghiên c ế ứu:

Việc phân tích và x lý d ử ữ liệu văn bản y t ế liên quan đến bệnh tiểu đường cùng với

vi c áp dệ ụng các phương pháp Machine Learning sẽ cho phép xây d ng m t mô hình d ự ộ ựđoán chính xác và đáng tin cậy về khả năng mắc bệnh tiểu đường của bệnh nhân

Áp d ng Mô hình h c máy, các y u t AI vào th c tụ ọ ế ố ự ế chẩn đoán bệnh tiểu đường

dựa trên thống kê các kết quả triệu ch ng, ch s b nh nhân ứ ỉ ố ệ

1.6 N ội dung đề tài:

Nội dung đề tài xoay quanh việc xây dựng, thực nghiệm và kết luận mô hình học máy nào s t hi u suẽ đạ ệ ất cao, đảm bảo hoạt động tối ưu nhất trên Bộ d u "Pima Indians ữ liệDiabetes Database"

Bao gồm 5 chương:

Chương 1: Mở đầu

Chương 2: Tổng quan tài liệu và cơ sở lý thuyết

Chương 3: Xây dựng mô hình

Chương 4: Kết quả thực nghiệm và đánh giá

Chương 5: Kết luận – đề nghị - hướng phát triển

Trang 13

4

TỔNG QUAN TÀI LI ỆU VÀ CƠ SỞ LÝ THUY ẾT

2.1 Nghiên c u liên quan:

2.1.1 Bài báo trong nước:

Bài báo: NG D NG KỨ Ụ Ỹ THUẬT CÂY QUYẾT ĐỊNH XÂY D NG H Ự Ệ THỐNG DỰ ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG [2]

Bài báo c a nhóm tác gi ủ ả Nguyễn Văn Chức, Trần Th Kim H ng thuị ằ ộc Trường Đại

h c Kinh tọ ế – Đại học Đà Nẵng được đăng trên Kỷ ế y u H i th o khoa h c CITA 2014 ộ ả ọ

“CNTT và ứng dụng trong các lĩnh vực” Bài báo tập trung vào ứng d ng k thu t cây quyụ ỹ ậ ết

định trong việc xây dựng hệ th ng dự ố đoán bệnh đái tháo đường

Bài báo nh n m nh v t m quan tr ng c a vi c d ấ ạ ề ầ ọ ủ ệ ự đoán bệnh đái tháo đường trong lĩnh vực

y t và cách mà k ế ỹ thuật cây quyết định có thể được áp dụng để xây d ng h ự ệ thống dự đoán

hi u qu Cây quyệ ả ết định là một phương pháp máy học có khả năng họ ừ ữ liệc t d u và t o ạ

ra các quy t c quyắ ết định d a trên nhự ững đặc trưng của d ữ liệu Trong trường hợp này, cây quyết định được s dử ụng để xác định các y u t quan tr ng trong vi c dế ố ọ ệ ự đoán bệnh đái tháo đường

Bài báo mô t quá trình xây d ng hả ự ệ thống dự đoán bệnh đái tháo đường b ng k ằ ỹthuật cây quyết định Đầu tiên, dữ ệu liên quan đếli n bệnh nhân đái tháo đường được thu thập và ti n xề ử lý để chu n b cho quá trình xây d ng cây quyẩ ị ự ết định Sau đó, thuật toán cây quyết định được áp dụng để xây d ng cây quyự ết định t d ừ ữ liệu đã được ti n x lý Quá ề ửtrình này đưa ra quy tắc quyết định dựa trên các đặc trưng của dữ liệu và kh ả năng dự đoán

bệnh đái tháo đường

Kết qu nghiên c u cho th y h ả ứ ấ ệ thống d ự đoán bệnh đái tháo đường s d ng k ử ụ ỹ thuật cây quyết định đạt được hi u su t t t Vi c s d ng cây quyệ ấ ố ệ ử ụ ết định giúp xác định các yếu

t quan tr ng và t o ra quy t c quyố ọ ạ ắ ết định d hi u, giúp các chuyên gia y t và b nh nhân ễ ể ế ệ

có thể nắm bắt và áp d ng trong thụ ự ế c t

Trang 14

5

2.1.2 Bài báo ngoài nước:

Bài báo "Machine Learning and Data Mining Methods in Diabetes Research"

in trong Computational and Structural Biotechnology Journal [3]

Bài báo "Machine Learning and Data Mining Methods in Diabetes Research" in trong Computational and Structural Biotechnology Journal năm 2017 của nhóm tác giả Ioannis Kavakiotis, Olga Tsave, Athanasios Salifoglou, Nicos Maglaveras, Ioannis Vlahavas, Ioanna Chouvarda

Nhóm tác giả đã khám phá cách mà các phương pháp học máy và khai thác dữ u liệ

có th ể được s dử ụng để phân tích và d ự đoán dữ liệu liên quan đến tiểu đường Bài báo trình bày m t t m nhìn t ng quan v vi c áp dộ ầ ổ ề ệ ụng các phương pháp này trong nghiên cứu y t và ếtiểu đường

Các phương pháp học máy được đề ập đế c n trong bài báo bao gồm Support Vector Machines (SVM), Neural Networks, Decision Trees và Random Forests Những phương pháp này đã được sử dụng để xây d ng các mô hình d ự ự đoán cho các biến quan tr ng trong ọtiểu đường, chẳng hạn như mức độ đường huyết và tình trạng sức kh e cỏ ủa bệnh nhân Các tác gi trong bài báo nh n m nh r ng vi c s dả ấ ạ ằ ệ ử ụng phương pháp học máy và khai thác d u có tiữ liệ ềm năng để đưa ra những phát hi n m i và cung cệ ớ ấp cái nhìn sâu hơn

về tiểu đường B ng cách áp d ng nhằ ụ ững phương pháp này vào dữ liệu tiểu đường, chúng

ta có th tìm ra các m u, quy lu t và thông tin quan tr ng, t ể ẫ ậ ọ ừ đó cung cấp thông tin hữu ích cho vi c chệ ẩn đoán, điều trị và quản lý tiểu đường Việc áp dụng các phương pháp này đòi

h i s c n th n và ki m soát chỏ ự ẩ ậ ể ất lượng dữ liệu Điều này là c n thiầ ết để đảm b o tính tin ảcậy và độ chính xác của kết quả d ự đoán và phân tích

2.2 Cơ sở lý thuyết:

2.2.1 Phương pháp học máy (Machine Learning):

Học máy [4] (Machine Learning) là một lĩnh vực trong trí tu nhân t o (Artificial ệ ạIntelligence) mà nó nghiên cứu và phát triển các phương pháp và thuật toán để cho máy tính "h c" t dọ ừ ữ liệu mà không cần đượ ậc l p trình một cách tường minh Thay vì vi t mã ế

Trang 15

g m phân lo i dồ ạ ữ liệu, dự đoán, nhận d ng, g i ý, x lý ngôn ng t nhiên và nhi u ng ạ ợ ử ữ ự ề ứ

d ng khác Hụ ọc máy đã trở thành m t công c quan tr ng trong vi c khai thác tri th c và ộ ụ ọ ệ ứthông tin t dừ ữ liệ ớn và đóng vai trò quan trọu l ng trong nhi u ngành công nghiề ệp và lĩnh

vực như y tế, tài chính, marketing, giao thông v n t i, và nhiậ ả ều hơn nữa

Có nhiều phương pháp học máy khác nhau được s dử ụng để ả gi i quy t các vế ấn đề Nhưng dựa vào phương pháp học, ML chủ yếu được chia thành:

- Supervised Learning: Mô hình được huấn luyện trên dữ liệu đã được gán nhãn, trong đó các đầu vào tương ứng với các đầu ra mong muốn Mục tiêu của mô hình là t o ra m t hàm ánh x t ạ ộ ạ ừ các đầu vào đến các đầu ra d ự đoán

- Unsupervised Learning: Mô hình được hu n luy n trên dấ ệ ữ liệu không có nhãn

ho c thông tin vặ ề đầu ra mong mu n M c tiêu c a mô hình là khám phá c u ố ụ ủ ấtrúc, mẫu, và thông tin n trong dẩ ữ liệu

- Semi-supervised Learning: Mô hình được hu n luy n trên m t t p h p dấ ệ ộ ậ ợ ữ liệu

lớn, trong đó chỉ m t ph n nh dộ ầ ỏ ữ liệu có nhãn Mô hình s d ng c dử ụ ả ữ liệu có nhãn và không có nhãn để ọc và đưa ra dự h đoán cho dữ liệu mới

- Reinforcement Learning: Mô hình được huấn luyện để tương tác với một môi trường động và tối đa hóa một hàm phần thưởng Mô hình học từ kinh nghiệm

và cải thiện quyết định của mình theo thời gian thông qua việc thử và sai Đây chỉ là một s phân lo i ph bi n Có th t n t i nhi u s ố ạ ổ ế ể ồ ạ ề ự chồng chéo và k t hế ợp

gi a các lo i h c máy này, và còn nhiữ ạ ọ ều phương pháp học máy khác được s d ng tùy ử ụthuộc vào bài toán cụ thể và yêu cầu c a dữ ệu ủ li

Trang 16

7

2.2.2 Thu t tốn Nạve Bayes (NB):

Nạve Bayes là m t thu t tốn phân loộ ậ ại trong lĩnh vực học máy, dựa trên nguyên lý của Định lý Bayes Nĩ được s dử ụng để ự đốn và phân loại dữ liệu vào các nhãn hay l p d ớkhác nhau dựa trên các đặc trưng của dữ liệu đĩ

Thuật tốn Nạve Bayes [6] d a trên gi ự ả định "ngây thơ" (Nạve) rằng các đặc trưng đầu vào là độc lập với nhau, tức là khơng cĩ sự tương quan hoặ ảnh hưởng đáng kểc giữa chúng L i ích c a thu t tốn ợ ủ ậ Nạve Bayes bao gồm tính đơn giản và hi u qu tính tốn ệ ảnhanh M c dù giặ ả định này thường khơng đúng trong thực tế, nhưng thuật tốn Nạve Bayes v n mang l i k t qu khá t t trong nhi u bài tốn phân lo ẫ ạ ế ả ố ề ại

Nạve Bayes thường cho kết quả tốt khi các đặc trưng đầu vào là rời rạc, tức là cĩ giá tr rị ời r c ho c h ng m c Ví d , trong phân loạ ặ ạ ụ ụ ại văn bản, Nạve Bayes thườ g đượn c sử

d ng vụ ới đặc trưng là từ hoặc từ lo i.ạ

Nạve Bayes cũng cĩ nhược điểm như giả định độc lập giữa các đặc trưng, gây ra

hiện tượng "Nạve" Nếu gi ả định này khơng đúng trong thực tế, Nạve Bayes cĩ th mang ể

lại k t quế ả khơng chính xác

2.2.3 Thuật tốn Decision Tree (DT):

Cây quyết định là m t thu t tốn hộ ậ ọc máy được sử dụng trong bài tốn phân lo i và hạ ồi quy Nĩ xây d ng m t cây quyự ộ ết định d a trên các quy t c hự ắ ọc đư c từ ữ liệợ d u hu n luyấ ện

để dự đốn nhãn cho các mẫu dữ liệu m i ớ

Cây quyết định [8] cĩ c u trúc gi ng cây, vấ ố ới các nút trong cây đại di n cho các quyệ ết định và các nhánh đại diện cho các kết quả khả thi của quyết định Mỗi nút trong cây đại

di n cho mệ ột đặc trưng và mỗi nhánh t ừ nút đĩ đại di n cho m t giá tr c ệ ộ ị ụ thể của đặc trưng Các lá của cây đại diện cho các nhãn ho c giá tr d ặ ị ự đốn

Quá trình xây d ng cây quyự ết định gồm hai giai đoạn chính: xây d ng cây và c t tự ắ ỉa cây

- Xây d ng cây: Quá trình xây d ng cây quyự ự ết định bắt đầu từ nút g c c a cây và ti p ố ủ ế

t c phân chia dụ ữ liệu dựa trên các đặc trưng để ạo ra các nút con Các đặc trưng t

Trang 17

8

được ch n dọ ựa trên các tiêu chí như độ tách hoặc đ thuần c a dữ liệu sau khi phân ộ ủchia Quá trình này ti p tế ục cho đến khi một điều ki n dệ ừng được đáp ứng, ch ng ẳ

hạn như đạ ến đột đ sâu tối đa hoặ không còn đặc trưng đểc phân chia

- C t t a cây: Sau khi cây quyắ ỉ ết định được xây d ng, quá trình c t tự ắ ỉa được áp d ng ụ

để loại b các nhánh không quan tr ng hoặc không cần thiết Quá trình cắt t a giúp ỏ ọ ỉ

giảm overfitting và làm cho cây tổng quát hóa tốt hơn trên d u mữ liệ ới

2.2.4 Thu t toán Random Forest (RF):

R ng ng u nhiên là m t thu t toán h c máy d a trên nguyên lý ensemble learning, ừ ẫ ộ ậ ọ ự

s d ng m t t p h p các cây quyử ụ ộ ậ ợ ết định để thực hi n phân lo i ho c hệ ạ ặ ồi quy Ý tưởng chính của Random Forest là kết h p dợ ự đoán c a nhiủ ều cây quyết định độ ập và kết quả của c lchúng được tổng hợp để đưa ra dự đoán cuối cùng

Random Forest [8 có m] ột số ưu điểm như sau:

- Tính tổng quát và ổn định: Random Forest t ng h p d ổ ợ ự đoán từ nhi u cây quyề ết định, giúp làm giảm overfitting và cải thiện khả năng tổng quát hóa trên dữ liệu

mới

- Xử lý t t v i dố ớ ữ liệ ớu l n: Random Forest có khả năng xử lý t t v i dố ớ ữ liệ ớu l n,

vì quá trình hu n luy n cây quyấ ệ ết định có thể được th c hi n song song và cây ự ệ

có thể được xây dựng độ ập c l

- Độ quan tr ng cọ ủa đặc trưng: Random Forest cung cấp thông tin v ề độ quan tr ng ọcủa các đặc trưng trong việc phân lo i, giúp hiạ ểu và đánh giá vai trò củ ừng đặa t c trưng trong mô hình

Random Forest đã được áp dụng rộng rãi trong nhiều lĩnh vực như phân loại văn

b n, nh n d ng hình nh, và d ả ậ ạ ả ự đoán tài chính

2.2.5 Thuật toán Suport Vector Machine (SVM):

SVM là m t thu t toán hộ ậ ọc máy được s d ng trong bài toán phân lo i và h i quy ử ụ ạ ồ

Nó có khả năng xây dựng m t ranh gi i tuy n tính ho c phi tuyộ ớ ế ặ ến để phân chia các điểm

d u vào các l p khác nhau ữ liệ ớ [8]

Ngày đăng: 19/12/2024, 16:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w