Trong học kỳ này, chúng em xin chọn đề tài “Ứng dụng thuật toán hồi quy tuyến tính để chẩn đoán xơ vữa động mạch”.. Lựa chọn này được thúc đẩy bởi tiềm năng của thuật toán hồi quy tuyến
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ NHẬP MÔN HỌC MÁY
ĐỀ TÀI:
ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH
ĐỂ CHẨN ĐOÁN XƠ VỮA ĐỘNG MẠCH
Sinh viên thực hiện : PHẠM ĐÌNH NGUYÊN
NGUYỄN TƯỜNG VY
ĐỖ TUẤN LONG Giảng viên hướng dẫn : VŨ VĂN ĐỊNH
Chuyên ngành : CÔNG NGHỆ PHẦN MỀM
Hà Nội, tháng 11 năm 2023
Trang 2PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực hiện Điểm Chữ
ký
1 Phạm Đình Nguyên
MSV: 21810310183
2 Nguyễn Tường Vy
MSV: 21810310183
MSV: 21810310584
Giảng viên chấm 1:
Giảng viên chấm 2:
Trang 3MỤC LỤC CHƯƠNG 1: GIỚI THIỆU THUẬT TOÁN HỒI QUY TUYẾN TÍNH
1.1 Giới thiệu
1.2 Mô tả thuật toán
1.2.1 Các dạng của mô hình hồi quy tuyến tính
1.2.2 Các hàm và công thức liên quan
1.3 Một số tính chất
1.4 Ưu và nhược điểm
1.4.1 Ưu điểm
1.4.2 Nhược điểm
CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ CHẨN ĐOÁN SƠ VỮA ĐỘNG MẠCH
CHƯƠNG 3: DEMO CHƯƠNG TRÌNH
KẾT LUẬN
DANH MỤC THAM KHẢO
Trang 4DANH MỤC HÌNH ẢNH
Trang 5LỜI NÓI ĐẦU
Thành công chính là sự thành tựu, là kết quả tốt đẹp mà ai cũng mong muốn hướng tới Thực tế, thành công không đến từ sự đơn độc, mà còn cần phải có những sự
hỗ trợ, giúp đỡ ít nhiều của mọi người xung quanh Bản thân chúng em cũng đã nhận được nhiều sự giúp đỡ từ thầy cô, gia đình và bạn bè trong quá trình đã và đang học tập tại trường Đại học Điện Lực Đặc biệt, chúng em xin cảm ơn thầy Vũ Văn Định đã hướng dẫn, góp ý để chúng em có thể hoàn thiện bài báo cáo này một cách tốt nhất Dưới sự chỉ dẫn tận tình của thầy suốt thời gian học tập, rèn luyện vừa qua, không những tiếp thu được nhiều kiến thức do thầy truyền đạt, mà chúng em còn học được thêm nhiều kỹ năng làm việc nhóm, làm word, trải nghiệm thực tế Đặc biệt, chúng em
cũng được truyền cảm hứng, truyền sự say mê và thích thú đối với bộ môn Nhập môn học máy.
Trong học kỳ này, chúng em xin chọn đề tài “Ứng dụng thuật toán hồi quy tuyến tính để chẩn đoán xơ vữa động mạch” Đây không chỉ là một đề tài nghiên
cứu thông thường mà còn là một chủ đề hấp dẫn trong việc áp dụng học máy vào lĩnh vực y học Lựa chọn này được thúc đẩy bởi tiềm năng của thuật toán hồi quy tuyến tính trong việc dự đoán và chẩn đoán các vấn đề về sức khỏe, đặc biệt là về xơ vữa động mạch Chúng em hy vọng rằng thông qua nghiên cứu này, chúng em có thể đóng góp vào việc cải thiện quy trình chẩn đoán và điều trị các bệnh lý về mạch máu, mang lại lợi ích lớn cho cộng đồng y học và bệnh nhân
Tuy rằng, năng lực còn hạn chế, kiến thức còn hạn hẹp với sự bỡ ngỡ do bước đầu đi vào thực tế, tìm hiểu và làm báo cáo nên không thể tránh khỏi nhiều thiếu sót Song, chúng em cũng sẽ cố gắng và nỗ lực để hoàn thiện báo cáo một cách tốt nhất
Cuối cùng, chúng em xin chân thành cảm ơn và cũng xin kính chúc các thầy cô trong Khoa Công Nghệ Thông Tin luôn dồi dào sức khỏe, hạnh phúc, thành công trong
sự nghiệp trồng người
Trân trọng!
Trang 6CHƯƠNG 1: GIỚI THIỆU THUẬT TOÁN HỒI QUY TUYẾN TÍNH 1.1. Giới thiệu
Thuật toán hồi quy tuyến tính đóng vai trò quan trọng và không thể thiếu trong lĩnh vực học máy và thống kê Được sử dụng rộng rãi trong các ứng dụng thực tế, thuật toán này giúp mô hình hóa mối quan hệ tuyến tính giữa các biến, đặc biệt là giữa biến độc lập (thường được gọi là biến giải thích) và biến phụ thuộc (hay còn gọi là biến được dự đoán) Mục tiêu chính của thuật toán là tìm ra một đường thẳng (trong trường hợp đơn biến) hoặc một siêu phẳng (trong không gian nhiều chiều) sao cho sai
số giữa các giá trị dự đoán và thực tế là nhỏ nhất
Đường thẳng (hoặc siêu phẳng) này được tìm ra bằng cách điều chỉnh các hệ số của mô hình, đại diện cho độ dốc và điểm chạm của đường thẳng (hoặc siêu phẳng) trên trục y khi biến độc lập thay đổi Quá trình này thường được thực hiện thông qua tối ưu hóa một hàm mất mát, trong đó mục tiêu là tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế
Với tính linh hoạt và khả năng áp dụng rộng rãi, thuật toán hồi quy tuyến tính không chỉ là một công cụ mạnh mẽ trong việc dự đoán và mô hình hóa dữ liệu mà còn
là một công cụ quan trọng để hiểu sâu hơn về mối quan hệ giữa các biến trong các tập
dữ liệu phức tạp Điều này làm cho nó trở thành một phần không thể thiếu trong kho công cụ của các nhà nghiên cứu, nhà phân tích dữ liệu và các chuyên gia trong nhiều lĩnh vực khác nhau
1.2. Mô tả thuật toán
Thuật toán hồi quy tuyến tính xây dựng một mô hình dự đoán dựa trên việc ước lượng các hệ số của các biến độc lập Trong trường hợp đơn giản nhất với một biến độc lập, mô hình hồi quy tuyến tính có dạng đơn biến.Trong trường hợp này, chỉ có một biến độc lập được sử dụng để dự đoán một biến phụ thuộc Công thức của mô hình là:
y = β0 + β1x + ε Trong đó:
Trang 7 y là biến phụ thuộc (biến được dự đoán).
x là biến độc lập (biến giải thích)
β0 và β1là các hệ số của mô hình
ε là sai số ngẫu nhiên
Trong trường hợp có nhiều biến độc lập được sử dụng để dự đoán biến phụ thuộc, mô hình được mở rộng thành dạng đa biến Công thức tổng quát của mô hình là:
y = β0 + β1x1 + β2x2 + … + βnxn + ε
Hàm dự đoán: Đây là hàm được sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập Đối với mô hình đơn biến, hàm dự đoán là:
^y = β0 + β1x Trong đó, ^y là giá trị dự đoán của biến phụ thuộc.
Hàm mất mát: Đây là hàm được sử dụng để đo lường sự chênh lệch giữa các giá trị dự đoán và giá trị thực tế Trong hồi quy tuyến tính, hàm mất mát thường là hàm bình phương của sai số (RSS - Residual Sum of Squares):
RSS=∑
i=1
n
(y i− ^y i)2
Trong đó, y i là giá trị thực tế của biến phụ thuộc và ^y i là giá trị dự đoán của biến phụ thuộc
Hàm mất mát được tối ưu hóa: Trong quá trình huấn luyện mô hình, mục tiêu là tối thiểu hóa hàm mất mát Điều này thường được thực hiện bằng cách sử dụng phương pháp tối ưu hóa như gradient descent
1.3. Một số tính chất
Đơn giản: Thuật toán hồi quy tuyến tính dễ hiểu và thực hiện, đặc biệt là trong trường hợp có ít biến độc lập
Khả năng diễn giải: Các hệ số của mô hình hồi quy có thể được diễn giải một cách trực quan, giúp hiểu rõ mối quan hệ giữa biến độc lập và biến phụ thuộc
Khả năng áp dụng rộng rãi: Hồi quy tuyến tính có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ kinh tế, y học đến khoa học xã hội
Trang 81.4. Ưu và nhược điểm
1.4.1 Ưu điểm
- Đơn giản và dễ hiểu
- Có khả năng diễn giải các hệ số
- Áp dụng rộng rãi trong các lĩnh vực khác nhau
1.4.2 Nhược điểm
- Giả định về sự tuyến tính: Mô hình chỉ phù hợp khi mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính
- Nhạy cảm với dữ liệu nhiễu: Mô hình có thể bị ảnh hưởng bởi dữ liệu nhiễu
- Không linh hoạt: Không thể mô hình các mối quan hệ phi tuyến tính một cách hiệu quả
Trang 9CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ
CHẨN ĐOÁN SƠ VỮA ĐỘNG MẠCH 2.1 Tổng quan về chẩn đoán sơ vữa động mạch
Viết gì đó tùy bạn
Dữ liệu được sử dụng cho nghiên cứu này được cung cấp bởi Viện Tim mạch của Bệnh viện Phẫu thuật Bạch Mai Dữ liệu bao gồm 7 cột và 100 hồ sơ bệnh nhân Hầu hết các nghiên cứu mới nhất về bệnh tim mạch đều tham chiếu đến bộ dữ liệu UCI có
từ năm 1988 Việc có một bộ dữ liệu mới và chính xác như vậy tạo ra một cơ hội độc đáo để dự đoán bệnh xơ vữa động mạch dựa trên các phương pháp đã có sẵn và áp dụng các phương pháp mới, mở ra cánh cửa mới cho việc ứng dụng các thuật toán học máy trong y học
Trong y sinh học, thường có rất nhiều yếu tố khác nhau dẫn đến một hiện tượng Ví dụ như hiện tượng xơ vữa động mạch không chỉ do lượng cholesterol máu Mà còn do nhiều yếu tố khác như di truyền, chủng tộc, tiền sử mắc bệnh tim mạch, tuổi, giới, BMI, tăng huyết áp, đái tháo đường,…
Trong bài viết này chúng ta không đề cập các yếu tố di truyền, chủng tộc, giới, mắc bệnh tim mạch… mà chỉ lưu ý đến các biến số như: tuổi, cholesterol, glucose, huyết áp tâm thu và BMI Khi đó mô hình hồi quy tuyến tính đa biến với 5 yếu tố ( x1=tuổi, x2 = cholesterol, x3 = glucose, x4 = huyết áp, x5 = BMI ) như sau:
Trang 10Bề dày TM = w 0 + w 1 (tuổi)+ w 2 (cholesterol) + w 3 (glucose) + w 4 (huyết áp) +
w 5 (BMI)
Bộ dữ liệu gồm có 6 thuộc tính bao gồm: tuổi, chỉ số BMI, chỉ số huyết áp tối đa (mmHg), nồng độ glucose trong máu (mmol/l), nồng dộ cholesterol trong máu (mmol/l) và bề dày thành mạch (mm)
Bộ dữ liệu sẽ chia thành 2 phần trong đó 80% dữ liệu được làm bộ dữ liệu huấn luyện
mô hình, 20% còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình Dữ liệu về
độ dày thành mạch làm biến mục tiêu Những bộ dữ liệu còn lại bao gồm (tuổi, BMI, nồng độ glucose máu, nồng độ cholesterol máu) làm biến giải thích
2.2 Ứng dụng thuật toán vào chẩn đoán sơ vữa động mạch
Trong nghiên cứu này, chúng tôi sử dụng ngôn ngữ lập trình Python phiên bản 3.11 cùng các thư viện liên quan Hiện nay, Python là ngôn ngữ lập trình phổ biến nhất cho phân tích dữ liệu và học máy, cung cấp nhiều thư viện và giải pháp để giải quyết các vấn đề này Python cung cấp nhiều tiện ích giúp giảm thời gian phát triển và mang lại kết quả hiệu quả cao Dưới đây là các thư viện Python chúng tôi sử dụng trong nghiên cứu:
- pandas: thư viện cung cấp các hàm để tạo và thao tác với tập dữ liệu
- numpy: cho phép thực hiện các phép tính phức tạp trên các mảng đa chiều hiệu suất cao và thao tác với chúng
- matplotlib: cung cấp giao diện phần mềm để tạo các biểu đồ dữ liệu khác nhau
- sklearn: cung cấp các thuật toán học máy có sẵn được giám sát và không được giám sát, được xây dựng trên numpy, pandas và matplotlib
Xét đến những hạn chế của nghiên cứu, có rất nhiều cơ hội rộng lớn để áp dụng các phương pháp đã đề cập vào dữ liệu lớn hơn, tuy nhiên điều này có thể dẫn đến nhiều thách thức kỹ thuật hơn như tiền xử lý dữ liệu phức tạp và điều chỉnh thuật toán Ngoài
ra, có rất nhiều kiến trúc mạng nơ-ron khác cũng có thể được áp dụng cũng như các phương pháp học máy để đạt được kết quả tốt hơn Mặc dù hiện nay chỉ có một số lượng rất hạn chế các tập dữ liệu có sẵn cho phân tích xơ vữa động mạch (điều này khiến lĩnh vực trở nên hấp dẫn đối với nhiều nhà nghiên cứu), nhưng có rất nhiều tích
Trang 11hợp khả thi của các kỹ thuật được xem xét cùng với thị giác máy tính và các công nghệ khác có thể cải thiện việc chẩn đoán và điều trị xơ vữa động mạch
Trang 12CHƯƠNG 3: DEMO CHƯƠNG TRÌNH
Trang 13KẾT LUẬN
Dựa trên những phân tích trong quá trình nghiên cứu, chúng em nhận thấy rằng việc ứng dụng thuật toán hồi quy tuyến tính trong việc chẩn đoán xơ vữa động mạch là một phương pháp tiềm năng và hiệu quả
Thuật toán hồi quy tuyến tính cung cấp một cách tiếp cận đơn giản và mạnh mẽ
để mô hình hóa mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc Việc
áp dụng thuật toán này trong việc chẩn đoán xơ vữa động mạch cho phép chúng em dự đoán và đánh giá mức độ nghiêm trọng của xơ vữa một cách hiệu quả
Tính linh hoạt của thuật toán hồi quy tuyến tính cũng cho phép chúng em điều chỉnh và tinh chỉnh mô hình dự đoán dựa trên dữ liệu mới và thông tin cụ thể của từng trường hợp
Tuy nhiên, để đạt được kết quả chính xác và đáng tin cậy, việc lựa chọn và phát triển các biến độc lập phù hợp, cùng với việc xây dựng một mô hình hồi quy tuyến tính chính xác và có hiệu suất cao là điều quan trọng Đồng thời, việc hiểu rõ về giới hạn và giả định của mô hình là yếu tố không thể bỏ qua trong quá trình ứng dụng thuật toán hồi quy tuyến tính trong lĩnh vực chẩn đoán xơ vữa động mạch
Vì thời gian triển khai có hạn, và việc tìm hiểu công nghệ mới còn gặp nhiều khó khăn do không có nhiều tài liệu nên không tránh khỏi những sai sót Chúng em rất mong nhận được sự đóng góp ý kiến và những hướng dẫn của thầy cô để bài báo cáo thêm hoàn chỉnh
Chúng em xin chân thành cảm ơn!
DANH MỤC THAM KHẢO
[1] Đinh Mạnh Tưởng, Học máy các kỹ thuật cơ bản và nâng cao, NXB Đại học Quốc Gia Hà Nội, 2015
Trang 14[2] Christopher M Bishop, Pattern Recognition and Machine Learning, Springer, 2006