1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ CHẨN ĐOÁN XƠ VỮA ĐỘNG MẠCH

14 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng thuật toán hồi quy tuyến tính để chẩn đoán xơ vữa động mạch
Tác giả Phạm Đình Nguyên, Nguyễn Tường Vy
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại học Điện lực
Chuyên ngành Công nghệ thông tin
Thể loại Báo cáo chuyên đề nhập môn học máy
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 14
Dung lượng 85,86 KB

Nội dung

Trong học kỳ này, chúng em xin chọn đề tài “Ứng dụng thuật toán hồi quy tuyến tính để chẩn đoán xơ vữa động mạch”.. Lựa chọn này được thúc đẩy bởi tiềm năng của thuật toán hồi quy tuyến

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ NHẬP MÔN HỌC MÁY

ĐỀ TÀI:

ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH

ĐỂ CHẨN ĐOÁN XƠ VỮA ĐỘNG MẠCH

Sinh viên thực hiện : PHẠM ĐÌNH NGUYÊN

NGUYỄN TƯỜNG VY

ĐỖ TUẤN LONG Giảng viên hướng dẫn : VŨ VĂN ĐỊNH

Chuyên ngành : CÔNG NGHỆ PHẦN MỀM

Hà Nội, tháng 11 năm 2023

Trang 2

PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực hiện Điểm Chữ

1 Phạm Đình Nguyên

MSV: 21810310183

2 Nguyễn Tường Vy

MSV: 21810310183

MSV: 21810310584

Giảng viên chấm 1:

Giảng viên chấm 2:

Trang 3

MỤC LỤC CHƯƠNG 1: GIỚI THIỆU THUẬT TOÁN HỒI QUY TUYẾN TÍNH

1.1 Giới thiệu

1.2 Mô tả thuật toán

1.2.1 Các dạng của mô hình hồi quy tuyến tính

1.2.2 Các hàm và công thức liên quan

1.3 Một số tính chất

1.4 Ưu và nhược điểm

1.4.1 Ưu điểm

1.4.2 Nhược điểm

CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ CHẨN ĐOÁN SƠ VỮA ĐỘNG MẠCH

CHƯƠNG 3: DEMO CHƯƠNG TRÌNH

KẾT LUẬN

DANH MỤC THAM KHẢO

Trang 4

DANH MỤC HÌNH ẢNH

Trang 5

LỜI NÓI ĐẦU

Thành công chính là sự thành tựu, là kết quả tốt đẹp mà ai cũng mong muốn hướng tới Thực tế, thành công không đến từ sự đơn độc, mà còn cần phải có những sự

hỗ trợ, giúp đỡ ít nhiều của mọi người xung quanh Bản thân chúng em cũng đã nhận được nhiều sự giúp đỡ từ thầy cô, gia đình và bạn bè trong quá trình đã và đang học tập tại trường Đại học Điện Lực Đặc biệt, chúng em xin cảm ơn thầy Vũ Văn Định đã hướng dẫn, góp ý để chúng em có thể hoàn thiện bài báo cáo này một cách tốt nhất Dưới sự chỉ dẫn tận tình của thầy suốt thời gian học tập, rèn luyện vừa qua, không những tiếp thu được nhiều kiến thức do thầy truyền đạt, mà chúng em còn học được thêm nhiều kỹ năng làm việc nhóm, làm word, trải nghiệm thực tế Đặc biệt, chúng em

cũng được truyền cảm hứng, truyền sự say mê và thích thú đối với bộ môn Nhập môn học máy.

Trong học kỳ này, chúng em xin chọn đề tài “Ứng dụng thuật toán hồi quy tuyến tính để chẩn đoán xơ vữa động mạch” Đây không chỉ là một đề tài nghiên

cứu thông thường mà còn là một chủ đề hấp dẫn trong việc áp dụng học máy vào lĩnh vực y học Lựa chọn này được thúc đẩy bởi tiềm năng của thuật toán hồi quy tuyến tính trong việc dự đoán và chẩn đoán các vấn đề về sức khỏe, đặc biệt là về xơ vữa động mạch Chúng em hy vọng rằng thông qua nghiên cứu này, chúng em có thể đóng góp vào việc cải thiện quy trình chẩn đoán và điều trị các bệnh lý về mạch máu, mang lại lợi ích lớn cho cộng đồng y học và bệnh nhân

Tuy rằng, năng lực còn hạn chế, kiến thức còn hạn hẹp với sự bỡ ngỡ do bước đầu đi vào thực tế, tìm hiểu và làm báo cáo nên không thể tránh khỏi nhiều thiếu sót Song, chúng em cũng sẽ cố gắng và nỗ lực để hoàn thiện báo cáo một cách tốt nhất

Cuối cùng, chúng em xin chân thành cảm ơn và cũng xin kính chúc các thầy cô trong Khoa Công Nghệ Thông Tin luôn dồi dào sức khỏe, hạnh phúc, thành công trong

sự nghiệp trồng người

Trân trọng!

Trang 6

CHƯƠNG 1: GIỚI THIỆU THUẬT TOÁN HỒI QUY TUYẾN TÍNH 1.1. Giới thiệu

Thuật toán hồi quy tuyến tính đóng vai trò quan trọng và không thể thiếu trong lĩnh vực học máy và thống kê Được sử dụng rộng rãi trong các ứng dụng thực tế, thuật toán này giúp mô hình hóa mối quan hệ tuyến tính giữa các biến, đặc biệt là giữa biến độc lập (thường được gọi là biến giải thích) và biến phụ thuộc (hay còn gọi là biến được dự đoán) Mục tiêu chính của thuật toán là tìm ra một đường thẳng (trong trường hợp đơn biến) hoặc một siêu phẳng (trong không gian nhiều chiều) sao cho sai

số giữa các giá trị dự đoán và thực tế là nhỏ nhất

Đường thẳng (hoặc siêu phẳng) này được tìm ra bằng cách điều chỉnh các hệ số của mô hình, đại diện cho độ dốc và điểm chạm của đường thẳng (hoặc siêu phẳng) trên trục y khi biến độc lập thay đổi Quá trình này thường được thực hiện thông qua tối ưu hóa một hàm mất mát, trong đó mục tiêu là tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế

Với tính linh hoạt và khả năng áp dụng rộng rãi, thuật toán hồi quy tuyến tính không chỉ là một công cụ mạnh mẽ trong việc dự đoán và mô hình hóa dữ liệu mà còn

là một công cụ quan trọng để hiểu sâu hơn về mối quan hệ giữa các biến trong các tập

dữ liệu phức tạp Điều này làm cho nó trở thành một phần không thể thiếu trong kho công cụ của các nhà nghiên cứu, nhà phân tích dữ liệu và các chuyên gia trong nhiều lĩnh vực khác nhau

1.2. Mô tả thuật toán

Thuật toán hồi quy tuyến tính xây dựng một mô hình dự đoán dựa trên việc ước lượng các hệ số của các biến độc lập Trong trường hợp đơn giản nhất với một biến độc lập, mô hình hồi quy tuyến tính có dạng đơn biến.Trong trường hợp này, chỉ có một biến độc lập được sử dụng để dự đoán một biến phụ thuộc Công thức của mô hình là:

y = β0 + β1x + ε Trong đó:

Trang 7

 y là biến phụ thuộc (biến được dự đoán).

 x là biến độc lập (biến giải thích)

 β0 và β1là các hệ số của mô hình

 ε là sai số ngẫu nhiên

Trong trường hợp có nhiều biến độc lập được sử dụng để dự đoán biến phụ thuộc, mô hình được mở rộng thành dạng đa biến Công thức tổng quát của mô hình là:

y = β0 + β1x1 + β2x2 + … + βnxn + ε

 Hàm dự đoán: Đây là hàm được sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập Đối với mô hình đơn biến, hàm dự đoán là:

^y = β0 + β1x Trong đó, ^y là giá trị dự đoán của biến phụ thuộc.

 Hàm mất mát: Đây là hàm được sử dụng để đo lường sự chênh lệch giữa các giá trị dự đoán và giá trị thực tế Trong hồi quy tuyến tính, hàm mất mát thường là hàm bình phương của sai số (RSS - Residual Sum of Squares):

RSS=

i=1

n

(y i− ^y i)2

Trong đó, y i là giá trị thực tế của biến phụ thuộc và ^y i là giá trị dự đoán của biến phụ thuộc

 Hàm mất mát được tối ưu hóa: Trong quá trình huấn luyện mô hình, mục tiêu là tối thiểu hóa hàm mất mát Điều này thường được thực hiện bằng cách sử dụng phương pháp tối ưu hóa như gradient descent

1.3. Một số tính chất

Đơn giản: Thuật toán hồi quy tuyến tính dễ hiểu và thực hiện, đặc biệt là trong trường hợp có ít biến độc lập

Khả năng diễn giải: Các hệ số của mô hình hồi quy có thể được diễn giải một cách trực quan, giúp hiểu rõ mối quan hệ giữa biến độc lập và biến phụ thuộc

Khả năng áp dụng rộng rãi: Hồi quy tuyến tính có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ kinh tế, y học đến khoa học xã hội

Trang 8

1.4. Ưu và nhược điểm

1.4.1 Ưu điểm

- Đơn giản và dễ hiểu

- Có khả năng diễn giải các hệ số

- Áp dụng rộng rãi trong các lĩnh vực khác nhau

1.4.2 Nhược điểm

- Giả định về sự tuyến tính: Mô hình chỉ phù hợp khi mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính

- Nhạy cảm với dữ liệu nhiễu: Mô hình có thể bị ảnh hưởng bởi dữ liệu nhiễu

- Không linh hoạt: Không thể mô hình các mối quan hệ phi tuyến tính một cách hiệu quả

Trang 9

CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ

CHẨN ĐOÁN SƠ VỮA ĐỘNG MẠCH 2.1 Tổng quan về chẩn đoán sơ vữa động mạch

Viết gì đó tùy bạn

Dữ liệu được sử dụng cho nghiên cứu này được cung cấp bởi Viện Tim mạch của Bệnh viện Phẫu thuật Bạch Mai Dữ liệu bao gồm 7 cột và 100 hồ sơ bệnh nhân Hầu hết các nghiên cứu mới nhất về bệnh tim mạch đều tham chiếu đến bộ dữ liệu UCI có

từ năm 1988 Việc có một bộ dữ liệu mới và chính xác như vậy tạo ra một cơ hội độc đáo để dự đoán bệnh xơ vữa động mạch dựa trên các phương pháp đã có sẵn và áp dụng các phương pháp mới, mở ra cánh cửa mới cho việc ứng dụng các thuật toán học máy trong y học

Trong y sinh học, thường có rất nhiều yếu tố khác nhau dẫn đến một hiện tượng Ví dụ như hiện tượng xơ vữa động mạch không chỉ do lượng cholesterol máu Mà còn do nhiều yếu tố khác như di truyền, chủng tộc, tiền sử mắc bệnh tim mạch, tuổi, giới, BMI, tăng huyết áp, đái tháo đường,…

Trong bài viết này chúng ta không đề cập các yếu tố di truyền, chủng tộc, giới, mắc bệnh tim mạch… mà chỉ lưu ý đến các biến số như: tuổi, cholesterol, glucose, huyết áp tâm thu và BMI Khi đó mô hình hồi quy tuyến tính đa biến với 5 yếu tố ( x1=tuổi, x2 = cholesterol, x3 = glucose, x4 = huyết áp, x5 = BMI ) như sau:

Trang 10

Bề dày TM = w 0 + w 1 (tuổi)+ w 2 (cholesterol) + w 3 (glucose) + w 4 (huyết áp) +

w 5 (BMI)

Bộ dữ liệu gồm có 6 thuộc tính bao gồm: tuổi, chỉ số BMI, chỉ số huyết áp tối đa (mmHg), nồng độ glucose trong máu (mmol/l), nồng dộ cholesterol trong máu (mmol/l) và bề dày thành mạch (mm)

Bộ dữ liệu sẽ chia thành 2 phần trong đó 80% dữ liệu được làm bộ dữ liệu huấn luyện

mô hình, 20% còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình Dữ liệu về

độ dày thành mạch làm biến mục tiêu Những bộ dữ liệu còn lại bao gồm (tuổi, BMI, nồng độ glucose máu, nồng độ cholesterol máu) làm biến giải thích

2.2 Ứng dụng thuật toán vào chẩn đoán sơ vữa động mạch

Trong nghiên cứu này, chúng tôi sử dụng ngôn ngữ lập trình Python phiên bản 3.11 cùng các thư viện liên quan Hiện nay, Python là ngôn ngữ lập trình phổ biến nhất cho phân tích dữ liệu và học máy, cung cấp nhiều thư viện và giải pháp để giải quyết các vấn đề này Python cung cấp nhiều tiện ích giúp giảm thời gian phát triển và mang lại kết quả hiệu quả cao Dưới đây là các thư viện Python chúng tôi sử dụng trong nghiên cứu:

- pandas: thư viện cung cấp các hàm để tạo và thao tác với tập dữ liệu

- numpy: cho phép thực hiện các phép tính phức tạp trên các mảng đa chiều hiệu suất cao và thao tác với chúng

- matplotlib: cung cấp giao diện phần mềm để tạo các biểu đồ dữ liệu khác nhau

- sklearn: cung cấp các thuật toán học máy có sẵn được giám sát và không được giám sát, được xây dựng trên numpy, pandas và matplotlib

Xét đến những hạn chế của nghiên cứu, có rất nhiều cơ hội rộng lớn để áp dụng các phương pháp đã đề cập vào dữ liệu lớn hơn, tuy nhiên điều này có thể dẫn đến nhiều thách thức kỹ thuật hơn như tiền xử lý dữ liệu phức tạp và điều chỉnh thuật toán Ngoài

ra, có rất nhiều kiến trúc mạng nơ-ron khác cũng có thể được áp dụng cũng như các phương pháp học máy để đạt được kết quả tốt hơn Mặc dù hiện nay chỉ có một số lượng rất hạn chế các tập dữ liệu có sẵn cho phân tích xơ vữa động mạch (điều này khiến lĩnh vực trở nên hấp dẫn đối với nhiều nhà nghiên cứu), nhưng có rất nhiều tích

Trang 11

hợp khả thi của các kỹ thuật được xem xét cùng với thị giác máy tính và các công nghệ khác có thể cải thiện việc chẩn đoán và điều trị xơ vữa động mạch

Trang 12

CHƯƠNG 3: DEMO CHƯƠNG TRÌNH

Trang 13

KẾT LUẬN

Dựa trên những phân tích trong quá trình nghiên cứu, chúng em nhận thấy rằng việc ứng dụng thuật toán hồi quy tuyến tính trong việc chẩn đoán xơ vữa động mạch là một phương pháp tiềm năng và hiệu quả

Thuật toán hồi quy tuyến tính cung cấp một cách tiếp cận đơn giản và mạnh mẽ

để mô hình hóa mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc Việc

áp dụng thuật toán này trong việc chẩn đoán xơ vữa động mạch cho phép chúng em dự đoán và đánh giá mức độ nghiêm trọng của xơ vữa một cách hiệu quả

Tính linh hoạt của thuật toán hồi quy tuyến tính cũng cho phép chúng em điều chỉnh và tinh chỉnh mô hình dự đoán dựa trên dữ liệu mới và thông tin cụ thể của từng trường hợp

Tuy nhiên, để đạt được kết quả chính xác và đáng tin cậy, việc lựa chọn và phát triển các biến độc lập phù hợp, cùng với việc xây dựng một mô hình hồi quy tuyến tính chính xác và có hiệu suất cao là điều quan trọng Đồng thời, việc hiểu rõ về giới hạn và giả định của mô hình là yếu tố không thể bỏ qua trong quá trình ứng dụng thuật toán hồi quy tuyến tính trong lĩnh vực chẩn đoán xơ vữa động mạch

Vì thời gian triển khai có hạn, và việc tìm hiểu công nghệ mới còn gặp nhiều khó khăn do không có nhiều tài liệu nên không tránh khỏi những sai sót Chúng em rất mong nhận được sự đóng góp ý kiến và những hướng dẫn của thầy cô để bài báo cáo thêm hoàn chỉnh

Chúng em xin chân thành cảm ơn!

DANH MỤC THAM KHẢO

[1] Đinh Mạnh Tưởng, Học máy các kỹ thuật cơ bản và nâng cao, NXB Đại học Quốc Gia Hà Nội, 2015

Trang 14

[2] Christopher M Bishop, Pattern Recognition and Machine Learning, Springer, 2006

Ngày đăng: 13/04/2024, 15:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w