Mục tiêu Thử nghiệm một mô hình hàm phân biệt mới, được phát trién từ đữ liệu lâm sàng và các kết quả kiểm tra không xâm lấn của 303 bệnh nhân trải qua xạ trị động mạch tại Cleveland Cl
Trang 1
NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG THÀNH PHÓ HÒ CHÍ MINH
Bộ môn Kinh tế
te? Law
ATT 2
1976
BAI TIEU LUAN MON: LAP TRINH PYTHON CHO PHAN TICH DU LIEU
Dé tai: PHAN TICH MO HINH XAC XUAT CHO VIEC CHUAN DOAN
BENH DONG MACH VANH
Giảng viên hướng dẫn ThS Trần Doãn Hiếu
Lớp học phần DAT708_2321 10 L16
Nhom thuc hién Nhom 04
Trang 2
Thành viên thực hiện
STT Họ và tên MSSV Công việc Nà:
oàn thiện
1 Luu Thanh Van 050610221523 | Panh word, tong hop Nội dung chương 2 100%
2 Lê Neuyén Hong Dao | 050610220880 | Nội dung chương l 100%
3 Tran Thi Thanh Huyền | 050610220962 | Nội dung chương 4 100%
4 Phạm Quang Duy 050610220871 | Viết code 100%
5 Vũ An Thanh 050610220537 | Nội dung chương 5 100%
6 Đồng Đặng Hòa 050610220942 | Nội dung chương 3 100%
Trang 3
MUC LUC
Churong 1 MUC TIEU VA PHAM VL uui.eccesccccssessessessscsesssessesessessesevsessresetssnsetsevsreeseseeeess 1
1.2 Phạm vI LH ng TT T1 0111k KTS S1 00 5511k ky cay 1
Chương 2 DỮ LIỆU VÀ NỘI DỤNG s2 12 TỰ TỰ 21222 22g ray 2 2.1 Mô tá đữ liệu s s2 TH HH n1 t re e ngu 2
2.2 Nội dung phân tích - c1 22122211221 1112115 1111111111111 1101120111111 4
Chương 3 CÔNG CỤ -c St n2 1 H1 n1 n1 HH ng HH Hye 5
3.1 Tổng quan về Python 5c s2 211121121211 1121211 1 HH n1 ng gàng 5 3.2 Thư viện NumỊy 2L 120 1221221111211 15 151119115 111g 11111 HH cu 5
3.3 Thư viện MatplotÏIb - - L1 2112211112111 111111152115 1111811501111 1 111121111511 kg 6 3.4 Thư viện Panas - - - L c c Q0 1H n2 TT 1 0 0 TK TT vyy 7
Chương 4 KÉT QUÁ VÀ THẢO LUẬN - - 5c 2 SE 1221211 T21 HH HH reo 8
4.1 Kết qUả S2 St TT HH HH HH HH HH tr nung 8
Churong 5 KET LUAN occcccccccccsssssscssessessvsssessssvessestssevsuesresesssessvssessveresssstesessesnssssteaetess 13
Trang 4DANH MỤC HÌNH ANH
Hình 1 Phân bồ giới tính 5c s1 E1 11 1121111 112111 1 211012211 ng HH ườg 8 Hình 2 Phan b6 6 tu6i cece ccccccccccsececcscssescsesscsessesesvesecusessesusevstsavsvsusavsusensusevsnsasevareevsvenees 8 Hình 3 Phân bồ chỉ số huyet ap c.cc.cccccccsccscsscssessescseesesscsessvescssesvssessesvssnsevstssssevstestevseveeseees 9
Hình 4 Phân bố các loại đau 007 10
DANH MỤC BẢNG BIEU
Bảng I Đặc điểm lâm sàng của các nhóm nghiên cứu 5-1 n1 tre 3
Bang 2 Độ nhạy và độ đặc hiệu của thử nghiệm vận động trong các nhóm nghiên cứu 4
DANH SÁCH TỪ VIẾT TAT
Từ viêt
tắt Ề
"T" la viét tat cua tu "Tall", T-wave là dạng sóng cao được quan sát trên điện
tam do
ST “ST” là viết tắt của từ “Segment”, la phan doan sóng giữa khử cực tâm thât va
tái phân cực
CAD | CAD” la viết tắt của “Coronary Artery Disease”, là bệnh động mạch vành
R-wave “R” là viết tắt của từ “Rapid”, R-wave là dạng sóng cao nhất, cho thây sự khử
Trang 5
TAI LIEU THAM KHAO
https://vncoder.vn/bai-hoc/gioi-thieu-matplotlib-492
Giới thiệu về Matplotlib (một thư viện rất hữu ích của Python dùng đề vẽ đồ thị) (viblo.asia)
Tìm hiệu thư viện phân tích dir ligu PANDAS trong Python (freetuts.net)
Giới Thiệu Về Thu Vién Pandas Trong Python (khuenguyencreator.com)
https://txnam.net/wp-content/uploads/txnam/Bai%20Giang/Nhap%20Mon%20KHDL
%20K58/Nhap%20Mon%20KHDL%20K58%20-%2007 pdf
(Robert Detrano, MD, PhD, Andras Janosi, MD, Walter Steinbrunn, MD, Matthias Pfisterer, MD, Johann- Jakob Schmid, DE, Sarbjit Sandhu, MD, Kern H Guppy, PhD, Stella Lee, MS, and Victor Froelicher, MD;)
Trang 6CHUONG 1 MUC TIEU VA PHAM VI
1.1 Mục tiêu
Thử nghiệm một mô hình hàm phân biệt mới, được phát trién từ đữ liệu lâm sàng và
các kết quả kiểm tra không xâm lấn của 303 bệnh nhân trải qua xạ trị động mạch tại
Cleveland Clinic, Cleveland, Ohio
1.2 Phạm vi
Ước lượng xác suất mặc bệnh mạch vành thông qua việc áp dụng một mô hình hàm
phân biệt mới Nghiên cứu tập trung vào việc kiêm tra tính đáng tin cậy và tính ứng dụng
lâm sàng của mô hình này trên ba nhóm bệnh nhân thử nghiệm khác nhau, bao gồm các
bệnh nhân ở Hungary, Mỹ và Thụy Sĩ
Trang 7CHUONG 2 DU LIEU VA NOI DUNG 2.1 M6 ta dữ liệu
Nhóm tham chiếu để phát triển mô hình: bao gồm 303 bệnh nhân liên tiếp được
giới thiệu cho chụp cắt mạch vài cơ tim tại Cleveland Clinic từ tháng 5 năm 1981 đến tháng
9 năm 1984 Không có bệnh nhân nào có tiền sử hoặc chứng cử điện tâm đồ của viêm cơ tim
hoặc bệnh tim mạch trước đó Tất cá 303 bệnh nhân đã cung cấp lịch sử y tế và tham khảo
thể lực, điện tâm đồ ở trạng thái nghỉ, xác định cholesterol máu và đường huyết nhanh như
một phần của đánh giá hàng ngày của họ
Các biến lâm sàng và thử nghiệm:
- Có 4 biến lâm sàng là tuổi, giới tính, loại đau ngực (đau ngực điền hình, đau ngực không điền hình, không đau ngực, không có triệu chứng) và huyết áp tâm thu
- Dữ liệu thường quy thử nghiệm bao gồm cholesterol máu, đường huyết nhanh > 120
mg/dl và kết quả điện tâm đỗ ở trạng thái nghỉ (phân loại là (1) bình thường: (2) biến đôi
sóng T, sóng T lật hoặc ST giảm > 0,05 mV hoặc cả hai; hoặc (3) phì đại thất trái có thể hay
chắc chắn dựa trên tiêu chí của Estes)
- Các thử nghiệm không xâm lần bao gồm điện tâm đồ gắng sức, dién tam dé thallium
và chụp mạch đề đo canxi động mạch
- Dữ liệu thử nghiệm thê dục bao gồm nhịp tim tối đa, đau ngực do thể dục gây ra, độ dốc của đoạn ST tăng lên (tăng, phăng hoặc giảm), hạ thấp của đoạn ST do thể dục gây ra (noi Imm = 0,1 mV), các khuyết tật điện thallium do thể dục gây ra (có định, có thể hoặc không có)
- Dữ liệu chụp mạch bao gồm 36 lượng mạch lớn co vé chia canxi Dir ligu cho tat ca
cac bién nay đã được nhập vào một cơ sở đữ liệu máy tính
Dữ liệu nhóm thử nghiệm: Ba nhóm thử nghiệm đã được phân tích bằng cách sử dụng hàm phân biệt 13 biến và thuật toán Bayesian Các nhóm này bao gồm các đối tượng
không có sự tiêm nhiễm trước hoặc bằng chứng về viêm mạch hoặc bệnh tim mạch trước đó,
các đối tượng không rõ tình trạng CAD nhưng các chụp cắt đã được thực hiện đề xác định sự hiện diện và nghiêm trọng của bệnh Các nhóm thử nghiệm là:
° 200 bệnh nhân tại Trung tâm Y tế Quân sự tại Long Beach, California;
Trang 8Tất cả các dữ liệu có thê được sử dụng bởi cả hai thuật toán đã được thu thập từ hồ sơ bệnh nhân cho các nhóm thử nghiệm Dữ liệu bao gồm: tuôi, giới tính, đặc điểm đau ngực,
huyết áp tâm thu ở trạng thái nghỉ, tiền sử tăng huyết áp, tiền sử hút thuốc, tiền sử tiêu đường, tiền sử gia đình, điện tâm đồ ở trạng thái nghỉ, cholesterol máu và đường huyết nhanh Các biến thử nghiệm bao gồm: thuốc đã sử dụng tại thời điểm thử nghiệm thẻ dục,
thời gian thực hiện thử nghiệm thể dục, nhịp tim tôi đa đạt được, nhịp tim ở trạng thái nghỉ,
huyết áp tâm thu tối đa thử nghiệm thể dục, đau ngực do thử nghiệm thẻ dục gây ra hoặc ha thấp huyết áp hoặc cả hai, đoạn ST do thử nghiệm thê dục gây ra so với trạng thái nghỉ, độ dốc của đoạn ST do thử nghiệm thê dục gây ra, thay đổi R-wave do thử nghiệm thể dục gây
ra, tỷ lệ truyền chất radionuclide và các biến đổi chuyên động tim ở trạng thái nghỉ và trong thời gian thực hiện thử nghiệm thê dục, và kết quả thallium do thử nghiệm thê dục gây ra Chụp cắt mạch được coi là bất thường nếu có sự thu hẹp lumen > 50% của bất kỳ mạch lớn nào Lịch sử bệnh, kiểm tra lâm sảng và tất cả các thử nghiệm không xâm lan da được thực hiện trong vòng 6 tuần trước ngày thực hiện chụp cắt mạch
TABLE I Clinical Characteristics of the Study Groups
Mean Age Men Angina Disease* MVD!
Study Group (yrs) (%) (%) (%) (%) sept Long Beach
(n = 200) 59 97 66 74 62 135
Hungary
(n = 425) 48 71 43 38 63 132 Base!
(n = 85) 55 86 73 85 69 139
Zurich
Cleveland
54 68 53 46 60 132
* Disease ts defined as >50% diameter narrowing: ' MVD = multivessel disease defined by >50% diameter narrowing in >1 vessel; * SBP = mean systolic blood pressure
Bảng 1 Đặc điểm lâm sàng của các nhóm nghiên cứu
TABLE lf Sensitivities and Specificities of Exercise Testing in the Study Groups
l-mm ST Depression Exercise Angina Thallium Defect
Sensitivity Specificity Sensitivity Specificity Sensitivity Specificity
(81/149) (37/51) (83/115) (20/32) (27/3) (5/11)
(109/162) (225/263) (95/162) (233/263) (15/16) (10/17)
(23/43) (10/15) (13/43) (12/15)
Trang 92.2 Nội dung phân tích
Xây dựng thuật toán: Thuật toán được xây dựng bằng cách áp dụng hồi quy logistic
cho 13 biến lâm sàng và thử nghiệm so với biến chụp cắt mạch của sự hiện điện hoặc văng
mặt của một việc thu hẹp đường kính >50% (biến phụ thuộc)
Kiểm tra thuật toán: 352 tập hợp hệ số hồi quy đã được lưu trữ và được lập chỉ mục trong một tập tin đữ liệu máy tính Một chương trình máy tính được viết dé đọc đữ liệu lâm sàng và thử nghiệm của các bệnh nhân thử nghiệm và phù hợp đữ liệu có sẵn với tập hợp hệ
số từ tập tin đữ liệu này Chương trình sau đó tính toán xác suất bệnh của bệnh nhân thứ ¡,
Pi, bang cach sir dụng công thức: Pi = es/(1 + es), trong đó ñ là tổ hợp tuyến tính của bệnh nhân này, sử dụng tập hợp hệ số phù hợp
Độ tin cậy của một ước lượng xác suất phản ánh sự gần gũi về số liệu của nó với tỷ lệ mắc bệnh thực tế trong các đối tượng có dữ liệu lâm sảng và kiểm tra tương tự Nếu ước lượng là đáng tin cậy, trung bình xác suất bệnh trong một nhóm kiểm tra sẽ giống như tý lệ mắc bệnh trong nhóm đó Do đó, bằng cách trừ đi tỷ lệ mắc bệnh từ trung bình hoặc xác suất
mong doi, va chia su khác biệt này cho độ lệch chuẩn, chúng ta thu được một chỉ số phép đo
sự quá mức ước lượng đó là một phép đo vẻ mức độ mà một mô hình ước lượng quá mức hoặc đưới mức xác suất bệnh Bởi vì đây là trung bình của một sự khác biệt được giả định là
phân phối theo phân phối chuẩn, so sánh các mô hình được đơn giản hóa Điều này có thể
được thực hiện bằng cách sử dụng kiểm định t của Student với độ lệch chuẩn là 1.0
Trang 10CHUONG 3 CONG CU
3.1 Tổng quan về Python
Python là một ngôn ngữ lập trình mạnh mẽ và phô biến được phát triển vào cuối những năm 1980 bởi Guido van Rossum và được phát hành lần đầu vào năm 1991 Python được thiết kế với mục tiêu là dé doc, dé viết và đễ hiều, với cú pháp gần gũi với ngôn ngữ tự nhiên, giúp các nhà phát triển tập trung vào việc giải quyết van dé thay vi chi tiết cú pháp Đặc điểm nỗi bật:
- Dễ học và sử dụng: Python có ít từ khóa, cầu trúc đơn giản và củ pháp được định nghĩa rõ ràng Điều này cho phép người mới học tiếp cận ngôn ngữ một cách nhanh chóng
- Dễ bảo trì: Mã nguồn của Python khá dễ bảo trì
- Một thư viện tiêu chuẩn rộng: Phần lớn thư viện của Python rat dé dinh kém va
da nén tang tuong thich trén UNLX, Windows va Macintosh
- Chế độ tương tác: Python có hỗ trợ cho chế độ tương tác cho phép kiểm tra tương tác và debug
- Portable: Python có thể chạy trên nhiều nền tảng phần cứng khác nhau và có cùng giao diện trên tất cả nền tảng
- Có thê mở rộng: có thê thêm các module cấp thấp vào trình thông dịch Python Các module này cho phép các lập trình viên thêm hoặc tuỳ chỉnh các công cụ của mình đề
hiệu quả hơn
- Cơ sở dữ liệu: Python cung cấp phương thức giao tiếp cho tất cả các cơ sở đữ
liệu
3.2 Thư viện Numpy
NumPy là thư viện bô sung của python, do không có sẵn, ta phải cài đặt: pip install numpy
Đối tượng chính của NumPy: các mảng đa chiều đồng nhất (homogeneous
multidimentional array)
> Kiéu đữ liệu phần tử con trong mảng phải giống
nhau
> Mang co thể một chiều hoặc nhiều chiều
——> axis=1
0 1 “ee n—]1
5
Tì —
Trang 11Số chiều gọi là hang (rank)
Có đến 24 kiểu số khác nhau
Kiểu naarray là lớp chính xử lý đữ liệu mảng nhiều chiều
> Rất nhiều hàm và phương thức xử lý ma trận
3.3 Thư viện Matplotlib
Matplotlib là một trong những thư viện Python phô biến nhất được sử dụng để trực
quan hóa đữ liệu Nó là một thư viện đa nền tang dé tao cac dé thi 2D từ đữ liệu trong cac
mang Matplotlib duoc viét bang Python va str dung NumPy, phan mở rộng toán học của Python Đề thực hiện các suy luận thống kê cần thiết, cần phải trực quan hóa dữ liệu của bạn
và Matplotlib là một trong những giải pháp như vậy cho người dùng Python Nó là một thư
viện vẽ đồ thị rất mạnh mẽ hữu ích cho những người làm việc với Python và NumPy
Một Matplotlib figure có thể được phân loại thành nhiều phần như dưới đây:
° Figure: Như một cái cửa số chứa tất cả những gì bạn sẽ vẽ trên đó
° Axes: Thanh phan chính của một ñgure là các axes (những khung nhỏ hơn dé
vẽ hình lên đó) Một figure có thể chứa một hoặc nhiều axes Nói cách khác, figure chi la khung chứa, chính các axes moi thật sự là nơi các hình vẽ được vẽ lên
° Axis: Chúng là đòng số giống như các đối tượng và đảm nhiệm việc tạo các
giới hạn biêu đồ
° Artist: Moi thir ma bạn co thé nhin thay trén figure la mét artist nhu Text objects, Line2D objects, collection objects Hầu hết cac Artists được gắn với Axes Matplotlib có thể được sử dụng để tạo ra những fñgures đủ chất lượng cho một loạt các định dạng hardcopy và môi trường tương tác trên nền tảng Một đặc điểm khác của matplotlib là tốc độ lĩnh hội, có nghĩa là người dùng thường đạt được tiến bộ nhanh chóng sau khi bắt đầu Các trang web chính thức có thê nói những điều sau đây: "matplotlib cô găng làm những điều khó khăn, phức tạp trở lên để đàng nhất có thể Bạn có thê tạo ra các hình vé, histograms, pho, biểu đồ thanh, errorcharts, scatferplots, vv, với chỉ một vai dong