Hai ngưỡng huyết áp tâm thu SBP – huyết áp tâm trương DBP thường những bệnh nhân đang được theo dõi huyết áp và cần duy trì dưới huyết áp mục tiêungưỡng tăng huyết áp của những bệnh nhân
CƠ SỞ LÝ THUYẾT
Huyết áp động mạch
2.1.1 Đặc điểm của huyết áp
Huyết áp (hay còn gọi là huyết áp động mạch) là áp lực lưu thông máu lên thành động mạch Nhờ có áp lực này mà động mạch có thể mang máu từ tim đến các cơ quan trong cơ thể [19], [20] Huyết áp gồm hai chỉ số là huyết áp tâm thu (SBP) và huyết áp tâm trương (DBP), chúng được viết theo cặp là SBP/DBP Người bình thường có huyết áp tối ưu từ 110/70 mmHg đến 120/80 mmHg [11] Tăng huyết áp (THA) là tình trạng huyết áp tăng cao hơn so với ngưỡng bình thường.
2.1.1.1 Tăng huyết áp và các vấn đề liên quan Định nghĩa tăng huyết áp một cách tổng quát là khi huyết áp tâm thu (SBP) và/hoặc huyết áp tâm trương tương ứng lớn hơn hoặc bằng 140 hoặc 90 mmHg [9] Có thể phân loại thì có 2 dạng: tăng huyết áp nguyên phát và tăng huyết áp thứ phát Tăng huyết áp thứ phát có nguyên nhân từ một bệnh lý khác từ đó dẫn đến kết quả tăng huyết áp Tăng huyết áp nguyên phát được chẩn đoán khi loại trừ các nguyên nhân gây ra tăng huyết áp thứ phát [21] Tăng huyết áp nguyên phát chiếm tỷ lệ khoảng 95% trong tổng số người bị tăng huyết áp [22] Tỷ lệ chóng mặt và đau đầu ở những người tăng huyết áp lần lượt là: 19.6% và 17.0%, trong khi tỷ lệ này ở người bình thường là 13.6% và7.4% [23] Do đó việc đo huyết áp là quan trọng vì tỷ lệ có triệu chứng ở những bệnh nhân tăng huyết áp là không cao hơn đáng kể so với những người bình thường.Các yếu tố nguy cơ đẩy nhanh quá trình tăng huyết áp là: hút thuốc lá – thuốc lào,rối loạn lipid máu, tiểu đường, tiền sử gia đình có người bị tăng huyết áp, cao tuổi, thừa cân – béo phì, chế độ ăn nhiều muối, uống nhiều rượu bia, ít vận động thể lực, có nhiều căng thẳng [24].
Triệu chứng tăng huyết áp gồm có: đau đầu dữ dội, đau ngực, chóng mặt, nhìn mờ, buồn nôn, nôn, nhìn mờ,…[25]
Bảng 2.1: Chẩn đoán tăng huyết áp theo ngưỡng huyết áp đo tại phòng khám theo VSH/VNHA (2022)
Phân loại Huyết áp tâm thu (mmHg)
Huyết áp tâm trương (mmHg)
(tiền tăng huyết áp) 130 – 139 và/hoặc 85 – 89
THA tâm thu đơn độc ≥ 140 và < 90
Bảng 2.1 thể hiện ngưỡng huyết áp và mức độ tăng huyết áp tương ứng theo VSH/VNHA (2022) [9] Xét về mức độ tăng huyết áp thì có thể chia thành hai loại chính là tăng huyết áp độ 1 và tăng huyết áp độ 2 Cơn tăng huyết áp đơn độc xảy ra khi huyết áp tâm thu ≥ 180 và/hoặc huyết áp tâm trương ≥ 120 có hướng xử trí khác với loại 1 và loại 2 khi ghi nhận huyết áp [9] Tăng huyết áp có thể gây tổn thương cơ quan đích như: não, võng mạc, tim, động mạch ngoại biên, thận [26] Có thể kể đến một số tổn thương cơ quan đích có nguyên nhân là tăng huyết áp [27] như:
• Não: xuất huyết não, nhồi máu não.
• Mắt: bệnh võng mạc tăng huyết áp.
• Tim: bệnh tim thiếu máu cục bộ, rũng nhĩ, phì đại thất trái.
• Động mạch ngoại biên: xơ vữa, tăng độ cứng động mạch ngoại biên.
• Thận: bệnh thận tăng huyết áp, bệnh thận mãn tính.
Cặp chỉ số huyết áp tâm thu và tâm trương (SBP/DBP) có vai trò quan trọng, thiết yếu để chẩn đoán tăng huyết áp [28].
Hình 2.1: Sơ đồ chẩn đoán tăng huyết áp theo VSH/VNHA (2022) với phương pháp đo huyết áp tại phòng khám, đo huyết áp tại nhà, đo huyết áp liên tục [9]
Sơ đồ tại hình 2.1 thể hiện việc chẩn đoán với các ngưỡng huyết áp là khác nhau Khi huyết áp tâm thu ≥ 180 và/hoặc huyết áp tâm trương ≥ 120 kèm theo có bằng chứng tổn thương cơ quan đích thì có thể chẩn đoán bệnh nhân có cơn tăng huyết áp mà không cần đo lặp lại Nếu đo lại lần 2 mà huyết áp ở mức 140 – 179 mmHg (SBP) và/hoặc 90 – 119 mmHg (DBP) và có bằng chứng tổn thương cơ quan đích, thì chẩn đoán là tăng huyết áp mà không cần đo lặp lại lần 3 Khi cần đo lại lần 3, có những chẩn đoán sẽ được đưa ra tùy tình huống Đây là hướng dẫn chẩn đoán tăng huyết áp tại phòng khám, mục đích của việc đo lại nhiều lần để đảm bảo rằng cơ thể bệnh nhân không thể điều chỉnh được huyết áp về mức bình thường khi có huyết áp tăng Tuy nhiên nếu huyết áp tăng quá cao hay có bằng chứng tổn thương cơ quan đích thì cần chẩn đoán và xử lý tăng huyết áp ngay [9].
Việc đo huyết áp cũng cần tuân thủ theo nguyên tắc khi bệnh nhân đã ổn định, trong tình trạng thoải mái Những bệnh nhân tại nhà được khuyến cáo cần kiểm tra huyết áp
2 lần/ngày vào buổi sáng và buổi tối Trong trường hợp cần đo huyết áp liên tiếp thì khoảng thời gian giữa 2 lần đo cần cách nhau ít nhất 1 phút Việc đo huyết áp thường xuyên tại nhà cũng được khuyến cáo với mục đích theo dõi điều trị tăng huyết áp cho tất cả bệnh nhân [9] Việc đo tại nhà cũng nên đo lại 3 lần để kiểm tra bệnh nhân có huyết áp thật sự bất thường hay không.
2.1.1.2 Hạ huyết áp và các vấn đề liên quan
Hạ huyết áp được định nghĩa là huyết áp tâm thu < 90 mmHg và/hoặc huyết áp tâm trương < 60 mmHg [29] Triệu chứng hạ huyết áp gồm: chóng mặt, ngất xỉu, cảm thấy mệt hoặc yếu, mờ mắt, đau đầu, đau cổ hoặc lưng, buồn nôn, nôn, tim đập nhanh Hạ huyết áp ở những người tăng huyết áp, là triệu chứng huyết áp của bệnh nhân xuống đến mức thấp, một trong những lý do là việc quá liều thuốc hạ áp Việc quá liều thuốc hạ áp có thể dẫn đến nguy hiểm [30] Do đó cần phải quản lý việc dùng thuốc của bệnh nhân một cách phù hợp Việc theo dõi huyết áp thường xuyên cũng giúp theo dõi hạ huyết áp.
2.1.2 Huyết áp và phân bố của huyết áp
Một báo cáo của CDC [31] năm 2011 cho thấy huyết áp trung bình của người không tăng huyết áp và những người tăng huyết áp là khác nhau Báo cáo này còn cho thấy huyết áp trung bình ở tăng dần theo tuổi ở cả nhóm không tăng huyết áp, tăng huyết áp được điều trị và tăng huyết áp không được điều trị Điều này dẫn đến huyết áp trong ngưỡng bình thường ở những người có đặc tính khác nhau là không giống nhau Qua báo cao này, có thể thấy huyết áp là bình thường hay cao là khác nhau cho từng nhóm dân số Do đó việc phân loại huyết là bình thường hay bất thường phải dựa vào đặc tính riêng biệt của từng người.
2.1.3 Huyết áp trên các bệnh nhân và các yếu tố tác động trong việc chẩn đoán
Trên thế giới có nhiều hướng dẫn chẩn đoán tăng huyết áp như: ESC/ESH (2018) [10], ACC/AHA (2017) [11], JNC-8 (2014) [12] và tại Việt Nam có VSH/VNHA (2022) [9] Mỗi một hướng dẫn có định nghĩa tăng huyết áp khác nhau Bảng 2.2 nêu ra định nghĩa tăng huyết áp một cách tổng quát của một số hướng dẫn.
Bảng 2.2: Định nghĩa tăng huyết áp một cách tổng quát của các hướng dẫn phổ biến
Tên tài liệu hướng dẫn Huyết áp tâm thu (SBP) Huyết áp tâm trương (DBP)
Có thể thấy định nghĩa tăng huyết áp không có sự thống nhất trên toàn thế giới, tuy nhiên qua bốn hướng dẫn trên thì ngưỡng SBP ≥ 140 và/hoặc DBP ≥ 90 được sử dụng phổ biến để làm định nghĩa tăng huyết áp Ngoài ra còn có các yếu tố liên quan đến huyết áp ảnh hưởng đến chẩn đoán; theo VSH/VNHA (2022) [9] thì các yếu tố này bao gồm: tuổi, các bệnh đồng mắc (suy tim, bệnh mạch vành, bệnh thận mạn, đái tháo đường, đột quỵ, thiếu máu não thoáng qua) Nên cần có thông tin các yếu tố liên quan cùng với SBP và DBP để bác sĩ chẩn đoán tăng huyết áp cho bệnh nhân. Đối với các bệnh nhân đã được chẩn đoán tăng huyết áp, khi có thể được điều trị tại nhà thì bệnh nhân cần theo dõi huyết áp thường xuyên tránh để huyết áp tăng lên hơn so với huyết áp mục tiêu của bệnh nhân đó Nếu huyết áp vượt ngưỡng mục tiêu thì bệnh nhân được gọi là tăng huyết áp trên cơ địa của bệnh nhân đó (cần được bác sĩ khám lại), còn nếu huyết áp dưới huyết áp mục tiêu thì được xem là bình thường Theo VSH/VNHA (2022) [9] thì huyết áp mục tiêu cho bệnh nhân đã được chẩn đoán tăng huyết áp được thể hiện tại bảng 2.3.
Bảng 2.3: Huyết áp mục tiêu với các yếu tố liên quan theo VSH/VNHA (2022)
Ngưỡng HATT cần điều trị thuốc (mmHg)
Ngưỡng HATTr cần điều trị (mmHg)*
THA không có bệnh đồng mắc (mmHg)
THA có bệnh đồng mắc (mmHg)
Giải thích: *Tăng huyết áp khônng có bệnh đồng mắc;** ≥ 85 mmHg cho bệnh nhân từ 18 – 69 tuổi có tăng huyết áp nguy cơ cao, bệnh đồng mắc (đái tháo đường, bệnh thận mạn, bệnh mạch vành, suy tim, đột quỵ, thiếu máu não thoáng qua) Bệnh nhân tăng huyết áp mà có bệnh đồng mắc có thể không kiểm soát được huyết áp mục tiêu (vượt ngưỡng huyết áp mục tiêu được xem là tăng huyết áp với nhóm bệnh nhân mắc một hoặc một vài bệnh đồng mắc) Trong nghiên cứu của Markus P Schneider và cộng sự [32], 51% trong số 4985 bệnh nhân bệnh thận mạn (CKD) có kèm theo tăng huyết áp không kiểm soát được huyết áp mục tiêu Trong một nghiên cứu phân tích tổng hợp của Shukri F Mohamed và cộng sự [33], cho thấy tỷ lệ bệnh nhân không kiểm soát được huyết áp với các bệnh đồng mắc lần lượt là: bệnh thận mạn (CKD) 76%, đái tháo đường (diabetes) từ 54.2% đến 86%, đột quỵ (stroke) từ 60.2% đến 88% Trong các bệnh đồng mắc thì bệnh thận mạn vừa là nguyên nhân nhưng cũng là kết quả của tăng huyết áp [34], do đó có thể tạo thành một vòng luẩn quẩn làm trầm trọng cả hai bệnh đối với bệnh nhân bị mắc đồng thời cả hai bệnh này.
Do đó bác sĩ thường lưu tâm đến những bệnh nhân mắc tăng huyết áp có kèm theo bệnh thận mạn.
Với những bệnh nhân có bệnh đồng mắc, có nhiều mức huyết áp mục tiêu theo từng hướng dẫn chẩn đoán Bảng 2.4 thể hiện những mức huyết áp mục tiêu cho bệnh nhân có bệnh đồng mắc.
Bảng 2.4: Huyết áp mục tiêu cho bệnh nhân có bệnh đồng mắc theo các hướng dẫn phổ biến
Tên tài liệu hướng dẫn Huyết áp mục tiêu
(SBP/DBP) Nhóm tuổi Bệnh đồng mắc
ESC/ESH (2018) [10] < 140/90 mmHg hướng đến 130/80 mmHg *
Ghi chú: (*): bệnh mạch vành, suy tim, đái tháo đường, đột quỵ, bệnh thận mạn; ĐTĐ: đái tháo đường, CKD: bệnh thận mạn.
Có thể thấy rằng việc chẩn đoán tăng huyết áp cho những bệnh nhân mới và bệnh nhân cần theo dõi cũng không có sự thống nhất trong các hướng dẫn chẩn đoán trên thế giới Đặc biệt với những bệnh nhân có bệnh đồng mắc, có nhiều mức huyết áp mục tiêu khác nhau phụ thuộc vào hướng dẫn điều trị Do đó bác sĩ sẽ có thể chọn một hoặc một vài hướng dẫn để dựa vào khi chẩn đoán bệnh, từ đó có thể có sự khác nhau về chẩn đoán bệnh nhân có đạt huyết áp mục tiêu (tình trạng huyết áp ổn định) giữa các bác sĩ.
2.1.4 Các phương pháp đo huyết áp
Việc đo huyết áp tại nhà được khuyến cáo là sử dụng kỹ thuật nghe với băng quấn [9] Ban đầu, việc theo dõi huyết áp ít nhất 5 ngày/tuần, khi huyết áp ổn định thì ít nhất
TÌNH TRẠNG NGHIÊN CỨU
Tình trạng nghiên cứu
Trong những năm gần đây, có nhiều nhà nghiên cứu quan tâm phân loại huyết áp bằng các mô hình học máy Bằng việc xây dựng các mô hình đa dạng và sử dụng nhiều nguồn dữ liệu, các nhà nghiên cứu đã không ngừng khám phá lĩnh vực này từ nhiều góc độ khác nhau.
3.1.1 Nghiên cứu mô hình dự đoán rủi ro tăng huyết áp dựa trên mạng nơ-ron lan truyền ngược [55]
Trong nghiên cứu năm 2019, tác giả Huanhuan Zhao và cộng sự [55] đã trình bày mô hình dự đoán nguy cơ tăng huyết áp dựa trên mạng nơ-ron lan truyền ngược (BP neural network), được triển khai trên dịch vụ đám mây của Alibaba để cung cấp dịch vụ dự đoán nguy cơ tăng huyết áp cho người dân ở các khu vực tương ứng dưới dạng ứng dụng web Các yếu tố nguy cơ tăng huyết áp được phân tích đầu tiên bằng phương pháp hồi quy logistic, và sau đó các yếu tố rủi ro được sử dụng làm đầu vào của mạng nơ-ron để xây dựng mô hình dự đoán rủi ro Ngưỡng huyết áp để phân loại tăng huyết áp trong nghiên cứu này là 140/90 mmHg (SBP/DBP) Các thuộc tính trong bộ dữ liệu bao gồm: tuổi, giới tính, chiều cao, cân nặng, BMI, tiền sử gia đình, hút thuốc, chế độ ăn nhiều muối, tiểu đường, tăng lipid máu, hoạt động thể chất Nghiên cứu đã sử dụng 4498 mẫu dữ liệu được thu thập từ cơ sở y tế cộng đồng, từ trung tâm dịch vụ Hợp Phì, được chia thành 3400 mẫu huấn luyện và 1098 mẫu kiểm thử Kết quả của nghiên cứu này như sau:
• Đối với tập huấn luyện: độ chính xác 77.78% (95% CI [77.73% – 77.81%]), độ nhạy 87.73% (95% CI [87.69% – 87.78%]), độ đặc hiệu 74.61% (95% CI [74.57% – 74.65%]), AUC 0.88 (95% CI [0.87 – 0.90]).
• Đối với tập kiểm thử: độ chính xác 77.95% (95% CI [77.91% – 77.99%]), độ nhạy 87.82% (95% CI [87.78% – 87.86%]), độ đặc hiệu 74.75% ( 95% CI [74.70% – 74.80%]), AUC 0.88 (95% CI [0.86 – 0.90]).
Mô hình đề xuất của các tác giả đã thể hiện khả năng dự đoán tốt; hiệu năng khi mô hình vẫn tốt trên tập kiểm thử Với kết quả thực nghiệm, mô hình được đề xuất của các tác giả có thể đánh giá hiệu quả nguy cơ tăng huyết áp và dựa trên công cụ lâm sàng không xâm lấn từ đó cảnh báo sớm bệnh tăng huyết áp.
3.1.2 Nghiên cứu dự đoán tăng huyết áp và các yếu tố liên quan sử dụng dữ liệu từ ba quốc gia Bangladesh, Nepal, Ấn Độ [56]
Trong nghiên cứu sử dụng bộ dữ liệu của ba quốc gia Nam Á (Bangladesh, Nepal, Ấn Độ) của tác giả Sheikh Mohammed Shariful Islam và cộng sự [56], các tác giả đã xây dựng bộ dữ liệu từ DHS [57] và sử dụng các phương pháp học máy để dự đoán tăng huyết áp và các yếu tố liên quan và đã so sánh hiệu năng của các mô hình Ngưỡng huyết áp quyết áp cao được lựa chọn là 140/90 mmHg Các thuộc tính trong bộ dữ liệu là: tuổi, BMI, trình độ học vấn, sự giàu có, huyết áp tâm thu, huyết áp tâm trương, dùng thuốc điều trị tăng huyết áp, từng được bác sĩ khuyên dùng thuốc điều trị huyết áp dựa trên dữ liệu sẵn có.
Các tác giả đã đưa ra nhận xét trên 818603 người với 82748 người bị tăng huyết áp (10.11%) với các đặc điểm như sau:
• Các yếu tố quan trọng gây tăng huyết áp là tuổi và BMI.
• Các yếu tố khác như: đã từng đo huyết áp, giáo dục, dùng thuốc hạ huyết áp và nhận thức của bác sĩ về tăng huyết áp cũng quan trọng đáng kể nhưng tương đối thấp hơn so với tuổi và BMI.
Kết quả nghiên cứu khi sử dụng các thuật toán học máy gồm Decision Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Logistic Regression (LR), Gradient Boosting (GBM) và Linear Discriminant Analysis (LDA) đã cho kết quả như sau:
• XGBoost, GBM, LR và LDA có giá trị độ chính xác cao nhất là 90%, kế đến là
RF đạt 89% và DT đạt 83%.
• DT có giá trị của độ đo precision là 91%, các mô hình còn lại đều là 90%.
• XGBoost, GBM, LR và LDA đạt được giá trị recall là 100%, RF đạt 99% và DT đạt 90%.
• Độ đo F1-score của XGBoost, GBM, LR và LDA đều là 95%, trong khi RF đạt 94% và DT đạt 90%.
Qua nghiên cứu này, các tác giả cho thấy mô hình học máy hoạt động tốt trong việc dự đoán tăng huyết áp và yếu tố nguy cơ liên quan ở ba nước Nam Á.
3.1.3 Nghiên cứu phân loại bằng học máy đối với nhóm dân số tăng huyết áp căn cứ vào nhiều yếu tố nguy cơ [58]
Bằng việc sử dụng bộ dữ liệu NHANES [59] được thu thập từ năm 2007 đến năm
2016, tác giả Fernando López-Martínez tại đại học Oviedo và cộng sự [58] đã xây dựng mô hình dự đoán và đánh giá mối liên quan giữa các yếu tố như: giới tính, chủng tộc, BMI, tuổi, hút thuốc, bệnh thận và tiểu đường; bằng phương pháp hồi quy logistic Trong nghiên cứu này, có 19709 với (83%) người không bị tăng huyết áp và (17%) người bị tăng huyết áp Các tác giả đã phân loại một số biến rủi ro và các biến chỉ báo được tạo ra để chuyển biến liên tục sang biến nhị phân để các yếu tố dự đoán nhất quán với kết quả Ngưỡng huyết áp để phân loại tăng huyết áp trong nghiên cứu này là 140 mmHg (SBP).
Các tác giả đã thực nghiệm và cho kết quả trên tập kiểm thử: độ nhạy 77%, độ đặc hiệu 68%, precision trên giá trị dự đoán dương tính là 32% trong mẫu kiểm thử và AUC tính toán là 0.73 (95% CI [0.70 – 0.76]).
Các tác giả nhận xét rằng những người béo phì, độ tuổi từ 71 đến 80, chủng tộc da đen không phải gốc Tây Ban Nha và nam giới có tỷ lệ mắc bệnh tăng huyết áp cao hơn; trong khi đó bệnh tiểu đường, bệnh thận và thói quen hút thuốc không ảnh hưởng đến kết quả.
Các tác giả cho rằng nghiên cứu có thể áp dụng trong thực hành lâm sàng, để thông báo cho bệnh nhân và hướng dẫn quản lý sức khỏe cộng đồng với mục đích phát hiện những bệnh nhân có nguy cơ mắc bệnh tim mạch cao Các tác giả đề xuất mô hình hồi quy logistic có thể được sử dụng làm công cụ suy luận của hệ thống chuyên gia để hỗ trợ các chuyên gia trong lĩnh vực bệnh tim mạch từ đó đưa ra phân tích vấn đề cho bệnh nhân có nguy cơ bị tăng huyết áp.
3.1.4 Nghiên cứu so sánh các kỹ thuật phân loại để dự đoán tăng huyết áp vô căn [60]
Năm 2005, tác giả Mevlut Ture và cộng sự [60] đã thực hiện một phân tích hồi cứu được thực hiện ở 694 đối tượng (452 bệnh nhân và 242 mẫu chứng) Các thuộc tính được sử dụng để huấn luyện và dự đoán cho các mô hình là: là tuổi, giới tính, tiền sử gia đình bị tăng huyết áp, thói quen hút thuốc, lipoprotein, chất béo trung tính, axit uric, cholesterol toàn phần và chỉ số khối cơ thể (BMI) Các phương pháp phân loại được nhóm lại bằng phân tích cụm phân cấp (HCA) Ngưỡng huyết áp để phân loại tăng huyết áp trong nghiên cứu này là 140/90 mmHg (SBP/DBP) Các thuộc tính trong bộ dữ liệu bao gồm: tuổi, giới tính, tiền sử gia đình bị tăng huyết áp, thói quen hút thuốc, lipoprotein, triglyceride, acid uric, cholesterol toàn phần, BMI.
Qua phân tích, các tác giả thấy rằng các điểm dữ liệu dường như tập hợp thành ba cụm:
• Cụm đầu tiên bao gồm MLP, RBF, CART.
• Cụm thứ hai bao gồm FDA/MARS (degree=1), LR và QUEST.
• Cụm thứ ba bao gồm FDA/MARS (degree=2), CHAID và FDA.
Kết quả độ nhạy và độ đặc hiệu của các mô hình trên tập kiểm thử lần lượt là: CHAID (88.24%, 70.00%), CART (82.35%, 70.00%), QUEST (90.20%, 60.00%), LR (90.48%, 64.1%), FDA (90.48%, 71.79%), FDA/MARS (degree=1) ( 88.1%, 64.1%), FDA/MARS (degree=2) (90.48%, 56.41%), MLP (90.48%, 71.79%), RBF (95.24%, 66.67%).
3.1.5 Nghiên cứu mô hình dự đoán tăng huyết áp được cải tiến dựa trên RS và SVM ở khu vực Tam Hiệp [61]
Tác giả Guojun Zhang [61] đã đề xuất một mô hình dự đoán tăng huyết áp cải tiến dựa bộ dữ liệu Tam Hiệp (được xây dựng bởi trường cao đẳng y tế Tongji, trường HUST) với mô hình SVM Tác giả đã sử dụng thuật toán giảm thuộc tính tham lam để tìm ra các yếu tố liên quan ảnh hưởng đến bệnh tăng huyết áp và đưa vào mô hình SVM (RS-SVM) để huấn luyện.
Kết quả nghiên cứu cho thấy RS-SVM độ chính xác cải thiện hơn so với SVM truyền thống và các thuật toán học máy khác Chi tiết độ chính xác của các mô hình lần lượt là: SVM truyền thống 91.87%, BP-NN 88.44%, RS-C4.5 86.05%, RS-SVM 93.2%.
3.1.6 Nghiên cứu phương pháp tiếp cận mạng nơ-ron nhân tạo để dự đoán tăng huyết áp bằng dữ liệu NHANES [62]
PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ
Dữ liệu
4.1.1 Nguồn dữ liệu và kết hợp những thuộc tính
Dữ liệu được thu thập tại chương trình NHANES [59], đây là dữ liệu về huyết áp của bệnh nhân được đo ba lần đo liên tiếp và các phương pháp khác để có được huyết áp chính xác.
Theo các hướng dẫn chẩn đoán tăng huyết áp của VSH/VNHA (2022) [9] và chẩn đoán hạ huyết áp của NIH/NHLBI [29], chúng tôi thu thập dữ liệu với 8 thuộc tính liên quan đến huyết áp của NHANES từ năm 2001 đến năm 2018 Riêng với bệnh thiếu máu não thoáng qua (TIA), do trong bộ dữ liệu của NHANES không có thông tin của thuộc tính này nên bộ dữ liệu chung sẽ không có thuộc tính TIA Các thuộc tính được giải thích tại bảng 4.1.
Mỗi bệnh nhân đến khám bác sĩ được đo huyết áp ít nhất 3 lần, một số bệnh nhân được đo hơn 3 lần, nên chúng tôi ghi nhận nhiều nhất 4 lần đo huyết áp Sau khi truy xuất và kết hợp các mẫu theo số thứ tự lần khám (SEQN), chúng tôi nhận được bộ dữ liệu với 8 thuộc tính được trình bày tại bảng 4.1 với 87762 mẫu Bộ dữ liệu này được xử lý (trình bày tại muc 4.1.2) và dùng làm bộ dữ liệu chung.
Bảng 4.1: Mô tả các thuộc tính từ bộ dữ liệu chưa xử lý
Thuộc tính Giá trị nhận vào Mô tả age 40 – 85 (59.97 ± 12.53) Tuổi của bệnh nhân
CKD 1 – 9 (1.98 ± 0.38) Có bị bệnh thận mạn không stroke 1 – 9 (1.96 ± 38) Có từng bị đột quỵ diabetes 1 – 9 (1.86 ± 0.46) Có bị đái tháo đường không
CVD 1 – 9 (1.73 ± 0.48) Có bị bệnh mạch vành không heart_failure 1 – 9 (1.98 ± 0.49) Có bị suy tim không
SBP 62 – 270 (129.74 ± 20.52) Huyết áp tâm thu
DBP 0 – 136 (71.13 ± 14.15) Huyết áp tâm trương
4.1.2 Khám phá và xử lý dữ liệu chung
Dữ liệu được xử lý những mẫu không phù hợp gồm:
• Xóa các mẫu trùng nhau.
• Xóa những mẫu có các giá trị CKD, stroke, diabetes, CVD, heart_failure > 2.
• Xóa những mẫu có SBP ≥ 130 và DBP < 60.
• Xóa những mẫu dữ liệu có DBP < 40.
• Chuyển giá trị 2 thành 0 ở các thuộc tính.
• Xóa SEQN rồi loại bỏ các mẫu bị trùng nhau.
Sau khi xử lý còn 55671 mẫu Sau đó chúng tôi tiến hành gán nhãn cho các mẫu (sẽ trình bày tại mục 4.1.3) Bốn thuộc tính stroke, diabetes, CVD, heart_failure được kết hợp lại thành một thuộc tính duy nhất vì chỉ cần mắc một trong 4 bệnh trên thì bệnh nhân được gọi là có bệnh đồng mắc; còn với bệnh thận mạn (CKD) được tách thành một thuộc tính riêng vì CKD là bệnh đồng mắc thường được lưu tâm trên lâm sàng trong các bệnh nhân tăng huyết áp có bệnh đồng mắc (trình bày tại mục 2.1.3) Phân bố các thuộc tính của bộ dữ liệu chung được thể hiện tai hình 4.1 và thống kê giá trị theo nhãn của các thuộc tính được trình bày tại bảng 4.2.
Hình 4.1: Phân bố các thuộc tính của bộ dữ liệu chung
Bảng 4.2: Thống kê các thuộc tính có trong bộ dữ liệu chung cho từng nhãn huyết áp
Thuộc tính Hạ Bình thường Tăng age 64.66 ± 13.02 59.27 ± 12.45 61.08 ± 11.22
CKD 0.06 ± 0.24 0.04 ± 0.2 0.06 ± 0.24 stroke or diabetes or
4.1.3 Gán nhãn cho bộ dữ liệu chung
Chúng tôi dựa vào cách phân loại bệnh nhân đạt huyết áp mục tiêu trên từng nhóm theo khuyến cáo của Phân hội Tăng huyết áp Việt Nam – Hội Tim mạch học Việt Nam (VSH/VNHA) [9] và chẩn đoán hạ huyết áp của Viện Y tế Quốc gia Hoa Kỳ – Viện Tim, Phổi và Máu Quốc gia Hoa Kỳ (NIH/NHLBI) [29] để gán nhãn cho các mẫu trong bộ dữ liệu chung Sự phân loại có thể tóm tắt qua sơ đồ hình 4.2.
Chú thích: SBP – Huyết áp tâm thu, DBP – Huyết áp tâm trương, bệnh đồng mắc gồm: bệnh thận mạn, đột quỵ, đái tháo đường, suy tim, bệnh mạch vành, thiếu máu não thoáng qua
Hình 4.2: Gán nhãn huyết áp cho bệnh nhân theo VSH/VNHA và NIH/NHLBI
4.1.4 Xây dựng các bộ dữ liệu tùy chỉnh
4.1.4.1 Gán nhãn lại bộ dữ liệu
Bảng 4.3: Các quy tắc tùy chỉnh bộ dữ liệu
Trường hợp Quy tắc (đơn vị mmHg)
• Nếu SBP < 85 hoặc (DBP < 55 và SBP < 140) thì nhãn là “Hạ”.
• Nếu không thì, nếu SBP ≥ 140 hoặc DBP ≥ 90 thì nhãn là “Tăng”.
• Còn lại là nhãn “Bình thường”.
• Nếu SBP < 90 hoặc (DBP < 60 và SBP < 135) thì nhãn là “Hạ”.
• Nếu không thì, nếu SBP ≥ 135 hoặc DBP ≥ 85 thì nhãn là “Tăng”.
• Còn lại là nhãn “Bình thường”.
• Nếu SBP < 85 hoặc (DBP < 55 và SBP < 150) thì nhãn là “Hạ”.
• Nếu không thì, nếu SBP ≥ 150 hoặc DBP ≥ 95 thì nhãn là “Tăng”.
• Còn lại là nhãn “Bình thường”.
• Nếu SBP < 95 hoặc (DBP < 65 và SBP < 135) thì nhãn là “Hạ”.
• Nếu không thì, nếu SBP ≥ 135 hoặc DBP ≥ 85 thì nhãn là “Tăng”.
• Còn lại là nhãn “Bình thường”.
• Nếu SBP < 90 hoặc (DBP < 60 và SBP < 140) thì nhãn là “Hạ”.
• Nếu không thì, nếu không mắc bệnh thận mạn kèm theo
SBP ≥ 140 hoặc DBP ≥ 90 thì nhãn là “Tăng”.
• Nếu không thì, nếu mắc bệnh thận mạn:
– Nếu SBP ≥ 150 hoặc DBP ≥ 90 thì nhãn là “Tăng”.
– Nếu không thì, nếu SBP ≥ 140 hoặc DBP ≥ 90 thì nhãn là “Bình thường”.
– Nếu không thì, nếu SBP < 90 hoặc DBP < 90 thì nhãn là “Hạ”.
• Còn lại là nhãn “Bình thường”.
• Nếu SBP < 90 hoặc (DBP < 60 và SBP < 140) thì nhãn là “Hạ”.
• Nếu không thì, nếu không mắc bệnh thận mạn kèm theo
SBP ≥ 140 hoặc DBP ≥ 90 thì nhãn là “Tăng”.
• Nếu không thì, nếu mắc bệnh thận mạn:
– Nếu SBP ≥ 150 hoặc DBP ≥ 90 thì nhãn là “Tăng”.
– Nếu không thì, nếu SBP ≥ 140 hoặc DBP ≥ 90 thì nhãn là “Bình thường”.
– Nếu không thì, nếu SBP < 100 hoặc DBP < 90 thì nhãn là “Hạ”.
• Còn lại là nhãn “Bình thường”.
Chúng tôi giả định 6 trường hợp tùy chỉnh nhãn với 6 quy tắc riêng biệt, mỗi quy tắc là một trường hợp Bộ dữ liệu chung được gán nhãn lại với từng trường hợp được trình bày tại bảng 4.3.
4.1.4.2 Tạo các bộ dữ liệu tùy chỉnh với tỷ lệ mẫu được gán nhãn mới và số lượng mẫu khác nhau
Giả định số lượng mẫu ở bộ dữ liệu tùy chỉnh lần lượt là 60, 120, 240, 480 Với mỗi bộ dữ liệu tùy chỉnh có tỷ lệ số lượng mẫu được gán nhãn không giống so với bộ dữ liệu chung (được gán nhãn mới) là 30%, 40%, 50% Cùng với 6 trường hợp gán nhãn cho các bộ dữ liệu tùy chỉnh (trình bày tại mục 4.1.4.1) Như vậy chúng tôi đã tạo ra 3 × 4 × 6 = 72 bộ dữ liệu.
Gọi tỷ lệ nhãn được thay đổi, số lượng mẫu trong bộ dữ liệu tùy chỉnh, trường hợp tùy chỉnh lần lượt là: a, b, c Nhãn được dùng là 0, 1, 2 tương ứng với “hạ”, “bình thường”, “tăng”; các bước tạo ra một bộ dữ liệu tùy chỉnh gồm:
Tạo ra hai tập trống là mẫu mới và mẫu cũ.
1 Gán nhãn lại toàn bộ dữ liệu chung với trường hợp c Với từng mẫu nếu nhãn mới bằng nhãn cũ thì đưa vào tập mẫu cũ còn lại tập đưa vào mẫu mới.
2 Số lượng mẫu của có nhãn 0, 1, 2 được quy định:
• Tập mẫu mới là 1 3 × a × b cho mỗi mẫu.
• Tập mẫu cũ là 1 3 × (1 − a) × b cho mỗi mẫu.
3 Lấy ngẫu nhiên với số lượng của từng nhãn trong tập mẫu mới và tập mẫu cũ.
4 Kết hợp các mẫu ngẫu nhiên lại với nhau.
Mô hình đề xuất
Chúng tôi xây dựng mô hình “our model” (viết tắt là OM), được dựa trên mạng nơ-ron (Neural network) kết hợp với TF-DF (mạng nơ-ron xây dựng mô hình dạng cây như Random Forest, Gradient Boosting).
TensorFlow Decision Forests (TF-DF) [68], [69], [70] là thư viện để huấn luyện,thực thi và giải thích các mô hình các mô hình rừng quyết định Thư viện này giúp kết hợp giữa mô hình mạng nơ-ron và mô hình dạng cây quyết định (Tree-based) Một số thuật toán TF-DF hỗ trợ như: Rừng ngẫu nhiên (Random Forest), Cây tăng cường độ dốc (Gradient Boosting),…
4.2.1 Mô hình huấn luyện bộ dữ liệu chung
4.2.1.1 Mô hình chung không kết hợp
Hình 4.3 là cấu trúc của mô hình của chúng tôi không kết hợp với TF-DF hay còn gọi là OM (NNNC), dùng để huấn luyện bộ dữ liệu chung.
Hình 4.3: Cấu trúc mô hình huấn luyện của chúng tôi
Cấu trúc của mô hình của chúng tôi gồm hai phần chính là: các lớp tích chập 1 chiều và các lớp kết nối đầy đủ Hàm kích hoạt của các lớp tích chập 1 chiều và kết nối đầy đủ (ngoại trừ lớp đầu ra) đều là ReLU, còn lớp đầu ra có hàm kích hoạt là Softmax.
• Hai lớp tích chập 1 chiều được liên kết với nhau bởi phép tích chập 1 chiều với kernel là vectơ có độ dài 3, lớp vào và lớp ra là hai vectơ đều có độ dài là 5 vì thông số padding là 1 và stride là 1.
Hình 4.4: Hai lớp tích chập 1 chiều
• Các lớp kết nối đầy đủ đứng kết nối liền sau 2 lớp tích chập 1 chiều, gồm có lớp vào có 128 nút và lớp ra có 3 nút để phân loại 3 loại nhãn, 5 lớp ẩn giúp kết nối đầu vào và đầu ra.
Hình 4.5: Các lớp kết nối đầy đủ
4.2.1.2 Mô hình chung có kết hợp
Có tổng cộng 12 cách kết hợp giữa mô hình của chúng tôi (OM) cùng với 3 cách kết hợp riêng của 2 mạng RF(TFDF) và GB(TFDF) và 1 mô hình OM không kết hợp (Neural network not combination viết tắc là NNNC) hay còn gọi là mạng nơ-ron không kết hợp; tạo thành 16 sự kết hợp mô hình của OM.
Hình 4.6: Mô hình chung kết hợp giữa OM (NNNC) và TF-DF
Bảng 4.4: Các cách kết hợp trong mô hình của chúng tôi
Các khối kết hợp Ký hiệu Ghi chú kết hợp màu
( 0 → 1 → 4 ) + ( 0 → 1 → 5 ) NN-RF + NN-GB tím + hồng
( 0 → 6 ) + ( 0 → 7 ) RF(TFDF) + GB(TFDF) cam + xanh lơ
( 0 → 1 → 4 ) + ( 0 → 6 ) NN-RF + RF(TFDF) tím + cam
( 0 → 1 → 4 ) + ( 0 → 7 ) NN-RF + GB(TFDF) tím + xanh lơ
( 0 → 1 → 5 ) + ( 0 → 6 ) NN-GB + RF(TFDF) hồng + cam
( 0 → 1 → 5 ) + ( 0 → 7 ) NN-GB + GB(TFDF) hồng + xanh lơ
( 0 → 6 ) + ( 0 → 7 ) NN-RF + RF(TFDF) + GB(TFDF) tím + cam + xanh lơ
( 0 → 6 ) + ( 0 → 7 ) NN-GB + RF(TFDF) + GB(TFDF) hồng + cam + xanh lơ
( 0 → 6 ) NN-RF + NN-GB + RF(TFDF) tím + hồng + cam
( 0 → 7 ) NN-RF + NN-GB + GB(TFDF) tím + hồng + xanh lơ
( 0 → 6 ) + ( 0 → 7 ) NN-RF + NN-GB + RF(TFDF) + GB(TFDF) tím + hồng + cam + xanh lơ
Việc huấn luyện OM (NNNC) như tại hình 4.3 sau khi thực hiện hoàn tất, mô hình
OM (NNNC) kết hợp với TF-DF, được mô tả tại hình 4.6 Khi cần kết hợp với TF-DF thì Các lớp có (32 – 16 – 8 – 4 – 3) nút sẽ bị bỏ đi, chỉ giữ lại hai lớp 128 nút và 64 nút của phần kết nối đầy đủ (FC) Sau đó, khối số (1) gắn khối Random Forest Model (4) hoặc khối Gradient Boost Tree Model (5), tạo thành các sự kết hợp NN-RF và NN-GB Đối với khối Random Forest Model (6) và Gradient Boost Tree Model (7) kết hợp với dữ liệu đi qua lớp đầu vào (0) để tạo thành hai sự kết hợp RF(TFDF) và GB(TFDF) Tùy cách kết hợp (trình bày tại bảng 4.4), các khối sẽ được kết hợp lại tại (8) (bằng giá trị trung bình cộng không trọng số của xác suất dự đoán của các lớp).
4.2.1.3 Các mô hình học máy cho bộ dữ liệu chung Để so sánh với OM, chúng tôi sử dụng các mô hình học máy với các thông số được trình bày tại bảng 4.5 Số lượng tổ hợp thông số của các mô hình học máy cho bộ dữ liệu chung lần lượt là: DT (18 tổ hợp), RF (18 tổ hợp), GBM (18 tổ hợp), SVM (36 tổ hợp), MLP (24 tổ hợp), LR (10 tổ hợp), k-NN (16 tổ hợp).
Bảng 4.5: Các mô hình học máy huấn luyện bộ dữ liệu chung và thông số của chúng
(DT) ccp_alpha max_depth criterion
(RF) n_estimators max_features max_depth
(GBM) n_estimators learning_rate max_depth
(MLP) hidden_layer_sizes activation solver alpha
4.2.2 Các mô hình huấn luyện các bộ dữ liệu tùy chỉnh
4.2.2.1 Mô hình tùy chỉnh của chúng tôi
Cấu trúc tại hình 4.7 thể hiện mô hình của chúng tôi không kết hợp với TF-DF để huấn luyện các bộ dữ liệu tùy chỉnh OM (NNNC-C)) Các khối (0) và (1) với các lớp bên trong được đóng băng từ mô hình chung của chúng tôi (OM (NNNC)) (trình bày tại hình 4.2.1.1), các khối (2) và (3) là các lớp có thể huấn luyện mới từ các bộ dữ liệu tùy chỉnh.
Hình 4.7: Mô hình chung với các lớp được đóng băng và các lớp có thể được huấn luyện
Các ký hiệu (T) và (NT) của hình 4.7 và hình 4.8 là viết tắt của Trainable và Non- Trainable, để xác định những trọng số của các lớp có được huấn luyện trong quá trình học chuyển tiếp hay không.
Cùng với mô hình chung không kết hợp OM (NNNC) với học chuyển tiếp, chúng tôi xây dựng 16 cách kết hợp mô hình cho OM; chúng bao gồm một OM (NNNC) và
15 cách kết hợp như tại bảng 4.4 Sự khác biệt giữa mô hình tùy chỉnh với mô hình chung là dữ liệu trước khi được học với TF-DF tại khối (4) hoặc (5), cần phải đi qua
2 khối (0) và (1) đã được đóng băng và khối (2) được huấn luyện mới cùng các bộ dữ liệu tùy chỉnh, đã được trình bày tại hình 4.7.
Hình 4.8: Mô hình tùy chỉnh kết hợp giữa OM (NNNC-C) và TF-DF có một phần được học chuyển tiếp
Việc huấn luyện OM (NNNC-C) như tại hình 4.7 sau khi thực hiện hoàn tất, sẽ chuyển sang huấn luyện kết hợp với TF-DF như tại hình 4.8.
Khi cần kết hợp với TF-DF thì khối (3) tại hình 4.7 sẽ được bỏ đi và gắn khối Random Forest Model (4) hoặc khối Gradient Boost Tree Model (5) liền sau khối (2), tạo thành các sự kết hợp NN-RF và NN-GB Đối với khối Random Forest Model (6) và Gradient Boost Tree Model (7) kết hợp với dữ liệu đi qua lớp đầu vào (0) để tạo thành hai sự kết hợp RF(TFDF) và GB(TFDF) Tùy cách kết hợp (trình bày tại bảng 4.4), các khối sẽ được kết hợp lại tại (8) (bằng giá trị trung bình cộng không trọng số của xác suất dự đoán của các lớp), để ra mô hình kết hợp hoàn chỉnh Có tổng cộng
15 cách kết hợp trong mô hình của chúng tôi với TF-DF và một OM (NNNC-C) ở mô hình tùy chỉnh của chúng tôi Như vậy có thể thấy mô hình tại hình 4.8 có khối (2) là lớp được học mới từ bộ dữ liệu tùy chỉnh ở quá trình học tại OM (NNNC-C).
Chia bộ dữ liệu và đánh giá
4.3.1 Chia bộ dữ liệu và chuẩn hóa
Bộ dữ liệu chung và các bộ dữ liệu tùy chỉnh đều có tỷ lệ tập huấn luyện (training set), tập đánh giá (validation set) và tập kiểm thử (test set) lần lượt là: 75%, 12.5% và12.5% Bộ dữ liệu chung được chuẩn hóa các giá trị của các thuộc tính về đoạn [0,1](min-max scaling) rồi được chia thành 3 tập, trọng số chuẩn hóa bộ dữ liệu chung được dùng chuẩn hóa các bộ dữ liệu tùy chỉnh Các bộ dữ liệu tùy chỉnh sau khi được chuẩn hóa với bộ trọng số của bộ dữ liệu chung sẽ được chia thành tập huấn luyện,tập đánh giá và tập kiểm thử với tỷ lệ lần lượt là: 75%, 12.5% và 12.5%.
Hình 4.9: Cách chia bộ dữ liệu tùy chỉnh
Sơ đồ hình 4.9 thể hiện các bước chia các tập huấn luyện, tập đánh giá, tập kiểm thử cho mỗi bộ dữ liệu tùy chỉnh Bộ dữ liệu tùy chỉnh trải qua các bước so sánh nhãn thực với nhãn dự đoán của OM (NNNC) và gộp thành các tập huấn luyện, tập đánh giá, tập kiểm thử đã được scaling theo bộ trọng số của (*) Tùy theo mô hình mà bộ tùy chỉnh được học, các tập huấn, tập đánh giá, tập kiểm thử (*) sẽ được thực hiện 1 trong 2 cách sau:
• Nếu là mô hình của chúng tôi (OM) thì tập huấn luyện sẽ được học với OM và các sự kết hợp.
• Nếu là một trong ba mô hình học máy (trình bày tại bảng 4.6) thì tập huấn luyện, tập đánh giá và tập kiểm thử sẽ được nghịch đảo giá trị lại thành giá trị ban đầu và chuẩn hóa về đoạn [0,1] (**) theo một bộ trọng số riêng của bộ dữ liệu tùy chỉnh Các mẫu trong tập huấn luyện sau khi được chuẩn hóa riêng sẽ được huấn luyện với các mô hình học máy.
4.3.2 Các độ đo để đánh giá các mô hình
Chúng tôi so sánh các mô hình với các thông số/cách kết hợp bằng các độ đo: độ chính xác, F1-score, recall, precision, AUC Các độ đo này được trình bày lần lượt tại các công thức (4.1), (4.2), (4.3), (4.4), (4.5).
Ngoài ra chúng tôi còn sử dụng các độ đo như phụ để đánh giá mô hình tùy chỉnh huấn luyện cho các bộ dữ liệu tùy chỉnh như:
• Độ lệch chuẩn của độ chính xác trung bình trên 72 bộ dữ liệu tùy chỉnh: σ = s
Trong đó: σ : độ lệch chuẩn của các mẫu x i : giá trị của mẫu thứ i x : giá trị trung bình của toàn bộ các mẫu
• Khoảng tin cậy 95% của các độ đo:
Trong đó: 95%CI : giá trị khoảng tin cậy 95% của độ đo cần xác định x : giá trị trung bình của toàn bộ các mẫu 1.96 : hệ số tin cậy của khoảng tin cậy 95% σ : độ lệch chuẩn của toàn bộ các mẫu
• Tương quan Pearson giữa độ chính xác trung bình với số lượng mẫu ở các bộ dữ liệu tùy chỉnh: r x,y = ∑ N i=1 (x i − x) (y i − y) q
Trong đó: r x,y : độ tương quan giữa các giá trị x, y x, y : giá trị trung bình x, y của các mẫu x i , y i : giá trị x, y của mẫu thứ i
KẾT QUẢ THỰC NGHIỆM
Môi trường thực nghiệm
Chúng tôi đã thực nghiệm trên môi trường sau:
• Hệ điều hành: Ubuntu 22.04.3 LTS WSL (Windows Subsystem for Linux) và Google Colab.
• Ngôn ngữ lập trình: Python 3.10.12.
• Các thư viện: TensorFlow 2.10.1, TensorFlow 2.16.1, Tf-Keras 2.16.1, Tensor- Flow Decision Forests 1.9.0, , numpy, pandas,…
• Cấu hình máy tính: CPU Intel ® Core TM i5-1135G7 2.4 GHz, RAM 8GB.
Mô hình chung – bộ dữ liệu chung
5.2.1 Quá trình huấn luyện của mô hình của chúng tôi không có sự kết hợp OM (NNNC)
5.2.1.1 Độ chính xác và độ lỗi của OM (NNNC) trong quá trình huấn luyện
(a) Độ chính xác (b) Độ lỗi
Hình 5.1: Độ chính xác và độ lỗi của mô hình của OM (NNNC)
Mô hình huấn luyện được hội tụ tốt, chi tiết về độ chính xác và độ lỗi mô hình của
OM (NNNC) trong quá trình huấn luyện được thể hiện tại hình 5.1.
5.2.1.2 Độ chính xác và độ lỗi của các mô hình TF-DF trong quá trình huấn luyện
(a) RF (TFDF) (b) NN-RF (TFDF)
Hình 5.2: Độ chính xác và độ lỗi của Random Forest-TFDF
(a) GB (TFDF) (b) NN-GB (TFDF)
Hình 5.3: Độ chính xác và độ lỗi của Gradient Boosting-TFDF
Hình 5.2 và hình 5.3 thể hiện độ chính xác và độ lỗi của RF-TFDF và GB-TFDF qua số lượng các cây được huấn luyện.
5.2.2 Kết quả huấn luyện mô hình của chúng tôi (OM) với các sự kết hợp
5.2.2.1 So sánh trên tập đánh giá
Hình 5.4: So sánh trên tập đánh giá của OM và các cách kết hợp
Trên tập đánh giá, OM (NNNC) và các sự kết hợp: NN-GB + GB(TFDF) và NN-RF+ GB(TFDF) cho giá trị 100% trên các độ đo: độ chính xác, F1-score, recall, precision;1.0 trên AUC Riêng đối với NN-GB, NN-RF + NN-GB, NN-RF cho kết quả kém hơn các sự kết hợp còn lại với độ chính xác lần lượt là: 99.91%, 99.9%, 99.89%.
5.2.2.2 So sánh trên tập kiểm thử
Hình 5.5: So sánh trên tập kiểm thử của OM và các cách kết hợp
Trên tập kiểm thử, OM (NNNC) và các sự kết hợp: NN-GB + GB(TFDF) và NN-RF + GB(TFDF) cho giá trị 100% trên độ chính xác, F1-score, recall, precision; 1.0 trên AUC Các sự kết hợp NN-RF + NN-GB + GB(TFDF), NN-RF + NN-GB + RF(TFDF), NN-GB, NN-RF + NN-GB, NN-RF cho kết quả kém hơn các sự kết hợp còn lại với độ chính xác lần lượt là: 99.99%, 99.99%, 99.94%, 99.94%, 99.93%.
5.2.3 Mô hình Cây quyết định (DT)
'7FDFULHQWURS\PG '7FDFULHQWURS\PG '7FDFULHQWURS\PG
'7FDFULHQWURS\PG '7FDFULHQWURS\PG '7FDFULHQWURS\PG
'7FDFULHQWURS\PG '7FDFULHQWURS\PG '7FDFULHQWURS\PG
PG PD[BGHSWK FUL FULWHULRQ
Hình 5.6: Giá trị các độ đo của mô hình Decision Tree
Với thông số 'ccp alpha': 0, mô hình cho kết quả đạt 100% ở độ chính xác, F1-score, recall, precision và 1.0 trên AUC trên cả tập đánh giá và tập kiểm thử Với 'ccp alpha' là 0.01, thì 'criterion': 'entropy' cho kết quả tốt hơn 'criterion': 'gini' trên cả tập đánh giá và kiểm thử Giá trị các độ đo đều giảm mạnh ở tập đánh giá và kiểm thử khi 'ccp alpha': 0.1 so với 'ccp alpha': 0.01; độ chính xác tương ứng với tập đánh giá và tập kiểm thử giảm từ 99.68% – 99.67% ('criterion': 'entropy') và từ 99.08% – 98.76% ('criterion': 'gini') về 88.56% – 88.89% (giảm 11.12% và 10.52% ở tập đánh giá, 10.78% và 9.87% ở tập kiểm thử); F1-score tương ứng ở tập đánh giá và tập kiểm thử giảm từ 99.76%– 99.75% ('criterion': 'entropy') và từ 99.15% – 98.80% ('criterion': 'gini') về 90.76%– 90.93% (giảm 9% và 8.39% ở tập đánh giá, 8.82% và 7.87% ở tập kiểm thử).
5.2.4 Mô hình Rừng ngẫu nhiên (RF)
5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH
5)PG1RQHPIQH 5)PG1RQHPIQH 5)PG1RQHPIQH 5)PG1RQHPIQH 5)PG1RQHPIQH 5)PG1RQHPIQH
5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH 5)PGPIQH
Hình 5.7: Giá trị các độ đo của mô hình Random Forest
Với 'max depth': 9 hoặc 'max depth': None cho kết quả đạt 100% ở độ chính xác, F1-score, recall, precision và 1.0 trên AUC; trên cả tập đánh giá và tập kiểm thử Với ('max depth': 6, 'max features': 3), khi các thông số trở thành ('max depth': 6, 'max features': 2), thì độ chính xác giảm tương ứng ở tập đánh giá và kiểm thử:
Với ('max depth': 6, 'max features': 3), khi các thông số trở thành ('max depth': 6,'max features': 2), thì F1-score giảm tương ứng ở tập đánh giá và kiểm thử:
• Với 'n estimators': 125 từ 99.92% – 99.92% về 99.86% – 99.77% (giảm 0.06% – 0.15%).
Riêng với độ đo AUC thì tất cả thông số đều đạt 1.0 trên hai tập đánh giá và kiểm thử khi thông số 'max depth': 9 hoặc 'max depth': None.
5.2.5 Mô hình Tăng cường độ dốc (GBM)
*%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH
*%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH *%0OUPGQH
Hình 5.8: Giá trị các độ đo của mô hình Gradient Boosting Độ chính xác đạt 100% khi thông số 'learning rate': 0.1, luôn tốt hơn hoặc bằng so với 'learning rate': 0.01 cho mọi giá trị của thông số 'max depth' và 'n estimators' trên cả tập đánh giá và tập kiểm thử Với 'learning rate': 0.01, độ chính xác giảm lần lượt ở hai tập đánh giá và kiểm thử là 99.89% – 99.77% ('max depth': 5) về 99.67% – 99.67% ('max depth': 3, 'n estimators': 125 hay 100) (giảm 0.22% và 0.1% lần lượt trên tập đánh giá và kiểm thử) Với 'learning rate': 0.01, F1-score đạt 99.91% – 99.82% ('max depth': 5) về 99.75% – 99.75% ('max depth': 3, 'n estimators': 125 hay 100) (giảm 0.16% và 0.07% lần lượt trên tập đánh giá và kiểm thử) Riêng với ('learning rate': 0.01, 'max depth': 3, 'n estimators': 75) thì các độ đo thấp nhất lần lượt trên đánh giá và kiểm thử về độ chính xác lần lượt là 94.01% – 93.86%, F1-score là: 95.13% – 94.92%.
5.2.6 Mô hình Máy vectơ hỗ trợ (SVM)
690&JNQOLQHDU 690&JNQUEI 690&JNQUEI 690&JNQOLQHDU 690&JNQOLQHDU
690&JNQOLQHDU 690&JNQUEI 690&JNQVLJPRLG 690&JNQOLQHDU 690&JNQOLQHDU
690&JNQVLJPRLG 690&JNQVLJPRLG 690&JNQUEI 690&JNQUEI 690&JNQSRO\
690&JNQSRO\ 690&JNQSRO\ 690&JNQSRO\ 690&JNQSRO\ 690&JNQVLJPRLG 690&JNQVLJPRLG 690&JNQVLJPRLG
Hình 5.9: Giá trị các độ đo của mô hình SVM
Bộ thông số cho kết quả tốt nhất về độ chính xác trên cả tập đánh giá và tập kiểm thử là ('C': 10, 'gamma': 1, 'kernel': 'rbf'), lần lượt có giá trị tập đánh giá và tập kiểm thử:
• Tập đánh giá: độ chính xác – 96.16%, F1-score – 96.88%, recall – 96.68%, pre- cision – 97.09%, AUC – 0.9948.
• Tập kiểm thử: độ chính xác – 95.56%, F1-score – 96.25%, recall – 95.81%, pre- cision – 96.72%), AUC – 0.9908.
Bộ thông số ('C': 10, 'gamma': 1, 'kernel': 'sigmoid') cho giá trị các độ đo kém nhất trên tập đánh giá và kiểm thử là:
• Tập đánh giá: độ chính xác – 48.07%, F1-score – 43.77%, recall – 45.23%, pre- cision – 43.35%, AUC – 0.5908.
• Tập kiểm thử: độ chính xác – 48.56%, F1-score – 43.73%, recall – 45.03%, pre- cision – 43.41%, AUC – 0.5945.
Với các bộ thông số ('C': 1, 'gamma': 1), ('C': 1, 'gamma': 0.1), ('C': 0.1, 'gamma':1) thì nhóm 'kernel': 'rbf' cho độ chính xác cao nhất so với các nhóm 'kernel' còn lại.Với các bộ thông số ('C': 10, 'gamma': 0.01), ('C': 1, 'gamma': 0.01), ('C': 0.1, 'gamma':0.1), ('C': 0.1, 'gamma': 0.01) thì nhóm 'kernel': 'linear' cho độ chính xác cao nhất so với các nhóm 'kernel' còn lại.
5.2.7 Mô hình Mạng nơ-ron truyền thẳng nhiều lớp (MLP)
0/3DFWDQKDOKOVVYDGDP 0/3DFWDQKDOKOVVYDGDP 0/3DFWDQKDOKOVVYDGDP 0/3DFUHOXDOKOVVYDGDP 0/3DFWDQKDOKOVVYDGDP 0/3DFUHOXDOKOVVYDGDP 0/3DFUHOXDOKOVVYDGDP 0/3DFUHOXDOKOVVYDGDP 0/3DFUHOXDOKOVVYVJG 0/3DFUHOXDOKOVVYVJG
0/3DFUHOXDOKOVVYDGDP 0/3DFWDQKDOKOVVYVJG 0/3DFWDQKDOKOVVYVJG 0/3DFWDQKDOKOVVYVJG 0/3DFWDQKDOKOVVYVJG 0/3DFWDQKDOKOVVYDGDP 0/3DFWDQKDOKOVVYDGDP 0/3DFUHOXDOKOVVYVJG 0/3DFUHOXDOKOVVYVJG
Hình 5.10: Giá trị các độ đo của mô hình MLP
Bộ thông số ('activation': 'tanh', 'solver': 'adam') có độ chính xác cao nhất trên tập đánh giá và kiểm thử Giá trị của độ chính xác lần lượt trên tập đánh giá và kiểm thử tương ứng với các thông số là:
• Khi ('alpha': 0.001) cùng ('hidden layer sizes': (50,100,50)) là: 99.94% – 99.89%; cùng 'hidden layer sizes': (50,50,50) là: 99.71% – 99.58%.
• Khi ('alpha': 0.05) cùng ('hidden layer sizes': (50,100,50)) là: 99.22% – 99.05%; cùng 'hidden layer sizes': (50,50,50) là: 99.40% – 99.28%.
Với 'hidden layer sizes': (100,) cho kết quả trên độ chính xác và F1-score là thấp nhất trên tập đánh giá và kiểm thử ngoại trừ ('activation': 'relu', 'solver': 'adam') Với giá trị thấp lần lượt trên tập đánh giá và kiểm thử với bộ thông số ('activation': 'tanh', 'alpha': 0.05, 'hidden layer sizes': (100,), 'solver': 'sgd') là: độ chính xác 91.32% – 90.92%, F1-score 92.09% – 91.49%.
5.2.8 Mô hình Hồi quy Logistic (LR)
/5&SQ1RQH /5&SQ1RQH /5&SQ1RQH /5&SQ1RQH /5&SQ1RQH
Hình 5.11: Giá trị các độ đo của mô hình Logistic Regression
Thông số 'penalty': None có kết quả bằng nhau ở tất cả các độ đo với giá trị trên tập đánh giá và kiểm thử lần lượt là: độ chính xác (92.21% – 92.07%) và F1-score(93.79% – 93.58%) Thông số 'penalty': 'l2' cho giá trị độ đo độ chính xác giảm lần lượt trên tập đánh giá và kiểm thử từ 92.3% – 92.1% ('C': 10) về 88.83% – 88.07%('C': 0.1), giảm 3.47% và 4.03%; độ đo F1-score lần lượt giảm trên tập đánh giá và kiểm thử từ 93.96% – 93.62% ('C': 10) về 86.73% – 85.26% ('C': 0.1) (giảm 7.23% và 8.36%).
5.2.9 Mô hình k-Lân cận gần nhất (k-NN)
N11PHWPDQKDWWDQQBQHZGLVWDQFH N11PHWPDQKDWWDQQBQHZGLVWDQFH N11PHWPDQKDWWDQQBQHZGLVWDQFH N11PHWHXFOLGHDQQBQHZGLVWDQFH N11PHWPDQKDWWDQQBQHZXQLIRUP N11PHWHXFOLGHDQQBQHZGLVWDQFH N11PHWHXFOLGHDQQBQHZGLVWDQFH N11PHWPDQKDWWDQQBQHZXQLIRUP N11PHWPDQKDWWDQQBQHZGLVWDQFH N11PHWHXFOLGHDQQBQHZGLVWDQFH N11PHWPDQKDWWDQQBQHZXQLIRUP N11PHWHXFOLGHDQQBQHZXQLIRUP N11PHWHXFOLGHDQQBQHZXQLIRUP N11PHWHXFOLGHDQQBQHZXQLIRUP N11PHWPDQKDWWDQQBQHZXQLIRUP N11PHWHXFOLGHDQQBQHZXQLIRUP
Hình 5.12: Giá trị các độ đo của mô hình k-NN
Bộ thông số ('metric': 'manhattan', 'weights': 'distance') cho độ chính xác hầu như cao hơn ở tập đánh giá và kiểm thử so với bộ thông số ('metric': 'euclidean', 'weights': 'uniform'), với giá trị của hai bộ thông số ở tập đánh giá và tập kiểm thử lần lượt là:
• Cao nhất: ('metric': 'manhattan', 'n neighbors': 9, 'weights': 'distance') 99.27% –99.02% và ('metric': 'euclidean', 'n neighbors': 9, 'weights': 'uniform') 98.63% –98.40 %.
• Thấp nhất: ('metric': 'manhattan', 'n neighbors': 3, 'weights': 'distance') 98.84% – 98.69% và ('metric': 'euclidean', 'n neighbors': 3, 'weights': 'uniform') 98.18% – 98.13%.
Tương tự với độ đo F1-score thì giá trị của hai bộ thông số ở tập đánh giá và tập kiểm thử lần lượt là:
• Cao nhất: ('metric': 'manhattan', 'n neighbors': 9, 'weights': 'distance') 99.22% – 98.88% và ('metric': 'euclidean', 'n neighbors': 7, 'weights': 'uniform') 98.57% – 98.32%.
• Thấp nhất: ('metric': 'manhattan', 'n neighbors': 3, 'weights': 'distance') 98.8% – 98.66% và ('metric': 'euclidean', 'n neighbors': 3, 'weights': 'uniform') 98.07% – 98.08%.
5.2.10 So sánh kết quả giữa mô hình của chúng tôi với các mô hình học máy
5.2.10.1 So sánh trên tập đánh giá
Hình 5.13: So sánh giá trị trung bình của từng độ đo theo các nhóm trên tập đánh giá
Các mô hình học máy với các thông số như: GBM ('learning rate': 0.1), DT ('ccp alpha': 0), RF ('max depth': 9 hay 'max depth': None) cho kết quả đạt 100% ở độ chính xác, F1-score, recall, precision và 1.0 trên AUC Với mô hình của chúng tôi:
OM (NNNC), NN-GB + GB(TFDF), NN-RF + GB(TFDF) cũng cho kết quả đều đạt 100% ở độ chính xác, F1-score, recall, precision và 1.0 trên AUC Các sự kết hợp còn lại của mô hình của chúng tôi (OM (extant_m)) có độ chính xác là 99.98% ± 0.04% Các mô hình học máy như: RF ('max depth': 6), DT ('ccp alpha': 0.01), GBM ('learning rate': 0.01), cho độ chính xác lần lượt là: 99.87% ± 0.02%, 99.38% ± 0.03%, 99.22% ± 1.85% Các mô hình học máy còn lại như: k-NN, MLP, LR, DT ('ccp alpha': 0.1) có độ chính xác thấp hơn so với các sự kết hợp tốt nhất của mô hình của chúng tôi với độ chính xác của chúng lần lượt là: 98.83% ± 0.32%, 96.91% ± 2.5%, 91.83% ± 1.01% và 88.56% Các độ đo khác của các mô hình có giá trị trung bình và độ lệch chuẩn của chúng được thể hiện tại hình 5.13.
5.2.10.2 So sánh trên tập kiểm thử
Hình 5.14: So sánh giá trị trung bình của từng độ đo theo các nhóm trên tập kiểm thửCác mô hình học máy với các thông số như: GBM ('learning rate': 0.1), DT ('ccp alpha': 0), RF ('max depth': 9 hay 'max depth': None) cho kết quả ở các độ đo đều đạt
100% và AUC là 1.0 Với mô hình của chúng tôi: OM (NNNC), NN-GB + GB(TFDF),NN-RF + GB(TFDF) cũng cho kết quả đều đạt 100% ở độ chính xác, F1-score, recall,precision và 1.0 trên AUC Các sự kết hợp còn lại của mô hình của chúng tôi (OM(extant_m)) có độ chính xác là 99.98% ± 0.03% Các mô hình học máy như: RF ('max depth': 6), DT ('ccp alpha': 0.01), GBM ('learning rate': 0.01), cho độ chính xác lần lượt là: 99.78% ± 0.06%, 99.22% ± 0.45%, 99.17% ± 1.88% Các mô hình học máy còn lại như: k-NN, MLP, LR, DT ('ccp alpha': 0.1) có độ chính xác thấp hơn so với các sự kết hợp tốt nhất của mô hình của chúng tôi với độ chính xác của chúng lần lượt là: 98.65% ± 0.23%, 96.6% ± 2.63%, 91.59% ± 1.2% và 88.89% Các độ đo khác của các mô hình có giá trị trung bình và độ lệch chuẩn của chúng được thể hiện tại hình 5.14.