1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN văn THẠC sĩ) đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network

112 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đánh Giá Tỷ Lệ Lỗi Của Bộ Phân Loại Tín Hiệu Điện Tim Dùng Neural Network
Tác giả Lê Thị Minh Thùy
Người hướng dẫn TS. Nguyễn Thanh Hải
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại luận văn thạc sĩ
Năm xuất bản 2017
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 112
Dung lượng 5,92 MB

Cấu trúc

  • CHƯƠNG I: TỔNG QUAN (22)
    • 1.1 Tổng quan về lĩnh vực nghiên cứu (22)
    • 1.2 Các kết quả nghiên cứu trong và ngoài nước đã công bố (22)
      • 1.2.1 Các kết quả nghiên cứu trong nước (22)
      • 1.2.2 Các kết quả nghiên cứu quốc tế (24)
    • 1.3 Mục tiêu của đề tài (25)
    • 1.4 Nhiệm vụ và giới hạn của đề tài (26)
      • 1.4.1 Nhiệm vụ của đề tài (26)
      • 1.4.2 Giới hạn của đề tài (26)
    • 1.5 Phương pháp nghiên cứu (27)
  • CHƯƠNG II: CƠ SỞ LÝ THUYẾT (29)
    • 2.1 Khái niệm về tín hiệu điện tim ECG (29)
    • 2.2 Cách tính toán nhịp tim (31)
    • 2.3 Phương pháp đề xuất phân loại tín hiệu ECG (33)
    • 2.4 Thu thập dữ liệu (34)
    • 2.5 Phương pháp phân loại (38)
    • 2.6 Phương pháp đánh giá độ chính xác của bộ phân loại (43)
      • 2.6.1 Confusion matrix (43)
      • 2.6.2 Đường cong ROC (47)
  • CHƯƠNG III: PHÂN LOẠI TÍN HIỆU ECG DÙNG NEURAL NETWORK (50)
    • 3.1 Trích đặc trưng tín hiệu điện tim (51)
      • 3.1.1 Tách từng nhịp tim từ bộ dữ liệu Arrythmia (51)
      • 3.1.2 Chuyển đổi wavelet rời rạc tín hiệu nhịp tim từ miền thời gian sang miền tần số32 (53)
      • 3.1.3 Giảm chiều dữ liệu sử dụng phương pháp phân tích thành phần chính PCA (58)
    • 3.2 Phân loại tín hiệu điện tim sử dụng phương pháp mạng thần kinh nhân tạo Neural (63)
  • CHƯƠNG IV: KẾT QUẢ (66)
  • CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (79)
    • 5.1 Kết luận (79)
    • 5.2 Hướng phát triển của đề tài (79)
  • TÀI LIỆU THAM KHẢO (81)
    • B. PHỤ LỤC (83)
      • B.1 CHƯƠNG TRÌNH MATLAB (83)
      • B.2 BÀI BÁO KHOA HỌC (105)

Nội dung

TỔNG QUAN

Tổng quan về lĩnh vực nghiên cứu

Với tỷ lệ tử vong cao do bệnh tim, việc phát hiện sớm và phân loại chính xác tín hiệu ECG trở nên cần thiết để giúp bác sĩ nhận diện các bệnh tim khác nhau ECG ghi lại nhịp tim, từ đó hỗ trợ chẩn đoán bệnh tim mạch Sử dụng kỹ thuật máy tự học (machine learning) để phân loại tín hiệu ECG, bác sĩ có thể thực hiện các phân tích ban đầu nhằm xác định chẩn đoán Việc phân loại và phát hiện các rối loạn nhịp tim giúp nhận diện các tín hiệu bất thường trong ECG của bệnh nhân, từ đó phát hiện bệnh tim và cải thiện phương pháp điều trị cho bệnh nhân.

Phân loại tín hiệu ECG gặp nhiều khó khăn do sự thiếu chuẩn hóa và tính biến đổi của các đặc điểm tín hiệu này Mỗi mô hình ECG đều có những đặc trưng riêng, không có quy tắc phân loại tối ưu cho bộ phân loại ECG, và mỗi bệnh nhân sở hữu một dạng sóng ECG độc đáo Việc phát triển một bộ phân loại hiệu quả, có khả năng phân loại rối loạn nhịp tim trong thời gian thực là rất cần thiết Các ứng dụng phân loại tín hiệu ECG hiện nay đã có thể phát hiện các loại tín hiệu bất thường và cung cấp phân tích chính xác hơn so với phương pháp thủ công, đồng thời hỗ trợ trong chẩn đoán và điều trị bệnh nhân mắc bệnh tim.

Các kết quả nghiên cứu trong và ngoài nước đã công bố

1.2.1 Các kết quả nghiên cứu trong nước

Tại tọa đàm “Vì trái tim khỏe Việt Nam” bệnh viện tim Hà Nội vào ngày 25 tháng

Theo thống kê năm 2015, tại Việt Nam, cứ ba người trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch, với khoảng 200.000 ca tử vong mỗi năm, chiếm một phần tư tổng số trường hợp tử vong GS Phạm Gia Khải, nguyên Chủ tịch Hội tim mạch, cho biết tỷ lệ mắc bệnh tim ở Việt Nam rất cao, có thể là cao nhất về bệnh suất và tử suất, được ví như "sát thủ thầm lặng" Nhiều người mắc tăng huyết áp hoặc biến chứng tim không hề hay biết, dẫn đến những cái chết phổ biến do suy tim, loạn nhịp tim, và tắc mạch vành.

Các tác giả từ Đại học Khoa học Công nghệ Hà Nội và Viện Dân số, Sức khỏe, Phát triển Việt Nam đã phát triển một thiết bị di động giá rẻ để theo dõi tín hiệu điện tim ECG với hai điện cực dương Thiết bị này được thiết kế linh hoạt và có thể sử dụng cá nhân, tận dụng pin của điện thoại thông minh Ứng dụng di động đi kèm sử dụng thuật toán phức tạp cho xử lý thời gian thực và ước lượng tham số, đồng thời mở ra khả năng phát triển các ứng dụng khác như phát hiện hoạt động bất thường và cảnh báo sức khỏe trong tương lai.

Tại hội thảo quốc tế về kiến thức và hệ thống kỹ thuật năm 2009, Phan Anh Phong và Kieu Quang Thien đã nghiên cứu phân loại loạn nhịp tim bằng hệ thống mờ TSK loại 2 Bài báo đề xuất phương pháp xây dựng hệ mờ Takagi-Sugeno-Kang (TSK) loại 2 để phân tích điện tim đồ (ECG), nhằm phân biệt nhịp xoang bình thường (NSR), rung tâm thất (VF) và nhịp tim nhanh thất (VT) Hai đặc trưng của tín hiệu ECG là khoảng thời gian trung bình và độ rộng xung được sử dụng làm đầu vào cho bộ phân loại mờ Tác giả còn áp dụng thuật toán phân cụm trung bình fuzzy và kỹ thuật truyền lại để xác định các thông số của bộ phân loại fuzzy TSK loại 2 Kết quả thí nghiệm từ cơ sở dữ liệu Malignant Ventricular Arrhythmia MIT-BIH cho thấy độ chính xác phân loại đạt 100% cho tín hiệu NSR, 93,3% cho tín hiệu VF và 92% cho tín hiệu VT.

Nghiên cứu về ECG trong nước đã chỉ ra ngưỡng tối ưu cho thuật toán nén hai trạng thái và phương pháp wavelet để loại bỏ nhiễu tín hiệu Tuy nhiên, hầu hết các nghiên cứu hiện tại chưa đi sâu vào phân loại tín hiệu điện tim Trong khi một số nghiên cứu chỉ phân loại theo từng loại bệnh như nhịp xoang bình thường, rung tâm thất và nhịp tim nhanh thất, luận văn này sẽ mở rộng phân loại đến hầu hết các loại bệnh tim theo tiêu chuẩn ANSI/AAMI EC57:1998, mang đến cái nhìn tổng quát hơn về phân loại tín hiệu điện tim.

1.2.2 Các kết quả nghiên cứu quốc tế

Tỷ lệ mắc bệnh tim mạch (CVD) đang gia tăng, với 17.7 triệu ca tử vong hàng năm, chiếm 31% tổng số ca tử vong toàn cầu Nguyên nhân chính gây loạn nhịp tim chủ yếu liên quan đến bệnh tim mạch Việc giải mã thông tin từ tín hiệu ECG gặp khó khăn do biên độ và thời gian nhỏ, vì vậy công cụ máy tính hỗ trợ có thể giúp bác sĩ chẩn đoán hiệu quả hơn Trong thế giới hiện đại, bệnh tim mạch gia tăng do các yếu tố như béo phì, đái tháo đường, thói quen hút thuốc và thay đổi lối sống Một trong những biến chứng phổ biến là rối loạn tâm nhĩ và tâm thất, với chứng loạn nhịp tim là thuật ngữ chỉ các hoạt động điện bất thường trong tim.

Nghiên cứu về bệnh tim mạch đã áp dụng các phương pháp phân loại tín hiệu điện tim như PCA, LDA, ICA và chuyển đổi wavelet rời rạc Năm loại rối loạn nhịp tim được phân tích theo khuyến cáo của Hiệp hội dụng cụ y tế (AAMI) bao gồm: nhịp tim không lạc vị, nhịp tim supra-ventricular ectopic, nhịp tim ventricular ectopic, nhịp tim fusion và nhịp tim không nhận dạng được Các thuật toán giảm kích thước PCA, LDA và ICA đã được sử dụng độc lập với biến đổi wavelet rời rạc, và kết quả được đưa vào các bộ phân loại SVM, mạng nơ ron (NN) và phân loại mạng thần kinh xác suất (PNN) để chẩn đoán tự động Kết quả cho thấy ICA kết hợp với PNN cho độ nhạy trung bình, độ đặc hiệu, giá trị tiên đoán dương (PPV) và độ chính xác lần lượt là 99,97%, 99,83%, 99,21% và 99,28% qua phương pháp xác nhận chéo 10 lần Nghiên cứu này không chỉ đạt độ chính xác cao mà còn cho phép so sánh hiệu quả giữa các phương pháp phân loại Tác giả đã thực hiện lại việc phân loại tín hiệu điện tim, tách riêng dữ liệu huấn luyện và kiểm tra để xác định lại độ chính xác của bộ phân loại.

Mục tiêu của đề tài

Mục tiêu của nghiên cứu là đánh giá tỷ lệ lỗi trong bộ phân loại tín hiệu tim sử dụng phương pháp Neural Network Kết quả nghiên cứu chỉ ra rằng để đạt được độ chính xác cao trong phân loại, cần phải tách biệt dữ liệu nhịp tim của bệnh nhân dùng cho huấn luyện và kiểm tra, tránh việc sử dụng nhịp tim của cùng một bệnh nhân cho cả hai mục đích.

Nhiệm vụ và giới hạn của đề tài

1.4.1 Nhiệm vụ của đề tài

Các nội dung chính được thực hiện trong đề tài:

Chúng tôi đã thu thập và xây dựng một tập dữ liệu điện tim bao gồm 48 tín hiệu từ 46 bệnh nhân tại MIT-BIH Sau đó, các tín hiệu này được chuyển đổi sang môi trường Matlab để tiến hành phân loại.

- Tiền xử lý tín hiệu dùng phương pháp chuyển đổi wavelet rời rạc DWT

- Trích đặc trưng nhịp tim dùng phương pháp phân tích thành phần chính PCA

- Nhận dạng tín hiệu điện tim dùng phương pháp phân loại mạng thần kinh nhân tạo Neural Network

- Đánh giá tỷ lệ lỗi của bộ phân loại sử dụng phương pháp ma trận nhầm lẫn và đường cong ROC

- Tóm tắt nội dung và viết báo cáo

1.4.2 Giới hạn của đề tài

Các vấn đề trong phân loại tín hiệu ECG bao gồm việc thiếu tính chuẩn hóa các đặc trưng của tín hiệu, sự biến đổi giữa các tín hiệu ECG, và đặc tính của ECG Ngoài ra, không có quy tắc phân loại tối ưu cho bộ phân loại ECG, sự biến đổi dạng sóng ECG theo từng bệnh nhân, cùng với việc lựa chọn bộ phân loại phù hợp nhất cũng là những thách thức đáng kể.

Giới hạn 1 liên quan đến việc thiếu hụt các đặc tính chuẩn của ECG, dẫn đến độ chính xác của phương pháp khai thác tính năng tạm thời phụ thuộc vào các đặc tính phát hiện được Một thay đổi nhỏ trong các tính năng này có thể gây ra sự phân loại không chính xác trên các tập dữ liệu lớn.

Nhịp tim của mỗi người bị ảnh hưởng bởi nhiều yếu tố vật lý và tâm trạng, bao gồm căng thẳng, kích động và hoạt động thể chất Những yếu tố này có thể làm thay đổi nhịp tim, dẫn đến sự biến đổi trong các chỉ số như khoảng RR, khoảng PR và khoảng QT.

Giới hạn 3: Nhận diện các loại bệnh tương tự Khi hai loại bệnh khác nhau có những đặc điểm chung, việc phân loại chúng trở nên khó khăn hơn.

Giới hạn 4: Không tồn tại bộ phân loại tối ưu cho tính toán ECG

Giới hạn 5: Hai người khác nhau, nhịp tim khác nhau nên cùng một loại bệnh nếu nhịp tim ở những người khác nhau sẽ khác nhau

Giới hạn 6 đề cập đến độ thay đổi của nhịp tim trong một tín hiệu ECG duy nhất, nơi ngõ vào là một chuỗi gồm nhiều frame khác nhau, thường bao gồm hàng ngàn nhịp tim.

Giới hạn 7: Việc tìm kiếm bộ phân loại phù hợp nhất để phân loại rối loạn nhịp tim trong thời gian thực là một thách thức lớn, vì độ chính xác của bộ phân loại phụ thuộc vào nhiều yếu tố như loại rối loạn nhịp tim, sự đa dạng của các dạng rối loạn nhịp tim, và cơ sở dữ liệu được sử dụng cho chứng loạn nhịp tim.

Phương pháp nghiên cứu

Các nghiên cứu trước đây về phân loại tín hiệu ECG chủ yếu tập trung vào việc áp dụng các phương pháp cụ thể để phân loại tín hiệu này Tuy nhiên, việc thu thập dữ liệu thực tế để phục vụ cho quá trình phân loại là một thách thức lớn đối với những người không chuyên về y học Do đó, tác giả đề xuất xây dựng một bộ phân loại tín hiệu ECG dựa trên các phương pháp đã được nghiên cứu trước đó và kết hợp với dữ liệu từ các nguồn có sẵn.

Hướng nghiên cứu đề xuất sử dụng dữ liệu có sẵn qua bộ phân loại Neural Network, trong đó tách riêng bộ dữ liệu huấn luyện và dữ liệu kiểm tra nhằm xác định tỉ lệ tối ưu để nâng cao độ chính xác của bộ phân loại Phân tích và xử lý dữ liệu được thực hiện bằng phần mềm Matlab, phiên bản R2016a.

CƠ SỞ LÝ THUYẾT

Khái niệm về tín hiệu điện tim ECG

Điện tim (ECG hoặc EKG) là một phương pháp ghi lại hoạt động điện của trái tim qua các điện cực đặt trên da, và là một bài kiểm tra tim mạch phổ biến Tín hiệu ECG bao gồm nhiều nhịp đập, trong đó mỗi nhịp được cấu thành từ sóng P, phức hợp QRS và sóng T Các đỉnh (P, Q, R, S, T và U), khoảng thời gian (PR, RR, QRS, ST và QT) và các phân đoạn (PR và ST) của tín hiệu ECG có giá trị biên độ và thời gian bình thường Những đặc điểm này, được gọi là tính năng ECG, rất quan trọng trong việc phân tích hoạt động của tim.

Khoảng thời gian ST, QT và RR, cùng với các phân đoạn PR và ST, là những yếu tố quan trọng trong việc mô tả nhịp tim Những khoảng thời gian và phân đoạn này giúp bác sĩ xác định nhịp tim có bình thường hay không, từ đó hỗ trợ chẩn đoán bệnh chính xác.

Bảng 1.1 liệt kê các tính năng ECG cùng với mô tả và thời gian tương ứng Các tính năng này được đặt tên theo các đỉnh của chúng, bao gồm RR, P, PR, QRS, PR, J, ST, T, ST và QT.

U Thời gian của từng tính năng khá nhỏ tính bằng đơn vị milli giây Khoảng thời gian dài nhất là 0.6 đến 1.2 giây chính là khoảng thời gian giữa hai đỉnh R cũng là khoảng cách về thời gian của hai nhịp tim

Hình 1.1 Dạng sóng ECG bình thường [10]

Bảng 1.1 Tính năng và khoảng thời gian bình thường của tín hiệu ECG

Tính năng Mô tả Khoảng thời gian

RR Khoảng thời gian giữa sóng R và sóng R tiếp theo 0.6-1.2 giây

P Xu hướng tăng ngắn hạn của tín hiệu ECG 80 milli giây

PR Đo từ đầu sóng P đến đầu bộ phức hợp QRS 120-200 milli giây QRS

Thường bắt đầu với độ võng xuống của Q, độ cong lên lớn hơn của R và kết thúc bởi sự đi xuống của sóng S

PR Kết nối sóng P và bộ phức hợp QRS 50-120 milli giây Điểm J Điểm kết thúc bộ phức hợp QRS và bắt đầu phân đoạn ST Không áp dụng

ST Kết nối bộ phức hợp QRS và sóng T 80-120 milli giây

T Thường là một dạng sóng tăng lên vừa phải 160 milli giây

Tính năng Mô tả Khoảng thời gian

ST Được đo từ điểm J đến kết thúc của sóng T 320 milli giây

QT Được đo từ khi bắt đầu bộ phức hợp QRS đến khi kết thúc sóng T 420 milli giây

U Thông thường có biên độ thấp và thường hoàn toàn vắng mặt Không đề cập đến

Tim là bộ phận quan trọng trong cơ thể, đảm nhiệm việc bơm máu và oxy đến mọi nơi Nhịp tim, được đo bằng số nhịp đập mỗi phút, là chỉ số hữu ích để đánh giá sức khỏe Cả nam và nữ có nhịp tim cao đều đối mặt với nguy cơ tử vong do nhồi máu cơ tim Vì vậy, việc theo dõi nhịp tim là cần thiết để bảo vệ sức khỏe và cuộc sống.

Cách tính toán nhịp tim

Tín hiệu ECG được ghi lại trên giấy lưới với trục ngang biểu diễn thời gian và trục thẳng đứng là điện áp, chia thành các ô vuông lớn 5mm, mỗi ô vuông lớn gồm 25 ô vuông nhỏ 1mm Với tốc độ tín hiệu ECG là 25mm/s, 5 ô vuông lớn tương ứng với 1 giây, và 300 ô vuông lớn là 1 phút Số đỉnh R trong 300 ô vuông lớn cho biết nhịp tim trong 1 phút Ví dụ, trong lead II, nếu có 1 đỉnh R mỗi 5 ô vuông lớn, thì 300 ô vuông lớn sẽ có 60 đỉnh R, tương ứng với nhịp tim 60 bpm Để tính nhịp tim từ tín hiệu ECG, xác định 2 đỉnh R, đếm số ô vuông giữa chúng, sau đó lấy 300 chia cho số ô vuông đó.

Hình 2.1 Tín hiệu ECG thu được trên giấy phân chia bởi các ô vuông

Hình 2.2 Cách tính nhịp tim

Phương pháp đề xuất phân loại tín hiệu ECG

Phân loại tín hiệu ECG là yếu tố quan trọng trong chẩn đoán bệnh tim mạch, vì mỗi người có tín hiệu ECG bình thường khác nhau và các bệnh tim có thể biểu hiện khác nhau trên ECG của từng bệnh nhân Hơn nữa, các bệnh khác nhau có thể có triệu chứng tương tự trên tín hiệu ECG, tạo ra thách thức trong việc chẩn đoán Việc áp dụng kỹ thuật phân loại mẫu có thể nâng cao độ chính xác trong chẩn đoán loạn nhịp ECG cho bệnh nhân mới Một chu kỳ tim bao gồm các sóng P, Q, R, S, T và U, với một tín hiệu ECG chứa hàng ngàn nhịp như vậy Các bước chính trong quy trình phân loại ECG bao gồm tiền xử lý, khai thác tính năng, tiêu chuẩn hóa và phân loại.

Tín hiệu ECG thường chứa nhiều loại nhiễu, ảnh hưởng đến việc khai thác tính năng để phân loại Do đó, tiền xử lý là bước quan trọng nhằm loại bỏ nhiễu Bước khai thác tính năng giúp trích xuất các đặc điểm điện tâm đồ, làm đầu vào cho mô hình phân loại Các nhà nghiên cứu đã áp dụng nhiều kỹ thuật tiền xử lý khác nhau cho tín hiệu ECG Để loại bỏ nhiễu, có thể sử dụng các bộ lọc thông thấp tuyến tính, bộ lọc thông cao tuyến tính, trong khi điều chỉnh cơ bản có thể thực hiện bằng bộ lọc trung bình và bộ lọc thông cao pha tuyến tính.

Feature extraction techniques utilized by researchers include Discrete Wavelet Transform (DWT), Continuous Wavelet Transform (CWT), Discrete Cosine Transform (DCT), S-Transform (ST), Discrete Fourier Transform (DFT), Principal Component Analysis (PCA), Daubechies wavelet (Db4), the Pan-Tompkins algorithm, and Independent Component Analysis (ICA).

Phương pháp tiêu chuẩn hóa các tính năng sử dụng các kỹ thuật như Z-score và

SD, or Unity Standard Deviation, employs various classification techniques including Multilayer Perceptron Neural Network (MLPNN), Fuzzy C-Means clustering (FCM), Feed Forward Neuro-Fuzzy, ID3 Decision Tree, Support Vector Machine (SVM), Quantum Neural Network (QNN), Radial Basis Function Neural Network (RBFNN), Type-2 Fuzzy Clustering Neural Network (T2FCNN), and Probabilistic Neural Network (PNN).

Thu thập dữ liệu

Dữ liệu được tải xuống từ cơ sở dữ liệu MIT-BIH arrythmia, một nguồn tài nguyên đã được kiểm nghiệm và sử dụng phổ biến trong nhiều nghiên cứu khoa học Việc sử dụng cơ sở dữ liệu có sẵn thay vì thu thập dữ liệu thực tế giúp đảm bảo tính chính xác và độ tin cậy của các kết quả nghiên cứu.

- Việc thu thập dữ liệu thực tế rất khó khăn (thiếu chính xác, nhiễu) đối với sinh viên không thuộc chuyên ngành y

Dữ liệu từ MIT-BIH đã được gán nhãn sẵn, bao gồm thông tin chi tiết về bệnh nhân, thời gian lấy mẫu, vị trí đo, loại bệnh và nhiều thông tin hỗ trợ khác.

Công cụ đọc Database từ MIT-BIH là một mã nguồn mở, tương thích với nhiều nền tảng, được phát triển bởi PhysioNet và nhận được sự hỗ trợ từ hiệp hội NIGMS và NIBIB.

Tín hiệu ECG trong tập dữ liệu MIT-BIH được thu thập từ 4000 tín hiệu Holter dài hạn tại Phòng Thí nghiệm Chứng loạn nhịp tim, bệnh viện Beth Israel, từ năm 1975 đến 1979, với khoảng 60% tín hiệu từ bệnh nhân nội trú Tập dữ liệu này bao gồm 23 tín hiệu (đánh số từ 100 đến 124, trừ số 110) và 25 tín hiệu (đánh số từ 200 đến 234, với một số không xuất hiện), được chọn ngẫu nhiên, bao gồm các hiện tượng hiếm gặp nhưng có triệu chứng lâm sàng quan trọng Tất cả 48 tín hiệu đều kéo dài trên 30 phút Hình 2.3 minh họa phần mềm Holter ECG.

Hình 2.3 Screen shot của Holter ECG Software

Nhóm đầu tiên, từ tín hiệu 100 đến 124, đại diện cho nhiều dạng sóng ECG thường gặp, được ghi lại trong khoảng nửa giờ với chất lượng đủ để bác sĩ chuyên nghiệp phân tích Nhóm thứ hai bao gồm các trường hợp loạn nhịp trên thất và dấu hiệu bất thường, với một số tín hiệu được chọn do phức hợp QRS có dạng sóng biến đổi hoặc chất lượng tín hiệu đủ để phát hiện rối loạn nhịp tim Đối tượng nghiên cứu gồm 25 nam giới từ 32 đến 89 tuổi và 22 nữ từ 23 đến 89 tuổi, trong đó tín hiệu 201 và 202 thuộc về cùng một nam giới Bảng 2.1 liệt kê tên các tín hiệu ECG với ba loại file: “*.atr”, “*.dat” và “*.hea”.

Bảng 2.1 Toàn bộ tín hiệu ECG từ MIT-BIH

File chú thích File dữ liệu File tiêu đề

100.atr 101.atr 102.atr 103.atr 104.atr 105.atr 106.atr 107.atr 108.atr 109.atr 111.atr 112.atr 113.atr 114.atr 115.atr 116.atr 117.atr 118.atr 119.atr 121.atr 122.atr 123.atr 124.atr 200.atr

100.dat 101.dat 102.dat 103.dat 104.dat 105.dat 106.dat 107.dat 108.dat 109.dat 111.dat 112.dat 113.dat 114.dat 115.dat 116.dat 117.dat 118.dat 119.dat 121.dat 122.dat 123.dat 124.dat 200.dat

100.hea 101.hea 102.hea 103.hea 104.hea 105.hea 106.hea 107.hea 108.hea 109.hea 111.hea 112.hea 113.hea 114.hea 115.hea 116.hea 117.hea 118.hea 119.hea 121.hea 122.hea 123.hea 124.hea 200.hea

File chú thích File dữ liệu File tiêu đề

201.atr 202.atr 203.atr 205.atr 207.atr 208.atr 209.atr 210.atr 212.atr 213.atr 214.atr 215.atr 217.atr 219.atr 220.atr 221.atr 222.atr 223.atr 228.atr 230.atr 231.atr 232.atr 233.atr 234.atr

201.dat 202.dat 203.dat 205.dat 207.dat 208.dat 209.dat 210.dat 212.dat 213.dat 214.dat 215.dat 217.dat 219.dat 220.dat 221.dat 222.dat 223.dat 228.dat 230.dat 231.dat 232.dat 233.dat 234.dat

201.hea 202.hea 203.hea 205.hea 207.hea 208.hea 209.hea 210.hea 212.hea 213.hea 214.hea 215.hea 217.hea 219.hea 220.hea 221.hea 222.hea 223.hea 228.hea 230.hea 231.hea 232.hea 233.hea 234.hea

Phương pháp phân loại

Có nhiều phương pháp phân loại ECG, nhưng phương pháp đơn giản nhất được đề xuất dựa trên các nghiên cứu gần đây ECG là công cụ quan trọng trong chẩn đoán bệnh lý tim mạch, giúp phát hiện rối loạn nhịp tim và bất thường cấu trúc Để đọc ECG chính xác, cần có cách tiếp cận phù hợp, vì hoạt động của tim phụ thuộc vào những thay đổi về biên độ và thời gian của ECG Nghiên cứu cho thấy rằng các đặc trưng của nhịp tim bình thường và rối loạn được phân biệt tốt hơn trong miền DWT so với miền thời gian Những thay đổi nhỏ trong biên độ và thời gian của ECG không rõ ràng như trong miền DWT Hình 2.4 cho thấy tín hiệu ECG với đỉnh R trong nhịp tim bình thường, trong khi hình 2.7 phân tích wavelet cho thấy các đặc trưng tín hiệu được phân biệt rõ ràng qua các tín hiệu chi tiết ở các cấp khác nhau.

Hình 2.4 Tín hiệu ECG bình thường trong miền thời gian [13]

Hình 2.5 Phân tích Wavelet: (a) Nhịp tim gốc; (b) Tín hiệu chi tiết cấp 2; (c) Tín hiệu chi tiết cấp 3; (d) Tín hiệu chi tiết cấp 4; (e) Tín hiệu xấp xỉ cấp 4

Sau khi phân tích ECG trong miền DWT, nhiều đặc trưng tín hiệu được rút trích, tạo ra số lượng lớn hệ số Tuy nhiên, không phải tất cả hệ số đều thể hiện tính chất nhịp tim, vì vậy cần áp dụng thuật toán giảm chiều để rút trích đặc trưng đại diện cho ECG Các thuật toán giảm chiều phổ biến hiện nay bao gồm PCA và ICA Phân tích thành phần chính (PCA) là kỹ thuật giảm chiều tuyến tính, chiếu dữ liệu vào các hướng biến đổi cao nhất Khi dữ liệu ban đầu phụ thuộc vào nhiều biến tương quan, việc xây dựng mô hình tính toán trở nên khó khăn và số biến giải thích lớn gây bất lợi cho việc trực quan hóa dữ liệu.

Hình 2.6 Nén dữ liệu: (a) Tập dữ liệu trong không gian 3D; (b) Tập dữ liệu trong không gian 3D nhìn từ hướng khác; (c) Tập dữ liệu sau khi đã nén từ 3D thành 2D

Phương pháp PCA (Phân tích thành phần chính) chuyển đổi dữ liệu đa chiều sang không gian có cơ sở trực giao, giúp biểu diễn dữ liệu gốc qua các biến độc lập Một câu hỏi quan trọng đặt ra là liệu thông tin quan trọng của dữ liệu có bị mất trong quá trình chuyển đổi này hay không PCA giải quyết vấn đề này bằng cách tìm ra không gian mới, tối ưu hóa việc phản ánh thông tin thông qua phương sai Hình 2.6 minh họa quá trình nén dữ liệu, trong đó dữ liệu 3D được chiếu lên hai trục z1 và z2, tạo thành tập dữ liệu trong không gian 2D Mục tiêu của PCA là xác định một không gian mới với số chiều nhỏ hơn, trong đó các trục tọa độ được xây dựng để tối đa hóa độ biến thiên của dữ liệu.

Cả PCA và ICA đều tìm kiếm các vector cho tập dữ liệu, cho phép biểu diễn các điểm dữ liệu dưới dạng kết hợp tuyến tính Trong trường hợp hai nguồn tín hiệu tương quan, PCA xác định hướng tối ưu để giảm thiểu lỗi tổng bình phương, nhưng không thể xử lý các thành phần không độc lập Ngược lại, ICA tìm ra các hướng tối ưu để tách biệt các nguồn tín hiệu, ngay cả khi chúng chỉ là các vector nhỏ Cụ thể, vector đầu tiên của PCA giải thích tốt nhất sự biến đổi dữ liệu, trong khi vector thứ hai yêu cầu phải trực giao với vector đầu tiên Đối với ICA, mỗi vector đại diện cho một thành phần độc lập trong tập hợp tín hiệu Tóm lại, PCA giúp nén dữ liệu, trong khi ICA hỗ trợ tách biệt các tín hiệu độc lập.

Sau khi giảm chiều, dữ liệu được đưa vào bộ phân loại, trong đó hai phương pháp phổ biến hiện nay là SVM (máy vectơ hỗ trợ) và Neural Network SVM là một phương pháp học có giám sát, chuyên dùng để phân loại và phân tích hồi quy, hoạt động bằng cách nhận dữ liệu và phân loại chúng thành hai lớp khác nhau, tức là thuật toán phân loại nhị phân Với một bộ ví dụ luyện tập thuộc hai thể loại, SVM xây dựng một mô hình để phân loại các ví dụ mới, xác định ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là lớn nhất Các ví dụ mới cũng được biểu diễn trong không gian tương tự và thuật toán sẽ dự đoán thể loại của chúng dựa vào vị trí so với ranh giới đã xác định.

Mạng nơ-ron nhân tạo, hay còn gọi là mạng nơ-ron, là mô hình toán học dựa trên các mạng nơ-ron sinh học, bao gồm nhóm nơ-ron nhân tạo (nút) kết nối với nhau để xử lý thông tin Chúng hoạt động theo cách truyền dữ liệu qua các kết nối và tính toán giá trị mới tại các nút, thể hiện phương pháp connectionism trong tính toán Mạng nơ-ron là hệ thống thích ứng, tự thay đổi cấu trúc dựa trên thông tin bên ngoài hoặc bên trong trong quá trình học Chúng thường được sử dụng để mô hình hóa dữ liệu thống kê phi tuyến, giúp phát hiện mối quan hệ phức tạp giữa dữ liệu đầu vào và kết quả Với khả năng xấp xỉ hàm phi tuyến bất kỳ với sai số nhỏ, mạng nơ-ron rất hiệu quả trong các thuật toán nhận dạng hệ thống, điều khiển mô hình hoặc điều khiển thích nghi Trong nghiên cứu này, tác giả chọn mạng nơ-ron để phân loại nhịp tim từ các tín hiệu ECG.

Phương pháp đánh giá độ chính xác của bộ phân loại

Sau khi xác định vấn đề và dữ liệu cần phân loại, việc áp dụng các thuật toán machine learning là cần thiết để giải quyết bài toán Thách thức lớn nhất là làm sao để thời gian dành cho việc lựa chọn, thực hiện và điều chỉnh thuật toán là hiệu quả và đạt được mục tiêu Có nhiều phương pháp đánh giá độ chính xác của bộ phân loại, như confusion matrix, positive predictive value, null error rate, Cohen’s Kappa, F Score và ROC curve Tuy nhiên, trong luận văn này, chỉ đề cập đến hai phương pháp đánh giá tỷ lệ lỗi của bộ phân loại là confusion matrix và ROC curve Phần tiếp theo sẽ cung cấp thông tin chi tiết về phương pháp confusion matrix.

Trong lĩnh vực máy học, confusion matrix (ma trận nhầm lẫn) là một công cụ quan trọng để đánh giá hiệu suất của thuật toán phân loại Đây là một bảng mô tả mối quan hệ giữa các lớp thực tế và lớp dự đoán trên một bộ dữ liệu thử nghiệm đã biết Mỗi hàng của ma trận đại diện cho lớp quan sát, trong khi mỗi cột đại diện cho lớp dự đoán, và các ô trong ma trận thể hiện số lượng mẫu giao nhau giữa các lớp Mặc dù bản thân confusion matrix dễ hiểu, nhưng các thuật ngữ liên quan có thể gây nhầm lẫn Ví dụ về confusion matrix thường được áp dụng trong các bộ phân loại nhị phân.

Bảng 2.2 Ví dụ về confusion matrix cho bộ phân loại số nhị phân n5 Predicted: NO Predicted: YES

Bộ phân loại dự đoán có hai khả năng là "YES" (có bệnh) hoặc "NO" (không có bệnh) Trong một ví dụ thực tế, bộ phân loại này đã thực hiện 165 dự đoán cho 165 bệnh nhân, trong đó có 110 lần dự đoán "YES" và 55 lần dự đoán "NO" Tuy nhiên, kết quả thực tế cho thấy chỉ có 105 bệnh nhân mắc bệnh, còn lại 60 bệnh nhân không mắc bệnh Điều này dẫn đến việc đánh giá hiệu suất của bộ phân loại thông qua ma trận nhầm lẫn (confusion matrix), giúp xác định các chỉ số cơ bản như độ chính xác, độ tin cậy và sai số trong dự đoán.

- True Positives (TP): đây là những trường hợp mà bộ phân loại dự đoán “YES” và thực tế là những người bệnh này có mắc bệnh

- True Negatives (TN): bộ phân loại dự đoán “NO” và những người bệnh này không mắc bệnh

- False Positives (FP): bộ phân loại dự đoán “YES”, nhưng thực sự những người bệnh này không mắc bệnh (hay còn gọi là “Type I error”)

- False Negatives (FN): bộ phân loại dự đoán “NO”, nhưng thực sự những người này mắc bệnh (hay còn gọi là “Type II error”)

Sau đây là bảng confusion matrix khi thêm các thuật ngữ và tổng số hàng cũng như tổng số cột

Bảng 2.3 Ví dụ về confusion matrix khi thêm các thuật ngữ n5 Dự đoán: NO Dự đoán: YES

Thực tế: NO TNP FP TN+FP`

Thực tế: YES FN=5 TP0 FN+TP5

Sau đây là danh sách các tỷ lệ thường được tính trong bộ confusion matrix phân loại nhị phân:

- Accuracy: độ chính xác của bộ phân loại

- Misclassification Rate: tỷ lệ phân loại sai, còn được gọi là “Tỷ lệ lỗi” (“Error rate”) Bằng 1 trừ đi độ chính xác (accuracy)

- True positive rate/Sensitivity/Recall: là tỷ lệ bộ phân loại dự đoán là “YES” thực tế cũng là “YES” so với tổng số lượng “YES” thực tế

- False positive rate: là tỷ lệ bộ phân loại dự đoán là “YES” nhưng thực tế là “NO” so với tổng số lượng “NO” thực tế

Specificity refers to the ratio of true negatives predicted by a classifier to the actual number of true negatives, compared to the total actual negatives It can also be calculated as one minus the false positive rate.

- Precision: là tỷ lệ bộ phân loại dự đoán đúng là “YES” và thực tế cũng là “YES” so với tổng số lượng “YES” dự đoán

- Prevalence: là tỷ lệ thực tế “YES” trong tổng số các trường hợp

Bảng nhầm lẫn (confusion matrix) là công cụ tóm tắt hiệu suất của thuật toán phân loại, giúp đánh giá độ chính xác của bộ phân loại, đặc biệt khi có sự không đồng đều trong các lớp hoặc khi dữ liệu có nhiều hơn hai lớp Việc tính toán ma trận nhầm lẫn cho phép xác định tính thích hợp của mô hình và loại lỗi mà nó thực hiện Ưu điểm của confusion matrix là khả năng xác định các tình huống quan trọng, từ đó cung cấp cái nhìn mới về hiệu suất của các lớp phân loại Tuy nhiên, nhược điểm là cần thực hiện nhiều thí nghiệm để hiểu rõ và nó không phải là phương pháp đồ họa Để so sánh các mô hình, các giá trị từ bảng confusion matrix cần được thu thập và so sánh riêng biệt Vì vậy, đường cong ROC là một phương pháp đánh giá độ chính xác khác, cung cấp cách hiển thị thông tin phản hồi một cách đơn giản và trực quan hơn.

Trong khoa học thống kê, đường cong ROC (Receiver Operating Characteristic) là biểu đồ thể hiện khả năng chẩn đoán của hệ thống phân loại nhị phân với ngưỡng phân loại thay đổi Đường cong này thường được sử dụng để hình dung hiệu suất của bộ phân loại, trong khi AUC (Diện tích dưới đường cong) tóm tắt hiệu suất thành một con số duy nhất ROC và AUC là công cụ hữu ích cho các nhà khoa học dữ liệu, nhà thực hành máy học và nhà nghiên cứu y học trong việc đánh giá và điều chỉnh bộ phân loại Phân tích ROC liên quan trực tiếp đến quyết định chi phí và lợi ích của các quyết định chẩn đoán.

Đường cong ROC có những tính chất quan trọng trong việc đánh giá độ chính xác của các bài kiểm tra Đầu tiên, nếu đường cong càng gần biên trái và biên trên của không gian ROC, điều này cho thấy kết quả kiểm tra càng chính xác Ngược lại, khi đường cong tiến gần đến đường chéo 45 độ, độ chính xác của kiểm tra sẽ giảm Hệ số góc của đường thẳng tiếp tuyến tại điểm cắt thể hiện tỉ lệ LR của giá trị điểm cắt tương ứng của bài kiểm tra.

Diện tích dưới đường cong ROC là thước đo quan trọng cho độ chính xác của bộ phân loại, với giá trị 1 biểu thị độ chính xác tối ưu và 0.5 cho độ chính xác kém Thước đo này phản ánh khả năng phân biệt giữa các trường hợp tốt và xấu Để tính diện tích này, có hai phương pháp phổ biến: phương pháp sử dụng tham số và phương pháp không sử dụng tham số, cả hai đều được triển khai qua các chương trình tính toán trên máy tính Kết quả thu được bao gồm diện tích và sai số chuẩn, giúp so sánh giữa các phép kiểm tra khác nhau hoặc trong cùng một phép kiểm tra với các cá thể khác nhau.

Hình 2.7 Cách biểu diễn một đường cong ROC

Hình 2.7 minh họa đường cong ROC, trong đó TP (True Positive) là diện tích màu cam thể hiện các phân loại đúng, TN (True Negative) là diện tích màu xanh lam cho các phân loại sai, FP (False Positive) là diện tích màu hồng cho các phân loại sai nhưng thực tế đúng, và FN (False Negative) là diện tích màu xanh nhạt cho các phân loại đúng nhưng thực tế sai Đường cong ROC, bên cạnh ma trận nhầm lẫn, là công cụ hữu ích để đánh giá độ chính xác của bộ phân loại tín hiệu điện tim ECG và hỗ trợ trong việc khẳng định kết luận của nghiên cứu.

PHÂN LOẠI TÍN HIỆU ECG DÙNG NEURAL NETWORK

Trích đặc trưng tín hiệu điện tim

Trong quá trình trích đặc trưng tín hiệu điện tim, có ba công đoạn chính: đầu tiên là thu thập từng nhịp tim, tiếp theo là chuyển đổi nhịp tim từ miền thời gian sang miền tần số bằng phương pháp DWT Mayer 4, và cuối cùng là giảm chiều dữ liệu thông qua PCA Phần 3.1.1 sẽ trình bày chi tiết về phương pháp thu thập từng nhịp tim.

3.1.1 Tách từng nhịp tim từ bộ dữ liệu Arrythmia

Tín hiệu ECG từ 48 bệnh nhân đã được mã hóa và cần chuyển đổi sang định dạng file Matlab để xử lý Sau khi chuyển đổi, tín hiệu ECG chưa qua xử lý đã được MIT gán nhãn cho mỗi đỉnh R, xác định loại bệnh, lead thu thập và số nhịp Hầu hết tín hiệu được lấy từ lead MLII, chỉ có 2 tín hiệu không thuộc lead này, do đó, 2 bệnh nhân này đã được loại bỏ để tạo ra bộ dữ liệu đồng nhất.

Sau khi giải mã tập dữ liệu của MIT qua file Matlab, người thực hiện đã tách từng nhịp tim thành công Mỗi nhịp tim được lấy 200 mẫu, bắt đầu từ đỉnh R và lấy về phía trước.

Bài viết trình bày về việc lấy mẫu 100 mẫu với tần số 360Hz, trong đó sau khi thu thập 200 mẫu, ta nhận được dạng sóng nhịp tim như hình 3.3 Hình 3.2 là điện tâm đồ (ECG) tải từ bộ dữ liệu MIT-BIH, và hình 3.3 thể hiện một nhịp tim được tách ra từ bộ dữ liệu này.

Hình 3.2 Tín hiệu ECG tải từ MIT-BIH

Hình 3.3 Tín hiệu ECG sau khi tách từng nhịp

Sau khi tách chuỗi nhịp tim của 46 bệnh nhân thành từng nhịp riêng lẻ, người thực hiện nghiên cứu đã áp dụng phương pháp phân tích sóng con (DWT) để chuyển đổi các nhịp tim từ miền thời gian sang miền tần số.

3.1.2 Chuyển đổi wavelet rời rạc tín hiệu nhịp tim từ miền thời gian sang miền tần số

Phép biến đổi Fourier (FT) là một công cụ toán học quan trọng trong xử lý tín hiệu, giúp chuyển đổi giữa miền không gian và tần số Tuy nhiên, FT chỉ cung cấp thông tin toàn cục và không hiệu quả với tín hiệu có đột biến Để khắc phục, Dennis Gabor đã giới thiệu phép biến đổi Fourier cửa sổ, cho phép phân tích tín hiệu theo từng đoạn nhỏ, nhưng vẫn bị hạn chế bởi nguyên lý bất định Heisenberg Phép biến đổi Wavelet ra đời như một giải pháp tiếp theo, với phương pháp đa phân giải do Morlet phát triển vào năm 1975 Phương pháp này sử dụng sóng nhỏ (wavelet) để so sánh với tín hiệu, bắt đầu từ tần số thấp và dần nâng cao để phân tích chi tiết các thành phần biến thiên nhanh trong tín hiệu.

Biến đổi wavelet là một quá trình phức tạp, đặc biệt là biến đổi wavelet liên tục, khi nó lấy mẫu quá nhiều dạng sóng tín hiệu gốc, dẫn đến việc tạo ra nhiều hệ số không cần thiết Mặc dù sự dư thừa này không gây vấn đề trong phân tích, nhưng nó trở thành một thách thức lớn khi khôi phục tín hiệu gốc, vì quá trình này sẽ tốn nhiều thời gian Do đó, trong các ứng dụng yêu cầu biến đổi hai chiều, cần có một phương pháp biến đổi tạo ra ít hệ số nhất để khôi phục tín hiệu gốc nhanh chóng Biến đổi wavelet rời rạc đáp ứng yêu cầu này, là một trường hợp đặc biệt của biến đổi wavelet, cung cấp mối quan hệ chặt chẽ giữa tín hiệu trong miền thời gian và tần số.

+ 𝑊(𝑗, 𝑛) là các hệ số của phép biến đổi wavelet rời rạc

+ 𝑠(𝑛) là tín hiệu gốc đã được rời rạc hóa

+ 𝜓 là hàm biến đổi wavelet rời rạc

Phép biến đổi wavelet rời rạc cho phép phân tích tín hiệu s(n) thành các thành phần nhỏ thông qua bộ lọc thông thấp h[n] và bộ lọc thông cao g[n] Thuật toán wavelet decomposition chia tín hiệu thành các xấp xỉ thô (a) và thông tin chi tiết (d), với băng thông tín hiệu được chia đôi sau mỗi lần lọc Công thức tính toán cho hai thành phần này được trình bày trong phương trình (3.2) và (3.3).

Hình 3.4 Sơ đồ thuật toán phân rã dùng wavelet

Khi thực hiện phân tích wavelet, lần phân tích đầu tiên sẽ tạo ra thành phần 𝑎 1 [𝑘] và 𝑑 1 [𝑘], được gọi là phân tích ở mức 1 Tiếp theo, thành phần 𝑎 1 [𝑘] sẽ được phân tích thêm một lần nữa, dẫn đến việc tạo ra 𝑎 2 [𝑘] và 𝑑 2 [𝑘], gọi là phân tích ở mức 2 Quá trình này tiếp tục cho đến mức phân tích thứ l theo yêu cầu Hình 3.4 minh họa sơ đồ thuật toán phân rã wavelet, trong đó thể hiện mối quan hệ giữa thành phần xấp xỉ a và thành phần thông tin chi tiết d.

Trong đó : + 𝑎 𝑁 [𝑘] là xấp xỉ tại mức phân tích thứ N

+ 𝑎 𝑁−1 [𝑘] là xấp xỉ tại mức phân tích thứ N – 1

+ 𝑑 𝑗 [𝑘] là chi tiết tại mức phân tích thứ j

Từ đó ta có tín hiệu s[k] sau khi áp dụng thuật toán phân rã dùng wavelet sẽ được tính như công thức (3.5):

Sau khi áp dụng thuật toán phân rã wavelet, tín hiệu rời rạc s[k] sẽ được chia thành nhiều thành phần nhỏ hơn, với băng thông giảm đi một nửa ở mỗi mức phân tích Hình 3.5 minh họa tổng quát quy trình của thuật toán phân rã wavelet.

Hình 3.5 Chi tiết thuật toán phân rã dùng wavelet

Hình 3.6 Nhịp tim sau khi được phân rã wavelet

Mỗi nhịp tim được phân tách thành 200 mẫu, sử dụng xấp xỉ FIR của wavelet Mayer (‘dmey’), với các hệ số xấp xỉ mức độ 4 bao gồm dải tần từ 0 đến 11,25 Hz và hệ số chi tiết mức độ 4 từ 11,25 đến 22,25 Hz Nghiên cứu chỉ ra rằng mật độ phổ công suất của các nhịp đập khác nhau chứa thông tin phân biệt rõ ràng trong các hệ số này Các hệ số được giảm chiều bằng phương pháp PCA Hình 3.2 minh họa nhịp tim ECG được tách ra, trong khi hình 3.6 thể hiện tín hiệu nhịp tim sau khi phân rã wavelet tới các hệ số xấp xỉ và chi tiết cấp 4 Phần tiếp theo sẽ trình bày về giảm chiều dữ liệu sử dụng PCA.

3.1.3 Giảm chiều dữ liệu sử dụng phương pháp phân tích thành phần chính PCA

Phân tích thành phần đặc trưng (PCA) là một phương pháp thống kê hữu ích để phân tích mối liên hệ giữa các chiều (dimension) hoặc biến (variances) trong một bộ dữ liệu (dataset) Phương pháp này giúp giảm số lượng biến cần thiết để mô tả bộ dữ liệu, đồng thời tối thiểu hóa thông tin bị mất PCA có khả năng nén dữ liệu hiệu quả, giúp đơn giản hóa quá trình phân tích mà vẫn giữ được các đặc điểm quan trọng của dữ liệu ban đầu Dưới đây là phần nghiên cứu về cơ sở toán học của PCA.

Cho một bộ dữ liệu S như sau:

+ S: Tập dữ liệu ta có

+ S1, S2, …, Sn : Các chiều (dimensions) của tập dữ liệu S

+ n : Số lượng chiều của tập S + m : Số lượng mẫu (sample) của tập S

Tiến hành tính toán để tìm các thông số sau:

+ C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S + (eigenvalue) : Giá trị riêng của ma trận C

U (véc tơ trị riêng) là thành phần quan trọng của ma trận C, trong khi P (thành phần chính) đại diện cho các đặc trưng của tập dữ liệu S Giá trị trung bình của mỗi chiều dữ liệu được tính theo công thức: \( \text{mean} = \frac{1}{m} \sum_{j=1}^{m} s_{ij} \).

Giá trị hiệp phương sai của các cặp chiều dữ liệu và ma trận hiệp phương sai của tập dữ liệu S được tính theo công thức cụ thể.

Giá trị hiệp phương sai (covariance value):

Ma trận hiệp phương sai C (covariance matrix) được tính theo công thức sau đây:

1 2 cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) n n n n n n

Giá trị riêng  (eigenvalue)và véc tơ trị riêng U (eigenvector) của ma trận C được tính bằng cách giải phương trình sau:

C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S

 (eigenvalue) : Giá trị riêng của ma trận C

In (identify matrix n-by-n ) : Ma trận xác định kích thước nxn

U (eigenvector) : Véc tơ trị riêng của ma trận C (bằng kích thước với ma trận C là nxn);

Sau khi giải phương trình trên ta sẽ thu được  va U có dạng như sau:

Các cột của ma trận U được sắp xếp theo thứ tự giảm dần của các giá trị riêng λ, từ trái sang phải Giá trị riêng λi càng lớn thì véc tơ trị riêng tương ứng càng có ảnh hưởng mạnh mẽ.

U  i càng mang nhiều thông tin của tập dữ liệu S Thành phần chính P (Pricipal component) của tập dữ liệu S được tính như sau:

Giá trị riêng  dạng ma trận đường chéo

Khôi phục tập dữ liệu S từ các phần chính

Phân loại tín hiệu điện tim sử dụng phương pháp mạng thần kinh nhân tạo Neural

Nghiên cứu này sử dụng mô hình phân loại dựa trên mạng neural network feed-forward, với lớp ngõ vào gồm 12 nút tương ứng với 12 đặc trưng Mô hình bao gồm một lớp ẩn với 10 neuron và lớp ngõ ra có 6 neuron đại diện cho 6 dạng tín hiệu điện tim Lựa chọn 10 neuron cho lớp ẩn được xác định qua phương pháp thử và sai, với độ chính xác cao nhất đạt được từ mô hình này Các trọng số của mạng neural được cập nhật bằng phương pháp lan truyền ngược lỗi, trong đó MSE (Mean Square Error) giữa đáp ứng mong muốn và thực tế được tính toán để điều chỉnh trọng số cho đến khi MSE đạt dưới ngưỡng 0,0001 Sau khi hoàn tất quá trình huấn luyện, các tập dữ liệu kiểm tra được đưa vào để tiến hành phân loại.

Hình 3.8 Mô hình bộ phân loại Neural Network

Thuật toán lan truyền ngược để huấn luyện mạng truyền thằng ba lớp được tóm tắt như sau:

Bước 1: Chọn tốc độ 𝜂 > 0, chọn sai số cực đại 𝐸 𝑚𝑎𝑥 Bước 2: Khởi động:

- Gán các trọng số 𝑤 𝑖𝑞 (𝑘), 𝑣 𝑞𝑗 (𝑘) (𝑖 = 1, 𝑛̅̅̅̅̅; 𝑗 = 1, 𝑚̅̅̅̅̅̅; 𝑞 = 1, 𝑙̅̅̅̅) bằng giá trị ngẫu nhiên nhỏ bất kỳ

Bước 3: (Truyền thuận dữ liệu) Tính ngõ ra của mạng với tín hiệu vào là 𝑥 (𝑘) :

𝑦 𝑖 (𝑘) = 𝑎 𝑜 (𝑛𝑒𝑡 𝑖 (𝑘)) (𝑖 = 1, 𝑛̅̅̅̅̅) (3.19) Bước 4: (Lan truyền ngược sai số) Cập nhập trọng số của mạng:

Bước 5: Tính sai số tích lũy:

Bước 6: Nếu k

Ngày đăng: 23/12/2023, 21:50