TỔNG QUAN
Các phương pháp phát hiện rối loạn nhịp tim dựa trên tín hiệu PPG6 1 Phương pháp sử dụng mô hình thống kê
Ý tưởng sử dụng tín hiệu PPG để phát hiện rối loạn nhịp tim xuất phát từ thực tế rằng, rối loạn nhịp tim thay đổi nhịp co bóp của tim dẫn đến sự thay đổi lưu lượng máu bơm đi khắp cơ thể Chính vì vậy, hệ quả dẫn đến là sự thay đổi của tín hiệu PPG Hình 2.1 cho thấy khi có sự xuất hiện của rối loạn nhịp tim, tín hiệu PPG trở nên không ổn định và có sự thay đổi rõ rệt về tần số và biên độ so với khi không có rối loạn nhịp tim
Hình 2.1: Tín hiệu PPG có sự khác biệt giữa người không mắc và mắc các bệnh rối loạn nhịp tim [10]
Rối loạn nhịp tim có rất nhiều biến thể khác nhau như là rung tâm nhĩ, cuồng tâm nhĩ, co thắt tâm thất sớm và co thắt tâm nhĩ sớm Tuy nhiên hiện nay hầu hết các nhà nghiên cứu trong lĩnh vực này chỉ tập trung vào rung tâm nghĩ bởi sự nguy hiểm và độ phổ biến của nó
Hiện nay các phương pháp dựa trên PPG để chẩn đoán rối loạn nhịp tim chủ yếu dựa trên các phương pháp dựa trên phân tích dữ liệu thực nghiệm (data-driven) Theo
7 đó, các nhà nghiên cứu thu thập tín hiệu PPG cùng một số thông số liên quan đến sức khỏe , tiền sử bệnh trên từng bệnh nhân hoặc tình nguyện viên, tiếp đến họ sẽ phân loại và “dán nhãn dữ liệu” tương ứng với tình trạng bệnh cụ thể bằng các phương pháp chẩn đoán truyền thống mà ở đây là tín hiệu điện tâm đồ (ECG) Sau khi hoàn thành công việc thu thập và dán nhãn dữ liệu, các mô hình phân tích dữ liệu được xây dựng để tìm ra mối liên hệ giữa PPG và rối loạn nhịp tim và từ đó phát hiện được rối loạn nhịp tim từ PPG
Có ba phương pháp phân tích dữ liệu thực nghiệm được sử dụng rộng rãi trong các nghiên cứu trong phát hiện rối loạn nhịp tim dựa trên tín hiệu PPG gồm:
Sử dụng mô hình thống kê
Sử dụng mô hình học máy
Sử dụng mô hình học sâu
2.1.1 Phương pháp sử dụng mô hình thống kê
Xu hướng chung của các nghiên cứu sử dụng mô hình thống kê để chẩn đoán rối loạn nhịp tim là đưa ra một khoảng giá trị giới hạn cho các chỉ số, được tính toán dựa trên chuỗi khoảng cách giữa các đỉnh của tín hiệu PPG (PP-interval), Hình 2.2
Hình 2.2: Khoảng cách đỉnh (PP) của tính hiệu PPG [11]
Thuật toán phát hiện rối loạn nhịp tim từ PPG của các nghiên cứu sử dụng phương pháp thông kê nhìn chung được tiến hành theo các bước gồm tiền xử lý (preprocessing), tìm đỉnh (peak detection), tính toán chỉ số, phân loại Hình 2.3 mô tả thuật toán để tiến hành phát hiện rối loạn nhịp tim bằng các phương pháp sử dụng mô hình thống kê Tiền xử lý (bước 1): có nhiệm vụ lọc nhiễu và đánh giá các đoạn tín hiệu PPG đủ tiêu chuẩn để có thể sử dụng trong việc phát hiện rối loạn nhịp tim Tìm đỉnh (bước 2): xác định các đỉnh của tín hiệu PPG, từ đó tính toán được khoảng thời gian giữa
8 các đỉnh Tính toán các chỉ số (bước 3): từ chuỗi khoảng cách đỉnh được tính toán ở bước
2, các chỉ số thống kê được tính toán Bước 4: sau khi tính toán các giá trị của các chỉ số thống kê, việc phân biệt giữa tín hiệu thể hiện rối loạn và bình thường được quyết định bởi lớn hay nhỏ một giá trị ngưỡng
Hình 2.3: Sơ đồ quy trình chung của các thuật toán phát hiện rối loạn nhịp tim bằng phương pháp thống kê
Kết quả của các thuật toán sẽ được đánh giá dựa trên độ đặc hiệu (specificity), độ chính xác (accuracy), độ nhạy (sensitivity) (tiêu chuẩn này cũng được các nghiên cứu sử dụng để đánh giá thuật toán dựa trên mô hình học máy và học sâu) Ngoài ra đường cong ROC (Receiver operating characteristic) cùng với diện trích dưới đường cong (AUC) cũng được sử dụng khá nhiều Chúng dùng để lựa chọn các giá trị tham số phù hợp cho thuật toán ví dụ như giá trị các ngưỡng cũng như so sánh tính hiệu quả giữa các thuật toán khác nhau, theo đó thuật toán có chỉ số AUC cao hơn cho thấy kết quả chính xác hơn trong việc phát hiện rối loạn nhịp tim
Có nhiều nghiên cứu sử dụng phương pháp này và điểm khác biệt duy nhất nằm ở chỉ số nào được sử dụng để phát hiện bệnh rối loạn nhịp tim Các chỉ số được sử dụng phổ biến bao gồm Root mean square of successive difference ( RMSSD), Sample entropy
9 (SampEn), "Hệ số entropy mẫu" (coefficient of sample entropy - CosEn), Turning point ratio (TPR)
Bên cạnh việc sử dụng một chỉ số để phát hiện các trường hợp xuất hiện rối loạn nhịp tim, một số nghiên cứu còn đưa ra các phương pháp kết hợp hai hoặc nhiều chỉ số lại với nhau Syed Khairul Bashar và các cộng sự, [12] đưa ra biểu thức gồm hai tham số là RMSSD và SampEn được hiệu chỉnh bởi một trọng số 𝑤 Kết quả của biểu thức được so sánh với một ngưỡng có giá trị 0,94 để phân biệt giữa rung tâm nhĩ và không rung tâm nhĩ Các nghiên cứu [13] [14] phân biệt giữ rung tâm nhĩ và không rung tâm nhĩ bằng cách sử dụng RMSSD và Shannon entropy, theo đó, một đối tượng được xác định là mắc bệnh khi hai chỉ số tính toán từ tín hiệu PPG của đối tượng đó lớn hơn một ngưỡng cho trước tương ứng với từng chỉ số Ngoài ra, một số nghiên cứu còn kết hợp giữa các chỉ số trên cùng với một vài chỉ số tính toán từ miền tần số của tín hiệu PPG, biểu đồ Poincare , [15] [16] [17]
2.1.2 Phương pháp sử dụng mô hình học máy
So với phương pháp sử dụng mô hình thống kê, phương pháp sử dụng mô hình học máy (machine learning) sử dụng đa dạng các chỉ số hay nói chính xác hơn là các đặc trưng (feature) khác nhau để xác định một đoạn tín hiệu PPG có bị rối loạn nhịp tim hay không Bên cạnh các chỉ số thống kê, một số các đặc trưng được sử dụng như đặc trưng trong miền thời gian (Time-domain features), [18], đặc trưng trong miền tần số (Frequency-domain features), [19], đặc trưng mô tả dạng sóng của tính hiệu PPG (Waveform descriptors), [18]
Một thuật toán sử dựng mô hình học máy để phát hiện rối loạn nhịp tim dựa trên tín hiệu PPG sẽ trải qua các bước tiền xử lý, trích xuất đặc trưng, phân loại bằng mô hình học máy Có thể thấy, so với phương pháp thống kê mô hình học máy khác ở hai điểm Điểm thứ nhất là số lượng đặc trưng nhiều hơn, điều này có nghĩa sẽ cần nhiều thuật toán
10 hơn để trích xuất các đặc trưng giống nhau Điểm thứ hai nằm ở phương pháp phân loại, ở đây thay vì sử dụng các ngưỡng so sánh thì một mô hình học máy được sử dựng Các mô hình được sử dụng phổ biến gồm (k–nearest neighbors, support vector machine,…) Chính vì sử dụng các mô hình học máy do đó, để hình thành mô hình cần trải qua hai giai đoạn là giai đoạn huấn luyện (training) và giai đoạn đánh giá (testing) Hình 2.4 mô tả tổng thể một nghiên cứu sử dụng mô hình học máy để phát hiện rối loạn nhịp tim
Hình 2.4: Sơ đồ quy trình chung của các thuật toán phát hiện rối loạn nhịp tim bằng phương pháp mô hình học máy
2.1.3 Phương pháp sử dụng mô hình học sâu
Hình 2.5: Sơ đồ quy trình chung của các thuật toán phát hiện rối loạn nhịp tim bằng phương pháp mô hình học sâu
11 Học sâu (deep learning) là một phần trong một nhánh của phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp với việc học biểu diễn đặc trưng (representation learning) Vì vậy về cơ bản một nghiên cứu sử dụng mô hình học sâu sẽ không khác nhiều so với mô hình học máy, Hình 2.5 Điểm khác biệt duy nhất giữa hai phương pháp này chính là mô hình học sâu có khả năng tự động trích xuất đặc trưng thông qua các kiến trúc mạng thần kinh (neural network) Mô hình học sâu được sử dụng nhiều nhất là mạng nơ-ron tích chập (convolution neural network-CNN) CNN được áp dụng để phân tích hình bằng cách sử dụng các bộ lọc (kernel – filter) và phép tích chập để xác định các đặc trưng của dữ liệu một cách tự động Điều này đặc biệt thích hợp trong các tác vụ liên quan đến xác định đặc trưng của các tập dữ liệu Nhờ đặc điểm này mà các thuật toán sử dụng CNN không cần các thuật toán trích xuất đặc trưng như trong mô hình học máy, giảm bớt các tác vụ hiệu chỉnh tham số cho thuật toán, vốn là những yếu tố gây ảnh hưởng đến độ chính xác và phạm vi áp dụng của thuật toán Poh và các cộng sự, [10] đã tiến hành một nghiên cứu sử dụng mô Dense CNN (DCNN) để phát hiện rung tâm nhĩ, ngoại thu tâm nhĩ và nhịp tim bình thường với đầu vào là tín hiệu PPG thô Nghiên cứu này so sánh tính hiệu quả của mạng DCNN với các thuật toán sử dụng phương pháp thống kê và học máy, và cho thấy DCNN hiệu quả hơn so với các phương pháp còn lại dựa trên ma trận nhầm lẫn (confusion matrix) Bằng cách quan sát các bộ lọc sau khi huấn luyện, nghiên cứu này cho thấy các mạng DCNN có xu hướng trích xuất các đỉnh của tín hiệu PPG Điều này giống như cơ sở lập luận của các phương pháp sử dụng chỉ số thống kê
Phương án phát triển thuật toán
Từ những trình bày và phân tích ở trên, luận văn tiến hành xây dựng thuật toán theo hướng như sau
2.3.1 Thuật toán nhận diện và loại bỏ các đoạn tín hiệu PPG bị ảnh hưởng do cử động
Luận văn dựa trên thuật toán tạo mẫu và tác vụ phát hiện bất thường (abnormaly detection) của mô hình autoencoder để nhận diện và loại bỏ các đoạn tín hiệu PPG bị ảnh hưởng do cử động Thuật toán tạo mẫu phân tích đoạn tín hiệu PPG thành các mẫu, các mẫu này sẽ là dữ liệu đầu vào cho mô hình autoencoder đã được huấn luyện trước đó Mô hình autoencoder sẽ được huấn luyện dựa trên bộ dữ liệu PPG đã được đánh giá trước gồm tín hiệu của người mắc và không mắc bệnh rối loạn nhịp tim để đảm bảo mô hình có thể phân biệt tốt giữa tín hiệu PPG tốt và tín hiệu PPG xấu mà không bỏ xót các tín hiệu PPG của người bệnh
2.3.2 Thuật toán phát hiện rối loạn nhịp tim dựa trên tín hiệu PPG
Luận văn sử dụng mô hình học sâu với đầu vào là phổ thời gian – tần số Do hiện nay hai mô hình được sử dụng phổ biến là CNN và CNN-LSTM mà chưa có nghiên cứu so sánh tính hiệu quả của hai mô hình này nên luận văn sẽ so sánh thuật toán dựa trên cả hai mô hình Để đảm bảo tính công khách quan trong việc so sánh hai mô hình, việc xây dựng mô hình được tiến hành theo trình tự từ đơn giản đến phức tạp cho đên khi hai mô hình đạt được mục tiêu đề ra gồm độ đặc hiệu, độ nhạy và độ chính xác là
25 95% Theo đó, mô hình bào có số lượng tham số và thời gian xử lý ngắn hơn trên cùng một cấu hình phần cứng sẽ được đánh giá tốt hơn
Tín hiệu PPG
3.1.1 Nguồn gốc của tín hiệu PPG
Công nghệ PPG bắt đầu từ hiện tượng những chất khác nhau có mức độ hấp thụ ánh sáng khác nhau Điều này được thể hiện trong định luật Beer–Lambert:
Với 𝐴 là cường độ ánh sáng bị hấp thụ bởi vật chất trông môi trường được chiếu sáng, 𝜀 là hằng số hấp thụ phụ thuộc loại ánh đơn sắc chiếu vào môi trường, 𝑐 mật độ vật chất của môi trường, 𝐿 chiều dài đường truyền của ánh sáng trong môi trường Theo đó khi chiếu một ánh sáng đơn sắc lên bề mặt da, thì tùy vào cấu trúc tại vị trí da đó mà ánh sáng sẽ bị hấp thụ khác nhau Ngoài ra những loại ánh sáng khác nhau cũng sẽ có mức độ hấp thụ khác nhau Hình 3.1 Trong đó ánh sáng lam và xanh với bước sóng ngắn khoảng 560nm và 480 nm có mức độ xuyên thấu thấp thường bị hấp thụ ở tầng biểu bì
(epidermis) và tầng hạ bì (dermis), vì vậy chúng chỉ có thể chạm đến các mao mạch nhỏ ở các vùng này Ánh sáng đỏ và ánh sáng hồng ngoại có mức độ xuyên thấu cao hơn do có bước sóng dài khoảng từ 790nm và 1000nm Hai loại ánh sáng này bị hấp thụ mạnh bởi các phân tử oxyhemoglobin (O2HHb) và phân tử hemoglobin (HHb) vì vậy được ứng dụng trong đo độ bão hòa oxy trong máu (SPO2) cũng như được sử dụng rộng rãi trong các nghiên cứu về sự thay đổi lưu lượng máu ở vùng ngoại vi
27 Hình 3.1: (a) Cấu trúc mô dưới da, (b) những ánh sáng có bước sóng khác nhau có mức độ đâm xuyên khác nhau [35]
Từ nguyên lý này, công nghệ PPG được sinh ra bằng cách sử dụng một nguồn phát ánh sáng đơn sắc chiếu vào một vị trí trên bề mặt da và một thiết bị chuyển hóa ánh sáng còn lại thành tín hiệu điện dưới dạng điện áp Mô hình này đã xuất hiện từ những năm 1930, với những nghiên cứu của Molitor và Kniazuk (1936), Hanzlik (1936) Và chính thức với tên gọi là PPG bởi Hertzman và cộng sự Thiết bị PPG của Hertzman những năm 1937 được thể hiện ở hình Hình 3.2 Những thiết bị này mặc dù có sự thay đổi về kích thước lẫn cách lắp đặt nhưng đều giữa một nguyên lý chung là gồm một nguồn phát ánh sáng và một nguồn thu và chuyển hóa thành tín hiệu điện Trải qua gần một thế kỷ nghiên cứu và cải thiện, đặc biệt là với sự bùng nổ của công nghệ bán dẫn, những thiết bị PPG hiện nay vô cùng nhỏ gọn và tiện lợi được tích hợp vào điện thoại và đồng hồ thông minh, mà quen thuộc nhất chính là thiết bị đo SPO2 sử dụng ánh sáng đỏ và ánh sáng hồng ngoại
Hình 3.2: Thiết bị PPG của Hertzman qua các năm (a) (b) 1937, (c) 1938 [35]
28 Tóm lại, mặc dù bản chất và nguyên lý hấp thụ ánh sáng của các tổ chức dưới da và ánh sáng vẫn còn đang là đề tài tranh cãi nhưng nhìn chung có thể đi đến một định nghĩa cho tín hiệu PPG: “tín hiệu PPG là tín hiệu điện áp có được do sự chuyển hóa quang năng của ánh sáng còn lại sau bị hấp thụ bởi da” [35], Hình 3.3
Hình 3.3: Hệ thống thu thập tín hiệu PPG và tín hiệu PPG [35]
3.1.2 Thiết bị thu tín hiệu PPG
Từ nguyên lý của tín hiệu PPG, có thể thấy cấu tạo chung của các thiết bị tín hiệu PPG sẽ gồm có hai phần chính là phần thu và phần phát, nhưng để thiết bị hoạt động tốt và đạt được chức năng như mong muốn thì về cơ bản sẽ bao gồm:
Có nhiều sự lựa chọn cho thiết bị làm nguồn sáng, và hầu hết các thiết bị trên thị trường đều sử dụng đi-ot quang (light-emitting diode - LED) Để một hệ nguồn sáng hoạt động tốt thì cần có một mạch điều khiển cung cấp và duy trì sự ổn định của dòng điện đi qua nguồn thu Một số cấu hình mạch điện có thể tham khảo ở Hình 3.4
29 Hình 3.4:Cấu hình một số mạch phát của tín hiệu PPG [35]
Nguồn thu là cảm biến phát hiện ánh sáng có chức năng biến đổi năng lượng từ ánh sáng thành dòng điện Các cảm biến này có thể làm từ photocells, photoresistors, photodiodes, và phototransistors
3.1.3 Tín hiệu PPG và cơ thể
Dù được bố trí với cách nào và sử dụng thiết bị nào để thu tín hiệu PPG, thì một tín hiệu PPG đều có dạng sóng và gồm hai thành phần cơn bản là DC và AC Thành phần
DC phản ánh lượng máu không thay đổi trong mạch, bao gồm máy trong động mạch và tĩnh mạch, trong khi thành phần AC phản ánh biên độ lưu máu thay đổi theo chu kỳ làm việc của tim Hình 3.5 thể hiện sự thay đổi của thành phần AC của tín hiệu PPG tại vị trí đo, khi tâm thất của tim co bóp một lượng máu lớn được đẩy đi khắp cơ thể, đó là khi tín hiệu PPG đạt giá trị lớn nhất
30 Hình 3.5: Tín hiệu PPG thay đổi theo chu kỳ co bóp của tim với thành phần DC và thành phần DC Thành phần AC chủ yếu xuất hiện do sự thay đổi lưu lượng máy ở động mạch theo chu kỳ tim (hình bên dưới), trong khi lưu lượng máu của tĩnh mạch hầu như không thay đổi và chủ yếu đóng góp vào thành phần DC của tín hiệu
Từ những điều trên, một cách khái quát ta có sơ đồ thể hiện mối quan hệ giữa các thành phần trong cơ thể và tín hiệu PPG như Theo đó có thể thấy tín hiệu PPG mang rất nhiều thông tin của hệ tuần hoàn, bao gồm:
Lưu lượng máu nhiều hay ít thể hiện qua cường độ mạnh yếu của tín hiệu PPG
Nhịp tim và thể hiện qua các thành phần tần số của tín hiệu PPG
Thành phần mô và máu thể hiện qua sự hấp thụ các loại ánh sáng đơn sắc khác nhau tại vị trí đo
Những tác động đến hệ mạch từ động mạch chủ đến vị trí đo
Từ đây có thể thấy rằng PPG là tín hiệu phản hồi của một hệ thống tạo nên từ sự phối hợp hoạt động của các bộ phận khác nhau mà ở đay chính là tim, hệ mạch máu, sự điều khiển của hệ thần kinh, thành phần trong mô da tại vị trí đo
31 Hình 3.6: Sự ảnh hưởng của các yếu tố bên trong cơ thể đến tín hiệu PPG.
Phương pháp dán nhãn tín hiệu PPG cho trường hợp mắc và không mắc các bệnh liên quan rối loạn nhịp tim
Quá trình co bóp của tim được thực hiện nhờ hai loại tế bào là pacemaker và nonpacemaker Pacemaker có nhiệm vụ phát tín hiệu điện hóa điều khiển chu trình co bóp của tim còn tế bào nonpacemaker có nhiệm vụ lan truyền tín hiệu hiệu này đến các tế bào cơ tim Sự phát và truyền dẫn tín hiệu của các tế bào này dựa trên quá trình khử cực (depolarization) và tái phân cực (repolarization) của tế bào, khi các quá trình này diễn ra ổn định và nhịp nhàng thì tim hoạt động tốt, ngược lại khi quá trình này bất ổn thì tim sẽ co bóp không đúng cách, hiện tượng này gọi là rối loại nhịp tim (arrhythmia)
Có nhiều dạng rối loại nhịp tim khác nhau, được phân chia dựa trên các tiêu chí về tần số (nhanh – chậm) và vị trí diễn ra rối loạn (tâm nhĩ – tâm thất)
Chính vì có sự liên quan mật thiết đến hoạt động điện sinh lý của tim nên trong chẩn đoán lâm sàn các phương pháp đo điện tâm đồ được sử dụng như một tiêu chuẩn trong chẩn đoán rối loạn nhịp tim Và chính vì vậy, trong hầu hết các nghiên cứu tín hiệu ECG được thu đồng bộ với tin hiệu PPG là cơ sở chính trong việc dán nhãn dữ liệu Điện tâm đồ với bản chất là các tín hiệu điện áp được đo trên các vị trí cụ thể trên cơ thể
32 Thông thường, có 10 vị trí đo tạo nên 12 chuyển đạo (12 tín hiệu ECG), Hình 3.7 Các chuyển đạo này sẽ là cơ sở để bác sỹ chẩn đoán bệnh tình của bệnh nhân
Hình 3.7: Các vị trí đặt điện cực của 12 chuyển đạo khi đo điện tâm đồ [36]
Một số ví dụ về rối loạn nhịp tim được thể hiện trên điện tam đồ chuyển đạo II được trình bày như sau:
Nhịp điệu bình thường của tim bắt nguồn từ nút xoang và do đó được gọi là nhịp xoang bình thường Hình 3.8 Nhịp tim bình thường trong lúc nghỉ ngơi là 60 đến 100 nhịp mỗi phút và ECG sẽ có đầy đủ các thành phần như trong Hình 3.8
Hình 3.8: Tín hiệu ECG đầy đủ gồm sóng P, bộ phức QRS và sóng T [37]
Ngoại tâm thu thất bắt nguồn từ tâm thất Hình 3.9 diễn tả một cơn ngoại thu tâm thất, với hai nhịp xoang theo sau là nhịp sớm thất có hình dạng bất thường, dạng rộng và xuất hiện sớm hơn dự kiến
33 Hình 3.9: Ngoại thu tâm thất [37]
Những trường hợp rung nhĩ, ECG sẽ có sóng P không rõ ràng bị che lắp bời sóng f, Hình 3.10
Autoencoder
Với cấu tạo như một “nút thắt cổ chai” thì nhiệm vụ của một mạng autoencoder là cố gắng làm cho dữ liệu đầu ra giống như dữ liệu đầu vào nhiều nhất có thể Chính vì vậy, mạng autoencoder thường được sử dụng như một mô hình học không giám sát và ứng dụng vào các tác vụ như:
Giảm số chiều dữ liệu (ứng dụng trong nén dữ liệu, nén ảnh)
3.3.2 Cấu trúc của mạng autoencoder
Cấu trúc của mạng autoencoder gồm một bộ mã hóa (encoder) và bộ giải mã (decoder)
34 Hình 3.11: Cấu trúc của một mạng autoencoder (nguồn: internet)
Bộ mã hóa có cấu tạo gồm một lớp đầu vào (input layer) và các lớp mạng có nút nhỏ hơn và kết thúc bằng lớp mạng có số nút nhỏ nhất gọi là lớp ẩn (hidden layer) hoặc không gian mẫu (latten space) Với cấu tạo như vậy, bộ mã hóa có chức năng mã hóa dữ liệu đầu vào thành dữ liễu có chiều nhỏ hơn Hay nói cách khác bộ encoder sẽ nén dư liệu đầu vào và biểu diễn nó dưới dạng dữ liệu có kích thước (số chiều) bằng với số nút của lớp ẩn
Trái với bộ mã hóa, bộ giải mã bắt đầu là lớp ẩn, tiếp đến là các lớp mạng có số nút tăng dần và kết thức là lớp đầu ra (output layer) hay còn gọi là dữ liệu tái tạo (reconstructed data) có số nút bằng với số nút của lớp đầu vào Do đó, bộ mã hóa có tác dụng tái tạo lại dữ liệu từ lớp ẩn
3.3.3 Hàm mất mát và huấn luyện mạng autoencoder
Có nhiều phiên bản mạng autoencoder và mỗi phiên bản sẽ có một hàm mất mát tương ứng Đối với mạng autoencoder truyền thống, thì hàm mất mát thường là sai số toàn phương trung bình (mean square error) hoặc hàm sai số trung bình tuyệt đối (mean absolute error) Theo đó, việc huấn luyện sẽ liên tục thay đổi trọng số của mạng sao cho giá trị của hàm mất mát là nhỏ nhất:
Sai số toàn phương trung bình
Sai số tuyệt đối trung bình
𝑦 𝑖 là lớp đầu ra (dữ liệu đầu ra), 𝑦̂ 𝑖 là lớp đầu vào (dữ liệu đầu vào), 𝑁 số chiều dữ liệu.
Mạng thần kinh tích chập
Mô hình mạng neural tích chập (convolution neural network - CNN) là một trong những mô hình học sâu dùng để phân tích hình ảnh Các tác vụ thường gặp đó là xác định đối tượng và nhận dạng khuôn mặt
Một mạng CNN là sự kết hợp của lớp tích chập (convolutional layer), lớp gộp (pooling layer), hàm kích hoạt (activation function), lớp mạng kết nối đầy đủ (fully connected layer)
Lớp tích chập có nhiệm vụ trích xuất các đặc trưng của dữ liệu đầu vào (hình ảnh) Để làm được điều đó mạng CNN sử dụng phép tích chập giữa dữ liệu và một ma trận gọi là mặt nạ (kernel) hay bộ lọc (filter) Hình 3.12 mô tả quá trình tính toán của lớp tích chập
Hình 3.12: Ví dụ về phép tích chập (nguồn: internet)
Trong trường hợp dữ liệu đầu vào dưới dạng tensor (nhiều ảnh có cùng kích thước hoặc một ảnh gồm nhiều kênh màu khác nhau) thì việc tính toán sẽ được tiến hành
36 như Hình 3.13 Theo đó đầu vào là một tensor có kích thước 6 × 6 × 3 (ba ảnh có kích thước 6 × 6), lớp tích chập có hai bộ lọc có kích thước 4 × 4 × 3 (ba ma trận có kích thước 4 × 4), mỗi lớp của của bộ lọc sẽ thực hiện phép tích chập với mỗi lớp tương ứng của đầu vào và sau đó cộng lại được đầu ra là hai ma trận có kích thước 3 × 3 để tạo thành đầu ra là một tensor có kích thước 3 × 3 × 2 Nhưng đầy chưa phải là bước cuối cùng của lớp tích chập, mỗi phần tử của tensor 3 × 3 × 2 vừa tính được sẽ là đối số của một hàm kích hoạt mà ở đâu là làm ReLU
Hình 3.13: Quá trình tính toán của một lớp tích chập hai bộ lọc với đầu vào là một tensor
Lớp gộp có chức năng giảm kích thước của dữ liệu mà vẫn giữ lại các thông tin quan trọng Về bản chất, thì lớp gộp cũng sử dụng các mặt nạ như lớp tich chập nhưng với các chức năng cụ thể đó là lấy tổng (sum pooling), lấy trung bình (average pooling), cực đại (max pooling) Hình 3.14 mô tả quá trình tính toán của lớp gộp
Hình 3.14:Kết quả của lớp gộp với bộ gộp cực đại (max pooling) ở trên và bộ gộp trung bình (average pooling) ở dưới (nguồn: internet)
Lớp mạng kết nối đầy đủ
Sau khi trải qua các lớp tích chập và lớp gộp, dữ liệu bây giờ sẽ là một tensor có kích thước 3D gồm 𝑁, 𝐻, 𝑊, và sẽ được dàn ra thành một dữ liệu 1D có tích thước bằng
𝑁 × 𝐻 × 𝑊 Dữ liệu này sẽ là đầu vào của một mạng nơ – ron cơ bản có đầu ra là các nút để phân loại
Từ các lớp tích chập, lớp gộp và lớp mạng kết nối đầy đủ, một mô hình CNN hoàn chỉnh được mô tả trong Hình 3.15 với một mô hình gồm hai lớp tích chập và hai lớp gộp xen kẻ nhau
Hình 3.15: Một mô hình CNN hoàn chỉnh gồm 2 lớp tích chập, 2 lớp gộp xen kẽ và hai lớp mạng kết nối đầy đủ (nguồn: internet).
Mạng thần kinh bộ nhớ ngắn-dài
Mạng thần kinh bộ nhớ ngắn dài (long-short term memory neural network - LSTM) được tạo ra nhằm giải quyết tình trạng học kém hiệu quả của các mạng nơ – ron hồi tiếp thông thường đối với các kiểu dữ liệu dạng chuỗi và được tạo ra để trành hiện tượng vanishing gradient như ở các mạng nơ-ron hồi tiếp thông thường Theo đó một mạng LSTM được cấu tạo từ một hay nhiều lớp LSTM (tế bào), các tế bào này nối với nhau bởi các trạng thái 𝑐 𝑡 và ℎ 𝑡 , Hình 3.16 Các trạng thái giúp cho tế bào hiện tại kế thừa được thông tin của dữ liệu được xử lý bới tế bào trước đó
38 Hình 3.16: Cấu trúc của mạng LSTM (nguồn: internet)
Bên trong một tế bào LSTM, dữ liệu được xử lý thông qua bốn bước:
Lớp này được gọi là lớp ra quyết định LSTM xem xét thông tin từ trạng thái ô trước (ℎ 𝑡 − 1) và đầu vào 𝑥 𝑡 , đồng thời quyết định giữ hay loại bỏ bằng cách sử dụng hàm sigmoid Vì thế hàm sigmoid được xem như cổng quên Dữ liệu đầu ra 𝑓 𝑡 của lớp một được cấu thành từ trọng số 𝑤 𝑡 và bias 𝑏 𝑡 được tính toán như sau
Bước 2: Nhân lớp 2 và lớp 3:
Bước này cập nhật thông tin mới thông qua lớp 2 và lớp 3 với các giá trị đầu ra lần lượt được tính toán như sau:
Các thông tin được tính toán ở các lớp 1, 2 và 3 kết hợp với trạng thái trước đó ở tế bào trước 𝑐 𝑡−1 được tổng hợp thành trạng thái mới của tế bào hiện tại 𝑐 𝑡
Bước này là bước cuối cùng để tính toán trạng thái của tế bào hiện tại cũng như là đầu ra của nó Theo đó,
Và ℎ 𝑡 cũng chính là đầu ra của tế bào hiện tại
XÂY DỰNG THUẬT TOÁN
Dữ liệu sử dụng trong luận văn
Hiện nay hầu hết các nghiên cứu sử dụng tín hiệu PPG trong phát hiện rối loạn nhịp tim thường sử dụng bộ dữ liệu mở MIMICIII, được cung cấp từ Trung tâm Y tế Beth Israel Deaconess ở Boston, Massachusetts, Hoa Kỳ [37] [38] Bộ dữ liệu này được thu thập trong quá trình chăm sóc định kỳ tại bệnh viện, nên số lượng rất lớn, phù hợp cho các nghiên cứu sử dụng mô hình học sâu Các nghiên cứu sử dụng MIMICIII để làm dữ liệu cho phát triển thuật toán phát hiện rối loạn nhịp tim dựa trên PPG có thể kết đến bao gồm nghiên cứu của Poh và các cộng sự, [10] sử dụng mô hình CNN, nghiên cứu của Cheng và các cộng sự, [23], sử dụng mô hình CNN-LSTM với độ chính xác 98% Tuy nhiên MIMICIII cũng có nhược điểm là phần lớn các tín hiệu lấy từ dân cư ở các nước Âu – Mĩ vì vậy chưa thể khẳng định các kết quả nghiên cứu sẽ đúng cho người Việt Nam, hay ở một địa phương cụ thể nào đó mà nghiên cứu được tiến hành Để giải quyết vấn đề này, các nghiên cứu thường tiến hành huấn luyện mô hình trên tập dữ liệu MIMICIII và kiểm ra tín hiệu quả của mô hình trên dữ liệu do chính các nhà nghiên cứu thu thập Ví dụ như Poh và các cộng sự, [10], đã tiến hành xây dữ mô hình học sâu với mục đích phân biệt giữa người mắc và không mắc bệnh rối loạn nhịp tim dựa trên tín hiệu PPG, rồi sau đó sử dụng bộ dữ liệu PPG thu thập từ camera hồng ngoại của điện thoại để phân loại rối loạn nhịp tim
Bởi lý do trên, để có thể củng cố độ tin cậy của các thuật toán, có hai bộ dữ liệu được sử dụng trong luận văn gồm bộ dữ liệu mở MIMICIII và bộ dữ liệu thu thập từ các bệnh nhân ở phòng khám tim mạch của bệnh viện Thống Nhất (Số 1 Lý Thường Kiệt, Phường 7, Tân Bình, TP.HCM) Bộ dữ liệu MIMICIII được sử dụng để phát triển thuật toán cả xử lý tín hiệu và phát hiện rối loạn nhịp tim dựa trên tín hiệu PPG, trong khi đó bộ dữ liệu từ bệnh viện Thống Nhất sẽ được dùng để kiểm tra kết quả của thuật toán
Bộ dữ liệu cung cấp các thông tin bao gồm:
• Các tín hiệu PPG, ECG và ABP (áp suất máu ở động mạch) với tần số lấy mẫu là 125Hz
• Các thông tin về độ tuổi, giới tính, chiều cao, cân nặng
Quyền truy cập vào bộ dữ liệu được thể hiện cho phép sử dụng cho mục đích nghiên cứu khoa học, [39]
4.1.2 Bộ dữ liệu từ bệnh viện Thống Nhất
Với sự hỗ trợ từ bệnh viện Thống Nhất, bộ dữ liệu được thu thập từ các bệnh nhân đến khám tại bệnh viện Việc lấy mẫu được tiến hành dựa trên quy trình sau:
Bước 1: Bệnh nhân được hỏi các câu hỏi liên quan đến tình trạng sức khỏe hiện tại và thói quen sinh hoạt
Bước 2: Bệnh nhân nằm trên giường với tư thế thoải mái Sau đó các điện cực từ thiết bị ECG được đặt lên người bệnh nhân, thiết bị thu tín hiệu PPG được đeo ở ngón tay phải Thiết bị đo ECG gồm 12 đầu đo Contec ECG300G từ nhà sản suất Contec Medical Systems (Hồ Bắc, Trung Quốc), thiết bị đo PPG là thiết bị đo nồng độ ô-xy trong máu PO80 từ nhà sản xuất Beurer (Ulm, Germany) Cả hai thiết bị được kết nối với máy tính thông qua các phần mềm của nhà sản xuất để lưu tín hiệu trong quá trình đo Thông tin của các thiết bị và phần mềm được thể hiện ở Bảng 4.1 Quá trình đo diễn ra trong 2 phút
Bảng 4.1: Thông số thiết bị lấy mẫu
Tần số lấy mẫu 1000Hz Độ nhạy 5mm/mV; 10mm/mV;
Tần số lấy mẫu 60Hz Độ phân giải 8 bit
Bước 3: Dán nhãn dữa liệu Dữ liệu được dán nhãn bởi bác sỹ từ bệnh viện
Thống Nhất dựa trên tín hiệu ECG được thu cùng lúc với tín hiệu PPG
Dữ liệu thu thập đến ngày 15/5/2023, bộ dữ liệu được sử dụng gồm 201 điểm dữ liệu, được sử dụng làm tập kiểm tra cho thuật toán phát hiện rối loạn nhịp tim với quá trình dán nhãn được thực hiện bởi các bác sỹ của bẹnh viện Thống Nhất thông qua tín hiệu ECG được lấy cùng lúc với tín hiệu PPG Đặc điểm của dữ liệu được thể hiện
Bảng 4.2: Đặc điểm của dữ liệu thu từ bệnh viện Thống Nhất
Tổng số 202 Độ tuổi Từ 50 đến 90 tuổi
Số lượng mắc rối loạn nhịp tim 53
Thuật toán tiền xử lý tín hiệu PPG
Các đoạn tín hiệu PPG sẽ được xác định có bị ảnh hưởng bởi nhiễu hay không thông qua các bước sau:
Bước 1: Lọc nhiễu bằng bộ lọc thông dãy với tần số từ 0.5Hz đến 3Hz
Bước 2: Chia đoạn tín hiệu thành các đoạn với độ dài 10 giây Do 10 giây là độ dài mẫu thấp nhất mà trong các nghiên cứu về phát hiện rối loạn tim có thể dự đoán như đã trình bày ở chương 2
Bước 3: Tìm đỉnh tín hiệu PPG trong các đoạn tín hiệu 10 giây vừa chia và dùng thuật toán tạo mẫu để tạo dữ liệu đầu vào cho mô hình autoencoder đã được huấn luyện Các mẫu đạt chuẩn là các mẫu có giá trị hàm mất mát nhỏ hơn một giá trị cho phép Các đoạn tín hiệu có 95% các mẫu đạt chuẩn thì được giữa lại Sơ đồ hoàn chỉnh của thuật toán được diễn tả ở Hình 4.1
43 Hình 4.1: Sơ đồ thuật toán phát hiện và loại bỏ đoạn tín hiệu PPG bị ảnh hưởng do tác động của cử động
4.2.2 Thuật toán tìm đỉnh và thuật toán tạo mẫu
Thuật toán tìm đỉnh được sử dụng trong luận văn tham khảo từ [40] Theo đó thuật toán sẽ bắt đỉnh của từng đoạn tín hiệu, đoạn tín hiệu nằm giữa hai đỉnh cực tiểu được gọi là nhịp và sẽ được đem đi tạo mẫu thông qua thuật toán tạo mẫu Hình 4.2 cho thấy kết quả của thuật toán bắt đỉnh trên tập dữ liệu từ MIMICIII và từ bệnh viện Thống Nhất
44 Hình 4.2: Kết quả thuật toán bắt đỉnh cho tín hiệu PPG từ bộ dữ liệu của bệnh viện Thống Nhất (a), và dữ liệu MIMICIII (b) Các hình tròn màu tím là kết quả của thuật toán bắt đỉnh
Thông thường tín hiệu PPG dễ bị ảnh hưởng bởi các yếu tố không chỉ từ ảnh hưởng của cử động của người dùng mà còn từ nhịp thở và các hoạt động sinh lý không phải tim của cơ thể Bên cạnh đó, do luận văn sử dụng ai bộ dữ liệu nên sẽ có sự khác nhau về tần số lấy mẫu cũng như là độ phân giải của bộ ADC Vì vậy, tín hiệu cần phải được chuẩn hóa bởi thuật toán tạo mẫu để dễ dàng huấn luyện mô hình autoencdoer Các bước thực hiện thuật toán tạo mẫu bao gồm:
Bước 1: Sử dụng thuật toán nội suy spline để tìm đường bao dưới của đoạn tín hiệu, sau đó trừ đoạn tín hiệu cho đường bao dưới ta được kết quả như Hình 4.3
Hình 4.3: Tín hiệu PPG gốc (hình trên) và tín hiệu PPG đã trừ đường bao dưới (hình dưới)
Bước 2: Từ kết quả ở bước 1 và vị trí các đỉnh đã xác định bằng thuật toán tìm đỉnh, tách đoạn tín hiệu PPG thành các nhịp, tái mẫu (resample) các nhịp thành 200 điểm Sau đó lần lượt đưa về không và chuẩn hóa các nhịp để thành một mẫu tín hiệu PPG bằng công thức và ví dụ minh họa ở Hình 4.4:
Công thức đưa về không
Với 𝑦 là tín hiệu đã được đưa về không, 𝑦 0 là tín hiệu gốc, 𝑡 là thời gian (đối với tín hiệu liên tục) và chỉ số (đổi với tín hiệu đã được rời rạc hóa), 𝑦 1 là giá trị tín hiệu tại đỉnh bắt đầu
Trong đó 𝑦 là tín hiệu cần được chuẩn hóa, 𝑦̂ là tín hiệu đã được chuẩn hóa, max{𝑦} giá trị lớn nhất của tín hiệu, min{𝑦} giá trị nhỏ nhất của tín hiệu
Hình 4.4: (a) Tín hiệu PPG, (b) Một nhịp của tín hiệu PPG trích xuất từ tín hiệu (vùng màu đỏ) bằng thuật toán tìm đỉnh, (c) Nhịp sau khi chuẩn hóa để thu được một mẫu tín hiệu PPG
4.2.3 Mô hình autoencoder và phát hiện đoạn tín hiệu bị ảnh hưởng do cứ động
Phát hiện tín hiệu PPG bị ảnh hưởng bởi cử động
Mô hình autoencder có thể được sử dụng để phát hiện sự bất thường của dữ liệu vì mô hình này có khả năng biểu diễn dữ liệu trên một “không gian” khác được gọi là latent space, với số chiều ít hơn và “phân cụm hơn”, [41] Trong đó các dữ liệu có cùng tính chất sẽ có phân phối gần nhau hay có thể hiểu là nằm chung một cụm Dựa trên tính chất này của mô hình autoencoder, việc phát hiện các tín hiệu không đạt chuẩn được tiến hành bằng cách huấn luyện mô hình với dữ liệu đạt chuẩn, sau khi kết thúc quá trình huấn luyện, mô hình sẽ phát hiện các dữ liệu không đạt chuẩn dựa trên giá trị hàm mất mát giữa tín hiệu tái tạo và tín hiệu đầu vào, [41] Những dữ liệu đạt chuẩn sẽ là có giá trị hàm mất mát thấp và gần bằng với giá trị hàm mất mát trên tập huấn luyện, còn các dữ liệu không đạt chuẩn sẽ có giá trị hàm mất mát lớn
Tuy nhiên, giá trị hàm mất mát lớn bao nhiêu là đủ thì hầu như chưa được đề cập cụ thể mà tùy vào từng trường hợp cụ thể Để giải quyết vấn đề này, luận văn sẽ chia tập huấn luyện thành hai phần gồm phần để huấn luyện và phần để kiểm tra, sau khi hoàn tất việc huấn luyện, giá trị ngưỡng sẽ được quyết định bằng cách so sánh giới hạn bao của phân phối giá trị hàm mất mát của tập huấn luyện và tập mất mát Nếu hai phân phối này tương đồng nhau thì giá trị bao trung bình của cả hai sẽ được dùng làm giá trị ngưỡng để đánh giá tín hiệu đạt chuẩn và không đạt chuẩn
Cấu trúc của mô hình autoencoder
Mô hình autoencoder được sử dụng trong luận văn có cấu trúc:
Bảng 4.3: Cấu trúc mạng autoencoder dùng trong xử lý tín hiệu
1 Bộ mã hóa Đầu vào Hàm LeakyReLU 200
Hàm LeakyReLU 200 Hàm mất mát dùng để huấn luyện là hàm sai số tuyệt đối trung bình:
𝐿 = ∑ 200 𝑖=1 |𝑦 𝑖 − 𝑦̂ 𝑖 | (4.3) Với 𝑦 𝑖 là đầu ra của mô hình, 𝑦̂ 𝑖 là đầu vào của mô hình
Dữ liệu được sử dụng để huấn luyện
Dữ liệu sử dụng để huấn luyện mô hình là các mẫu của tín hiệu PPG được tính toán từ các đoạn tín hiệu PPG tốt được lựa chọn bằng tay gồm cả những tín hiệu bệnh và không bệnh Dữ liệu này được lấy từ bộ dữ liệu MIMICIII Có tất cả 82880 mẫu trích xuất từ các tín hiệu PPG tốt từ người bình thường và người mắc bệnh rối loạn nhịp tim được sử dụng, trong đó 80% điểm dữ liệu được dùng để huấn luyện, phần còn lại là phần thẩm định như đã đề cập ở trên Hình 4.5 mô tả một vài mẫu trong bộ dữ liệu MIMICIII, bao gồm mẫu từ tín hiệu của người mắc bệnh rối loạn nhịp tim, bình thường và nhiễu do cử dộng
48 Hình 4.5: Một số mẫu tín hiệu từ dữ liệu MIMICIII dùng để huấn luyện mô hình autoencoder
4.2.4 Phương pháp đánh giá thuật toán
Thuật toán được đánh giá dựa trên kết quả nhận diện và loại bỏ đoạn tín hiệu bị ảnh hưởng trên bộ dữ liệu từ bệnh viện Thống Nhất với lý do như đã đề cập ở phần trên
Các nghiên cứu về nhận diện và phát hiện đoạn tín hiệu PPG bị ảnh hưởng đánh giá sự hiệu quả của thuật toán bằng cách chia nhỏ đoạn dữ liệu và dán nhãn đoạn tín hiệu đó là tốt hay không tốt Thuật toán sẽ tiến hành nhận diện và loại bỏ các đoạn tín hiệu đã được chia nhỏ, kết quả được đánh giá dựa trên số lượng đoạn dữ liệu phân loại đúng
Thuật toán phân loại rối loạn nhịp tim
Sơ đồ thể hiện thuật toán phát hiện rối loạn nhịp tim gồm:
Hình 4.6: Sơ đồ thể hiện thuật toán phát hiện rối loạn nhịp tim từ tín hiệu PPG
4.3.2 Biến đổi thành miền thời gian – tần số
Như đã trình bày, phổ thời gian – tần số là một trong các công cụ hữu ích để phân tích các tín hiệu dễ thay đổi theo thời gian, đặc biệt là tín hiệu PPG với sự xuất hiện của các cơn rối loạn nhịp tim Hầu hết các nghiên cứu trong sử dụng phổ thời gian – tần số của tín hiệu PPG để phát hiện rối loạn nhịp tim thì phép biến đổi wavelet được sử dụng phổ biến Tuy nhiên một trong những nhược điểm của phép biến đổi này là phổ bị nhòe (leaky energy), không những vậy theo nguyên lý bất định Heisenberg-Gabor, không thể đồng thời có được thông tin chính xác về thời gian và tần số cho một tín hiệu Nói cách khác, tín hiệu được phân tích càng cục bộ về thời gian thì tần số của tín hiệu đó càng được xác định kém chính xác hơn Để giải quyết thách thức này, phép biến đổi Hilbert ra đời Theo đó tín biến đổi Hilbert định nghĩa một tín hiệu phân tích 𝑧:
Trong đó 𝑥(𝑡) là tín hiệu gốc, 𝑦(𝑡)là biến đổi Hilbert của 𝑥(𝑡), 𝑃 là nguyên lý Cauchy Tín hiệu phân tích này là một số phức có biên độ và pha lần lượt là biên độ tức thời và pha tức thời:
Và tần số tức thời là đạo hàm của pha tức thời
Hình 4.7 thể hiện phổ thời gian – tần số bằng biến đổi wavelet của tín hiệu 𝑥 sin(𝑡 2 ) Có thể thấy, với biến đổi wavelet, phổ nhận được có năng lượng loe ra, đặc biệt ở phần đuôi, năng lượng loe mạnh và không rõ ràng Trong khi đó, với biến đổi Hilbert, Hình 4.8, năng lượng có tính tập trung cao và rõ nét hơn [42]
Hình 4.7: Phổ thời gian – tần số từ biến đổi wavelet của tín hiệu 𝑥 = 𝑠𝑖𝑛(𝑡 2 ) vẽ bằng phần mềm Matlab
51 Hình 4.8: Phổ thời gian – tần số từ biến đổi Hilbert của tín hiệu 𝑥 = 𝑠𝑖𝑛(𝑡 2 ) vẽ bằng phần mềm Matlab Phổ thể hiện rõ sự thay đổi của tần số tín hiệu gần bằng một làm 𝑓(𝑡) = 2𝑡 với 𝑡 là thời gian Phần dao động ở đầu và đuôi tín hiệu là do thuật toán tín toán trên miền rời rạc và thời gian có giới hạn của Matlab.Nếu tính toán với tín hiệu trên miền liên tục và thời gian vô hạn thì tần số sẽ đúng bằng f(𝑡) = 2𝑡
Mặc dù vậy, biến đổi Hilbert còn có một nhược điểm, đó là chỉ áp dụng cho tín hiệu phổ hẹp hay chính xác là có tín hiệu là hàm monocomponent Để giải quyết vấn đề này, một lựa chọn tốt có thể kể đến là phương pháp phân rã mô hình biến đổi (VMD), được giới thiệu bởi Dragomiretskiyi và cộng sự [42] Phép biến đổi này sẽ phân rã một tín hiệu thành các tín hiệu, được gọi là IMF có dạng:
Với 𝐴(𝑡) là biên độ thức thời, 𝜙(𝑡) là tần số tức thời Điểm đặc biệt của các tín hiệu IMF này là chúng có tần số và biên độ biến đổi theo thời gian, và hơn thế nữa chúng chính là các hàm monocomponent thích hợp cho biến đổi Hilbert
Thuật toán khai triển VMD sẽ xác định vùng tần số trung tâm của mỗi IMF và tiến hành phân tích tính hiệu gốc thành các IMF có miền tần số xung quanh tần số trung tâm Bằng việc xác đinh trước 𝑘 số IMF mà tín hiệu có thể có được, việc tính toán các kênh IMF được thực hiện bởi một vòng lặp hồi quy:
52 Ở vòng lặp thứ 𝑛 + 1, IMF thứ 𝑘 được tính toán như sau:
Với 𝑈 𝑘 𝑛+1 (𝑓) là biến đổi Fourier của IMF thứ k trong lần thứ 𝑛 + 1
Cùng với đó tần số trung tâm và toán tử Larrange cũng được cập nhật:
Tần số trung tâm thứ 𝑘, 𝑓 𝑘 𝑛+1 :
∧ 𝑛+1 (𝑓) =∧ 𝑛 (𝑓) + 𝜏(𝑋(𝑓) − ∑ 𝑈 𝑘 𝑘 𝑛+1 (𝑓)) (4.12) Trong đó 𝜏 là tốc độ cập nhật của hệ số Larrange
Khi thuật toán thỏa điều kiện sau thì vòng lặp được dừng lại:
Hình 4.9 thể hiện một phép biến đổi về miền thời gian – tần số kết hợp VMD và phép biến đổi Hilbert Với tín hiệu 𝑥(𝑡) có ba thành phần tần số và một thành phần nhiễu trắng, Hình 4.9 thể hiện vmd phân tích ra được bốn thành phần và hình thể hiện phổ thời gian – tần số của tín hiệu:
Hình 4.9: (a) phân tích VMD của tín hiệu
𝑥 = 𝑐𝑜𝑠(4𝜋𝑡) + 2𝑐𝑜𝑠(20𝜋𝑡) + 4𝑐𝑜𝑠(60𝜋𝑡) + 0,01 𝑁(𝑡), với bốn kênh IMF đại diện cho bốn thành phần tần số (b) Phổ thời gian – tần số của tín hiệu thông qua biến đổi Hilbert thể hiện bốn kênh IMF dưới dạng tần số tức thời và biên đô tức thời
Từ phân tích ở trên, luận văn sẽ sử dụng thuật toán VMD và biến đổi Hilbert để biến đổi tín hiệu PPG ở miền thời gian sang miền tần số - thời gian bằng Thêm vào đó , để tăng khả năng làm rõ các vùng tần số xuất hiện do rối loạn nhịp tim một thuật toán tìm cạnh được tiến hành trên phổ thời gian – tần số Các bước tiến hành gồm:
Bước 1: Phân tích tín hiệu thành các kênh IMF
Tín hiệu PPG với độ dài 16 giây được phân tích thành các kênh IMF thông qua thuật toán VMD, thông số của thuật toán gồm:
Số kênh IMF: thuật toán không cố định số kênh IMF cho thuật toán VMD, thay vào đó, đối với mỗi tín hiệu PPG, số kênh IMF sẽ được điều chỉnh một cách tự động khi các kênh IMF độc lập với nhau dựa trên ma trận phương hiệp phương sai, [43] Khi đó hệ số tương quan của các IMF với nhau không quá 0,5 và định thức của ma trận đạt trên 0,8 thì thông số được chọn
Thông số giới hạn dừng:
54 Mặc dù theo các nghiên cứu đã được đề cập, độ dài nhỏ nhất có thể được sử dụng mà vẫn đem lại kết quả tốt là 10 giây, nhưng do một trong những nhược điểm của biến đổi Hilbert với dữ liệu số là hiện tượng end-effect, [44], Hình 4.10, nên độ dài đoạn tín hiệu PPG thô được dùng làm đầu vào cho thuật toán là 20 giây với vùng phổ 5 giây đầu và 5 giây cuối sẽ bị loại bỏ trước khi đưa vào mô hình để xử lý
Hình 4.10: Hiện tượng end-effect xảy ra ở hai vùng phổ từ 0 giây đến 0,1 giây và từ 0,9 giây đến 1 giây làm các vùng của phổ thời gian – tần số ở thời điểm đầu và cuối tín hiệu không chính xác
Bước 2: Biến đổi thành miền thời gian – tần số
Các kênh IMF có vùng tần số trung tâm nằm trong khoảng từ 0.5Hz đến 3Hz sẽ được biến đổi thành miền thời gian – tần số bằng biến đổi Hilbert Vùng tần số trung tâm được xác định dựa trên trung bình và độ lệch chuẩn của tần số tức thời của IMF đó, cụ thể
Trung bình của tần số tức thời
Độ lệch chuẩn của tần số tức thời
Khi đó vùng tần số trung tâm sẽ là (𝑓̅ − 𝑠̅, 𝑓̅ + 𝑠̅)
Phổ thời gian – tần số vừa thu được sẽ được tiến hành chuẩn hóa theo công thức:
ℎ(𝑓, 𝑡) là năng lượng của phổ thời gian – tần số tại thời điểm 𝑡 và tần số 𝑓, min{ℎ(𝑓, 𝑡)} năng lượng có nhỏ nhất của phổ, max{ℎ(𝑓, 𝑡)} năng lượng có lớn nhất của phổ
Bước 3: Lấy cạnh và thay đổi kích thước
Phổ thời – tần số có được từ bước hai được tiến hành lấy cạnh bằng thuật toán
KẾT QUẢ
Xử lý tín hiệu
Giá trị hàm mất mát trong quá trình huấn luyện được thể hiện ở Hình 5.1, trong đó giá trị trung bình đạt được ở bốn epoch cuối có trung bình là 0,004
Hình 5.1: Giá trị hàm mất mát trong quá trình huấn luyện mạng autoencoder
Giá trị hàm mất mát khả nhỏ Hình 5.2 và Hình 5.3 cho thấy các mẫu đầu vào và đầu ra của mô hình autoencoder rất giống nhau với giá trị hàm mất mát nhỏ chứng tỏ là mô hình autoencoder đã trích xuất tốt các đặc trưng của các mẫu tín hiệu PPG Bên cạnh đó, một điều có thẩy là các mẫu của người bình thường có giá trị nhỏ hơn so với các mẫu của người mắc bệnh rối loạn nhịp tim, cùng là một hướng để củng cố thêm thuật toán phát hiện rối loạn nhịp tim sau này
62 Hình 5.2: Một số ví dụ về các mẫu được xử ly bằng mô hình autoencoder từ tín hiệu PPG của người không mắc bệnh rối loạn nhịp tim
Hình 5.3: Một số ví dụ về các mẫu được xử ly bằng mô hình autoencoder từ tín hiệu PPG của người không mắc bệnh rối loạn nhịp tim
63 Như đã trình bày, việc lựa chọn giá trị ngưỡng cho giá trị hàm mất mát để đánh giá tín hiệu PPG là dựa trên phân phối giá trị hàm mất mát của phần huấn luyện và phần thẩm đinh Hình 5.4 thể hiện hai phấn phối giá trị hàm mất mát của phần huấn luyện và phần thẩm đinh, từ phân hai phối có thể thấy 0,015 là giới hạn trên của giá trị hàm mất mát, vì vậy chọn 0,015 làm ngưỡng để đánh giá mẫu của tín hiệu PPG
Hình 5.4: Phân phối giá trị hàm mất mát của phầm huấn luyện và phần thẩm định sau khi được tính toán từ mô hình autoencoder
Kết quả xử lý trên tập dữ liệu Thống Nhất cho kết quả có 95% số lượng các đoạn tín hiệu được phân loại đúng như được dán nhãn Trong đó các đoạn tín hiệu có xuất hiện các cơn rối loạn nhịp tim được phát hiện tốt, Hình 5.5a và Hình 5.5c
Tuy nhiên bệnh cạnh đó thuật toán vẫn còn một số thiếu sót, ví dụ như đánh giá sai các đoạn tín hiệu không đạt chuẩn như Hình 5.5b và Hình 5.5c Nguyên nhân cho vấn đề này là do thuật toán tìm mẫu và tìm đỉnh chưa hoạt động tốt dẫn đến việc mẫu tạo ra gần giống với tín hiệu đạt chuẩn Để cải thiện vấn đề này, bên cạnh việc cải thiện thuật toán tìm đỉnh và thuật toán tạo mẫu, một hướng có thể tiếp cận chính là sử dụng tác vụ học không giám sát (unsupervised learning) để phân cụm và đánh giá mẫu để hạn chế sự nhầm lẫn trong việc dán nhãn và đánh giá lại thuật toán tọa mẫu, tránh tạo ra các mẫu từ tín hiệu lỗi mà giống với tín hiệu tốt
64 Hình 5.5: Kết quả của thuật toán xử lý tín hiệu dựa trên mô hình autoencoder Đường màu cam là đường mức thể hiện việc chọn và loại bỏ tín hiệu tương ứng, với mức cao là chọn và mức thấp là loại bỏ Các ô màu xanh thể hiện đoạn tín hiệu được dán nhãn là đạt yêu cầu Các vòng trong màu đỏ khoanh vùng các cơn rối loạn nhịp tim.
Phát hiện rối loạn nhịp tim
5.2.1 Phổ thời gian – tần số của tín hiệu PPG
Sau khi tiến hành tính toán và phân tích phổ thời gian – tần số trên tín hiệu PPG, nhận thấy rằng phổ rất nhạy với các thay đổi trong tần số của tín hiệu khi có xuất hiện của các cơn rối loạn nhịp tim Cụ thể là ở các trường hợp không xuất hiện rối loạn nhịp tim, phổ thời gian – tần số liên tục và không bị đứt khúc Trong khi đó, đối với các trường hợp xuất hiện rối loạn nhịp tim, phổ bị đứt quãng, hình thành các vùng tần số khác nhau Điều này có thể giải thích là do khi xuất hiện các cơn rối loạn, nhịp tim đập ở các mức độ khác nhau, dẫn đến biên độ tức thời của các kênh IMF thay đổi phức tạp, cao khi tim đập ở tần số gần bằng với tần số trung tâm và nhỏ khi tim đập ở tần số khác với tần số trung tâm của kênh IMF đó
Hình 5.6 thể hiện phân tích VMD của PPG từ người không có bệnh rối loạn nhịp tim, phân tích cho thấy tín hiệu gồm bốn kênh IMF với tương ứng với tần số trung tâm
65 1,3Hz, 2,6Hz, 3,9Hz và một phần dư có tần số bằng không Trong đó IMF có tần số 1,3Hz có giá trị bằng nhịp tim (96 nhịp/phút) Các IMF này có phổ tần số hẹp và tập trung, và phổ thời gian – tần số liên tục không bị đứt quãng Dựa vào ma trận hiệp phương sai Hình 5.6g, có thể thấy IMF chủ đạo sẽ là IMF có tần số trung tâm là nhịp tim, khi có hệ số tương quan bằng 0,89 so với tín hiệu gốc Ngoài ra với số IMF là bốn thì ma trận hiệp phương sai giữa các IMF có định thức bằng 0,99, điều này có nghĩa các kênh IMF gần như độc lập với nhau, càng chứng tỏ tính hiệu quả của phân tích VMD đối với tín hiệu khi mỗi kênh IMF sẽ đại diện cho một khía cạnh riêng biệt trong tín hiệu
Hình 5.7 thể hiện phân tích VMD của tín hiệu PPG xuất hiện cơn rối loạn nhịp tim ở giây thứ 15 Có tổng cộng năm kênh IMF, giống như tín hiệu PPG của ở trường hợp bình thường, tín hiệu này cũng có kênh IMF đại diện cho nhịp tim, IMF thứ tư với tần số trung tâm là 1,25 Hz (72 nhịp/phút), IMF này có phổ tần số tương đối hẹp và tập trung Đồng thời kênh IMF này cũng là IMF chủ đạo với hệ số tương quan với tín hiệu gốc cao nhất là 0,89 Các kênh IMF khác thì có phổ tần số rộng hơn, và xuất hiện hai hoặc nhiều đỉnh tần số Cụ thể, IMF3 có hai đỉnh 2,5Hz và 2,3Hz trong đó đỉnh 2,5Hz là bội của 1,25Hz trong khi đỉnh 2,3Hz xuất hiện là do cơn rối loạn nhịp tim Điều này thể hiện rõ hơn khi xem xét phổ thời gian – tần số, trong hầu hết khoảng thời gian, phổ liên tục như trường hợp bình thường, chỉ có trong giây thứ 15 ứng với thời điểm cơn rối loạn xuất hiện phổ bị đứt quãng Với giá trị định thức của ma trận hiệp phương sai là 0,99 thì cho thấy phân tích VMD hiệu quả trong việc phân tích tín hiệu thành các kênh IMF thể hiện được các khía cạnh của tín hiệu
Hình 5.8 thể hiện phổ thời gian – tần số của tín hiệu PPG cho trường hợp có rối loạn nhịp tim xảy ra nhiều Trong trường hợp này tín hiệu được phân tích ra thành năm kênh IMF Các kênh IMF này có phổ tần số khá rộng, mức độ tập trung thấp cùng với phổ thời gian – tần số có sự đứt đoạn Có hai kênh IMF có hệ số tương quan cao nhất so với tín hiệu gốc là IMF thứ ba (0,57) và IMF thứ tư (0,75) Hai kênh IMF này mặc dù có phổ tần số rộng, nhưng tần số trung tâm vẫn mang thành phần tần số liên quan đến nhịp
66 tim, cụ thể IMF thứ ba có đỉnh ở 0,8Hz (48 nhịp/phút) và IMF thứ tư (84 nhịp/phút) Điều này xảy ra là do trong các trường hợp xảy ra rối loạn nhịp tim với mức độ dày đặc, nhịp tim của người bệnh thường thay đổi trong khoảng giá trị lớn Và cũng tương tự như các phân tích VMD ở trên, với giá trị định thức tương đối cao 0,93 thì mức độ độc lập giữa các kênh IMF được đảm bảo
Hình 5.6: Phân tích VMD và phổ tần số thời gian – tần số của tín hiệu PPG từ người không mắc bệnh rối loạn nhịp tim (a) Tín hiệu PPG, (b) Tín hiệu ECG, (c) Các kênh IMF, (d) Phổ FFT, (e) Phổ thời gian – tần số, (f) Kết quả của thuật toán tìm cạnh trên phổ thời gian – tần số, (g) ma trận hiệp phương sai giữ các IMF và tín hiệu PPG gốc
67 Hình 5.7: Phân tích VMD và phổ tần số thời gian – tần số của tín hiệu PPG từ người có một cơn rối loạn nhịp tim (a) Tín hiệu PPG, (b) Tín hiệu ECG, (c) Các kênh IMF, (d) Phổ FFT, (e) Phổ thời gian – tần số, (f) Kết quả của thuật toán tìm cạnh trên phổ thời gian – tần số, (g) ma trận hiệp phương sai giữ các IMF và tín hiệu PPG gốc
68 Hình 5.8: Phân tích VMD và phổ tần số thời gian – tần số của tín hiệu PPG từ người mắc rối với số cơn loạn nhịp dày đặc (a) Tín hiệu PPG, (b) Tín hiệu ECG, (c) Các kênh IMF, (d) Phổ FFT, (e) Phổ thời gian – tần số, (f) Kết quả của thuật toán tìm cạnh trên phổ thời gian – tần số, (g) ma trận hiệp phương sai giữ các IMF và tín hiệu PPG gốc
5.2.2 Cấu trúc của mô hình học sâu
Sau quá trình thử và hiệu chỉnh cấu trúc mô hình như trình bày ở chương 4, cấu trúc và thông số mô hình cụ thể cho hai mô hình như sau:
Bảng 5.1: Cấu trúc mạng CNN dùng trong phát hiện rối loạn nhịp tim
Lớp Loại Bộ lọc Strike Số kênh Kích thước đầu vào
Lớp mạng kết nối đầy đủ (Fully connected layer)
9 Lớp mạng kết nối đầy đủ - - - 256
10 Lớp mạng kết nối đầy đủ - - - 150
Bảng 5.2: Cấu trúc mạng CNN-LSTM dùng trong phát hiện rối loạn nhịp tim
Lớp Loại Bộ lọc Strike Số kênh Kích thước đầu vào
5 Lớp mạng kết nối đầy đủ - - - 100
(*) Lớp LSTM gồm hai tế bào (cell), mỗi tế bào có kích thước đầu vào là 512, và kích thước lớp ẩn là 100, kết quả đầu ra của lớp LSTM là lớp ẩn của tế bào cuối nên có kích thước là 100
Bên cạnh số lượng các lớp thành phần cấu tạo nên mô hình, có một yếu tốt rất quan trọng cần được lưu ý là kích thước của bộ lọc Các nghiên cứu có sử dụng CNN để phát hiện rối loạn nhịp tim thường sử dụng bộ lọc là một trận 128 × 512, ví dụ như trong [23] Trong khi tiến hành hiệu chỉnh cấu trúc mô hình, luận văn nhận thấy rằng, việc lựa chọn kích thước bộ lọc là 5 × 9 cho các lớp tích chập đầu tiên là thích hợp Hiện tại chưa có nghiên cứu cụ thể nào về việc lựa chọn kích thước bộ lọc cho xử lý tín hiệu PPG Trong phạm vi nghiên cứu của luận văn, có thể giải thích hiện tượng này là do sự khác nhau về mức độ phân bố tín thông tin của dữ liệu đầu vào Đối với các nghiên cứu sử dụng biến đổi wavelet, phổ thời gian – tần số nhòe đồng nghĩa là thông tin phân bố rải rác không tập trung, trong khi sử dụng biến đổi Hilbert, phổ thời gian – tần số tập trung và rõ nét hơn, nghĩa là thông tin tập trung hơn
Như đã trình bày, việc huấn luyện sẽ được tiến hành riêng biệt trên từng fold, sau khi kết thúc quá trình huấn luyện sẽ thu được các mô hình có cùng kiến trúc nhưng khác nhau về giá trị của thông số mạng Độ chính xác và giá trị của hàm mất mát trong quá trình huấn luyện được trình bày bên dưới
Hình 5.9: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 1 trong quá trình huấn luyện
Hình 5.10: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 2 trong quá trình huấn luyện
72 Hình 5.11: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 3 trong quá trình huấn luyện
Hình 5.12: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 4 trong quá trình huấn luyện
Hình 5.13: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 5 trong quá trình huấn luyện
73 Bảng 5.3:Giá trị hàm mất mát và độ chính xác trung bình của bốn epoch cuối của mô hình CNN
Giá trị hàm mất mát Độ chính xác Tập huấn luyện Tập thẩm định Tập huấn luyện Tập thẩm định
Hình 5.14: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 1 trong quá trình huấn luyện
74 Hình 5.15: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 2 trong quá trình huấn luyện
Hình 5.16: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 3 trong quá trình huấn luyện
Hình 5.17: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 4 trong quá trình huấn luyện
Hình 5.18: Đồ thị giá trị hàm mất mát (trái) và độ chính xác (phải) của fold 5 trong quá trình huấn luyện
Bảng 5.4: Giá trị hàm mất mát và độ chính xác trung bình của bốn epoch cuối của mô hình CNN
Giá trị hàm mất mát Độ chính xác Tập huấn luyện
Từ các bảng ở trên, có thể thấy giá trị hàm mất mát và độ chính xác trong từng fold của cả hai mô hình CNN và CNN – LSTM không có sự chênh lệch đáng kể giữa tập huấn luyện và tập thẩm định không quá lớn Thêm vào đó, đồ thị hàm mất mát và độ chính xác cũng cho thấy, hầu hết trong quá trình huấn luyện giá trị hàm mất mát và độ chính xác luôn sát với nhau Những điều này, cho thấy cả hai mô hình đều không xảy ra hiện tượng “overfitting”
Xem xét sự khác biệt giữ hai mô hình trong quá trình huấn luyện, mô hình CNN hội tụ nhanh hơn so với mô hình CNN-LSTM Mô hình CNN hầu hết đều hội tụ trong khoảng các epoch thứ 10 trong khi mô hình CNN-LSTM hội tụ từ epoch thứ 40 Mặc dù vậy, kết thúc quá trình huấn luyện, giá trị hàm mất mát và độ chính xác của cả hai mô