(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim(Luận văn thạc sĩ) Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim
LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tp Hồ Chí Minh, ngày 06 tháng 05 năm 2018 NGUYỄN HỮU THÁI ix LỜI CẢM TẠ Lời ngƣời thực đề tài xin gửi lời cảm ơn tới quý thầy cô giảng dạy Trƣờng Đại học Sƣ Phạm Kỹ Thuật TP.HCM quý thầy cô Khoa Điện-Điện tử Cảm ơn thầy tận tụy dạy bảo, trang bị cho ngƣời thực đề tài kiến thức chuyên ngành, tạo tiền đề vững nhờ để thực tốt đề tài Và đặc biệt xin gửi lời cảm ơn chân thành tới thầy thầy TS Nguyễn Mạnh Hùng , giáo viên hƣớng dẫn thực đề tài Cảm ơn thầy tạo điều kiện tốt để ngƣời thực đề tài nhƣ hƣớng dẫn tận tình bƣớc thực để tác giả hoàn thành tốt luận văn tốt nghiệp Cuối ngƣời thực đề tài xin gửi lời cảm ơn sâu sắc tới gia đình, Anh Nguyễn Thanh Nghĩa, bạn Dƣơng Văn Bình, Lê Thị Minh Thùy anh chị lớp KDT16A động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hoàn thành đồ luận văn nghiệp Xin chân thành cảm ơn ! Tp Hồ Chí Minh, ngày 06 tháng 05 năm 2018 NGUYỄN HỮU THÁI x TÓM TẮT Trong nghiên cứu trƣớc phân loại tín hiệu ECG hầu hết phƣơng pháp sử dụng liệu MIT-BIH để đánh giá kết dự đốn đem lại độ xác cao Tuy nhiên tập liệu có chứa nhiều nhịp tim bình thƣờng chiếm khoảng 83.6% tổng số nhịp tim tập liệu Do đề tài thiết kế phân loại tín hiệu điện tim dùng phƣơng pháp Neural Network sau đánh giá ảnh hƣởng phân cực liệu đến phân loại tín hiệu điện tim sau loại bỏ nhịp tim bình thƣờng dùng phƣơng pháp ma trận nhầm lẫn (confusion matrix) đƣờng cong ROC Nghiên cứu đƣa hai thí nghiệm để đánh giá hiệu phân loại tín hiệu điện tim ECG Thí nghiệm thứ sử dụng tập liệu có chứa nhịp tim bình thƣờng có tƣợng phân cực liệu phân loại trƣờng hợp có xảy kết dự đốn Thí nghiệm thứ hai tác giả loại bỏ nhịp tim bình thƣờng tập liệu kết ghi lại ảnh hƣởng nhịp tim bình thƣờng đến phân loại Đề tài chứng minh kết cuối liệu có tập liệu đƣợc cơng bố MIT-MIH ARHYTHMIA DATABASE chƣa thật đầy đủ để đƣa kết phân loại bệnh tim ảnh hƣởng tập liệu chứa nhiều nhịp tim bình thƣờng đến độ xác phân loại [1] xi ABSTRACT In previous studies on ECG signal classification, most methods used the MIT-BIH databases to evaluate predictions and provide very high accuracy However, in the databases there are a very normal heart rate that accounts for about 83.6% of the total heartbeat of the databases Therefore, This thesis is the design of ECG signal classification system using Neuron Network method and then evaluates the effect of data polarization on the ECG after removing the normal heart rate using the method confusion matrix and ROC curve This study offers two experiments to assess the performance of ECG signal classification system In the first experiment, we used databases that contained normal heartbeats and therefore had data classification polarization in this case that occurred in the predicted outcome The second experiment we removed the normal heartbeat in the databases and recorded the effects of normal heartbeats on the classifier The final result demonstrates that the existing data for the database published on the MIT-MIH ARHYTHMIA DATABASE is not sufficiently accurate to show the results of the classification of heart disease and the effect of the database contains many normal heartbeats to the accuracy of the classifier.[1] xii MỤC LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI i BIÊN BẢN HỘI ĐỒNG CHẤM LUẬN VĂN TỐT NGHIỆP THẠC SĨ ii NHẬN XÉT PHẢN BIỆN iii NHẬN XÉT PHẢN BIỆN v LÝ LỊCH KHOA HỌC vii LỜI CAM ĐOAN ix LỜI CẢM TẠ x TÓM TẮT xi ABSTRACT xii DANH SÁCH CÁC TỪ VIẾT TẮT xv DANH SÁCH CÁC HÌNH xvi DANH SÁCH CÁC BẢNG xvii Chƣơng I: TỔNG QUAN 1.1 Tổng quan lĩnh vực nghiên cứu .1 1.2 Các kết nghiên cứu ngồi nƣớc cơng bố 1.3 Mục tiêu đề tài 1.4 Nhiệm vụ giới hạn đề tài 1.4.1 Nhiệm vụ đề tài 1.4.2 Giới hạn đề tài 1.5 Phƣơng pháp nghiên cứu Chƣơng II: CƠ SỞ LÝ THUYẾT xiii 2.1 Khái niệm tín hiệu điện tim ECG 2.2 Ý nghĩa thành phần điện tâm đồ 2.3 Thu thập liệu 2.4 Thuật toán biến đổi Wavelet .12 2.5 Thuật toán PCA 16 2.6 Mạng neural network 18 2.6.1 Cấu trúc .19 2.6.2 Giải thuật huấn luận mạng Neural Work 19 2.7 Đánh giá mơ hình 21 2.7.1 Ma trận nhầm lẫn (confusion matrix) 22 2.7.2 Đƣờng cong ROC 23 Chƣơng III: PHƢƠNG PHÁP NGHIÊN CỨU 25 3.1 Chuẩn bị liệu 26 3.2 Trích đặc trƣng .26 3.2.1 Tách nhịp tim từ liệu MIT-BIH 26 3.2.2 DWT chuyển đổi tín hiệu nhịp tim từ miền thời gian sang miền tần số 27 3.2.3 Giảm chiều liệu sử dụng PCA .28 3.3 Phân loại tín hiệu điện tim sử dụng Neural Network 29 Chƣơng IV: KẾT QUẢ 31 Chƣơng V: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 36 5.1 KẾT LUẬN 36 5.2 HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 36 TÀI LIỆU THAM KHẢO 37 B PHỤ LỤC 39 B.1 CHƢƠNG TRÌNH MATLAB 39 B.2 NỘI DUNG BÀI BÁO .51 xiv DANH SÁCH CÁC TỪ VIẾT TẮT ECG - ElectroCardioGram DWT - Discrete Wavelet Transform MIT-BIH - Massachusetts Institute of Technology-Beth Israel Hospital PCA - Principal Component Analysis ROC - Receiver Operating Characteristic NIBIB - National Institute of Biomedical Imaging and Bioengineering NIGMS - National Institute of General Medical Sciences ANN - Artificial Neural Network xv DANH SÁCH CÁC HÌNH Hình 2.1 Dạng sóng ECG bình thƣờng [6] Hình 2.2 Cách thu thập liệu từ liệu chuẩn có sẵn [8] Hình 2.3 Các thành phần wavelet tƣơng ứng với tỉ lệ vị trí khác 14 Hình 2.4 Biến đổi Wavelet rời rạc tín hiệu 15 Hình 2.5 Q trình phân tích tín hiệu dùng biến đổi DWT chiều 16 Hình 2.6 Cấu trúc mạng neural network 19 Hình 2.7 Đƣờng cong ROC 23 Hình 3.1 Sơ đồ khối phân loại tín hiệu điện tim 25 Hình 3.2 Tín hiệu ECG tải từ MIT-BIH 26 Hình 3.3 Tín hiệu ECG sau tách nhịp 27 Hình 3.4 Tín hiệu ECG sau phân rã wavelet 28 Hình 3.5 Số thành phần xấp xỉ chi tiết mức 29 Hình 3.6 Mơ hình mạng neural network 18 ngõ vào, ngõ 30 Hình 4.1 So sánh độ xác có khơng có nhịp tim bình thƣờng mẫu liệu 33 Hình 4.2 Các đƣờng cong ROC tạo sáu loại nhịp tim phân loại neural network có chứa nhịp bình thƣờng liệu ECG 34 Hình 4.3 Các đƣờng cong ROC tạo năm loại nhịp tim phân loại neurral network có chứa nhịp bình thƣờng liệu ECG 35 xvi DANH SÁCH CÁC BẢNG Bảng 2.1 Cách thu thập liệu từ liệu chuẩn có sẵn [8] Bảng 2.2 Ma trận nhầm lẫn 22 Bảng 4.1 Bảng phân loại tín hiệu ECG 31 Bảng 4.2 Kết đánh giá trƣờng hợp có nhịp tim bình thƣờng mẫu liệu 32 Bảng 4.3 Kết đánh giá trƣờng hợp loại bỏ nhịp tim bình thƣờng mẫu liệu 32 xvii Chƣơng I: TỔNG QUAN 1.1 Tổng quan lĩnh vực nghiên cứu Cùng với phát triển đời sống kinh tế ,xã hội đặt cho thách thức nguy bệnh lý tim mạch tăng cao gánh nặng sức khỏe nhƣ chi phí tăng vọt việc điều trị bệnh lý tim mạch Theo thống kê tổ chức y tế giới, bệnh tim mạch bệnh có tỉ lệ gây tử vong cao, năm có khoảng 17.5 triệu ngƣời chết Con số cho thấy mức độ nguy hiểm tính chất phổ biến bệnh lý tim mạch nƣớc phát triển có Việt Nam Theo điều tra viện Tim Mạch Việt Nam tỉ lệ mắc bệnh tim mạch 25 tuổi 47,3% Trung bình mối năm bệnh tim cƣớp sinh mạng 200.000 ngƣời, chiếm khoảng 1/4 số trƣờng hợp tử vong nƣớc ta Vài thập kỷ gần gia tăng nhanh bệnh tăng huyết áp bệnh liên quan nhƣ thiếu máu cục bộ, đột quỵ, động mạch ngoại biên bệnh van tim thấp Vì việc phát sớm phân loại xác tín hiệu ECG cần thiết để giúp bác sĩ chuẩn đoán bệnh tim đƣa cách điều trị tốt cho bệnh nhân [2] Điện tâm đồ ghi lại nhịp tim dựa vào chuẩn đoán bệnh tim mạch Trong để phân loại phát loại rối loạn nhịp tim giúp xác định tín hiệu bất thƣờng tín hiệu ECG bệnh nhân cần đến kỹ thuật máy học, dựa vào bác sĩ đƣa phân tích ban đầu để chuẩn đoán bệnh tim mạch Hiện phân loại bệnh tim gặp khó khăn tín hiệu điện tim có đặc trƣng riêng, không theo quy tắc phân loại tối ƣu cho phân loại ECG nên dẫn tới thiếu chuẩn hóa đặc trƣng tín hiệu điện tim Do để timex=toc; tic; clear; clc; mainpath='D:\HCMUTE_ECG_TEAM\MIT_BIH_ARRHYTHMIS_DATABASE_ma in'; for iper=10:10:90 for iloop=1:10 %copyfile('D:\HCMUTE_ECG_TEAM\MIT_BIH_ARRHYTHMIS_DATABASE_ma in\mcode_create_confusionmatrix2_01.m',sprintf('D:\\HCMUTE_ECG_TEAM\\MIT_ BIH_ARRHYTHMIS_DATABASE_main\\problem01\\data_%d_%d_%d\\',iper,100iper,iloop)); cd([mainpath sprintf('\\problem0%d\\data_%d_%d_%d',1,iper,100-iper,iloop)]); load confusionmatrix.mat; load namedata; confusionmatrixper=fcreateconfusionmatrixper(confusionmatrix); 44 save confusionmatrixper.mat confusionmatrixper; end end cd(mainpath); tic; clear; clc; mainpath='D:\HCMUTE_ECG_TEAM\MIT_BIH_ARRHYTHMIS_DATABASE_ma in'; for iper=10:10:90 for iloop=1:10 cd([mainpath sprintf('\\problem0%d\\data_%d_%d_%d',1,iper,100-iper,iloop)]); load confusionmatrix; load confusionmatrixper; load namedata; % confusionmatrixmeanproblem1(iper/10).per(iloop).loop=confusionmatrix; 45 confusionmatrixmeanperproblem1(iper/10).per(iloop).loop=confusionmatrixper; end end for iper=10:10:90 for iloop=1:10 cd([mainpath sprintf('\\problem0%d\\data_%d_%d_%d',2,iper,100-iper,iloop)]); load confusionmatrix; load confusionmatrixper; load namedata; % confusionmatrixmeanproblem2(iper/10).per(iloop).loop=confusionmatrix; confusionmatrixmeanperproblem2(iper/10).per(iloop).loop=confusionmatrixper; end end % [confusionmatrixmeanproblem1,accuracymatrixproblem1]=fresult(confusionmatrixme anproblem1); % 46 [confusionmatrixmeanproblem2,accuracymatrixproblem2]=fresult(confusionmatrixme anproblem2); [confusionmatrixmeanperproblem1,accuracymatrixperproblem1]=fresult(confusionmat rixmeanperproblem1); [confusionmatrixmeanperproblem2,accuracymatrixperproblem2]=fresult(confusionmat rixmeanperproblem2); % for i=1:9 % confusionmatrixmeanproblem1(i).mean=fcreateconfusionmatrixper(confusionmatrixm eanproblem1(i).mean); % confusionmatrixmeanproblem2(i).mean=fcreateconfusionmatrixper(confusionmatrixm eanproblem2(i).mean); % end cd(mainpath); save confusionmatrixperproblem1.mat confusionmatrixmeanperproblem1; save confusionmatrixperproblem2.mat confusionmatrixmeanperproblem2; save accuracymatrixperproblem1.mat accuracymatrixperproblem1; 47 save accuracymatrixperproblem2.mat accuracymatrixperproblem2; tic; clc; %% reductiondimensionoffeature train load ctraina4; load ctraind4; [featuretrain, eigenmatrixa4, eigenmatrixd4, mud4]=reductiondimensionoffeaturetrain(ctraina4,ctraind4); % save save featuretrain.mat featuretrain; save eigenmatrixa4.mat eigenmatrixa4; save eigenmatrixd4.mat eigenmatrixd4; save mua4.mat mua4; save mud4.mat mud4; %% reductiondimensionoffeature test load ctesta4; 48 mua4, load ctestd4; [featuretest]=reductiondimensionoffeaturetest(ctesta4,ctestd4,eigenmatrixa4,eigenmatri xd4,mua4,mud4); %save save featuretest.mat featuretest; %% training feature load classtrain; %load featuretrain; [net,tr]=trainingfeature(featuretrain,classtrain); save net.mat net; save tr.mat tr; %% testing feature load featuretest; load classtest; load namedata; 49 load namedata2; [classtested,classtested2,confusionmatrix]=testingfeature(featuretest,classtest,net,name data,namedata2); confusionmatrixper=fcreateconfusionmatrixper(confusionmatrix); save classtested.mat classtested; save classtested2.mat classtested2; save confusionmatrix.mat confusionmatrix; save confusionmatrixper.mat confusionmatrixper clear namedata namedata2 classtest classtrain ctesta4 ctestd4 ctraina4; clear ctraind4 featuretrain eigenmatrixa4 eigenmatrixd4 mua4 mud4; clear featuretest net tr classtested classtested2 confusionmatrix; time_remain=toc; 50 B.2 NỘI DUNG BÀI BÁO Long-tail Effect on ECG Classification N H Thai N T Nghia Faculty of Electrical and Electronics Engineering HCMC University of Technology and Education Ho Chi Minh, Viet Nam 11141188@student.hcmute.edu.vn Faculty of Electrical and Electronics Engineering HCMC University of Technology and Education Ho Chi Minh, Viet Nam 1627003@student.hcmute.edu.vn 11141013@student.hcmute.edu.vn D V Binh N T Hai Faculty of Electrical and Electronics Engineering HCMC University of Technology and Education Ho Chi Minh, Viet Nam Faculty of Electrical and Electronics Engineering HCMC University of Technology and Education Ho Chi Minh, Viet Nam nthai@hcmute.edu.vn N M Hung Faculty of Electrical and Electronics Engineering HCMC University of Technology and Education Ho Chi Minh, Viet Nam hungnm@hcmute.edu.vn Abstract—Heart disease affects seriously to human health ECG signal is critical information to help doctor with heart diagnose prediction In previous studies on ECG classifier, state-of-art method use MIT dataset to evaluate prediction result and record a high accuracy However, the dataset has a long tail phenomenon where the number of normal beats is cover 83,6% of all dataset whereas some diagnose beats have a few samples Therefore, in this paper, we use the state-of-art method to evaluate the system performance where long tail effect is removed We test the method in two scenarios, the first scenario is that we consider normal beat as a class for recognition, therefore we could have long-tail effect in the result The second only consider diagnose beats where long-tail effect is removed The experiment proves that long-tail phenomenon could affect seriously to prediction result Keywords— ECG; PCA; Neural Network; Model Selection Introduction An electrocardiogram (ECG) is a medical test that detects cardiac abnormalities by measuring the electrical activity generated by the heart as it contracts The ECG can help diagnose a range of conditions including heart arrhythmias, heart enlargement, heart inflammation (pericarditis or myocarditis) and coronary heart disease The electrical potential 51 generated by electrical activity in cardiac tissue is measured on the surface of the human body Current flow, in the form of ions, signals contraction of cardiac muscle fibers leading to the heart's pumping action It is a non-persistent recording produced by an ECG machine The ECG machine records the electrical activity of the heart muscle and displays this data as a trace on a screen or on paper The ECG data from normal, healthy hearts have a characteristic shape Any irregularity in the heart rhythm or damage to the heart muscle can change the electrical activity of the heart so that the shape of the ECG is changed The ECG signal is essential for the treatment of patients Early and accurate detection of the ECG arrhythmia helps doctors to detect various heart diseases There have been many previous studies on MIT ECG classification dataset with high accuracy [13] The ECG data contained many heart rhythms but also includes a wide variety of noise These noises can cause ECG analysis difficult Before ECG data is classified, ECG data should be filtered to remove unwanted noise components There are many studies eliminated noise components on the ECG signal [4-9] Fig The shape of ECG beat A good classification consists of many ingredients in which the number of sample training data set is an essential part of the classification All the research on MIT ECG dataset published have majority data is regular heartbeat, while we are interested in the abnormal heart rhythm So examining the accuracy of the classification when removing the normal heart rhythm in the MIT data set is necessary At the same time, we also design experiments to test the effects of the amount of training samples to the accuracy of the classification After a filtering process, ECG signal will be deducted characteristic Characteristic of ECG signal is shaped on the basis of the waveform P, Q, R, S, T [10] as shown in Fig Some characteristic extract methods of ECG signal was announced as ST, CWT, DWT, DCT, Pan Tompkins [11-14] From here, the characteristics of the ECG signal will be dimensionality reduced to take on the training The dimensional reduced methods ECG including PCI, LDA, ICA, FCM, GA, Symmetric uncertainty [2, 11, 12, 15] The paper is organized as follows: section presents the method of implementation and the related theoretical basis, the post part test results, and discussions The final section presents the conclusions of the article Methodology Proposed method Classification of the ECG signal is also an important task to understand the heart condition Classification and detection of abnormal types can help in identifying the abnormality present in the ECG signal of a patient Following multiple signal classification used heart rate and high accuracy is obtained as MLPNN Modular neural network, Generalized FFNN, Modular neural network, Feed forward PNN, SVM, SVM classifier with KernelAdatron (KA), Cascade forward back propagation neural network [16-19] There are many methods of classification ECG, the following method is the simplest classification method based on the proposed implementation of researches have been done recently Block Diagram ECG classification includes three core areas: data preparation, extracted characteristic block and typical classification blocks as shown in Fig ECG after downloading from the available data is taken every heartbeat in the time domain, then the heart rate is converted through DWT domain to easily distinguish minor changes and feature extraction Then, a PCA process is allied for dimensional reduction and feed to a neuron network for classification 52 1 2 Principal Component Analysis Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables called principal components The number of principal components is less than or equal to the number of original variables n T The data set will be restored from the main part S as, PU T SUU T SUU 1 S For a dataset S is given by, in which, P (principal component) is the typical components of a dataset S S S1 S2 s11 s Sn 21 sm1 s12 s22 s11 sn s2 n smn ECG signal from MITBIH Convert ECG signal to Matlab environment Beat Detect ECG_signal ECG beat The covariance value is defined as follows, m cov( Si ,S j ) in which, (s k 1 ki normal rhythm removing Types of ECG Si )(s kj S j ) m 1 DWT to extract characteristic i, j 1, 2, n Neural Network Covariance matrix C is calculated according to the Dimensionality reduction using PCA following formula, cov( S1 ,S1 ) cov( S1 ,S2 ) cov( S ,S ) cov( S ,S ) 2 C cov( Sn ,S1 ) cov( Sn ,S2 ) cov( S1 ,Sn ) cov( S ,Sn ) cov( Sn ,Sn ) The eigenvalues vector U of matrix C is given by, CU U Fig Block diagram of ECG processing Experimental Result To prove the effect of long tail phenomenon, the MIT-BIH arrhythmia dataset is used The MIT-BIH arrhythmia database is well used in ECG classification researches [20], where the signals were sampled at 360 Hz The database consists of 48 signals, each of thirty minutes duration of Holter recording In this analysis, we have used the entire data of MIT-BIH arrhythmia database as recommended by ANSI/AAMI EC57:1998 standard [21] Each ECG beat, which consists of 200 samples, is analyzed into four levels using FIR approximation of and 53 Mayer‟s wavelet ('dmey') The approximate coefficient at the level-4 is included the frequency range from Hz to 11.25 Hz, while detail coefficient at the level-4 is included the frequency range 11.25 Hz to 22.25Hz [22] After decomposition using wavelet, approximate and detail coefficients were considered for subsequent dimensionality reduction by PCA method The PCA method was applied on both coefficients of 4th level approximation and coefficients of 4th level detail independently From each of the approximate and detail coefficients sub band, the first nine principal components were selected based on containment of 99.46% of the original data as shown in Fig In total eighteenth features, which consist of nine features from the approximate coefficient and nine features from the detail coefficient, were used for subsequent pattern recognition using neural network Input After reducing dimension, heart beat feature is fed into the classification as shown in Fig As described in [22], the model of classification is feed-forward neural network with the inputs layer consisting of eighteenth input nodes corresponding eighteenth features and one hidden layer including ten hidden nodes The output layer of neural network model has five output nodes or six output nodes to represent five or six ECG beat types, respectively The numbers of output nodes of neural network model are five nodes while removing normal beat in ECG data and the numbers of output nodes of neural network model are six nodes while no removing normal beat in ECG data The Fig shown that the neural network model has five output nodes in the output layer In addition, the neural network weights are updated using the error back-propagation method To stop neural network training, Mean Square Error (MSE) between the desired response and the actual response of the Neural Network is determined The neural network weights are updated until the error value of the MSE achieves below 0.0001 TPR TNR ACC Hidden Output 1st Beat Type Feature 1 Feature 2 2 2nd Beat Type Feature 3 3 3rd Beat Type Feature 17 17 4th Beat Type Feature 18 18 10 5th Beat Type Bias Bias Neural Network Classifier with eighteenth input nodes in input layer, ten hidden nodes in hidden layer and five output nodes in output layer Fig TP TP FN Cumsum of latent factor of the principal component from the coefficients of 4th level approcimation Fig TN TN FP To evaluate the system performance, this study uses true positive rate (TPR) and true negative rate (TNR) index as in (7-8) The definition of True Positive (TP), True Negative (TN), False Positive (FP), False Negative (FN), is defined as in Table I A higher TPR and TNR mean that a system has a better performance Furthermore, to easy identify the system performance, the accuracy (ACC) also calculates by formula as in (9) The accuracy refers to the TP TN TP FP TN FN 54 correspondence between the class labels assigned to a heartbeat type and the true class The higher accuracy system performance obtains, the better classifier is In this study, an experiment is designed which the percent of the train data is changing as Table II and III In table II, we consider all normal beats and diagnose beats in to our classification Because the radio of normal beats to diagnose beats are too high, the accuracy is increase slightly where the training sample significantly increase In contrast, if we not consider normal beats in our training and testing dataset as in Table III, the accuracy is increase rapidly where the training sample significantly increase Confusion Matrix TABLE I Predicted Actual Positives Negatives True positives False negatives Fig Comparison of the accuracy with long-tail and no long- tail classification Positives TP FN False positives True negatives FP TN Negatives Experimental Result in Long Tail Scenario (unit is percent) TABLE II Training 10 20 30 40 50 60 70 80 90 Testing 90 80 70 60 50 40 30 20 10 TPR 73,39 78,67 79,25 82,85 80,38 82,87 84,43 83,70 83,19 TNR 58,26 58,91 61,60 64,44 63,48 65,11 68,35 66,41 66,75 ACC 93,08 93,25 93,72 94,26 93,96 94,38 94,82 94,68 94,60 TABLE I is percent) Experimental Result in No Long Tail Scenario (unit Training 10 20 30 40 50 60 70 80 90 Testing 90 80 70 60 50 40 30 20 10 TPR 84,70 86,94 87,50 88,24 88,01 89,20 89,93 89,33 89,95 TNR 82,00 83,54 85,68 85,26 85,69 87,00 87,86 86,70 87,29 ACC 87,97 89,67 90,52 90,79 90,96 91,79 92,34 91,77 92,18 The ROC curves generated by six classes of the neural network classifier while containing of normal beat in ECG data Fig 55 better the performance of classifier system in situation Conclusion In this paper, we use a state of art method on ECG classification to recognize heart diseases under longtail effect phenomenon The method use Wavelet transform to extract features; then PCA is used for dimensional reduction before apply a neuron network for classification task Because the number of normal beats is significantly higher than disease beats, it is difficult to recognize an anomaly beats Hence, the performances of conventional methods have been degraded as the experimental result points out Therefore, in particular applications where long-tail effect occurs, a suitable treatment should be applied to improve the performance References [1] The ROC curves generated by five classes of the neural network classifier while remove normal beat in ECG data Fig [2] As shown in Fig 4, the accuracy of classifier with normal beat including in ECG data is higher the accuracy with normal beat removing in ECG data The average accuracy, which not reject normal beat, is very high of 94,08%, and the average accuracy, which reject normal beat, is only 90,89 In addition, the accuracy in situation (removing normal beat) is fast increase when the number of training dataset is increase whereas the accuracy in situation (including normal beat) is low increase when the number of training dataset is increase [3] [4] In case of confusion matrix for multi-class classification evaluating, the ROC curve is plot to show how to operate of classifier system The curve is created by plotting the true positive rate against the false positive rate Fig.6 and Fig present the ROC of neural network classifier in case of five and six output nodes The Fig is shown performing of classification with five classes in the output layer In contract, Fig is shown performing of classification with six classes in the output layer [5] [6] According to the result as shown in Fig 5, Fig and Fig 7, the accuracy of classifier with including normal beat is higher the accuracy of classifier with removing normal beat Furthermore, the ROC curve graphical as Fig and Fig illustrates the performance of classifier system in situation to be 56 A Dallali, A Kachouri, and M Samet, "Classification of Cardiac Arrhythmia Using WT, HRV, and Fuzzy C-Means Clustering," Signal Processing: An International Journal (SPJI), vol 5, no 3, pp 101-109, 2011 D Joshi and R Ghongade, "Performance analysis of feature extraction schemes for ECG signal classification," Int J of Elect., Electron and Data Commun, vol 1, pp 4551, 2013 Z Zidelmal, A Amirou, D O Abdeslam, and J Merckle, "ECG beat classification using a cost sensitive classifier," Comput methods and programs in biomedicine, vol 111, no 3, pp 570-577, 2013 C Francisco, L Pablo, S Leif, B Andreas, and R J Millet, "Principal Component Analysis in ECG Signal Processing," EURASIP Journal on Advances in Signal Processing, vol 2007, no 1, p 074580, 2007 H Limaye and V V Deshmukh, "ECG Noise Sources and Various Noise Removal Techniques: A Survey," International Journal of Application or Innovation in Engineering & Management (IJAIEM), vol 5, no 2, pp 86-92, 2016 K M Gaikwad and M S Chavan, "Removal of high frequency noise from ECG signal using digital IIR butterworth filter," 2014 IEEE Global Conference on Wireless Computing & Networking (GCWCN), pp 121-124, 2014 [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] M.Vijayavanan, V.Rathikarani, and D P Dhanalakshmi, "Automatic Classification of ECG Signal for Heart Disease Diagnosis using morphological features," International Journal of Computer Science & Engineering Technology (IJCSET), vol 5, no 4, pp 449455, 2014 X Tang and L Shu, "Classification of Electrocardiogram Signals with RS and Quantum Neural Networks," Int J of Multimedia and Ubiquitous Eng, vol 9, no 2, pp 363-372, 2014 D Patra, M K Das, and S Pradhan, "Integration of FCM, PCA and neural networks for classification of ECG arrhythmias," IAENG Int J of Comput Sci, vol 36, no 3, pp 24-62, 2010 L Biel, O Pettersson, L Philipson, and P Wide, "ECG analysis: A new approach in human identification," IEEE Trans Instrum Meas., vol 50, no 3, pp 808-812, 2001 D Patra, M K Das, and S Pradhan, "Integration of FCM, PCA and neural networks for classification of ECG arrhythmias," IAENG Int J of Comput Sci., vol 36, no 3, pp 24-62, 2010 V Kumari and P R Kumar, "Cardiac Arrhythmia Prediction Using Improved Multilayer Perceptron Neural Network," International Journal of Electronics, Communication & Instrumentation Engineering Research and Development (IJECIERD), vol 3, no 4, pp 73-80, 2013 V.K.Srivastava and D D Prasad, "Dwt Based Feature Extraction from ecg Signal," American Journal of Engineering Research (AJER), vol 2, no 3, pp 44-50, 2013 M Korurek and Dogan, "ECG beat classification using particle swarm optimization and radial basis function neural network," Expert syst with Applicat., vol 37, no 12, pp 7563-7569, 2010 J S Wang, W C Chiang, Y T Yang, and Y L Hsu, "An effective ECG arrhythmia classification algorithm," Bio-Inspired Computing and Applicat , Springer Berlin Heidelberg, pp 545-550, 2012 M Moavenian and H Khorrami, "A qualitative comparison of artificial neural networks and support vector machines in ECG arrhythmias classification," Expert Syst [17] [18] [19] [20] [21] [22] 57 with Applicat., vol 37, no 4, pp 3088-3093, 2010 A Khazaee, "Heart Beat Classification Using Particle Swarm Optimization," Int J of Intelligent Syst and Applicat (IJISA), vol 5, no 6, pp 25-33, 2013 S M Jadhav, S L Nalbalwar, and A A Ghatol, "Artificial Neural Network Models based Cardiac Arrhythmia Disease Diagnosis from ECG Signal Data," Int J of Comput Applicat., vol 44, no 15, pp 8-13, 2012 S Ayub and J P Saini, "ECG classification and abnormality detection using cascade forward neural network," International Journal of Engineering, Science and Technology, vol 3, no 3, pp 41-46, 2011 Physionet (2014, November 10) MIT-BIH Arhythmia Database Available: http://physionet.org/physiobank/database/mit db/ A A EC57: (1998) Testing and Reporting Performance Results of Cardiac Rhythm and ST Segment Measurement Algorithms (AAMI Recommended Practice/American National Standard) Available: http://www.aami.org R J Martis, U R Acharya, and L C Min, "ECG beat classification using PCA, LDA, ICA and Discrete Wavelet Transform," Biomedical Signal Processing and Control, vol 8, pp 437-448, 2013 ... mạch Hiện phân loại bệnh tim gặp khó khăn tín hiệu điện tim có đặc trƣng riêng, khơng theo quy tắc phân loại tối ƣu cho phân loại ECG nên dẫn tới thiếu chuẩn hóa đặc trƣng tín hiệu điện tim Do... Hồ Chí Minh Hiện có số thiết kế phân tích tín hiệu điện tim nhằm cố gắng thu nhận đƣợc tín hiệu điện tim nhƣ chế tạo đƣợc thiết bị đo đƣợc tín hiệu điện tim Tuy nhiên, đọc xử lý tín hiệu ECG ghi... tim Nhận dạng ngƣời từ tín hiệu điện tim qua phân bố thƣa thớt phân đoạn ECG Một hệ thống trích xuất tính chuyển mạch để phân loại nhịp tim ECG Phân loại tín hiệu điện tim sử dụng PCA, LDA, ICA