So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

10 7 0
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.

Vietnam J Agri Sci 2021, Vol 19, No 4: 452-461 Tạp chí Khoa học Nơng nghiệp Việt Nam 2021, 19(4): 452-461 www.vnua.edu.vn SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU CHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU Phan Thị Thu Hồng Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Tác giả liên hệ: ptthong@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 10.09.2020 TÓM TẮT Chuỗi thời gian chứa giá trị thiếu xảy hầu hết lĩnh vực khoa học ứng dụng Bỏ qua giá trị thiếu dẫn đến giảm hiệu hệ thống kết không đáng tin cậy, đặc biệt liệu theo khoảng lớn Do đó, xử lý liệu thiếu bước quan trọng để thực cơng việc tiếp phân lớp, phân tích liệu Bài viết trước tiên nhằm giới thiệu phương pháp xử lý liệu thiếu Tiếp theo framework cho phép điền đầy liệu mát cho chuỗi thời gian đơn biến xây dựng Cuối cùng, thực so sánh hiệu suất phương pháp ước lượng giá trị thiếu ba chuỗi liệu thời gian thực sử dụng bốn số đánh giá Thông qua kết thử nghiệm, phương pháp DTWBI eDTWBI đạt kết vượt trội phương pháp khác liệu có tính chất mùa vụ khơng có thành phần xu hướng, na.interp tốt phương pháp liệu có hai tính chất mùa vụ xu hướng Từ khóa: Chuỗi thời gian chiều, liệu thiếu, ước lượng giá trị thiếu, độ tương tự An Empirical Study of Imputation Methods for Univariate Time Series ABSTRACT Time series with missing values occur in almost areas of applied science Ignoring missing values can lead to a reduction of system performance and unreliable results, especially in case of large missing values Therefore, handling missing data is an important task to effectively perform further purposes such as classification, data analysis, etc This article aims first to introduce approaches for dealing with missing data Next a framework is built to fill the incomplete data in univariate time series and then to compare the performance of various imputation methods Four indices are used to evaluate the ability of imputation methods on different real-time data series Through experimental results, the DTWBI and eDTWBI methods achieve better results with data having seasonality component and without trend factor, while na.interp is more superior as the data have both seasonality and trend components Keywords: Univariate time series, missing data, imputation, similarity T VN Ngy nay, vi tin b vỵt bêc cûa hệ thống giám sát, să phát triển công ngh lỵu tr d liu, s sn sng cỷa cỏc b cõm bin vi chi phớ thỗp v vic trin khai cỏc h thng vin thỏm, gổn nhỵ tỗt cõ d liu m ngỵi dựng phýc vý cho cuc sng cỷa mỡnh ó ỵc ghi nhờn mt cỏch t ng Cỏc d liu ny ỵc lỵu tr (trong mỏy tớnh) ngỵi cú th 452 truy xuỗt cæn thiết Chúng tồn täi nhiều Āng dýng thc t thuc nhiu lùnh vc khỏc nhỵ: kinh t, ti chớnh, y t, giỏo dýc, mụi trỵng, a lý, sinh học„ tồn täi ć nhiều däng thĀc khỏc nhỵ: s liu, vởn bõn, hỡnh õnh, ồm thanh, oọn phim Tuy nhiờn, cỏc d liu thu thờp ỵc thỵng khụng ổy ỷ, vỡ nhiu lý li cỷa hay nhiều thiết bð câm biến, sai sót xây trình trao đổi/ truyền tâi dĂ liệu, lỗi cûa dýng cý đo đäc không Phan Thị Thu Hng chớnh xỏc, iu kin thi tit xỗu (cõm biến trąi), thiếu tác động cûa ngỵi nhỵ vic thc hin lỗy mộu nỵc bin (Rousseeuw & cs., 2013) Mặt khác, hỉu hết mơ hình dă báo mơ hình phân tích chuỗi thąi gian (n bin hay a bin) thỵng gp khũ khởn xā lý dĂ liệu khơng đỉy đû, mc dự ũ l nhng kù thuờt mọnh (nhỵ mọng nĄron, mơ hình Markov èn, rÿng ngéu nhiên ) NhĂng mơ hình đđi hói dĂ liệu phâi đỉy đû q trình học (xây dăng mơ hình dă đốn) Hn na vic thiu d liu tọo s mỗt thơng tin ngun nhân dén đến việc giâi thích dĂ liệu khơng xác, sai lệch Thiếu dĂ liệu thiếu giá trð nghïa cò s tn tọi cỷa cỏc quan sỏt nhỵng giỏ tr khụng ỵc thu thờp hoc mỗt sau thu thờp hoc tỵng ng vi cỏc giỏ tr sai (nỡm ngoi phäm vi câm biến) cĄ sć dĂ liệu Việc tìm hiểu nguyên nhân gây dĂ liu b thiu l rỗt quan trng Vic ny giỳp phỏt trin, xuỗt hoc tỡm mt phỵng phỏp xā lý dĂ liệu thiếu thích hợp (Moritz & cs., 2015) Nhỵng thc t, vic hiu nguyờn nhõn vộn nhiệm vý đæy thách thĀc thiếu dĂ liu hon ton khụng th bit ỵc hoc nhng dĂ liệu có phân phối phĀc täp (Molenberghs & cs., 2014) Theo nhà thống kê học, nguyên nhân cỷa vic xuỗt hin cỏc d liu thiu cú th phõn thnh trỵng hp: Thiu d liu hon ton ngéu nhiên” (Missing Completely At Random, MCAR), “Thiếu dĂ liệu ngéu nhiên” (Missing At Random, MAR) “Thiếu dĂ liệu không phâi ngéu nhiên” (Not Missing At Random, NMAR) (Little & cs., 2014) Thiếu liệu hoàn toàn ngẫu nhiên (Missing Completely At Random, MCAR) DĂ liệu bð thiu ỵc coi l MCAR s thiu d liu khụng liờn quan n bỗt k giỏ tr no cỷa chớnh bin b thiu hoc cỏc giỏ tr cỷa bỗt kỳ biến khác Điều cò nghïa điểm dĂ liệu bð thiếu täo thành têp hợp ngéu nhiên cûa dĂ liệu hoàn toàn khụng cú h thng Vớ dý, mt ngỵi t chối tiết lộ thu nhêp cûa mình, điều khơng õnh hỵng n thu nhờp thc t cỷa cỹng nhỵ thu nhờp cỷa gia ỡnh Do đị, bó qua giá trð thiếu MCAR khơng làm cho phõn tớch d liu b sai lch nhỵng s lm tởng sai s chuốn cỷa cỏc ỵc tớnh mộu kớch thỵc mộu giõm (Dong & cs., 2013) Thiu liệu ngẫu nhiên (Missing At Random, MAR) Thiếu dĂ liệu ngéu nhiên kiểu thiếu dĂ liệu mà xác suỗt cỷa giỏ tr thiu chợ phý thuc vo d liu ỵc quan sỏt, ch khụng phý thuc vo phổn dĂ liệu bð thiếu Hay nói cách khác, giá trð thiếu cûa biến phý thuộc vào giá trð có sẵn cûa biến khác iu ny cho phộp cú th ỵc tớnh d liu thiếu dăa biến khác Ví dý, đánh giá học sinh tham gia môn học bao gồm hai kiểm tra: kiểm tra giĂa kỳ kiểm tra cuối kỳ Để làm kiểm tra cuối k, hc sinh phõi vỵt qua bi kim tra gia k Giõ s rỡng mt sinh viờn trỵt k thi gia k v sinh viờn ỗy bú hc Vỡ vờy, việc thiếu điểm kỳ thi cuối cûa sinh viên MAR Thiếu liệu không ngẫu nhiên (Not Missing At Random, NMAR) DĂ liệu bð thiếu kiểu thiếu d liu ngộu nhiờn nu xỏc suỗt xuỗt hin cỷa giá trð bð thiếu phý thuộc vào giá trð bð thiếu khác Do đị, vĆi lội dĂ liệu b thiu ny, chỳng ta khụng th ỵc tớnh d liệu khơng đỉy đû tÿ dĂ liệu có Lỵu ý rỡng cỏc nguyờn nhõn gõy s thiu dĂ liệu chỵ giâ đðnh lý thiếu dĂ liệu ngĂ cânh phån tích Do đị, theo quan điểm giâ thuyết (các nhà thống kê học), chỳng khụng th ỵc xỏc minh (ngoọi tr giõ thuyt MCAR) giâ thuyết Vì vêy, việc gán nguyên nhân giá trð bð thiếu cho loäi dĂ liệu thiếu ć khơng rõ ràng chíc chín (Moritz & cs., 2015) Hiện hỉu hết nghiên cĀu têp trung vào ba loäi dĂ liệu bð thiu trờn nghiờn cu xuỗt hoc la chn phỵng phỏp in d liu tỵng ng Tuy nhiờn Molenberghs & cs (2014) khun rìng ln ln tốt hĄn kiểm kiểm tra mĀc độ xác cûa kết quâ phån tích đối vĆi giâ đðnh khác 453 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều Do đò, xā lý dĂ liệu mỗt mỏt núi chung v mỗt mỏt d liu chuỗi dĂ liệu thąi gian nịi riêng địng vai trđ đặc biệt quan trọng học máy, khai phá xā lý dĂ liệu thống kê, tiền đề để thc hin tip cỏc mýc ch khỏc nhỵ phõn tớch, phân lĆp, dă báo„ Trong báo này, trình bày số tiếp cên xā lý dĂ liệu thiếu thăc so sánh khâ nëng điền đæy d liu thiu cỷa mt s phỵng phỏp cho cỏc chuỗi dĂ liệu thąi gian chiều khác Điều ny cho phộp ngỵi dựng la chn phỵng phỏp in ổy d liu phự hp vi tớnh chỗt cỷa d liệu chuỗi thąi gian chiều PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU Trên thăc tế, lïnh văc khỏc cú kiu d liu c trỵng v cỏch thc lỵu tr khỏc Do ũ khụng cũ phỵng phỏp chuyờn dýng no thc s thúa ỏng ỵc khuyờn dùng cho việc xā lý dĂ liệu thiếu mà phâi tùy thuộc vào kiểu dĂ liệu loäi dĂ liệu thiếu để tÿ đò đðnh áp dýng đề xuỗt cỏc phỵng phỏp phự hp (da vo cỏc phồn tớch kt quõ cú sai s nhú nhỗt cú th) c bit, l cỏc phỵng phỏp trõ li cõu húi Lm th no cú th x lý ỵc dĂ liệu thiếu cĄ sć dĂ liệu lĆn?” Trong phổn ny chỳng tụi trỡnh by mt s phỵng pháp cĄ bân xā lý dĂ liệu thiếu đò là: (1) Bú qua cỏc giỏ tr thiu (2) Uc lỵng giá trð bð thiếu 2.1 Bỏ qua (Deletion method) tr thiu Bú qua tỗt cõ nhng quan sỏt khụng cú d liu ỵc xem nhỵ phồn tớch trỵng hp ổy ỷ v l mt nhng phỵng phỏp ph bin nhỗt (Horton & Kleinman, 2007) Cũ hai phỵng phỏp thỵng ỵc ỏp dýng ũ l: 2.1.1 Listwise Deletion Phỵng phỏp Xũa Listwise thc hin xúa mi trỵng hp dĂ liệu thiếu giá trð cho nhiều biến (Gelman & Hill, 2006) Cách tiếp cên lội bó tỗt cõ cỏc trỵng hp d liu cú giỏ tr bð thiếu, dén đến têp dĂ liệu chỵ quan sỏt ổy ỷ Phỵng phỏp ny ph bin tớnh đĄn giân dễ thăc Một mặt, nò đâm bâo rìng dĂ liệu khơng chĀa giá trð bð thiu v khụng cú giỏ tr ngộu nhiờn no ỵc thờm vo Tuy nhiờn, nú lm giõm kớch thỵc cỷa têp dĂ liệu Bìng cách lội bó quan sát vi bỗt k giỏ tr b thiu no, mt s thụng tin v b d liu s b mỗt, iu dén đến kết quâ sai lệch Bâng cho thỗy mt vớ dý v Xúa Listwise Tờp d liu vi cỏc giỏ tr b thiu ỵc hin thð bâng có 10 bân ghi sau thc hin Xúa Listwise chợ củn trỵng hp Đối vĆi dĂ liệu có nhiều giá trð b thiu, lỵng d liu b loọi bú ln v ũ, d liu cũ ý nghùa s b mỗt Bảng Tập liệu mẫu chứa giá trị thiếu 454 giá STT Ngày Giờ Mực nước Lưu lượng 1/1/2008 130 612 1/1/2008 112 ? 1/1/2008 13 115 542 1/1/2008 19 ? 574 1/2/2008 118 556 1/2/2008 116 546 1/2/2008 13 ? 546 1/2/2008 19 116 546 1/3/2008 118 556 10 1/3/2008 ? ? Phan Thị Thu Hồng Bảng Tập liệu đầy đủ sau xóa giá trị thiếu STT Ngày Giờ Mực nước Lưu lượng 1/1/2008 130 612 1/1/2008 13 115 542 1/2/2008 118 556 1/2/2008 116 546 1/2/2008 19 116 546 1/3/2008 118 556 Bảng Kết sử dụng phương pháp Pairwise (a) Các biến sử dụng phân tích 2.1.2 (b) Kết phương pháp Pairwise STT Ngày Giờ Mực nước STT Ngày Giờ Mực nước 1/1/2008 130 1/1/2008 130 1/1/2008 112 1/1/2008 112 1/1/2008 13 115 1/1/2008 13 115 1/1/2008 19 ? 1/2/2008 118 1/2/2008 118 1/2/2008 116 /2/2008 116 1/2/2008 19 116 1/2/2008 13 ? 1//2008 118 1/2/2008 19 116 1/32008 118 10 1/3/2008 ? Pairwise method (Available-Case Analysis, ACA) Phỵng phỏp ny chợ loọi bú nhng trỵng hợp có giá trð bð thiếu số bin ỵc phõn tớch (Gelman & Hill, 2006) Thụng thỵng, phỵng phỏp ny loọi bú ớt trỵng hp hn phỵng phỏp xũa Listwise ACA vộn cú mt nhỵc im tỵng t nhỵ Listwise, c bit l cỏc kt quõ sai lch, ỵc chợ nghiờn cu cỷa Ghosh v Pahwa Bõng minh phỵng phỏp Pairwisse Trong vớ dý ny, cỏc bin ỵc s dýng phõn tớch l Ngy, gi v mc nỵc Bõng 3a l tờp dĂ liệu cûa dĂ liệu thiếu ban đæu chợ cú ba bin ny Khi ỏp dýng phỵng phỏp Pairwise, hàng có giá trð bð thiếu bð xúa, iu ny tọo tờp d liu ỵc th hin th bõng Trong trỵng hp ny, s 10 trỵng hp vộn cũn, lm giõm kớch thỵc cỷa tờp d liu Khi s dýng phỵng phỏp ny, kớch thỵc cỷa tờp d liu cui cựng s khác phý thuộc vào biến sā dýng phân tích 2.2 Ước lượng giá trị thiếu Khác vĆi cách tiếp cên loäi bó bân ghi chĀa dĂ liệu thiếu, cách tiếp cên tìm cách thay giá trð thiếu bỡng cỏc giỏ tr ỵc lỵng s dýng phỵng phỏp khác Trong phỉn chúng tơi trình bày s phỵng phỏp ph bin v cờp nhờt: 2.2.1 Thay liệu giá trị trung bình/trung vị (Mean/median substitution) Allison (2001) v Bishop (2006) xuỗt phỵng phỏp thay giá trð trung bình trung vð cûa giá trð quan sát cûa biến cho giá trð cịn thiếu Các tht tốn sā dýng giỏ tr (trung bỡnh hoc trung v) thay th tỗt câ giá trð bð thiếu dén đến kết quâ sai lệch lỗi độ lệch chuèn (undervalue 455 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều standard derivation) (Crawford & cs., 1995; Sterne & cs., 2009) 2.2.2 Phương pháp sử dụng giá trị quan sát cuối (Last Value Carried Forward, LVCF) Phỵng phỏp ny dựng giỏ trð quan sát cuối để điền vào giá trð cịn thiếu Cách tiếp cên dén n kt quõ sai v dỵi hoc quỏ mc cỷa cỏc giỏ tr thc V mt lý thuyt, phỵng phỏp giâ đðnh rìng kết q khơng thay đổi sau giá trð quan sát cuối 2.2.3 Thay giỏ tr bng phng phỏp ni suy (Interpolation) Phỵng phỏp nội suy täo điểm dĂ liệu mĆi tÿ têp hợp điểm dĂ liệu biết ồy l phỵng phỏp cho kt quõ khỏ tt dĂ liệu thiếu tÿng điểm Bảng Kết thay giá trị trung bình trung vị STT Ngày Giờ Mực nước Lưu lượng 1/1/2008 130 612 1/1/2008 112 560/551 1/1/2008 13 115 542 1/1/2008 19 118/116 574 1/2/2008 118 556 1/2/2008 116 546 1/2/2008 13 118/116 546 1/2/2008 19 116 546 1/3/2008 118 556 10 1/3/2008 118/116 560/551 Bảng Kết điền đầy giá trị thiếu sử dụng phương pháp LCVF STT Ngày Giờ Mực nước Lưu lượng 1/1/2008 130 612 1/1/2008 112 612 1/1/2008 13 115 542 1/1/2008 19 115 574 1/2/2008 118 556 1/2/2008 116 546 1/2/2008 13 116 546 1/2/2008 19 116 546 1/3/2008 118 556 10 1/3/2008 118 556 Bảng Kết điền đầy giá trị thiếu sử dụng phương pháp nội suy 456 STT Ngày Giờ Mực nước Lưu lượng 1/1/2008 130 612 1/1/2008 112 577 1/1/2008 13 115 542 1/1/2008 19 116.5 574 1/2/2008 118 556 Phan Thị Thu Hồng Hình (1) Xây dựng cửa sổ Q trước liệu thiếu; (2) Dịch chuyển cửa sổ để tìm cửa sổ tương tự với cửa sổ Q; (3) Chọn cửa sổ tương tự Qs với cửa sổ Q; (4) Thay giá trị thiếu giá trị cửa sổ Qfs 2.2.4 Các phương pháp ước lượng giá trị thiếu trực tiếp dựa vào liệu có sẵn - Phỵng phỏp DTWBI (Phan & cs., 2017) Phỵng phỏp ny cho phép điền đỉy không dĂ liệu thiếu lĆn cûa dĂ liệu chuỗi thąi gian đĄn biến Hình mơ tõ cỏc bỵc thc hin ỵc lỵng giỏ tr thiu cỷa thuờt toỏn DTWBI Phỵng phỏp ny thay th khoõng giỏ tr thiu bỡng cỏch tỡm chui tỵng t nhỗt (Qs, -Hỡnh 1) vi chui trỵc (hoc sau) giá trð bð thiếu (Q - ①-Hình 1), sau ũ lỗp ổy khoõng d liu trng bỡng cỏch chộp chui sau (tỵng ng trỵc) chui tỵng t tip (Qfs - -Hỡnh ) tỡm cỏc chui tỵng t vi ca s Q, tng ca s (cựng kớch thỵc vi vi ca s Q) ỵc dch chuyn trờn chui d liu (-Hỡnh 1) tỡm cỏc chui tỵng t vi Q da trờn tỵng t ton cýc (Phan & cs., 2016) v tỵng t cýc b DTW (Sakoe v Chiba, 1978) Sau đò, Qs, chuỗi cò độ khác biệt ớt nhỗt ỵc chn t tờp cỏc chui tỵng t va tỡm ỵc - Phỵng phỏp eDTWBI (Phan & cs., 2020) eDTWBI l phỵng phỏp m rng cỷa phỵng phỏp DTWBI Hỡnh mụ tõ cỏc bỵc ỵc lỵng giá trð thiếu chuỗi dĂ liệu thąi gian đĄn bin phỵng phỏp ny, vi mi khoõng trng d liu, d liu trỵc v d liu sau khoõng trng ny ỵc xem xột nhỵ hai chui d liu thi gian riờng bit T ũ phỵng phỏp DTWBI ỵc ỏp dýng trờn tng chui d liu n l ỵc tính vector giá trð thiếu Kết quâ cuối để điền đỉy không trống dĂ liệu giá trð trung bỡnh cỷa vector ỵc tớnh trỵc ũ THC NGHIỆM 3.1 Miêu tả liệu Chúng tơi phân tích b d liu ỏnh giỏ hiu suỗt phỵng pháp điền đỉy giá trð thiếu Trong đị cị dĂ liệu Khách hàng hàng khơng (Airpassenger) đến tÿ gói R-TSA (Chan & Ripley, 2018) B d liu ny ỵc chn vỡ chỳng thỵng ỵc s dýng cỏc ti liệu nghiên cĀu Ngồi ra, chúng tơi cüng chọn thêm hai dĂ liệu khác đến tÿ lïnh văc khác ć nhĂng đða điểm khác bao gồm: 457 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều Hình (1) Xây dựng cửa sổ Qb, Qa trước sau liệu thiếu; (2) Dịch chuyển cửa sổ để tìm cửa sổ tương tự với cửa sổ Q liệu trước sau liệu thiếu; (3) Chọn cửa sổ tương tự Qbs Qas với cửa sổ Q; (4) Thay giá trị thiếu giá trị trung bình cửa sổ trước Qbs sau cửa sổ Qas - Khách hàng hàng không (Airpassenger): Số khách hàng trung bình máy bay hàng tháng D liu ỵc thu thờp t thỏng 1/1960 n thỏng 12/1971 Bỵc 1: D liu thiu giõ lờp ỵc tọo bìng cách xịa phån độn (gồm giá trð liên tiếp) khói chuỗi thąi gian vĆi kích thỵc khỏc - Nhit khụng khớ Phự Lin (Temperature): Bộ dĂ liệu bao gồm nhiệt độ không khớ trung bỡnh hng thỏng tọi trọm khớ tỵng Phự Lin tọi Vit Nam t 1/1961 n 12/2014 Bỵc 2: S dýng cỏc thuờt toỏn in ổy ỵc tớnh cỏc giỏ tr thiu - Mc nỵc tọi trọm Hỵng Yờn (Water level): B d liu mc nỵc hng gi ỵc thu thờp tọi trọm Hỵng Yờn t 1/1/2008 n 30/04/2008 (2904 bân ghi) 3.2 Các bước tiến hành thực nghim Trờn thc t, vic ỏnh giỏ hiu suỗt cỷa cỏc phỵng phỏp in ổy d liu khụng th thc hin ỵc cỏc giỏ tr thc b thiu Vỡ vêy, phâi täo dĂ liệu thiếu giâ lêp chuỗi thąi gian đæy đû để so sánh khâ nởng cỷa cỏc phỵng phỏp ỵc lỵng giỏ tr thiu Trong nghiờn cu ny, mt k thuờt gm ba bỵc ỵc s dýng tin hnh cỏc thớ nghim ỵc mụ tõ chi tit nhỵ sau: 458 Bỵc 3: ỏnh giỏ hiu quõ cỷa cỏc phỵng phỏp in ổy giỏ trð thiếu Ở đåy, thăc täo mĀc dĂ liệu thiếu dĂ liệu Đối vĆi dĂ liệu khách hàng hàng không, nhiệt khụng khớ Phự Lin, kớch thỵc d liu thiu lổn lỵt l 6%, 7,5%, 10%, 12,5% v 15% chiu dài dĂ liệu Đối vĆi dĂ liệu măc nỵc Hỵng Yờn, ồy l mt tờp d liu khỏ ln, ũ, cỏc khoõng trng ỵc tọo vi kớch thỵc 3%, 3,75%, 5%, 6,25% v 7,5% chiu di dĂ liệu 3.3 Các số đánh giá hiệu suất Sau thăc điền đæy giá trð thiu, chỳng tụi ỏnh giỏ hiu suỗt cỷa phỵng phỏp cỷa da trờn bn chợ s khỏc ỵc mụ tõ nhỵ sau: Phan Th Thu Hng - tỵng t (Similarity) - Sim (y, x) cho bit tỵng tă giĂa giá trð thăc (x) giá trð þĆc lþợng (y) đþợc tính bći cơng thĀc sau:   Sim y,x  T  T i 1 1 y i  xi     max x  x Trong đị, T kích thỵc d liu thiu, tỵng t nỡm [0,1] tỵng t cao hn cho thỗy phỵng phỏp in ổy d liu thiu cú khõ nởng ỵc lỵng giỏ trð thiếu tốt hĄn - NMAE (Normalized Mean Absolute Error): Sai số tuyệt đối trung bình chn hóa giĂa giá tr thc (x) v giỏ tr ỵc lỵng (y) ỵc tớnh nhỵ sau: NMAE y,x y i  xi T  T i 1 Vmax  Vmin Trong đò, Vmax, Vmin giá trð max cûa chuỗi thąi gian ban đæu Kết quâ NMAE nhú hn cho thỗy phỵng phỏp in ổy d liu thiếu cho kết quâ sát vĆi giá trð thăc hĄn - RMSE (Root Mean Square Error): Lỗi trung bình bình phỵng gia giỏ tr thc (x) v giỏ tr ỵc lỵng (y) ỵc nh nghùa nhỵ sau: RMSE y,x  T  y  xi T i i Chợ s ny rỗt hu ớch o chớnh xỏc tng th cỷa phỵng phỏp ỵc tớnh d liu thiu Phỵng phỏp hiu quõ hn giỏ tr RMSE thỗp hn - FSD (Fractional Standard Deviation): Tỷ lệ lệch chuèn giĂa giá trð thc (x) v giỏ tr ỵc lỵng (y) ỵc tớnh bći công thĀc:   FSD y,x  *    SD  y   SD  x  SD y  SD x Tỷ lệ cho bit liu mt phỵng phỏp x lý d liu thiu cũ ỵc chỗp nhờn hay khụng? Giỏ tr cỷa FSD cng gổn thỡ cỏc giỏ tr ỵc lỵng gæn vĆi giá trð thăc KẾT QUẢ VÀ THẢO LUẬN Chúng tiến hành so sánh hiệu nëng cỷa cỏc phỵng phỏp ni suy (na.interp, Hyndman & Khandakar, 2008), phỵng phỏp s dýng giỏ tr quan sỏt cui (na.locf, Zeileis & Grothendieck, 2018), phỵng phỏp thay th bi giỏ tr trung bỡnh (na.aggregate, Zeileis & Grothendieck, 2018), phỵng pháp DTWBI (Phan & cs., 2017), eDTWBI (Phan & cs., 2020) Bâng trình bày kết quâ trung bình cỷa cỏc phỵng phỏp in ổy giỏ tr thiu áp dýng dĂ liệu sā dýng tiờu ỏnh giỏ kt quõ: tỵng t (Sim), NMAE, RMSE, FSD Cỏc kt quõ tt nhỗt cho mi t l thiu d liu ỵc in ờm Nhng kt quõ ny cho thỗy eDTWBI cú khõ nởng þĆc lþợng dĂ liệu thiếu tốt hĄn nhĂng phþĄng pháp điền đæy dĂ liệu thiếu báo Hai b d liu nhit Phự Lin v mc nỵc Hỵng Yờn cũ c im l chợ cú thnh phổn vý m khụng cú thnh phổn xu hỵng Trờn hai b d liu ny, chỳng ta thỗy rỡng eDTWBI cho giỏ tr ln nhỗt v tỵng t (Sim), giỏ tr nhú nhỗt mc sai s (NMAE RMSE) ć hæu hết mĀc dĂ liệu thiếu iu ny cho thỗy giỏ tr ỵc lỵng d liu thiu sinh bi phỵng phỏp eDTWBI l gổn vi giỏ trð thăc FSD chỵ số so sánh hình dáng cûa dĂ liệu dă đoán dĂ liệu thăc Ở chỵ số FSD, so vĆi chỵ số so sánh nh lỵng thỡ eDTWBI khụng cũn cho kt quõ tt nhỵ nhng chợ s nhỵ Sim, NMAE v RMSE, nú chỵ cho kết q tốt ć số mĀc dĂ liu thiu trờn b d liu mc nỵc Hỵng Yờn (3%, 3,75% 6,25%) Ở mĀc dĂ liệu thiếu cũn lọi trờn b d liu mc nỵc Hỵng Yờn tồn không dĂ liệu cûa d liu nhit Phự Lin, phỵng phỏp eDTWBI ng sau DTWBI Bộ dĂ liệu khách hàng hàng không vÿa cú tớnh chỗt vý, va cũ xu hỵng tởng dổn Hai phỵng phỏp DTWBI v eDTWBI hoọt ng tt vĆi giâ thuyết tồn täi “méu” (pattern) ć vð trí no ũ trờn d liu, nờn hai phỵng phỏp ny chợ cho kt tt hn cỏc phỵng phỏp khỏc nhĂng mĀc dĂ liệu thiếu nhó dĂ liệu Ở nhĂng khoâng dĂ liệu thiếu lĆn hĄn, na.interp l phỵng phỏp ni suy kt hp vi x lý tớnh chỗt vý cỷa d liu, cho kt quõ tốt hĄn ć chỵ số Sim, NMAE, RMSE Mặc dù vêy, ć chỵ số so sánh hình dáng cỷa d liu d oỏn, DTWBI vộn chng tú ỵc mänh cûa kết q chỵ số FSD cú giỏ tr nhú nhỗt tọi 4/5 mc d liu thiếu 459 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều Bảng Kết so sánh phương pháp điền đầy liệu thiếu liệu Phương pháp DTWBI Khách hàng hàng không Nhiệt độ Phù Liễn Kích thước Sim NMAE RMSE FSD Sim NMAE RMSE 6% Mực nước Hưng Yên FSD Kích thước Sim NMAE RMSE FSD 3% 0,73 0,07 45,39 0,26 0,88 0,11 2,43 0,04 0,78 0,13 27,89 0,30 eDTWBI 0,81 0,04 28,01 0,11 0,93 0,06 1,35 0,07 0,83 0,10 20,12 0,30 na,interp 0,75 0,06 34,17 0,86 0,79 0,22 4,94 1,30 0,80 0,12 26,03 0,54 na,locf 0,75 0,06 38,38 0,78 0,24 5,28 0,79 0,12 25,93 na,aggregate 0,56 0,14 75,70 0,79 0,21 4,27 0,79 0,13 26,17 0,81 0,06 37,13 0,10 0,89 0,11 2,44 0,06 0,81 0,15 27,89 0,13 eDTWBI 0,85 0,04 21,97 0,21 0,89 0,10 2,22 0,04 0,81 0,14 27,70 0,11 na,interp 0,78 0,07 41,69 1,33 0,79 0,25 5,41 1,19 0,82 0,13 27,49 0,87 na,locf 0,80 0,06 40,33 0,79 0,25 5,42 0,78 0,17 34,24 na,aggregate 0,64 0,13 77,82 0,79 0,22 4,49 0,77 0,19 37,78 0,73 0,11 67,03 0,12 0,90 0,10 2,21 0,02 0,84 0,13 27,26 0,14 eDTWBI 0,80 0,07 45,00 0,41 0,92 0,07 1,72 0,04 0,85 0,11 24,52 0,61 na,interp 0,81 0,07 42,26 1,01 0,79 0,24 4,96 0,91 0,84 0,12 25,83 0,73 na,locf 0,78 0,08 51,19 0,79 0,25 5,71 0,80 0,17 36,23 0,71 0,12 70,35 0,80 0,22 4,48 0,83 0,14 29,11 0,69 0,17 105,81 0,30 0,88 0,11 2,61 0,07 0,83 0,14 29,08 0,22 eDTWBI 0,81 0,10 64,38 0,42 0,90 0,09 2,08 0,09 0,85 0,12 24,91 0,22 na,interp 0,81 0,09 61,30 1,59 0,79 0,25 5,52 1,03 0,80 0,17 35,92 0,99 na,locf 0,82 0,09 60,18 0,75 0,31 6,71 0,76 0,23 47,90 na,aggregate 0,76 0,13 79,64 0,79 0,22 4,46 0,83 0,15 31,35 DTWBI DTWBI 7,50% 10% na,aggregate DTWBI DTWBI 12,5% 5% 6,25% 0,74 0,14 80,65 0,28 0,89 0,11 2,53 0,06 0,87 0,11 23,98 0,14 eDTWBI 0,77 0,13 72,32 0,25 0,91 0,08 1,95 0,10 0,89 0,10 20,28 0,18 na,interp 0,83 0,09 62,29 1,17 0,78 0,26 5,87 1,38 0,84 0,15 31,57 1,44 na,locf 0,80 0,11 76,09 0,79 0,26 5,97 0,82 0,18 36,76 na,aggregate 0,70 0,19 114,63 0,80 0,22 4,38 0,84 0,15 30,99 460 15% 3,75% 7,5% Phan Thị Thu Hồng KẾT LUẬN Trong viết này, trỡnh by cỏc hỵng tip cờn x lý d liu thiếu cho dĂ liệu chuỗi thąi gian chiều bao gm hai nhũm phỵng phỏp: i) Nhũm phỵng phỏp bú qua d liu thiu v ii) Nhũm phỵng phỏp ỵc lỵng giỏ tr thiu Kt quõ thc nghim trờn b d liu thc t cho thỗy, phỵng phỏp eDTWBI v DTWBI cho kt quõ ỵc lỵng khỏ chớnh xỏc trỵng hp d liu cú tớnh chỗt vý nhỵng khụng cũ xu hỵng Phỵng phỏp na.interp cho kt quõ d bỏo tt hn trỵng hp d liu va cú tớnh chỗt vý v cũ xu hỵng Bỵc tip theo chỳng tụi d nh s tip týc mć rộng nghiên cĀu cho dĂ liệu chuỗi thąi gian nhiều chiều TÀI LIỆU THAM KHẢO Allison P.D (2001) Missing Data, Quantitative Applications in the Social Sciences, 136 Sage Publication Buuren S & Groothuis-Oudshoorn K (2011) Mice: Multivariate imputation by chained equations in R Journal of statistical software 45(3) Bishop C.M (2006) Pattern Recognition and Machine Learning (Information Science and Statistics) Springer-Verlag New York, Inc., Secaucus, NJ, USA Chan K.S & Ripley B (2020) TSA: Time Series Analysis R package version 1.3 Retrieved from https://CRAN.R-project.org/package=TSA, on March 10, 2020 Crawford S.L., Tennstedt S.L & McKinlay J.B (1995) A comparison of anlaytic methods for nonrandom missingness of outcome data J Clin Epidemiol 48(2): 209-219 Dong Y & Peng J (2013) Principled missing data methods for researchers SpringerPlus 2: 222 Gelman A & Hill J (2006) Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge University Press Ghosh S & Pahwa P (2008) Assessing bias associated with missing data from joint Canada/U.S survey of health: An application, JSM Biometrics Horton N.J & Kleinman K.P (2007) Much Ado About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models American Statistical Association 61 79-90 Hyndman R & Khandakar Y (2008) Automatic time series forecasting: the forecast package for R., used package in 2020 J Stat Softw pp 1-22 Little R.J.A & Rubin D.B (2014) Statistical Analysis with Missing Data John Wiley & Sons GoogleBooks-ID: AyVeBAAAQBAJ Moritz S., Sardá A., Bartz-Beielstein T., Zaefferer M & Stork J (2015) Comparison of different Methods for Univariate Time Series Imputation in R arXivpreprint arXiv:1510.03924 Molenberghs G., Fitzmaurice G., Kenward M.G., Verbeke G & Tsiatis A (2014) Handbook of missing data methodology CRC Press Phan T.T.H., Caillault E.P & Bigand A (2016) Comparative study on supervised learning methods for identifying phytoplankton species, in 2016 IEEE Sixth International Conference on Communications and Electronics (ICCE) pp 283288, doi: 10.1109/CCE.2016.7562650 Phan T.T.H., Poisson Caillault E., Lefebvre A & Bigand A (2017) Dynamic Time Warping-based imputation for univariate time series data, Pattern Recognition Letters Rousseeuw K., Caillault ÉP., Lefebvre A & Hamad D (2013) Monitoring system of phytoplankton blooms by using unsupervised classifier and time modeling In 2013 IEEE International Geoscience and Remote Sensing Symposium - IGARSS pp 3962-3965 Stekhoven D.J & Bühlmann P (2012) MissForestnon-parametric missing value imputation for mixed-type data Bioinformatics 28(1): 112-118 Sterne J.A.C., White I.R., Carlin J.B., Spratt M., Royston P., Kenward M.G., Wood A.M & Carpenter J.R (2009) Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls BMJ (Clin Resear ed.) Sakoe H & Chiba S (1978) Dynamic Programming Algorithm Optimization for Spoken Word Recognition IEEE Transactions On Acoustics, Speech, And Signal Processing 16: 43-49 Zeileis A & Gabor Grothendieck (2005) zoo: S3 infrastructure for regular and irregular time series Journal of Statistical Software 14(6): 1-27 461 ... 4/5 mc dĂ liệu thiếu 459 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều Bảng Kết so sánh phương pháp điền đầy liệu thiếu liệu Phương pháp DTWBI Khách hàng hàng không Nhiệt... đối vĆi giâ đðnh khác 453 So sánh số phương pháp xử lý liệu thiếu cho chuỗi liệu thời gian chiều Do đò, xā lý d liu mỗt mỏt núi chung v mỗt mỏt d liệu chuỗi dĂ liệu thąi gian nòi riêng đòng vai... phỵng phỏp cho chuỗi dĂ liệu thąi gian chiều khác iu ny cho phộp ngỵi dựng la chn phỵng phỏp in ổy d liu phự hp vi tớnh chỗt cûa dĂ liệu chuỗi thąi gian chiều PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU Trên

Ngày đăng: 26/05/2021, 14:40

Tài liệu cùng người dùng

Tài liệu liên quan