1. Trang chủ
  2. » Luận Văn - Báo Cáo

DETECT AND PROCESS OUTLIERS FOR TEMPERATURE DATA AT 3H MONITORING STATIONS IN VIETNAM

15 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Kinh Doanh - Tiếp Thị - Kinh tế - Thương mại - Khoa học tự nhiên 132 Journal of Mining and Earth Sciences Vol. 61, Issue 1 (2020) 132 - 146 Detect and process outliers for temperature data at 3h monitoring stations in Vietnam Nam Van Dang 1,, Oanh Thi Nong 1, Hoai Xuan Nguyen 2, Manh Van Ngo 3 , Hien Thi Nguyen 4 1 Faculty of Information Technology, Hanoi University of Mining and Geology, Vietnam 2 AI Academy Vietnam, Vietnam 3 Center for Hydro - Meteorological Data and Information, Vietnam 4 Falculty of Information Technology, Technical University, Vietnam ARTICLE INFO ABSTRACT Article history: Received 11th Nov. 2019 Accepted 06th Mar. 2020 Available online 28th Feb. 2020 Data preparation is a compulsory process in any data science project. Many research have shown that it constitutes 80 of the time, effort and resources of a data science project. Depending on the particular project and data type, Data preparation step may required different methodssteps. Detecting and processing outlier data is one of the important preprocessing steps in data preparation , especially for time series data. This paper reviews two methods for detecting outliers for low dimensional data, namely Z - Score and Box - plot charts. We also present results of experiments which applied these methods for temperature data collected from 43 monitoring stations in 3 - hour in Vietnam over the last 6 years from 01012014 to 31122019. Copyright 2020 Hanoi University of Mining and Geology. All rights reserved. Keywords: Anomalies, Box-plot, Outliers, Z-Score. Corresponding author E-mail: dangvannamhumg. edu. vn DOI: 10.46326JMES.2020.61(1).15 Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất Tập 61, Kỳ 1 (2020) 132 - 146 133 Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạ m quan trắc 3h của Việt Nam Đặng Văn Nam 1,, Nông Thị Oanh 1, Nguyễn Xuân Hoài 2 , Ngô Văn Mạnh 3, Nguyễ n Thị Hiền 4 1 Khoa Công nghệ Thông tin, Trường Đại học Mỏ - Địa chất, Việt Nam 2 Viện Trí tuệ nhân tạo, Việt Nam 3 Trung tâm Thông tin và Dữ liệu khí tượng thủy văn, Việt Nam 4 Học viện Kỹ thuật quân sự, Việt Nam THÔNG TIN BÀI BÁO TÓM TẮT Quá trình: Nhận bài 15112019 Chấp nhận 06012020 Đăng online 28022020 Trong bất kỳ một dự án khoa học dữ liệu nào thì chuẩn bị dữ liệu (Data preparation) là công đoạn bắt buộc và không thể thiếu. Kết quả của nhiều nghiên cứu đã chỉ ra rằng, chuẩn bị dữ liệu là công đoạn chiếm tới 80 thời gian, công sức và nguồn lực của một dự án khoa học dữ liệu. Chuẩn bị dữ liệu bao gồm rất nhiều bước xử lý, với nhiều nghiệp vụ khác nhau và phụ thuộc vào từng bài toán, từng loại dữ liệu cụ thể. Phát hiện và xử lý dữ liệu ngoại lai (Outliers) là một trong những bước tiền xử lý quan trọng, đặc biệt là các dữ liệu số dạng chuỗi thời gian (Time series) (Hermine N. Akouemo et al., 2014). Trong nội dung của bài báo này, tác giả nghiên cứu hai phương pháp hiệu quả đang được sử dụng để phát hiện ngoại lai cho dữ liệu có số chiều thấp là Z - Score và biểu đồ Box - plot, cũng như các phương pháp để xử lý dữ liệu ngoại lai nói chung. Sau đó tiến hành thực nghiệm, áp dụng những phương pháp phát hiện và xử lý này cho dữ liệu nhiệt độ thu thập được từ 43 trạm quan trắc 3h của Việt Nam trong giai đoạn 6 năm gần đây từ năm 2014 đến năm 2019. 2020 Trường Đại học Mỏ - Địa chất. Tất cả các quyền được bảo đảm. Từ khóa: Anomalies, Box - plot, Outliers, Z - Score. 1. Mở đầu Dữ liệu khí tượng thủy văn trong đó có dữ liệ u nhiệt độ, được thu thập, xử lý và lưu trữ tại cơ sở dữ liệu của Trung tâm thông tin và Dữ liệu khí tượng thủy văn. Đây là dữ liệu dạng chuỗi thời gian được thu thập định kỳ theo từng khoảng thờ i gian nhất định (3 giờ hoặc 6 giờ) tùy thuộ c vào từng trạm cụ thể. Hiện tại ở Việt Nam, có 43 trạ m quan trắc dữ liệu với tần suất 3 giờ một lần, chi tiế t các trạm quan trắc và dữ liệu được trình bày cụ thể trong phần 2 của bài báo. Quá trình đo đạc, xử lý, tổng hợp, truyền và lưu trữ dữ liệu quan trắc từ các trạm bị ảnh hưởng bởi các yếu tố chủ quan và khách quan dẫn đến mất dữ liệu vàhoặc tác động đến độ chính xác của dữ liệu. Do đó, yêu cầu bắ t buộc là dữ liệu cần phải được chuẩn hóa (Data preparation) trước khi sử dụng cho bất kỳ mục đích gì. Tác giả liên hệ E - mail: dangvannamhumg.edu.vn DOI: 10.46326JMES.2020.61(1).15 134 Đặng Văn Nam và nnk.Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 Theo Davy Cielen et al. (2016) đã chỉ ra rằ ng, chuẩn bị dữ liệu được đánh giá là khâu chiế m nhiều thời gian, công sức và nguồn lực nhất củ a bất kỳ một dự án khoa học dữ liệu nào. Các kết quả nghiên cứu cho thấy 80 thời gian, công sứ c và nguồn lực của một dự án khoa học dữ liệ u là cho việc này. Chuẩn bị dữ liệu bao gồm rất nhiề u thao tác, nghiệp vụ, kỹ thuật và yêu cầu khác nhau, phụ thuộc vào từng loại dữ liệu và từng dự án cụ thể . Tuy nhiên, chúng ta có thể tổng hợ p vào ba nhóm thao tác chính: Làm sạch dữ liệ u (Data cleansing); Chuyển đổi dữ liệ u (Data transformation) và tích hợp dữ liệu (Combining data). Khi nghiên cứu và làm việc với dữ liệu khí tượng thủy văn nói chung, dữ liệu nhiệt độ nói riêng tác giả thấy rằng, việc chuẩn hóa dữ liệ u cho dữ liệu nhiệt độ tập trung chủ yếu vào 4 vấn đề chính dưới đây: - Kết hợp và sắp xếp dữ liệu quan trắ c theo chuỗi thời gian và theo vị trí địa lý của các trạm. - Phát hiện và xử lý các dữ liệu ngoạ i lai (Outliers) trong tập dữ liệu quan trắc. - Phát hiện và xử lý các dữ liệu thiế u (Missing data) trong tập dữ liệu quan trắc. - Chuyển đổi, định dạng và xuất dữ liệu đã xử lý để lưu trữ theo yêu cầu. Các điểm dữ liệu ngoại lai hay còn được gọ i là các dữ liệu bất thường (Anomalies) có ảnh hưở ng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý ngoại lai là thao tác quan trọ ng trong quá trình làm sạch dữ liệu. Việc phát hiệ n ngoại lai giúp phát hiện ra những điểm dữ liệ u không phù hợp hay bất thường hơn so với phầ n còn lại của tập dữ liệu (C. Aggarwal, 2017). Phát hiện ngoại lai không chỉ được ứng dụ ng trong việc làm sạch dữ liệu mà nó còn được ứ ng dụng vào nhiều bài toán thực tế như: Phát hiện lỗ i (fraud detection); giám sát (surveillance); chuẩn đoán (diagnosis); dự đoán bả o trì (predictive maintaence),… Tuy nhiên, việc phát hiện các điể m dữ liệu ngoại lai không phải là một công việc đơn giản, nó yêu cầu phải có những hiểu biết sâu sắc về tập dữ liệu, cũng như nắm vững các phương pháp hiệu quả để thực hiện việc này. Trong nội dung của bài báo, nhóm tác giả tậ p trung giải quyết một trong số bốn vấn đề chính đã chỉ ra ở trên, đó là nhiên cứu các phương pháp phát hiện và xử lý ngoại lai, trên cơ sở đó áp dụng các phương pháp này vào việc xử lý ngoạ i lai cho dữ liệu nhiệt độ thu thập được tại toàn bộ 43 trạ m quan trắc 3 giờ của Việt Nam trong khoảng thời gian 6 năm gần đây, từ ngày 1 tháng 1 năm 2014 tới hết ngày 31 tháng 12 năm 2019. Toàn bộ dữ liệu sử dụng trong bài báo đều là dữ liệu thực tế được cung cấp bởi Trung tâm thông tin và dữ liệu khí tượng thủy văn. 2. Dữ liệu nhiệt độ tại các trạm quan trắc 3h Trạm quan trắc khí tượng thủy văn được lắp đặt tại các vị trí khác nhau để thực hiện đo các thông số khí tượng như: Nhiệt độ, tốc độ gió, hướng gió, lượng mưa, độ ẩm,… Các trạm này đị nh kỳ sau một khoảng thời gian cố định được thiết lậ p thực hiện việc đo các thông số này. Với các trạ m quan trắc 3h sẽ thực hiện thu thập dữ liệu 8 lầ n mỗi ngày, mỗi lần cách nhau 3 giờ tại các thời điể m 00h, 03h, 06h, 09h, 12h, 15h, 18h, 21h theo giờ GMT, tương ứng vớ i 01h, 04h, 07h, 10h, 13h, 16h, 19h, 22h giờ Việt Nam. Ở nước ta hiện nay, có tổ ng số 43 trạm quan trắc khí tượng thủy văn với thờ i gian quan trắc là 3h một lần. Danh sách 43 trạm này được cho trong Bảng 1, vị trí đặt các trạm được thể hiện trong Hình 1. Dữ liệu khí tượng thủy văn nói chung, dữ liệ u nhiệt độ nói riêng, sau khi được đo đạc từ các trạ m quan trắc sẽ được gửi về Trung tâm thông tin và dữ liệu khí tượng thủy văn. Dữ liệu được lưu trữ trong cơ sở dữ liệ u MongoDB, tiến hành kết nối tới máy chủ cơ sở dữ liệu và truy xuất thông số nhiệt độ của 43 trạ m trong khoảng thời gian từ 01h ngày 01012014 tới 22h ngày 31122019. Các dữ liệu nhiệt độ sau đó được lưu trữ ra tệp định dạ ng .CSV (Comma - separated values) có tên DataTemp43 Original.csv (Hình 2) để thuận tiệ n cho việc xử lý các bước tiếp theo. Cột đầ u tiên trong tệp có tên “TimeVN” cho biết thời điể m quan trắc dữ liệu, các cột còn lại (tiêu đề mỗi c ột tương ứng với mã trạm quan trắc) là dữ liệu nhiệt độ củ a từng trạm ứng với mốc thời gian của cột “TimeVN”. Đây là tệp dữ liệu gốc (dữ liệ u thô - Raw dataset) được tổng hợp khi các trạm gửi về , quá trình thu thập dữ liệu, truyền nhận và lưu trữ có thể do các nguyên nhân chủ quan và khách quan dẫn đến dữ liệu có thể bị mất, bị sai lệch,… Do đó, trước khi sử dụng các số liệu này cần phải được xử lý. Đặng Văn Nam và nnk.Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 135 STT Mã trạm Tên quốc tế Tên Việt Nam Trạm đảo TỉnhThành phố 1 48800 MUONG LAY Mường Lay Điện Biên 2 48811 DIEN BIEN Điện Biên Điện Biên 3 48806 SON LA Sơn La Sơn La 4 48818 HOA BINH Hòa Bình Hòa Bình 5 48803 LAO CAI Lào Cai Lào Cai 6 48805 HA GIANG Hà Giang Hà Giang 7 48812 TUYEN QUANG Tuyên Quang Tuyên Quang 8 48808 CAO BANG Cao Bằng Cao Bằng 9 48830 LANG SON Lạng Sơn Lạng Sơn 10 48838 MONG CAI Móng Cái Quảng Ninh 11 48837 TIEN YEN Tiên Yên Quảng Ninh 12 48833 BAI CHAY Bãi Cháy Quảng Ninh 13 48826 PHU LIEN Phù Liễn Hải Phòng 14 48839 BACH LONG VI Bạch Long Vĩ X Hải Phòng 15 48825 HA DONG Hà Đông Hà Nội 16 48823 NAM DINH Nam Định Nam Định 17 48842 HOI XUAN Hồi Xuân Thanh Hóa 18 48840 THANH HOA Thanh Hóa Thanh Hóa 19 48845 VINH Vinh Nghệ An 20 48846 HA TINH Hà Tĩnh Hà Tĩnh 21 4886 KY ANH Kỳ Anh Hà Tĩnh 22 48848 DONG HOI Đồng Hới Quảng Bình 23 48852 HUE Huế Thừa Thiên Huế 24 48860 HOANG SA Hoàng Sa Đà Nẵng 25 48855 DA NANG Đà Nẵng Đà Nẵng 26 48863 QUANG NGAI Quảng Ngãi Quảng Ngãi 27 4896 HOAI NHON Hoài Nhơn Bình Định 28 48870 QUY NHON Quy Nhơn Bình Định 29 48873 TUY HOA Tuy Hòa Phú Yên 30 48877 NHA TRANG Nha Trang Khánh Hòa 31 48920 TRUONG SA Trường Sa X Khánh Hòa 32 48890 PHAN RANG Phan Rang Ninh Thuận 33 48887 PHAN THIET Phan Thiết Bình Thuận 34 48889 PHU QUY Phú Quý X Bình Thuận 35 48866 PLEIKU Pleiku Gia Lai 36 48875 BUON MA THUAT Buôn Ma Thuật Đắc Lắc 37 48894 NHA BE Nhà Bè Hồ Chí Minh 38 48903 VUNG TAU Vũng Tàu Bà Rịa - Vũng Tàu 39 48918 CON DAO Côn Đảo X Bà Rịa - Vũng Tàu 40 48910 CAN THO Cần Thơ Cần Thơ 41 48917 PHU QUOC Phú Quốc X Kiên Giang 42 48907 RACH GIA Rạch Giá Kiên Giang 43 48914 CA MAU Cà Mau Cà Mau Bảng 1. Danh sách 43 trạm quan trắc 3h của Việt Nam. 136 Đặng Văn Nam và nnk.Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 Hình 1. Vị trí các trạm quan trắc 3h trên bản đồ Google Maps. Hình 2. Dữ liệu nhiệt độ thu thập được tại 43 trạm quan trắc 3h. Đặng Văn Nam và nnk.Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 137 Như đã trình bày trong phần 1, có rất nhiề u yêu cầu cần phải thực hiện cho bước chuẩn hóa dữ liệu, tuy nhiên trong nội dung củ a bài báo, nhóm tác giả chỉ tập trung vào phát hiện và xử lý các ngoại lai cho dữ liệu nhiệt độ tại 43 trạ m này. Trong phần 3 dưới đây, sẽ trình bày những nội dung cơ bản về phát hiện và xử lý ngoại lai, trong đó có 2 phương pháp được sử dụng để phát hiệ n ngoại lai cho dữ liệu có số chiều thấ p là Z - Score và Box - plot. Đây cũng là 2 phương pháp mà nhóm tác giả sử dụng cho việc phát hiện ngoạ i lai trong tệp dữ liệu nhiệt độ ở trên. 3. Phát hiện và xử lý ngoại lai 3.1. Giới thiệu về dữ liệu ngoại lai Một điểm ngoại lai là một điểm dữ liệ u khác biệt đáng kể so với phần còn lại của tập dữ liệ u (C. Aggarwal, 2017). Các giá trị ngoại lai thường đượ c xem như là các mẫu dữ liệu đặc biệt, cách xa khỏ i phần lớn dữ liệu khác trong tập dữ liệ u (N.N.R Ranga Suri et al., 2018). Hình 3a thể hiện tập dữ liệu nhiệt độ quan trắc được của trạm 48855 - Đà Nẵng, dữ liệ u này không chứa giá trị ngoại lai. Hình 3b thể hiện dữ liệu nhiệt độ quan trắc của trạm 48918 - Côn Đả o, dữ liệu này có chứa một số giá trị ngoại lai. Các điểm dữ liệu này cách xa khỏi phần lớn các phầ n tử khác trong tập dữ liệu đã được chỉ ra cụ thể trong hình. Có rất nhiều nguyên nhân chủ quan và khách quan dẫn tới sự xuất hiện của các điểm ngoại lai Hình 3. (a) Minh họa tập dữ liệu không chứa dữ liệu ngoại lai; (b) Minh họa tập dữ liệu chứa các điểm dữ liệu ngoại lai. (a) (b) 138 Đặng Văn Nam và nnk.Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 trong tập dữ liệu như: Các lỗi nhập dữ liệu do con người gây ra; Các lỗi đo lường do thiết bị, dụng cụ lấy mẫu, thí nghiệm gây ra; Do cố ý tạo ra để phụ c vụ việc kiểm tra các phương pháp phát hiệ n; Các lỗi xử lý dữ liệ u phát sinh trong quá trình thao tác dữ liệu; Các lỗi do lấy mẫu được trích xuất hoặ c trộn dữ liệu từ các nguồn sai khác nhau; Do tự nhiên gây ra, đây không phải là lỗi mà là các giá trị quan sát thật tuy nhiên rất hiếm khi xuất hiệ n (N.N.R Ranga Suri et al., 2018). Trong khai phá dữ liệu và trong các tài liệ u thống kê, dữ liệu ngoại lai còn được gọi là dữ liệ u bất thường (anomalies), lệch lạc (deviants),… Trong hầu hết các ứng dụng, dữ liệu được tạ o ra bởi quá trình sinh dữ liệu, phản ánh hoạt động củ a hệ thống hoặc các quan sát thu thập về các thự c thể. Khi quá trình tạo ra có những vấn đề bất thường, kết quả sẽ tạo ra các ngoại lai. Do đó, các giá trị ngoại lai thường chứa đựng nhữ ng thông tin hữu ích về những đặc điểm bất thường của hệ thống và thực thể ảnh hưởng tới quá trình sinh dữ liệu. Việc phát hiện dữ liệu bất thườ ng giúp chúng ta có những hiểu biết sâu sắc về từng ứng dụng cụ thể. Một số ứng dụng của dữ liệu ngoạ i lai trong thực tế có thể chỉ ra như (C. Aggarwal, 2017): - Hệ thống phát hiện xâm nhậ p (Intrusion detection systems) - Phát hiện gian lận tín dụng (Credit card fraud) - Các sự kiện cảm biế n quan tâm (Interesing sensor events) - Trong chuẩn đoán y tế (Medical diagnosis) - Trong thực thi pháp luật (Law enforcement) - Trong khoa học trái đất (Earth science) Có nhiều phương pháp để phát hiện các điể m dữ liệu ngoại lại, tác giả C. Aggarwal (2017) đã liệ t kê một số phương pháp cơ bản được sử dụ ng bao gồm: - Phân tích giá trị cực trị (Extreme Value Analysis): Đây là phương pháp cơ bản nhất đượ c sử dụng để phát hiện các điểm ngoại lai, áp dụ ng tốt cho dữ liệu một chiều. - Các mô hình xác suất và thống kê (Probab ilistic and Statistical Models): Phương pháp này áp đặt một phân bố cụ thể trên tập dữ liệu như phân bố đều, phân bố Bernoulli, phân bố Poisson,… Sau đó, tính xác suất cho các phần tử thuộc tập dữ liệu ban đầu, các phần tử nào có xác suất thấp sẽ được cho là điểm ngoại lai. - Các mô hình tuyến tính (Linear Models): Với phương pháp này, sẽ phải chuyển đổi tập dữ liệu ban đầu sang không gian ít chiều hơn bằng cách sử dụng tương quan tuyến tính. Sau đó, khoả ng cách của từng điểm dữ liệu đến mặt phẳng ở không gian mới sẽ được tính toán và khoảng cách này sẽ được dùng để tìm ra các điểm ngoại lai. - Các mô hình dựa trên lân cận (Proximity - based Models): Phương pháp này dựa trên ý tưởng là mô hình hóa các điểm ngoạ i lai sao cho chúng hoàn toàn tách biệt khỏi toàn bộ các điể m dữ liệu còn lại. Phân cụm, phân tích dựa trên mật độ, phân tích dựa trên người hàng xóm gần nhất là các hướng tiếp cận chính của phương pháp này. - Các mô hình dựa trên lý thuyết thông tin (Information Theoretic Models): Phương pháp này dựa trên nguyên lý các điểm ngoại lai sẽ làm tăng giá trị minimum code length khi mô tả tập dữ liệu. Dữ liệu nhiệt độ thu thập được từ các trạ m quan trắc đều là các dữ liệu một chiề u. Quá trình làm việc với dữ liệu này, có 2 dạng ngoại lai chủ yếu được phát hiện và xử lý bao gồm: - Ngoại lai trái (Left outlier): Là các điểm ngoạ i lai có giá trị cực tiểu (Extreamly low) trong tậ p mẫu quan sát (C. Aggarwal, 2017). - Ngoại lai phải (Right outlier): Là các điể m ngoại lai có giá trị cực đạ i (Extreamly large) trong tập mẫu quan sát (C. Aggarwal, 2017). Do đặc điểm của tập dữ li ệu, phương pháp được dùng để phát hiện dữ liệu ngoại lai áp dụ ng cho 43 trạm quan trắc của Việt Nam thuộc nhóm đầu tiên đã chỉ ra ở trên là phân tích giá trị cực trị, trong đó 2 phương pháp chính là sử dụ ng Z - Score và sử dụng đồ thị Box - plot. Chi tiết của hai phương pháp này được trình bày trong phần 3.2 dưới đây. 3.2. Phát hiện ngoại lai cho dữ liệu một chiều 3.2.1. Phương pháp sử dụng Z - Score Điểm tiêu chuẩn hay Z - Score chỉ ra mộ t thành phần chênh lệch so với trung bình là bao nhiêu độ lệch chuẩn (C. Aggarwal, 2017). Z - Score của bấ t kỳ một điểm dữ liệu nào được tính theo công thức:

132 Journal of Mining and Earth Sciences Vol 61, Issue (2020) 132 - 146 Detect and process outliers for temperature data at 3h monitoring stations in Vietnam Nam Van Dang 1,*, Oanh Thi Nong 1, Hoai Xuan Nguyen 2, Manh Van Ngo 3, Hien Thi Nguyen Faculty of Information Technology, Hanoi University of Mining and Geology, Vietnam AI Academy Vietnam, Vietnam Center for Hydro - Meteorological Data and Information, Vietnam Falculty of Information Technology, Technical University, Vietnam ARTICLE INFO ABSTRACT Article history: Data preparation is a compulsory process in any data science project Received 11th Nov 2019 Many research have shown that it constitutes 80% of the time, effort and Accepted 06th Mar 2020 resources of a data science project Depending on the particular project Available online 28th Feb 2020 and data type, Data preparation step may required different methods/steps Detecting and processing outlier data is one of the Keywords: important preprocessing steps in data preparation , especially for time Anomalies, series data This paper reviews two methods for detecting outliers for low Box-plot, dimensional data, namely Z - Score and Box - plot charts We also present Outliers, results of experiments which applied these methods for temperature data Z-Score collected from 43 monitoring stations in - hour in Vietnam over the last years from 01/01/2014 to 31/12/2019 Copyright © 2020 Hanoi University of Mining and Geology All rights reserved _ *Corresponding author E-mail: dangvannam@humg edu DOI: 10.46326/JMES.2020.61(1).15 Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất Tập 61, Kỳ (2020) 132 - 146 133 Phát xử lý ngoại lai cho liệu nhiệt độ trạm quan trắc 3h Việt Nam Đặng Văn Nam 1,*, Nông Thị Oanh 1, Nguyễn Xn Hồi , Ngơ Văn Mạnh 3, Nguyễn Thị Hiền Khoa Công nghệ Thông tin, Trường Đại học Mỏ - Địa chất, Việt Nam Viện Trí tuệ nhân tạo, Việt Nam Trung tâm Thơng tin Dữ liệu khí tượng thủy văn, Việt Nam Học viện Kỹ thuật quân sự, Việt Nam THÔNG TIN BÀI BÁO TĨM TẮT Q trình: Trong dự án khoa học liệu chuẩn bị liệu (Data Nhận 15/11/2019 preparation) công đoạn bắt buộc thiếu Kết nhiều Chấp nhận 06/01/2020 nghiên cứu rằng, chuẩn bị liệu công đoạn chiếm tới 80% thời Đăng online 28/02/2020 gian, công sức nguồn lực dự án khoa học liệu Chuẩn bị liệu bao gồm nhiều bước xử lý, với nhiều nghiệp vụ khác phụ Từ khóa: thuộc vào toán, loại liệu cụ thể Phát xử lý liệu Anomalies, ngoại lai (Outliers) bước tiền xử lý quan trọng, đặc biệt Box - plot, liệu số dạng chuỗi thời gian (Time series) (Hermine N Akouemo et Outliers, al., 2014) Trong nội dung báo này, tác giả nghiên cứu hai phương Z - Score pháp hiệu sử dụng để phát ngoại lai cho liệu có số chiều thấp Z - Score biểu đồ Box - plot, phương pháp để xử lý liệu ngoại lai nói chung Sau tiến hành thực nghiệm, áp dụng phương pháp phát xử lý cho liệu nhiệt độ thu thập từ 43 trạm quan trắc 3h Việt Nam giai đoạn năm gần từ năm 2014 đến năm 2019 © 2020 Trường Đại học Mỏ - Địa chất Tất quyền bảo đảm Mở đầu gian định (3 giờ) tùy thuộc vào trạm cụ thể Hiện Việt Nam, có 43 trạm Dữ liệu khí tượng thủy văn có liệu quan trắc liệu với tần suất lần, chi tiết nhiệt độ, thu thập, xử lý lưu trữ sở trạm quan trắc liệu trình bày cụ liệu Trung tâm thông tin Dữ liệu khí thể phần báo Quá trình đo đạc, xử tượng thủy văn Đây liệu dạng chuỗi thời lý, tổng hợp, truyền lưu trữ liệu quan trắc từ gian thu thập định kỳ theo khoảng thời trạm bị ảnh hưởng yếu tố chủ quan khách quan dẫn đến liệu và/hoặc tác động _ đến độ xác liệu Do đó, yêu cầu bắt *Tác giả liên hệ buộc liệu cần phải chuẩn hóa (Data E - mail: dangvannam@humg.edu.vn preparation) trước sử dụng cho mục DOI: 10.46326/JMES.2020.61(1).15 đích 134 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 Theo Davy Cielen et al (2016) rằng, liệu nhiệt độ thu thập toàn 43 trạm chuẩn bị liệu đánh giá khâu chiếm quan trắc Việt Nam khoảng thời nhiều thời gian, công sức nguồn lực gian năm gần đây, từ ngày tháng năm 2014 dự án khoa học liệu Các kết tới hết ngày 31 tháng 12 năm 2019 Toàn nghiên cứu cho thấy 80% thời gian, công sức liệu sử dụng báo liệu thực tế nguồn lực dự án khoa học liệu cho cung cấp Trung tâm thông tin liệu việc Chuẩn bị liệu bao gồm nhiều thao khí tượng thủy văn tác, nghiệp vụ, kỹ thuật yêu cầu khác nhau, phụ thuộc vào loại liệu dự án cụ thể Dữ liệu nhiệt độ trạm quan trắc 3h Tuy nhiên, tổng hợp vào ba nhóm thao tác chính: Làm liệu (Data cleansing); Trạm quan trắc khí tượng thủy văn lắp Chuyển đổi liệu (Data transformation) tích đặt vị trí khác để thực đo hợp liệu (Combining data) thơng số khí tượng như: Nhiệt độ, tốc độ gió, hướng gió, lượng mưa, độ ẩm,… Các trạm định Khi nghiên cứu làm việc với liệu khí kỳ sau khoảng thời gian cố định thiết lập tượng thủy văn nói chung, liệu nhiệt độ nói thực việc đo thơng số Với trạm riêng tác giả thấy rằng, việc chuẩn hóa liệu cho quan trắc 3h thực thu thập liệu lần liệu nhiệt độ tập trung chủ yếu vào vấn đề ngày, lần cách thời điểm đây: 00h, 03h, 06h, 09h, 12h, 15h, 18h, 21h theo GMT, tương ứng với 01h, 04h, 07h, 10h, 13h, 16h, - Kết hợp xếp liệu quan trắc theo 19h, 22h Việt Nam Ở nước ta nay, có tổng chuỗi thời gian theo vị trí địa lý trạm số 43 trạm quan trắc khí tượng thủy văn với thời gian quan trắc 3h lần Danh sách 43 trạm - Phát xử lý liệu ngoại lai cho Bảng 1, vị trí đặt trạm (Outliers) tập liệu quan trắc thể Hình - Phát xử lý liệu thiếu (Missing Dữ liệu khí tượng thủy văn nói chung, liệu data) tập liệu quan trắc nhiệt độ nói riêng, sau đo đạc từ trạm quan trắc gửi Trung tâm thông tin - Chuyển đổi, định dạng xuất liệu xử lý liệu khí tượng thủy văn để lưu trữ theo yêu cầu Dữ liệu lưu trữ sở liệu Các điểm liệu ngoại lai hay gọi MongoDB, tiến hành kết nối tới máy chủ sở dữ liệu bất thường (Anomalies) có ảnh hưởng liệu truy xuất thông số nhiệt độ 43 trạm lớn đến độ xác mơ hình dự đốn khoảng thời gian từ 01h ngày 01/01/2014 Phát xử lý ngoại lai thao tác quan trọng tới 22h ngày 31/12/2019 trình làm liệu Việc phát ngoại lai giúp phát điểm liệu Các liệu nhiệt độ sau lưu trữ tệp khơng phù hợp hay bất thường so với phần định dạng CSV (Comma - separated values) có tên lại tập liệu (C Aggarwal, 2017) Data_Temp43_ Original.csv (Hình 2) để thuận tiện cho việc xử lý bước Cột Phát ngoại lai không ứng dụng tệp có tên “TimeVN” cho biết thời điểm quan việc làm liệu mà ứng trắc liệu, cột lại (tiêu đề cột tương dụng vào nhiều toán thực tế như: Phát lỗi ứng với mã trạm quan trắc) liệu nhiệt độ (fraud detection); giám sát (surveillance); chuẩn trạm ứng với mốc thời gian cột đốn (diagnosis); dự đốn bảo trì (predictive “TimeVN” Đây tệp liệu gốc (dữ liệu thô - Raw maintaence),… Tuy nhiên, việc phát điểm dataset) tổng hợp trạm gửi về, liệu ngoại lai cơng việc đơn trình thu thập liệu, truyền nhận lưu trữ có giản, yêu cầu phải có hiểu biết sâu sắc thể nguyên nhân chủ quan khách quan tập liệu, nắm vững phương pháp dẫn đến liệu bị mất, bị sai lệch,… Do đó, hiệu để thực việc trước sử dụng số liệu cần phải xử lý Trong nội dung báo, nhóm tác giả tập trung giải số bốn vấn đề trên, nhiên cứu phương pháp phát xử lý ngoại lai, sở áp dụng phương pháp vào việc xử lý ngoại lai cho Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 135 Bảng Danh sách 43 trạm quan trắc 3h Việt Nam STT Mã trạm Tên quốc tế Tên Việt Nam Trạm đảo Tỉnh/Thành phố MUONG LAY Mường Lay Điện Biên 48800 DIEN BIEN Điện Biên X Điện Biên Sơn La 48811 SON LA Sơn La X Hịa Bình HOA BINH Hịa Bình X Lào Cai 48806 LAO CAI Lào Cai X Hà Giang HA GIANG Hà Giang X 48818 TUYEN QUANG Tuyên Quang Tuyên Quang CAO BANG Cao Bằng Cao Bằng 48803 LANG SON Lạng Sơn Lạng Sơn MONG CAI Móng Cái 48805 TIEN YEN Tiên Yên Quảng Ninh BAI CHAY Bãi Cháy Quảng Ninh 48812 PHU LIEN Phù Liễn Quảng Ninh BACH LONG VI Bạch Long Vĩ Hải Phòng 48808 HA DONG Hà Đông Hải Phòng NAM DINH Nam Định 48830 HOI XUAN Hồi Xuân Hà Nội THANH HOA Thanh Hóa Nam Định 10 48838 Thanh Hóa VINH Vinh Thanh Hóa 11 48837 HA TINH Hà Tĩnh Nghệ An KY ANH Kỳ Anh Hà Tĩnh 12 48833 DONG HOI Đồng Hới Hà Tĩnh Quảng Bình 13 48826 HUE Huế Thừa Thiên Huế HOANG SA Hoàng Sa Đà Nẵng 14 48839 DA NANG Đà Nẵng Đà Nẵng QUANG NGAI Quảng Ngãi Quảng Ngãi 15 48825 HOAI NHON Hồi Nhơn Bình Định QUY NHON Quy Nhơn Bình Định 16 48823 TUY HOA Tuy Hòa Phú Yên NHA TRANG Nha Trang Khánh Hòa 17 48842 TRUONG SA Trường Sa Khánh Hòa PHAN RANG Phan Rang Ninh Thuận 18 48840 PHAN THIET Phan Thiết Bình Thuận PHU QUY Phú Quý Bình Thuận 19 48845 PLEIKU Pleiku Gia Lai 20 48846 BUON MA THUAT Buôn Ma Thuật Đắc Lắc Hồ Chí Minh 21 48/86 NHA BE Nhà Bè Bà Rịa - Vũng Tàu VUNG TAU Vũng Tàu Bà Rịa - Vũng Tàu 22 48848 CON DAO Côn Đảo Cần Thơ CAN THO Cần Thơ Kiên Giang 23 48852 PHU QUOC Phú Quốc Kiên Giang RACH GIA Rạch Giá Cà Mau 24 48860 Cà Mau CA MAU 25 48855 26 48863 27 48/96 28 48870 29 48873 30 48877 31 48920 32 48890 33 48887 34 48889 35 48866 36 48875 37 48894 38 48903 39 48918 40 48910 41 48917 42 48907 43 48914 136 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 Hình Vị trí trạm quan trắc 3h đồ Google Maps Hình Dữ liệu nhiệt độ thu thập 43 trạm quan trắc 3h Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 137 Như trình bày phần 1, có nhiều yêu Một điểm ngoại lai điểm liệu khác cầu cần phải thực cho bước chuẩn hóa biệt đáng kể so với phần lại tập liệu (C liệu, nhiên nội dung báo, nhóm Aggarwal, 2017) Các giá trị ngoại lai thường tác giả tập trung vào phát xử lý xem mẫu liệu đặc biệt, cách xa khỏi ngoại lai cho liệu nhiệt độ 43 trạm phần lớn liệu khác tập liệu (N.N.R Trong phần đây, trình bày nội Ranga Suri et al., 2018) dung phát xử lý ngoại lai, có phương pháp sử dụng để phát Hình 3a thể tập liệu nhiệt độ quan trắc ngoại lai cho liệu có số chiều thấp Z - Score trạm 48855 - Đà Nẵng, liệu Box - plot Đây phương pháp mà nhóm khơng chứa giá trị ngoại lai Hình 3b thể tác giả sử dụng cho việc phát ngoại lai liệu nhiệt độ quan trắc trạm 48918 - Côn Đảo, tệp liệu nhiệt độ liệu có chứa số giá trị ngoại lai Các điểm liệu cách xa khỏi phần lớn phần Phát xử lý ngoại lai tử khác tập liệu cụ thể hình 3.1 Giới thiệu liệu ngoại lai Có nhiều nguyên nhân chủ quan khách quan dẫn tới xuất điểm ngoại lai (a) (b) Hình (a) Minh họa tập liệu khơng chứa liệu ngoại lai; (b) Minh họa tập liệu chứa điểm liệu ngoại lai 138 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 tập liệu như: Các lỗi nhập liệu ban đầu sang khơng gian chiều cách sử người gây ra; Các lỗi đo lường thiết bị, dụng cụ dụng tương quan tuyến tính Sau đó, khoảng cách lấy mẫu, thí nghiệm gây ra; Do cố ý tạo để phục điểm liệu đến mặt phẳng không gian vụ việc kiểm tra phương pháp phát hiện; Các tính tốn khoảng cách lỗi xử lý liệu phát sinh trình thao tác dùng để tìm điểm ngoại lai liệu; Các lỗi lấy mẫu trích xuất trộn liệu từ nguồn sai khác nhau; Do tự - Các mơ hình dựa lân cận (Proximity - nhiên gây ra, lỗi mà giá trị based Models): Phương pháp dựa ý quan sát thật nhiên xuất tưởng mô hình hóa điểm ngoại lai cho (N.N.R Ranga Suri et al., 2018) chúng hoàn toàn tách biệt khỏi toàn điểm liệu lại Phân cụm, phân tích dựa mật Trong khai phá liệu tài liệu độ, phân tích dựa người hàng xóm gần thống kê, liệu ngoại lai gọi liệu hướng tiếp cận phương pháp bất thường (anomalies), lệch lạc (deviants),… Trong hầu hết ứng dụng, liệu tạo - Các mơ hình dựa lý thuyết thơng tin q trình sinh liệu, phản ánh hoạt động (Information Theoretic Models): Phương pháp hệ thống quan sát thu thập thực dựa nguyên lý điểm ngoại lai làm thể Khi trình tạo có vấn đề bất tăng giá trị minimum code length mô tả tập thường, kết tạo ngoại lai Do đó, liệu giá trị ngoại lai thường chứa đựng thơng tin hữu ích đặc điểm bất thường hệ Dữ liệu nhiệt độ thu thập từ trạm thống thực thể ảnh hưởng tới trình sinh quan trắc liệu chiều Quá trình liệu Việc phát liệu bất thường giúp chúng làm việc với liệu này, có dạng ngoại lai chủ ta có hiểu biết sâu sắc ứng dụng cụ yếu phát xử lý bao gồm: thể Một số ứng dụng liệu ngoại lai thực tế (C Aggarwal, 2017): - Ngoại lai trái (Left outlier): Là điểm ngoại lai có giá trị cực tiểu (Extreamly low) tập - Hệ thống phát xâm nhập (Intrusion mẫu quan sát (C Aggarwal, 2017) detection systems) - Ngoại lai phải (Right outlier): Là điểm - Phát gian lận tín dụng (Credit card fraud) ngoại lai có giá trị cực đại (Extreamly large) - Các kiện cảm biến quan tâm (Interesing tập mẫu quan sát (C Aggarwal, 2017) sensor events) - Trong chuẩn đoán y tế (Medical diagnosis) Do đặc điểm tập liệu, phương pháp - Trong thực thi pháp luật (Law enforcement) dùng để phát liệu ngoại lai áp dụng - Trong khoa học trái đất (Earth science) cho 43 trạm quan trắc Việt Nam thuộc nhóm Có nhiều phương pháp để phát điểm phân tích giá trị cực trị, liệu ngoại lại, tác giả C Aggarwal (2017) liệt phương pháp sử dụng Z - Score kê số phương pháp sử dụng bao sử dụng đồ thị Box - plot Chi tiết hai gồm: phương pháp trình bày phần 3.2 - Phân tích giá trị cực trị (Extreme Value Analysis): Đây phương pháp sử dụng để phát điểm ngoại lai, áp dụng 3.2 Phát ngoại lai cho liệu chiều tốt cho liệu chiều - Các mơ hình xác suất thống kê 3.2.1 Phương pháp sử dụng Z - Score (Probabilistic and Statistical Models): Phương pháp áp đặt phân bố cụ thể tập Điểm tiêu chuẩn hay Z - Score thành liệu phân bố đều, phân bố Bernoulli, phân bố phần chênh lệch so với trung bình độ Poisson,… Sau đó, tính xác suất cho phần tử lệch chuẩn (C Aggarwal, 2017) Z - Score bất thuộc tập liệu ban đầu, phần tử có xác kỳ điểm liệu tính theo cơng thức: suất thấp cho điểm ngoại lai - Các mơ hình tuyến tính (Linear Models): Với 𝑧 = (𝑥− 𝜇) (1) phương pháp này, phải chuyển đổi tập liệu 𝜎 Trong đó: x giá trị điểm liệu cần tính Z - Score; μ giá trị trung bình tập liệu; σ độ lệch chuẩn tập liệu (Nếu z < thể Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 139 điểm liệu nhỏ giá trị trung bình; Nếu giản mạnh mẽ để phát điểm z > thể điểm liệu lớn giá trị trung ngoại lai tập liệu Tuy nhiên, phương bình; Nếu z = thể điểm liệu với pháp tốt liệu có số chiều thấp giá trị trung bình) có phân phối chuẩn Sau tính tốn Z - Score cho điểm 3.2.2 Phương pháp sử dụng biểu đồ Box - plot tập liệu, ngưỡng (threshold) thiết lập để lọc điểm so với giá trị trung bình Biểu đồ Box - plot sử dụng để đo khuynh Nếu tập liệu theo phân phối chuẩn hướng phân tán xác định giá trị ngoại lai Hình 4, cho thấy: tập liệu Biểu đồ Box - plot chia tập liệu thành khoảng phần tư, phần thân biểu đồ - Với ngưỡng 2,5 (-2.5 < Z - Score < +2.5) có bao gồm hộp, biểu đồ thể giá trị 99% điểm liệu nằm phạm vi 2,5 lần độ tập liệu (Hình 5) bao gồm: lệch chuẩn - Giá trị bé (Minimum) tập liệu - Với ngưỡng 3,0 ( -3.0 < Z - Score < +3.0) có xác định Q1 - 1.5 * IQR; 99,8% điểm liệu nằm phạm vi 3,0 lần độ lệch chuẩn - Tứ phân vị thứ (Q1) tập liệu - Tứ phân vị thứ hai (Q2) giá trị trung - Với ngưỡng 5,0 ( -5.0 < Z - Score < +5.0) có vị (Median) tập liệu 99,9999426% điểm liệu nằm phạm vi - Tứ phân vị thứ ba (Q3) tập liệu 5,0 lần độ lệch chuẩn - Giá trị lớn (Maximum) tập liệu có giá trị Q3 + 1.5* IQR Như vậy, cách gắn thẻ, lọc điểm Nếu tập liệu có chứa giá trị ngoại lai liệu nằm ngồi ngưỡng định, có chiều dài tối đa râu tính từ cạnh hộp thể phân loại điểm liệu thành ngoại lai không ngoại lai Z - Score phương pháp đơn Hình Tỷ lệ điểm liệu nằm phạm vi theo ngưỡng Z - Score với phân phối chuẩn Hình Hình dạng giá trị tập liệu thể biểu đồ Box - plot 140 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 xác định 1,5 lần độ trải (IQR - hệ tương quan với Ngồi ra, với liệu có Interquatile Range) Các điểm liệu nằm ngồi nhiều thuộc tính khác nhau, xóa dịng râu Minimum xem xét điểm ngoại lai liệu chứa thuộc tính có giá trị ngoại lai làm trái (Left outlier), điểm liệu nằm râu thông tin cột khác cột cần cho Maximum xem xét điểm ngoại lai phải phân tích (Right outlier) Các điểm liệu ngoại lai thể dấu chấm tròn biểu đồ - Thay giá trị khác: Thay giá Box - plot Như hình 5, thể điểm ngoại trị điểm ngoại lai giá trị khác phù lai trái điểm ngoại lai phải Ngoài ra, biểu đồ hợp với tập liệu Với phương pháp vấn Box - plot cịn cung cấp thơng tin hình dạng đề khó khăn gặp phải lựa chọn giá trị để tập liệu Nếu đường trung vị (Median) chia hộp thay cho giá trị điểm ngoại lai? Câu trả lời thành nửa nhau, tập liệu đối tùy thuộc vào loại liệu, kiểu liệu xứng; Nếu nửa phải lớn nửa trái tập ngữ cảnh cụ thể để xác định giá liệu bị lệch phải ngược lại, nửa trái lớn trị thay phù hợp Trong số trường nửa phải tập liệu bị lệch trái (Munzer, hợp thay giá trị ngoại lại giá trị 2014) trung bình (mean) tập liệu, thay giá trị cụ thể (specific value) nhà Box - plot đồ thị trực quan thường phân tích liệu, chuyên gia đề xuất nhà phân tích, thống kê, nhà khoa học liệu sử dụng để tóm tắt thơng tin biến liệu định - Thay giá trị điểm ngoại lai lượng phục vụ cho nhiều giai đoạn NULL (empty): Việc thực chuyển đổi trình khai thác tiền xử lý liệu (Nguyễn điểm ngoại lai thành điểm thiếu liệu Văn Tuấn, 2014) (missing value) Các điểm ngoại lai xem xét điểm liệu thiếu tập 3.3 Xử lý liệu ngoại lai liệu để xử lý Việc phát điểm liệu ngoại lai Khơng có phương pháp, cách thức xử lý thực nhiều phương pháp khác nhau, sau ngoại lai chung áp dụng cho tất toán, phát điểm ngoại lai yêu cầu đặt kiểu liệu khác (N.N.R Ranga Suri et al., phải xử lý chúng Các điểm liệu ngoại lai 2018) Vì vậy, để lựa chọn phương pháp phù có ảnh hưởng lớn đến độ xác mơ hợp cần có hiểu biết sâu sắc tập liệu, hình, việc lựa chọn phương pháp để xử tốn giải quyết, sử dụng lý cho phù hợp với loại liệu cụ thể phương pháp xử lý ngoại lai và/hoặc kết hợp thường khó nhiều so với việc phát nhóm phương pháp để xử lý ngoại chúng (N.N.R Ranga Suri et al., 2018) lai cho tập liệu Cũng tương tự việc phát hiện, để xử lý Áp dụng cho liệu nhiệt độ trạm điểm ngoại lai có nhiều phương pháp Mỗi quan trắc 3h Việt Nam phương pháp lại có ưu nhược điểm riêng, việc chọn phương pháp xử lý tùy thuộc vào Tại mục báo, tác giả trình bày u cầu phân tích liệu toán cụ thể tập liệu nhiệt độ thu thập từ 43 trạm đặt Dưới tổng hợp phương pháp xử quan trắc 3h Việt Nam, hai phương pháp lý ngoại lai chung cho tập liệu: sử dụng phổ biến hiệu việc phát ngoại lai cho liệu có số chiều thấp Z - Score - Loại bỏ dòng chứa ngoại lai khỏi tập Box - plot Ở phần này, nhóm tác giả sử dụng liệu: Đây cách xử lý ngoại lai đơn giản dễ thực kỹ lập trình kết hợp với thư viện, hệ Sau phát điểm ngoại lai, thống mã nguồn mở để áp dụng phương pháp thực xóa dịng liệu chứa giá trị ngoại cho việc phát xử lý ngoại lai với liệu lai khỏi tập liệu Tuy nhiên, phương pháp nhiệt độ 43 trạm quan trắc 3h Việt Nam áp dụng cho tập liệu chứa biến độc lập Với liệu dạng chuỗi thời gian (Time series Dữ liệu nhiệt độ phụ thuộc lớn vào vị trí địa data), sử dụng phương pháp lý, với tỉnh biên giới phía bắc nước ta nhiệt độ để loại bỏ điểm ngoại lai vị trí hạ thấp xuống 00C chí âm điểm liệu chuỗi thời gian có mối quan coi bình thường Tuy nhiên, với tỉnh phía Nam, liệu nhiệt độ ghi nhận có Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 141 giá trị thấp 150C xem xét điểm Seaborn Tiến hành đọc trích xuất liệu quan ngoại lai cần phải kiểm tra xử lý Do vậy, trắc trạm 48918 tập liệu thô việc phát xử lý liệu ngoại lai thực Data_Temp43_Original.csv Bảng thông số cho trạm tập liệu Hình thể biểu đồ tần suất ngưỡng chung áp dụng cho tất (histogram) liệu nhiệt độ trạm 48918 trạm Bảng Thông số tập liệu quan trắc trạm Trong khn khổ báo, nhóm tác giả 48918 chọn trạm điển hình (Trạm 48918: Cơn Đảo) số 43 trạm để trình bày, minh họa chi tiết TT Thời điểm bắt đầu liệu 01:00:00 01 - việc phát xử lý điểm ngoại lai Các trạm 01 - 2014 lại xử lý theo bước tương tự với trạm Nhóm tác giả lựa chọn Thời điểm kết thúc liệu 22:00:00 31 - trạm 48918 trình bày báo trạm 12 - 2019 nằm đảo có điều kiện khí hậu khắc nghiệt, việc truyền liệu gặp nhiều khó khăn,… Có nhiều Tổng số điểm liệu 17 528 nguyên nhân dẫn đến điểm ngoại lai liệu quan trắc Trạm 48918 có số thứ tự 39 Số điểm có liệu 17 495 Bảng 1, vị trí trạm thể tương đối Hình chi tiết Hình Số điểm liệu thiếu 33 Nhóm tác giả lựa chọn ngơn ngữ lập trình Giá trị trung bình tập liệu 27.8478 Python, mã nguồn viết hệ thống Google Colab, sử dụng thư viện nguồn mở để tính tốn Độ lệch chuẩn tập liệu 2.0407 trực quan hóa bao gồm: Pandas, Matplotlib, Giá trị cực tiểu - 1.3 Tứ phân vị thứ (Q1) 26.4 Tứ phân vị thứ hai (Q2) 27.8 10 Tứ phân vị thứ ba (Q3) 29.1 11 Giá trị cực đại 39.0 Hình Vị trí trạm 48918: CON DAO Google Maps 142 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 4.1 Sử dụng Z - Score phát ngoại lai 170C ÷ 380C Như thông số quan trắc thấp liệu nhiệt độ trạm 48918 170C cao 380C xem xét ngoại lai Thực tính giá trị Z - Score theo cơng thức (1) trình bày phần 3.2.1 tất Theo Bảng 3, với ngưỡng Z = 5, thỏa mãn điểm tập liệu trạm 48918 Mã lập trình điều kiện giới hạn nhiệt độ khoảng 170C ÷ việc tính tốn kết thể 380C Vì vậy, giá trị chọn ngưỡng để lọc Hình điểm xem xét ngoại lai Kết lọc điểm có Z - Score nằm ngưỡng cho trạm 48918 Để xem xét xác định ngoại lai, sau tính Hình giá trị Z - score phải chọn ngưỡng (threshold) phù hợp Khi trao đổi với chuyên gia Như vậy, theo phương pháp Z - Score với khí tượng thủy văn, với số liệu thống kê ngưỡng lọc chọn có tất điểm liệu nhiệt độ khu vực phía Nam nói chung, Cơn Đảo xem xét ngoại lai, có điểm ngoại nói riêng nhiệt độ nằm khoảng lai trái (zscore < 0) điểm ngoại lai phải (zscore>0) Hình Biểu đồ histogram tập liệu nhiệt độ trạm 48918 Hình Kết tính Z - Score cho điểm quan trắc trạm 48918 Đặng Văn Nam nnk./Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 61 (1), 132 - 146 143 Bảng Ngưỡng khoảng nhiệt tương ứng với 4.2 Sử dụng biểu đồ Box - plot phát ngoại ngưỡng thiết lập trạm 48918 lai liệu nhiệt độ trạm 48918 Khoảng nhiệt độ nằm Sử dụng thư viện Matplotlib Seaborn để TT Ngưỡng Giới hạn theo giới hạn (threshold) ngưỡng Z ngưỡng Z (mean: dựng biểu đồ Box - Plot cho liệu nhiệt độ trạm 48918 Theo biểu đồ Box - plot Hình 27.85 |std:2.04) 10a, nhận thấy có nhiều điểm liệu 3.0 - 3,0

Ngày đăng: 27/02/2024, 22:02

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN