Chương 2: Xử lý tín hiệu và phân tích dữ liệu trong WSN và IoT
2.2 Phân tích dữ liệu trong WSN và IoT
Phân tích dữ liệu là quá trình sử dụng các phương pháp tính toán và thống kê để biến dữ liệu đã qua xử lý thành thông tin có giá trị cho hệ thống hoặc người dùng. Dữ liệu cảm biến có thể được phân tích ngay tại thiết bị (Edge Computing), trên các bộ điều khiển trung tâm (Gateway), hoặc trên các hệ thống đám mây (Cloud Computing).
2.2.1. Các phương pháp phân tích dữ liệu 2.2.1.1. Data Aggregation (Tổng hợp dữ liệu):
Trong các mạng cảm biến, dữ liệu từ nhiều cảm biến được tổng hợp để giảm bớt khối lượng dữ liệu và tiết kiệm băng thông. Các kỹ thuật này bao gồm:
Tree-based aggregation: Sử dụng cấu trúc cây để tổng hợp dữ liệu từ các nút cảm biến về trung tâm một cách hiệu quả.
Cluster-based aggregation: Dữ liệu từ các nút trong một cụm (cluster) được tổng hợp và sau đó gửi đến trung tâm điều khiển.
Hình 2.7: Ví dụ về tree based data aggregation
2.2.1.2. Data Fusion (Hợp nhất dữ liệu):
Hợp nhất dữ liệu là một quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau để đạt được thông tin chính xác hơn, rõ ràng hơn so với khi chỉ sử dụng dữ liệu từ một nguồn. Trong các hệ thống WSN (Wireless Sensor Networks) và IoT (Internet of Things), dữ liệu từ các cảm biến khác nhau thường được kết hợp lại để cải thiện độ tin cậy, giảm nhiễu, và đưa ra quyết định tốt hơn.
2.2.1.3. Anomaly Detection (Phát hiện bất thường):
Trong WSN, phát hiện các dữ liệu bất thường hoặc ngoại lệ là quan trọng, vì dữ liệu bất thường có thể là dấu hiệu của một sự cố. Các phương pháp phát hiện bất thường bao gồm:
Statistical methods: Sử dụng các mô hình thống kê để phát hiện các giá trị không bình thường.
Machine learning-based methods: Sử dụng các thuật toán học máy để nhận dạng các mẫu hình dữ liệu bất thường.
Hình 2.8: Sơ đồ minh họa về các hiện tượng bất thường
2.2.1.4. Compression Techniques (Kỹ thuật nén dữ liệu):
Trong WSN và IoT, tài nguyên tính toán và băng thông truyền thông thường bị giới hạn. Do đó, các kỹ thuật nén dữ liệu được sử dụng để giảm kích thước dữ liệu truyền đi, bao gồm:
Lossless compression: Kỹ thuật nén không mất dữ liệu.
Lossy compression: Nén dữ liệu với một lượng mất mát nhỏ nhưng không ảnh hưởng đáng kể đến chất lượng.
2.2.2. Các bước phân tích dữ liệu
2.2.2.1. Thu thập dữ liệu (Data Collection)
Mô tả: Dữ liệu được thu thập từ các cảm biến và thiết bị IoT thông qua các giao thức truyền thông như Zigbee, Bluetooth, Wi-Fi, hoặc LPWAN. Các cảm biến có thể ghi nhận dữ liệu về nhiệt độ, độ ẩm, ánh sáng, âm thanh, hoặc các yếu tố môi trường khác.
Ví dụ: Trong nông nghiệp thông minh, các cảm biến đo nhiệt độ và độ ẩm của đất để kiểm soát hệ thống tưới tiêu.
Thách thức: Khối lượng dữ liệu lớn, có thể không liên tục hoặc không đầy đủ.
2.2.2.2. Tiền xử lý dữ liệu (Data Preprocessing)
Mô tả: Dữ liệu thu thập từ các cảm biến thường chứa nhiều nhiễu hoặc không hoàn chỉnh. Quá trình tiền xử lý dữ liệu sẽ bao gồm:
Loại bỏ nhiễu (Noise Removal): Sử dụng các kỹ thuật như lọc số (digital filtering) để loại bỏ nhiễu từ tín hiệu cảm biến.
Xử lý thiếu dữ liệu (Handling Missing Data): Có thể điền các giá trị thiếu bằng các phương pháp interpolation hoặc model-based estimation.
Bình thường hóa dữ liệu (Data Normalization): Điều chỉnh dữ liệu để có định dạng phù hợp cho các phương pháp phân tích sau này.
Ví dụ: Trong một hệ thống giám sát môi trường, có thể loại bỏ các giá trị bất thường của nhiệt độ do sự cố của cảm biến hoặc giao thoa tín hiệu.
2.2.2.3. Lưu trữ dữ liệu (Data Storage)
Mô tả: Sau khi dữ liệu được tiền xử lý, nó cần được lưu trữ an toàn để phục vụ cho việc phân tích sau này. Dữ liệu có thể được lưu trữ tại local storage (tại thiết bị biên - edge computing) hoặc cloud storage để xử lý tập trung hơn.
Ví dụ: Dữ liệu từ các cảm biến nông nghiệp có thể được lưu trữ trên nền tảng đám mây để dễ dàng truy cập và phân tích từ xa.
Thách thức: Đảm bảo tính bảo mật và tính toàn vẹn của dữ liệu.
2.2.2.4. Phân tích dữ liệu (Data Analysis)
Mô tả: Đây là giai đoạn quan trọng trong quá trình trích xuất thông tin có giá trị từ dữ liệu. Các phương pháp phân tích được sử dụng trong WSN và IoT bao gồm:
Phân tích dự đoán (Predictive Analysis): Sử dụng dữ liệu thu thập được để dự đoán các sự kiện tương lai, ví dụ như sự thay đổi môi trường hoặc hành vi của thiết bị.
Phân tích thống kê (Statistical Analysis): Xác định các xu hướng và mẫu hình trong dữ liệu cảm biến thông qua các công cụ thống kê.
Phát hiện bất thường (Anomaly Detection): Xác định các dữ liệu bất thường, có thể là dấu hiệu của sự cố trong hệ thống cảm biến hoặc thiết bị IoT.
Ví dụ: Trong nông nghiệp, có thể dự đoán thời điểm tưới tiêu dựa trên phân tích xu hướng độ ẩm đất
2.2.2.5. Ra quyết định (Decision Making)
Mô tả: Sau khi dữ liệu được phân tích và trích xuất thông tin có giá trị, hệ thống sẽ đưa ra các quyết định dựa trên kết quả phân tích này. Các quyết định có thể được thực hiện tự động bởi hệ thống hoặc có sự can thiệp của con người.
Ví dụ: Trong hệ thống nông nghiệp thông minh, dựa trên dữ liệu độ ẩm đất, hệ thống có thể tự động bật hệ thống tưới tiêu hoặc cảnh báo cho nông dân.
Hình 2.9: Sơ đồ phân tích dữ liệu trong WSN và IoT thể hiện qua 5 bước