Dữ liệu cảm biến và cách lưu trữ

Phương pháp chung trong mạng cảm biến là dữ liệu cảm biến thường xuyên được thu thập từ mỗi nút tạo thành tập hợp chuỗi dữ liệu theo dòng thời gian. Tại vị trí nút cảm biến dữ liệu sẽ được tổng hợp theo nhiều đặc trưng như nhiệt độ, độ ẩm, áp suất, ánh sáng. Với giả thiết đã đề cập ở trên, các khái niệm liên quan đến dữ liệu được sử dụng trong nghiên cứu này được trình bày dưới đây:

[Định nghĩa 3.1] Một bản ghi gồm các thuộc tính được tạo ra bởi một lần đọc

nút cảm biến sau mỗi ε giây (0, ε, 2ε, 3ε, ..), tại mỗi nhãn thời gian nút cảm biến lấy mẫu và cho một bản ghi dữ liệu có dạng Drec =<id, t, vi, vi+1,...,vk>

Trong đó:

id: Id của cảm biến

t: Biểu thị dấu thời gian mà tại đó dữ liệu được lấy mẫu

vi (1 ≤ i ≤ k): Đại diện cho giá trị của một thuộc tính (ví dụ: nhiệt độ, độ ẩm, ánh sáng, ...) tại vị trí nơi nút cảm biến được đặt.

[Định nghĩa 3.2] Kích thước một bản ghi Drec của cảm biến (S) là tổng các kích thước của tất cả thuộc tính A từ tập hợp các bản ghi Drec đó là:

𝐷𝑟𝑒𝑐(𝑆) = ∑𝑘 𝐴(𝑖)

𝑖=1 (3.1) Các nút cảm biến lưu trữ các bản ghi trong kho lưu trữ cục bộ. Các mẫu dữ liệu trong lưu trữ được duy trì dưới dạng chuỗi theo thứ tự thời gian thực. Vì vậy, nếu không có điều kiện bổ sung để lưu trữ các bản ghi cảm biến thì tất cả các nút cảm biến lưu trữ tất cả mẫu dữ liệu theo nhãn thời gian lấy mẫu.

Xem xét nút cảm biến S, khả năng lưu trữ C, có khả năng thu và lưu dữ liệu đạt kích thước của Drec (S) byte trên mỗi ε giây tại mỗi nút, có thể lưu trữ trong bộ nhớ cục bộ. Như vậy, số lượng các bản ghi Drect (N) được xác định bởi công thức 3.2.

𝐷𝑟𝑒𝑐(𝑁) = 𝐶

Do đó, nút cảm biến có thể lưu trữ tất cả các mẫu dữ liệu trong thời gian dài cho đến khi một khoảng thời gian Eperiod được tính bởi công thức 3.3.

Eperiod = 𝐷𝑟𝑒𝑐(𝑁). 𝜀 (3.3)

Trong mạng cảm biến, để giảm chi phí truyền thông và kích cỡ truyền tải các gói tin là một vấn đề rất quan trọng do trong mạng tài nguyên luôn bị hạn chế. Trong hầu hết các trường hợp, năng lượng được tiêu thụ để truyền các gói dữ liệu luôn nhiều hơn so với thu thập hoặc tính toán dữ liệu. Trong thực tế, khi một nút truyền đi một gói dữ liệu lớn tới nút hàng xóm thì năng lượng tiêu thụ sẽ tăng lên theo kích thước của gói tin. Chi phí của một nút để gửi một thông điệp tới các nút khác cao hơn cả việc người dùng nhận một thông điệp từ người dùng khác. Năng lượng tiêu thụ tỉ lệ thuận với khoảng cách giữa các nút cảm biến. Muốn tăng hiệu quả năng lượng tiêu thụ của nút cảm biến thì cần thiết phải giảm số thông điệp, giảm kích thước gói tin gửi, giảm số lượng tính toán thực hiện từ các hoạt động lấy mẫu và xử lý truy vấn trong mạng.

Tổng chi phí năng lượng của mạng cảm biến có thể ước tính trên dữ liệu giao tiếp và truyền tải trong hệ thống. Etotal là tổng chi phí năng lượng tại một nút bất kỳ được tính bởi công thức 3.4.

𝐸𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑄𝑟𝑒𝑐𝑒𝑖𝑣𝑒 𝐷𝑟𝑒𝑐(𝑁)

𝑖=1

+ 𝐶𝑐𝑢𝑙𝑐 + 𝑄𝑠𝑒𝑛𝑑 (3.4)

Trong đó:

Qreceive: Chi phí thông điệp nhận được Cculc: Chi phí tính toán

Qsend: Chi phí gửi thông điệp

Ngay cả khi bộ nhớ của cảm biến có không gian lưu trữ lớn để duy trì đọc dữ liệu thì nó không thể sử dụng giống như phương pháp truyền thống. Để quản lý dữ liệu càng lâu càng tốt khi bộ nhớ hạn chế, chỉ có thể lưu trữ dữ liệu có ảnh hưởng đến mức độ chính xác của kết quả truy vấn, đặc biệt trong trường hợp các truy vấn lịch sử, thường liên quan đến phạm vi cụ thể như vị trí không gian (vùng) hoặc khoảng thời gian. Để đáp ứng các loại truy vấn này, tại các nút cảm biến phải tìm kiếm một khối lượng lớn dữ liệu và thao tác một số lượng lớn các gói dữ liệu với giới hạn phạm vi lớn mới có được kết quả cuối cùng. Do đó, để tạo ra các gói dữ liệu nhỏ và xử lý các truy vấn một cách tối ưu, giúp tiết kiệm năng lượng pin tại mỗi nút cảm biến là một yêu cầu quan trọng.

Một trong những động cơ của nghiên cứu là xuất phát từ giới hạn về khả năng lưu trữ của các nút cảm biến được phân tích ở trên. Trong hệ thống cơ sở dữ liệu truyền

thống, nếu có một ổ đĩa đã chứa đầy dữ liệu thì dung lượng lưu trữ có thể được mở rộng bằng cách thêm lưu trữ hoặc tiến hành thủ tục sao lưu dữ liệu. Ngược lại, trong mạng cảm biến thì rất khó có thể can thiệp vào bộ nhớ cục bộ tại mỗi nút cảm biến thông qua sự tác động của con người, phương pháp hiệu quả để duy trì dữ liệu thu được trong bộ nhớ cục bộ với dung lượng thấp, trong thời gian dài được yêu cầu rất nhiều.

Giải pháp cho vấn đề này là phát triển một chương trình để giảm dữ liệu thích ứng với hy vọng chương trình có khả năng tiết kiệm dung lượng tại mỗi nút cảm biến, đồng thời cung cấp đầy đủ thông tin cho xử lý truy vấn. Nghiên cứu đưa ra một kỹ thuật hiệu quả, giúp loại bỏ dữ liệu dư thừa, đồng thời giá trị dữ liệu xấp xỉ tương đương nhau, số lượng dữ liệu thực tế được duy trì do đó không phức tạp như dữ liệu thô. Độ chính xác của thông tin giảm do mất dữ liệu gây ra trong thao tác nén là có nhưng không đáng kể, không gian lưu trữ cho phép lưu trữ các thông tin quan trọng hơn. Xử lý truy vấn trên dữ liệu gần đúng sẽ tiêu thụ ít điện năng hơn so với sử dụng dữ liệu thô ban đầu, đáp ứng được truy vấn dưới dạng hình thức dữ liệu gói có kích thước nhỏ, chi phí thấp trong truyền tải giữa các nút trong mạng.

Hệ thống dữ liệu lịch sử dài hạn

Bối cảnh và giả thiết