.9 Mơ hình cơ bản trong MauveDB

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống quản lý thông tin về khí hậu sử dụng vào mạng cảm biến (Trang 29)

Hình 2.9 cho thấy quan điểm dựa trên mơ hình của MauveDB, quan điểm được xác định trong bảng dữ liệu cảm biến raw-temp-readings. Người dùng luơn chỉ nhìn thấy nhiệt độ tại các điểm lưới, khơng phân biệt nơi phép đo thực tế đã được thực hiện. Quan điểm dựa trên mơ hình của MauveDB hoạt động như một lớp “độc lập” giữa lớp dữ liệu cảm biến thơ và quan điểm người dùng hoặc trạng thái ứng dụng. Điều này giúp cách ly người dùng hoặc các ứng dụng từ các chi tiết lộn xộn của các cơ sở hạ tầng đo lường cơ bản. MauveDB cung cấp các cấu trúc ngơn ngữ khai báo xác định quan điểm dựa trên một loạt các mơ hình thường được sử dụng như truy vấn khai báo nguyên bản SQL.

Chương 3

KHÁI NIỆM VÀ ĐỊNH NGHĨA

Dữ liệu cảm biến thu được dưới dạng dịng dữ liệu biến đổi theo thời gian. Mạng cảm biến với nguồn tài nguyên khan hiếm khơng thể lưu trữ tất cả dữ liệu thu thập được từ mơi trường xung quanh vào bộ nhớ cục bộ như là cách lưu trữ của cơ sở dữ liệu truyền thống (do năng lượng pin thấp, dung lượng lưu trữ nhỏ, khả năng tính tốn kém,..). Chương này sẽ trình bày một số nhược điểm tồn tại trong mơi trường mạng cảm biến hiện cĩ. Chính những nhược điểm này trở thành động lực để thực hiện nghiên cứu này. Giả thiết về mơi trường mạng cảm biến được triển khai trong phạm vi nghiên cứu của luận văn cũng sẽ được trình bày. Định nghĩa và các khái niệm liên quan đến lưu trữ dữ liệu trên cảm biến, truy vấn dữ liệu và phân tích vấn đề cũng như các giải pháp liên quan cũng sẽ được trình bày.

3.1 Bối cảnh và giả thiết

Trong thực thế, các nút cảm biến được phân bổ trong một khu vực rộng lớn nhằm thu thập dữ liệu về các hiện tượng xung quanh và phát hiện sự kiện bất thường theo thời gian thực và tập dữ liệu thu được cĩ dạng chuỗi thời gian. Đặc biệt, chúng đặc trưng bởi khơng gian, thời gian, tương quan giữa khơng gian thời gian. Khi các nút cảm biến được triển khai trong các ứng dụng thực tế (như mơi trường tự nhiên, xây dựng, cầu,..), mặc dù năng lượng pin thấp nhưng giả sử là đủ lớn để vận hành mà khơng phải thay thế thường xuyên hoặc thay đổi vị trí, vì các nơi này rất khĩ để con người cĩ thể can thiệp.

Các nút cảm biến thực hiện các truy vấn của người dùng và xử lý các hoạt động như lấy mẫu, lưu trữ và truyền dữ liệu đến các trạm cơ sở hoặc thực hiện với các thủ tục được lập trình sẵn. Mỗi nút truyền dữ liệu tới trạm cơ sở thơng qua liên lạc với các nút hàng xĩm gần nĩ sẽ sử dụng mạng ad-hoc, vì các nút cảm biến khơng thể trực tiếp truyền dữ liệu đến các nút khác quá xa so với nĩ. Các nút cảm biến sẽ mất rất nhiều năng lượng khi truyền thơng các gĩi dữ liệu giữa các nút, do đĩ đã cĩ rất nhiều nghiên cứu cố gắng giảm tiêu thụ năng lượng trong xử lý truy vấn và tương tác của một nút với các nút hàng xĩm. Gần đây, theo yêu cầu lưu trữ hỗ trợ xử lý truy vấn lịch sử trong

các ứng dụng khoa học, một số nghiên cứu đã khai thác cơ chế lưu trữ như là một phương pháp để xử lý các truy vấn phức tạp và tiêu thụ năng lượng hiệu quả được đưa vào tính tốn. Bảng 3.1 nêu một số ứng dụng tiêu biểu và các yêu cầu dữ liệu tương ứng [Gane 2003b]. Thơng số trong bảng 3.1 cho thấy tất cả các ứng dụng cần rất nhiều khơng gian lưu trữ (giga-byte) để duy trì tồn bộ dữ liệu lịch sử. Cơng nghệ phần cứng hiện tại cĩ khả năng cung cấp khơng gian lưu trữ lớn, nhưng vẫn khơng đủ để đáp ứng yêu cầu lưu trữ thực tế.

Ứng dụng Cảm biến Tỉ lệ dữ liệu

mong đợi

Dữ liệu yêu cầu mỗi năm

Giám sát Xây dựng Y tế

Máy đo gia tốc 30 phút

dữ liệu dao động/ngày

8Gb Giám sát vi khí hậu Nhiệt độ, ánh sáng, mưa, độ ẩm, áp suất 1 mẫu/ phút/ sensor 40Mb Giám sát mơi trường sống

Âm thanh, video 10 phút của âm

thanh/ngày

5 phút của mỗi video/ ngày

1Gb

Bảng 3.1 Dữ liệu yêu cầu ước tính cho các ứng dụng khoa học

Luận văn hướng tới một lớp rộng các ứng dụng mạng cảm biến và các lớp truy vấn như giám sát sinh thái, giám sát địa lý, giám sát khí hậu, theo dõi chuyển động,.. Hướng tới các ứng dụng này, một số giả thiết của mơi trường mạng cảm biến được thực hiện:

 Mạng cảm biến bao gồm một trạm cơ sở cĩ nguồn điện riêng, cĩ một số thiết bị mạng và các nút cảm biến chạy bằng nguồn pin thấp.

 Một nút cảm biến cĩ lưu trữ dài hạn, duy trì dữ liệu lịch sử trong bộ nhớ cục bộ càng lâu càng tốt, hay sẽ lưu trữ dữ liệu cảm biến trong bộ nhớ cục bộ trong suốt cuộc đời của nút.

 Các nút cảm biến thu thập dữ liệu tại mơi trường xung quanh ở các khoảng thời gian thường xuyên để đáp ứng truy vấn từ người dùng. Giả sử truyền các

trong quá trình thử nghiệm.

 Các nút cảm biến thực hiện truy vấn bằng cách sử dụng dữ liệu được lưu trữ trong bộ nhớ riêng của nút và truyền tải các gĩi dữ liệu trả về các trạm cơ sở.

 Cảm biến cĩ thể định vị được vị trí của mình và các cảm biến hàng xĩm cũng được phân tán thống nhất trong khu vực triển khai ứng dụng.

 Tất cả các nút cảm biến trong mạng sử dụng năng lượng như nhau khi thực hiện tính tốn, cĩ cùng một dung lượng lưu trữ.

3.2 Dữ liệu cảm biến và cách lưu trữ

Phương pháp chung trong mạng cảm biến là dữ liệu cảm biến thường xuyên được thu thập từ mỗi nút tạo thành tập hợp chuỗi dữ liệu theo dịng thời gian. Tại vị trí nút cảm biến dữ liệu sẽ được tổng hợp theo nhiều đặc trưng như nhiệt độ, độ ẩm, áp suất, ánh sáng. Với giả thiết đã đề cập ở trên, các khái niệm liên quan đến dữ liệu được sử dụng trong nghiên cứu này được trình bày dưới đây:

[Định nghĩa 3.1] Một bản ghi gồm các thuộc tính được tạo ra bởi một lần đọc

nút cảm biến sau mỗi ε giây (0, ε, 2ε, 3ε, ..), tại mỗi nhãn thời gian nút cảm biến lấy mẫu và cho một bản ghi dữ liệu cĩ dạng Drec =<id, t, vi, vi+1,...,vk>

Trong đĩ:

id: Id của cảm biến

t: Biểu thị dấu thời gian mà tại đĩ dữ liệu được lấy mẫu

vi (1 ≤ i ≤ k): Đại diện cho giá trị của một thuộc tính (ví dụ: nhiệt độ, độ ẩm, ánh sáng, ...) tại vị trí nơi nút cảm biến được đặt.

[Định nghĩa 3.2] Kích thước một bản ghi Drec của cảm biến (S) là tổng các kích thước của tất cả thuộc tính A từ tập hợp các bản ghi Drec đĩ là:

𝐷𝑟𝑒𝑐(𝑆) = ∑𝑘 𝐴(𝑖)

𝑖=1 (3.1) Các nút cảm biến lưu trữ các bản ghi trong kho lưu trữ cục bộ. Các mẫu dữ liệu trong lưu trữ được duy trì dưới dạng chuỗi theo thứ tự thời gian thực. Vì vậy, nếu khơng cĩ điều kiện bổ sung để lưu trữ các bản ghi cảm biến thì tất cả các nút cảm biến lưu trữ tất cả mẫu dữ liệu theo nhãn thời gian lấy mẫu.

Xem xét nút cảm biến S, khả năng lưu trữ C, cĩ khả năng thu và lưu dữ liệu đạt kích thước của Drec (S) byte trên mỗi ε giây tại mỗi nút, cĩ thể lưu trữ trong bộ nhớ cục bộ. Như vậy, số lượng các bản ghi Drect (N) được xác định bởi cơng thức 3.2.

𝐷𝑟𝑒𝑐(𝑁) = 𝐶

Do đĩ, nút cảm biến cĩ thể lưu trữ tất cả các mẫu dữ liệu trong thời gian dài cho đến khi một khoảng thời gian Eperiod được tính bởi cơng thức 3.3.

Eperiod = 𝐷𝑟𝑒𝑐(𝑁). 𝜀 (3.3)

Trong mạng cảm biến, để giảm chi phí truyền thơng và kích cỡ truyền tải các gĩi tin là một vấn đề rất quan trọng do trong mạng tài nguyên luơn bị hạn chế. Trong hầu hết các trường hợp, năng lượng được tiêu thụ để truyền các gĩi dữ liệu luơn nhiều hơn so với thu thập hoặc tính tốn dữ liệu. Trong thực tế, khi một nút truyền đi một gĩi dữ liệu lớn tới nút hàng xĩm thì năng lượng tiêu thụ sẽ tăng lên theo kích thước của gĩi tin. Chi phí của một nút để gửi một thơng điệp tới các nút khác cao hơn cả việc người dùng nhận một thơng điệp từ người dùng khác. Năng lượng tiêu thụ tỉ lệ thuận với khoảng cách giữa các nút cảm biến. Muốn tăng hiệu quả năng lượng tiêu thụ của nút cảm biến thì cần thiết phải giảm số thơng điệp, giảm kích thước gĩi tin gửi, giảm số lượng tính tốn thực hiện từ các hoạt động lấy mẫu và xử lý truy vấn trong mạng.

Tổng chi phí năng lượng của mạng cảm biến cĩ thể ước tính trên dữ liệu giao tiếp và truyền tải trong hệ thống. Etotal là tổng chi phí năng lượng tại một nút bất kỳ được tính bởi cơng thức 3.4.

𝐸𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑄𝑟𝑒𝑐𝑒𝑖𝑣𝑒 𝐷𝑟𝑒𝑐(𝑁)

𝑖=1

+ 𝐶𝑐𝑢𝑙𝑐 + 𝑄𝑠𝑒𝑛𝑑 (3.4)

Trong đĩ:

Qreceive: Chi phí thơng điệp nhận được Cculc: Chi phí tính tốn

Qsend: Chi phí gửi thơng điệp

Ngay cả khi bộ nhớ của cảm biến cĩ khơng gian lưu trữ lớn để duy trì đọc dữ liệu thì nĩ khơng thể sử dụng giống như phương pháp truyền thống. Để quản lý dữ liệu càng lâu càng tốt khi bộ nhớ hạn chế, chỉ cĩ thể lưu trữ dữ liệu cĩ ảnh hưởng đến mức độ chính xác của kết quả truy vấn, đặc biệt trong trường hợp các truy vấn lịch sử, thường liên quan đến phạm vi cụ thể như vị trí khơng gian (vùng) hoặc khoảng thời gian. Để đáp ứng các loại truy vấn này, tại các nút cảm biến phải tìm kiếm một khối lượng lớn dữ liệu và thao tác một số lượng lớn các gĩi dữ liệu với giới hạn phạm vi lớn mới cĩ được kết quả cuối cùng. Do đĩ, để tạo ra các gĩi dữ liệu nhỏ và xử lý các truy vấn một cách tối ưu, giúp tiết kiệm năng lượng pin tại mỗi nút cảm biến là một yêu cầu quan trọng.

Một trong những động cơ của nghiên cứu là xuất phát từ giới hạn về khả năng lưu trữ của các nút cảm biến được phân tích ở trên. Trong hệ thống cơ sở dữ liệu truyền

thống, nếu cĩ một ổ đĩa đã chứa đầy dữ liệu thì dung lượng lưu trữ cĩ thể được mở rộng bằng cách thêm lưu trữ hoặc tiến hành thủ tục sao lưu dữ liệu. Ngược lại, trong mạng cảm biến thì rất khĩ cĩ thể can thiệp vào bộ nhớ cục bộ tại mỗi nút cảm biến thơng qua sự tác động của con người, phương pháp hiệu quả để duy trì dữ liệu thu được trong bộ nhớ cục bộ với dung lượng thấp, trong thời gian dài được yêu cầu rất nhiều.

Giải pháp cho vấn đề này là phát triển một chương trình để giảm dữ liệu thích ứng với hy vọng chương trình cĩ khả năng tiết kiệm dung lượng tại mỗi nút cảm biến, đồng thời cung cấp đầy đủ thơng tin cho xử lý truy vấn. Nghiên cứu đưa ra một kỹ thuật hiệu quả, giúp loại bỏ dữ liệu dư thừa, đồng thời giá trị dữ liệu xấp xỉ tương đương nhau, số lượng dữ liệu thực tế được duy trì do đĩ khơng phức tạp như dữ liệu thơ. Độ chính xác của thơng tin giảm do mất dữ liệu gây ra trong thao tác nén là cĩ nhưng khơng đáng kể, khơng gian lưu trữ cho phép lưu trữ các thơng tin quan trọng hơn. Xử lý truy vấn trên dữ liệu gần đúng sẽ tiêu thụ ít điện năng hơn so với sử dụng dữ liệu thơ ban đầu, đáp ứng được truy vấn dưới dạng hình thức dữ liệu gĩi cĩ kích thước nhỏ, chi phí thấp trong truyền tải giữa các nút trong mạng.

3.3 Phân tích các loại truy vấn trong mạng cảm biến

Với một tập nhỏ các cảm biến độc lập, ta cĩ thể thu được tất cả các phép đo từ các nút, sau đĩ thực hiện xử lý truy vấn tại hệ thống trung tâm hoặc xử lý trong mạng. Tùy thuộc vào các ứng dụng khác nhau, người ta cĩ thể phân loại thành những loại sau [Sada 2005].

Truy vấn phân tích chuỗi thời gian: Truy vấn phân tích chuỗi thời gian thường quan tâm đến việc phát hiện những xu hướng hay những bất thường cĩ thể xảy ra trong dịng lưu trữ. Truy vấn như vậy cĩ thể xác định các mẫu tăng dần, giảm dần, tăng đột biến hoặc thay đổi khơng liên tục. Nhĩm truy vấn này hữu ích trong những ứng dụng phát hiện các bất thường như giám sát cháy, máy theo dõi thất bại.

Truy vấn tìm kiếm tương tự: Trong nhĩm các truy vấn này, người dùng quan

tâm đến việc xác định dữ liệu đã được quan sát thấy trong bộ dữ liệu lưu trữ tương tự như một mẫu nhất định. Truy vấn tương tự rất quan trọng cho các ứng dụng phát hiện sự kiện như giám sát mơi trường sống, giám sát động đất, và camera giám sát.

Truy vấn phân loại: Truy vấn phân loại mục tiêu cĩ liên quan đến truy vấn

tìm kiếm tương tự. Ví dụ như âm thanh và tín hiệu địa chấn của xe được sử dụng để xác định chiếc xe cĩ nhiều khả năng được quan sát thấy. Truy vấn phân loại sử dụng các kỹ thuật như khả năng xảy ra tối đa, máy hỗ trợ vector

hoặc để xác định lân cận phù hợp nhất với quan sát dữ liệu.

Truy vấn xử lý tín hiệu: Nhiều hoạt động sử dụng dữ liệu cảm biến liên quan

đến nhiệm vụ xử lý tín hiệu như biến đổi wavelet và lọc. Ví dụ như ứng dụng giám sát kết cấu tìm thấy chế độ rung động của các tịa nhà, với một truy vấn là “xây dựng” thường sử dụng ảnh phổ trên dữ liệu thơ theo chuỗi thời gian của dao động xây dựng để trích xuất các thành phần tần số của tín hiệu sau đĩ xác định chế độ rung.

Về cơ bản, xử lý truy vấn trong một mạng cảm biến bao gồm cả các thuộc tính khơng gian và thời gian của dữ liệu cảm biến. Trong luận văn này, ngồi các truy vấn trên, những truy vấn lưu trữ cĩ liên quan đến hai thuộc tính khơng gian thời gian và cả khơng gian thời gian cũng được xem xét.

Nghiên cứu xem xét cách tiếp cận để lưu trữ và xử lý truy vấn trong cơ sở dữ liệu truyền thống, cơ sở dữ liệu cảm biến. Trong mơi trường mạng cảm biến, cĩ thể khơng áp dụng trực tiếp các kỹ thuật cơ sở dữ liệu hiện tại cho quản lý lưu trữ và xử lý truy vấn trong một hệ thống quản lý dữ liệu truyền thống. Ngược lại với hệ thống quản lý dữ liệu truyền thống, tính phức tạp của dữ liệu trong các ứng dụng mạng cảm biến như thuộc tính khơng gian, thời gian thay đổi trong thời gian thực, lưu trữ giới hạn tại mỗi nút cảm biến, pin thấp và hạn chế các ứng dụng khác cần phải được kiểm tra. Ví dụ nếu một truy vấn gửi tới mạng cảm biến cĩ trùng lặp một phần nào đĩ về điều kiện truy vấn với truy vấn đã phát ra trước đĩ về khơng gian thời gian, trong trường hợp này tại các nút cảm biến khơng nên xử lý nhiều lần các tác vụ tương tự và đưa ra cùng một phản hồi. Chính như vậy tại nút cảm biến này sẽ phải tiêu hao năng lượng khơng cần thiết với những tính tốn cĩ thể tránh được.

Để giải quyết các vấn đề của bộ nhớ lưu trữ cục bộ và xử lý truy vấn, ta khai thác dữ liệu tổng hợp với chương trình thích ứng để hỗ trợ truy vấn khơng gian, thời gian và các truy vấn cĩ phạm vi đặc biệt về khơng gian thời gian một cách hiệu quả. Đối với mục tiêu này, các proxy được triển khai trong hệ thống mạng cảm biến và các truy vấn lịch sử sẽ được duy trì. Để cho phép hệ thống thực hiện việc phân tán các truy vấn hợp lý nhất giữa mạng cảm biến và hệ thống ứng dụng, một số kết quả của các truy vấn được xử lý trước cĩ thể được tái sử dụng. Proxy duy trì lịch sử truy vấn của

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống quản lý thông tin về khí hậu sử dụng vào mạng cảm biến (Trang 29)