Sensor node S0 S2 S3 S5 S7 S0 S2 A1,A2,A3 S3 A1,A2,A3 A2,A3 S5 A2,A3 A1 A1,A2,A3 S7 A1,A2,A3,A4 A1,A2,A4 A1,A2,A3,A4 A1,A2,A4
+ Tìm hàm phân biệt: Từ Bảng 3.3 và công thức CT 1.10 để xây dựng hàm phân biệt FSi. Đ y là một hàm Boolean dạng chu n tắc hội (hội của các tuyển sơ cấp) có 4 biến ool an nhƣ sau:
FSi (A1,A2,A3,A4) =
=(A1A2A3)(A1A2A3)(A2A3)(A2A3)A1(A1A2A3)
(A1A2A3A4)(A1A2A4)(A1A2A3A4)(A1A2A4) (CT 3.11)
+ Tìm t p thuộc tính rút gọn: Kết quả của việc rút gọn hàm Boolean ở CT 3.11 sẽ là tập thuộc tính rút gọn. Hiện nay, các nhóm nghiên cứu đã chỉ ra 5 cơ sở (phƣơng pháp) rút gọn thuộc tính [5]. Giải pháp này s dụng các phép toán trong đại số quan hệ, cụ thể có hai cách: phƣơng pháp đại số hoặc bìa Các-nô (Carnaugh), kết quả rút gọn nhƣ sau:
FSi(A1,A2,A3,A4) = (A1A2)(A1A3)(A1A3A4).
RG1={A1, A2}; RG2 ={A1, A3}; RG3={A1, A3, A4} (CT 3.12)
e) Bước 6: Tìm tập thuộc tính lõi
Theo công thức CT 1.5 và Bảng 3.3 (hoặc công thức CT 3.12) suy ra thuộc tính lõi Core(Q) = {A1} (CT 3.13)
g) Bước 7: Tìm luật quyết định, độ chắc chắn của luật quyết định Từ Bảng 3.1 có các lớp quyết ịnh:
D={Y1={S0, S2, S3, S5, S7}, Y2={S1, S4, S6}} (CT 3.14) Với DesD(Y1)=({ADF=Yes}), DesD(Y2)=({ADF=No}). Bài toán chỉ quan t m trƣờng hợp đến DesD(Y1).
Lớp tương ương theo c c t p rút gọn ở công thức CT 3.12 đƣợc phân
hoạch theo công thức CT 1.4:
U|IND(RG1)={{X1={S0}, X2={S1, S2}, X3={S3}, X4={S4}, X5={S5},
X6={S6}, X7={S7}} (CT 3.15)
U|IND(RG2) = U|IND(RG3) = {{X1={S0}, X2={S1}, X3={S2}, X4={S3}, X5={S4}, X6={S5}, X7={S6}, X8={S7}} (CT 3.16) Áp dụng công thức CT 1.11, CT 1.12, thiết kế các lu t đối với lớp
DesD(Y1) tƣơng ứng các tập thuộc tính rút gọn:
Với thuộc tính rút gọn RG1, từ công thức CT 3.14, CT 3.15 có kết quả:
X1Y1={S0}; X2Y1={S2}; X3Y1={S3}; X4Y1=; X5Y1={S5};
X6Y1=; X7Y1={S7}. (CT 3.17)
Với thuộc tính rút gọn RG2, RG3, từ CT 3.14, CT 3.16 có kết quả:
X1Y1={S0}; X3Y1={S2}; X4Y1={S3}; X6Y1={S5}; X8Y1={S7}; X2Y1=
X5Y1= X7Y1=. (CT 3.18)
Định nghĩa các lu t quyết ịnh nhƣ sau:
Đối với tập thuộc tính RG1, áp dụng công thức CT 1.11 và kết quả ở CT 3.17, đƣợc các luật:
ZRG1.21 : DesC(X2) DesD(Y1) ZRG1.31 : DesC(X3) DesD(Y1) ZRG1.51 : DesC(X5) DesD(Y1) ZRG1.71 : DesC(X7) DesD(Y1)
Đối với tập thuộc tính RG2, RG3, áp dụng công thức CT 1.11 và kết quả ở CT 3.18, đƣợc các luật: ZRG2.11 , ZRG3.11: DesC(X1) DesD(Y1) ZRG2.31 , ZRG3.31: DesC(X3) DesD(Y1) ZRG2.41 , ZRG3.41: DesC(X4) DesD(Y1) ZRG2.61 , ZRG3.61: DesC(X6) DesD(Y1) ZRG2.81 , ZRG3.81: DesC(X8) DesD(Y1)
Do thuộc tính rút gọn RG2 và RG3 có cùng t p lu t nên chỉ cần lấy tập luật của một trong hai tập luật tƣơng ứng với tập thuộc tính rút gọn RG2 hoặc
RG3 là đủ, ví dụ chỉ cần lấy của RG2.
h) Bước 8: Quyết định
Áp dụng công thức CT 1.13 để xác định độ chắc chắn của các luật. Tập luật quyết định bài toán này sẽ có 10 luật, đƣợc viết lại bởi mệnh đề logic nhƣ sau:
Lu t 1: Nếu A1=4 và A2=5 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 2: Nếu A1=3 và A2=4 thì ADF=Yes với ộ chắc chắn µ = 0,5 Lu t 3: Nếu A1=3 và A2=3 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 4: Nếu A1=4 và A2=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 5: Nếu A1=6 và A2=1 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 6: Nếu A1=4 và A3=1 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 7: Nếu A1=3 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 8: Nếu A1=3 và A3=3 thì ADF=Yes với ộ chắc chắn µ = 1
Lu t 9: Nếu A1=4 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 10: Nếu A1=6 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1
Nhƣ vậy, với 2 lần phân hoạch bảng dữ liệu cảm nhận của nút cảm biến:
Lần thứ nhất s dụng giá trị của thuộc tính quyết định theo yêu cầu đặt ra đã
gi m ư c số hàng từ 8 hàng xuống còn 5 hàng; lần thứ hai s dụng giá trị
tập thuộc tính với các quan hệ không phân biệt đƣợc và tập thuộc tính rút gọn
đã gi m ư c số cột từ 4 cột xuống còn 2 cột. Ứng dụng RST để phân hoạch
bảng dữ liệu này làm giảm đáng ể không gian dữ kiện, tối ƣu hóa vấn đề chọn lọc dữ liệu nút cảm biến tham gia tổng hợp dữ liệu. Do giá trị thuộc tính quyết định đƣợc xác lập thông qua các thuộc t nh điều kiện (đƣợc đặt ra theo yêu cầu ài toán, các đặc tính dữ liệu cảm nhận của nút cảm biến và đặc điểm nút cảm biến tại thời điểm tổng hợp, giao thức IEEE 802.15.4) nên vấn đề lựa chọn nút cảm biến cùng giá trị thuộc t nh tƣơng ứng để xây dựng tập luật hông làm thay đổi tính chân lý của dữ liệu cảm nhận sau khi tổng hợp.
3.1.4. K t uậ về ả p áp ứ ụ t u t tập t
Hiện nay, lý thuyết tập thô chủ yếu đƣợc nghiên cứu trong lĩnh vực khai phá dữ liệu (data mining). Tuy nhiên, ứng dụng lý thuyết tập thô để tổng hợp dữ liệu nhiều cảm biến trong mạng cảm biến không dây là một phƣơng pháp khả thi, cần đƣợc nghiên cứu kỹ, làm nền tảng cho các công trình nghiên cứu tiếp th o, s u hơn. S dụng RST để thực hiện tổng hợp dữ liệu trên nút CH có thể tiêu tốn năng lƣợng o t nh toán trên CPU nhƣng tiết kiệm đƣợc năng lƣợng truyền dữ liệu (sau tổng hợp) từ CH đến trạm đ ch ( S). Việc ứng dụng RST để thực hiện tổng hợp sẽ có tính thực tiễn hơn nếu nút CH có thiết kế chức năng tách thuộc tính và tự động định lƣợng đƣợc giá trị đối với mỗi thuộc tính của dữ liệu cảm biến, tích hợp chức năng tiền x lý trên nút cảm biến,… Tuy nhiên với sự phát triển của công nghệ vi x lý, công nghệ lƣu trữ năng lƣợng thì các điều kiện này sẽ đƣợc đáp ứng.
Từ kết quả của ví dụ minh họa trên có thể kết luận định tính rằng: Ứng dụng RST sẽ giảm đƣợc không gian dữ kiện đầu vào trên cả 2 chiều (số lƣợng nút cảm biến và thuộc t nh điều kiện); có thể trích chọn "tri thức" từ bảng dữ liệu "kiến thức", sau khi rút gọn đã giảm đáng ể việc áp dụng nhiều mệnh đề logic (luật) để suy luận, có khả năng giảm độ phức tạp trong quá trình tổng hợp dữ liệu tại nút CH.
Vấn ề tiết kiệm năng lư ng: Đối với nút không tham gia tổng h p dữ liệu, năng lƣợng của nó sẽ ít bị hao tổn vì không phải "cố gắng" để tham gia kết nối và tiếp tục truyền (vô ích) các gói dữ liệu có cùng nghĩa (với gói tin của nút cảm biến hác trong nhóm) đến CH. Năng lƣợng của nút CH đƣợc tiết kiệm trên cả 2 chặng: thứ nhất, do CH chỉ giao tiếp và truyền dữ liệu với một số nút cảm biến trong nhóm; thứ hai, giao tiếp và truyền dữ liệu đến BS (hoặc nút cảm biến tiếp theo trên tuyến truyền) của chỉ một số nút cảm biến có tham gia tổng hợp dữ liệu thay vì phải truyền toàn bộ. Ngoài ra, việc loại bỏ các gói tin ƣ thừa tại CH trƣớc hi chúng đƣợc truyền tiếp sẽ hạn chế nguy cơ g y nghẽn mạng và tổn hao năng lƣợng do các nút cảm biến phải tham gia x lý tình huống do nghẽn mạng gây ra. Tuy nhiên, lợi ích về năng lƣợng trên CH có thể phải đƣợc c n đối với năng lƣợng mất đi o áp ụng các kỹ thuật x lý dữ liệu khi ứng dụng RST.
Độ phức tạp tính toán: Với quy trình ứng dụng RST để tổng hợp dữ liệu,
các phép tính toán chủ yếu dựa trên bảng 2 chiều n hàng (n là số nút cảm biến)
m cột (số thuộc t nh điều kiện) nên độ phức tạp đa thức bậc 2 O(P(n)). Với việc tìm tập tất cả các thuộc tính rút gọn là hàm mũ của số thuộc t nh điều kiện là O(2m). Tuy nhiên, trong bài toán này mục tiêu chính là tìm một tập rút gọn tốt nhất theo một tiêu chu n đánh giá nào đó ví dụ ƣu tiên thuộc tính có độ quan trọng nhất (A1), trên cơ sở đó x y ựng thuật toán tìm tập lõi và tập
rút gọn dựa vào các phép toán trong đại số quan hệ vì vậy độ phức tạp giảm xuống còn O(m.n.log(n)).
Kết quả nghiên cứu này đã đƣợc công bố với Công trình số 2: “Tiếp c n phương ph p tổng h p dữ liệu nhiều c m biến trong mạng c m biến không
dây bằng lý thuyết t p thô”, Kỷ yếu Hội nghị quốc gia lần thứ VII về Nghiên
cứu cơ ản và ứng dụng Công nghệ thông tin (FAIR 2014), tháng 6-2014 tại Thái Nguyên, Việt Nam.
Hướng nghiên cứu tiếp theo: Giải pháp đề xuất hƣớng tiếp cận RST để
giải quyết bài toán tổng hợp dữ liệu đối với WSNs, o đó còn nhiều vấn đề nữa cần đƣợc nghiên cứu s u hơn và phải đƣợc đánh giá cụ thể bằng phƣơng pháp toán học, phƣơng pháp đo trên mạng thực hoặc mô phỏng mạng WSNs bằng công cụ phần mềm để có kết quả thuyết phục hơn.
3.2. Ứ ụ L t u t tập t đ t ề u đầu v
Hiện nay, hệ thống giám sát bằng mạng cảm biến ngày càng phát triển về quy mô (số nút cảm biến, phạm vi giám sát) và chất lƣợng (số lƣợng tham số giám sát, độ mịn của mức đo, độ phức tạp và phong phú của mục tiêu giám sát…). Vì các nút cảm biến thu phát tín hiệu bằng sóng vô tuyến nên chúng luôn tiềm n nhiều tình huống làm giảm chất lƣợng dữ kiện đầu vào nhƣ ữ liệu không chắc chắn, bị thiếu, dữ liệu yếu... ảnh hƣởng đến quá trình tổng hợp và kết quả dữ liệu đầu ra tại nút CH.
Hình 3.3. Truyền dữ liệu theo khung tin (frame) và theo chu kỳ (T)
T F1 S1 S2 S3 Sn F2 F3 .. ... Fq P1 P2 Pm P1 P2 Pm ... ... ... ... P1 P2 ... Pm
Giải pháp tiền x lý dữ liệu đƣợc đề xuất với tên gọi DP-DF (Data Pre- processing for Data Fusion) bằng việc áp dụng lý thuyết xác suất và một số
phép toán trong lý thuyết t p thô nhằm chu n hóa dữ liệu từ các nút cảm biến
trong cụm g i về CH phục vụ tổng hợp dữ liệu tại nút CH.
Giai đoạn tiền x l đƣợc tính từ lúc các nút trong cụm cảm nhận mục tiêu và g i đến CH đến lúc CH đóng gói ữ liệu thành khối dữ kiện đầu vào để tiến hành tổng hợp dữ liệu trƣớc khi g i đến BS. Mục đ ch của giai đoạn tiền x lý là hạn chế tối đa các ữ liệu thô, ít có giá trị về tri thức tham gia tổng hợp dữ liệu. Có thể chia thời điểm để đóng gói ữ kiện làm đầu vào này thành 2 loại: Theo khung tin (frame) hoặc theo chu kỳ/vòng (T). Giả s trong mỗi chu kỳ T một cụm có q frame (F) đƣợc sinh ra, cụm có n nút cảm biến (S), mỗi S đo lƣờng m tham số P (parameter), xem hình Hình 3.3.
Trường hợp đ t u t :