Giải thích:
+ Tiếp nh n dữ liệu c m biến: Nút CH nhận dữ liệu cảm biến của tất cả
các nút trong cụm g i về.
+ Tách thuộc tính từng nút c m biến: Tín hiệu cảm nhận và thông tin về
nút sẽ đƣợc lƣợng hóa thành các mức giá trị. Các thuộc tính này phù hợp với mục đ ch, phƣơng pháp đề xuất của từng ài toán và đƣợc định nghĩa trƣớc.
+ Ghi dữ liệu thuộc tính vào b ng: Nếu nhóm có n nút cảm biến, dữ liệu
mỗi nút cảm biến có m thuộc t nh điều kiện thì bảng thông tin (hay hệ quyết định) này có dạng ma trận ch thƣớc n hàng, (m+1) cột (vì thêm 1 cột thuộc tính quyết định), lập bảng theo công thức CT 1.2. Thuộc tính quyết định sẽ đƣợc định nghĩa trƣớc theo thuộc t nh điều kiện.
+ Tìm lớp con tương ương: Áp dụng công thức CT 1.3 để phân hoạch
bảng thông tin thành các lớp con tƣơng đƣơng (của m thuộc tính) theo giá trị Tiếp nhận tất cả dữ liệu cảm biến Tách thuộc tính từng sensor Tìm lớp con tƣơng đƣơng. Ghi dữ liệu thuộc tính vào bảng. Tìm tập các lớp con tƣơng đƣơng
của các tập con thuộc t nh điều kiện Tìm các tập thuộc tính rút gọn. Tìm tập thuộc tính lõi Xác định các luật quyết định Độ chắc chắn của luật quyết định Cơ sở tri thức Quyết định Dữ liệu các Sensor g i về nút CH Nút CH
của thuộc tính quyết định. Với bài toán tổng hợp dữ liệu, giá trị thuộc tính quyết định có thể là "Có"/"Không" (nếu nút cảm biến đó đƣợc/ hông đƣợc CH chọn để tổng hợp). Tập con tƣơng đƣơng với thuộc tính quyết định giá trị "Có" sẽ đƣợc s dụng làm đầu vào cho việc áp dụng RST.
+ Tìm t p các lớp con tương ương của các t p con thuộc t nh iều kiện:
S dụng công thức CT 1.3 để tiếp tục phân hoạch các lớp con tƣơng đƣơng (đã có ở ƣớc trƣớc đó) thành các lớp con tƣơng đƣơng nhỏ hơn gồm các nút cảm biến có cùng giá trị thuộc t nh điều kiện.
+ Tìm các t p thuộc tính rút gọn: Đƣợc tính theo công thức CT 1.7. Việc
tìm tập thuộc tính rút gọn có nghĩa quyết định đối với vấn đề ứng dụng RST để DF. Tối ƣu hóa các cột trong bảng thông tin là một ài toán hó, có độ phức tạp hàm mũ của thuộc t nh điều kiện. Do vậy, tùy trƣờng hợp cụ thể để chọn phƣơng pháp rút gọn phù hợp, tốt nhất. Thực tế, hông đòi hỏi tìm tất cả các tập thuộc tính rút gọn mà chỉ cần tìm tập rút gọn tốt nhất theo một nghĩa nào đó o ngƣời đề xuất phƣơng pháp rút gọn đó đề ra.
Để xác định độ "tốt nhất" này, cần phải định nghĩa đƣợc hai khái niệm: "Tập rút gọn" và "Độ quan trọng của thuộc tính" của phƣơng pháp đó. Hiện nay, hầu hết các nghiên cứu (quốc tế và Việt Nam) đã đƣa ra 5 cơ sở (phƣơng pháp) để rút gọn thuộc t nh nhƣ sau 5 :
* Dựa trên miền ƣơng;
* S dụng các phép toán trong đại số quan hệ; * S dụng ma trận phân biệt;
* S dụng các độ đo trong t nh toán hạt; * S dụng entropy thông tin.
+ Tìm t p thuộc tính lõi: Áp dụng công thức CT 1.5, CT 1.6. Có thể có
các phần t giao nhau của các tập thuộc tính rút gọn. Thuộc tính lõi không thể bỏ đƣợc đối với quá trình suy luận.
+ X c ịnh các lu t quyết ịnh: Theo công thức CT 1.11, CT 1.12.
+ X c ịnh ộ chắc chắn của lu t quyết ịnh: Theo công thức CT 1.13.
+ Cơ sở tri thức: Dựa vào các luật quyết định và độ chắc chắn của các
luật quyết định đó để lọc "kiến thức" thành "tri thức", hỗ trợ quyết định.
3.1.3. Ứ ụ L t u t tập t đ qu t đ t ợp u
Việc ứng dụng lý thuyết tập thô để hỗ trợ CH trong các quyết định tổng hợp dữ liệu dựa trên quy trình ứng dụng lý thuyết tập thô ở Mục 3.1.2 và các khái niệm, định nghĩa của lý thuyết tập thô (ở Mục 1.5.1) .
Giả s có một mạng cảm biến không dây với 9 nút cảm biến, đƣợc phân bố ngẫu nhiên trong vùng cần giám sát. Không mất tính tổng quát, giả s 9 nút cảm biến này thuộc một cụm, đã chọn đƣợc một nút cảm biến làm CH. Tại thời điểm xét để thực hiện tổng hợp dữ liệu, năng lư ng còn lại của các nút cảm biến có thể khác nhau; kho ng cách từ các nút cảm biến đến CH có thể khác nhau; số gói tin còn lại mà nút c m biến cần ph i truyền đến CH để hoàn tất việc truyền thông tin cảm nhận về mục tiêu có thể khác nhau; tín hiệu có thể bị nhiễu (hay dữ liệu cảm biến không chắc chắn) khi nút cảm biến truyền dữ liệu cảm nhận đến CH. Cần ứng dụng lý thuyết tập thô để tổng hợp dữ liệu (tại nút CH) sao cho đảm bảo tính tối ƣu trong việc giảm số gói tin đi ra từ CH đồng thời giữ đƣợc t nh đúng đắn của dữ liệu cảm nhận.
Các tình huống, giả thiết của bài toán đã đặt ra phù hợp với thực tế của nút cảm biến và WSNs. Ứng dụng lý thuyết tập thô để tổng hợp dữ liệu nhiều nút cảm biến trong WSNs sẽ phải giải quyết hai vấn đề:
Thứ nhất: Xây dựng bài toán tổng hợp dữ liệu bằng "ngôn ngữ" của RST. Việc xây dựng này dựa trên sự phù hợp của các khái niệm trong RST (ở Mục 1.5.1) và đặc tính hoạt động của nút cảm biến, WSNs.
Thứ hai: Ứng dụng RST để giải bài toán tổng hợp dữ liệu bằng cách tiến hành tuần tự theo quy trình 8 ƣớc đã đƣợc trình bày ở Mục 3.1.2.
3.1.3.1. Xây dựng tương quan giữa lý thuyết t p thô và tổng h p dữ liệu
Cho mạng cảm biến không dây (tại thời điểm cần DF) có 4 yếu tố:
Si=<U, Q, V, f> (CT 3.1) Với U={S0, S1,…,S7}: Tập hợp các nút cảm biến, không gồm nút CH. (CT 3.2) Q: Tập gồm các thuộc t nh điều kiện, Q ={A1, A2, A3, A4} (CT 3.3) Trong ví dụ này, với mạng có 8 nút cảm biến và nghĩa các thuộc tính điều kiện nhƣ sau: A1 là năng lượng còn lại của nút, quy ƣớc còn càng nhiều chỉ số càng cao, A1 là tập có 8 phần t , mỗi giá trị phần t là năng lƣợng còn lại của 1 nút; A2 là độ lớn khoảng cách từ nút cảm biến đến nút CH (quy ƣớc càng gần CH giá trị càng cao), A2 là tập có 8 phần t , mỗi phần t là giá trị khoảng cách từ 1 nút đến CH; A3 là số gói tin còn lại mà nút cần phải truyền đến CH để hoàn tất thông tin dữ liệu cảm nhận, thuộc tính này thể hiện tính đầy đủ của dữ liệu (quy ƣớc nếu còn càng ít gói tin thì khả năng đầy đủ thông tin tại CH càng cao, giá trị hệ số càng lớn), A3 là tập có 8 phần t , mỗi phần t là số gói tin còn lại của 1 nút; A4 là mức độ nhiễu dữ liệu, có thể là độ "mạnh – yếu" của dữ liệu cảm nhận, nghĩa là ữ liệu có thể đúng với diễn biến sự kiện nhƣng với cƣờng độ thấp (không chắc chắn), quy ƣớc nhiễu dữ liệu càng ít thì chỉ số càng cao, 8 phần t của tập A4 là 8 giá trị nhiễu của 8 nút.
V: Tập giá trị của các tập thuộc t nh điều kiện, ký hiệu:
V={VA1, VA2 , VA3, VA4}. (CT 3.4) Tập các giá trị thuộc tính có thể quy ƣớc và lƣợng hóa các mức nhƣ sau:
VA1 = {1, 2, 3, 4, 5, 6}
= {rất nhỏ, nhỏ, trung bình, mạnh, rất mạnh, năng lƣợng gốc} (CT 3.5)
VA3 = {1, 2, 3, 4, 5}
= {còn rất nhiều, còn nhiều, còn gần 1/2, còn ít, còn rất ít} (CT 3.7)
VA4 = {1, 2, 3, 4, 5} = {rất lớn, lớn, trung bình, ít, rất ít} (CT 3.8)
Thuộc tính quyết định - ADF:
Quyết định việc dữ liệu nhận đƣợc (với các thuộc t nh điều kiện tƣơng ứng) có đƣợc s dụng để thực hiện DF hay không. Tập giá trị thuộc tính ADF
= {Yes, No}. Sau hi tách và ƣớc lƣợng mức giá trị cho thuộc t nh điều kiện,
CH sẽ "gán" giá trị cho thuộc tính quyết định th o quy ƣớc của phƣơng pháp DF. Giá trị thuộc tính quyết định phù hợp với thực tiễn thƣờng dựa trên giá trị các thuộc t nh điều kiện tƣơng ứng và giao thức của WSNs thực tế. Ví dụ với bài toán này, luật quyết định sẽ l tƣởng nếu xảy ra đồng thời các giá trị tốt nhất của các thuộc t nh điều kiện, hi đó luật quyết định này sẽ là:
Nếu (VA1={6} và VA2={5} và VA3={5} và VA4={5}) thì ADF = {Yes} (CT 3.9)
f: Là giá trị thuộc t nh (điều kiện hoặc quyết định) của nút cảm biến Sk,
ký hiệu f(Sk,Al), trong đó Al V. (CT 3.10) Nhƣ vậy, việc xây dựng mối tƣơng quan giữa các tập U, Q, V của RST
với U, Q, V (đƣợc mô hình hóa) để áp dụng các phép toán RST. Với đầu vào
là mạng cảm biến gồm |U| nút, mỗi nút có |Q| thuộc t nh điều kiện, mỗi thuộc tính có |V| giá trị (số lƣợng mức giá trị của mỗi thuộc tính, thứ nguyên của mỗi thuộc tính có thể khác nhau). Mục tiêu (đầu ra) là tìm đƣợc luật quyết định hỗ trợ CH ra các quyết định về tổng hợp dữ liệu từ các nút trong cụm.
3.1.3.2. Ứng dụng RST ể gi i bài toán DF theo quy trình 8 bước
Giải bài toán DF bằng cách x lý tuần tự các nhóm công việc theo quy trình đã đƣợc trình bày ở Mục 3.1.2:
a) Bước 1: Tiền x lý, tách thuộc tính từng nút cảm biến. Với mạng có 9
nút cảm biến bao gồm 1 nút CH, tiền x l để tách giá trị 4 thuộc tính của từng 8 nút cảm biến. Bảng dữ liệu sẽ gồm n = 8 hàng và m = 5 cột (4 cột thuộc t nh điều kiện, 1 cột thuộc tính quyết định).
Giả s tại thời điểm tổng hợp dữ liệu, các nút đƣợc CH tách và định lƣợng giá trị 4 thuộc tính, thuộc tính quyết định ADF đƣợc đặt tạm thời ADF = "Yes" nếu (A1 ≥ 3 và A2 ≥ 3) hoặc A1 = 6 vì là giá trị lớn nhất và A1 đƣợc chọn là thuộc tính quan trọng nhất. Dữ liệu thiết lập nhƣ ở Bảng 3.1.
Bảng 3.1. Hệ thống thông tin an đầu của WSNs
Sensor node A1 A2 A3 A4 ADF S0 4 5 1 4 Yes S1 3 2 1 2 No S2 3 4 4 4 Yes S3 3 3 3 4 Yes S4 2 2 3 2 No S5 4 4 4 4 Yes S6 5 2 2 1 No S7 6 1 4 5 Yes
c) Bước 3: Tìm lớp con tƣơng đƣơng th o giá trị thuộc tính quyết định Phân hoạch Bảng 3.1 theo công thức CT 1.3. Có hai lớp con tƣơng đƣơng ứng với hai giá trị (Yes, No) của thuộc tính quyết định ADF. Bài toán tổng hợp chỉ quan t m đến lớp tƣơng ứng với ADF={Yes}, kết quả ở Bảng 3.2:
Bảng 3.2. Lớp tập con tƣơng đƣơng
Sensor node A1 A2 A3 A4 ADF S0 4 5 1 4 Yes S2 3 4 4 4 Yes S3 3 3 3 4 Yes S5 4 4 4 4 Yes S7 6 1 4 5 Yes
d) Bước 4: Từ Bảng 3.2 tìm tập các lớp con tƣơng đƣơng của các tập con
thuộc t nh điều kiện, là các lớp con tƣơng đƣơng gồm các nút cảm biến có cùng giá trị thuộc t nh điều kiện.
Ví dụ: Lớp con tƣơng đƣơng của thuộc tính A1 là: {S0 , S5} với giá trị thuộc t nh điều kiện là 4; {S2, S3} với giá trị thuộc t nh điều kiện là 3. Lớp con tƣơng đƣơng của thuộc tính A4 là {S0, S2, S3, S5} với giá trị thuộc t nh điều kiện là 4...
) Bước 5: Tìm các thuộc tính rút gọn
- Xây dựng ma tr n phân biệt: Từ Bảng 3.2 và công thức CT 1.6 để xây
dựng ma trận phân biệt, kết quả ở Bảng 3.3.
Bảng 3.3. Ma trận phân biệt Sensor Sensor node S0 S2 S3 S5 S7 S0 S2 A1,A2,A3 S3 A1,A2,A3 A2,A3 S5 A2,A3 A1 A1,A2,A3 S7 A1,A2,A3,A4 A1,A2,A4 A1,A2,A3,A4 A1,A2,A4
+ Tìm hàm phân biệt: Từ Bảng 3.3 và công thức CT 1.10 để xây dựng hàm phân biệt FSi. Đ y là một hàm Boolean dạng chu n tắc hội (hội của các tuyển sơ cấp) có 4 biến ool an nhƣ sau:
FSi (A1,A2,A3,A4) =
=(A1A2A3)(A1A2A3)(A2A3)(A2A3)A1(A1A2A3)
(A1A2A3A4)(A1A2A4)(A1A2A3A4)(A1A2A4) (CT 3.11)
+ Tìm t p thuộc tính rút gọn: Kết quả của việc rút gọn hàm Boolean ở CT 3.11 sẽ là tập thuộc tính rút gọn. Hiện nay, các nhóm nghiên cứu đã chỉ ra 5 cơ sở (phƣơng pháp) rút gọn thuộc tính [5]. Giải pháp này s dụng các phép toán trong đại số quan hệ, cụ thể có hai cách: phƣơng pháp đại số hoặc bìa Các-nô (Carnaugh), kết quả rút gọn nhƣ sau:
FSi(A1,A2,A3,A4) = (A1A2)(A1A3)(A1A3A4).
RG1={A1, A2}; RG2 ={A1, A3}; RG3={A1, A3, A4} (CT 3.12)
e) Bước 6: Tìm tập thuộc tính lõi
Theo công thức CT 1.5 và Bảng 3.3 (hoặc công thức CT 3.12) suy ra thuộc tính lõi Core(Q) = {A1} (CT 3.13)
g) Bước 7: Tìm luật quyết định, độ chắc chắn của luật quyết định Từ Bảng 3.1 có các lớp quyết ịnh:
D={Y1={S0, S2, S3, S5, S7}, Y2={S1, S4, S6}} (CT 3.14) Với DesD(Y1)=({ADF=Yes}), DesD(Y2)=({ADF=No}). Bài toán chỉ quan t m trƣờng hợp đến DesD(Y1).
Lớp tương ương theo c c t p rút gọn ở công thức CT 3.12 đƣợc phân
hoạch theo công thức CT 1.4:
U|IND(RG1)={{X1={S0}, X2={S1, S2}, X3={S3}, X4={S4}, X5={S5},
X6={S6}, X7={S7}} (CT 3.15)
U|IND(RG2) = U|IND(RG3) = {{X1={S0}, X2={S1}, X3={S2}, X4={S3}, X5={S4}, X6={S5}, X7={S6}, X8={S7}} (CT 3.16) Áp dụng công thức CT 1.11, CT 1.12, thiết kế các lu t đối với lớp
DesD(Y1) tƣơng ứng các tập thuộc tính rút gọn:
Với thuộc tính rút gọn RG1, từ công thức CT 3.14, CT 3.15 có kết quả:
X1Y1={S0}; X2Y1={S2}; X3Y1={S3}; X4Y1=; X5Y1={S5};
X6Y1=; X7Y1={S7}. (CT 3.17)
Với thuộc tính rút gọn RG2, RG3, từ CT 3.14, CT 3.16 có kết quả:
X1Y1={S0}; X3Y1={S2}; X4Y1={S3}; X6Y1={S5}; X8Y1={S7}; X2Y1=
X5Y1= X7Y1=. (CT 3.18)
Định nghĩa các lu t quyết ịnh nhƣ sau:
Đối với tập thuộc tính RG1, áp dụng công thức CT 1.11 và kết quả ở CT 3.17, đƣợc các luật:
ZRG1.21 : DesC(X2) DesD(Y1) ZRG1.31 : DesC(X3) DesD(Y1) ZRG1.51 : DesC(X5) DesD(Y1) ZRG1.71 : DesC(X7) DesD(Y1)
Đối với tập thuộc tính RG2, RG3, áp dụng công thức CT 1.11 và kết quả ở CT 3.18, đƣợc các luật: ZRG2.11 , ZRG3.11: DesC(X1) DesD(Y1) ZRG2.31 , ZRG3.31: DesC(X3) DesD(Y1) ZRG2.41 , ZRG3.41: DesC(X4) DesD(Y1) ZRG2.61 , ZRG3.61: DesC(X6) DesD(Y1) ZRG2.81 , ZRG3.81: DesC(X8) DesD(Y1)
Do thuộc tính rút gọn RG2 và RG3 có cùng t p lu t nên chỉ cần lấy tập luật của một trong hai tập luật tƣơng ứng với tập thuộc tính rút gọn RG2 hoặc
RG3 là đủ, ví dụ chỉ cần lấy của RG2.
h) Bước 8: Quyết định
Áp dụng công thức CT 1.13 để xác định độ chắc chắn của các luật. Tập luật quyết định bài toán này sẽ có 10 luật, đƣợc viết lại bởi mệnh đề logic nhƣ sau:
Lu t 1: Nếu A1=4 và A2=5 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 2: Nếu A1=3 và A2=4 thì ADF=Yes với ộ chắc chắn µ = 0,5 Lu t 3: Nếu A1=3 và A2=3 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 4: Nếu A1=4 và A2=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 5: Nếu A1=6 và A2=1 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 6: Nếu A1=4 và A3=1 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 7: Nếu A1=3 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 8: Nếu A1=3 và A3=3 thì ADF=Yes với ộ chắc chắn µ = 1
Lu t 9: Nếu A1=4 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1 Lu t 10: Nếu A1=6 và A3=4 thì ADF=Yes với ộ chắc chắn µ = 1
Nhƣ vậy, với 2 lần phân hoạch bảng dữ liệu cảm nhận của nút cảm biến:
Lần thứ nhất s dụng giá trị của thuộc tính quyết định theo yêu cầu đặt ra đã
gi m ư c số hàng từ 8 hàng xuống còn 5 hàng; lần thứ hai s dụng giá trị
tập thuộc tính với các quan hệ không phân biệt đƣợc và tập thuộc tính rút gọn
đã gi m ư c số cột từ 4 cột xuống còn 2 cột. Ứng dụng RST để phân hoạch
bảng dữ liệu này làm giảm đáng ể không gian dữ kiện, tối ƣu hóa vấn đề chọn lọc dữ liệu nút cảm biến tham gia tổng hợp dữ liệu. Do giá trị thuộc tính quyết định đƣợc xác lập thông qua các thuộc t nh điều kiện (đƣợc đặt ra theo yêu cầu ài toán, các đặc tính dữ liệu cảm nhận của nút cảm biến và đặc điểm nút cảm biến tại thời điểm tổng hợp, giao thức IEEE 802.15.4) nên vấn đề lựa