Trong giai đoạn huấn luyện cần thực hiện 3 cơng việc:
Đo đạc và lưu trữ các giá trị tín hiệu sĩng RSS của các AP trong tịa nhà.
Phân tích và lọc nhiễu các giá trị RSS đã thu thập.
Xây dựng cơ sở dữ liệu Fingerprinting hay gọi là bản đồ sĩng vơ tuyến Chi tiết các bước thực hiện trong giai đoạn huấn luyện được mơ tả trong hình 3.2.
Hình 3.2: Lưu đồ xây dựng cơ sở dữ liệu bản đồ sĩng Fingerprinting
Thu thập thơng tin vị trí của mỗi điểm lưới Chia sàn nhà thành các điểm lưới
RSS của AP1 RSS của AP2 ……… RSS của APn
Ứng Dụng Thu Thập RSS
Dữ liệu thơ
Bộ chuyển đổi dữ liệu Dữ liệu đã xĩa nhiễu
Cơ sở dữ liệu Fingerprinting Bộ lọc nhiễu
Quá trình đo đạc được tiến hành qua các bước như sau: 1. Aùp hệ trục tọa độ Oxy vào khu vực tịa nhà. 2. Đặt các AP vào các vị trí cố định trong tịa nhà
3. Chia khu vực thành các ơ lưới, mỗi vị trí trên ơ lưới ứng với một vị trí tham chiếu.
4. Lưu trữ thơng tin vị trí của các điểm tham chiếu đã sử dụng để đo đạc RSS từ các AP
5. Tại mỗi vị trí tham chiếu, sử dụng thiết bị di động để đo và thu thập các chỉ số RSS của các AP.
Hình 3.3: Minh họa quá trình đo đạc RSS
Quá trình lọc nhiễu dữ liệu RSS được tiến hành qua các bước sau:
Dựa vào đặc tính của sĩng vơ tuyến và khảo sát sự biến đổi của RSS tại vị trí tham chiếu để tìm ra quy luật phân phối giá trị RSS của AP
Sau khi xác định được quy luật phân phối RSS sẽ đưa ra phương pháp lọc nhiễu phù hợp
Hình 3.4: Biểu đồ thực nghiệm minh họa sự phân phối giá trị RSS của một AP tại vị trí tham chiếu
Quan sát hình 3.4 chúng ta cĩ thể thấy rằng giá trị RSS biến đổi theo thời gian, các giá trị RSS khơng nằm trên đường thẳng mà tăng giảm liên tục, tuy nhiên theo như nghiên cứu của tài liệu [24], các giá trị phân phối theo một quy luật phân phối chuẩn. Tuy nhiên cĩ một số ít giá trị RSS vượt ra khỏi quy luật phân phối chuẩn, ta gọi đĩ là giá trị RSS bị nhiễu. Tình trạng nhiễu cĩ thể xảy ra khi cĩ sự cố là một vật thể chắn ngang qua thiết bị AP khiến cho giá trị RSS bị giảm bất thường, hoặc một số trường hợp do mơi trường tác động đến sĩng vơ tuyến cũng khiến giá trị RSS bị nhiễu. Do đĩ, quá trình lọc nhiễu sẽ loại bỏ đi những giá trị RSS này. -66 -64 -62 -60 -58 -56 -54 -52
Chúng ta hãy cùng quan sát hình 3.5, đây là biểu đồ thể hiện lại tần số phân bố các giá trị RSS của hình 3.4 để thấy rõ hơn quy luật phân phối chuẩn trong sự phân bố của RSS.
Hình 3.5: Biểu đồ thực nghiệm minh họa sự phân bố theo phân phối chuẩn của các giá trị RSS
Về hình dạng, chúng ta dễ dàng nhận thấy rằng sự phân bố các giá trị RSS tại vị trí tham chiếu cĩ hình dạnh như một hình chuơng. Các phân phối cĩ hình dạng này gọi là “Normal Distribution” hay cịn gọi là phân phối chuẩn. Luật phân phối này phù hợp với các hiện tượng tự nhiên. Thật vậy, hầu hết các hiện tượng sinh học tự nhiên (như chiều cao, trọng lượng cơ thể, huyết áp, mật độ xương, v.v…) đều cĩ thể mơ tả bằng luật phân phối chuẩn một cách chính xác. Chính vì thế mà luật phân phối chuẩn được ứng dụng rộng rãi trong khoa học thực nghiệm.
Phân phơi xác suat cua RSSI
Histogram Normal Rssi (dbm) -57 -58 -59 -60 -61 -62 -63 -64 -65 X ác S uâ t 0.56 0.52 0.48 0.44 0.4 0.36 0.32 0.28 0.24 0.2 0.16 0.12 0.08 0.04 0
Để hiểu rõ hơn về phân phối chuẩn, chúng ta tìm hiểu hàm mật độ phân phối chuẩn:
Hàm mật độ phân phối chuẩn (Normal Density Probability Function) cĩ dạng tổng quát như sau:
(3.1) Trong đĩ: trị số trung bình của tập RSS độ lệch chuẩn
: là biến ngẫu nhiên của giá trị RSS tại mỗi thời điểm thu được Muốn đổi hàm y=f(x) ra hàm chuẩn tắc y=f(z) ta đặt:
(3.2)
Chỉ số z bây giờ cĩ số trung bình là = 0 và độ lệch chuẩn là = 1. Nếu thay (3.11) vào (3.10), chúng ta cĩ một hàm số mới và đơn giản hơn như sau:
(3.3)
Tiếp theo chúng ta sẽ khảo sát biểu đồ của hàm phân phối chuẩn được chuẩn hĩa để hiểu được các khái niệm về khoảng tin cậy, thế nào là khoảng tin cậy 90%, thế nào là khoảng tin cậy 95%, thế nào là khoảng tin cậy 99%.
Hình 3.6: Biểu đồ hàm phân phối chuẩn tắc (Nguồn[2])
Khảo sát biểu đồ trên chúng ta cĩ những kết luận sau:
Xác suất mà z <= -1.96 là 0.025 (tức 2.5%). Nĩi cách khác, diện tích dưới đường biểu diễn tính từ z = -1.96 hay thấp hơn là 0.025.
Bởi vì phân phối chuẩn cân đối , chúng ta cũng cĩ thể nĩi rằng xác suất mà z >=1.96 cũng bằng 0.025.
Như vậy, xác suất mà z nằm trong khoảng -1.96 và 1.96 là 1–0.025–0.025 = 0.95 (hay 95%). Nĩi cách khác, khoảng tin cậy 95% của z là -1.96 đến 1.96.
Tương tự, chúng ta cũng cĩ thể phát biểu rằng xác suất mà z nằm trong khoảng -1.645 đến 1.645 là 90%. Xác suất mà z nằm trong khoảng -2.576 đến 2.576 là 99%. Xác suất mà z nằm trong khoảng -3.09 đến 3.09 là 99.9%.
Sau khi thu thập và phân tích giá trị RSS đo được tại vị trí tham chiếu, chúng ta tiến hành lọc nhiễu để loại bớt các giá trị RSS bất thường.
Một vấn đề mà chúng ta hay thấy là ước tính khoảng tin cậy 95% (thuật ngữ tiếng Anh là 95% confidence interval hay cĩ khi cịn viết là 95% confidence limit, hoặc 95% credible interval).
Để lọc nhiễu dữ liệu ta sử dụng kiến thức về phân phối chuẩn và khoảng tin cậy 95% trong phân phối chuẩn.
Hai thơng số quan trọng trong một phân phối là giá trị trung tâm hay gọi là trung bình µ và phương sai (hoặc độ lệch chuẩn ) và thường biểu thị bằng X ~ N, (µ, ) với N viết tắt của từ normal.
Nếu phân phối chuẩn được chuẩn hĩa với trung bình µ=0 và độ lệch chuẩn
được viết tắt là: Z ~ N (µ=0, ) được gọi là phân phối chuẩn chuẩn hĩa (Standardized Normal Distribution)
Nếu giá trị của RSS tại một vị trí tham chiếu nằm ngồi khoảng tin cậy 95% thì chúng ta cĩ thể phát biểu rằng giá trị RSS này “bất bình thường” hay “nhiễu”.
Để ước tính khoảng tin cậy 95% (KTC95%), chúng ta chú ý mối liên hệ giữa x và trong cơng thức (3.2).
Vì , do đĩ: (3.4)
Như đề cập trong phần trên, 95% giá trị của nằm trong khoảng -1.96 đến +1.96, cho nên chúng ta cũng cĩ thể nĩi rằng 95% giá trị của x nằm trong khoảng và . Hay nĩi ngắn gọn, 95% các giá trị x nằm trong khoảng:
Thuật Tốn Lọc Nhiễu:
Ta sẽ dựa vào (3.5) để xây dựng thuật tốn lọc nhiễu RSS với ý tưởng như sau: nếu giá trị hoặc thì đây là các giá trị nhiễu.
Với là giá trị trung bình của tập RSS tại mỗi vị trí tham chiếu và là độ lệch chuẩn.
Để thực hiện ý tưởng lọc nhiễu trên, ta thực hiện các bước sau:
1. Tìm mean của tập RSS tại vị trí tham chiếu 2. Với mỗi x trong tập RSS, tính độ lệch (deviation) của nĩ so với mean
bằng phép tính (x - mean)
3. Tính bình phương của các giá trị thu được ở bước 2.
4. Tìm mean của các bình phương độ lệch tìm được ở bước 3. Giá trị này được biết đến như là phương sai .
5. Tính căn bậc hai của phương sai ta được kết quả cần tìm là .
6. Sau khi tính được và ta áp dụng cơng thức (3.5) để xác định các giá trị RSS nhiễu
Sau đây là vài cơng thức mơ tả cho các bước trên
(3.6)
Cài đặt thuật tốn lọc nhiễu:
Algorithm 1 RSS Noise Filter Algorithm 1. Sum 0
2. N Count(tập RSS) 3. SumOfDeviation 0
4. for each RSS trong tập RSS đo được tại vị trí tham chiếu do
5. Sum Sum + RSS 6. Sum / N
7. for each RSS trong tập RSS đo được tại vị trí tham chiếu do
8. SumOfDeviaton SumOfDeviation + 9.
10. for each RSS trong tập RSS đo được tại vị trí tham chiếu do
11. if or then
12. Xĩa giá trị RSS nhiễu ra khỏi dữ liệu
Sau khi đã lọc nhiễu cho các dữ liệu RSS đo được tại các vị trí tham chiếu, cơng việc tiếp theo trong giai đoạn huấn luyện là xây dựng cơ sở dữ liệu huấn luyện để lưu trữ bản đồ sĩng vơ tuyến Fingerprinting.