Mô hình r ng ng u nhiên (RF) d a trên vi c xây d ng m t danh sách cây quyừ ẫ ự ệ ự ộ ết định. M i cây s ỗ ẽ phân chia không gian đặc trưng thành các không gian con ngẫu nhiên. M i không gian con d ki n s ỗ ự ế ẽchứa các mẫu tương tự nhau và có đặc điểm gi ng m c tiêu nh t. Nghiên c u c a Lin và Jeon [29] cho th y mô hình RF có th ố ụ ấ ứ ủ ấ ể
Trang 38 được ch ng minh là m t mô hình KNN khi có tr ng s phù h pứ ộ ọ ố ợ . Để hu n luy n cây ấ ệ quyết định chu n, d u hu n luyẩ ữliệ ấ ện S được chia ra t trên xu ng b ng mừ ố ằ ột cặp tính năng và giá trị cho đến khi m t s ộ ố tiêu chí được đáp ứng. Tiêu chí có th dể ựa vào độ sâu c a cây ủ để xác định nút lá. B ng 2-1 ba m u hu n luy n trên d u thô RSS. ả là ẫ ấ ệ ữliệ M t cây quyộ ết định có th ể được xây dựng như trong Hình 2-5. Trong ví d này, quá ụ trình xây d ng d ng l i khi m i lá ch ự ừ ạ ỗ ỉ chứa m t m u. Ngoài ra còn có các cây quyộ ẫ ết định khác v i các tiêu chí phân chia nút khác nhau phân chia các m u ớ để ẫ , , .
B ng 2-1: B d u vả ộ ữliệ ớ ặi đ c tính thô RSS của 3 điểm truy c p ậ
M u ẫ
-50dBm -70dBm -75dBm
-65dBm -80dBm -52dBm
-70dBm -65dBm -76dBm
Hình 2-5 M t cây quy: ộ ế ịt đ nh v i hai nút n i b và ba nút ớ ộ ộ lá
V i t p d ớ ậ ữliệu hu n luy n, có m t s ấ ệ ộ ố phương pháp để xây d ng m t cây quyự ộ ết định như ID3 [30] ho c CART [31]. Mô hình RF có th kh c ph c vặ ể ắ ụ ấn đề overfitting
Trang 39 b ng cách xây d ng m t b cây quyằ ự ộ ộ ết định. Phương pháp đóng gói và tập h p các ợ tính năng ngẫu nhiên được s dử ụng để ả gi m mối tương quan giữa mỗi cây trong r ng. ừ K t qu c a mô hình RF là trung bình c a t t c ế ả ủ ủ ấ ả các tiên đoán của mỗi cây quyết định trong rừng cây.
2. Phần m m thu thề ập dữliệu ngữ ảnh ngườ c i dùng 2.1. Thiết kếphần m m thu thề ập dữ u trên Android liệ
Để ph c v cho nhi m v nh v , m t ph n m m thu th p d li u ng c nh ụ ụ ệ ụ đị ị ộ ầ ề ậ ữ ệ ữ ả người dùng được thi t k v i vai trò trung gian giế ế ớ là ữa người dùng và môi trường.
V i kh ớ ả năng thu nhận các tín hi u Wi-ệ Fi, Bluetooth cùng v i các c m biớ ả ến như cảm bi n gia tế ốc, c m bi n con quay h i chuyả ế ồ ển, c m bi n t ả ế ừ trườ …ng ph n m m thu thầ ề ập cung c p d u, thông tin chính xác v ng cấ ữliệ ề ữ ảnh môi trường xung quanh ph c v ụ ụ cho hệ ống đị th nh v . ị
Hình 2-6: Nhiệm vụ ủ ứ c a ng d ng thu th p d li u ng cụ ậ ữ ệ ữ ảnh người dùng Phần m m thu th p ng cề ậ ữ ảnh người dùng được thi t k chạế ế để y trên các thi t b ế ị Android di động như điện tho i thông minh, máy tính b ng... Dạ ả o đó phần m m cần ề đáp ứng được nh ng yêu c u sau: ữ ầ
Trang 40 - Chương trình cầ ốn t n ít tài nguyên do chạy trên các thi t b ế ị di động v i ph n ớ ầ
c ng không m nh và chuyên bi t. ứ ạ ệ
- Có kh ả năng chạy ng m (background) khi thi t b ầ ế ị di động trong tr ng thái ạ khoá (lock).
- Có khả năng lưu trữ các thông tin d ữliệu đã thu thập được.
2.2. Xây dựng và cài đặt
D a trên nh ng yêu cự ữ ầu đặt ra bên trên, một chương trình ch y trên ạ thiết b ị Android đã được thiết kế và cài đặt theo thi t k ế ế dưới đây.
Hình 2-7: Thiết kế ủa chương trình thu thậ c p d u ng cữliệ ữ ảnh người dùng Bắt đầu khởi động chương trình, hàm startScan() được gọi để điều khi n thiể ết b quét thông tin ng c nh xung quanh thi t bị ữ ả ế ị, đồng thời hàm Scan_results_available_action() được gọi để kiểm tra . N u thông tin t các c m bi n ế ừ ả ế đã sẵn sàng, k t qu ế ả được tr v ả ề qua phương thức getScanResults(). D ữliệu thu được lưu lại vào b nh ộ ớ qua phương thức SaveResults(). Kết thúc chương trình, hàm
Trang 41 stopScan() được s dử ụng để điều khi n thi t b ng ng quét. D li u ể ế ị ừ ữ ệ thu đượ được c đóng gói theo định d ng ạ XMLvà lưu lại trong b nh c a thi t b . ộ ớ ủ ế ị
Chương trình này sẽ được cài đặt và chạy như mộ ịt d ch v trên thi t b Android ụ ế ị v i giao di n c a d ch v ớ ệ ủ ị ụ nhưHình 2-8. Đây là ví dụ cho phép thu th p nhi u thông ậ ề tin khác nhau c a ủ môi trường xung quanh s d ng các c m bi n c a thi t b ử ụ ả ế ủ ế ị thông minh. Người dùng s đưẽ ợc ch n các c m bi n quan tâm ọ ả ế như ằ b ng cách tích vào các ô “Wf, Sens, Bt”, sau đó nhấn nút “START” để ắt đầ b u quét d u. Trong quá trình ữliệ thu d ữliệu, để xây dựng đường đi thực t ph c v cho nhi m v ế ụ ụ ệ ụ đánh giá, người dùng s nhẽ ấn vào nút “REACHPOINT” khi đi đến m t v trí c ộ ị ụthể nào đó. Chương trình s liên t c quét các d u liên quan ẽ ụ ữ liệ cũng như thông tin v trí nhị ững điểm nh n nút ấ
“REACHPOINT” sau đó lưu trữ ạ t m th i vào b nh . ờ ộ ớ Để ế k t thúc quá trình thu d ữ liệu, người dùng nhấn vào nút “STOP” để dừng chương trình. Dữ liệu sau đó s ẽ được đóng gói vàlưu trữ như Hình 2-9.
Hình 2-8: Giao diện chương trình
Trang 42 Hình 2-9 D u thu th: ữliệ ập lưu trữ dưới dạng các t p tin XML ậ
3. K t qu ế ảthử nghi m ệ 3.1. D ữliệu sử ụng d
Trong nghiên c u này, toàn b d ứ ộ ữ liệu dùng đểthử nghi m ệ được trích xu t t ấ ừ Track 3: “Smartphone-based (off-site)” trong b d liộ ữ ệu được công b t i H i ngh ố ạ ộ ị Qu c t l n th 6 v nh v trong nhà và D n ố ế ầ ứ ề Đị ị ẫ hướng (IPIN 2016), đượ ổc t chứ ại c t thành phố Alcalá de Henares, th ủ đô Marid, Tây Ban Nha.
Trong cu c thi IPIN 2016, Track ộ 3 đề xu t các nhi m v ấ ệ ụ theo dõi điện thoại thông minh thông trong không gian c a 4 tòa nhà nhi u t ng, c ủ ề ầ ụ thể ở đây là 4 tòa nhà: CAR, UAH, UJI UB, UJI TI- - như Hình 2-10.
Trang 43 Hình 2-10: B n tòa nhà s d ng trong Track 3, IPIN 2016 ố ử ụ
Người dùng được yêu cầu mang theo điện tho i thông minh theo m t qu o ạ ộ ỹđạ nào đấ . Trên điệy n thoại thông minh đó đã được cài ng d ng d a trên n n t ng ứ ụ ự ề ả Android để có th thu thu th p d li u t các c m biể ậ ữ ệ ừ ả ến trên điện tho i thông minh ạ như: dữ ệ li u c m bi n Wi- , dả ế Fi ữ ệ li u c m bi n quán tính (gia t c, con quay h i ả ế ố ồ chuy n), c m bi n t ể ả ế ừ trường, cảm biến ánh sáng, âm thanh, áp su t, nhiấ ệ ộ, đột đ m, ẩ GPS, AHRS. Ngoài d u c m bi n cữliệ ả ế ủa điện tho i thông minh, ạ các t p d ệ ữliệu cung c p cho ta qu o di chuy n cấ ỹ đạ ể ủa người dùng trong quá trình thu d u. ữ liệ Quỹ o đạ của người dùng được bi u th ể ị dướ ạng danh sách các điểm i d m c và d u th i gian ố ấ ờ đến c a nó. C th , trong quá trình thu th p d li u, m i lủ ụ ể ậ ữ ệ ỗ ần người dùng đi đến m t ộ điểm m c c th ố ụ ể nào đó, người đó thông báo cho ứng d ng ụ để lưu lại điểm m c và ố d u thấ ời gian đến. T v trí cừ ị ủa các điểm m c và d u th i gian, qu o di chuy n ố ấ ờ ỹ đạ ể đầy đủ ủa ngườ c i dùng có th ể được ước tính bằng phương pháp nội suy tuy n tính. ế T qu o di chuy n gừ ỹ đạ ể ần đúng vừa xác định, vị trí của người dùng t i m t d u thạ ộ ấ ời gian c ụthể được trích xuất và kết hợp với dữ u liệ Wi Fi- tđể ạo cơ sở ữ d u d u vliệ ấ ân tay Wi Fi- .
Trang 44 D u ữliệ thu đượ ạc t i mỗi tòa nhà đều được tách thành t p d liệệ ữ u hu n luy n và ấ ệ d u ữliệ đánh giá. T p d u hu n luy n ệ ữliệ ấ ệ được s dử ụng để hu n luy n ấ ệ các mô hình như kiểu dấu vân tay Wi- và các t p d Fi ệ ữliệu đánh giá cung c p d ấ ữliệu cho mục đích đánh giá. Cả ệ t p d li u hu n luy n và d liữ ệ ấ ệ ữ ệu đánh giá đều được thu th p v i cùng ậ ớ một thiết lập.
Trong các th nghi m c a nghiên c u, tôi ch n b d ử ệ ủ ứ ọ ộ ữliệu được thu t i tòa nhà ạ UAH [32]. Đây là bộ ữ d u l n nh t g m 10 t p d liệ ớ ấ ồ ệ ữliệu, trong đó 6 tệp được dùng làm d ữliệu hu n luy n và 4 t p làm d ấ ệ ệ ữliệu đánh giá. Các t p d ệ ữliệu hu n luyấ ện được chia thành 3 qu ỹ đạo riêng biệt. Trong đó, v i m i qu ớ ỗ ỹ đạo di chuyển của người dùng, d u u ữliệ đề được thu bởi hai mô hình điện tho i khác nhau là Samsung Galaxy S3, ạ Samsung Galaxy S4.
Hình 2-11 M: ột phần qu o di chuy n trong b d u UAH ỹ đạ ể ộ ữliệ
a. D u hu n luy n ữliệ ấ ệ
Trong s các lo i d u khác nhau trong các t p d u hu n luy n, ố ạ ữ liệ ệ ữ liệ ấ ệ “Wi Fi- data và POSI data là hai d u quan tr” “ ” ữliệ ọng để xây d ng mô hình l y d u vân tay ự ấ ấ
Trang 45 Wi- . Thông tin v các Fi ề điểm truy c p ậ Wi- tìm th y trong m i l n quét Fi ấ ỗ ầ như: tên điểm truy c p, a ch MACậ đị ỉ , cường độ tín hi u nhệ ận được và thời điểm xu t hi n ấ ệ được ghi l i trong ạ Wi Fi- data.
B ng 2-2 Thông tin mả : ột số điểm truy c p Wi- ậ Fi
AppTimestamp SensorTimeStamp Name-SSID MAC-BSSID RSS
2.742 16169.500 congresos 04:bd:88:50:4b:60 -77
2.742 16169.500 eduroam 04:bd:88:50:4b:61 -78
2.742 16169.500 eduroam 04:bd:88:50:3d:c1 -70
2.742 16169.500 matematicasUAH 00:1c:f0:62:62:d3 -83
2.742 16169.501 eduroam 04:bd:88:50:4a:31 -81
Với POSI data, đây là dữ u mô t quliệ ả ỹ o di chuy n khi thu d u và qu đạ ể ữliệ ỹ đạo đó được mô t b ng danh sách ả ằ các điểm m c. Mố ỗi điểm m c là m t v trí trên ố ộ ị bản đồ và được xác định thông qua kinh độ, vĩ độ, t ng hi n t i và mã tòa nhà. ầ ệ ạ
B ng 2-3 Thông tin c a mả : ủ ột số điểm mốc trong qu o di chuy n ỹ đạ ể AppTimestamp Latitude Longitude Floor Building
22.206 40.51360786 -3.34883 0 20
34.676 40.51355224 -3.34892 0 20
68.927 40.51335552 -3.34923 0 20
92.021 40.51328754 -3.34934 0 20
132.294 40.51328445 -3.34934 1 20
Dưới đây là thông tin chi tiế ữ ệt d li u Wi Fi- trích xuấ ừt t các p d li u thu t i tệ ữ ệ ạ tòa UAH.
B ng 2-4: D u ả ữliệ huấn luy n c a UAH ệ ủ S ố lượng m u d u ẫ ữliệ 878 Quãng đường di chuy nể 2640 6
S t ng ố ầ 4
S ố lượng điểm truy c p ậ 353 Thời gian quét trung bình 5,25 Thời gian quét dài nh t ấ 168,5
Trang 46 D ữliệu hu n luy n ấ ệ được thu thập trong vòng chưa đầy 2 gi . Có t t c 878 mờ ấ ả ẫu d u hu n luy n trên 4 t ng cữliệ ấ ệ ầ ủa tòa UAH, trong đó có ổt ng cộng 353 địa ch MAC ỉ của 353 điểm truy cập được tìm th yấ . Quãng đường di chuy n thu d u trong tòa ể ữliệ nhà là 2640,6 mét. Th i gian quét trung bình là 5,25 giây, minh h a th i gian giờ ọ ờ ữa các l n quét liên t c. Th i gian quét dài nh là 168,5 giây cho bi t kho ng cách dài ầ ụ ờ ất ế ả nh t không có d u ấ ữliệ Wi Fi- nào kh d ng. ả ụ
b. D u ữliệ đánh giá
D ữliệu đánh bao g m 4 t p ồ ệ và được chia ra làm hai c p (1-3 và 2-4) ặ tương ứng hai qu o thu ỹ đạ khác nhau. Do đó, quãng đường thu và th i gian thu c a m i cờ ủ ỗ ặp cũng là khác nhau. Mỗi cặp là được thu b i hai ki u ở ể điện tho i khác nhau là Samsung ạ Galaxy S3, Samsung Galaxy S4. B ng 2-5 là th ng kê chi tiả ố ết hơn về b d u ộ ữliệ đánh giá.
B ng 2-5: D u ả ữliệ đánh giá ủ c a tòa UAH
T p 1 ệ T p 2 ệ T p 3 ệ T p 4 ệ
Điện tho i ạ Samsung
Galaxy S3 Samsung
Galaxy S4 Samsung
Galaxy S4 Samsung Galaxy S3 Thời gian thu 1477 giây 899 giây 1477 giây 899 giây Quãng đường đi 763 mét 370 mét 763 mét 370 mét
S t ng ố ầ 4 3 4 3
S lố ần thay đổi
t ng ầ 7 5 7 5
Điểm truy c p ậ
được th y ấ 159 174 291 96
3.2. X lý d u ử ữliệ
T B ng 2-1, có th ừ ả ểthấ ằy r ng s khác biự ệt giữa các mức d u th i gian cấ ờ ủa ứng d ng v i các m c d u th i gian c a c m biụ ớ ứ ấ ờ ủ ả ến là không đáng kể, nên trong các bước tiếp theo ta ch n d u th i gian ng d ng làm d u th i gian x ọ ấ ờ ứ ụ ấ ờ để ửlý. Hơn nữa, d u ấ th i gian ờ truy c p ậ vào các điểm truy c p là gi ng nhau ho c x p x nhau t ậ ố ặ ấ ỉ ừ đó có thể
Trang 47 được nhóm thành một vectơ, gọi là vectơ đặc trưng. Và việc g p chung l i là c n thiộ ạ ầ ết để ạ t o ra các vector d li u c tính ữ ệ đặ thô.
V i ớ 353 điểm truy cập được phát hi n (B ng 2-3)ệ ả , ta có được một vector d ữliệu thô có kích thước D = 353. Cùng v i M d u th i gian phát hiớ ấ ờ ện điểm truy c p, ta có ậ thể xây d ng m t ma tr n 2 chi u vự ộ ậ ề ới kích thước M*D làm ma tr n hu n luy n. Giá ậ ấ ệ trị t i mạ ỗi điểm là cường độ tín hi u RSS nhệ ận được t mừ ỗi điểm truy cập đó. Có một vấn đề là t i m t v trí quét ng u nhiên, không ph i t t c ạ ộ ị ẫ ả ấ ả các điểm truy cập đều được tìm th y. Do ấ đó để tính toán giá tr RSS mị ặc định cho các điểm truy c p không nhìn ậ thấy, chúng tôi s l p biểu đồẽ ậ giá tr RSS cho d ị ữliệu hu n luy n ấ ệ như Hình 2-12. T ừ biểu đồ giá tr , các giá tr RSS nhị ị ận đượ ừ các điểc t m truy cập đều không vượt quá - 100 dBm nên có th ể chọn giá tr RSS mị ặc định cho các điểm truy c p không nhìn ậ thấy = -120 dBm. Ngoài ra, cũng có thể chọn ngưỡng giá tr nh ị ỏ hơn -95dBm để gán cho các điểm truy c p không nhìn th y. Mậ ấ ỗi điểm truy c p có giá tr RSS nh ậ ị ỏ hơn -95 dBm s ẽ được gán cho giá tr ị .
Hình 2-12: Phân b các giá tr RSS d a trên d u thu th p ố ị ự ữliệ ậ
Trang 48 Đố ới v i m i l n quét ỗ ầ Wi Fi- nhóm từ bước trên, chúng tôi ch nh cho nó m t ỉ đị ộ v trí làm m c tiêu h c t p. V cị ụ ọ ậ ị trí ủa người dùng là m t b ba g m t ngộ ộ ồ ầ , vĩ độ và kinh độ. Các điểm m c ố được nh p th công t ậ ủ ừ người dùng trên đoạn đường di chuyển, đượ ử ụng đểc s d tính toán qu o cỹ đạ ủa người dùng. B i vì các t p d li u ch ch a ở ệ ữ ệ ỉ ứ d u th i gian c a mấ ờ ủ ột điểm m c ố khi người dùng đi đế điển m m c , nên mố đó ột bước x p x là c n thiấ ỉ ầ ết để tính toán toàn b qu ộ ỹ đạo di chuy n cể ủa người dùng t i m t thạ ộ ời điể nào đóm .
Giả ử ờ s th i gian hoàn thành m t l n quét d li u ộ ầ ữ ệ Wi Fi là - với
m c t
là một nửa thời gian quét. Vịtrí của điểm ố ại một thời điểm nào đó có thể được tính bằng phương pháp nội suy tuy n tính giế ữa hai điểm m c ố , tại thời điểm trước và sau thời điểm , có tọa độ ần lượ l t là ,
.
(2.3)
Khi người dùng thay đổ ầi t ng trong quá trình thu d li u, theo công th c trên ữ ệ ứ giá tr ị c a s x p x tuy n tính ủ ự ấ ỉ ế ở đầu ra s là m t giá tr ẽ ộ ịthực, do đó ta phải làm tròn thành giá trị nguyên.
Môi trường trong nhà, v trí c a m c tiêu có th ị ủ ụ ể đượ coi như xác địc nh trong không gian 2,5 chi u (tề ầng, kinh độ, vĩ độ) như trên. Đố ới v i mô hình d u vân tay, ấ các gi i thu t áp d ng có ả ậ ụ thể ử lý đồ x ng th i b ba giá tr tìm ra v trí, tuy nhiên ờ ộ ị để ị trong các th nghi m c a tôi, tôi chử ệ ủ ọn phương án tiếp c n là chia nhi m v ậ ệ ụ xác định v ịtrí trong không gian 2,5 chiều thành hai nhi m v : ệ ụ
- Nhiệm v ụthứ nhất: xác định tầng mà người dùng đang đứng.
- Nhiệm v ụthứ hai: xác định t a ọ độ người đó trong không gian 2 chiều còn l ại.
Trang 49 3.3. Xác định tầng
B ng 2-6: D u c a ả ữliệ ủ tòa UAH
ID tầng M u hu n luy n ẫ ấ ệ M u ẫ đánh giá
0 334 126
1 233 298
2 215 147
3 96 149
B ng 2-6 cung c p s ả ấ ố lượng mẫu hu n luy n và m u ấ ệ ẫ đánh giá c a tòa nhà UAH. ủ S ố lượng m u hu n luy n và mẫ ấ ệ ẫu đánh giá phụthuộc vào quỹ o di chuy n c đạ ể ụthể của người dùng và kiểu điện thoại đượ ử ục s d ng. T ng 0 có các m u hu n luy n cao ầ ẫ ấ ệ nh t và t ng 3 có s ấ ầ ố lượng m u ít nh t. Các m u d ẫ ấ ẫ ữliệu đánh giá có nhi u nhề ất ở ầ t ng 1. Trong t ng 1 và t ng 3, s ầ ầ ố lượng m u ẫ đánh giá ớn hơn mẫ l u hu n luy n. ấ ệ
Trong nghiên c u, mô hình K Neighbol Nearest (KNN) ứ được ch n làm mô hình ọ cơ sở cho các th nghi m c a chúng tôi. Có nhiử ệ ủ ều cách để thay đổi các tham s cho ố mô hình KNN, tuy nhiên trong th nghi m c a chúng tôi, chúng tôi ch n tham s K ử ệ ủ ọ ố (hàng xóm g n nhầ ất) là tham s ố điều chỉnh. Kho ng cách s u cho mô hình KNN ả ốliệ là kho ng cách Euclide. ả Dưới đây là biểu đồ k t qu ế ả đánh giá mô hình KNN khi thay đổi giá tr ị K.
Hình 2-13 K: ết quả đánh giá mô hình KNN khi thay đổi giá tr K ị
Trang 50 K t qu t t nhế ả ố ất c a mô hình KNN thu v ủ ộc ềkiểm th c chéo ự là khi K= 1, với độ chính xác 0,97. Tuy nhiên, trên dữ ệ đánh giá ế li u , k t quả ố t t nhất có th ể đạt được khi K = 4 vớ ội đ chính xác là 0,929. Khi tăng K lên, ếk t qu c a ki m ả ủ ể thực chéo và đánh giá u gi m d n. N u ch n giá tr K = 1 có th làm cho mô hình sai l ch d dàng bđề ả ầ ế ọ ị ể ệ ễ ởi vì xác định t ng ầ chỉ ph ụ thuộc vào d u vân tay RSS g n nhấ ầ ất trong không gian đặc tính. Do đó, trong các th nghiử ệm sau này, để có được k t qu t t trên c d ế ả ố ả ữliệu kiểm thực chéo và dữliệ đánh giáu , tôi quyế ịt đnh ch n giá tr ọ ị K = 3.
Tương tự, v i mô hình áp d ng gi i thu t Random Forest, tôi chớ ụ ả ậ ọn phương pháp thay đổ ố ợng cây để điềi s lư u ch nh chính xác c a mô hình. C hai k t qu ki m ỉ độ ủ ả ế ả ể tra chéo và k t qu d u ế ả ữliệ đánh giá u đề ổn định khi thay đổ ố lượi s ng cây trong mô hình. Có độ ệ l ch gi a k t qu xác th c chéo và k t qu th nghi m. ữ ế ả ự ế ả ử ệ Độ chính xác trong k t qu ki m th c chéo luôn m c 0,97 còn k t qu d ế ả ể ự ở ứ ế ả ữ ệ đánh giáli u luôn là khoảng 0,91. Độ chính xác cao nh t trên d u ấ ữliệ đánh giá trong mô hình RF có th ể đạ ớt t i 0,92 khi s lưố ợng cây là 700 cây. Tuy nhiên độ chính xác v n ẫ thấp hơn một chút so cấu hình t t nh t cố ấ ủa mô hình KNN.
Hình 2-14:Kết quả đánh giá mô hình RF khi thay đổi sốcây trong mô hình T các k t qu ừ ế ả trên, độ chính xác của các mô hình có th ể đạt được giá tr cao ị khi ta thi t lế ập được tham s phù h p. Sau khi thi t lố ợ ế ập được tham s cho các mô hình ố
Trang 51 (như trên), bước ti p theo là l a ch n hàm mế ự ọ ục tiêu để đưa ra ếk t qu u ra. V i c ả đầ ớ ả hai mô hình KNN và RF, có hai ki u hàm mể ục tiêu để xác định đầu ra là:
Classification, Regression.
Đố ới v i Classification, việc xác định t ng th t s ch viầ ậ ự ỉ là ệc phân lo i gi a các ạ ữ t ng khác nhauầ . Còn đố ới v i Regression, ta có th xem giá tr c a t ng ể ị ủ ầ như một giá trị liên t c trong ph m v [0,3], mô hình s đưụ ạ ị ẽ ợc hu n luy n vấ ệ ới đầu vào và đầu ra trong phạm vi [0,3], sau đó để ự đoán ầ d t ng hi n t i. ệ ạ
B ng 2-7: Kả ết quả đánh giá mô hình
Hàm m c tiêu ụ KNN RF
Huấn luy n ệ Đánh giá Huấn luy n ệ Đánh giá
Classification 0,960 0,924 0,969 0,915
Regression 0,959 0,925 0,967 0,890
B ng 2-7 ả đánh giá ế k t qu viả ệc xác định t ng trên c d u ki m tra và huầ ả ữ liệ ể ấn luy n. K t qu trên d u hu n luy n ệ ế ả ữliệ ấ ệ được đánh giá ằ b ng thi t l p ki m th chéo 5 ế ậ ể ử l n ầ (5‐fold cross). K t qu t t nh t là k t qu trên d u hu n luy n vế ả ố ấ ế ả ữ liệ ấ ệ ới độ chính xác 0,969 c a mô hình ủ RF v hàm m c tiêu u ra là Classificationới ụ đầ . Trong khi đó mô hình KNN có độ chính xác cao nh 0,925 ất trên dữ u liệ đánh giá. Nhìn chung, mô hình KNN có hi u su t t t nh t trên d u th nghi m, m c dù hi u su t c a nó ệ ấ ố ấ ữ liệ ử ệ ặ ệ ấ ủ trong d ữliệu hu n luy n là nh ấ ệ ỏ hơn mô hình RF. V i c hai hàm Classification và ớ ả Regression c a mô hình KNN có k t qu x p x 0,942. Các mô hình ủ ế ả ấ ỉ RF có m t s ộ ố vấn đề overfitting. Chúng có k t qu cao trong k t qu ế ả ế ảthiết l p xác th c chéo ậ ự trên d ữ liệu hu n luy n ấ ệ nhưng có độ chính xác th p trên k t qu ấ ế ả đánh giá. Bên cạnh đó, nhìn chung cách ti p cế ận d a trên hàm m c tiêu Regression có hi u qu ự ụ ệ ảthấ hơn p so với cách tiếp c n d a trên Classification ậ ự tương ứng.
Trang 52
T ng 1 ầ T ng 2 ầ
Hình 2-15 K: ết quả xác định t ng trong t p d ầ ệ ữliệu đánh giá 4
Hình 2-15 m t phlà ộ ần quỹ o di chuy n trong t p d u đạ ể ệ ữ liệ đánh giá 4, chấm xanh là d ự đoán đúng còn chấm đỏ là những điểm d ự đoán sai. Có th ểthấy, t t c ấ ảcác t ng d ầ ự đoán sai nằm g n c u thang ho khu v c g n thang máy. Các m u d ầ ầ ặc ự ầ ẫ ự đoán sai tương tự có th ể được nhìn th y trong ba t p ấ ệ đánh giá còn l i. ạ Việc xác định sai có thể được giải thích b i s lưở ố ợng l n nhi u trong ớ ễ tín hiệu Wi Fi- có ở khu vực đó. Khi người dùng thay đổ ầi t ng, t t ng th p l t ng ti p theo hoừ ầ ấ ệ ầ ế ặc ngượ ạc l i, các m u tín ẫ hi u ệ thường b trùng lị ặp. Hơn nữa, trong trường h p s d ng thang máy, tín hiợ ử ụ ệu trong khu vực thang máy có thể ị b chặn.
3.4. Xác định v ịtrí
Với bước xác định tầng như ởphần trên, thay vì làm vi c v i các v trí không ệ ớ ị ở gian 2,5 D (vị trí và t ng), ầ bước ti p theo ta ế chỉ ph i x ả ửlý, tính toán v ị trí trong không gian 2D.
Tương tự như nhi m v ệ ụ xác định tầng, để đưa ấ c u hình t t cho hai mô hình ố KNN và RF, k t qu ế ả đánh giá mô hình trên dữ u hu n luyliệ ấ ện được thiế ật l p kiểm thử chéo 5 l n. Thi t l p ki m th chéo th hi n tình hu ng mà d ầ ế ậ ể ử ể ệ ố ữliệu đánh giá của