Và bằng cách thu thập dữ liệu về thời gian sử dụng, tương tác của người dùng vớicủa các dụng cụ, đồ vật, thiết bị trong nhà theo thời gian thực cùng với dữ liệu về gánnhãn các công việc
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TINH
PHAN NHẬT HOÀNG - 20521349
System for managing electrical devices; analyze data and user
behavior
KY SU KY THUAT MAY TINH
GIANG VIEN HUONG DAN
TS Phạm Quốc Hùng
ThS Phan Dinh Duy
TP HO CHi MINH, 2023
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 11/QD-DHCNTT ngày
05 tháng 01 năm 2024 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LỜI CẢM ƠNTrước tiên xin gửi một lười cảm ơn chân thành và trạng trọng đến trường Đại học
công nghệ thông tin viết tắt là UIT đã cho bản thân cơ hội được tiếp xúc và tiệp
đến những kiến thức những kỹ năng quan trọng, cần thiết cho quá trình phát triên
về mặt nhận thức lẫn hành vi Đây sẽ là những hành trang tối quan trọng trong
quá trình phát triển không chi trong công việc mà còn trong cuộc sông, vận dụng
những kiến thức và kỹ năng của bản thân đề phát triển Trường đã tạo môi trường
phát triển lành mạnh khi những thế mạnh những đặc điểm riêng biệt về nhận thức lẫn hành vi khác nhau đều có cho mình một môi trường phát triển thuận lợi, thỏa
sức sáng tạo và phô diễn những gi tốt nhất Trường còn luôn thấu hiểu, đồng hành
và hỗ trợ sinh viên trong những thời điểm khó khăn giúp tránh xa khỏi những tiêu
cực tiềm tàng trong cuộc sông Những chương trình học bồng, khuyến học được
thiết kế dé an ủi và hỗ trợ phần nào những mảnh đời thiếu thốn dé có thé chú tâm,
chuyên tâm vào con đường mà mình đã chon dé từ đó xây dựng và vun đắp nên
những ước mơ hoài bão.
Không thé không ké đến những đóng góp mà tập thé khoa Kỹ thuật máy tính trongsuốt chặng đường 4 năm dài và gian nan, dé giờ đây trên những bước đường cuốicùng bản thân lại càng cảm thấy trận trọng và trân quý hơn bao giờ hết Những ngườithấy những nhà giáo tận tâm luôn mang những đau đáu trong mình những câu hỏi,phải luôn nỗ lực đề dẫn dắt mọi người đi trên con đường của tri thức, của nhận thức.Nếu trường luôn nỗ lực đề tạo ra một môi trường, một không gian tốt nhất giúp chomoi sự triển có thé diễn ra thì thầy cô chính là những phương pháp, phương thuốc,những chất dinh dưỡng tốt nhất cho sự phát triển, cho của sự nghiệp trăm năm trồngngười Không biết đã bao nhiêu thé hệ đã trưởng thành và gai góc hơn nhờ quá trìnhtiếp thu những gì tốt nhát, tinh túy nhất mà những người nhà giáo miệt mài truyền thụngày đêm không biết mệt mỏi, chỉ biết sóng sau xô sóng trước, những thế hệ sau sẽ
được kế thừa và phát huy những gì tốt nhất và thế hệ trước đề lại và ngày một phát
triển vững mạnh Một lần nữa cảm ơn những người nhà giáo đáng kính ví đã luôn hỗtrợ hết mình trên con đường phát triển của trò
Và cuối cùng xin gửi một lười cảm ơn trận trọng và trân quý nhất đến những ngườithầy đã hỗ trợ bản thân trong suốt quá trình thực hiện khóa luận, một lần nữa cảm ơn
thầy Phan Đình Duy và thầy Phạm Quốc Hùng đã hỗ trợ nâng đỡ bản thân trong suốtquá trình nghiên cứu và thực hiện đề tài khóa luận Là những người luôn kề bên dõitheo và nâng đỡ từ những bước đường đầu tiên, dé giờ đây khi đã một tay chạm đếnthành quả, thì không có gì khác ngoài sự biết ơn và trân trọng với những gì bản thânnhận được và quét không dé những công lao, những sự chân thành, tận tâm của cácthay trở nên hoang phí Kính chúc cho những thành công mới sẽ tiếp tục trổ mầm đểđền đáp lại công lao của những người tan tâm
Trang 42.1 Một số nghiên cứu có cùng đề tài về nhận diện hành vi người dùng 16
2.1.1 _ Bài viết “Human Activity Recognition from Wireless Sensor Network
Data: Benchmark and Software” [1] :ceeceecceseeseceeeeeeeneeeeeeeeeeeeeaeeeeeeaeeeaeees 16
2.1.1.1 Hướng tiếp cận của bài nghiên cứu -2-2cscs+zeecse+ 16
2.1.1.2 Thu thập dữ liệu - - Sc 2x 9H HH HH gi, 16
2.1.1.3 Phuong pháp nghiên CỨU 5255 +25 * 3E *EvveEeeeressrrrrreerrs 18
2.1.1.4 Kết luận của tác gid cccccccccccccsssssessessessussssssecsessussssssessecsssesesseseeses 21
2.1.1.5 Những kết luận thông qua bài nghiên cứu -s- 5 <s 21
2.1.2 Bai viet “Activity Recognition in the Home Using Simple and
Ubiquitous Sensors” [2] - - ¿5 + 1S 12111119 1191111111 119 11H ng nh HH 22
2.1.2.1 Hung tiếp cận của bài nghiên cứu ¿2c 5 s+cs+s+ss 22
2.1.2.2 Thu thap dtr iQue 23
2.1.2.3 Phương pháp nghiÊn ctu 00 cece eeceesceeeeeeeeseeeseeeeeeeeeeaeeeeeeeeeaeens 23
2.1.2.4 Kết luận của tác gia ssceseseesessessessessessesscsesesseeseesessesseesees 272.1.2.5 Những kết luận thông qua bài nghiên cứu . -.: -: 28
2.2 Hướng tiếp cận ¿- + ckEk22112E117171121121127121121111 1111 1xExeyee 28
2.3 Datta minInBg, sành hà 29
2.3.1 Unsupervised learnIng - - «se kg tr 31
2.3.2 Một số mô hình máy học được nghiên CỨUu .-«++-«<++<+++ 31
2.3.2.1 K-Means LH TH HH HH 31 2.3.2.2 ASSOCIATION TUÏ€ G5 ng ng 33 Chương 3 Phân tích và xây dựng tập dữ liệu «+ £+<=<<<+s+seeses 38
Trang 53.1 Xây dựng tập dữ liệu 5 5 S1 HH ngư 38 Ký: ):0›(3:£:: 33 38 3.3 Phan Cum it GU oo eee cccccesecceesscecsesececeseseeesseccesseseeesseecesseeeeesseseneaaes 39
3.3.1 PRA tích Ăn HH HH TH HH HH nh ng 39 King 0i 42
4.1.2.1 GIỏ THIỆN g8 W§B ⁄/ 47
4.1.2.2 CAC Vai tTỒÒ cSc TS S ng TH TH ngàng HH HH rệt 47
4.1.2.3 Cơ chế truyên tin 2¿-©+¿+cx+2E++Ex+SEkSrkerkkerkesrkerrrees 48
4.1.2.4 Profile layeT HH SH HH HH ngư, 49
1 Model Lay€r Ác 1k TH TH HH, 49
4.2 Free real-time operating system for microcontrollers (FreeRTOS) 50
4.3 Hệ thống, và các thành phẩn - 2 2 ++E+EE+EE+EE+EEZEE+EerEerkerxerkrree 51
4.3.1 Các thiết bị node -ccc+ccvtttrkrtrtrtrirrtrrrrrrrtirrrrrirrriei 524.3.2 Thiết bị gateway xử lý trung tâm - 2©++cz+x+zxerxerxersereee 53
4.3.3 k9a/201 117 55
4.3.4 Ứng dụng điều khiỂn 2 ++2E+2E+EE+EEEEEEEEEEEErrkerkerreee 56
Churong 5 Thue nghiém 017 62
5.1 M6 hình nhận diện và dự đoán hành vI - 5552225 + ‡+++ss++sesss 62
5.2 Hệ thống IoT ¿5-2 EEỀEE2E12E121212171111111211 2111121111110 65
Trang 6Chương 6 Kết luận và hướng phát triển . -¿-¿+++++++:x++zx++zszex 67
6.1 KẾt ane csccccccccccsssesssesssssesssessuessssssesssessusssssssessusssusssesssecsusssesssessseeseseseessees 67
6.1.1 Mô hình máy hỌc - - - cv 1 H1 HH HH rệt 67
6.1.2 Hệ thống LOT oaecceeccesscssssssssssesssecssessssssscssecssecssscsscssecsuecsusesecssecsseesseeses 676.2 Hướng phat trien eececceccescecsesseessessessesssessessecsesssessessessesssessessessessessseeseesees 68
6.2.1 Mo hình may hỌc G cv 1H HH ng ng 68
6.2.2 Hệ thống IoT ¿ +©2++2c++cxerxrtreerreerxeerxee 68
Trang 7DANH MỤC HÌNH
Hình 2.1: Căn nhà A và bố trí của các cảm biến [ I] .: c::+c-+c+cxveeerx 17Hình 2.2: các chuyển dạng của dữ liệu [ 1] - 2-2 5252+££+£E+£xezEezrssrxerxezex 18
Hình 2.3: Giá trị trong quan của mỗi kiểu dit liệu với các timeslice khác nhau của dữ
Tigu carn nha A [1] 19
Hình 2.4: Giá trị trong quan của mỗi kiêu dữ liệu với các timeslice khác nhau của dữ
i88) 80 108 dda4 19
Hình 2.5: Giá trị tương quan của mỗi kiểu dữ liệu với các timeslice khác nhau của dữ
Ii68e 8,180 20
Hình 2.6: Ví dụ về các frame thời 02 24Hình 2.7: Ví dụ về của số trượt nhận diện [2] -¿ +c+ccxeererrxerrrrveerre 24Hình 2.8: Ví dụ về tính toán xác xuất xảy ra của hành động đi vệ sinh [2] 25Hình 2.9: Phương pháp tính phần trăm thời gian [2] . -¿- s¿5sz5s++=++ 25Hình 2.10: Phương pháp khoảng tốt nhất [2] 2 5¿+¿2++2+++£x++zxzx+zrsz 26Hình 2.11: Phương pháp nhận diện ít nhất một lân [2] -¿ ¿25+ 26
Hình 2.12: Các thành phân của khoa hoc dữ liệu [9] - -«<++<++<e++ss++ 30
Hình 2.13: một ví dụ về áp dụng K-Means [Ø]| c5 55s + sseksesreseersre 32
Hình 2.14: Các bước của K-Means c1 3911113113 EESEEEsrieereeersere 32
Hình 2.15: mã gia của thuật toán Brute-force [10] .-«++-sss++scx+ssexseeeesesss 35
Hình 2.16: ví dụ về quá trình tìm itemset của thuật toán Brute-force [10] 35
Hình 2.17: Minh họa về một itemset xuất hiện thường xuyên [11] 36Hình 2.18: Minh họa về khi itemset không xuất hiện thường xuyên [ I I] 36
Hình 2.19: mã giả của thuật toán Apriori Property [11] -.«« -«<<<<e+>ss++ 37
Hình 3.1: Ví dụ về sơ đồ đảo trạng thái của các cảm biến và hệ thong —— 39Hình 3.2: Biểu diễn sự thay đôi về giá trị của of với sự thay đổi của / 40
Hình 3.3: Điểm ngưỡng của hệ thống - 2-22 2 E+SE+EE£2EE2EEtEEEEEEEEEerkrrkrrer 41Hinh 3.4: Vi du vé so dé dao trạng thái của các cam biến trong một cụm dữ liệu 42Hình 4.1: Sơ đồ hệ thống ¿2-2 ©5£+E£+SE9EE£EEE2EE2EEEE121122122171711 211 1E re, 44
Hình 4.2: cầu trúc tỆp tỉn - 2 <+Sk+EE+SE++EEEEEEEEEEE1221717112112117171 211 1E re 45Hình 4.3: Giao diện của thiét bị -cc:- 5v 56
Hình 4.4: Giao diện chính của ứng dụng -.- sàng neo 57
Hình 4.5: Giao diện RÑOOIM G 52 12121113311 131 21111921111 011111621111 8 ky 58
Hình 4.6: Giao diện tùy chọn chức năng của hệ thống -¿- ¿2 52 s52 +2 59
Hình 4.7: Giao diện chức năng Add rOOI -. 5S 32213231 32E*EEEEeereerrsrrs 59 Hình 4.8: Giao diện chức năng Add Device c5 3 33+ sivsererrrsrrs 60
Hình 4.9: Giao diện chức năng Remove TOOTM G5 <5 33+ EE+seeesseessers 60
Hình 5.1: giá trị ngưỡng của hệ thong ¿- ¿22 ©5£+E22EEt2EEtEEEerxezrxrrrerree 62
Trang 8Hình 5.2: giá trị ngưỡng của thiết bị Fridge (tủ lạnh)
Hình 5.3: giá trị ngưỡng của thiết bị Toilet light
Hình 5.4: Dự đoán các tương tác tiếp theo của người dùng -5¿
Trang 9DANH MỤC BANG
Bảng 2.1: Các mẫu dư liệu được tác giả thu thập [1] .«<-+<<<<<<x<sses 17
Bảng 2.2: phan trăn lỗi của gán nhãn mới đối với gán nhãn gốc [] 20
Bảng 2.3: kết quả của giai đoạn 2 ở căn nhà A [I] -2- 2 scx+zs+ze+zssrxrez 21
Bang 2.4: Kết quả cuộc nghiên cứu, No.Exp là số lượng mẫu train, E là áp dung exist,
E +BT là áp dụng exit + before tYe - sgk nry 27 Bảng 4.1: BLE Protocol SfACK G- G1 HS TH HH HH 46
Bang 4.2: BLE Mesh Profile Ïa€T - 5 5 5 + 1x1 ST HH ng tiệt 49
Bảng 5.1: bảng các giá trị ngưỡng các thiết bị trong hệ thống (elbow), State 0 tức đảotrang thái từ 1 sang 0 va State 1 tức đảo trạng thái từ 0 sang 1, Apprear time tức sốlần đảo trạng thái :- 2 2 2+ EEEx9E1911211211212111111111111 1.11 1111111 64Bảng 5.2: Dự đoán các thiết bị có xu hướng được sử dụng cùng với Fridge trongkhung giờ từ 8:00 đến 13:00 ¿- 2: 5¿22+22EE2211221222122112711221211211.211 21c cre 64Bảng 5.3: Dự đoán các thiệt bị sẽ được sử dụng cùng thiết bị Hall-Toilet door (cảmbiến mở cửa toilet) essessseeeesessseeeccsssneeceessnesssssseeceessnseccssseeceesneesessnneeseessneeeeeseee 64
Bảng 5.4: dữ liệu test thu thập QUOC - - 132113213 ng ri g 66
Trang 10DANH MỤC TỪ VIET TAT
IoT: Internet of things
RFID: Radio Frequency Identification
HAR: Human Activity Recognition
HMM: Hidden Markov model
HSMM: Hidden semi-Markov model
CRF: Conditional random fields
ESM: Experience Sampling Method
RTOS: Real-Time Operating System
BLE: Bluetooth Low Energy
GAP: Generic Access Profile
GATT: Generic Attribute Profile
ATT: Attribute protocol
CAN: Controller Area Network
MOQTT: Message Queuing Telemetry Transport
Trang 11TÓM TẮT KHÓA LUẬN
Với sự phát triển vượt trội của công nghệ trong thời gian qua ta có thể dễ dàng nhận
ra những tác động của chúng đối véi lối sống và hành vi của con người từ việc nhỏ
như giao tiếp trực tuyến giúp kết nối và liên lạc từ xa mà không có độ trễ, các hìnhthức giải trí online nhiều người dùng, cho đến những thứ ảnh hưởng trực tiếp đếnsức khỏe, cuộc sống như các hệ thống hỗ trợ bệnh nhân, hệ thống xe tự hành, hệ thongrobot hoạt động trong những môi trường độc hai, Có thé nói cộng nghệ là công cụtốt nhất, đáng tin cậy và hiệu quả nhất cũng như giúp phân biệt người hiện đại với tất
cả các giai đoạn phát triển trước đây của nhân loại
Cùng với sự phát triển đó cách sống của chúng ta đã thay đổi hoàn toàn so với chỉ vài
thập kỷ trước Ngoài những đóng góp to lớn cho con người ở những lĩnh vực quan
trọng như y tế, giáo dục, anh ninh, thì còn đó những đóng gói thầm lặng cho người
khi giúp cho cuộc sống trở nên tiện nghỉ và thoải mái hơn Và không thé không kéđến những ứng dụng cho các thiết bị, hệ thống thông minh trong mỗi gia đình Và
đây cũng là lý do lớn nhất dé bản thân thực hiện công trình nghiên cứu về dé tai này
Trong dé tài này mục tiêu nghiên cứu tập trung vào xây dựng một hệ thống dé hỗ trợngười dùng trong các sinh hoạt thường ngày, giúp người dùng có thể dễ dàng quản lýcũng như giám sát hệ thống từ xa, kết hợp với việc xây dựng một mô hình máy học
dé chủ động thu thập cũng như phân tích những hành vi, hoạt động của người dùng
và từ đó có thé chủ động đưa ra những kịch bản, thay đồi trong hệ thống cho phù hợp
hơn với thói quen cũng như những yêu cầu của người dùng
12
Trang 12Chương 1 Tong quan
1.1 Tổng quan về hệ thống IoT
IoT viết tắt của “Internet of Things” là một định nghĩa cho một hệ thống mà ở đó cácmỗi thành phan trong hệ thống có thé kết nỗi, giao tiếp và truyền tải thông tin vớinhau để từ đó cùng giải quyết những yêu cầu về mặt vận hành của hệ thống tươngứng với những yêu cầu và mục đích được thiết kế Được định nghĩ lần đầu bởi KevinAshton khi ông có ý tưởng nhúng RFID vào các sản pham dé giúp cho việc quản lý
và phân tích chuỗi cũng ứng được diễn ra thuận lợi và dễ dàng hơn Khác vơi internet
mà con người đã sử dung quá thông dụng ngày nay, bản thân “internet” trong IoT chỉ
đến khả năng kết nối và giao tiếp dưới bất kỳ hình thức, công nghệ nào chứ khôngchỉ đích danh mạng internet toàn cầu Đến nay, trải qua hơn hai thập kỷ phát triển thìIoT càng ngày càng chứng minh được tầm quan trọng và hiệu quả của nó khi gần như
moi lĩnh vực đều có dấu vết của ứng dụng IoT, có thé kế đến như y tế, anh ninh, bảomật, và giờ đây nó đang dan trở nên phô biến hơn với đời sống con người khi được
ứng dụng vào hệ thống nhà thông minh, giúp cho cuộc sống con người trở nên thuận
tiện và dễ dàng hơn.
loT được ứng dung trong rất nhiều lĩnh vực, tuy nhiên trong giới han dé tài nghiên
cứu này thì sẽ tập trung hướng nghiên cứu vào hệ thống IoT có tính tùy biến cao tức
không bị giới hạn bởi cả về số lượng, thành phần và cấu trúc, và dựa vào hệ thống
IoT xây dựng một mô hình máy học giúp tìm ra được những quy tắc, những đặc điểmtrong vận hành của hệ thống Vì van hạn chế thoi gian nên bộ đữ liệu sẽ được sử dụng
từ nguồn có sẵn thay vì phải xây dựng bộ dữ liệu mới từ đầu Chính vì vậy nên quyếtđịnh sử dụng smart home như là một phương án đề phát triển hệ thống vì nó đáp ứngđược yêu cầu được đặt ra đó là hệ thống phải có tính linh hoạt sỐ lượng, thành phần
và cau trúc Smart home cũng có tính ứng dụng cao, bộ dữ liệu dé dàng tiếp cận, trựcquan và dễ đánh giá Vì vậy trong phần nghiên cứu và phát triển về IoT thì tập trungvào các thiết bị loT ứng dụng trong smart home và trong tương lai có thé sẽ tiến hànhnghiên cứu trên một số hệ thống IoT khác
1.2 Smart home
Khái niệm ban đầu của smart home khá là đơn giản, lần đầu xuất hiện về khái niệm
này là khoảng năm 1975 khi đó thiết bị được tích hợp sóng vô tuyến và được điều
khiển thông quá một bộ remote cầm tay, đến những năm 2000 , 2010 hệ thống đượctích hợp khả năng điều khiển và giám sát từ xa với ưu thế về đường truyền internet
đã trở nên phô biến Đến nay khái niệm về smart home đã thay đối đi rất nhiều, ngoàiviệc vẫn mang trong mình tính tiện lợi khi có thể giám sát và quản lý từ xa nhưng giờ
13
Trang 13đây yêu cầu của người dùng đã khắt khe hơn nhất là khi đã đạt được những bước tiếnvượt bậc về trí tuệ nhân tạo Khi giờ đây smart home được nghĩa như là một ngườiquản gia thực thụ, có thé chủ động lên kế hoạch, lịch trình không chỉ hỗ trợ khi đượcyêu cầu mà còn phải chủ động tham gia quản lý, giám sát, giúp cải thiện chất lượngsong của người dùng.
1.2.1 Tinh hình thực tế
Với ý niệm là sử dụng công nghệ đề thay thế quản gia trong gia đình thì có thể nói,đến hiện tại vẫn chưa thực sự có mô hình hay giải pháp nào có thể thực sự đáp ứngđúng được với khái niệm và một trợ lý ảo thực thụ Có rất nhiều giải pháp được đưa
ra như là hệ thống kiểm soát nhiệt độ phòng dựa vào nhiệt độ, thời tiết, điều chỉnh hệ
thống chiếu sáng dựa vào môi trường, đa phần nó sẽ chỉ đáp ứng được những thiết
bị cụ thé, và đáp ứng những yêu chung chứ chưa thực sự đúng với từng cá nhân với
các cá tính riêng biệt
1.2.2 Nguyên nhân của van đề trên là gì
Có rất nhiều yếu tố cau thành va ảnh hưởng đến sự phát triển của smart home nóiriêng cũng như các mô hình tác động trực tiếp với con người nói chung như các hệthống xe tự lái, tự hành, vốn đang mang vai trò hỗ trợ là chính chứ chưa thể thaythế con người hoàn toàn Một trong những nguyên nhân lớn nhất phải nói đến là vẫn
đề về công nghệ, và tất nhiên van dé về công nghệ không thé xử lý trong nay maiđược; Tuy nhiên đây không phải là nguyên nhân mà bản thân cho là quan trọng nhất
và cũng không phải là thứ mà đề tài này muốn hướng tới
Một trong những nguyên nhân mà với góc nhìn chủ quan dẫn đến khóa có mô hình
nào hiệu quả cho hệ thống Smart home là vì không có một thước đo phương pháp đo
cụ thê nào cho việc đánh giá độ hiệu quả Không giống với hệ thống hỗ trợ hay tự lái
trên xe ô tô khi mà việc tham gia giao thông bản thân nó đã có những luật lệ, chỉ dẫn
cần phải tuân thủ, và những trang bị, thành phần trên xe ô tô cũng có sự thống nhất
và có ít sự thay đổi cả về số lượng và tính năng Hệ thống smart home thì không nhưvậy, không có một khuôn mẫu nào cho việc xây dựng như thé nào là tốt và như thénào là phù hợp cả bởi lẽ mỗi căn nhà bản thân nó đã không có thiết kế chung nào cả,cũng chắng có quy tắc nào trong việc những thiết bị nào được sử dụng, số lượng cũngnhư bố trí, tất cả là do cá tính, thói quen và lối sống của mỗi người dùng Có thể nóimột cách phiến diện rằng khó có một mô hình chung tổng quát nào mà có thê đápứng được yêu cầu cho tất cả mọi người như vậy
14
Trang 14Bản thân bài nghiên cứu này cũng tương tự và được lập ra không phải là dé giải quyếthay đưa những đề xuất có thé xử lý được triệt dé van dé này, mà chỉ đơn giản là đưa
ra cũng như xem xét một số phát hiện và nghiên cứu của bản thân với hi vọng chungmột tay, góp sức cho phát triển của công nghệ và ứng dụng của chúng trong cuộc
sông
1.3 Đề tài nghiên cứu
Qua những gi đã trình bày thì bản thân xin được tóm gọn và giới thiệu về chủ đề mụctiêu nghiên cứu của bài luận này Về mục tiêu, mục tiêu của đề tài này là hướng đếnviệc xây dựng một hệ thống IoT ứng dụng trong gia đình mà có thé tạm gọi là smart
home mặc dù không thé đáp ứng đúng được những yêu cầu hiện nay về thứ gọi là
“smart home” Hệ thống sẽ chỉ tập trung vào 3 khía cạnh của IoT đó là: khả năng giao
tiếp, khả năng phối hợp của hệ thống và tính thời gian thực; trong đó tính thời gian
thực là ưu tiên hàng đầu và là cơ sở nền tảng cho việc phát triển hệ thống về sau
Một mô hình máy học được xây dựng dựa trên những phát hiện và đề xuất của bảnthân trong việc nhận diện hành vi và hỗ trợ điều khiến các thiết bị trong hệ thống Vớitiêu chí thiết kế là nhỏ gọn, đáp ứng nhanh và có thê ứng dụng và nhúng vào hệ thống
Nói qua về kết quả của công trình nghiên cứu thì có thể nói là cơ bản đã đáp ứng đượcnhững tiêu chí kê trên được đặt ra ban đầu cho việc thiết kế hệ thống Về hệ thốngIoT thì hệ thống được xây dựng trên nền tảng công nghệ giao tiếp Bluetooth Mesh4.2, có khả năng mở rộng, tái câu trúc hệ thống khi cho phép thêm, xóa, sửa các thiết
bị trong hệ thống, web base cloud database dé lưu trữ thông tin hệ thống, một
Gateway đóng vai trò là xử lý trung tâm cho hệ thống, 2 node đại diện cho 2 thiết bịtrong hệ thống là một cảm biến đóng mở cửa và một thiết bị đèn, ứng dụng điện thoại
trực quan dễ dàng sử dụng để giám sát cũng như quản lý hệ thống từ xa
Trong môi trường đường truyền kết nối mạng ôn định và các node trong hệ thốngphần cứng nằm trong vùng hoạt động lý tưởng, hệ thống có thời gian đáp ứng vớinhững yêu cau, tín hiệu điều khiển từ ứng dụng điện thoại là 2 giây dé điều khiển mộtthiết bị trong hệ thống (thiết bị đèn) Một mô hình máy học sử dụng kỹ thuật data
mining giúp phân loại, gan nhãn cũng như dự đoán hành vi của người dùng trong
tương lai gần với thời gian phản hồi nhanh khi sử dụng những mô hình máy họckhông quá như K-Mean, Association rule, có tiềm năng trong việc nhúng vào hệthống IoT
15
Trang 15Chương 2 Cơ sở lý thuyết
Trong chương này nội dụng sẽ tập trung vào phân tích một số bài viết nghiên cứu tiêubiểu về cùng lĩnh vực HAR Phân tích hướng tiếp cận van đề của tác giả, hướngnghiên cứu và kết quả của mỗi bài viết, từ đó đưa ra nhận định về ưu nhược điểm củamỗi bài nghiên cứu và đồng thời đề xuất một hướng tiếp cận, phương pháp nghiêncứu mới, đề cập và phân tích một số lý thuyết liên quan được sử dụng trong đề tài
nghiên cứu của khóa luận.
2.1 Một so nghiên cứu có cùng đề tài vé nhận diện hành vi người dùng
2.1.1 Bài viết “Human Activity Recognition from Wireless Sensor Network
Data: Benchmark and Software”[1]
2.1.1.1 Hướng tiếp cận của bài nghiên cứu
Tác giả của bài viết tiếp cận đến bài toán HAR (Human Activity Recognition) trongmôi trường sinh hoạt trong nhà, căn hộ, nói chung là trong không gian sống và sinhhoạt hằng ngày của một người duy nhất Tác giả cho rằng mỗi hành động của con
người trong quá trình sinh hoạt đều ánh xạ, liên quan đến một nhóm các dụng cụ,
thiết bị cụ thể, ví dụ như khi ăn uống thì sẽ sử dụng tủ lạnh, ngăn đông, tủ chén đĩa,
Và bằng cách thu thập dữ liệu về thời gian sử dụng, tương tác của người dùng vớicủa các dụng cụ, đồ vật, thiết bị trong nhà theo thời gian thực cùng với dữ liệu về gánnhãn các công việc cụ thê được diễn ra trong các hoảng thời gian, và kết hợp với các
mô hình toán học hiện đại, tác giả muốn tìm ra được đặc trưng của mỗi hành độngthông quá các thiết bi Dựa vào đó khi hệ thống thu nhận được dữ liệu từ cảm biến đãđang được sử dụng trong thời gian ngắn dé đưa ra dự đoán xem người dùng đang thực
hiện hành động tương ứng là gì trong thời gian thực.
2.1.1.2 Thu thập dữ liệu
Phương pháp thu thập dữ liệu của tác giả, dự liệu được thu thập từ các cảm biến đặc
bồ trí trên các đồ vật như, cửa tủ lạnh, cửa tủ chén đĩa, được bé trí trong nhà của
các cộng tác viên hay tình nguyện viên gọi chung là tình nguyện viên, và các nhãn
hành động cụ thể như là ăn sang, ăn tối, đi ngủ, được thu thập bằng cách ghi lại
trực tiếp bởi các tình nguyện viên trong quá trình sinh hoạt trong không gian sốngcủa họ Các tình nguyện viên phải là những người có cuộc song va sinh hoạt mộtmình dé việc thu thập dữ liệu được chính xác và phù hợp với mục tiêu nghiên cứu.Mỗi tình nguyện viên sẽ đại diện cho một mẫu dữ liệu Mỗi mẫu dit liệu này gồm cóhai thành phan Thanh phân thứ nhất, là thông tin thu thập từ các cảm biến, mối điểm
dữ liệu có 3 thành phần gồm có thời gian diễn ra sự kiện, mã id của thiết bị, và giá
16
Trang 16trị mới của cảm biến, thiết bị; các giá tri của cảm biến, thiết bị là giá trị nhị phân (0hoặc 1) được thu thập theo thời gian thực và sắp xếp theo trình tự thời gian diễn ra.Thành phần thứ hai là dữ liệu về các hoạt động của cộng tác viên trong thời gian thực,mỗi điểm dữ liệu sẽ có 3 thành phần: thời gian bắt đầu của hoạt động, thời gian kết
thúc của hành động, và mã 1d tường ứng của hành động.
House A House B House C
Annotation Bluetooth Diary Bluetooth
Bang 2.1: Cac mẫu dư liệu được tác giả thu thập [1]
Hình 2.1: Căn nhà A và bé trí của các cảm biến [1]
17
Trang 172.1.1.3 Phương pháp nghiên cứu
Cách tiếp cận của tác giả đối với bộ dữ liệu thu thập được đó là từ thời gian bắt đầu
tức là dữ liệu đầu tiên của bộ dữ liệu cảm biến đến dữ liệu cuối cùng tức dữ liệu cảmbiến cuối cùng thu thập được trong quá trình xây dựng bộ dit liệu, chia chiều dài thời
gian đó thành T phan bằng nhau có với giá trị Ar gọi là “timeslice” liên tiếp nhau Ứng
với mỗi khoảng A: có một vector đại diện cho dữ liệu của timeslice này 3, =
(xẢ,x2, ,xI~1,x3T tương ứng chứa dit liệu của tất cả N cảm biến có trong hệ
thống, vector này chưa các giá trị nhị phân x! = {0, 1} các giá trị này có thé là giá trịcảm biến hoặc giá trị cảm biến đã được chuyển dạng thành 3 kiểu biéu diễn khác nhau
—J Le _ L ÌL Ju
(a) Raw (b) Changepoint (c) Last-fired
Hình 2.2: các chuyên dạng của dữ liệu [1]
và tương ứng với mỗi khoảng thời gian đó sẽ có giá trị y là id của hành động đang diễn ra Các dạng biểu diễn dit liệu có 3 loại gồm raw tức dữ liệu của came biến,
changepoint thức giá tri 1 khi có sự đảo trạng thái , về 0 ở các phần còn lại và
last-fired lên 1 khi có sự đảo trạng thái và tro về 0 khi có thiết bị khác đảo trạng thái Sử
dụng các mô hình như Naive Bayes (NB), Hidden Markov model (HMM), Hidden
semi-Markov model (HSMM), Conditional random fields (CRF) dé có gang tim rađược đặc trưng của mỗi hành động gắn với những cảm biến nào
Nghiên cứu của tác giả trải qua 2 giai đoạn chính Giai đoạn đầu tiên tác giả đánh giáchiều dài của A: để tìm ra khoảng timeslice tối ưu nhất Với cả 3 bộ dữ liệu thu thậpđược, sử dụng mô hình HMM và kết hợp sử dụng phép đo F-Measure Kèm theo đó
là khi chia thời gian thành các phan thời gian băng nhau này thì việc tái gán nhãnhành động vào các phần timeslice này bản thân cũng sẽ mang theo những sai sót so
với gan nhãn hành động gốc vi trong một timeslice có chiều dài A; này thì có thé có
nhiều hoạt động xảy ra đâu đó trong khoảng timeslice này Tác giả chọn gán nhãnhành động trên khoảng timeslice dựa trên hành động có thời gian xuất hiện là dài nhất
đồng thời so sanh việc gán nhãn mới và nhãn gốc xem độ sai sót khi sử dụng khỏngtimeslice A; này là bao nhiêu phan trăm kết hợp với phép đo F-Measure trên mô hình
18
Trang 18HMM để xem xét và đánh giá một cách thủ công xem nên chọn khoảng A; nào là hợp
Hình 2.3: Giá trị tương quan của mỗi kiêu dit liệu với các timeslice khác nhau của
dir liệu căn nhà A [1]
Trang 19ost —e— Raw
A: = 600s 10.6 17.4 13.7
Bảng 2.2: phan trăn lỗi của gán nhãn mới đối với gán nhãn gốc [1]
Dựa vào những dữ liệu ké trên về các khoảng thời gian khác nhau, tác giả đã nhậnđịnh rằng khoảng thời gian A; = 60 giây là một khoảng thời gian phù hợp và sẽ sử
dụng cho quá trình nghiên cứu giai đoạn thứ 2.
Giai đoạn 2 của nghiên cứu, tác giả sử dụng các timeslice với chiêu dai 60 giây kèm
theo gan nhãn của các phân timeslice này đê train cho các mô hình toán học và test hiệu suât của các mô hình này với nhau.
20
Trang 20Model Feature Precision Recall F-Measure Accuracy
Last 60.2415.4 73.8412.5 66.0413.7 91.0+7.2
Raw 59.2+18.3 56.1417.3 57.2417.3 89.8+8.5
CRF Change 73.5+16.6 68.0+16.0 70.4+15.9 91.4+5.6
Last 66.2+15.8 65.8+14.0 65.94146 96.4424
Bang 2.3: kết qua của giai đoạn 2 ở căn nha A [1]
2.1.1.4 Kết luận của tác giả
Trải qua quá trình nghiên cứu, tác giả đúc rút được những kết luận về cuộc nghiêncứu như sau Trong 3 phép biến đổi dữ liệu thì khi áp dụng vào các mô hình, kiểu raw
sẽ cho hiệu suất thấp nhất và ngược lại change point sẽ cho hiệu suất tốt hơn cả, môhình có độ phức tạp không quá cao như NB model sẽ cho hiệu quả thấp nhất và ngượclại mô hình có tính phức tạp cao nhất trong nghiên cứu này là HSMM và CRE sẽ chohiệu quả nhận diện hành động tốt nhất và mỗi mô hình sẽ có một ưu nhược điểmriêng Và quan trọng nhất là khi xem xét trên cả ba mẫu dữ liệu từ ba căn nhà với batình nguyện viên khác nhau thì không tìm thay một khang timeslice nào tối ưu cho ca
ba mẫu, mỗi mẫu sẽ có một khoảng At tối ưu khác nhau
2.1.1.5 Những kết luận thông qua bài nghiên cứu
Về hướng tiếp cận bài toán của tác giả, tác giả tiếp cận đến bài toán HAR với mục
tiêu là nhận diện và dự đoán hoạt động, hành vi của người dùng thông qua những
tương tác với các thiết bị gia dụng, chính xác hơn là với các cảm biến gắn trên cácthiết bị Bài toán không nhằm mục tiêu điều hướng hệ thống, chỉ dẫn hay có bất kỳtác động nào đến với người dùng hay hệ thống mà chỉ theo dõi và dự đoán cũng nhưghi nhận lại những hoạt động hằng ngày của người dùng
21
Trang 21Về phương pháp xây dựng bộ dữ liệu thì ngoài việc ghi nhận lại những tương tác củangười dùng đối với hệ thống thông quá các cảm biến digital thì việc lấy dữ liệu vềcác hoạt động trong ngày là điều cần thiết cho quá trình nghiên cứu và huấn luyện
mô hình, việc thu tập dữ liệu về hoạt động này có thể coi như là một hành động gánnhãn cho dữ liệu bằng cách gan cho một khoảng thời gian cụ thé với một nhãn tươngứng với một mã cho một hành động cụ thê ví dụ như: đi ngủ, chuẩn bị bữa sang,
Về phương pháp nghiên cứu thì bang cách chia thời gian thành các phan thời gian cóchiều dài đồng nhất và kết hợp với các gan nhãn hành động dé huấn luyện mô hình
phục vụ cho mục tiêu của bài nghiên cứu thì có thé dé dàng nhận ra tác giả dang ứngdụng một mô hình máy học Supervised learning Kết hợp với việc can phải có dit liệutrong một khoảng thời gian để đưa ra dự đoán nên hệ thống sẽ chỉ nhận diện được
những hành động đã diễn ra so với thời gian dự đoán.
Vậy có thê thấy mô hình mà tác giả bài viết [1] xây dựng này hoàn toàn không phùhợp với mục tiêu ban đầu của bài nghiên cứu nay khi muốn tạo ra một mô hình họckhông giám sát tức không có gán nhãn sẵn cũng như áp dụng vào hệ thống dé dựđoán và chủ động can thiệp hỗ trợ người dùng theo thời gian thực Tiếp theo đó là
việc xác định khoảng khung thời gian quá phức tạp và khó có thể tìm được một khoảng thời gian tối ưu thích nhất nhưng trong bài viết có đề cập, cộng với việc tái
gán nhãn sẽ khiến cho đữ liệu train sẽ có sai lệch so với thực tế
Nhưng kèm theo đó là những điểm sáng cần học hỏi từ bài nghiên cứu trên cho công
cuộc nghiên cứu của bài viết này Thứ nhất, góc nhìn giữa việc ánh xạ những thiết bịđược sử dụng trong khoảng thời gian ngắn với hoạt động của người dùng Thứ hai,
việc chia thời gian của hệ thống thành các phần thời gian nhỏ hơn để dễ dành nhậndiện được những hành động của người dùng Và cuối cùng, việc chuyên đổi dự liệucủa thu được từ các cảm biến sẽ có những tác động khác nhau đối với việc nhận diện
và dư đoán các hành vi của người dùng.
2.1.2 Bài viết “Activity Recognition in the Home Using Simple and
Ubiquitous Sensors” [2]
2.1.2.1 Hướng tiếp cận của bài nghiên cứu
Hứng tiếp cận của bài viết này khá tương đồng với bài viết trên khi đặt trong tâm củaviệc nhận diện hành động, hành vi của người dùng với việc sử dụng thiết bị và tươngtác với các cảm biến Cùng bằng cách thu thập dữ liệu từ các cảm biến và đồng thờiyêu cầu những người tình nguyện viên tham gia vào quá trình xây dựng dữ liệu, ghichép và lưu trữ lại dữ liệu về hành động hay nói cách khác là chủ động gán nhãn cho
22
Trang 22hành động đề sử dụng cho quá trình nghiên cứu và huấn luyện về sau, mô hình cũngđang tập trung vào việc nhận diện hành vi của một người duy nhất trong hệ thống.Bài viết rất phù hợp dé sử dụng làm tư liệu nghiên cứu, tìm hiểu.
2.1.2.2 Thu thập dữ liệu
Quá trình thu thập dữ liệu dé sử dụng trong bài viết [2] này khá tương đồng với vàiviết [1] khi tập trung vào dit liệu từ các cảm biến nhị phân {0, 1} nhưng khác ở chỗ
là những cảm biến nhị phân này chỉ theo dõi việc chuyên trạng thái của cảm biến thay
vì trạng thái hiện tại của thiết bị được theo dõi, nói cách khác là cảm biến này giốngnhư kiểu biến đổi dữ liệu change-point của bài viết trước Việc gan nhãn hành động
cũng có đôi chút khác biệt khi thay vì chủ động ghi âm lại dữ liệu hành động khi bắtđầu và kết thúc [1] thì [2] sử dụng phương pháp the Experience Sampling Method(ESM) [3, 4] và một thiết bị điện tử mang theo bên người có tác dụng là một bộ đếm
thời gian, trong bài viết của tác giả thì cứ sau 15 phút thiết bị điện tử đó sẽ phát ramột tiếng “bip” để thông báo và sau đó người dùng sẽ trả lời một loạt câu hỏi như:
đang làm gi, đã làm việc đó được bao lâu, việc thu thập dtr liệu nay diễn ra trong
suốt quá trình lay mẫu
2.1.2.3 Phương pháp nghiên cứu
Trong bài nghiên cứu của tác giả thì tác giả cũng sử dụng những frame thời gian dénhận diện hành động nhưng khác với [1] khi mọi hành động đều được nhận diện trênmột frame time duy nhất thì trong bài nghiên cứu [2] tác giả sử dụng nhiều frame
time, mỗi hành động được gán nhãn sẽ được tính thời gian thực hiện trung bình và
quá đó xác định frame time cho hành động đó.
23
Trang 2388 Bathroom Toilet Flush
58 Bathroom Light
| I
Example for LI | Example for |
Feature windows
Hình 2.7: Ví dụ về của sé trượt nhận diện [2]
Việc áp dụng các frame nhận diện khác nhau cũng sẽ dẫn đến việc cần phải sử dụng
đến kỹ thuật cửa số trượt dé nhận diện các hành động (Hình 2.7), cứ sau một khoảng
At thì sẽ thực hiện nhận diện một lần Chiều dài frame time của một hành động là L¡
thì tại thời điểm t, sẽ sử dụng khoảng thời gian từ t - Li đến t dé tính toán và gán nhãn,
24
Trang 24Sử dụng mô hình NB để tính xác suất khả năng có thé xảy ra của các hành động đã
LỊ T | Í
TT ST Tf I1 ee ee I1
Hình 2.8: Ví dụ về tinh toán xác xuất xảy ra của hành động đi vệ sinh [2]
Có ba phương pháp được sử dụng trong đo lường và đánh giá việc nhận diện hoạt
động Phương pháp thứ nhất tính theo phần trăm thời gian mà hoạt động được nhận
Start End: Start End : Start End °
Detection : Detection : Detection
Percentage 0% =: Percentage 50% : Percentage 20%
Hình 2.9: Phương pháp tinh phan trăm thời gian [2]
Phương pháp thứ hai là dựa theo khoảng thời gian tốt nhất, phương pháp này sẽ thêm
một khoảng delay +@ với mục tiêu là dé frame time có thé bắt được điểm kết thúc của
hoạt động.
25
Trang 25Activity Not Activity Not Activity Activity Detected Activity Not
Detected Detected Detected with Delay Detected
End: Start End : Start End
ActivityNot : Activity : Activity Detected Detected Detected
Hình 2.11: Phương pháp nhận diện ít nhất một lân [2]
Một điềm khác nữa ở bài viết này là so với bai [1] là việc nó còn xác định thêm một
số dữ liệu khác nữa để phục vụ cho việc nhận diện hành động, đánh giá xem trong
khoảng thời gian mà một hành động đang diễn ra (dựa vào gán nhãn hành động) xem
xét việc một cam biến cụ thể nào đó có được kích hoạt hay không (exist), xem xétxem liệu một cảm biến có được kích hoạt trước một cảm biến nào hay không (beforesensorID), xem xét vị trí mà cảm biến được gan (cửa, tủ, ) có được kích hoạt trướccảm biến gắn trên một ví trí khác không(before type), và cuối cùng là xem xét xem
cảm biến trong căn phòng này có được kích hoạt trước căn phòng kia hay không
(before location); Ba đặc điểm cuối gọi chung là xem xét tính “before”
26
Trang 26Preparing lunch Toileting
Preparing breakfast
Bathing Percentage of
Dressing Time
Grooming Preparing a beverage Doing laundry
Preparing lunch Toileting
Preparing breakfast
Bathing a
l Activity Detected Dressing
Grooming Preparing a beverage Doing laundry
Preparing lunch Toileting
Preparing breakfast Preparing a snack Bathing
Going out to work Dressing
Grooming Preparing a beverage
Doing laundry
Bang 2.4: Kết qua cuộc nghiên cứu, No.Exp là số lượng mau train, E là áp dung
exist, E +BT là áp dung exit + before type
Activity Detected
2.1.2.4 Kết luận của tác giả
Qua quá trình nghiên cứu tác giả đúc rút ra rằng, những hoạt động có tính lặp lại
nhiều tức có nhiều mẫu thì kết quả nhận diện sẽ tốt hơn Thuộc tính exist sẽ cho hiệu
quả nhận diện tốt nhất trong quá trình nghiên cứu, việc thêm dữ liệu “before” khôngthực sự mạng lại hiệu quả, và dự doan sẽ có tác dung tốt hơn khi bộ dữ liệu được mởrộng Việc các dữ liệu về nơi cảm biến được gắn hay căn phòng được gắn sẽ không
27
Trang 27có nhiều tác động và hoàn toàn có thé bỏ quả trong quá trình phát triển mô hình.Phương pháp do phan trăm thời gian (Hình 2.9) để nhận diện hành động cho hiệuquả kém nhất trong khi áp dụng khoảng thời gian tốt nhất (Hình 2.10) cho hiệu quảcao nhất.
2.1.2.5 Những kết luận thông qua bài nghiên cứu
Có thé thấy việc cho mỗi hành động được nhận diện dựa trên một frame time tối ưukhác nhau thay vi dựa trên một frame time chung (timeslice), đồng thời cơ chế cửa
số trượt để xác định khoảng thơi gian nhận diện sẽ cho phép nhận diện được diễn ratốt hơn khi tránh được triết dé trường hợp có đến 2 hành động cùng xuất hiện trên
cùng một time frame Sử dụng những thay đổi về trạng thái của cảm biến làm nền
tang để nhận diện hành động Những thông tin về vị trí lắp đặt hay địa chỉ lắp đặt sẽ
không quá ảnh hưởng khi áp dụng vào mô hình không quá phức tạp và hoàn toàn có
thể bỏ qua tùy vào mục tiêu hay quy mô của cuộc nghiên cứu
Ngoài ra bài nghiên cứu còn có một số điểm chưa thực sự tối ưu, đầu tiên là quá trìnhlay mau, gan nhãn cho hành động đang diễn ra không thực sự tối ưu khi những hoạtđộng diễn ra trong thời gian ngắn dé dàng bi lắn át trong quá trình lay mẫu và đồngthời việc thu thập dữ liệu hành động thông quá trả lời một số câu hỏi cũng đòi hỏiviệc cần phải xử lý dữ liệu một cách thủ công và sẽ không hiệu quả nếu áp dụng vào
hệ thống thực tế
2.2 Hướng tiếp cận
Thông qua một số bài viết có cùng chủ đề và mục tiêu đề tài cũng như phân tích các
ưu cũng như nhược điểm về cả cách tiếp cận, phương pháp xây dựng dữ liệu, mô
hình, Dựa vào đó nhóm đã có một cách tiếp cận mới về chủ dé HAR Đề tài này
muốn đặt trong tâm nhận diện hành động của người dùng lên các thiết bị được sử
dụng, nói đúng hơn là dựa vào sự thay đổi về mặt trạng thái của các thiết bị có trong
hệ thong và đánh giá nó một cách độc lập thay vi đặt vào những cái khung cố địnhcủa những gán nhãn về hành động được diễn ra bởi ngời dùng Cách tiếp cận này chophép mình bỏ quá trình gán nhãn thực tế các hành động được diễn ra
Phương pháp gan nhãn thủ công như trong bai viết [1] hay phương pháp ExperienceSampling Method (ESM) [3, 4] áp dụng trong bài [2] đều chỉ ra những yếu điểm khiđòi hỏi người dùng phải trực tiếp khai báo cũng như cung cấp một số thông tin, dữliệu về hoạt động, hay thông qua những thiết bị gắn trên người như [5, 6, 7] Ngườidùng luôn phải mang trên người một số thiết bị Không bàn đến tính ứng dụng hayhiệu quả nhưng rõ ràng một hệ thống Smart home sinh ra là dé giúp người dùng trở
28
Trang 28nên thuận tiện và thoải mái thì nay phải đáp ứng các yêu cầu hay thực hiện một loạtcác quỳ trình, quy định dé gan nhãn cho các hành động Việc gan nhãn này cũng biảnh hưởng bởi thời gian lay mẫu khi thời gian lay mẫu càng dài tức có càng nhiều dữliệu được gán nhãn thì hiệu suất của mô hình cũng sẽ được cải thiện theo nhưng kéotheo đó là bat tiện lâu dài cho người dùng Và các cách tiếp cận trên sẽ chỉ hiệu quavới các hệ thông không có những thay đổi ké cả cấu trúc hệ thống hay thói quen củangười Vì khi có những thay đổi về thiết bị hay thói quen thì đòi hỏi hệ thống cầnphải lấy mẫu lại từ đầu vì giờ nó đã không phù hợp nữa Kèm theo đó là việc gánnhãn sẽ có những sai sót và thiếu sót nhất định khi sử dụng các kỹ thuật xử lý ngônngữ tự nhiên [8], trong khi việc gán nhãn thủ công tỏ ra quá lãng phí cả về chi phi và
thời gian.
Voi việc không gan nhãn các hoạt động sẽ có thé kéo theo việc nhận diện không thécho ra một gán nhãn cụ thê mà chỉ gom thành các nhóm trừu tượng với các đặc trưng
về các thiết bị sử dụng và các khoảng thời gian đề tính toán xác suất và đưa ra các dự
đoán trong tương lại gần đề từ đó đưa ra những điều chỉnh hệ thống cho phù hợp Vìđang hướng đến một mô hình unsupervised và kèm theo đó là sự gọn nhẹ dé có thénhúng vào hệ thống IoT nên đòi hỏi việc lựa chọn và xây dựng mô hình cần phải cânnhắc Trong phạn vi nghiên cứu của khóa luận này, sẽ sử dụng kỹ thuật Data mining
và 2 mô hình chính là K-Means va Association rules.
2.3 Data mining
Data mining là một nhánh của khoa hoc dữ liệu, là tập hợp các quá trình khám pha
các mẫu, mối quan hệ từ các bộ dữ liệu Nó liên quan đến việc trích xuất đặc trưng
và thông tin có giá trị từ đữ liệu bằng cách áp dụng các kỹ thuật tính toán, thuật toánthống kê và phương pháp học máy khác nhau Mục tiêu của việc khai thác dữ liệu làkhám phá các mô hình, xu hướng và mối liên kết ân có thê được sử dụng để đưa raquyết định, dự đoán kết quả trong tương lai và hiểu sâu hơn về các bộ dữ liệu phức
tạp.
29
Trang 29Hình 2.12: Các thành phân của khoa hoc dir liệu [9]
Khai thác dữ liệu bao gồm rất nhiều các kỹ thuật và phương pháp, gồm có phân loại,
hồi quy, phân cụm, phát hiện bất thường và khai thác văn bản, cùng nhiều kỹ thuậtkhác Những kỹ thuật này được áp dụng cho dữ liệu có cấu trúc và phi cấu trúc từnhiều nguồn khác nhau, chăng hạn như cơ sở dữ liệu, kho dtr liệu, trang web, media,cảm biến, Dữ liệu đầu vào thường được cung cấp dưới dang bảng và dau ra có thé
là các quy tắc, cụm, cấu trúc cây, đồ thị, phương trình, mẫu,
Quá trình khai thác dữ liệu thường bao gồm một số bước:
Chuẩn bị dữ liệu: Bước này bao gồm việc thu thập, tích hợp, làm sạch và chuyền đôi
dữ liệu sang định dang phù hợp dé phân tích Nó bao gồm các nhiệm vụ như loại bỏcác bản sao, xử lý các giá trị bị thiếu và chuẩn hóa dữ liệu
Phân tích dữ liệu thăm dò: Trong bước này, các kỹ thuật thống kê và trực quan hóa
dữ liệu được sử dụng dé hiểu rõ hơn về tập dữ liệu, xác định các mẫu và hiểu mốiquan hệ giữa các biến
Lua chọn/Trích xuất tính năng: Liên quan đến việc chọn các tinh năng phù hợp nhất
hoặc chuyên đổi dir liệu thành biểu diễn có chiều thấp hơn dé cải thiện hiệu suất và
hiệu quả của quá trình khai thác.
30
Trang 30Xây dựng mô hình: Các thuật toán khai thác dữ liệu được áp dụng cho dữ liệu đã
chuẩn bị san dé xây dựng các mô hình dự đoán hoặc khám phá các mẫu Bước nàybao gồm việc lựa chọn các thuật toán phù hợp dựa trên vấn đề hiện tại, áp dụng chúng
vào dữ liệu và tinh chỉnh các mô hình.
Đánh giá và diễn giải: Các mô hình hoặc các mẫu được tạo ra sẽ được đánh giá bằng
các sô liệu thích hợp và được xác thực đê đảm bảo tính chính xác và độ tin cậy của
chúng Các két quả được giải thích đê hiéu rõ hơn va đưa ra quyết định sáng suot.
Triển khai: Bước cuối cùng liên quan đến việc triển khai các kết quả khai thác dit liệuvào các ứng dụng hoặc hệ thống trong thế giới thực Điều này có thể bao gồm việctích hợp các mô hình vào hệ thống vận hành, tạo báo cáo hoặc trực quan hóa chongười ra quyết định hoặc triển khai các quy trình tự động dựa trên các mẫu được phát
hiện.
2.3.1 Unsupervised learning
Học không giám sat (Unsupervised learning) là một nhánh của học máy (machine
learning) xử lý việc khám phá và phân tích dữ liệu mà không có sự hiện diện của các
nhãn rõ ràng hoặc các biến mục tiêu được xác định trước Khác với học có giám sát(supervised learning), trong đó thuật toán học từ các ví dụ đã được gan nhãn dé đưa
ra dự đoán hoặc phân loại các trường hợp mới, học không giám sát tập trung vào việc tìm ra các mẫu, cấu trúc và mối quan hệ tiềm ân trong dữ liệu chính nó.
Trong học không giám sát, thuật toán được cung cấp một tập dữ liệu bao gồm chỉ các
đặc trưng đầu vào và mục tiêu của nó là khám phá những thông tin có ý nghĩa và tôchức dữ liệu một cách hiệu quả dé phát hiện các cau trúc hoặc nhóm tiềm an Thuật
toán học đề nhận biết sự tương đồng, khác biệt và mối quan hệ giữa các điểm dữ liệu
mà không có kiến thức trước
Mục tiêu chính của học không giám sát là rút trích thông tin, khám phá các mẫu an
và hiểu sâu hơn về dit liệu Nó có thé được sử dụng cho phân tích dữ liệu khám phá,trực quan hóa dữ liệu, giảm chiều dữ liệu và phân cụm
2.3.2 Một số mô hình máy học được nghiên cứu
2.3.2.1 K-Means
Thuật toán K-Means là một phương pháp phân cụm được sử dụng rộng rãi để chia dữliệu thành các nhóm nhỏ riêng biệt dựa trên các đặc điểm tương đồng của các điểm
31
Trang 31dữ liệu Nó được ứng dụng rộng rãi vì tính đơn giản, hiệu quả và có thê áp dụng trongnhiều lĩnh vực, hoàn cảnh và mục tiêu khác nhau K-Means còn tỏ ra hữu dụng trongcác bước tiền xử ly dit liệu khi có thé chia dit liệu thành các phan với các đặc điểmriêng dé từ đó có thé chia bài toán, vấn đề thành các bài toán nhỏ hon và từ đó dễdàng hơn trong việc xử lý và xây dụng mô hình cho phù hợp nhất ứng với mỗi đặc
Hinh 2.13: mot vi du vé ap dung K-Means [9]
Xây dựng thuật toán:
e Khởi tạo: Chọn K điềm làm trung tâm ban đầu (thường là các điểm ngẫu
nhiên).
e Gan nhãn: Gan từng điểm dữ liệu vào trung tâm gần nhất dựa trên một độ đo
khoảng cách (thường là khoảng cách Euclid).
e Cập nhật: Tinh lại trung tâm bằng cách tính giá trị trung bình của các điểm dữ
liệu trong mỗi nhóm.
e Lap: Lap lại các bước gan nhãn và cập nhật cho đến khi thuật toán hội tụ hoặc
Trang 32Khoảng cách Euclid:
Trong không gian n chiều, khoảng cách từ điểm x đến điểm y là:
e Đơn giản: Điểm mạnh quan trọng nhất của thuật toán K-Means là tính don
giản Tinh chat trực quan của thuật toán giúp dễ hiéu dễ triển khai và áp dụng
e Khả năng mở rộng: K-Means có hiệu suất tính toán tốt và có thé xử lý được
các tập dữ liệu lớn với số lượng đặc trưng hợp lý
e Linh hoạt: Thuật toán có thé được áp dụng cho nhiều kiểu dữ liệu, bao gồm cả
biến số và biến phân loại
e Khả giải thích: K-Means cung cấp kết quả có thể giải thích khi mỗi điểm dữ
liệu được gán vào một nhóm cụ thé, giúp hiéu và phân tích dữ liệu theo các
đặc trưng chung được gom nhóm.
Điêm yêu:
e Khởi tạo: Việc khởi tạo tác điểm tâm của cụm sẽ ảnh hưởng đến kết quả cuối
cùng, và đồng thời nhãn của các điểm dữ liệu cũng sẽ có sự thay đồi tương đốivới mỗi lần chạy
e Nhiễu: K-Means dễ bi ảnh hưởng bởi những dữ liệu nhiễu, chúng sẽ khiến
việc xác định tâm và phân cụm, đòi hỏi phải xử lý, loại bỏ tín hiệu nhiễu hoặc
tăng thêm số lượng tâm dé gom nhóm các giá trị nhiễu
e Lựa chọn K: Khó xác định được K tối ưu cho việc phân cụm, phân lớn phải
dựa vào kinh nghiệm và hiệu suất của mô hình Có thé phải adụng một số kỹ
thuật như elbow hoặc silhouette để xác định K
2.3.2.2 Association rule
Association rule là một kỹ thuật trong khai thác dữ liệu va hoc máy nhằm mục đíchkhám phá các mối quan hệ và mẫu trong các bộ dữ liệu lớn Nó tập trung vào việckhám phá các mối liên hệ hoặc sự xuất hiện đồng thời giữa các items và event,
Association rule thường được biéu diễn dưới dạng câu lệnh “if-then” Ví du: một quytắc có thé nêu rõ răng nêu khách hàng mua mặt hang A và mặt hàng B thì họ cũng có
khả năng mua mặt hàng C Các quy tắc này cung cấp thông tin chỉ tiết hữu ích mà
33
Trang 33doanh nghiệp có thể sử dụng để nâng cao chiến lược tiếp thị, tối ưu hóa vị trí sản
phẩm và cá nhân hóa trải nghiệm của khách hàng
Association rule thường được biéu diễn dưới dang XY tức Y diễn ra khi X đã diễn
ra, thường được đo lường tin cậy của các điều kiện bằng một số giá tri: support,
confidence, lift,
Một số định nghĩa cân thiết:
e Item: đại diện cho một đơn vi dữ liệu
Ký hiệu: i, 1 = {i1, la, in} 114 một tập chưa n item
e Itemset: dai diện cho một bộ chứa các đơn vi dữ liệu
Ký hiệu: S, S cI, S là một itemset của I, S là một tập con của I
e Transaction: là một list itemset
Ky hiệu: T, T = {S1, So, Sm} S; là một itemset
Một sô thước do về độ tin cậy cua Association rule
e Support: Tỷ lệ giữa số phan tử của transaction chứa item hoặc itemset so với
tong số phan tử transaction hay cũng có thé hiểu là tần số xuất hiện của item
hoặc itemset trong transaction.
Ký hiệu: support() range: [0, 1].
Support của X đối với transaction T có m phan tử:
support(X) = Yis STs 710)
m
¢ Confidence: Tỷ lệ giữa số phần tử của transaction chứa cả X và Y trên số
phân tử của transaction chứa X của rule X—>Y
Ký hiệu: confidenceQ range [0, 1]
Confidence của rule XY :
support(X UY)
confidence (X—>Y) = support(X)
° Lift: Ty lệ giữa số phan tử của transaction chứa cả X va Y trên số phan tử
cua transaction chứa Y cua rule X—>Y
Ky hiệu: lift Q range [0, 00]
Lift của rule XY :
_ support(X UY)
lift X—>Y) = ~support(y)
Xây dựng thuật toán
34
Trang 341 Brute-force
Thuật toán này sẽ tập trung vét cạn tất cả trường hợp có thê và sẽ tìm ra các
itemset có confident lớn hơn một ngưỡng min nao đó
Hình 2.16: ví dụ về quá trình tìm 1temset của thuật toán Brute-force [10]
e©_ Ưu điểm: Dễ hiểu, dễ code, tư duy đơn giản
e Nhược điểm: Tốn khá nhiều thời gian thực hiện Mặc dù sau khi cải tiến thuật
toán, các quy tắc còn lại đã giảm đi rất nhiều Tuy nhiên, thời gian thực hiện
vẫn rất lớn
35
Trang 352 Apriori Property
Nếu X là một tap có tỷ lệ xuất hiện thường xuyên, thì cũng có nghĩa là tat cả cáctập con của X đều là tập xuất hiện thường xuyên Điều này có thé dé dàng thay
được, bởi vì mỗi lần X xuất hiện thì các tập con của nó đều xuất hiện
hay:Support(X) < Support(Y), với YEX.
Frequent
ltemset
Hình 2.17: Minh họa về một itemset xuất hiện thường xuyên [11]
Và ngược lại nêu Y là một tập xuất hiện không thường xuyên, thì điều đó cũng có
nghĩa là các tập lớn hơn Y mà xuất phát từ Y thì đều xuất hiện không thường
xuyên Do đó, một hệ quả được rút ra là, nếu Y là tập xuất hiện không thường
xuyên thì ta không cần tiếp tục tìm thêm nữa
Pruned ~\
Hình 2.18: Minh họa về khi itemset không xuất hiện thường xuyên [11]
36