Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống giám sát, quản lý, kiểm soát các thiết bị điện, hướng tới phân tích dữ liệu và hành vi người dùng

Và bằng cách thu thập dữ liệu về thời gian sử dụng, tương tác của người dùng vớicủa các dụng cụ, đồ vật, thiết bị trong nhà theo thời gian thực cùng với dữ liệu về gánnhãn các công việc

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TINH

PHAN NHẬT HOÀNG - 20521349

System for managing electrical devices; analyze data and user

behavior

KY SU KY THUAT MAY TINH

GIANG VIEN HUONG DAN

TS Phạm Quốc Hùng

ThS Phan Dinh Duy

TP HO CHi MINH, 2023

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 11/QD-DHCNTT ngày

05 tháng 01 năm 2024 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LỜI CẢM ƠNTrước tiên xin gửi một lười cảm ơn chân thành và trạng trọng đến trường Đại học

công nghệ thông tin viết tắt là UIT đã cho bản thân cơ hội được tiếp xúc và tiệp

đến những kiến thức những kỹ năng quan trọng, cần thiết cho quá trình phát triên

về mặt nhận thức lẫn hành vi Đây sẽ là những hành trang tối quan trọng trong

quá trình phát triển không chi trong công việc mà còn trong cuộc sông, vận dụng

những kiến thức và kỹ năng của bản thân đề phát triển Trường đã tạo môi trường

phát triển lành mạnh khi những thế mạnh những đặc điểm riêng biệt về nhận thức lẫn hành vi khác nhau đều có cho mình một môi trường phát triển thuận lợi, thỏa

sức sáng tạo và phô diễn những gi tốt nhất Trường còn luôn thấu hiểu, đồng hành

và hỗ trợ sinh viên trong những thời điểm khó khăn giúp tránh xa khỏi những tiêu

cực tiềm tàng trong cuộc sông Những chương trình học bồng, khuyến học được

thiết kế dé an ủi và hỗ trợ phần nào những mảnh đời thiếu thốn dé có thé chú tâm,

chuyên tâm vào con đường mà mình đã chon dé từ đó xây dựng và vun đắp nên

những ước mơ hoài bão.

Không thé không ké đến những đóng góp mà tập thé khoa Kỹ thuật máy tính trongsuốt chặng đường 4 năm dài và gian nan, dé giờ đây trên những bước đường cuốicùng bản thân lại càng cảm thấy trận trọng và trân quý hơn bao giờ hết Những ngườithấy những nhà giáo tận tâm luôn mang những đau đáu trong mình những câu hỏi,phải luôn nỗ lực đề dẫn dắt mọi người đi trên con đường của tri thức, của nhận thức.Nếu trường luôn nỗ lực đề tạo ra một môi trường, một không gian tốt nhất giúp chomoi sự triển có thé diễn ra thì thầy cô chính là những phương pháp, phương thuốc,những chất dinh dưỡng tốt nhất cho sự phát triển, cho của sự nghiệp trăm năm trồngngười Không biết đã bao nhiêu thé hệ đã trưởng thành và gai góc hơn nhờ quá trìnhtiếp thu những gì tốt nhát, tinh túy nhất mà những người nhà giáo miệt mài truyền thụngày đêm không biết mệt mỏi, chỉ biết sóng sau xô sóng trước, những thế hệ sau sẽ

được kế thừa và phát huy những gì tốt nhất và thế hệ trước đề lại và ngày một phát

triển vững mạnh Một lần nữa cảm ơn những người nhà giáo đáng kính ví đã luôn hỗtrợ hết mình trên con đường phát triển của trò

Và cuối cùng xin gửi một lười cảm ơn trận trọng và trân quý nhất đến những ngườithầy đã hỗ trợ bản thân trong suốt quá trình thực hiện khóa luận, một lần nữa cảm ơn

thầy Phan Đình Duy và thầy Phạm Quốc Hùng đã hỗ trợ nâng đỡ bản thân trong suốtquá trình nghiên cứu và thực hiện đề tài khóa luận Là những người luôn kề bên dõitheo và nâng đỡ từ những bước đường đầu tiên, dé giờ đây khi đã một tay chạm đếnthành quả, thì không có gì khác ngoài sự biết ơn và trân trọng với những gì bản thânnhận được và quét không dé những công lao, những sự chân thành, tận tâm của cácthay trở nên hoang phí Kính chúc cho những thành công mới sẽ tiếp tục trổ mầm đểđền đáp lại công lao của những người tan tâm

Trang 4

2.1 Một số nghiên cứu có cùng đề tài về nhận diện hành vi người dùng 16

2.1.1 _ Bài viết “Human Activity Recognition from Wireless Sensor Network

Data: Benchmark and Software” [1] :ceeceecceseeseceeeeeeeneeeeeeeeeeeeeaeeeeeeaeeeaeees 16

2.1.1.1 Hướng tiếp cận của bài nghiên cứu -2-2cscs+zeecse+ 16

2.1.1.2 Thu thập dữ liệu - - Sc 2x 9H HH HH gi, 16

2.1.1.3 Phuong pháp nghiên CỨU 5255 +25 * 3E *EvveEeeeressrrrrreerrs 18

2.1.1.4 Kết luận của tác gid cccccccccccccsssssessessessussssssecsessussssssessecsssesesseseeses 21

2.1.1.5 Những kết luận thông qua bài nghiên cứu -s- 5 <s 21

2.1.2 Bai viet “Activity Recognition in the Home Using Simple and

Ubiquitous Sensors” [2] - - ¿5 + 1S 12111119 1191111111 119 11H ng nh HH 22

2.1.2.1 Hung tiếp cận của bài nghiên cứu ¿2c 5 s+cs+s+ss 22

2.1.2.2 Thu thap dtr iQue 23

2.1.2.3 Phương pháp nghiÊn ctu 00 cece eeceesceeeeeeeeseeeseeeeeeeeeeaeeeeeeeeeaeens 23

2.1.2.4 Kết luận của tác gia ssceseseesessessessessessesscsesesseeseesessesseesees 272.1.2.5 Những kết luận thông qua bài nghiên cứu . -.: -: 28

2.2 Hướng tiếp cận ¿- + ckEk22112E117171121121127121121111 1111 1xExeyee 28

2.3 Datta minInBg, sành hà 29

2.3.1 Unsupervised learnIng - - «se kg tr 31

2.3.2 Một số mô hình máy học được nghiên CỨUu .-«++-«<++<+++ 31

2.3.2.1 K-Means LH TH HH HH 31 2.3.2.2 ASSOCIATION TUÏ€ G5 ng ng 33 Chương 3 Phân tích và xây dựng tập dữ liệu «+ £+<=<<<+s+seeses 38

Trang 5

3.1 Xây dựng tập dữ liệu 5 5 S1 HH ngư 38 Ký: ):0›(3:£:: 33 38 3.3 Phan Cum it GU oo eee cccccesecceesscecsesececeseseeesseccesseseeesseecesseeeeesseseneaaes 39

3.3.1 PRA tích Ăn HH HH TH HH HH nh ng 39 King 0i 42

4.1.2.1 GIỏ THIỆN g8 W§B ⁄/ 47

4.1.2.2 CAC Vai tTỒÒ cSc TS S ng TH TH ngàng HH HH rệt 47

4.1.2.3 Cơ chế truyên tin 2¿-©+¿+cx+2E++Ex+SEkSrkerkkerkesrkerrrees 48

4.1.2.4 Profile layeT HH SH HH HH ngư, 49

1 Model Lay€r Ác 1k TH TH HH, 49

4.2 Free real-time operating system for microcontrollers (FreeRTOS) 50

4.3 Hệ thống, và các thành phẩn - 2 2 ++E+EE+EE+EE+EEZEE+EerEerkerxerkrree 51

4.3.1 Các thiết bị node -ccc+ccvtttrkrtrtrtrirrtrrrrrrrtirrrrrirrriei 524.3.2 Thiết bị gateway xử lý trung tâm - 2©++cz+x+zxerxerxersereee 53

4.3.3 k9a/201 117 55

4.3.4 Ứng dụng điều khiỂn 2 ++2E+2E+EE+EEEEEEEEEEEErrkerkerreee 56

Churong 5 Thue nghiém 017 62

5.1 M6 hình nhận diện và dự đoán hành vI - 5552225 + ‡+++ss++sesss 62

5.2 Hệ thống IoT ¿5-2 EEỀEE2E12E121212171111111211 2111121111110 65

Trang 6

Chương 6 Kết luận và hướng phát triển . -¿-¿+++++++:x++zx++zszex 67

6.1 KẾt ane csccccccccccsssesssesssssesssessuessssssesssessusssssssessusssusssesssecsusssesssessseeseseseessees 67

6.1.1 Mô hình máy hỌc - - - cv 1 H1 HH HH rệt 67

6.1.2 Hệ thống LOT oaecceeccesscssssssssssesssecssessssssscssecssecssscsscssecsuecsusesecssecsseesseeses 676.2 Hướng phat trien eececceccescecsesseessessessesssessessecsesssessessessesssessessessessessseeseesees 68

6.2.1 Mo hình may hỌc G cv 1H HH ng ng 68

6.2.2 Hệ thống IoT ¿ +©2++2c++cxerxrtreerreerxeerxee 68

Trang 7

DANH MỤC HÌNH

Hình 2.1: Căn nhà A và bố trí của các cảm biến [ I] .: c::+c-+c+cxveeerx 17Hình 2.2: các chuyển dạng của dữ liệu [ 1] - 2-2 5252+££+£E+£xezEezrssrxerxezex 18

Hình 2.3: Giá trị trong quan của mỗi kiểu dit liệu với các timeslice khác nhau của dữ

Tigu carn nha A [1] 19

Hình 2.4: Giá trị trong quan của mỗi kiêu dữ liệu với các timeslice khác nhau của dữ

i88) 80 108 dda4 19

Hình 2.5: Giá trị tương quan của mỗi kiểu dữ liệu với các timeslice khác nhau của dữ

Ii68e 8,180 20

Hình 2.6: Ví dụ về các frame thời 02 24Hình 2.7: Ví dụ về của số trượt nhận diện [2] -¿ +c+ccxeererrxerrrrveerre 24Hình 2.8: Ví dụ về tính toán xác xuất xảy ra của hành động đi vệ sinh [2] 25Hình 2.9: Phương pháp tính phần trăm thời gian [2] . -¿- s¿5sz5s++=++ 25Hình 2.10: Phương pháp khoảng tốt nhất [2] 2 5¿+¿2++2+++£x++zxzx+zrsz 26Hình 2.11: Phương pháp nhận diện ít nhất một lân [2] -¿ ¿25+ 26

Hình 2.12: Các thành phân của khoa hoc dữ liệu [9] - -«<++<++<e++ss++ 30

Hình 2.13: một ví dụ về áp dụng K-Means [Ø]| c5 55s + sseksesreseersre 32

Hình 2.14: Các bước của K-Means c1 3911113113 EESEEEsrieereeersere 32

Hình 2.15: mã gia của thuật toán Brute-force [10] .-«++-sss++scx+ssexseeeesesss 35

Hình 2.16: ví dụ về quá trình tìm itemset của thuật toán Brute-force [10] 35

Hình 2.17: Minh họa về một itemset xuất hiện thường xuyên [11] 36Hình 2.18: Minh họa về khi itemset không xuất hiện thường xuyên [ I I] 36

Hình 2.19: mã giả của thuật toán Apriori Property [11] -.«« -«<<<<e+>ss++ 37

Hình 3.1: Ví dụ về sơ đồ đảo trạng thái của các cảm biến và hệ thong —— 39Hình 3.2: Biểu diễn sự thay đôi về giá trị của of với sự thay đổi của / 40

Hình 3.3: Điểm ngưỡng của hệ thống - 2-22 2 E+SE+EE£2EE2EEtEEEEEEEEEerkrrkrrer 41Hinh 3.4: Vi du vé so dé dao trạng thái của các cam biến trong một cụm dữ liệu 42Hình 4.1: Sơ đồ hệ thống ¿2-2 ©5£+E£+SE9EE£EEE2EE2EEEE121122122171711 211 1E re, 44

Hình 4.2: cầu trúc tỆp tỉn - 2 <+Sk+EE+SE++EEEEEEEEEEE1221717112112117171 211 1E re 45Hình 4.3: Giao diện của thiét bị -cc:- 5v 56

Hình 4.4: Giao diện chính của ứng dụng -.- sàng neo 57

Hình 4.5: Giao diện RÑOOIM G 52 12121113311 131 21111921111 011111621111 8 ky 58

Hình 4.6: Giao diện tùy chọn chức năng của hệ thống -¿- ¿2 52 s52 +2 59

Hình 4.7: Giao diện chức năng Add rOOI -. 5S 32213231 32E*EEEEeereerrsrrs 59 Hình 4.8: Giao diện chức năng Add Device c5 3 33+ sivsererrrsrrs 60

Hình 4.9: Giao diện chức năng Remove TOOTM G5 <5 33+ EE+seeesseessers 60

Hình 5.1: giá trị ngưỡng của hệ thong ¿- ¿22 ©5£+E22EEt2EEtEEEerxezrxrrrerree 62

Trang 8

Hình 5.2: giá trị ngưỡng của thiết bị Fridge (tủ lạnh)

Hình 5.3: giá trị ngưỡng của thiết bị Toilet light

Hình 5.4: Dự đoán các tương tác tiếp theo của người dùng -5¿

Trang 9

DANH MỤC BANG

Bảng 2.1: Các mẫu dư liệu được tác giả thu thập [1] .«<-+<<<<<<x<sses 17

Bảng 2.2: phan trăn lỗi của gán nhãn mới đối với gán nhãn gốc [] 20

Bảng 2.3: kết quả của giai đoạn 2 ở căn nhà A [I] -2- 2 scx+zs+ze+zssrxrez 21

Bang 2.4: Kết quả cuộc nghiên cứu, No.Exp là số lượng mẫu train, E là áp dung exist,

E +BT là áp dụng exit + before tYe - sgk nry 27 Bảng 4.1: BLE Protocol SfACK G- G1 HS TH HH HH 46

Bang 4.2: BLE Mesh Profile Ïa€T - 5 5 5 + 1x1 ST HH ng tiệt 49

Bảng 5.1: bảng các giá trị ngưỡng các thiết bị trong hệ thống (elbow), State 0 tức đảotrang thái từ 1 sang 0 va State 1 tức đảo trạng thái từ 0 sang 1, Apprear time tức sốlần đảo trạng thái :- 2 2 2+ EEEx9E1911211211212111111111111 1.11 1111111 64Bảng 5.2: Dự đoán các thiết bị có xu hướng được sử dụng cùng với Fridge trongkhung giờ từ 8:00 đến 13:00 ¿- 2: 5¿22+22EE2211221222122112711221211211.211 21c cre 64Bảng 5.3: Dự đoán các thiệt bị sẽ được sử dụng cùng thiết bị Hall-Toilet door (cảmbiến mở cửa toilet) essessseeeesessseeeccsssneeceessnesssssseeceessnseccssseeceesneesessnneeseessneeeeeseee 64

Bảng 5.4: dữ liệu test thu thập QUOC - - 132113213 ng ri g 66

Trang 10

DANH MỤC TỪ VIET TAT

IoT: Internet of things

RFID: Radio Frequency Identification

HAR: Human Activity Recognition

HMM: Hidden Markov model

HSMM: Hidden semi-Markov model

CRF: Conditional random fields

ESM: Experience Sampling Method

RTOS: Real-Time Operating System

BLE: Bluetooth Low Energy

GAP: Generic Access Profile

GATT: Generic Attribute Profile

ATT: Attribute protocol

CAN: Controller Area Network

MOQTT: Message Queuing Telemetry Transport

Trang 11

TÓM TẮT KHÓA LUẬN

Với sự phát triển vượt trội của công nghệ trong thời gian qua ta có thể dễ dàng nhận

ra những tác động của chúng đối véi lối sống và hành vi của con người từ việc nhỏ

như giao tiếp trực tuyến giúp kết nối và liên lạc từ xa mà không có độ trễ, các hìnhthức giải trí online nhiều người dùng, cho đến những thứ ảnh hưởng trực tiếp đếnsức khỏe, cuộc sống như các hệ thống hỗ trợ bệnh nhân, hệ thống xe tự hành, hệ thongrobot hoạt động trong những môi trường độc hai, Có thé nói cộng nghệ là công cụtốt nhất, đáng tin cậy và hiệu quả nhất cũng như giúp phân biệt người hiện đại với tất

cả các giai đoạn phát triển trước đây của nhân loại

Cùng với sự phát triển đó cách sống của chúng ta đã thay đổi hoàn toàn so với chỉ vài

thập kỷ trước Ngoài những đóng góp to lớn cho con người ở những lĩnh vực quan

trọng như y tế, giáo dục, anh ninh, thì còn đó những đóng gói thầm lặng cho người

khi giúp cho cuộc sống trở nên tiện nghỉ và thoải mái hơn Và không thé không kéđến những ứng dụng cho các thiết bị, hệ thống thông minh trong mỗi gia đình Và

đây cũng là lý do lớn nhất dé bản thân thực hiện công trình nghiên cứu về dé tai này

Trong dé tài này mục tiêu nghiên cứu tập trung vào xây dựng một hệ thống dé hỗ trợngười dùng trong các sinh hoạt thường ngày, giúp người dùng có thể dễ dàng quản lýcũng như giám sát hệ thống từ xa, kết hợp với việc xây dựng một mô hình máy học

dé chủ động thu thập cũng như phân tích những hành vi, hoạt động của người dùng

và từ đó có thé chủ động đưa ra những kịch bản, thay đồi trong hệ thống cho phù hợp

hơn với thói quen cũng như những yêu cầu của người dùng

12

Trang 12

Chương 1 Tong quan

1.1 Tổng quan về hệ thống IoT

IoT viết tắt của “Internet of Things” là một định nghĩa cho một hệ thống mà ở đó cácmỗi thành phan trong hệ thống có thé kết nỗi, giao tiếp và truyền tải thông tin vớinhau để từ đó cùng giải quyết những yêu cầu về mặt vận hành của hệ thống tươngứng với những yêu cầu và mục đích được thiết kế Được định nghĩ lần đầu bởi KevinAshton khi ông có ý tưởng nhúng RFID vào các sản pham dé giúp cho việc quản lý

và phân tích chuỗi cũng ứng được diễn ra thuận lợi và dễ dàng hơn Khác vơi internet

mà con người đã sử dung quá thông dụng ngày nay, bản thân “internet” trong IoT chỉ

đến khả năng kết nối và giao tiếp dưới bất kỳ hình thức, công nghệ nào chứ khôngchỉ đích danh mạng internet toàn cầu Đến nay, trải qua hơn hai thập kỷ phát triển thìIoT càng ngày càng chứng minh được tầm quan trọng và hiệu quả của nó khi gần như

moi lĩnh vực đều có dấu vết của ứng dụng IoT, có thé kế đến như y tế, anh ninh, bảomật, và giờ đây nó đang dan trở nên phô biến hơn với đời sống con người khi được

ứng dụng vào hệ thống nhà thông minh, giúp cho cuộc sống con người trở nên thuận

tiện và dễ dàng hơn.

loT được ứng dung trong rất nhiều lĩnh vực, tuy nhiên trong giới han dé tài nghiên

cứu này thì sẽ tập trung hướng nghiên cứu vào hệ thống IoT có tính tùy biến cao tức

không bị giới hạn bởi cả về số lượng, thành phần và cấu trúc, và dựa vào hệ thống

IoT xây dựng một mô hình máy học giúp tìm ra được những quy tắc, những đặc điểmtrong vận hành của hệ thống Vì van hạn chế thoi gian nên bộ đữ liệu sẽ được sử dụng

từ nguồn có sẵn thay vì phải xây dựng bộ dữ liệu mới từ đầu Chính vì vậy nên quyếtđịnh sử dụng smart home như là một phương án đề phát triển hệ thống vì nó đáp ứngđược yêu cầu được đặt ra đó là hệ thống phải có tính linh hoạt sỐ lượng, thành phần

và cau trúc Smart home cũng có tính ứng dụng cao, bộ dữ liệu dé dàng tiếp cận, trựcquan và dễ đánh giá Vì vậy trong phần nghiên cứu và phát triển về IoT thì tập trungvào các thiết bị loT ứng dụng trong smart home và trong tương lai có thé sẽ tiến hànhnghiên cứu trên một số hệ thống IoT khác

1.2 Smart home

Khái niệm ban đầu của smart home khá là đơn giản, lần đầu xuất hiện về khái niệm

này là khoảng năm 1975 khi đó thiết bị được tích hợp sóng vô tuyến và được điều

khiển thông quá một bộ remote cầm tay, đến những năm 2000 , 2010 hệ thống đượctích hợp khả năng điều khiển và giám sát từ xa với ưu thế về đường truyền internet

đã trở nên phô biến Đến nay khái niệm về smart home đã thay đối đi rất nhiều, ngoàiviệc vẫn mang trong mình tính tiện lợi khi có thể giám sát và quản lý từ xa nhưng giờ

13

Trang 13

đây yêu cầu của người dùng đã khắt khe hơn nhất là khi đã đạt được những bước tiếnvượt bậc về trí tuệ nhân tạo Khi giờ đây smart home được nghĩa như là một ngườiquản gia thực thụ, có thé chủ động lên kế hoạch, lịch trình không chỉ hỗ trợ khi đượcyêu cầu mà còn phải chủ động tham gia quản lý, giám sát, giúp cải thiện chất lượngsong của người dùng.

1.2.1 Tinh hình thực tế

Với ý niệm là sử dụng công nghệ đề thay thế quản gia trong gia đình thì có thể nói,đến hiện tại vẫn chưa thực sự có mô hình hay giải pháp nào có thể thực sự đáp ứngđúng được với khái niệm và một trợ lý ảo thực thụ Có rất nhiều giải pháp được đưa

ra như là hệ thống kiểm soát nhiệt độ phòng dựa vào nhiệt độ, thời tiết, điều chỉnh hệ

thống chiếu sáng dựa vào môi trường, đa phần nó sẽ chỉ đáp ứng được những thiết

bị cụ thé, và đáp ứng những yêu chung chứ chưa thực sự đúng với từng cá nhân với

các cá tính riêng biệt

1.2.2 Nguyên nhân của van đề trên là gì

Có rất nhiều yếu tố cau thành va ảnh hưởng đến sự phát triển của smart home nóiriêng cũng như các mô hình tác động trực tiếp với con người nói chung như các hệthống xe tự lái, tự hành, vốn đang mang vai trò hỗ trợ là chính chứ chưa thể thaythế con người hoàn toàn Một trong những nguyên nhân lớn nhất phải nói đến là vẫn

đề về công nghệ, và tất nhiên van dé về công nghệ không thé xử lý trong nay maiđược; Tuy nhiên đây không phải là nguyên nhân mà bản thân cho là quan trọng nhất

và cũng không phải là thứ mà đề tài này muốn hướng tới

Một trong những nguyên nhân mà với góc nhìn chủ quan dẫn đến khóa có mô hình

nào hiệu quả cho hệ thống Smart home là vì không có một thước đo phương pháp đo

cụ thê nào cho việc đánh giá độ hiệu quả Không giống với hệ thống hỗ trợ hay tự lái

trên xe ô tô khi mà việc tham gia giao thông bản thân nó đã có những luật lệ, chỉ dẫn

cần phải tuân thủ, và những trang bị, thành phần trên xe ô tô cũng có sự thống nhất

và có ít sự thay đổi cả về số lượng và tính năng Hệ thống smart home thì không nhưvậy, không có một khuôn mẫu nào cho việc xây dựng như thé nào là tốt và như thénào là phù hợp cả bởi lẽ mỗi căn nhà bản thân nó đã không có thiết kế chung nào cả,cũng chắng có quy tắc nào trong việc những thiết bị nào được sử dụng, số lượng cũngnhư bố trí, tất cả là do cá tính, thói quen và lối sống của mỗi người dùng Có thể nóimột cách phiến diện rằng khó có một mô hình chung tổng quát nào mà có thê đápứng được yêu cầu cho tất cả mọi người như vậy

14

Trang 14

Bản thân bài nghiên cứu này cũng tương tự và được lập ra không phải là dé giải quyếthay đưa những đề xuất có thé xử lý được triệt dé van dé này, mà chỉ đơn giản là đưa

ra cũng như xem xét một số phát hiện và nghiên cứu của bản thân với hi vọng chungmột tay, góp sức cho phát triển của công nghệ và ứng dụng của chúng trong cuộc

sông

1.3 Đề tài nghiên cứu

Qua những gi đã trình bày thì bản thân xin được tóm gọn và giới thiệu về chủ đề mụctiêu nghiên cứu của bài luận này Về mục tiêu, mục tiêu của đề tài này là hướng đếnviệc xây dựng một hệ thống IoT ứng dụng trong gia đình mà có thé tạm gọi là smart

home mặc dù không thé đáp ứng đúng được những yêu cầu hiện nay về thứ gọi là

“smart home” Hệ thống sẽ chỉ tập trung vào 3 khía cạnh của IoT đó là: khả năng giao

tiếp, khả năng phối hợp của hệ thống và tính thời gian thực; trong đó tính thời gian

thực là ưu tiên hàng đầu và là cơ sở nền tảng cho việc phát triển hệ thống về sau

Một mô hình máy học được xây dựng dựa trên những phát hiện và đề xuất của bảnthân trong việc nhận diện hành vi và hỗ trợ điều khiến các thiết bị trong hệ thống Vớitiêu chí thiết kế là nhỏ gọn, đáp ứng nhanh và có thê ứng dụng và nhúng vào hệ thống

Nói qua về kết quả của công trình nghiên cứu thì có thể nói là cơ bản đã đáp ứng đượcnhững tiêu chí kê trên được đặt ra ban đầu cho việc thiết kế hệ thống Về hệ thốngIoT thì hệ thống được xây dựng trên nền tảng công nghệ giao tiếp Bluetooth Mesh4.2, có khả năng mở rộng, tái câu trúc hệ thống khi cho phép thêm, xóa, sửa các thiết

bị trong hệ thống, web base cloud database dé lưu trữ thông tin hệ thống, một

Gateway đóng vai trò là xử lý trung tâm cho hệ thống, 2 node đại diện cho 2 thiết bịtrong hệ thống là một cảm biến đóng mở cửa và một thiết bị đèn, ứng dụng điện thoại

trực quan dễ dàng sử dụng để giám sát cũng như quản lý hệ thống từ xa

Trong môi trường đường truyền kết nối mạng ôn định và các node trong hệ thốngphần cứng nằm trong vùng hoạt động lý tưởng, hệ thống có thời gian đáp ứng vớinhững yêu cau, tín hiệu điều khiển từ ứng dụng điện thoại là 2 giây dé điều khiển mộtthiết bị trong hệ thống (thiết bị đèn) Một mô hình máy học sử dụng kỹ thuật data

mining giúp phân loại, gan nhãn cũng như dự đoán hành vi của người dùng trong

tương lai gần với thời gian phản hồi nhanh khi sử dụng những mô hình máy họckhông quá như K-Mean, Association rule, có tiềm năng trong việc nhúng vào hệthống IoT

15

Trang 15

Chương 2 Cơ sở lý thuyết

Trong chương này nội dụng sẽ tập trung vào phân tích một số bài viết nghiên cứu tiêubiểu về cùng lĩnh vực HAR Phân tích hướng tiếp cận van đề của tác giả, hướngnghiên cứu và kết quả của mỗi bài viết, từ đó đưa ra nhận định về ưu nhược điểm củamỗi bài nghiên cứu và đồng thời đề xuất một hướng tiếp cận, phương pháp nghiêncứu mới, đề cập và phân tích một số lý thuyết liên quan được sử dụng trong đề tài

nghiên cứu của khóa luận.

2.1 Một so nghiên cứu có cùng đề tài vé nhận diện hành vi người dùng

2.1.1 Bài viết “Human Activity Recognition from Wireless Sensor Network

Data: Benchmark and Software”[1]

2.1.1.1 Hướng tiếp cận của bài nghiên cứu

Tác giả của bài viết tiếp cận đến bài toán HAR (Human Activity Recognition) trongmôi trường sinh hoạt trong nhà, căn hộ, nói chung là trong không gian sống và sinhhoạt hằng ngày của một người duy nhất Tác giả cho rằng mỗi hành động của con

người trong quá trình sinh hoạt đều ánh xạ, liên quan đến một nhóm các dụng cụ,

thiết bị cụ thể, ví dụ như khi ăn uống thì sẽ sử dụng tủ lạnh, ngăn đông, tủ chén đĩa,

Và bằng cách thu thập dữ liệu về thời gian sử dụng, tương tác của người dùng vớicủa các dụng cụ, đồ vật, thiết bị trong nhà theo thời gian thực cùng với dữ liệu về gánnhãn các công việc cụ thê được diễn ra trong các hoảng thời gian, và kết hợp với các

mô hình toán học hiện đại, tác giả muốn tìm ra được đặc trưng của mỗi hành độngthông quá các thiết bi Dựa vào đó khi hệ thống thu nhận được dữ liệu từ cảm biến đãđang được sử dụng trong thời gian ngắn dé đưa ra dự đoán xem người dùng đang thực

hiện hành động tương ứng là gì trong thời gian thực.

2.1.1.2 Thu thập dữ liệu

Phương pháp thu thập dữ liệu của tác giả, dự liệu được thu thập từ các cảm biến đặc

bồ trí trên các đồ vật như, cửa tủ lạnh, cửa tủ chén đĩa, được bé trí trong nhà của

các cộng tác viên hay tình nguyện viên gọi chung là tình nguyện viên, và các nhãn

hành động cụ thể như là ăn sang, ăn tối, đi ngủ, được thu thập bằng cách ghi lại

trực tiếp bởi các tình nguyện viên trong quá trình sinh hoạt trong không gian sốngcủa họ Các tình nguyện viên phải là những người có cuộc song va sinh hoạt mộtmình dé việc thu thập dữ liệu được chính xác và phù hợp với mục tiêu nghiên cứu.Mỗi tình nguyện viên sẽ đại diện cho một mẫu dữ liệu Mỗi mẫu dit liệu này gồm cóhai thành phan Thanh phân thứ nhất, là thông tin thu thập từ các cảm biến, mối điểm

dữ liệu có 3 thành phần gồm có thời gian diễn ra sự kiện, mã id của thiết bị, và giá

16

Trang 16

trị mới của cảm biến, thiết bị; các giá tri của cảm biến, thiết bị là giá trị nhị phân (0hoặc 1) được thu thập theo thời gian thực và sắp xếp theo trình tự thời gian diễn ra.Thành phần thứ hai là dữ liệu về các hoạt động của cộng tác viên trong thời gian thực,mỗi điểm dữ liệu sẽ có 3 thành phần: thời gian bắt đầu của hoạt động, thời gian kết

thúc của hành động, và mã 1d tường ứng của hành động.

House A House B House C

Annotation Bluetooth Diary Bluetooth

Bang 2.1: Cac mẫu dư liệu được tác giả thu thập [1]

Hình 2.1: Căn nhà A và bé trí của các cảm biến [1]

17

Trang 17

2.1.1.3 Phương pháp nghiên cứu

Cách tiếp cận của tác giả đối với bộ dữ liệu thu thập được đó là từ thời gian bắt đầu

tức là dữ liệu đầu tiên của bộ dữ liệu cảm biến đến dữ liệu cuối cùng tức dữ liệu cảmbiến cuối cùng thu thập được trong quá trình xây dựng bộ dit liệu, chia chiều dài thời

gian đó thành T phan bằng nhau có với giá trị Ar gọi là “timeslice” liên tiếp nhau Ứng

với mỗi khoảng A: có một vector đại diện cho dữ liệu của timeslice này 3, =

(xẢ,x2, ,xI~1,x3T tương ứng chứa dit liệu của tất cả N cảm biến có trong hệ

thống, vector này chưa các giá trị nhị phân x! = {0, 1} các giá trị này có thé là giá trịcảm biến hoặc giá trị cảm biến đã được chuyển dạng thành 3 kiểu biéu diễn khác nhau

—J Le _ L ÌL Ju

(a) Raw (b) Changepoint (c) Last-fired

Hình 2.2: các chuyên dạng của dữ liệu [1]

và tương ứng với mỗi khoảng thời gian đó sẽ có giá trị y là id của hành động đang diễn ra Các dạng biểu diễn dit liệu có 3 loại gồm raw tức dữ liệu của came biến,

changepoint thức giá tri 1 khi có sự đảo trạng thái , về 0 ở các phần còn lại và

last-fired lên 1 khi có sự đảo trạng thái và tro về 0 khi có thiết bị khác đảo trạng thái Sử

dụng các mô hình như Naive Bayes (NB), Hidden Markov model (HMM), Hidden

semi-Markov model (HSMM), Conditional random fields (CRF) dé có gang tim rađược đặc trưng của mỗi hành động gắn với những cảm biến nào

Nghiên cứu của tác giả trải qua 2 giai đoạn chính Giai đoạn đầu tiên tác giả đánh giáchiều dài của A: để tìm ra khoảng timeslice tối ưu nhất Với cả 3 bộ dữ liệu thu thậpđược, sử dụng mô hình HMM và kết hợp sử dụng phép đo F-Measure Kèm theo đó

là khi chia thời gian thành các phan thời gian băng nhau này thì việc tái gán nhãnhành động vào các phần timeslice này bản thân cũng sẽ mang theo những sai sót so

với gan nhãn hành động gốc vi trong một timeslice có chiều dài A; này thì có thé có

nhiều hoạt động xảy ra đâu đó trong khoảng timeslice này Tác giả chọn gán nhãnhành động trên khoảng timeslice dựa trên hành động có thời gian xuất hiện là dài nhất

đồng thời so sanh việc gán nhãn mới và nhãn gốc xem độ sai sót khi sử dụng khỏngtimeslice A; này là bao nhiêu phan trăm kết hợp với phép đo F-Measure trên mô hình

18

Trang 18

HMM để xem xét và đánh giá một cách thủ công xem nên chọn khoảng A; nào là hợp

Hình 2.3: Giá trị tương quan của mỗi kiêu dit liệu với các timeslice khác nhau của

dir liệu căn nhà A [1]

Trang 19

ost —e— Raw

A: = 600s 10.6 17.4 13.7

Bảng 2.2: phan trăn lỗi của gán nhãn mới đối với gán nhãn gốc [1]

Dựa vào những dữ liệu ké trên về các khoảng thời gian khác nhau, tác giả đã nhậnđịnh rằng khoảng thời gian A; = 60 giây là một khoảng thời gian phù hợp và sẽ sử

dụng cho quá trình nghiên cứu giai đoạn thứ 2.

Giai đoạn 2 của nghiên cứu, tác giả sử dụng các timeslice với chiêu dai 60 giây kèm

theo gan nhãn của các phân timeslice này đê train cho các mô hình toán học và test hiệu suât của các mô hình này với nhau.

20

Trang 20

Model Feature Precision Recall F-Measure Accuracy

Last 60.2415.4 73.8412.5 66.0413.7 91.0+7.2

Raw 59.2+18.3 56.1417.3 57.2417.3 89.8+8.5

CRF Change 73.5+16.6 68.0+16.0 70.4+15.9 91.4+5.6

Last 66.2+15.8 65.8+14.0 65.94146 96.4424

Bang 2.3: kết qua của giai đoạn 2 ở căn nha A [1]

2.1.1.4 Kết luận của tác giả

Trải qua quá trình nghiên cứu, tác giả đúc rút được những kết luận về cuộc nghiêncứu như sau Trong 3 phép biến đổi dữ liệu thì khi áp dụng vào các mô hình, kiểu raw

sẽ cho hiệu suất thấp nhất và ngược lại change point sẽ cho hiệu suất tốt hơn cả, môhình có độ phức tạp không quá cao như NB model sẽ cho hiệu quả thấp nhất và ngượclại mô hình có tính phức tạp cao nhất trong nghiên cứu này là HSMM và CRE sẽ chohiệu quả nhận diện hành động tốt nhất và mỗi mô hình sẽ có một ưu nhược điểmriêng Và quan trọng nhất là khi xem xét trên cả ba mẫu dữ liệu từ ba căn nhà với batình nguyện viên khác nhau thì không tìm thay một khang timeslice nào tối ưu cho ca

ba mẫu, mỗi mẫu sẽ có một khoảng At tối ưu khác nhau

2.1.1.5 Những kết luận thông qua bài nghiên cứu

Về hướng tiếp cận bài toán của tác giả, tác giả tiếp cận đến bài toán HAR với mục

tiêu là nhận diện và dự đoán hoạt động, hành vi của người dùng thông qua những

tương tác với các thiết bị gia dụng, chính xác hơn là với các cảm biến gắn trên cácthiết bị Bài toán không nhằm mục tiêu điều hướng hệ thống, chỉ dẫn hay có bất kỳtác động nào đến với người dùng hay hệ thống mà chỉ theo dõi và dự đoán cũng nhưghi nhận lại những hoạt động hằng ngày của người dùng

21

Trang 21

Về phương pháp xây dựng bộ dữ liệu thì ngoài việc ghi nhận lại những tương tác củangười dùng đối với hệ thống thông quá các cảm biến digital thì việc lấy dữ liệu vềcác hoạt động trong ngày là điều cần thiết cho quá trình nghiên cứu và huấn luyện

mô hình, việc thu tập dữ liệu về hoạt động này có thể coi như là một hành động gánnhãn cho dữ liệu bằng cách gan cho một khoảng thời gian cụ thé với một nhãn tươngứng với một mã cho một hành động cụ thê ví dụ như: đi ngủ, chuẩn bị bữa sang,

Về phương pháp nghiên cứu thì bang cách chia thời gian thành các phan thời gian cóchiều dài đồng nhất và kết hợp với các gan nhãn hành động dé huấn luyện mô hình

phục vụ cho mục tiêu của bài nghiên cứu thì có thé dé dàng nhận ra tác giả dang ứngdụng một mô hình máy học Supervised learning Kết hợp với việc can phải có dit liệutrong một khoảng thời gian để đưa ra dự đoán nên hệ thống sẽ chỉ nhận diện được

những hành động đã diễn ra so với thời gian dự đoán.

Vậy có thê thấy mô hình mà tác giả bài viết [1] xây dựng này hoàn toàn không phùhợp với mục tiêu ban đầu của bài nghiên cứu nay khi muốn tạo ra một mô hình họckhông giám sát tức không có gán nhãn sẵn cũng như áp dụng vào hệ thống dé dựđoán và chủ động can thiệp hỗ trợ người dùng theo thời gian thực Tiếp theo đó là

việc xác định khoảng khung thời gian quá phức tạp và khó có thể tìm được một khoảng thời gian tối ưu thích nhất nhưng trong bài viết có đề cập, cộng với việc tái

gán nhãn sẽ khiến cho đữ liệu train sẽ có sai lệch so với thực tế

Nhưng kèm theo đó là những điểm sáng cần học hỏi từ bài nghiên cứu trên cho công

cuộc nghiên cứu của bài viết này Thứ nhất, góc nhìn giữa việc ánh xạ những thiết bịđược sử dụng trong khoảng thời gian ngắn với hoạt động của người dùng Thứ hai,

việc chia thời gian của hệ thống thành các phần thời gian nhỏ hơn để dễ dành nhậndiện được những hành động của người dùng Và cuối cùng, việc chuyên đổi dự liệucủa thu được từ các cảm biến sẽ có những tác động khác nhau đối với việc nhận diện

và dư đoán các hành vi của người dùng.

2.1.2 Bài viết “Activity Recognition in the Home Using Simple and

Ubiquitous Sensors” [2]

2.1.2.1 Hướng tiếp cận của bài nghiên cứu

Hứng tiếp cận của bài viết này khá tương đồng với bài viết trên khi đặt trong tâm củaviệc nhận diện hành động, hành vi của người dùng với việc sử dụng thiết bị và tươngtác với các cảm biến Cùng bằng cách thu thập dữ liệu từ các cảm biến và đồng thờiyêu cầu những người tình nguyện viên tham gia vào quá trình xây dựng dữ liệu, ghichép và lưu trữ lại dữ liệu về hành động hay nói cách khác là chủ động gán nhãn cho

22

Trang 22

hành động đề sử dụng cho quá trình nghiên cứu và huấn luyện về sau, mô hình cũngđang tập trung vào việc nhận diện hành vi của một người duy nhất trong hệ thống.Bài viết rất phù hợp dé sử dụng làm tư liệu nghiên cứu, tìm hiểu.

2.1.2.2 Thu thập dữ liệu

Quá trình thu thập dữ liệu dé sử dụng trong bài viết [2] này khá tương đồng với vàiviết [1] khi tập trung vào dit liệu từ các cảm biến nhị phân {0, 1} nhưng khác ở chỗ

là những cảm biến nhị phân này chỉ theo dõi việc chuyên trạng thái của cảm biến thay

vì trạng thái hiện tại của thiết bị được theo dõi, nói cách khác là cảm biến này giốngnhư kiểu biến đổi dữ liệu change-point của bài viết trước Việc gan nhãn hành động

cũng có đôi chút khác biệt khi thay vì chủ động ghi âm lại dữ liệu hành động khi bắtđầu và kết thúc [1] thì [2] sử dụng phương pháp the Experience Sampling Method(ESM) [3, 4] và một thiết bị điện tử mang theo bên người có tác dụng là một bộ đếm

thời gian, trong bài viết của tác giả thì cứ sau 15 phút thiết bị điện tử đó sẽ phát ramột tiếng “bip” để thông báo và sau đó người dùng sẽ trả lời một loạt câu hỏi như:

đang làm gi, đã làm việc đó được bao lâu, việc thu thập dtr liệu nay diễn ra trong

suốt quá trình lay mẫu

2.1.2.3 Phương pháp nghiên cứu

Trong bài nghiên cứu của tác giả thì tác giả cũng sử dụng những frame thời gian dénhận diện hành động nhưng khác với [1] khi mọi hành động đều được nhận diện trênmột frame time duy nhất thì trong bài nghiên cứu [2] tác giả sử dụng nhiều frame

time, mỗi hành động được gán nhãn sẽ được tính thời gian thực hiện trung bình và

quá đó xác định frame time cho hành động đó.

23

Trang 23

88 Bathroom Toilet Flush

58 Bathroom Light

| I

Example for LI | Example for |

Feature windows

Hình 2.7: Ví dụ về của sé trượt nhận diện [2]

Việc áp dụng các frame nhận diện khác nhau cũng sẽ dẫn đến việc cần phải sử dụng

đến kỹ thuật cửa số trượt dé nhận diện các hành động (Hình 2.7), cứ sau một khoảng

At thì sẽ thực hiện nhận diện một lần Chiều dài frame time của một hành động là L¡

thì tại thời điểm t, sẽ sử dụng khoảng thời gian từ t - Li đến t dé tính toán và gán nhãn,

24

Trang 24

Sử dụng mô hình NB để tính xác suất khả năng có thé xảy ra của các hành động đã

LỊ T | Í

TT ST Tf I1 ee ee I1

Hình 2.8: Ví dụ về tinh toán xác xuất xảy ra của hành động đi vệ sinh [2]

Có ba phương pháp được sử dụng trong đo lường và đánh giá việc nhận diện hoạt

động Phương pháp thứ nhất tính theo phần trăm thời gian mà hoạt động được nhận

Start End: Start End : Start End °

Detection : Detection : Detection

Percentage 0% =: Percentage 50% : Percentage 20%

Hình 2.9: Phương pháp tinh phan trăm thời gian [2]

Phương pháp thứ hai là dựa theo khoảng thời gian tốt nhất, phương pháp này sẽ thêm

một khoảng delay +@ với mục tiêu là dé frame time có thé bắt được điểm kết thúc của

hoạt động.

25

Trang 25

Activity Not Activity Not Activity Activity Detected Activity Not

Detected Detected Detected with Delay Detected

End: Start End : Start End

ActivityNot : Activity : Activity Detected Detected Detected

Hình 2.11: Phương pháp nhận diện ít nhất một lân [2]

Một điềm khác nữa ở bài viết này là so với bai [1] là việc nó còn xác định thêm một

số dữ liệu khác nữa để phục vụ cho việc nhận diện hành động, đánh giá xem trong

khoảng thời gian mà một hành động đang diễn ra (dựa vào gán nhãn hành động) xem

xét việc một cam biến cụ thể nào đó có được kích hoạt hay không (exist), xem xétxem liệu một cảm biến có được kích hoạt trước một cảm biến nào hay không (beforesensorID), xem xét vị trí mà cảm biến được gan (cửa, tủ, ) có được kích hoạt trướccảm biến gắn trên một ví trí khác không(before type), và cuối cùng là xem xét xem

cảm biến trong căn phòng này có được kích hoạt trước căn phòng kia hay không

(before location); Ba đặc điểm cuối gọi chung là xem xét tính “before”

26

Trang 26

Preparing lunch Toileting

Preparing breakfast

Bathing Percentage of

Dressing Time

Grooming Preparing a beverage Doing laundry

Preparing breakfast

Bathing a

l Activity Detected Dressing

Grooming Preparing a beverage Doing laundry

Preparing breakfast Preparing a snack Bathing

Going out to work Dressing

Grooming Preparing a beverage

Doing laundry

Bang 2.4: Kết qua cuộc nghiên cứu, No.Exp là số lượng mau train, E là áp dung

exist, E +BT là áp dung exit + before type

Activity Detected

2.1.2.4 Kết luận của tác giả

Qua quá trình nghiên cứu tác giả đúc rút ra rằng, những hoạt động có tính lặp lại

nhiều tức có nhiều mẫu thì kết quả nhận diện sẽ tốt hơn Thuộc tính exist sẽ cho hiệu

quả nhận diện tốt nhất trong quá trình nghiên cứu, việc thêm dữ liệu “before” khôngthực sự mạng lại hiệu quả, và dự doan sẽ có tác dung tốt hơn khi bộ dữ liệu được mởrộng Việc các dữ liệu về nơi cảm biến được gắn hay căn phòng được gắn sẽ không

27

Trang 27

có nhiều tác động và hoàn toàn có thé bỏ quả trong quá trình phát triển mô hình.Phương pháp do phan trăm thời gian (Hình 2.9) để nhận diện hành động cho hiệuquả kém nhất trong khi áp dụng khoảng thời gian tốt nhất (Hình 2.10) cho hiệu quảcao nhất.

2.1.2.5 Những kết luận thông qua bài nghiên cứu

Có thé thấy việc cho mỗi hành động được nhận diện dựa trên một frame time tối ưukhác nhau thay vi dựa trên một frame time chung (timeslice), đồng thời cơ chế cửa

số trượt để xác định khoảng thơi gian nhận diện sẽ cho phép nhận diện được diễn ratốt hơn khi tránh được triết dé trường hợp có đến 2 hành động cùng xuất hiện trên

cùng một time frame Sử dụng những thay đổi về trạng thái của cảm biến làm nền

tang để nhận diện hành động Những thông tin về vị trí lắp đặt hay địa chỉ lắp đặt sẽ

không quá ảnh hưởng khi áp dụng vào mô hình không quá phức tạp và hoàn toàn có

thể bỏ qua tùy vào mục tiêu hay quy mô của cuộc nghiên cứu

Ngoài ra bài nghiên cứu còn có một số điểm chưa thực sự tối ưu, đầu tiên là quá trìnhlay mau, gan nhãn cho hành động đang diễn ra không thực sự tối ưu khi những hoạtđộng diễn ra trong thời gian ngắn dé dàng bi lắn át trong quá trình lay mẫu và đồngthời việc thu thập dữ liệu hành động thông quá trả lời một số câu hỏi cũng đòi hỏiviệc cần phải xử lý dữ liệu một cách thủ công và sẽ không hiệu quả nếu áp dụng vào

hệ thống thực tế

2.2 Hướng tiếp cận

Thông qua một số bài viết có cùng chủ đề và mục tiêu đề tài cũng như phân tích các

ưu cũng như nhược điểm về cả cách tiếp cận, phương pháp xây dựng dữ liệu, mô

hình, Dựa vào đó nhóm đã có một cách tiếp cận mới về chủ dé HAR Đề tài này

muốn đặt trong tâm nhận diện hành động của người dùng lên các thiết bị được sử

dụng, nói đúng hơn là dựa vào sự thay đổi về mặt trạng thái của các thiết bị có trong

hệ thong và đánh giá nó một cách độc lập thay vi đặt vào những cái khung cố địnhcủa những gán nhãn về hành động được diễn ra bởi ngời dùng Cách tiếp cận này chophép mình bỏ quá trình gán nhãn thực tế các hành động được diễn ra

Phương pháp gan nhãn thủ công như trong bai viết [1] hay phương pháp ExperienceSampling Method (ESM) [3, 4] áp dụng trong bài [2] đều chỉ ra những yếu điểm khiđòi hỏi người dùng phải trực tiếp khai báo cũng như cung cấp một số thông tin, dữliệu về hoạt động, hay thông qua những thiết bị gắn trên người như [5, 6, 7] Ngườidùng luôn phải mang trên người một số thiết bị Không bàn đến tính ứng dụng hayhiệu quả nhưng rõ ràng một hệ thống Smart home sinh ra là dé giúp người dùng trở

28

Trang 28

nên thuận tiện và thoải mái thì nay phải đáp ứng các yêu cầu hay thực hiện một loạtcác quỳ trình, quy định dé gan nhãn cho các hành động Việc gan nhãn này cũng biảnh hưởng bởi thời gian lay mẫu khi thời gian lay mẫu càng dài tức có càng nhiều dữliệu được gán nhãn thì hiệu suất của mô hình cũng sẽ được cải thiện theo nhưng kéotheo đó là bat tiện lâu dài cho người dùng Và các cách tiếp cận trên sẽ chỉ hiệu quavới các hệ thông không có những thay đổi ké cả cấu trúc hệ thống hay thói quen củangười Vì khi có những thay đổi về thiết bị hay thói quen thì đòi hỏi hệ thống cầnphải lấy mẫu lại từ đầu vì giờ nó đã không phù hợp nữa Kèm theo đó là việc gánnhãn sẽ có những sai sót và thiếu sót nhất định khi sử dụng các kỹ thuật xử lý ngônngữ tự nhiên [8], trong khi việc gán nhãn thủ công tỏ ra quá lãng phí cả về chi phi và

thời gian.

Voi việc không gan nhãn các hoạt động sẽ có thé kéo theo việc nhận diện không thécho ra một gán nhãn cụ thê mà chỉ gom thành các nhóm trừu tượng với các đặc trưng

về các thiết bị sử dụng và các khoảng thời gian đề tính toán xác suất và đưa ra các dự

đoán trong tương lại gần đề từ đó đưa ra những điều chỉnh hệ thống cho phù hợp Vìđang hướng đến một mô hình unsupervised và kèm theo đó là sự gọn nhẹ dé có thénhúng vào hệ thống IoT nên đòi hỏi việc lựa chọn và xây dựng mô hình cần phải cânnhắc Trong phạn vi nghiên cứu của khóa luận này, sẽ sử dụng kỹ thuật Data mining

và 2 mô hình chính là K-Means va Association rules.

2.3 Data mining

Data mining là một nhánh của khoa hoc dữ liệu, là tập hợp các quá trình khám pha

các mẫu, mối quan hệ từ các bộ dữ liệu Nó liên quan đến việc trích xuất đặc trưng

và thông tin có giá trị từ đữ liệu bằng cách áp dụng các kỹ thuật tính toán, thuật toánthống kê và phương pháp học máy khác nhau Mục tiêu của việc khai thác dữ liệu làkhám phá các mô hình, xu hướng và mối liên kết ân có thê được sử dụng để đưa raquyết định, dự đoán kết quả trong tương lai và hiểu sâu hơn về các bộ dữ liệu phức

tạp.

29

Trang 29

Hình 2.12: Các thành phân của khoa hoc dir liệu [9]

Khai thác dữ liệu bao gồm rất nhiều các kỹ thuật và phương pháp, gồm có phân loại,

hồi quy, phân cụm, phát hiện bất thường và khai thác văn bản, cùng nhiều kỹ thuậtkhác Những kỹ thuật này được áp dụng cho dữ liệu có cấu trúc và phi cấu trúc từnhiều nguồn khác nhau, chăng hạn như cơ sở dữ liệu, kho dtr liệu, trang web, media,cảm biến, Dữ liệu đầu vào thường được cung cấp dưới dang bảng và dau ra có thé

là các quy tắc, cụm, cấu trúc cây, đồ thị, phương trình, mẫu,

Quá trình khai thác dữ liệu thường bao gồm một số bước:

Chuẩn bị dữ liệu: Bước này bao gồm việc thu thập, tích hợp, làm sạch và chuyền đôi

dữ liệu sang định dang phù hợp dé phân tích Nó bao gồm các nhiệm vụ như loại bỏcác bản sao, xử lý các giá trị bị thiếu và chuẩn hóa dữ liệu

Phân tích dữ liệu thăm dò: Trong bước này, các kỹ thuật thống kê và trực quan hóa

dữ liệu được sử dụng dé hiểu rõ hơn về tập dữ liệu, xác định các mẫu và hiểu mốiquan hệ giữa các biến

Lua chọn/Trích xuất tính năng: Liên quan đến việc chọn các tinh năng phù hợp nhất

hoặc chuyên đổi dir liệu thành biểu diễn có chiều thấp hơn dé cải thiện hiệu suất và

hiệu quả của quá trình khai thác.

30

Trang 30

Xây dựng mô hình: Các thuật toán khai thác dữ liệu được áp dụng cho dữ liệu đã

chuẩn bị san dé xây dựng các mô hình dự đoán hoặc khám phá các mẫu Bước nàybao gồm việc lựa chọn các thuật toán phù hợp dựa trên vấn đề hiện tại, áp dụng chúng

vào dữ liệu và tinh chỉnh các mô hình.

Đánh giá và diễn giải: Các mô hình hoặc các mẫu được tạo ra sẽ được đánh giá bằng

các sô liệu thích hợp và được xác thực đê đảm bảo tính chính xác và độ tin cậy của

chúng Các két quả được giải thích đê hiéu rõ hơn va đưa ra quyết định sáng suot.

Triển khai: Bước cuối cùng liên quan đến việc triển khai các kết quả khai thác dit liệuvào các ứng dụng hoặc hệ thống trong thế giới thực Điều này có thể bao gồm việctích hợp các mô hình vào hệ thống vận hành, tạo báo cáo hoặc trực quan hóa chongười ra quyết định hoặc triển khai các quy trình tự động dựa trên các mẫu được phát

hiện.

2.3.1 Unsupervised learning

Học không giám sat (Unsupervised learning) là một nhánh của học máy (machine

learning) xử lý việc khám phá và phân tích dữ liệu mà không có sự hiện diện của các

nhãn rõ ràng hoặc các biến mục tiêu được xác định trước Khác với học có giám sát(supervised learning), trong đó thuật toán học từ các ví dụ đã được gan nhãn dé đưa

ra dự đoán hoặc phân loại các trường hợp mới, học không giám sát tập trung vào việc tìm ra các mẫu, cấu trúc và mối quan hệ tiềm ân trong dữ liệu chính nó.

Trong học không giám sát, thuật toán được cung cấp một tập dữ liệu bao gồm chỉ các

đặc trưng đầu vào và mục tiêu của nó là khám phá những thông tin có ý nghĩa và tôchức dữ liệu một cách hiệu quả dé phát hiện các cau trúc hoặc nhóm tiềm an Thuật

toán học đề nhận biết sự tương đồng, khác biệt và mối quan hệ giữa các điểm dữ liệu

mà không có kiến thức trước

Mục tiêu chính của học không giám sát là rút trích thông tin, khám phá các mẫu an

và hiểu sâu hơn về dit liệu Nó có thé được sử dụng cho phân tích dữ liệu khám phá,trực quan hóa dữ liệu, giảm chiều dữ liệu và phân cụm

2.3.2 Một số mô hình máy học được nghiên cứu

2.3.2.1 K-Means

Thuật toán K-Means là một phương pháp phân cụm được sử dụng rộng rãi để chia dữliệu thành các nhóm nhỏ riêng biệt dựa trên các đặc điểm tương đồng của các điểm

31

Trang 31

dữ liệu Nó được ứng dụng rộng rãi vì tính đơn giản, hiệu quả và có thê áp dụng trongnhiều lĩnh vực, hoàn cảnh và mục tiêu khác nhau K-Means còn tỏ ra hữu dụng trongcác bước tiền xử ly dit liệu khi có thé chia dit liệu thành các phan với các đặc điểmriêng dé từ đó có thé chia bài toán, vấn đề thành các bài toán nhỏ hon và từ đó dễdàng hơn trong việc xử lý và xây dụng mô hình cho phù hợp nhất ứng với mỗi đặc

Hinh 2.13: mot vi du vé ap dung K-Means [9]

Xây dựng thuật toán:

e Khởi tạo: Chọn K điềm làm trung tâm ban đầu (thường là các điểm ngẫu

nhiên).

e Gan nhãn: Gan từng điểm dữ liệu vào trung tâm gần nhất dựa trên một độ đo

khoảng cách (thường là khoảng cách Euclid).

e Cập nhật: Tinh lại trung tâm bằng cách tính giá trị trung bình của các điểm dữ

liệu trong mỗi nhóm.

e Lap: Lap lại các bước gan nhãn và cập nhật cho đến khi thuật toán hội tụ hoặc

Trang 32

Khoảng cách Euclid:

Trong không gian n chiều, khoảng cách từ điểm x đến điểm y là:

e Đơn giản: Điểm mạnh quan trọng nhất của thuật toán K-Means là tính don

giản Tinh chat trực quan của thuật toán giúp dễ hiéu dễ triển khai và áp dụng

e Khả năng mở rộng: K-Means có hiệu suất tính toán tốt và có thé xử lý được

các tập dữ liệu lớn với số lượng đặc trưng hợp lý

e Linh hoạt: Thuật toán có thé được áp dụng cho nhiều kiểu dữ liệu, bao gồm cả

biến số và biến phân loại

e Khả giải thích: K-Means cung cấp kết quả có thể giải thích khi mỗi điểm dữ

liệu được gán vào một nhóm cụ thé, giúp hiéu và phân tích dữ liệu theo các

đặc trưng chung được gom nhóm.

Điêm yêu:

e Khởi tạo: Việc khởi tạo tác điểm tâm của cụm sẽ ảnh hưởng đến kết quả cuối

cùng, và đồng thời nhãn của các điểm dữ liệu cũng sẽ có sự thay đồi tương đốivới mỗi lần chạy

e Nhiễu: K-Means dễ bi ảnh hưởng bởi những dữ liệu nhiễu, chúng sẽ khiến

việc xác định tâm và phân cụm, đòi hỏi phải xử lý, loại bỏ tín hiệu nhiễu hoặc

tăng thêm số lượng tâm dé gom nhóm các giá trị nhiễu

e Lựa chọn K: Khó xác định được K tối ưu cho việc phân cụm, phân lớn phải

dựa vào kinh nghiệm và hiệu suất của mô hình Có thé phải adụng một số kỹ

thuật như elbow hoặc silhouette để xác định K

2.3.2.2 Association rule

Association rule là một kỹ thuật trong khai thác dữ liệu va hoc máy nhằm mục đíchkhám phá các mối quan hệ và mẫu trong các bộ dữ liệu lớn Nó tập trung vào việckhám phá các mối liên hệ hoặc sự xuất hiện đồng thời giữa các items và event,

Association rule thường được biéu diễn dưới dạng câu lệnh “if-then” Ví du: một quytắc có thé nêu rõ răng nêu khách hàng mua mặt hang A và mặt hàng B thì họ cũng có

khả năng mua mặt hàng C Các quy tắc này cung cấp thông tin chỉ tiết hữu ích mà

33

Trang 33

doanh nghiệp có thể sử dụng để nâng cao chiến lược tiếp thị, tối ưu hóa vị trí sản

phẩm và cá nhân hóa trải nghiệm của khách hàng

Association rule thường được biéu diễn dưới dang XY tức Y diễn ra khi X đã diễn

ra, thường được đo lường tin cậy của các điều kiện bằng một số giá tri: support,

confidence, lift,

Một số định nghĩa cân thiết:

e Item: đại diện cho một đơn vi dữ liệu

Ký hiệu: i, 1 = {i1, la, in} 114 một tập chưa n item

e Itemset: dai diện cho một bộ chứa các đơn vi dữ liệu

Ký hiệu: S, S cI, S là một itemset của I, S là một tập con của I

e Transaction: là một list itemset

Ky hiệu: T, T = {S1, So, Sm} S; là một itemset

Một sô thước do về độ tin cậy cua Association rule

e Support: Tỷ lệ giữa số phan tử của transaction chứa item hoặc itemset so với

tong số phan tử transaction hay cũng có thé hiểu là tần số xuất hiện của item

hoặc itemset trong transaction.

Ký hiệu: support() range: [0, 1].

Support của X đối với transaction T có m phan tử:

support(X) = Yis STs 710)

m

¢ Confidence: Tỷ lệ giữa số phần tử của transaction chứa cả X và Y trên số

phân tử của transaction chứa X của rule X—>Y

Ký hiệu: confidenceQ range [0, 1]

Confidence của rule XY :

support(X UY)

confidence (X—>Y) = support(X)

° Lift: Ty lệ giữa số phan tử của transaction chứa cả X va Y trên số phan tử

cua transaction chứa Y cua rule X—>Y

Ky hiệu: lift Q range [0, 00]

Lift của rule XY :

_ support(X UY)

lift X—>Y) = ~support(y)

Xây dựng thuật toán

34

Trang 34

1 Brute-force

Thuật toán này sẽ tập trung vét cạn tất cả trường hợp có thê và sẽ tìm ra các

itemset có confident lớn hơn một ngưỡng min nao đó

Hình 2.16: ví dụ về quá trình tìm 1temset của thuật toán Brute-force [10]

e Nhược điểm: Tốn khá nhiều thời gian thực hiện Mặc dù sau khi cải tiến thuật

toán, các quy tắc còn lại đã giảm đi rất nhiều Tuy nhiên, thời gian thực hiện

vẫn rất lớn

35

Trang 35

2 Apriori Property

Nếu X là một tap có tỷ lệ xuất hiện thường xuyên, thì cũng có nghĩa là tat cả cáctập con của X đều là tập xuất hiện thường xuyên Điều này có thé dé dàng thay

được, bởi vì mỗi lần X xuất hiện thì các tập con của nó đều xuất hiện

hay:Support(X) < Support(Y), với YEX.

Frequent

ltemset

Hình 2.17: Minh họa về một itemset xuất hiện thường xuyên [11]

Và ngược lại nêu Y là một tập xuất hiện không thường xuyên, thì điều đó cũng có

nghĩa là các tập lớn hơn Y mà xuất phát từ Y thì đều xuất hiện không thường

xuyên Do đó, một hệ quả được rút ra là, nếu Y là tập xuất hiện không thường

xuyên thì ta không cần tiếp tục tìm thêm nữa

Pruned ~\

Hình 2.18: Minh họa về khi itemset không xuất hiện thường xuyên [11]

36

Tiêu đề	Hệ thống giám sát, quản lý, kiểm soát các thiết bị điện, hướng tới phân tích dữ liệu và hành vi người dùng
Tác giả	Phan Nhật Hoàng
Người hướng dẫn	TS. Phạm Quốc Hưng, ThS. Phan Đình Duy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Kỹ thuật máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	70
Dung lượng	41,03 MB

Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống giám sát, quản lý, kiểm soát các thiết bị điện, hướng tới phân tích dữ liệu và hành vi người dùng

Phân tích và thiết kế hệ thống IoT