5Quá trình chuyền trạng thái trong mô hình Markov...--- 5 -6Chuỗi vị trí của quá trình di chuyển xét trên một trục thời gian .... Một hướng tiếp cận cho bài toán nhận diện là: xây dựng m
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
PHẠM MINH NGHỊ
NHAN DIEN CON NGƯỜI DUA TREN HANH VI
DI CHUYEN KHONG - THỜI GIAN
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
TP HO CHI MINH, tháng 7 năm 2013
Trang 2Công trình được hoàn thành tại: Trường Dai Học Bách Khoa - DHQG-HCM
Cán bộ hướng dẫn khoa học: PGS.TS Cao Hoàng Trụ
2 TS Lê Thanh Vân - 5 Ă Ăn 1134
3 TS Nguyễn Tuấn Nam - ¿2 + + ++s+c+ce+xvxersceee
4 TS Võ Thị Ngọc Châu - - 1n k,5 PGS.TS Cao Hoàng TTrụ -ĂĂĂ S25 se
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập -Tự do -Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: PHAM MINH NGHỊ, MSHV: 11070462 Ngày, tháng, năm sinh: 11/04/1985 - - (c5 22+ Nơi sinh: TP HCM
Chuyên ngành: KHOA HỌC MAY TÍNH Mã số: 604801
I TÊN DE TÀI: NHẬN DIỆN CON NGƯỜI DỰA TREN HANH VI DI CHUYENKHÔNG-THỜI GIAN - 52 1 S1 E212 121221 121221211 211121111 112121121 11211 ra
II NGÀY GIAO NHIỆM VU: 21/01/2013 ccccc252 2522212212212 121E212EEEE.crtre
II NGÀY HOÀN THÀNH NHIỆM VU: 21/06/2013 -c5c-cc c2
IV CÁN BỘ HƯỚNG DÂN: PGS.TS CAO HOÀNG TRỤ
TP HCM, ngay thang năm 2013
CÁN BỘ HƯỚNG DÂN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TRUONG KHOA
Trang 4LỜI CÁM ƠNTôi xin gửi lời cảm ơn đên gia đình tôi, những người luôn ủng hộ và tạo mọi điêukiện tôt nhât cho việc học tập, nghiên cứu của tôi.
Xin chân thành cảm ơn thây, PGS.TS Cao Hoàng Trụ Trong suốt một năm quathầy đã tận tình chỉ dẫn tôi từng bước hoàn thành luận văn này
Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tat cả quý thay cô tạitrường Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật
Máy tính.
Trang 5TOM TATDấu vết vị trí của người sử dụng điện thoại di động chứa các thông tin về mặt thờigian và không gian của quá trình di chuyển Những thông tin này mang tính đặctrưng cao và có thể được dùng làm tham số cho bài toán nhận diện Đề tài nhămmục tiêu cải tiến các phương pháp nhận diện bang cách thêm yếu t6 thời gian vàomô hình Markov dùng để mô phỏng quá trình di chuyển của một người sử dụngđiện thoại di động Ý tưởng là xây dựng một mô hình không-thời gian có tính đặctrưng cao, có thé mô phỏng day đủ các tính chất của một quá trình di chuyển xét vềmặt không gian và thời gian của hành vi di chuyển.
Việc thực nghiệm cũng được tiễn hành dé đánh giá mức độ một người có thé đượcnhận diện thông qua hành vi di chuyển của họ Kết quả thực nghiệm cho thay một
mô hình có tính đặc trưng càng cao thì càng có khả năng được nhận diện cao.
SUMMARY
Mobility traces include both spatial and temporal aspects of individuals’ movementprocesses As a result, these traces are among the most sensitive data that could beexploited to uniquely identify an individual In this paper, we propose a spatio-temporal mobility model that extends a purely spatial Markov mobility model toeffectively tackle the identification problem The idea is to incorporate temporalperspectives of mobility traces into that probabilistic spatial mobility model to makeit more specific for an individual with respect to both of the space and time.
Then we conduct experiments to evaluate the degree to which individuals can beuniquely identified using our spatio-temporal mobility model The results show thatthe proposed model outperforms the purely spatial one on the benchmark MITReality Mining project dataset.
Trang 6LỜI CAM ĐOANTôi xin cam đoan răng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi
thực hiện và chưa có phan nội dung nào của luận văn này được nộp để lay bằng cấp
ở một trường khác.
TP.HCM, tháng 7 năm 2013
Phạm Minh Nghị
Trang 7NỘI DUNG
NOI DUNG 92255 ‹-1Ã i
DANH MUC HINH ccceccscececececsscscececessevscecececsevevacscecsevevacaceesevavavacacessevavacsceeeevavees iiiDANH MUC BANG 2 ivChương 1 MO ĐẦU 5-52 S221 1E 123112151511 21 1111151111 11111111 1111.0111 re |
I.] Xác định bài tOán -c << c1 1111011000011 11 11 1 1 0 re l1.2 Mục tiêu và phạm VI - - - «9999900000 kh 2
Chương 2 CAC CONG TRÌNH LIEN QUAN 2-5-5252 2ccE2EcEsrerrrerrred 42.1 Cac phương pháp phân tích quá trình di chuyền -. 2 2555-52: 42.1.1 Phương pháp mô hình bằng quá trình ngẫu nhiên -5-5- 42.1.2 Phương pháp khai phá luật kết hợp của các vị trÍ - <<: 7
2.2 Các phương pháp nhận diỆn - - 111199999111 1 ng 11 re, 8
2.2.1 Phương pháp nhận diện bang mô hình Markov -. - 5-5: 82.2.2 Phương pháp nhận diện bang các đặc trưng trên chuỗi Vi trí IIChương 3 CO SỞ LÝ THUY ẾTT - ¿5-5-5252 SE2E2E+E2EEEEEEEEEEEEEEEEEEEErErrrrkred 143.1 Quá trình ngẫu nhiÊn -¿ ¿+ 2E 1219191 12123 1 E21 1 1 1 1111111 14
3.2 Qua trinh /LiyocếdtdydddẳẳẳầaaadẢ44 15
3.3 Mô hình Markov An sessesssesesssesseesneeseceseesneescensesucssscensesecsusesncenesnsenneenes 16
3.3.1 Xây dựng mô hìnhh «s00 ng ke 16
3.3.2 Các bài toán trên mô hình Markov ẩn - + 55 s+s+s+czccszsccee 17Chương 4 PHƯƠNG PHAP DE XUAT ¿5-5-5252 S2 2E£E+E2EEE£ErEererersred 194.1 Tổng Quam v.ccccccccccscssssesessssesesssscsscsssesscscsessssessscsesssssesecscsesecscsesscsssseesssaseeees 19
4.2 Mo rộng mô hình MiaTKOV G0100 0 ng.204.2.1 Xây dựng mô hình - - << «G3000 20
4.2.2 Thêm yếu tổ thời gian vào mô hình - + 2s 2 s+x+s+s+x+zscs2 23
Trang 8Chương 5 THUC NGHIỆM (6 (126 322191231 111 121111111E11111 111 11x 33
5.I Tap dữ lIỆU SH nọ kh 33
5.2 Thực nghiệm và phân tích kết quả - ¿2+ 2 +2 ++++x+££ezxerzxexee: 355.2.1 Thực nghiệm với các thời khoảng ứng với budi trong ngày 365.2.2 Thực nghiệm với các thời khoảng bat kì ¿5-2555 2s+s+cscs2 385.2.3 Hạn chế của các phương pháp nhận diện - - + + 2 25525522 4Chương 6 KẾT LUẬN - ¿G6 EEEEEE*E# 9 9E EEE E131 1 1111111115131 1e 46
G.1 DONG QOD 3 46
6.2 Hướng phat triỂn - + ¿2 ©E+S2SESE*EEEEE9E1E121511212111 2111111111 46THAM KHẢO coeccccccccccccsscssccssessesceseesscsscssecsscsssesecssssscsessscsssessssscsssssessssscsseessesseesees 48
Trang 9Hình 2.1.Hình 2.2.Hình 2.3.Hình 3.1.Hình 4.1.
Hình 4.2.Hình 4.3:Hình 4.4.Hình 4.5.Hình 5.1.Hình 5.2.Hình 5.3.
lil
DANH MUC HINHBiểu diễn mô hình Random Walk trên hệ trục toa độ hai chiêểu 5Quá trình chuyền trạng thái trong mô hình Markov - 5 -6Chuỗi vị trí của quá trình di chuyển xét trên một trục thời gian 12Minh hoa mô hình Markov ấn ¿G62 EeESESESESEEEEsEseeeresererd 17Quãng đường di chuyển của một người dùng điện thoại di động trongĐồ thị biéu diễn mối liên hệ giữa các vị trí trong quá trình di chuyén 23Xác suất các quan sát đầu ra ở một vị trí trong quá trình di chuyền 28Mô hình Markov ấn biểu diễn quá trình di chuyển của một đối tượng 29Các bước nhận diện dựa trên mô hình Markov ấn - 5552 30Phương pháp nhận diện dựa trên quá trình di chuyến 35Minh họa sự chồng lan phạm vi phủ sóng của các trạm thu/phát sóng 40
Một ví dụ vê gom nhóm các Ô mạng «+32 4]
Trang 10Bảng 2.1.Bang 5.1.
Bang 5.2.Bang 5.3.Bang 5 4.Bang 5.5.Bang 5.6.
iV
DANH MUC BANGCác kiểu mẫu đặc trưng nhất của một quá trình di chuyền 8Dữ liệu dạng chuỗi vi trí của một đối tượng trong tập dữ liệu Reality
MINING (//‹4t - 34
Kết quả thực nghiệm với các thời khoảng ứng với buổi trong ngày 37Kết quả thực nghiệm với các thời khoảng bat kì -. 5-5+: 39Các mẫu đặc trưng va tần suất tương ứng -5- 5552 5s+c+cscs2 42Một phan kết quả thực nghiệm của phương pháp SpatioRes 44Một phan kết quả thực nghiệm của phương pháp SpatioTempRes 45
Trang 11Chương 1 MỞ ĐẦU
1.1 Xác định bài toán
Điện thoại di động cũng như các thiết bị truyền thông di động khác đang trở nênmột phân thiết yếu của cuộc sống con người Việc sử dụng các thiết bị di động nàyđã trở nên pho biến đến một mức độ có thé phản ánh được những hành vi, mối liênkết xã hội, hay những đặc trưng khác của người sử dụng Do đó, dữ liệu thu được từcác phương tiện truyền thông này trở thành một nguồn thông tin giá trị cho việc
nghiên cứu hành vi con người [6].
Mọi người dùng điện thoại di động đều có thé dé lại dấu vết vị trí (mobilitytraces) của mình, đây là một trong những loại thông tin giá trị và nhạy cảm nhất cóthể thu thập được từ một thiết bị di động |4] Một ví dụ về việc lưu lại dấu vết củangười dùng điện thoại di động là: khi một người di chuyển trong phạm vi phủ sóngcủa mang GSM, vi trí của người này (hay chính xác hơn là vị trí của thiết bi di độngngười này mang theo) có thể được xác định thông qua vi tri của các trạm thu/phat
sóng tương ứng Một mang thông tin di động GSM (Global System for Mobile
Communications) về co bản là một mạng tế bào (cellular network) bao phủ một khuvực địa lý nhất định, khu vực nay được chia thành các vùng nhỏ hơn gọi là các 6mang (cell), mỗi 6 mang được quản lý băng một trạm thu/phát sóng (base station)tương ứng Tùy vào mạng di động mà mỗi ô mạng có thể có đường kính từ vài chụcmeter đến vài kilometer Khi người dùng di chuyển vào một ô mạng, thiết bị diđộng của người đó sẽ nhận biết được trạm thu/phát sóng gần nó nhất Như vậy, cácvi trí của người dùng thu được từ điện thoại di động sẽ có dạng một chuỗi các trạmthu/phát sóng mà thiết bị di động của người đó thu được theo thứ tự thời gian Việcnghiên cứu các chuỗi vị trí như trên mang lại nhiều ứng dụng như: dự đoán đườngđi, qui hoạch giao thông, thiết kế và tối ưu mạng, v.v Ngoai ra, chuỗi vị trí này
còn thể hiện những đặc tính của một quá trình di chuyền, giúp nhận diện được đối
tượng di chuyển tương ứng.Về bản chat, quá trình chuyển của một người là duy nhất, đặc trưng cho ngườiđó Như vậy, với giả sử rằng thói quen di chuyển của một người không thay đổihoặc thay đôi không đáng ké theo thời gian, quan sát và phân tích dấu vết vi trí củamột quá trình di chuyển sẽ giúp nhận diện được đối tượng di chuyển tương ứng Cụ
Trang 12thể hơn, ta có thể so sánh một chuỗi vị trí thu được từ một đối tượng chưa biết vớichuỗi vị trí của những đối tượng đã biết để xác định được đối tượng chưa biết này là
ai dựa trên sự tương đông giữa các chuỗi vi trí.
Một hướng tiếp cận cho bài toán nhận diện là: xây dựng một mồ hình toán họccó thể mô phỏng được quá trình di chuyển đặc trưng của mỗi người, và từ đó, đưara các phương pháp tính toán giúp so sánh các mô hình này với nhau để tìm ra mứcđộ tương đồng giữa chúng Hai mô hình di chuyển càng giống nhau cho thay chúng
càng có xác suât cao được sinh ra từ cùng một đôi tượng [5].
Một số mô hình toán học đã được đưa ra để mô phỏng quá trình di chuyền của
con người, ví dụ như: mô hình Random Walk, mô hình Random Waypoint, mô hình
Markov, v.v Tuy nhiên, trong thực tế, các mô hình này thường không thé baotoàn được moi tính chất của một quá trình di chuyển trong thực tế, do quá trình dichuyển của một người tương đối phức tạp, chứa nhiều yếu tố đặc trưng về khônggian, thời gian, qui đạo hay vận tốc Ví dụ về một số tính chất có thể quan sát đượckhi phân tích một chuỗi vị trí của người dùng điện thoại di động: thời điểm đốitượng lưu lại một vị trí, khoảng thời gian lưu lại vị trí đó hay thời gian di chuyển từmột vị trí sang vị trí kế tiếp Do đó, dù mỗi người dùng có một quá trình di chuyểnkhác nhau, nhưng việc không phản ánh được đây đủ tất cả những tính chất trên sẽlàm giảm tính đặc trưng duy nhất của mô hình, làm ảnh hưởng đến khả năng nhận
diện dựa trên mô hình Như vậy, việc xây dựng được một mô hình đặc trưng củamôi đôi tượng di chuyên là mục tiêu quan trọng trong việc giải bài toán nhận diện.
1.2 Mục tiêu và phạm vi
Mục tiêu cua đề tài là giải bài toán nhận diện một người dựa trên hành vi di chuyên
của họ Cụ thể:e Đề tài đưa ra một phương pháp kết hợp yếu tố thời gian vào quá trình xây dựng
mô hình di chuyển Markov dùng để mô phỏng quá trình di chuyển của một
người sử dụng điện thoại di động, giúp mô hình có khả năng mô phỏng được
day đủ hơn các yếu tố về không gian cũng như thời gian của một quá trình dichuyển trong thực tế
Trang 13e Đề tài cũng đưa ra một phương pháp mô phỏng quá trình di chuyển mới, sửdụng mô hình Markov ân (Hidden Markov Model), và đưa ra phương pháp nhận
diện dựa trên mô hình này.
e Đề tài tiễn hành đánh giá các phương pháp và mô hình đề xuất dé cho thấy sựkhác biệt về hiệu quả của các phương pháp nhận diện đối với các mô hình khácnhau Từ đó chứng tỏ rang một mô hình cảng đặc trưng thì cảng có khả năng
nhận diện cao.
Các phương pháp va mô hình đề xuất trong dé tài được xây dựng và kiểm nghiệmtrên tập dữ liệu của dự án Reality Mining [6] thu được từ quá trình di chuyển củangười dùng điện thoại di động trong mang GSM Do đó, kết quả thực nghiệm sẽ đặc
trưng cho loại dữ liệu này.
Trang 14Chương 2 CÁC CÔNG TRÌNH LIÊN QUANViệc nhận diện dựa trên quá trình di chuyển gồm hai bước chính là: xây dựng môhình di chuyển và nhận dạng dựa trên mô hình [5] Chương 2 trình bảy nhữngnghiên cứu liên quan đến việc xây dựng mô hình mô phỏng quá trình di chuyển của
con người cũng như các phương pháp phân tích tính đặc trưng và nhận diện dựa
trên mô hình di chuyển này Những nghiên cứu này là cơ sở của các phương phápvà mô hình cải tién được dé xuất trong Chương 4
2.1 Các phương pháp phân tích quá trình di chuyển
2.1.1 Phương pháp mô hình băng quá trình ngẫu nhiênMột bước quan trọng trong bài toán nhận diện dựa trên dấu vết di chuyển là môhình hóa quá trình di chuyển này Như trình bày trong Chương 1, dấu vết vị trí củaquá trình di chuyển thông thường có dạng một chuỗi tuân tự các vị trí theo thờigian Những phương pháp mô hình hóa thường được sử dụng đối với dữ liệu dạngnày gồm: mô hình Random Walk, mô hình Random Waypoint, mô hình Markov,
v.v [2].
Mô hình Random Walk Mô hình Random Walk được giới thiệu để mô phỏng mộtquá trình mà sự chuyền động của nó mang tính ngẫu nhiên, gần như không thé đoántrước Trong mô hình Random Walk, một quá trình ngẫu nhiên sẽ tiến triển với các
tham sô là phương hướng ngâu nhiên và vận toc ngau nhiên.
Có thé hình dung một mô hình Random Walk như một đồ thị vô hướng tronghệ trục tọa độ vuông góc Oxy như sau: cho một điểm bắt kì trên hệ trục là đỉnh khởiđầu của một đồ thị Sau đó, chọn một đỉnh mới trên hệ trục tọa độ sao cho khoảngcách giữa đỉnh mới và đỉnh ban đầu năm trong khoảng [đ„„, dnax| nào đó, rồi nốiđỉnh ban đầu với đỉnh mới Tiếp tục nối đỉnh mới này với một đỉnh mới theo cáchtương tự Như vậy ta đã biểu diễn được hình ảnh hai chiều của một mô hìnhRandom Walk với vận tốc ngẫu nhiên ở mỗi bước tiến triển là chiều dài của mộtcạnh trong đồ thị, hướng ngẫu nhiên là góc tạo bởi các cạnh trong đồ thị với hệ trục
tọa độ, như minh họa trong hình 2.1.
Trang 15100 U qT T M H T M M M90 +
60 +1F60 +50 +40+30+20 +
10 ⁄ :
0 10 20 30 40 50 60 70 8 90 100
Hình 2.1 Biéu diễn mô hình Random Walk trên hệ trục toa độ hai chiêuMô hình Random Walk với các thông số phù hợp về sự ngẫu nhiên củaphương hướng và vận tốc sẽ giúp biểu diễn được các quá trình quan sát được trongtự nhiên như: sự di chuyển của chất lỏng, sự bay hơi của chất khí, sự dịch chuyển
của các phân tử, v.v
Tuy nhiên, hau hết các quá trình chuyển động quan sát được hàng ngày xungquanh ta đều không phải là hoàn toàn ngẫu nhiên, ví dụ như sự thay đổi thời tiết, sựdi chuyển của phương tiện giao thông trong thành phó, tỉ giá chứng khoán, v.v Tất cả những quá trình này đều phan nào có thé du đoán được Sự tiến triển của cácquá trình này phụ thuộc các ràng buộc và điều kiện bên ngoài cũng như dựa trênlịch sử tiến triển của chính nó Sự tiến triển của mô hình Randon Walk là hoàn toànngẫu nhiên, không phụ thuộc vào một tri thức đã biết nào Do đó mô hình RandomWalk không đủ phù hợp dé có thé mô phỏng được các quá trình mà sự tiến triển của
nó bi chi phôi bởi những điêu kiện phức tạp, ví dụ như sự di chuyền của con người.
Mô hình Markov Là một mô hình cải tiến giúp loại bỏ phần nào yếu tố ngẫu nhiêncủa mô hình Random Walk [2] Trong mô hình Markov, sự tiến triển của quá trình
ngẫu nhiên được chi phối bởi trạng thái hiện tại của quá trình, hay thậm chí bị chi
phối bởi N trạng thái trước đó của quá trình Do đó, một quá trình Markov sẽ tránhđược những sự thay đổi đột ngột về phương hướng và vận tốc, giúp mô hình trở nênphù hợp hơn cho những quá trình quan sát được trong thực tế Ví dụ: trong thị
trường chứng khoán giá cô phiêu của ngày hôm sau sẽ phụ thuộc vào giá và xu
Trang 16hướng mua bán của ngày hôm trước; hay vi trí của một người trong tương lai sẽ phụthuộc vào vi tri hiện tại của họ.
P(S3|S1)
P(S3]S2)P(S4|S3)
Hình 2.2 Quá trình chuyển trạng thái trong mô hình Markov Ở mỗi trạng thái, mô hình
sẽ có một phân bố xác suất chuyển đến những trạng thái tiếp theo.Mô hình Markov được sử dụng trong [5] để biểu diễn quá trình di chuyển củangười dùng điện thoại trong mạng GSM Dữ liệu thu được từ quá trình di chuyểncủa người dùng thiết bị di động trong mang GSM có dạng chuỗi tuần tự theo thờigian vị trí của các trạm thu/phát sóng Chuỗi vị trí của các trạm thu/phát sóng nàyđược xem như một chuỗi trạng thái của một quá trình Markov, mỗi trạng thái củaquá trình này ứng với một vị trí; vi trí của một người ở một thời điểm nhất địnhđược xem như trạng thái hiện tại của quá trình, và sự di chuyển của người dùng từmột vi tri sang vi trí ké tiép liền kể nó được xem như một sự chuyển trạng thái trong
chuối Makov.
Bang cách mô hình hóa quá trình di chuyển như một quá trình Markov nhưtrên, ta có thé khai thác được những yếu tố đặc trưng của quá trình Markov này, vàcũng là đặc trưng di chuyển của đối tượng tương ứng Cụ thể, ta có thể tính toánđược phân bố xác suất mà hệ chuyền từ trạng thái này sang một trạng thái khác —ung với xác suất mà đối tượng sẽ di chuyển từ vị trí hiện tại đến một vị trí kế cậnnào đó Các phân bố xác suất này được biểu diễn băng một ma trận chuyển đối(transition probability matrix) Ngoài ra, ta còn tính được phân bố xác suất củachuỗi Markov trên từng trạng thái Phân bố xác suất này được biểu diễn băng mộtvector phân bồ (stationary distribution vector)
Trang 17Moi đôi tượng sẽ có quá trình di chuyên khác nhau Do đó, mô hình hóa quatrình di chuyên của các đôi tượng này sẽ giúp sinh ra các ma trận chuyên đôi và
vector phân bố khác nhau đặc trưng cho mỗi đối tượng.2.1.2 Phương pháp khai phá luật kết hợp của các vị tríMột phương pháp mô phỏng đặc trưng của một quá trình di chuyên là khai thác mốiquan hệ giữa các địa điểm trên quãng đường mà một đối tượng đi qua [1] Ví dụ vềmối quan hệ này là: một đối tượng U; thường đi qua vị trí L; trước khi đến vị trí L,và L3, trong khi đó một đối tượng U> thường di qua vi trí L¿ rồi mới đến vị trí Lạ,v.v Những mối quan hệ này được xem xét trong từng khoảng thời gian nhất định,ví dụ như budi trong ngày hay ngày trong tuần
Việc khai thác các đặc trưng này gồm hai bước chính:
e Xây dựng đường di (path construction).
e Khai phá luật kết hợp trên đường đi nay (pattern discovery).Trong bước xây dựng đường di, độ quan trọng của một vi tri đối với một đối tượngđược xem như tỉ lệ thuận với khoảng thời gian đối tượng này ở tại ví trí đó Các vịtrí trên chuỗi vị trí ban đầu được xem xét hay loại bỏ (để tránh nhiễu) dựa trên mứcđộ quan trọng này Sau đó, giải thuật k-mean được áp dụng để gom nhóm các vị trícó liên quan với nhau thành một vị trí duy nhất Kết quả cuối cùng của giai đoạnnày là chuỗi đường đi gồm những vị trí đặc trưng và quan trọng đối với một đốitượng di chuyền
Sau đó, giải thuật Apriori tuần tự được sử dụng để khai phá luật kết hợp giữacác vị trí trên đường đi này Qua đó, các đặc trưng di chuyển của một người có théđược biéu diễn dang tập những mối kết hợp (hay còn gọi là kiểu mẫu — pattern) này.Ví dụ trình bày trong bảng sau là 5 kiểu mẫu di chuyển pho biến nhất của mộtngười trong trong khoảng thời gian là các ngày làm việc trong tuân Người này cótần suất di chuyển từ địa điểm Home đến Media Lab (chuỗi <Home, Media Lab>)cao nhất, xác suất xuất hiện của chuỗi này trên đường đi là 0.279 Chuỗi pho biếnthứ hai là <Media Lab, Home> va kế đến là chuỗi <Commonweath, Media Lab>,
V.V
Trang 18Bang 2.1 Các kiêu mau đặc trưng nhát cua một quá trình di chuyên Những kiêu mâu nàycó thê được xem là đặc trưng của một người do môi người sẽ có các kiêu mâu và tân suát
khác nhau
# Mau Tan suat
1 <Home, Media Lab> 0.2792 <Media Lab, Home> 0.2653 <Commonweath, Media Lab> 0.1334 <Home, Charles Hotel, Media Lab> 0.0605 <Media Lab, Charles Hotel, Home> 0.053
Khai thác luật kết hợp trong những khoảng thời gian khác nhau sẽ cho kết quảlà các kiểu mẫu khác nhau thé hiện đặc thù di chuyển của một người trong nhữngkhoảng thời gian này Ví dụ, cùng một đối tượng trên nếu xét trong khoảng thờigian ngày nghỉ (thứ bảy và chủ nhật) ta sẽ tìm được tập các mẫu đặc trưng khác
trong đó không chứa các vi trí Media Lab và Commonwealth.
Kết luận: nghiên cứu [1] không nhằm mục tiêu nhận diện hay so sánh các môhình di chuyển với nhau mà chỉ đưa ra phương pháp khai thác những yếu tố đặctrưng trong một quá trình di chuyển Tuy nhiên, có thé thay được rang: dữ liệu vềchuỗi vị trí của một người có thé được mô hình hóa ở một mức độ đặc thù dé giúpphân biệt được người đó với những người khác Ta cũng thấy được răng các đặctrưng này phụ thuộc đáng kế vào khoảng thời gian mà quá trình di chuyển được
xem xét.2.2 Cac phương pháp nhận diện2.2.1 Phương pháp nhận diện bằng mô hình MarkovTrong bài toán nhận diện, việc mô hình hóa quá trình di chuyển của một người làbước quan trọng vì dé có thé phân biệt được các quá trình di chuyên khác nhau thìcần phải mô phỏng được đây đủ và bảo toàn được tính đặc trưng của mỗi quá trìnhdi chuyển này
Trang 19Sau khi đã mô phỏng được quá trình di chuyển, van dé tiếp theo của bài toánnhận diện là: tính toán mức độ tương đồng giữa hai mô hình di chuyên dé xác địnhxem chúng có thuộc về cùng một đối tượng hay không Hay nói cách khác, từ mộtmô hình di chuyển của một đối tượng chưa biết, so sánh với mô hình của những đốitượng đã biết để tìm ra mô hình tương đồng nhất từ đó suy ra đối tượng cần tìm.Phương pháp nay can dựa trên những điều kiện sau:
1) Qua trình di chuyén cua mot người có tính đặc trưng cao.2) Những đặc trưng này thay đối không đáng ké theo thời gian.Quá trình di chuyển của mỗi con người về cơ bản là duy nhất Tuy nhiên, tính duynhất này có thể không được bảo đảm trong một số trường hợp mà dữ liệu thu đượckhông đủ độ mịn và chính xác Tuy nhiên, trong thực tế, cả hai điều kiện trên đều cóxác suất đúng cao Điều này đã được chứng minh trong [5] khi có tới hơn 80%người dùng điện thoại di động có thé được nhận diện dựa trên mô hình di chuyển
của họ.Nghiên cứu [5] đã đưa hai ra phương pháp nhận diện dựa trên việc tính toán sự
tương đồng giữa các mô hình di chuyển Markov
2.2.1.1 Phương pháp 1 — Residence Matching
Xét hai đối tượng U, và , cùng di chuyển trong phạm vi m địa điểm Hay chínhxác hon, vị trí của hai đôi tượng này năm trong phạm vi m khu vực xác định bởi m 6mạng tương ứng Chỉ số tương đồng iden (identification index) giữa hai quá trình dichuyền của U, và ¿ được tính bằng công thức sau:
iden = 3 Pr,(L, | L,) Pr,(L,) x Pr, (L, | L,) Pr, (L,) (1)
i,j
Trong do Pr(Z; | L;) (, j = 1, 2, , m) là xác suất một đối tượng di chuyển toivị trí L; sau khi rời vi trí L; và Pr(L,) là xác suất đối tượng ở tại vi trí L; Đặt P, và z,lần lượt là ma trận chuyển đổi và vector phân bố sinh ra từ quá trình Markov củaU, Ta thay các xác suất Pr,¿, L;) và x;() lần lượt ứng với các giá tri P,(i, 7) vam,(i) Như vậy, (1) có thé được viết lại như sau:
iden = SP (, 7)Z,()x PG, Jaz, @
i,j
Trang 20Xét một tập dữ liệu có n đối tượng Dem so sánh mô hình di chuyển của mộtđối tượng chưa biết U, với lần lượt các đối tượng đã biết 7; (k= 1, 2, 3, , 7) trongtập dữ liệu trên ta sé tính được được các chỉ số tương đồng iden, giữa U, và từng
U, Gia tri iden, càng lớn thì khả năng U, và ¿ trùng nhau (hay U, va U; là cùng
một đối tượng) càng cao Như vậy, Ứ, được xác định là U; có chỉ số iden, cao nhất
Uy =arg max _ iden,
2.2.1.2 Phương pháp 2 — Cell Sequence Matching
Một phương pháp khác tìm chỉ số tương đồng giữa hai đối tượng U, và U; là tínhxác suất mà ma trận chuyển đối của U, có thé được sinh ra từ chuỗi Markov của U;(hay ngược lại, tính xác suất ma trận chuyển đối của U;, có thé được sinh ra từ chuỗi
Markov của U,).
Mỗi su chuyén đôi trạng thái trong chuỗi Markov của U, được gán một số tuầntự 0 Như vậy, néu chuỗi Markov của U, gồm ¡ trạng thái thì sẽ có -1 sự chuyểnđổi trạng thái (9 = 1, 2, 3 /—l) Xác suất mỗi chuyển đổi trạng thái @ trong chuỗiMarkov của U, được tham khảo trong ma trận chuyển đổi của U;, Các xác suất này
được kí hiệu là ø” Như vậy tích của tất cả các xác suất này thể hiện mức độ liên
quan giữa ma trận chuyển đổi của U, đối với chuỗi Markov của U, Tích này cũngchính là chỉ số tương đồng iden giữa U, và U,
[-1
iden = I] p
0=I
Trang 21Trong phương pháp này, những chuyển đổi trạng thái 0 có xác suất p =0được loại khỏi chuỗi / dé tránh trường hợp iden = 0 Phương pháp này không sửdung vector phân bố mà chỉ sử dụng ma trận chuyển đổi và chuỗi đường đi Chú ýrang đây là phương pháp bất đối xứng, do xác suất ma trận chuyển đổi của U, đượcsinh ra từ chuỗi Markov của , sẽ khác với xác suất ma trận chuyển đối của U;
được sinh ra từ chuối Markov của U,.
Trong thực tế, các xác suất p là một số thực nằm trong khoảng (0, 1] Do đótích của chúng tiệm cận về 0 và có thể trở nên rất nhỏ, vượt ngoài phạm vi tính toáncủa máy tính thông thường Do đó, có thể dùng một công thức tương đương như
Qua thực nghiệm được tiễn hành trong [5], phương pháp 2 có hiệu suất nhận
diện đúng lên tới ~80%, cao hon so với tỉ lệ nhận diện đúng chỉ vào khoảng ~30%của phương pháp 1.
2.2.2 Phương pháp nhận diện băng các đặc trưng trên chuỗi vị trí
Một phương pháp nhận diện khác được trình bày trong [4| dựa trên việc khai thác
đặc trưng của qui đạo di chuyền Trong đó, quá trình di chuyển được xem như mộtchuỗi gom các vị trí mà người dùng điện thoại di qua Mỗi vi trí là một nhóm các 6mạng Việc gom nhóm được thực hiện dựa trên tham số là một khoảng thời gian (độ
mịn) A7 nào đó.Ví dụ, với dữ liệu di chuyên như sau:
Trang 22hlp
l, = {a,b,c} — {a,b} — {a,b,a}lạ = {d,c,a} — {b,a,b} — {c,a}
Cho tap dt ligu D, voi mỗi đối tượng U; (i= 1, 2, 3 ) trong tập này, tim mộtchuỗi con của chuỗi vị trí J; sao cho chuỗi con này là duy nhất Như trong ví dụ trên,với At= |, ta thay chuỗi con {a}—{b}— {a,b} không phải là duy nhất, vì chuỗi connày xuất hiện ở cả hai chuỗi J, và Jy Trong phạm vi tập dữ liệu D chỉ gồm hai đốitượng U; va U2, ví dụ các chuỗi đặc trưng của J; (chỉ xuất hiện trong /;) khi At = |là: {a,b}—>{c} hoặc {a,b}—>{c}—>{a} hoặc {a,b}—>‡{a} v.v Tương tự, các chuỗi
con đặc trưng của I, là {d,c}—>{a}—>{b}, {d,c}—>{a} v.v
Độ dài p của chuỗi con có thé thay đổi (p = 2, 3, 4 ), tùy vào độ mịn Ar của
dữ liệu.
Nghiên cứu [4] cũng chỉ ra rằng các chuỗi con đặc trưng này có khuynh hướnglặp lại nhiều lần trong những khoảng thời gian khác nhau Do đó, các chuỗi con nàycó thể được dùng làm định danh duy nhất để xác định xem chuỗi đường đi chứa nólà của đối tượng nào Như vậy, việc nhận diện một đối tượng chưa biết U, đượcthực hiện băng cách dò tìm xem chuỗi đường đi /, của đối tượng này có chứa chuỗicon đặc trưng của một đối tượng đã biết U; nào không, dé có thể xác định U, = ,
Trang 23Tuy nhiên trong một SỐ trường hợp mà dữ liệu thu được bị nhiễu, hoặc khôngđủ độ mịn, việc tìm một chuỗi con đặc trưng sẽ không cho kết quả chính xác hoặccó trường hợp sẽ không tìm được một chuỗi con đặc trưng như vậy
Trang 24Chương 3 CƠ SỞ LY THUYETChương 3 trình bày cơ sở lý thuyết toán học của các phương pháp mô hình hóađược trình bày trong dé tài Nội dung bao gồm lý thuyết về các hàm ngẫu nhiên, cácquá trình ngẫu nhiên, cũng như các mô hình toán hoc và thông kê dùng biểu diễn
các quá trình này.
3.1 Quá trình ngẫu nhiên
Trong lý thuyết xác suất, quá trình ngẫu nhiên là một tập hợp các biến ngẫu nhiênđược đánh thứ tự theo thời gian Trong đó biến ngẫu nhiên là biểu diễn của mộtphép thử ngẫu nhiên nào đó dưới dạng một số thực Biến ngẫu nhiên X là một ánhxạ từ không gian các biến cố sơ cấp Q vào R
X:(2—>R
Quá trình ngẫu nhiên thường được dùng để biểu diễn sự tiến hóa theo thờigian của một đối tượng hay một hệ thống Một số ví dụ về quá trình ngẫu nhiên tiễntriển theo thời gian như: ti giá chứng khoán, ngoại tệ, sự phát đi của các loại tín hiệu
như lời nói, âm thanh
VỀ mặt toán hoc, một quá trình ngẫu nhiên được định như sau: cho một khônggian xác suất (Q, F, P) va một tập hữu hạn S$ Một quá trình ngẫu nhiên X trên
không gian trạng thái S được xem là một tập hợp
{X;teT }Voi X, là giá tri trong tap S va duoc đánh thứ tự theo một tap có thứ tu 7, hay
còn gọi là tập thời gian Như vậy, X, cũng có thé được xem là trạng thái hay vị trícủa quá trình ngẫu nhiên X ở thời điểm ¢ thuộc 7
Quá trình ngẫu nhiên rời rac Nếu thời gian 7 thuộc một tập số nguyên có miền
giá tri xác định (hữu hạn hay vô hạn), ví dụ 7 = N+ = [0; +00) thì quá trình quá trình
ngẫu nhiên là rời rac Giữa một khoảng xác định trong tập 7 sẽ có một sỐ lượng xácđịnh các giá trị t Ví dụ, với tập 7 = {1,2,3,4,5,6} ta có thé dé dàng nhận thấy sốlượng các giá trị ¢ giữa 2 và 4 là 1 (phan tử 2), hay số lượng các giá trị giữa 1 và 5 là
Trang 253 Như vậy, sự chuyển đổi trạng thái của quá trình ngẫu nhiên diễn ra theo từng
bước rời rac xác định /.
Quá trình ngẫu nhiên liên tục Nếu thời gian 7 thuộc một tập số thực như 7= R+= [0; +00) thì quá trình ngẫu nhiên được gọi là liên tục Vi dụ, với tập T= R+, giữahai phan từ 1.0 và và 2.0 có thé có vô số các phan tử ứ, ví dụ: 1.1, 1.2, 1.3 Nhưvậy, sự chuyển đổi trang thái của quá trình ngẫu nhiên có thé diễn ra ở bat cứ thời
diém nào trong một trục thời gian xuyên suôt cua quá trình.
Các quá trình ngẫu nhiên được dùng để mô phỏng các quá trình xảy ra trong tựnhiên, ví dụ như sự bay hơi của chất lỏng hay sự dịch chuyển của các phân tử Kết
quả việc nghiên cứu cũng được ứng dụng trong việc dự báo như: phân tích lượngmưa, dự báo khí tượng thủy văn.
3.2 Quá trình Markov
Một quá trình Markov được định nghĩa như sau: cho một tập hữu hạn các trạng thái
S = 451, 2, ø„} và một quá trình ngẫu nhiên bắt đầu từ một trạng thái bat kì trongS Quá trình lần lượt chuyển từ trang thái này sang trang thái khác Khi quá trìnhđang ở một trang thái s;¡ nào đó, và chuyển sang một trạng thái kế tiếp s;, thì xácsuất chuyển trạng thái này chỉ phụ thuộc vào trạng thái hiện tại s;.; và độc lập vớibat ki trạng thái nào trước s,¡, thì ta gọi quá trình này là một quá trình Markov bậcnhất Kí hiệu:
Pr(s; | so, 51, S2, S3 Si-1) = Pr(s; | #¡_1)Tinh chat trên con được gọi là tính chat Markov Như vậy, quá trình Markovcòn được định nghĩa là một quá trình ngẫu nhiên có tính chất Markov
Với |S| = m trạng thái trong tập S, phân bố xác suất chuyền trạng thái của quátrình Markov có thé được biểu diễn bang một ma trận vuông P có kích thước m x m,gọi là ma trận chuyển đối trạng thái Mỗi phan tu P(7) biểu diễn xác suất có điềukiện Pr(s, | s;) hay xác suất mà quá trình sẽ chuyển sang trạng thái s; khi dang ở
trạng thái s,.Tông quát hóa, trong một quá trình Markov bậc n, xác suât xảy ra của trạng
thái s; phụ thuộc có điều kiện vào n trạng thái trước đó:
Trang 26Pr(s; | So, 81, 82, S3 $;1) = PS; | 5; „„ Sit)
Một chuỗi Markov thời gian rời rạc là một trường hợp đặc biệt của quá trìnhMarkov, trong đó, mỗi sự chuyển đối trạng thái diễn ra tại những bước rời rạc nhau.Ví dụ: vị trí hiện tại của các quân cờ trên bàn cờ có thể xem là một trạng thái củachuỗi Markov thời gian rời rac, bởi vì sự thay đổi trạng thái (thay đổi vị trí các quâncờ trên bàn cờ) chỉ diễn ra theo từng bước cụ thể, tức sau mỗi lượt đi của người
chơi.Một chuỗi Markov thời gian liên tục là quá trình mà sự chuyên đôi trạng tháicó thê xảy ra vào bat cứ thời diém nào theo một trục thời gian xuyên suôt của quátrình.
Quá trình Markov có thé được dùng dé mô hình hóa nhiều quá trình trong líthuyết hàng đợi và thống kê Quá trình Markov cũng có thể được sử dụng để môphỏng hiệu quả các quá trình di chuyển hay tiến hóa quan sát được trong tự nhiên,do đó được ứng dung rộng rãi trong các [lĩnh vực như cơ học thống kê, sinh học, địachất hay viễn thông
3.3 Mô hình Markov an
3.3.1 Xây dựng mô hìnhMô hình Markov ấn (Hidden Markov Model) là mô hình thống kê cho những hệthống mà sự chuyển đối giữa các trạng thái của nó diễn ra tương tự như một quátrình Markov Tuy nhiên, sự chuyên đổi trạng thái này chỉ có thé được quan sát một
cách gián tiêp thong qua các biêu hiện dau ra của mô hình.
VỀ mặt toán học, mô hình Markov ấn được định nghĩa là một quá trình ngẫunhiên gom một tap hữu han các trang thai Š = [sị, s2, 53, , Spl, mỗi trạng thái cómột phân bố xác suất chuyển sang trạng thái tiếp theo và tập tat cả những phân bốxác suất nay được biểu diễn bằng một ma trận chuyển đổi P Ngoài ra, mỗi trạngthái trong quá trình Markov còn có xác suất phân bố trên tập các biéu hiện dau ra cóthê O Việc chuyến trạng thái của quá trình Markov trong mô hình Markov an cóthể xem như các tham số không quan sát được (bi ấn đi trong mô hình) Nhưng
những biêu hiện đâu ra ở môi trạng thái là những tham sô có thê quan sát được Dựa
Trang 27xác suất quan sát được 0; khi quá trình dang ở trạng thái s;
Kí hiệu: mô hình Markov ân, kí hiệu bởi A, được biêu diễn bởi những tham sô sau:
d= (S,O,P,B, 7)Trong đó:
Tập gồm N trang thái S = [s;] với 1 <¡<NTập gồm M các quan sát đầu ra O = [o;] với 1 <¡<MCác thời điểm rời rac t=1,t=2,
Ở mỗi thời điểm ft, mô hình ở một trong các trạng thái S, kí hiệu là g, với g, €t1, $2 SN}
Ma trận chuyển đổi P, P(¡,j) = Pr(4,+ 1 = s;l q,=5) với l <¡,j<NVector phân bố đâu ra B, B(k) = Pr(o,= kl q,= s) với l<k<M,1<i<NTrạng thái ban đầu z, z() = Pr( = s;) Voll <i<N
3.3.2 Các bai toán trên mô hình Markov ấn.Mô hình Markov là một mô hình tính toán thong kê được sử dụng rộng rãi trongnhiều lĩnh vực, giúp giải quyết các bài toán như dự đoán hay nhận dạng lời nói, hìnhảnh, ngôn ngữ tự nhiên, v.v Các van dé trong thực tế thường được mô hình hóa
Trang 28băng mô hình Markov ân và được giải quyét bang cách đưa vê các bài toán tươngứng trên mô hình.
Có 3 bài toán phô biên trên mô hình Markov ân:
1) Cho mô hình Markov ân À= (S,O,P,B,z) và chuỗi quan sát Ï = [ø\, 02, 03 ].Tính xác suất Pr(/ |) của chuỗi quan sát này trên mô hình Giải bang thuật toán
Trang 29không gian địa lý và thời gian) nên việc mô hình hóa cũng phải đảm bảo được
tính đặc trưng này Tức là giữa hai quá trình di chuyển khác nhau, việc mô hình
hóa phải tạo ra được hai mô hình khác nhau.
2) So sánh Sau khi quá trình di chuyển đã được mô hình hóa, cần xây dựng mộtphương pháp giúp so sánh tương đối các mô hình này Việc so sánh giúp lượnghóa sự giống nhau giữa hai mô hình Thông thường là so sánh giữa một môhình của một đối tượng chưa biết với lần lượt từng mô hình của các đối tượngđã biết, từ đó nhận diện được đối tượng chưa biết
Tuy nhiên, các mô hình toán học thường không thé phản ánh được day đủ một quátrình di chuyển trong thực tế do các quá trình này thường mang nhiều khía cạnhthông tin khác nhau Trong [5], thông qua dữ liệu dạng chuỗi tuần tự vị trí của cáctrạm thu/phát sóng, quá trình di chuyển của một người dùng điện thoại di độngđược biểu diễn bằng một quá trình Markov Tuy nhiên, mô hình Markov này chỉphản ánh các thông tin về vị trí tương đối của đối tượng chứ không bảo toan đượccác tính chất về thời gian của quá trình di chuyển Điều này có thé ảnh hưởng đếnsự đặc trưng duy nhất của mỗi mô hình di chuyển, dẫn đến trường hợp hai đốitượng cùng được biểu diễn bởi một mô hình có thông số tương tự nhau dù trongthực tế hai đối tượng này có quá trình di chuyển khác nhau xét về cả không gian và
thời gian.
Đề tài cũng đựa trên cách tiếp cận như trên, nhưng đưa ra một phương pháp
giúp tăng tính đặc trưng của mô hình Markov, từ đó nâng cao khả năng nhận diệnthông qua mô hình này.
Trang 30Nội dung trình bày trong những phân sau gồm:1) Phần 4.2 giới thiệu mô hình Markov dựa trên lý thuyết về quá trình Markov,
cũng như trình bày phương pháp đề xuất kết hợp yếu t6 thời gian dé mở rộng và
làm tăng tính đặc trưng của m6 hình.
2) Phan 4.3 dé xuất việc sử dụng mô hình Markov 4n va các phương pháp tínhtoán trên mô hình để giải bài toán nhận diện Do ca mô hình Markov và môhình Markov ấn đều được xây dựng trên một chuỗi vị trí của đối tượng dichuyển nên trong mô hình Markov ấn cũng có thé áp dụng phương pháp kếthợp yếu tố thời gian để tăng hiệu quả việc nhận diện
4.2 Mo rộng mo hình Markov
4.2.1 Xây dựng mô hìnhNhư đã trình bày trong phan trong phan 3.1, quá trình di chuyển có thé được xem
như một quá trình Markov, với các trạng thái là các vi trí của người dùng điện thoại
di động trong mang GSM Sự di chuyền từ vi trí này sang vi trí khác được xem nhưmột sự chuyển đổi trang thái trong quá trình Quá trình này được xem là rời rac doviệc chuyển đổi trạng thái của mô hình chỉ diễn ra từng bước khi đối tượng di
chuyên từ ô mạng này sang ô mạng khác.
Hình 4.1 Quãng đường di chuyển của một người dùng điện thoại di động trong mạng
GSM
Từ chuỗi Markov trên, có thé xây dựng được mô hình di chuyên Markov gồm haithành phân:
1) Ma trận chuyển đổi Do quá trình di chuyển được xem là một quá trình
Markov, với môi trạng thái L;, sẽ có một phân bô xác suât mà quá trình chuyên