Luận văn thạc sĩ Khoa học máy tính: Xây dựng hệ thống theo dõi và dự đoán vị trí di chuyển của người dùng thiết bị cầm tay

.Vìthế vấn đề xác định vị trí hiện tại và dự đoán vị trí di chuyển tiếp theo của người dùng điện thoại di động là một vấn đề vốn đã thú vị mà còn mang nhiều thách thứctrong nghiên cứu, đ

Trang 1

TRAN VAN NGAN

LUẬN VĂN THAC SĨ NGANH KHOA HQC MAY TÍNH

Mã số: 60.48 01.01

TP Hồ Chí Minh — năm 2014

Trang 2

MỤC LỤC

DANH MỤC VIET TẮT

LỜI CẢM ƠN

MỞ ĐÀU

CHƯƠNG I : GIỚI THIỆU ĐÈ TÀI

1.1 Dự đoán vị trí di chuyên tiếp theo © oe ak

1.2 Mục tiêu phạm vi dé tài

1.3 Kết quả nghiên cứu

1.4 Cấu trúc luận văn

CHƯƠNG 2 : CAC CÔNG TRINH LIEN QUAN

2.1 Các thuật toán dự đoán.

2.1.1 Thuật toán Domain - Independent Algorithms.

2.1⁄2 Thuật toán Domain - Specific Heuristic:

2.2 Dùng kỹ thuật Data Mining dé cải thiện dự đoái

2.3 Dùng neural network model để dự đoán chuyén động tương lại:

2.4 Dự đoán di chuyển dựa trên mô hình Hidden Markov-chain (HMM)

2.5 Dự đoán di chuyển dựa trên mô hình Mixed Markov-chain

Trang 3

3.5 Mô hình Modeling human mobility

3.6 Mô hình Mobility Markov Chains - MMC

3.7 Mô hình Learning n-Mobility Markov Chain

3.7.1 Dự đoán vi trí tiếp theo

3.7.2 Thuật toán nŸMMC:

3.8 Tóm tắtchương

CHUONG 4: MÔ HÌNH DỰ ĐOÁN Extend n-MMC

4.1 Mô hình Extend n- Mobility Markov Chain — (Extend n-MMC)

4.1.1 Kiến trúc mô hình

4.1.2 Hoạt động của mô hình dự đoán Extend n-MMC

4.1.3 Phương pháp kiểm tra đánh giá mô hình

4.1.4 Thuật toán phân cụm DK-Means

4.1.5 Thuật toán Extend n-MMC

4.1.6 Thuật toán dự đoán Context Prediction Algorithm — CPA

4.2 Triển khai mô hình

4.2.1 Triển khai trên thiết bi di động

4.2.2 _ Triển khai trên Server mô hình Extend n-MMC

4.3 Tómtắtchương

CHƯƠNG 5 : TRIEN KHAI ĐÁNH GIÁ MÔ HÌNH

5.1 Ti n khai thu thập thông tin vị tr

5.2 Đánh giá chọn lựa thời gian ghi nhận tính hiệu.

5.3 Triển khai đánh giá thuật toán DK-Means

5.4 Đánh giá mô hình dự đoán Extend n-MMC.

5.4.1 Kiểm tra hoạt động của thuật toán dự đoán CPA.

5.4.2 So sánh độ chính xác giữa các mô hình khác nhau.

5.4.3 Kiểm tra đánh giá hiệu quả dự đoán của mô hình Extend n-MM

6.4 Đóng góp của luận văn 106

6.5 Phát triển cho tương lai 107

TAI LIEU THAM KHAO 108

Trang 4

DANH MỤC VIET TAT

Tw viết tắt Việt day đủ Y nghĩa

Con người Người dùng thiệt bị di động Người dùng thiệt bị câm tay

MM Markov Model Mô hình Markov

MMP Mobile Motion Prediction Dự đoán thiệt bị di chuyên

MPA Motion Prediction Algorithm Thuật toán dự đoán di chuyên

RDA Regularity Detection Algorithm Thuat toán phát hiện liên tục

RSSI Radio Signal Strength Indication _| Chỉ định cường độ tính hiệu Radio UMP User Mobility Patterns Mau dữ liệu di động của người WAAS Wide Area Augmentation System | Hệ thông tăng cường độ chính xác

tính hiệu GPS

Trang 5

Danh Mục hình

Hình 2.1 Cây LZ Parsing

Hình 2.3 Cấu trúc Neural network [10]

Hình 2.4 Hidden Markov Model [13]

Hinh 2.5 Mixed Markov chain Model

Hình 3.1 Mô hình kỹ thuật máy hoc

Hình 3.2 Mô hình hệ thống định vị toàn câu GPS

Hình 3.3 Các thành phan cơ bản của hệ thông GPS

Hình 3.4 Cấu trúc tính hiệu GPS

Hình 3.5 Kỹ thuật so trùng để giải mã tính hiệu từ vệ tỉnh [17]

Hình 3.7 Nguồn sai số ảnh hưởng đến độ chính xác GPS [17]

Hình 3.8 Kỹ thuật định vị tuyệt đối [17]

Hình 3.11 Kỹ thuật định vị tương đối [17]

Hình 3.12 Kỹ thuật định vị động [17]

Hình 3.13 Minh hoạ thuật toán k-means với k = 2

Hình 3.14 n-MMC với n= I [II]

Hình 3.15 Biểu đồ biểu diễn n-MMC [11]

Hình 4.1 Kiến trúc của mô hình dự đoái 57Hình 4.2 Hoạt động của mô hình dự đoán

Hình 4.3 Hoạt động của mô hình dự đoán - giai đoạn dự đoán .60 Hình 4.4 Minh hoạ phương pháp xác định vị trí trừ GPS .62

Hình 4.5 Minh hoạ quá trình thực hiện dự đoán 64

Hình 4.6 Minh hoạ so sánh phân cụm với K-means và DK-means 69

Hình 5.1 Mô tả các vị trí di chuyền trên bản đồ

Hình 5.2 Mô tả hành trình di chuyền qua các dié

Hình 5.3 Biểu diễn tỷ lệ chính xác của dữ liệu

Trang 6

Hình 5.4 So sánh mức tiêu hao năng lượng

Hình 5.5 Biểu đồ so sánh mức độ gia tăng xác suất

Hình 5.6 Biểu dé biểu diễn tỷ lệ chính xác bộ dự đoán

Hình 5.7 Biểu diễn độ chính xác của mô hình n-MMC

Hình 5.8 Biểu dé so sánh độ chính xác của n-MMC và Extend n-MMC 102

Trang 7

LỜI CÁM ƠN

Những lời cảm ơn đầu tiên Tôi xin được gửi đến thầy giáo hướng dẫn luậnvăn của tôi là tiến sĩ khoa học Lê Dinh Tuan, người đã giúp đỡ, hướng dẫn tôi rất

tận tình trong quá trình nghiên cứu hoàn thành luận văn này và thầy GS TSKH

Hoàng Kiếm người đã tạo cơ hội cho Tôi được tiếp nhận đề tài này và có cơ hộilàm việc với TS Lê Đình Tuan

Tôi cũng xin nói lời cảm ơn đến các Thay, Cô những người đem những kiếnthức quý báo của mình dé truyền dat cho các sinh viên trong đó có Tôi, dé giờ đây

Tôi có đủ kiến thức thực hiện và hoàn thành luận văn này

Tôi cũng xin gửi lời cảm ơn đến các bạn cùng khóa đào tạo thạc sĩ chuyênngành khoa học máy tính 2011-2013 đã cung cấp các tài liệu cần thiết trong quátrình nghiên cứu và đã giúp đỡ tôi rất nhiều trong quá trình học tập, chuẩn bị luận

Xin cảm ơn khoa Công Nghệ Thông Tin và phòng Sau Đại Học đã tạo điềukiện cho tôi học tập và nghiên cứu trong suốt khóa học

Cuối cùng cho phép tôi cảm ơn các Đồng nghiệp, bạn bè, gia đình đã giúp

đỡ, ủng hộ tôi rất nhiều trong toàn bộ quá trình học tập cũng như nghiên cứu hoànthành luận văn này.

Trang 8

MỞ ĐÀU

Ngày nay Điện thoại di động trở nên phổ biến với mọi người, nó không còn

là thiết bị xa xỉ như những năm của thập kỷ 89 - 90 Từ dòng điện thoại dùng bàn

phim dé đánh sé tiền đến dòng điện thoại dùng màn hình cảm ứng không bàn phím

để thực hiện chức năng như một bàn phím Các kỹ thuật sử dụng trên điện thoạingày càng phát triển nhanh chóng biến chúng trở thành một loại thiết bị thong

minh đặc biệt sự xuất hiện ngày càng phổ biến và đa dang của những loại điệnthoại mang tính thông minh (smartphone) và giá cả cạnh tranh, việc sở hữu một

Smartphone càng ngày càng dễ dàng và điện thoại ngày nay đã trở thành thiết bị

thiết yếu của mọi người din Các Smartphone ngày nay còn trở thành công cụ hỗ

trợ thiết yếu trong công việc do các Smartphone cho phép lập chương trình điềukhiển các thiết bị cảm biến (sensors) như : la bàn kỹ thuật số, hệ thống định vị(GPS), giọng nói, hình ảnh, v.v tao điều kiện cho sự xuất hiện của nhóm, cá nhân

và các ứng dụng cảm biến mức quy mô cộng đồng

Vị trí của một người cho ta suy đoán để biết người đó sẽ làm gi, chắn hạn

nếu người đó ở thư viện thì họ sẽ đọc sách, ở siêu thị thì họ sẽ mua hàng v.v Vìthế vấn đề xác định vị trí hiện tại và dự đoán vị trí di chuyển tiếp theo của người

dùng điện thoại di động là một vấn đề vốn đã thú vị mà còn mang nhiều thách thứctrong nghiên cứu, đặc biệt là sự ra đời của Smartphone đã tạo ra một hướng nghiên

cứu mới trong lĩnh vực này.

Luận văn này trình bày nghiên cứu về dự đoán vị trí đi chuyển tiếp theo của

người dùng Smartphone, trong đó áp dụng thuật toán phân cụm dé phân cụm các

vị trí trong hành trình di chuyền Trong đó trình bày hệ thống phân cụm được thựchiện với một khoảng thời gian dài trên các vị trí có ý nghĩa đối với con người Những vị trí này được đưa vào mô hình Markov để phân tích dự đoán vị trí dichuyển tiếp theo

Điểm mở rộng trong luận văn nay là kết hợp thông tin lịch sử các vị trí đi

qua kết hợp với thời điểm đến, thời gian dừng lại trước đó trong dự đoán vị trí tiếptheo dé nâng cao hiệu quả dự

Trang 9

CHƯƠNG 1: GIỚI THIEU ĐÈ TÀI

1.1 Dự đoán vị trí di chuyển tiếp theo

Nhận biết vị trí của thiết bị hay vị trí của người dùng thiết bị di động (sau

này được hiểu như nhau và được gọi ngắn gọn là người dùng hoặc cá nhân hay

thiết bi) là vấn đề thú vị và vấn đề này mở ra nhiều thử thách nghiên cứu Sự bùng

nổ trong công nghệ di động không dây trong thập kỷ qua đã tạo nên sự thay đổi

dang quan tâm trong kỹ thuật dự đoán vị trí.

Cùng với sự phát triển của mạng di động không dây, các kỹ thuật xác định

vị trí và dự đoán di chuyển của con người được ứng dụng trên các thiết bị cầm tay,

điện thoại thông minh dé theo doi con người và xử lý các tình huống xảy ra khẩn

cấp Các ứng dụng trên các thiết bị này cần định vị được vị trí của con người va ditliệu này được chuyển về trung tâm xử lý Với thông tin định vị từ thiết bị , hệthống xác định vị trí con người, từ đó có thể cung cấp thông tin hữu dụng chongười làm công tác cứu hộ trong các lĩnh vực sức khoẻ , Y tế, cứu hộ tai nạn trong

trường hợp xảy ra sự có với con người vì thế các ứng dụng kiểu này đáng đượcquan tâm Tiếp theo vấn đề xác định vị trí người dùng, dự đoán vị trí di chuyển

tiếp theo cũng là vấn đề đáng được quan tâm Các kỹ thuật dự đoán không chỉ cảm

nhận được ngữ cảnh của con người mà nó còn có thé dự đoán được vị trí di

chuyển tiếp theo sau đó Khả năng dự đoán vị trí di chuyển tiếp theo hỗ trợ chomột số loại ứng dụng nhận biết ngữ cảnh Các ứng dụng nhận biết vị trí cung cấp

thông tin cho ta biết vị tri và hoạt động của con người Những người làm việc cứu

hộ có thể xác định được vị trí của những người bị nạn khi họ dùng thiết bị diđộng gọi đến cứu hộ Khả năng dự đoán vị trí di chuyển tiếp theo sẽ giúp cho

người làm công tác an ninh dự đoán vị trí di chuyên của tội phạm hay suy luận ra

các hoạt động của đối tượng phạm pháp nhằm đưa ra biện pháp ngăn chặn hoặccũng có thé dự đoán khả năng của một người có thể đến vị trí yêu cầu, dé hỗ trợphối hợp cho hoạt động cộng đồng hoặc là dự đoán những hành dộng diễn biếnsau đó phù hợp với vi trí đi chuyền tiếp theo thông qua ngữ cảnh tại vị trí đó Với

Trang 10

những lợi ích mà ứng dụng dự đoán đem lại tạo cho hướng nghiên cứu này ngày càng trở nên được quan tâm hơn.

Dé theo dõi được vị trí của người dùng thiết bị và dự đoán vị trí di chuyểntiếp sau đó cần có một hệ thống ghi nhận thường xuyên Với môi trường hoạt động

của con người, các hoạt động di chuyển thường xuyên diễn ra trên đường phd Để

có tính hiệu theo dõi thiết bị liên tục cần có hệ thống phát tính hiệu thường xuyên

và thiết bị sử dụng phải dé dang bắt được tính hiệu mọi lúc mọi nơi có thé Đáp

ứng cho điều kiện này, hệ thống GPS (Hệ thống định vị toàn cầu) là lựa chọn thích

hợp Mặc dù GPS có sai số trong độ đo khoảng cách hay tính hiệu có suy giảm khi

đi qua vật cản lớn như di chuyển qua đường ham hoặc bên dưới các toà nhà cao

ốc Với các hệ thống truy cập dùng Wi-fi thường không thích hợp với lý do không

phải nơi nào cũng trang bị Wi-fi hoặc hệ thống này bị giới hạn truy cập bằng mật

mã truy cập hay với hệ thông dùng sóng được phát từ các trạm thu phat sóng củanhà cung cấp dich vụ điện thoại thì tính hiệu thường không cung cấp vị trí củathiết bị và dịch vụ cung cấp cũng không được phủ sóng mọi nơi Vì thế sử dụngGPS trong lựa chọn nghiên cứu cho đề tài dự đoán vị trí di chuyển tiếp theo là lựachọn phù hop nhất

Hiện đã có nhiều thuật toán được đưa ra dé áp dụng trong dự đoán vị tri di

chuyển Trong đó điển hình là thuật toán Order -k Markov Predictor, thuật toán

này dự đoán vị trí tiếp theo chỉ dựa vào vị trí thứ k gần nhất, không xét đến thời

gian, thuật toán tính xác suất đến mỗi vị trí và dự đoán vị trí di chuyền tiếp theo là

vị trí có xác suất cao nhất và gẦn nhất Tuy nhiên thuật toán này đạt độ chính xác

chưa cao vì nó chỉ đơn thuần xét xác suất di chuyển tính từ vị trí hiện tại mà chưaxét đến những ảnh hưởng khác từ bối cảnh của vị trí đang xét

Luận văn này dé xuất và trình bày thuật toán phân cụm được mở rộng từthuật toán K-means dé có thé phát hiện các vị trí mới phát sinh trong quá trình dichuyển và xây dựng thêm các nhóm vị trí phát sinh gọi là thuật toán Dynamic K-

Means (DK-means) Đồng thời cũng giới thiệu mô hình dự đoán vị trí di chuyển

tiếp theo dựa trên lịch sử di chuyển kết hợp suy luận trên ngữ cảnh thời điểm đến

Trang 11

và thời gian đừng lai dé nâng cao xác suất dự đoán dựa trên 2 thuật toán đề xuấttrong mô hình dự đoán là thuật toán Extend n-MMC và thuật toán dự đoán ngữcảnh Context Prediction Algorithm (CPA) Luận văn còn giới thiệu mô hình triểnkhai trên thực tiễn với thiết bị di động tạo nên hệ thống ứng dụng hoàn chỉnh, nâng

cao tính ứng dụng của mô hình

1⁄2 Mục tiêu phạm vi đề tài

Mục tiêu :

- Xây đựng hệ thông dự đoán vị trí di chuyển tiếp theo của người dùngSmartphone.

- Nâng cao hiệu quả dự đoán bằng cách cải tiến phương pháp dự đoán

n-MMC tạo kết hợp ngữ cảnh thời điểm đến và thời gian dừng lại vàHeuristic trên 2 thuộc tính này.

- Mở rộng thuật toán phân cụm K-means để có thé phát hiện các địa điểmphát sinh trong quá trình thực hiện phân cụm.

Phạm vi thực hiện của luận văn gồm có:

- Nghiên cứu xây dựng phần mềm nhúng trên Smartphone mục đích xâydựng chương trình dùng thu thập thông tin về vi tri của dùng Chương trìnhchạy trên Hệ điều hành Android

- Nghién cứu thuật toán theo dõi và dự đoán vi trí di chuyền tiếp theo củangười dùng Smartphone, xây dựng chương trình xử lý trên Server.

1.3 Kết qua nghiên cứu

- Từ việc thu thập vị trí , xác định hành trình di chuyển , các vị trí dừnglại, xem xét bối cảnh vị trí đừng lại chương trình đưa ra được xác suất

di chuyển đến các vị trí tiếp theo

- Nâng cao hiệu qua dự đoán từ mô hình n-MMC

- Xây dựng được mô hình dự đoán đưa vào áp dụng trong thực tế, nâng

cao tính thực tiễn của mô hình

Trang 12

- Xây dựng được ứng dung hoàn chỉnh cai đặt trên smartphone và tiếnhành lấy đữ liệu thực tế.

- Xây dựng hoàn chỉnh ứng dụng xử lý cho mô hình dự đoán trên Server

1.4 Cấu trúc luận văn

Tô chức phân còn lại của luận văn có câu trúc như sau:

- CHƯƠNG 2: NHỮNG CONG TRÌNH LIÊN QUAN

Giới thiệu về các công trình liên quan, các thuật toán đã được đưa ra

để áp dụng dự đoán đi chuyển, những công trình nghiên cứu dự đoán vị trí

và dự đoán vị trí di chuyển tiếp theo của người dùng Smartphone Trong

đó sẽ giới thiệu những mô hình dự đoán khác nhau trong lĩnh vực dự đoán

để thấy được những điểm mạnh, yếu nhằm thấy được hướng phát triển

trong hướng nghiên cứu này

- CHƯƠNG 3: CƠ SỞ LÝ THUYET VÀ NEN TANG

Giới thiệu về thuật toán phân cụm K-means là thuật toán được áp

dụng và mở rộng để phục vụ cho đề tài của luận văn , mô hình MarkovChain, mô hình n-Mobility Markov Chain là các mô hình dự đoán làm co

sở cho dự đoán vị trí di chuyển tiếp theo của luận văn này

- CHƯƠNG 4: MÔ HÌNH DỰ DOAN Extend - n Mobility Markov Chain

Trinh bày những vấn dé nghiên cứu chính của luận văn, các vấn đềcần giải quyết khi thực hiện dự đoán, mô tả thuật toán phân cum mở rộng

để phát hiện các vị trí phát sinh, trình bày mô hình được để xuất trong luận

văn này là mô hình Extend n-MMC dự đoán vị trí dựa trên lịch sử vị trí

cùng kết hợp với thời điểm đến và thời gian dừng lại được mở rộng từ môhình n-MMC chuẩn

- CHƯƠNG 5: TRIÊN KHAI ĐÁNH GIA MÔ HÌNH

Trình bày các vấn đề trong xây dựng hệ thống gồm giới thiệu kiếntrúc mô hình dự đoán , các vấn đề triển khai trên thiết bị, trên máy chủ ,

Trang 13

lựa chọn HĐH, tính tương thích của Hệ thống, lựa chọn công cụ truy xuất

thông tin GPS, xác định cơ chế thực thi chương trình, xây dựng các chức

năng sử dụng cho hệ thống và lựa chọn mô hình triển khai hệ thống.

Trình bày phương pháp triển khai mô hình và các bước triển khai

thực nghiệm trên tập dữ liệu thu thập gồm 2 tập dữ liệu huấn luyện và dữ

liệu kiểm thử Phương pháp đánh giá mô hình, thực nghiệm đánh giá trênkết quả thực nghiệm trên mô hình dự đoán Extend n-MMC

- CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHAT TRIÊN

Phần kết luận tổng kết những mục tiêu đã thực hiện và kết quả đạtđược trong luận văn Nêu một số mặt còn hạn chế sau khi thực hiện luậnvăn , những kết quả mà luận văn này đóng góp cho lĩnh vực nghiên cứu vànêu phương hướng phát triển của đề tài luận văn trong tương lai

Trang 14

CHƯƠNG 2 : CÁC CÔNG TRÌNH LIEN QUAN

Xác định vị trí người dùng thiết bị đi động và dự đoán vị trí di chuyên tiếptheo là những thách thức trong nghiên cứu từ khi xuất hiện mạng điện thoại di

động Những nghiên cứu về xác định vị trí nhằm mục đích tối ưu hoá tài nguyên

cung cấp cho người sử dụng thiết bị, làm giảm tác động quá trình chuyển giao giữacác trạm thu phát và cho phép Nhà cung cấp dich vụ quy hoạch cơ sở hạ tang dé

cung cấp dịch vụ tốt hơn

Những nghiên cứu về suy đoán vị trí di chuyền trong tương lại cũng nhằmmục đích cung cấp dịch vụ tốt hơn cho người dùng, ngoài ra nó còn giúp suy luận

ra các hoạt động của người dùng thiết bị thông minh hay suy đoán khả năng của

một người có thể đến vị trí yêu cầu dé hỗ trợ phối hợp cho hoạt động cộng đồng.

Trong chương này sẽ giới thiệu một số các thuật toán liên quan trong lĩnhvực dự đoán và những công trình nghiên cứu liên quan đến luận văn này:

- _ Các thuật toán gồm : gia đình Domain — Independent Algorithms,

Domain — Specific Heuristics.

- Các công trình nghiên cứu : ding neural network để dự đoán chuyển động

tương lai, những công trình cải thiện từ Markov Model là Hidden

Markov-chain (HMM), Mixed Markov Markov-chain Model (MMM), Order-2 Markov để

dự đoán vị trí.

Trang 15

2.1 Các thuật toán dự đoán

2.1.1 Thuật toán Domain — Independent Algorithms

Các thuật toán thuộc lĩnh vực này là thuật toán cơ sở trong dự đoán vị trí sử

dụng mạng di động không dây [4]

2.1.1.1 Thuật toán Order - k Markov Predictor :

Dự đoán Order-k Markov khi dự đoán vị trí tiếp theo chỉ dựa vào vị trí thứ

k gần nhất và không xét đến thời gian

Xét lịch sử đi chuyển của một người như sau :

đÊa= [Xị =a, Xn =a,} với Va€A

an = al Hl in) an Xian = an) VEENGiả sử trang thái hiện tai để dự đoán tiếp theo là : <ank¿i› ânk¿2; «e+ ân>

Nếu dữ liệu là nguồn của order-k Markov thì ma trận xác suất (M) chuyển

dịch có giá tri, vị trí có địa chỉ (dòng, cột) sẽ xác định theo chiều dài k từ A* để

P(X,.¡=al H,) = M(s, 8’) với s và s” là chuỗi anxiAyx¿2 ân VÀ ânx¿28n-k¿a ân3.

Xác định được ma trận M, xác định được xác suất cho dự đoán vị trí tiếp theo

Trong trường hợp chưa xác định M, dé tính giá trị xác suất chuyền dich cho

M, giá trị này sẽ được đánh giá theo công thức sau: Va e A.

= — N(fn~k+1 ng 2Ên)ÊQXu¿x = GP) = Nano (2.2.2.2)

Công thức 2.1.1.1 tính xác suất dịch chuyển cho mô hình Markov

Dự đoán vị trí di chuyền tiếp theo X;¿¡ được chọn trong A có xác xuất cao nhất và

Vị trí gần nhất theo thứ tự của chuỗi an¿i ây.k¿2 «+ ân trong H

Nhận xét về thuật toán :

- Markov Model (MM) chỉ áp dụng với trạng thái rời rac quan sát được.

- Kết quả suy đoán chỉ phụ thuộc vào vi trí hiện tại

- Áp dụng cho các yêu cầu không đòi hỏi độ chính xác cao

Trang 16

2.1.1.2 Thuật toán LZ-Based Predictors

LZ-Based Predictors dựa trên thuật toán Phân tích cú pháp gia tăng phdbiến của Ziv và Lempel dùng với văn bản nén Đây là phương pháp dự đoán tốt áp

dụng đối với văn bản nén và LZ-Based Predictors tương tự với order-k Markov

predictor thêm nữa ở đây k có thể thay đổi không giới hạn

2.1.1.3 Thuật toán LZ Parsing Algorithm (LZPA)

Với y là chuỗi réng, cho chuỗi nhập là chuỗi s, LZPA chia chuỗi s thành

các chuỗi con sọ, sị, , Sm , đặt sọ = y, với mọi j 21 , chuỗi con s; không có ký tự

sau cùng là s;, 0 <Si<j Và So, $1, ; Sm =S Ta quan sát các thành phần được

phân chia theo thứ tự sau khi xác định s; Sau khi xác định s; thuật toán chỉ xem

xét phần còn lại của chuỗi đưa vào

Minh họa như sau :

H , = abbbbdeee fff ddddb dduwowjc chia thành các chuỗi con : y, a, b, bb, bd, e,

ee, f, ff, d, dd, db.

Thuật toán kết hợp dùng “cây” đặt là “LZTree” là cây động biểu diễn chuỗi

con Các Nodes của cây biéu diễn chuỗi con, node s; là cha của node Sj néu va chi

nếu s¡ là một Prefix của s; Số liệu thống kê được lưu ở mỗi node đề lưu vết thôngtin về số lần chuỗi con được tìm thay là Prefix của sọ, 1, , Sm hay các mẫu tuần

tự của chuỗi con Minh hoạ cho thuật toán theo Hình 2.1

Xử lý xác định chuỗi con bằng cách từ Root của LZ Tree truy đến lá có

nhãn là s; node mới được đưa vào là con của lá và được đánh nhãn là s;,

Trang 17

2.1.1.4 Tiếp cân khác

J.Chan et al [4] đưa ra cách tiếp cận khác để dự đoán bằng cách dùng

order-2 Markov predictor sử dụng Bayes Ý tưởng là đầu tiên là dự đoán tất cả các di

chuyển và dùng những dự đoán này để dự đoán vị trí tiếp theo Với Order-2

predictor, 2 vị trí sau cùng của hành trình di chuyển được dùng để dự đoán làL=<L,,L;> Đầu tiên xác suất để dự đoán cho vị trí m là vị trí tiếp theo là L;,„ sẽ

được tính dựa vào lịch sử di chuyển Kế tiếp vị trí tiếp theo L; dùng Bayes để dự

đoán và xét điểm L;,„ bằng cách chọn B, có xác suất cao nhất theo công thức sau :

— P(z‡m|La12B„)P(vL2By) 2.1.1.4) [6

PŒa1¿B|Lz+n) hg PŒa12B,)P(L2+m|LLaB)) (2.1.1.4) [6]

2.1.2 Thuật toán Domain - Specific Heuristics

2.1.2.1 Thuật toán Mobile Motion Prediction (MMP.

Liu va Maguire [4] đưa ra thuật toán dự đoán vi trí với ý tưởng tăng cườngquản lý trong vùng phủ sóng (cellular network) Di chuyển của người dùng được

mô hình theo biểu thức sau : {M(a,t): a € 4,£ €T} với A là tập các vị trí (gọi làtrạng thái - State) và T tập thời gian tuần tự Các bước di chuyển của người dùng

theo qui tắc {S(a, 0}

Định nghĩa một vị trí gọi là trạm dừng (Stationary State) nếu người dùng

có một khoản thời gian dừng lại tại vị trí theo một ngưỡng đã qui ước trước khi dichuyển sang một vị trí khác Vị trí vật lý thuộc về vùng dịch vụ gọi là vùng trạng

thái (boundary state) Sau này gọi chung “Stationary” và “boundary state” là

maker state Có 2 kiểu di chuyên được định nghĩa là : chuyển động vòng

(Movement Circle - MC) là di chuyển tuần tự với vị trí đầu và vị trí cuối là một và

có ít nhất một maker state, chuyền động theo dõi (Movement Track - MT) là tuần

tự các vị trí từ bắt đầu đến kết thúc | một maker state Có thé di chuyền từ vi trí

MC đến MT và ngược lại Giả định qui tắc di chuyên {S(a, t)} chỉ có (MC@a, t)}

và {MT(a, t)} và quá trình di chuyển ngẫu nhiên tiếp theo là quá trình Markov

Thuật toán dự đoán di chuyên của Mobile (Mobile Motion MMP) gồm thuật toán phát hiện điều đặn (Regularity Detection Algorithm-RDA)

Prediction-tao ra dữ liệu cho MC và MT cho mỗi người dùng theo thời gian và thuật toán dự

Trang 18

đoán di chuyển (Motion Prediction Algorithm — MPA) cũng dùng dữ liệu nay.

Thuật toán được mô ta như sau : Giả sử vị trí gần nhất là (k-1) là vị trí nằm trong

lịch sử di chuyển là các vị trí tuần tự L = Ijb 1, L là sufix của H có chiều dài

k-1 và có một MT trong dữ liệu, C = cạ c„ với cọ và Cy là các maker state Dùng

thuật toán so trùng (Matching Algorithm), so L trùng với C Lúc này gọi là ứng

viên MT Nếu vị trí hiện tại của người dùng, /¿ phù hợp với vị trí được dự đoán từ

C thì C là ứng viên MT va MPA dùng vị trí nay để dự đoán Mặt khác MPA dingthuật toán so trùng trên chuỗi tuần tự 2 L7 = ll„¡ ,l, với l; là marker state gầnnhất trong L dé tìm ứng viên MT mới

Thuật toán so trùng sử dụng 3 kỹ thuật heuristics để so trùng Kỹ thuật thứnhất là so trùng trạng thái và tính toán vị trí „ chỉ định mức độ phù hợp trong lịch

sử đi chuyển với ứng viên MT Cho 0 < m < k, là số lần vị trí xuất hiện trong L

và C Tính „ = m/(k — 1) có giá trị càng cao thì độ phù hợp càng lớn Kỹ thuật

thứ hai so trùng thời gian và tính toán vị trí 7 chỉ định mức độ phù hợp trong thờigian dừng lại của mỗi vị trí trong lịch sử di chuyền dé so sánh với ứng viên MT

Với 1; thời gian dừng lại ở mỗi vị trí J; trong L và sự là thời gian dừng lại của c;

trong Œ.

Công thức tính p : có giá trị càng nhỏ thì mức độ phù hợp càng cao.

(2.2.2.1)

Kỹ thuật thir ba là so trùng tuần tự và tính toán vị trí @ so sánh F’ và F với

F’ là tần suất đường đi của Mobile xuất hiện trong khoản thời gian và F là tang

suất ứng viên MT xuất hiện trong khoản thời gian đã có trong dữ liệu Tính

@=|Œ'—F)— 1| và giá trị càng nhỏ sẽ chỉ định mức độ phù hợp càng cao.Thuật toán so trùng (Matching) dùng thứ tự 3 thuật toán heuristics để tính trênPm

Nhân xét : [5

Trang 19

-_ Trong thuật toán MMP lich sử di chuyển điều được phân loại theo

Movement Track và Movement Circle được giả định di chuyển

ngẫu nhiên

- Thuật toán Mobile Motion Prediction -MMP không xác định rõ ràng

và thiếu nền tảng lý thuyết nhưng thực sự chứa ý tưởng gây ngạcnhiên với phân loại các vị trí (stationary và boundary state) cũng như

với (MC,MT) và ứng dụng tuần tự kỹ thuật so trùng heuristics khác

nhau Đây được cho là sự cố gắng trong việc dự đoán vị trí

2.1.2.2 So trùng trên phân vùng - Segment matching :

Chan et al [4] đơn giản hoá thuật giải của Liu và Maguire và đặt tên là

Segment Criterion algorithm Ở đây định nghĩa trạm phủ sóng (Stationary cells SC) dựa trên thời gian dừng lại của người dùng trong vùng phủ sóng Lịch sử dichuyền của từng cá nhân chia thành các đoạn nhỏ gọi là segment Segment là cáctuần tự các trạm phủ sóng bắt đầu là một trạm, kết thúc bằng một trạm khác hay

-chính trạm bắt đầu Định nghĩa này tương tự như MT của Liu và Maguire vàkhông có khái niệm cho boundary cell.

Thuật toán dự đoán bắt đầu từ segment người dùng di chuyển Hành trình

sau k bước di chuyên là L = Ij ./¿ với 1; là stationary cell L sẽ được so sánh

với segment đã lưu trước đó Nếu tim thay segment phù hợp nghĩa là tìm được /; =

œ với 1 <Si<k.,C, = c¡c¿ c„ là các segment ứng viên đã được lưu trữ.Truong hợp dự đoán là cell c¿„¡ nếu có nhiều ứng viên thì cell xuất hiện nhiều nhấttrong vị trí k+/ trong các segment ứng viên được chọn.

Chan et al dùng 2 heuristics để khắc phục hạn chế dựa trên lịch sử dichuyển của người dùng Thứ nhất có gắng bù đắp cho sự thay đồi đột ngột tronghành vi đi chuyền 10 dự đoán sau cùng sẽ so sánh với lịch sử di chuyền của ngườidùng Di chuyển sau cùng sẽ gán trọng số cao hơn nếu dự đoán hướng đúng tiêu

chí, nếu 6 trong những dự đoán không đúng trọng số này sẽ giảm dần (Trọng sốgiảm, tiêu chí không được chỉ định).

Trang 20

Thứ 2 cố gắng bù đắp cho những người không có lịch sử di chuyển và sử

dụng lịch sử tổng hợp trên tất cả người dùng Các heuristics được dùng cho môhình dự đoán Markov của Chan et al.

2.1.2.3 Thuật toán Hierarchical Location Prediction (HLP)

Liu et al [12] phat triển mô hình dự đoán mức 2 dự định sử dụng trongquản lý di động ở môi trường ATM không dây với mức độ rộng hơn Mức độ thấp

hơn sử dụng mô hình Mobile cục bộ (LMM - Local Mobility Model) là mô hình

ngẫu nhiên, trong khi ở mức độ cao kết hợp với chuyển động bên trong vùng phủ

sóng.

Thuật toán dự đoán cục bộ với ý tưởng chỉ dự đoán vùng di chuyển tiếptheo trong khi dự đoán tổng quát có thé dự đoán hành trình tương lai Thuật toán

dự đoán cục bộ sử dụng liên tục cường độ tính hiệu đo lường (Radio Signal

Strength Indication - RSSI) và áp dụng thuật toán Kalman filtering để đánh giátrạng thái động của sự di chuyển (trạng thái động gồm vị trí, vận tốc và gia tốc).Khi người dùng tiếp cận ranh giới vùng phủ sóng, trạng thái động được sử dungxác định xác suất đến các vùng lân cận và vùng với xác xuất cao nhất được chọn làvùng di chuyên tiếp theo Dự đoán này là thông tin đầu vào cho thuật toán tổng

quát Tương tự thuật toán MMP (Mobile Motion Prediction) của Liu và Maguire,

thuật toán dự đoán tổng quát dựa trên số lượng mẫu ghỉ lại của mỗi người Cho

đến nay, hành trình của con người cùng với việc dự đoán vùng di chuyển tiếp theo

là do dùng thuật toán dự đoán cục bộ bằng kỹ thuật so sánh với mẫu dữ liệu đã

được lưu trữ và điều chỉnh khoản cách, việc điều chỉnh này dựa trên số lượng vùng

chen vào ít nhất, loại bỏ vùng và hoạt động điều chỉnh mã nhận dạng tạo ra hành

trình giống với mẫu Mobile người dùng thiết bị Nếu điều chỉnh khoảng cách nhỏhơn giá trị ngưỡng, mẫu Mobile người dùng thiết bị (UMP- User MobilityPatterns) với khoảng cách điều chỉnh nhỏ nhất được xác định và dùng làm ứngviên để chỉ ra hướng di chuyển chung của người dùng thiết bị Phần còn lại củaứng viên UMP là hành trình được dự đoán cho người dùng thiết bi

Trang 21

Liu et al có một dự đoán chính xác hơn MMP theo mẫu Mobile với sự ngẫu

nhiên ở mức độ trung bình hoặc cao hơn Điều đáng chú ý là không như thuật toán

MMP sự chính xác của dự đoán vùng di chuyển tiếp theo dùng thuật toán cục bộthuần tuý dựa trên đo lường RSSI và độc lập với mô hình di chuyển của mobile

Dự đoán cục bộ này dùng tối ưu hoá dự đoán hành trình Dự đoán vùng di chuyển

tiếp theo có thé giúp lựa chọn giữa 2 ứng viên UMP khi hành trình mobile tương.đương nhau khi điều chỉnh khoản cách giữa chúng

2.2 Dùng kỹ thuật Data Mining dé cải thiện dự đoán

(Improving Mobility Prediction Using Data Mining Techniques)

Kỹ thuật khai thác dữ liệu khám phá mẫu thường xuyên và luật kết hợp,

bằng cách xác định một quỹ đạo như một dãy các địa điểm và sử dụng phương

pháp phân tích trình tự như phiên bản sửa đổi của thuật toán Apriori [7][9] Cácphương pháp khai thác dữ liệu cố gắng đề tối đa hóa độ tỉnh cậy (confidence) với

cơ sở dựa trên những gì xuất hiện trước đó và không xem xét các ý niệm vềkhoảng cách không gian và thời gian.

Morzy dé xuất các phương pháp khai thác dữ liệu dé dự đoán vị trí trong

lai của các đối tượng chuyển động [9] Ông trích luật kết hợp từ đữ liệu đối tượng

chuyển động và với một quỹ đạo vô hình trước đó của đối tượng di chuyền, ông sử

dụng chức năng kết hợp dé chọn luật kết hợp nhất khớp với quỹ đạo, sau đó dựa

vào quy tắc này để dự đoán Tác giả cho thấy độ chính xác 80% đối với cấu hình

hệ thống tốt nhất

2.3 Dùng neural network model dé dự đoán chuyển động tương lai:

Partha Pratim Bhattacharya và Manidipa Bhattacharya [10] đã đề xuấtphương pháp Backpropagation Neural Network để dự đoán di chuyển trongtương lại, sử dụng Multi-layer neural network dé xử lý dir liệu mẫu của Mobile

tạo ra dự đoán chính xác.

Trong đó các mẫu dữ liệu di chuyển của mobile được ghi nhận trongkhoảng thời gian tạ (n : | khoảng thời gian nhất định khi mobile di chuyển có thé

Trang 22

tính với đơn vị phút, giờ, ngày vv ) mẫu di chuyển M, được mô tả bằng dữ liệuthời gian tị, tạ, tạ.

Mẫu di chuyển Mạ = {m,, mạ, , mạ} được ghi nhận cho mobile node (MN)với M, là di chuyển của mobile trong thời gian t; , di chuyên được định nghĩa theo

2 đặc tính khoảng cách và hướng đi Mỗi M; được xác định với một cặp (dis;, dir,)trong đó dis; là số đo khoảng cách di chuyển của mobile ở lần thứ ¡ và dir, làhướng đi chuyền của mobile trong khoảng thời gian t, Cụ thé như sau : nếu có 2

lần di chuyển hướng từ Nam đến Bắc với khoảng cách di chuyển là 2 và 3 đơn vị

thì dữ liệu biểu diễn như sau : Mạ; = {m¡, mạ} = {(disi, dir;), (diso, diry)} = {(2,

Nam), (3, Bắc)) Tập dữ liệu huấn luyện trích ra từ dữ liệu thu thập của mobile

(MNI, MN2) được trình bày trong bảng 1 va bang 2 như sau :

disl, dirl | Dis2,dir2 | Dis3, dir3 Out put dis4, dir4

(1, NE) (1, E) (1, NE) (1, E) (1, E) (1, NE) q,E) (1, NE)

(1, E) (1, NE) (1, E) (1, NE)

(1, NE) (1, E) (1, NE) (2,2)

Bang | : Tap dữ liệu huan luyện cho MNI [10]

Ký hiệu các hướng di chuyểnNorth—N, East — E, South— S, West — W, North-East —NE,

South-East — SE, South-West — SW, North-West -NW.

Bảng 1 chi định MNI di chuyển khoảng cách một cell theo hướng Bắc (North),

tiếp theo là một cell theo hướng Đông - Bắc (North — East) Kích thước mẫu sử

dụng là 5, (2, 2) dùng ghi kết qua dự đoán

dis1, dirl | dis2, dir2 | dis3, dir3 | dis4, dir4 | Output : dis5,dirŠ

(,E) (1, SE) (2,E) (1,5) q,E) (1, SE) (2,E) (1, S) (1 ,E) (1, NE)

(2, BE) IS) Œ,B) | q,NE) q,E)

(1,S) (,E) (1,NE) (,E) (2,8) (1, E) (1, NE) (1, E) (2,8) d,W) (1, NE) (1, E) (2, S) q,W) q,SW) (1, E) (2, S) (1, W) (1, SW) q,W)

Trang 23

(2, S) dW) | ,SW) | q,W) q,N)

Œ,W) | (,S5W) | q,W) | q,N) Œ,?

Bảng 2 : Tập dữ liệu huân luyện cho MN2 [10]

Bằng cách quan sát những thay đổi hướng di chuyển của mẫu dữ liệu, xemxét dự báo phù hợp và thu được mẫu con tương ứng (Ở đây, kích thước của mẫucon được lưu giữ là 9) Mang neural được huấn luyện với tắt cả các mẫu con đề dựđoán di chuyển (2, ?) của bảng | va 2 Cùng một tập dữ liệu được sử dụng đê dựđoán nhiều di chuyển bằng cách cập nhật các dit liệu được đưa ra trong Bảng 1 và2.

Mô hình Neural Network:

Môi trường mobile cellular được xem như một dãy các cell hình chữ nhật

liên tiếp, khoảng cách di chuyền tính trên số lượng cell đi qua Khoảng cách này

dùng làm tham số đầu vào cho mô hình Neural network (hình 2.3) Dùng neural

network 3 lớp với 8 neural ẩn để phát triển mô hình dự đoán di chuyển cho

mobile Tập dữ liệu huấn luyện được trích từ dữ liệu di chuyển của mobile theothời gian và tương ứng là hướng di chuyển tiếp theo dé tạo kết quả

Kết quả dự đoán cho MNI là (1, E) tức là di chuyển 1 6 theo hướng đông(East) tương tự dự đoán di chuyển của MN2 là (2, N) tức là di chuyển 2 6 theohướng Bắc (North) Sau đó dữ liệu ở Bảng 1 và 2 được cập nhật để sử dụng cho dựđoán Các dự đoán sử dụng mô hình trong Bảng 3 và 4 với kết quả được in đậm

dis1, dirl | Dis2, dir2 | Dis3, dir3 | Out put dis4, dir4 (1, NE) (1, E) (1, NE) (1, E)

a, E) (1, NE) q,E) (1, NE)

(1, NE) d, E) (1, NE) q,E) (1, E) (1, NE) d, E) (1, NE)(1, NE) (1, E) (1, NE) d, BE)(1, E) (1, NE) (1, E) (1, NE) (1, NE) (1, E) (1, NE) (1, E)

(1, E) (1, NE) d, EB) (1, NE) (1, NE) (1, E) (1, NE) (1, E)

Bang 3 : Tap dit liệu huân luyện cho MNI và két qua [10

Trang 24

dis1, dirl | dis2, dir2 | dis3, dir3 | dis4, dir4 | Output : dis5,dirS

(1, E) (1, SE) (2, E) q,S) q,E)

(1, SE) (2, E) ad, S) q,E) (1, NE)

(2, E) (1, S) q,E) (1, NE) (1,E)

OUTPUT

— COMKPARISON

DESIRED

INPUT PATTERM

Hình 2.3 Cấu trúc Neural network [10]

Trang 25

Với mô hình neural network di chuyền của cá nhân hay số đông với phương.

pháp dự đoán bằng cách cập nhật thông tin vị tri trong mang di động kết quả đạt

được cho thấy chính xác

Nhân xét :

Ưu nhược điểm của thuật toán Backpropagation:

Ưu điểm :

Ap dụng tốt khi có một khối lượng lớn dit liệu đầu vào và đầu ra

Giải quyết được các vấn dé phức tạp nhưng có giải pháp rõ ràng

Dễ dang tạo ra một số mẫu có hành vi đúng

Giải quyết được van dé thay đỗi theo thời gian Nhược điểm :

- Chi mang tính thực tế trong một số tình huống nhất định -_ Cần phải cung cấp bộ mẫu cho đầu vào và ra chính xác cho từng

trường hợp.

- Không đáp ứng tốt cho yêu cầu đòi hỏi kết quả chính xác

2.4 Dự đoán di chuyển dựa trên mô hình Hidden Markov-chain (HMM)

(Predicting Future Locations with Hidden Markov Models)

Wesley Mathew cùng các đồng sự đã đề xuất phương pháp lai dựa trênHidden Markov model [13] Với phương pháp này lịch sử di chuyển của cá nhânđược nhóm theo đặc điểm của nhóm người và dùng đặc điểm này để huấn luyệncho các nhóm khác nhau.

'Với một chuỗi tuần tự các vị trí dừng lại phát sinh dé phát hiện vị trí có khả

năng dừng lại tiếp theo thuật toán bắt đầu từ việc tìm các cụm có nhiều khả năngliên quan đến trình tự các vị trí dừng lại được xem xét trong dự đoán, sau đó suy

luận trên HMM tương ứng đề phát hiện vị trí tiếp theo có khả năng nhất.

Sơ đồ trong Hình 2.4 bên dưới cho thấy kiến trúc chung của HMM Mỗihình tròn trong biểu đồ đại diện cho một biến ngẫu nhiên có một giá trị bất kỳ.Biến ngẫu nhiên x(t) là trạng thái an tại thời điểm t, x(t) € {x1,x2,x3}, biến y(t)

là vi trí dừng lại tại thời điểm t với y(t) € {y1,y2,y3, y4} mũi tên hiển thị điều

Trang 26

kiện phụ thuộc Từ sơ đồ, cho thấy phân phối xác suất có điều kiện của biến an

x(t) tại thời điểm t, do giá trị của các biến số ẩn x ở tất cả các lần, chỉ phụ thuộc

Vào giá trị của biến an x(t-1), do đó các giá trị tại thời diém t-2 và trước đó không

có ảnh hưởng Đây được gọi là tính chất Markov, tương tự như giá trị của vị trí

quan sát y(t) chỉ phụ thuộc vào giá trị của biến an x(t), tại thời diém t

Wesley Mathew sử dụng cách tiếp cận Baum-Welch dé ước lượng cácthông số của HMM, đưa ra bộ trình tự của có dạng Y = <y(0), y(I), , y(L),y(Lnext)> Vị trí L tương ứng cho vị trí đã dừng lại và Lye, tương ứng cho vị trídừng lại tiếp theo Tuần tự có xác suất cao nhất và tương ứng Lyex là nơi có khảnăng dừng lại tiếp theo Từ các vị trí đã dừng lại trước đó tính toán các bộ tương

ứng cho tất cả các vị trí tiếp theo sẽ dừng lại, sử dụng thuật toán chuyển tiếp để

tính xác suất cho tất cả và đưa ra vị trí tiếp theo tương ứng theo tuần tự với xácsuất cao nhất

b22

31

: „Z1.

b23 bll bl2 bl3

Hình 2.4 Hidden Markov Model [13]

2.5 Dự đoán di chuyển dựa trên mô hình Mixed Markov-chain

(Pedestrian-movement Prediction based on Mixed Markov-chain Model)

Trang 27

Các nghiên cứu dùng Markov model với ý tưởng là quan sát hành vi dichuyển của cá nhân theo mô hình Markov và dự đoán vị trí di chuyền tiếp theodựa vào các vị trí đã dừng lại trước đó [3]

Một biến thể của mô hình Markov được gọi là Mixed Markov chain Model

(MMM) [2] đã được đề xuất để dự đoán vị trí tiếp theo Tiếp cận này cho rằngStandard Markov Model (MM) và Hidden Markov Model (HMM) là không mang

tính tổng quát cao dé áp dụng cho tat cả các loại di động Do đó, khái niệm vềMixed Markov Model (MMM) được đề xuất như một mô hình trung gian giữa môhình cá nhân và tổng quát Dự đoán vị trí tiếp theo dựa trên một mô hình Markovthuộc về một nhóm các cá nhân có hành vi di động tương tự Tiếp cận này phân

cụm các cá nhân thành các nhóm dựa trên các đấu vết di chuyển của họ và sau đó

tao ra một mô hình Markov cụ thé cho từng nhóm Dự đoán của các vị trí tiếp theothực hiện bằng cách xác định các nhóm một cá nhân cụ thể, sau đó suy luận ra các

vị trí tiếp theo trên cơ sở mô hình này

Akinori Asahara [3] cho rằng Markov Model (MM) chỉ xem xét với trangthái quan sát được và cá nhân lựa chọn hành vi phụ thuộc vảo vị trí Với Hidden

Markov Model (HMM) chỉ xem xét với trạng thái di chuyên không quan sát được.

Trạng thái không quan sát được là suy nghĩ của cá nhân và trạng thái quan sát

được chỉ thay đổi theo suy nghĩ này Akinori Asahara xây dựng Mixed Markov

chain Model (MMM) để hoàn thiện mô hình MM và HMM và không xem xét suynghĩ cá nhân mà nó xem xét suy nghĩ của một nhóm người và cho rằng dùng

MMM suy đoán tốt hon so với MM và HMM

Phương pháp dự đoán dựa trên mô hình Mixed Markov-chain minh hoạ

Hình 2.5 Trong MMM dự đoán khả năng di chuyền tiếp theo được tính theo công.thức phân bố xác suất Bước di chuyển tiếp theo của cá nhân với khả năng caonhất chính là xác suất cao nhất Công thức tính như sau [2] :

Trang 28

`" rh

Hình 2.5 Mixed Markov chain Model

Nhân xét :

Tác giả Akinori Asahara [2] kết luận phương pháp dự đoán di chuyên bằng

mô hình Mixed Markov chain Model (MMM) chính xác cao hơn phương pháp Markov Model và phương pháp Hidden Markov Model thông qua thực nghiệm trên dữ liệu thực.

2.6 Tóm tắt chương

Chương 2 đã giới thiệu các thuật toán nghiên cứu về lĩnh vực dự đoán di

chuyền cùng với một số công trình liên quan gần đây Những nghiên cứu này cũng

nhằm mục đích cung cấp dịch vụ tốt hơn cho người dùng, ngoài ra nó còn giúp suyluận ra các hoạt động của người dùng thiết bị thông minh

Qua đó cho thấy hiện nay có rất nhiều nghiên cứu về mô hình dự đoán di

chuyển tương lai của người dùng thiết bị di động và đây là hướng phát triển mangnhiều tính thách thức vì hiện nay các mô hình đưa ra tuy có kết quả cao nhưng chỉ

có ý nghĩa trong hướng hẹp và tính thực tiễn chưa cao vì vậy việc đưa ra mô hình

để áp dụng được trong thực tiễn có hiệu quả là thách thức lớn hiện nay

Trang 29

CHƯƠNG 3: CƠ SỞ LÝ THUYET VA NEN TANG

Chương này sẽ giới thiệu về Hệ thống Định vị toàn cầu (GPS) và các đặctính của hệ thống ảnh hưởng đến quá trình định vị cũng như những đặc điểm của

hệ thống hỗ trợ trong quá trình thu thập dữ liệu

Để giải quyết vấn đề xác định các vị trí trong hành trình cá nhân từ đó làm

cơ sở để dự đoán vị trí di chuyển tiếp theo, một số lý thuyết và thuật toán sẽ được

áp dụng Vì vậy chương này cũng sẽ trình bày thuật toán phân cụm, mô hình dự

đoán vị trí thường dùng làm cơ sở dé dự đoán các vị trí di chuyền tiếp theo Cácthuật toán và mô hình được giới thiệu gồm H

Thuật toán phân cụm K-means.

Mô hình Markov Chain.

Mô hình Human Mobility

Mô hình Mobility Markov Chain.

Mô hình Learning n-Mobility Markov Chain (Ln-MMC).

Do đặc diém và cũng là ưu diém của mô hình n-MMC, luận văn nay sé lựa chon mô hình n-MMC làm cơ sở đê triên khai và mở rộng mô hình đưa thêm vào

mô hình đặc điểm ngữ cảnh là thời điểm đến và thời gian dừng lại dé dự đoán vị

trí đi chuyển tiếp theo Luận văn này sẽ giới thuật toán và mô hình sau:

Thuật toán Dynamic K-mean (viết ngắn gọn là DK-means) là thuật toánlinh động được mở rộng từ thuật toán K-means để có thể phát hiện vị trí

mới làm phát sinh cụm vị trí dừng lại trong hành trình di chuyên.

Mô hình Extend Mobility Markov Chain viết ngắn gọn là Extend MMC được mở rộng từ mô hình n-MMC dé đưa thêm ngữ cảnh vào môhình nhằm làm tăng hiệu qua dự đoán cho mô hình n-MMC

Trang 30

n-3.1 Kỹ thuật dự đoán

Máy học (Learning Machine), khai thác dữ liệu (Data mining), nhận dạngmẫu (pattern recognition) và thống kê suy luận (statistical inference) cùng mục tiêuchung tìm kiếm các mẫu trong dữ liệu dé đưa ra kết luận

Kỹ thuật máy học có thê được chia thành hai nhóm theo cách học: học có giám sát va học không giám sát Kỹ thuật học có giám sát sử dung dit liệu lich sử

đã được dán nhãn với các câu trả lời đúng Những dữ liệu này được dùng làm dữliệu huấn luyện để phát triển một mô hình, sau đó được áp dụng cho dữ liệu mớiđưa ra dự đoán hay phân loại Học không giám sát, kỹ thuật không sử dụng dữ liệu

ban đầu dé xây dựng mô hình và dữ liệu có thể có hoặc không có thông tin về các

câu trả lời chính xác Kỹ thuật học không giám sát cố gắng khám phá các mẫu

Phân loại | Hồi qui | Phân cụm | kết hớp

Dự đoán Market Basket Recommender

tuần tự Analysis System

Hình 3.1 Mô hình kỹ thuật máy học

3.1.1 Học giám sát

Học giám sát xem hình 3.1 có thé được chia thành hai loại kỹ thuật: hồi quy

và phân loại Hồi quy liên quan đến việc thiết lập một chức năng cho dữ liệu sé,

sau đó nội suy hoặc ngoại suy dé tính toán giá trị trong tương lai Ví dụ như hồi

quy tuyến tính hoặc hồi quy bình phương tối thiểu Kỹ thuật phân loại, nhóm dữ

liệu thành các loại được xác định trước Một ví dụ về phân loại nhị phân (một đầuvào chỉ có hai loại đầu ra) là mô hình dự đoán nguy cơ mắc bệnh, trong đó dữ liệu

Trang 31

đầu vào là tập hợp các triệu chứng thể chất hoặc các đặc tính và kết quả đầu ra là

có hay không có giá trị để xem bệnh nhân có nguy cơ về căn bệnh nhất định

Dư đoán tuần tự rời rạc :

Dự đoán tuần tự là dự đoán mục tiếp theo trong một chuỗi, có thể được coi

là kiểu phân loại Kết quả đầu ra có thể là những yếu tố trong bảng chữ cái được

sử dụng đề tạo ra các trình tự Trình tự này được biết trước và dự đoán đó là mụctiếp theo trong chuỗi

Cho ¥ là chuỗi ký tự trong bảng chữ cái s„ 52, , s„ với n là số lượng ký

tự Trình tự huấn luyện của mô hình gồm các ký tut là x, x;, x;, , x, VỚI x;

€ 3, mô hình tính xác suất có điều kiện

PX 47 = Xe IX, = x,, Xp-7 = Xs, } BLD

Mô hình được gọi là Stationary Markov Chain

Với mỗi m và mọi x; € Ð)

P{X) = Xp, X› =X2, Xn = Xn}

= P{xtsm= XI; Xoem= X25 +++) Xnem=Xn} (3.1.2)

Quá trình này được gọi là Markov vì xác suất của một biến tùy thuộc vào biến trước (s) Số lượng các biến trước sử dụng là chiều dài L của mô hình Chuỗi con của các

biến trước được gọi là lịch sử hoặc bối cảnh.

Nếu chiều dài L trong bối cảnh là một hằng số, mô hình được gọi là mộtchuỗi Markov chiều dài cố định Trong một chuỗi Markov chiều dài thay đổi,chiều đài L trong bối cảnh sử dụng có thé thay đổi đến một số số lượng tối da

3.1.2 Hoc không giám sát

Kỹ thuật học không giám sát (xem hình 3.1) không xây dựng mô hình từ dữliệu huấn luyện lịch sử Thay vào đó kỹ thuật này cố gắng khám phá mối quan hệ

trong bộ dữ liệu Phân nhóm (Clustering) cũng được gọi là phân loại không giámsát, nó phát hiện ra các nhóm có đặc trưng tương tự Không giống như phân loại

có giám sát, kỹ thuật phân nhóm không biết trước nhãn của các loại đầu ra trướckhi hoàn thành Các nhóm kết quả có thể được dán nhãn bằng các thuật toán tự

Trang 32

động với các điểm trung tâm của cụm hoặc thủ công bằng cách yêu cầu người

dùng nhập vào một tên có ý nghĩa.

3.2 Hệ thống đinh vị toàn cầu - GPS

3.2.1 Giới thiệu về GPS

Hệ thống Định vị Toàn cầu [14] (Global Positioning System - GPS) là hệ

thống xác định vi trí dựa trên vị trí của các vệ tinh nhân tạo Trong cùng một thờiđiểm, ở một vị trí trên mặt đất nếu thiết bị GPS xác định được khoảng cách đến ba

vệ tinh (tối thiêu) thì sẽ tính được vị trí toạ độ của thiết bị GPS đó

GPS ban đầu chỉ dành cho các mục đích quân sự, nhưng không hệ nào đưa

ra sự đảm bảo tôn tại liên tục và độ chính xác Vì thế chúng không thỏa mãn được

những yêu cầu an toàn ngày càng cao cho hệ thống dẫn đường dân sự hàng không

và hàng hải, đặc biệt là tại những vùng và tại những thời điểm có hoạt động quân

sự của những quốc gia sở hữu các hệ thống đó Do không thỏa mãn được nhữngnhu cầu trên nên từ năm 1980 chính phủ Mỹ cho phép sử dụng hệ thống định vịtoàn cầu trong dân sự

Trang 33

- Mang người sử dụng: toàn thé các thiết bị thu và kỹ thuật tính toán dé cung.

cấp cho người sử dụng thông tin về vị trí

Mang không gian

lò e

Mang người sử dung Mang điều khiển

Hình 3.3 Các thành phan cơ bản của hệ thong GPS

Mang không gian : Các chức năng chính của vệ tinh bao gồm

- Thu nhận và lưu trữ dữ li u được truyền từ mảng điều khiển

- Cung cấp thời gian chính xác bằng các chuẩn tần số nguyên tử đặt trên

vệ tinh

-_ Truyền thông tin và tín hiệu đến người sử dụng trên một hay hai tần số

Các thế hệ vệ tinh GPS được đánh số Block I, II, HA, IIR va IF Thế

hệ vệ tỉnh đầu tiên là Block I được xây dựng bởi Rockwell International

Trang 34

Corporation, nặng khoảng 800kg và tuổi tho khoảng 5 năm Block II và HA

cũng do công ty này xây dựng nhưng nặng đến 900 kg Tuổi thọ của chúng

khoảng 7.5 năm Sự thay thé các vệ tinh Block II/IIA bằng Block IIR bắt đầu

từ năm 1996 Những vệ tinh nay công ty General Electric xây dựng Block IIF

vẫn đang trong giai đoạn thiết kế và dự định phóng lên quỹ đạo từ năm 2005

Vào năm (2003) trên quỹ đạo có 26 vệ tinh Block ITA va IIR Cấu hình

quỹ đạo như sau:

Có 6 mặt phẳng quỹ đạo gần tròn

Trên mỗi mặt phẳng quỹ đạo có 4 đến 5 vệ tinh

Mặt phẳng quỹ đạo nghiêng so với xích đạo khoảng 55°

Độ cao bay trên mặt đất xAp xi 20.200km

TAN SO CƠ BAN

50BPS THONG BAO HÀNG HAI

Hinh 3.4 Cầu trúc tính hiệu GPS

Mỗi vệ tỉnh truyền một tín hiệu hàng hải duy nhất trên hai tần số LI1575.42MHz và L2 1227.60MHz Các tín hiệu vệ tinh bao gồm:

Hai tần số sóng mang

Mã đo khoảng cách được điều biến vào các sóng mang

Thông báo hàng hải chứa dung thông tin về vị trí và đồng hồ vệ tỉnh

Mang điêu kị H

Mảng điều khiển bao gồm các tiện ích cần cho việc giám sát sức khoẻ;theo dõi, điều khié , tính toán bản lịch vệ tinh va nạp dữ liệu lên vệ tinh Có 5

Trang 35

trạm điều khiển trên mặt đất: Hawaii, Colorado Springs, Ascension Is., DiegoGarcia va Kwajalein Chức nang của chúng như sau:

Tất cả 5 trạm đều là tram giám sát, theo dõi vệ tỉnh và truyền dữ liệu đếntrạm điều khiển chính

Trạm đặt tại Colorado Springs là trạm điều khiển chính (MSC) Tại đó dữ

liệu theo dõi được xử lý nhằm tính toạ độ và số hiệu chỉnh đồng hồ vệ tinh

Ba trạm tại Ascension, Diego Garcia và Kwajalein là các trạm nạp dữ

liệu lên vệ tỉnh Dữ liệu bao gồm các bản lịch và thông tin số hiệu chỉnh đồng

hồ vệ tỉnh trong thông báo hàng hải

Mang người sử dung:

Thiết bị của người sử dụng GPS là các máy thu bao gồm:

Phần cứng (theo dõi tín hiệu và trị đo khoảng cách)Phần mềm (các thuật toán, giao diện người sử dụng)Các quá trình điều hành

Hiện nay trên thị trường có rất nhiều loại máy thu khác nhau về chủng.loại, độ chính xác và giá tiền Theo cấu tạo có thể chia thành hai loại:

Máy thu một tần số: là loại máy thu chỉ thu được tín hiệu trên 1 tần số LIMáy thu hai tần số: là loại máy có thể thu đầy đủ tín hiệu trên hai tần số

Theo độ chính xác, có thé chia làm ba loại:

Độ chính xác cao: đây là loại máy thu hai tần số đất tiền nhất hiện nayđược dùng trong trắc địa Thiết bị phần cứng phức tạp nên việc sử dụngkhó khăn Vi dụ như Trimble 4800, Topcon Legacy, Topcon Hiper Series,

Topcon GB-500, Topcon GB-1000, Leica system 500, wv

Độ chính xác trung bình: đây là loại may thu một tần số, có cầu tạo đơngiản dé mang vac va dé str dung cho thu thập dữ liệu phục vụ ban đồ vàGIS Ví dụ như Trimble Geo-explorer XT, Ashtech Reliance

Độ chính xác thấp: cũng là loại máy thu một tần số nhưng có cấu tạo gọnnhẹ nhất (thường là máy thu cầm tay) và rẻ tiền nhất thường được dùng

Trang 36

cho các mục đích định vị hàng hải, du lich, Vi dụ Lowrance 200,

Garmin III+, Magenlan 3.2.2.2 Hoạt động chung của GPS

Các vệ tinh GPS [14] bay vòng quanh Trái Dat hai lần trong một ngày theomột quỹ đạo rất chính xác và phát tín hiệu có thông tin xuống Trái Dat Về bảnchất máy thu GPS so sánh thời gian tín hiệu được phát đi từ vệ tỉnh với thời giannhận được chúng Sai lệch về thời gian cho biết máy thu GPS ở cách vệ tinh bao

xa Rồi với nhiều khoảng cách đo được tới nhiều vệ tinh, máy thu có thé tính được

vị trí của người dùng và hiền thị lên bản đồ điện tử của máy

Máy thu phải nhận được tín hiệu của ít nhất ba vệ tỉnh đề tính ra vị trí haichiều (kinh độ và vĩ độ) và đề theo dõi được chuyển động Khi nhận được tín hiệucủa ít nhất 4 vệ tinh thì máy thu có thẻ tính được vị trí ba chiều (kinh độ, vĩ độ và

độ cao) Một khi vị trí người dùng đã tính được thì máy thu GPS có thê tính các

thông tin khác, như tốc độ, hướng chuyên động, bám sát di chuyền, khoảng hànhtrình, khoảng cách tới điểm đến, thời gian Mặt trời mọc, lặn và nhiều thứ khácnữa.

3.2.3 Tính hiệu GPS

Các vệ tinh GPS phát hai tín hiệu vô tuyến công suất thấp dai LI và L2

(dải L là phần sóng cực ngắn của pho điện từ trai rộng từ 0,39 tới 1,55 GHz) GPSdan sự dùng tan số LI 1575.42 MHz trong dai UHE Tín hiệu truyền trực thị, có

nghĩa là chúng sẽ xuyên qua mây, thuỷ tinh và nhựa nhưng không qua phan lớn

các đối tượng cứng như núi và nhà

LI chứa hai “mã giả ngẫu nhiên" (pseudo random), đó là mã Protected (P)

và mã Coarse/Acquisition (C/A) Mỗi một vệ tỉnh có một mã truyền dẫn nhất định,

cho phép máy thu GPS nhận dang được tín hiệu Mục đích của các mã tín hiệu này

là dé tính toán khoảng cách từ vệ tinh đến máy thu GPS

Tín hiệu GPS chứa ba mẫu thông tin khác nhau — mã giả ngẫu nhiên, dữliệu thiên văn và dữ liệu lịch Mã giả ngẫu nhiên đơn giản chỉ là mã định danh để

xác định được thông tin phát thuộc vệ tinh nào Có thể nhìn số hiệu của các vệ tinh

Trang 37

trên trang vệ tỉnh của máy thu Garmin để biết nó nhận được tín hiệu của vệ tinhnào.

Dữ liệu thiên văn cho máy thu GPS biết vệ tỉnh ở đâu trên quỹ đạo ở mỗithời điểm trong ngày Mỗi vệ tỉnh phát dữ liệu thiên văn chỉ ra thông tin quỹ đạo

cho vệ tỉnh đó và mỗi vệ tỉnh khác trong hệ thống.

Dữ liệu lịch được phát đều đặn bởi mỗi vệ tinh, chứa thông tin quan trong

về trạng thái của vệ tỉnh, ngày giờ hiện tại Phần này của tín hiệu là cốt lõi để pháthiện ra vị trí.

3.2.4 Các trị đo của GPS

Các máy thu GPS cung cấp các trị đo là khoảng cách từ máy thu đến vệ

tỉnh Tuy nhiên các trị đo này bao gồm hai loại sau: [17]

- Giả cự ly (pseudo-range): là tri đo dựa trên nguyên tắc đo xung với xung là

mã P hay mã C/A Đặc điểm của trị đo này là độ chính xác thấp (0.3 m cho

mã P và 3m cho C/A) nhưng nó thể hiện trực tiếp khoảng cách hình học từmáy thu đến vệ tỉnh Vì mã đo khoảng cách P được truyền trên hai tần số

LI và L2 nên tương ứng cho hai trị đo P1 và P2 Trong khi đó mã C/A chỉhiện diện trên LI nên chỉ có trị đo duy nhất C1 Hình 3.5

- Trị đo pha: bước sóng của các sóng mang rất ngắn - xắp xi 19cm cho LI và

24 cm cho L2 Giả sử rằng độ phân giải của trị đo khoảng 1-2% bước sóng

thì pha sóng mang có thể được đo đến mức độ milimét Không may mắn làtrị đo này vẫn còn thiếu số nguyên chu kỳ pha dé có thể chuyền thành

khoảng cách từ máy thu đến vệ tỉnh Vì vậy để xử lý trị đo này cần có

những phần mềm chuyên dụng cho mục đích trắc địa Hình 3.6

Trang 38

h ' H Sóng mang đến từ

VV wWVWWvWWXx⁄^ vệ tỉnh

: (Độ lệch doppler)

1 '

!

` tạo ra ở máy thu

fh ASAI cà SỆ đinh Best signal

Trang 39

Như vậy một máy thu một tần sẽ thu được 3 trị đo là Cl, PI và LI Trong

khi máy thu hai tần sẽ cung cấp đến 7 loại trị đo: Cl, P1, LI, P2, D1, D2 và L2

Các trị đo trên không chỉ chứa sai số đo của máy thu vì khi tín hiệu đi từ vệtỉnh đến máy thu nó bị ảnh hưởng nặng nề do đồng hỗ của vệ tỉnh và máy thu bị

sai, tín hiệu bị trễ ở tầng điện ly, đường lan truyền của tín hiệu trong khí quyền bị

bẻ cong do chiết suất của không khí không đều Ảnh hưởng tổng hợp của nhữngnguồn sai số này có thé làm cho các trị do sai đến hàng trăm km Vì vậy dé đòi hỏi

độ chính xác định cỡ vài chục mét, những nguồn sai số phải được khắc phục và

Độ chính xác định vị GPS không những chỉ phụ thuộc vào loại trị đo dùng

trong xử lý mà còn phụ thuộc đáng ké vào kiều định vị

3.2.5.1 Định vị tuyết đối:

Còn được gọi là định vị điểm đơn Trong kiểu này các trị đo được dùng làgiả cự ly.

Trang 40

“The Clabal Pelodng

—

Giả sử toa độ vệ tinh đã biết ( ), véc tơ từ máy thu đến vệ tinh đo được là ()

„ thì toa độ của máy thu ( ) có thể xác định được Tuy nhiên trong thực tế chúng ta

không đo được mà chỉ đo được khoảng cách r Do đó cần ít nhất 3 vệ tỉnh khácnhau mới giải ra được toạ độ máy thu Ngoài ra do đồng hồ của máy thu luôn cósai số nên phát sinh thêm một an số nữa và do vậy cần có từ 4 vệ tỉnh trở lên

Tiêu đề	Xây dựng hệ thống theo dõi và dự đoán vị trí di chuyển của người dùng thiết bị cầm tay
Tác giả	Tran Van Ngan
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	109
Dung lượng	54,58 MB