.Vìthế vấn đề xác định vị trí hiện tại và dự đoán vị trí di chuyển tiếp theo của người dùng điện thoại di động là một vấn đề vốn đã thú vị mà còn mang nhiều thách thứctrong nghiên cứu, đ
Trang 1TRAN VAN NGAN
LUẬN VĂN THAC SĨ NGANH KHOA HQC MAY TÍNH
Mã số: 60.48 01.01
TP Hồ Chí Minh — năm 2014
Trang 2MỤC LỤC
DANH MỤC VIET TẮT
LỜI CẢM ƠN
MỞ ĐÀU
CHƯƠNG I : GIỚI THIỆU ĐÈ TÀI
1.1 Dự đoán vị trí di chuyên tiếp theo © oe ak
1.2 Mục tiêu phạm vi dé tài
1.3 Kết quả nghiên cứu
1.4 Cấu trúc luận văn
CHƯƠNG 2 : CAC CÔNG TRINH LIEN QUAN
2.1 Các thuật toán dự đoán.
2.1.1 Thuật toán Domain - Independent Algorithms.
2.1⁄2 Thuật toán Domain - Specific Heuristic:
2.2 Dùng kỹ thuật Data Mining dé cải thiện dự đoái
2.3 Dùng neural network model để dự đoán chuyén động tương lại:
2.4 Dự đoán di chuyển dựa trên mô hình Hidden Markov-chain (HMM)
2.5 Dự đoán di chuyển dựa trên mô hình Mixed Markov-chain
Trang 33.5 Mô hình Modeling human mobility
3.6 Mô hình Mobility Markov Chains - MMC
3.7 Mô hình Learning n-Mobility Markov Chain
3.7.1 Dự đoán vi trí tiếp theo
3.7.2 Thuật toán nŸMMC:
3.8 Tóm tắtchương
CHUONG 4: MÔ HÌNH DỰ ĐOÁN Extend n-MMC
4.1 Mô hình Extend n- Mobility Markov Chain — (Extend n-MMC)
4.1.1 Kiến trúc mô hình
4.1.2 Hoạt động của mô hình dự đoán Extend n-MMC
4.1.3 Phương pháp kiểm tra đánh giá mô hình
4.1.4 Thuật toán phân cụm DK-Means
4.1.5 Thuật toán Extend n-MMC
4.1.6 Thuật toán dự đoán Context Prediction Algorithm — CPA
4.2 Triển khai mô hình
4.2.1 Triển khai trên thiết bi di động
4.2.2 _ Triển khai trên Server mô hình Extend n-MMC
4.3 Tómtắtchương
CHƯƠNG 5 : TRIEN KHAI ĐÁNH GIÁ MÔ HÌNH
5.1 Ti n khai thu thập thông tin vị tr
5.2 Đánh giá chọn lựa thời gian ghi nhận tính hiệu.
5.3 Triển khai đánh giá thuật toán DK-Means
5.4 Đánh giá mô hình dự đoán Extend n-MMC.
5.4.1 Kiểm tra hoạt động của thuật toán dự đoán CPA.
5.4.2 So sánh độ chính xác giữa các mô hình khác nhau.
5.4.3 Kiểm tra đánh giá hiệu quả dự đoán của mô hình Extend n-MM
6.4 Đóng góp của luận văn 106
6.5 Phát triển cho tương lai 107
TAI LIEU THAM KHAO 108
Trang 4DANH MỤC VIET TAT
Tw viết tắt Việt day đủ Y nghĩa
Con người Người dùng thiệt bị di động Người dùng thiệt bị câm tay
MM Markov Model Mô hình Markov
MMP Mobile Motion Prediction Dự đoán thiệt bị di chuyên
MPA Motion Prediction Algorithm Thuật toán dự đoán di chuyên
RDA Regularity Detection Algorithm Thuat toán phát hiện liên tục
RSSI Radio Signal Strength Indication _| Chỉ định cường độ tính hiệu Radio UMP User Mobility Patterns Mau dữ liệu di động của người WAAS Wide Area Augmentation System | Hệ thông tăng cường độ chính xác
tính hiệu GPS
Trang 5Danh Mục hình
Hình 2.1 Cây LZ Parsing
Hình 2.3 Cấu trúc Neural network [10]
Hình 2.4 Hidden Markov Model [13]
Hinh 2.5 Mixed Markov chain Model
Hình 3.1 Mô hình kỹ thuật máy hoc
Hình 3.2 Mô hình hệ thống định vị toàn câu GPS
Hình 3.3 Các thành phan cơ bản của hệ thông GPS
Hình 3.4 Cấu trúc tính hiệu GPS
Hình 3.5 Kỹ thuật so trùng để giải mã tính hiệu từ vệ tỉnh [17]
Hình 3.6 Kỹ thuật so trùng để giải mã tính hiệu từ vệ tỉnh [17]
Hình 3.7 Nguồn sai số ảnh hưởng đến độ chính xác GPS [17]
Hình 3.8 Kỹ thuật định vị tuyệt đối [17]
Hình 3.9 Kỹ thuật định vị tuyệt đối [17]
Hình 3.10 Kỹ thuật định vị tuyệt đối [17]
Hình 3.11 Kỹ thuật định vị tương đối [17]
Hình 3.12 Kỹ thuật định vị động [17]
Hình 3.13 Minh hoạ thuật toán k-means với k = 2
Hình 3.14 n-MMC với n= I [II]
Hình 3.15 Biểu đồ biểu diễn n-MMC [11]
Hình 4.1 Kiến trúc của mô hình dự đoái 57Hình 4.2 Hoạt động của mô hình dự đoán
Hình 4.3 Hoạt động của mô hình dự đoán - giai đoạn dự đoán .60 Hình 4.4 Minh hoạ phương pháp xác định vị trí trừ GPS .62
Hình 4.5 Minh hoạ quá trình thực hiện dự đoán 64
Hình 4.6 Minh hoạ so sánh phân cụm với K-means và DK-means 69
Hình 5.1 Mô tả các vị trí di chuyền trên bản đồ
Hình 5.2 Mô tả hành trình di chuyền qua các dié
Hình 5.3 Biểu diễn tỷ lệ chính xác của dữ liệu
Trang 6Hình 5.4 So sánh mức tiêu hao năng lượng
Hình 5.5 Biểu đồ so sánh mức độ gia tăng xác suất
Hình 5.6 Biểu dé biểu diễn tỷ lệ chính xác bộ dự đoán
Hình 5.7 Biểu diễn độ chính xác của mô hình n-MMC
Hình 5.8 Biểu dé so sánh độ chính xác của n-MMC và Extend n-MMC 102
Trang 7LỜI CÁM ƠN
Những lời cảm ơn đầu tiên Tôi xin được gửi đến thầy giáo hướng dẫn luậnvăn của tôi là tiến sĩ khoa học Lê Dinh Tuan, người đã giúp đỡ, hướng dẫn tôi rất
tận tình trong quá trình nghiên cứu hoàn thành luận văn này và thầy GS TSKH
Hoàng Kiếm người đã tạo cơ hội cho Tôi được tiếp nhận đề tài này và có cơ hộilàm việc với TS Lê Đình Tuan
Tôi cũng xin nói lời cảm ơn đến các Thay, Cô những người đem những kiếnthức quý báo của mình dé truyền dat cho các sinh viên trong đó có Tôi, dé giờ đây
Tôi có đủ kiến thức thực hiện và hoàn thành luận văn này
Tôi cũng xin gửi lời cảm ơn đến các bạn cùng khóa đào tạo thạc sĩ chuyênngành khoa học máy tính 2011-2013 đã cung cấp các tài liệu cần thiết trong quátrình nghiên cứu và đã giúp đỡ tôi rất nhiều trong quá trình học tập, chuẩn bị luận
Xin cảm ơn khoa Công Nghệ Thông Tin và phòng Sau Đại Học đã tạo điềukiện cho tôi học tập và nghiên cứu trong suốt khóa học
Cuối cùng cho phép tôi cảm ơn các Đồng nghiệp, bạn bè, gia đình đã giúp
đỡ, ủng hộ tôi rất nhiều trong toàn bộ quá trình học tập cũng như nghiên cứu hoànthành luận văn này.
Trang 8MỞ ĐÀU
Ngày nay Điện thoại di động trở nên phổ biến với mọi người, nó không còn
là thiết bị xa xỉ như những năm của thập kỷ 89 - 90 Từ dòng điện thoại dùng bàn
phim dé đánh sé tiền đến dòng điện thoại dùng màn hình cảm ứng không bàn phím
để thực hiện chức năng như một bàn phím Các kỹ thuật sử dụng trên điện thoạingày càng phát triển nhanh chóng biến chúng trở thành một loại thiết bị thong
minh đặc biệt sự xuất hiện ngày càng phổ biến và đa dang của những loại điệnthoại mang tính thông minh (smartphone) và giá cả cạnh tranh, việc sở hữu một
Smartphone càng ngày càng dễ dàng và điện thoại ngày nay đã trở thành thiết bị
thiết yếu của mọi người din Các Smartphone ngày nay còn trở thành công cụ hỗ
trợ thiết yếu trong công việc do các Smartphone cho phép lập chương trình điềukhiển các thiết bị cảm biến (sensors) như : la bàn kỹ thuật số, hệ thống định vị(GPS), giọng nói, hình ảnh, v.v tao điều kiện cho sự xuất hiện của nhóm, cá nhân
và các ứng dụng cảm biến mức quy mô cộng đồng
Vị trí của một người cho ta suy đoán để biết người đó sẽ làm gi, chắn hạn
nếu người đó ở thư viện thì họ sẽ đọc sách, ở siêu thị thì họ sẽ mua hàng v.v Vìthế vấn đề xác định vị trí hiện tại và dự đoán vị trí di chuyển tiếp theo của người
dùng điện thoại di động là một vấn đề vốn đã thú vị mà còn mang nhiều thách thứctrong nghiên cứu, đặc biệt là sự ra đời của Smartphone đã tạo ra một hướng nghiên
cứu mới trong lĩnh vực này.
Luận văn này trình bày nghiên cứu về dự đoán vị trí đi chuyển tiếp theo của
người dùng Smartphone, trong đó áp dụng thuật toán phân cụm dé phân cụm các
vị trí trong hành trình di chuyền Trong đó trình bày hệ thống phân cụm được thựchiện với một khoảng thời gian dài trên các vị trí có ý nghĩa đối với con người Những vị trí này được đưa vào mô hình Markov để phân tích dự đoán vị trí dichuyển tiếp theo
Điểm mở rộng trong luận văn nay là kết hợp thông tin lịch sử các vị trí đi
qua kết hợp với thời điểm đến, thời gian dừng lại trước đó trong dự đoán vị trí tiếptheo dé nâng cao hiệu quả dự
Trang 9CHƯƠNG 1: GIỚI THIEU ĐÈ TÀI
1.1 Dự đoán vị trí di chuyển tiếp theo
Nhận biết vị trí của thiết bị hay vị trí của người dùng thiết bị di động (sau
này được hiểu như nhau và được gọi ngắn gọn là người dùng hoặc cá nhân hay
thiết bi) là vấn đề thú vị và vấn đề này mở ra nhiều thử thách nghiên cứu Sự bùng
nổ trong công nghệ di động không dây trong thập kỷ qua đã tạo nên sự thay đổi
dang quan tâm trong kỹ thuật dự đoán vị trí.
Cùng với sự phát triển của mạng di động không dây, các kỹ thuật xác định
vị trí và dự đoán di chuyển của con người được ứng dụng trên các thiết bị cầm tay,
điện thoại thông minh dé theo doi con người và xử lý các tình huống xảy ra khẩn
cấp Các ứng dụng trên các thiết bị này cần định vị được vị trí của con người va ditliệu này được chuyển về trung tâm xử lý Với thông tin định vị từ thiết bị , hệthống xác định vị trí con người, từ đó có thể cung cấp thông tin hữu dụng chongười làm công tác cứu hộ trong các lĩnh vực sức khoẻ , Y tế, cứu hộ tai nạn trong
trường hợp xảy ra sự có với con người vì thế các ứng dụng kiểu này đáng đượcquan tâm Tiếp theo vấn đề xác định vị trí người dùng, dự đoán vị trí di chuyển
tiếp theo cũng là vấn đề đáng được quan tâm Các kỹ thuật dự đoán không chỉ cảm
nhận được ngữ cảnh của con người mà nó còn có thé dự đoán được vị trí di
chuyển tiếp theo sau đó Khả năng dự đoán vị trí di chuyển tiếp theo hỗ trợ chomột số loại ứng dụng nhận biết ngữ cảnh Các ứng dụng nhận biết vị trí cung cấp
thông tin cho ta biết vị tri và hoạt động của con người Những người làm việc cứu
hộ có thể xác định được vị trí của những người bị nạn khi họ dùng thiết bị diđộng gọi đến cứu hộ Khả năng dự đoán vị trí di chuyển tiếp theo sẽ giúp cho
người làm công tác an ninh dự đoán vị trí di chuyên của tội phạm hay suy luận ra
các hoạt động của đối tượng phạm pháp nhằm đưa ra biện pháp ngăn chặn hoặccũng có thé dự đoán khả năng của một người có thể đến vị trí yêu cầu, dé hỗ trợphối hợp cho hoạt động cộng đồng hoặc là dự đoán những hành dộng diễn biếnsau đó phù hợp với vi trí đi chuyền tiếp theo thông qua ngữ cảnh tại vị trí đó Với
Trang 10những lợi ích mà ứng dụng dự đoán đem lại tạo cho hướng nghiên cứu này ngày càng trở nên được quan tâm hơn.
Dé theo dõi được vị trí của người dùng thiết bị và dự đoán vị trí di chuyểntiếp sau đó cần có một hệ thống ghi nhận thường xuyên Với môi trường hoạt động
của con người, các hoạt động di chuyển thường xuyên diễn ra trên đường phd Để
có tính hiệu theo dõi thiết bị liên tục cần có hệ thống phát tính hiệu thường xuyên
và thiết bị sử dụng phải dé dang bắt được tính hiệu mọi lúc mọi nơi có thé Đáp
ứng cho điều kiện này, hệ thống GPS (Hệ thống định vị toàn cầu) là lựa chọn thích
hợp Mặc dù GPS có sai số trong độ đo khoảng cách hay tính hiệu có suy giảm khi
đi qua vật cản lớn như di chuyển qua đường ham hoặc bên dưới các toà nhà cao
ốc Với các hệ thống truy cập dùng Wi-fi thường không thích hợp với lý do không
phải nơi nào cũng trang bị Wi-fi hoặc hệ thống này bị giới hạn truy cập bằng mật
mã truy cập hay với hệ thông dùng sóng được phát từ các trạm thu phat sóng củanhà cung cấp dich vụ điện thoại thì tính hiệu thường không cung cấp vị trí củathiết bị và dịch vụ cung cấp cũng không được phủ sóng mọi nơi Vì thế sử dụngGPS trong lựa chọn nghiên cứu cho đề tài dự đoán vị trí di chuyển tiếp theo là lựachọn phù hop nhất
Hiện đã có nhiều thuật toán được đưa ra dé áp dụng trong dự đoán vị tri di
chuyển Trong đó điển hình là thuật toán Order -k Markov Predictor, thuật toán
này dự đoán vị trí tiếp theo chỉ dựa vào vị trí thứ k gần nhất, không xét đến thời
gian, thuật toán tính xác suất đến mỗi vị trí và dự đoán vị trí di chuyền tiếp theo là
vị trí có xác suất cao nhất và gẦn nhất Tuy nhiên thuật toán này đạt độ chính xác
chưa cao vì nó chỉ đơn thuần xét xác suất di chuyển tính từ vị trí hiện tại mà chưaxét đến những ảnh hưởng khác từ bối cảnh của vị trí đang xét
Luận văn này dé xuất và trình bày thuật toán phân cụm được mở rộng từthuật toán K-means dé có thé phát hiện các vị trí mới phát sinh trong quá trình dichuyển và xây dựng thêm các nhóm vị trí phát sinh gọi là thuật toán Dynamic K-
Means (DK-means) Đồng thời cũng giới thiệu mô hình dự đoán vị trí di chuyển
tiếp theo dựa trên lịch sử di chuyển kết hợp suy luận trên ngữ cảnh thời điểm đến
Trang 11và thời gian đừng lai dé nâng cao xác suất dự đoán dựa trên 2 thuật toán đề xuấttrong mô hình dự đoán là thuật toán Extend n-MMC và thuật toán dự đoán ngữcảnh Context Prediction Algorithm (CPA) Luận văn còn giới thiệu mô hình triểnkhai trên thực tiễn với thiết bị di động tạo nên hệ thống ứng dụng hoàn chỉnh, nâng
cao tính ứng dụng của mô hình
1⁄2 Mục tiêu phạm vi đề tài
Mục tiêu :
- Xây đựng hệ thông dự đoán vị trí di chuyển tiếp theo của người dùngSmartphone.
- Nâng cao hiệu quả dự đoán bằng cách cải tiến phương pháp dự đoán
n-MMC tạo kết hợp ngữ cảnh thời điểm đến và thời gian dừng lại vàHeuristic trên 2 thuộc tính này.
- Mở rộng thuật toán phân cụm K-means để có thé phát hiện các địa điểmphát sinh trong quá trình thực hiện phân cụm.
Phạm vi thực hiện của luận văn gồm có:
- Nghiên cứu xây dựng phần mềm nhúng trên Smartphone mục đích xâydựng chương trình dùng thu thập thông tin về vi tri của dùng Chương trìnhchạy trên Hệ điều hành Android
- Nghién cứu thuật toán theo dõi và dự đoán vi trí di chuyền tiếp theo củangười dùng Smartphone, xây dựng chương trình xử lý trên Server.
1.3 Kết qua nghiên cứu
- Từ việc thu thập vị trí , xác định hành trình di chuyển , các vị trí dừnglại, xem xét bối cảnh vị trí đừng lại chương trình đưa ra được xác suất
di chuyển đến các vị trí tiếp theo
- Nâng cao hiệu qua dự đoán từ mô hình n-MMC
- Xây dựng được mô hình dự đoán đưa vào áp dụng trong thực tế, nâng
cao tính thực tiễn của mô hình
Trang 12- Xây dựng được ứng dung hoàn chỉnh cai đặt trên smartphone và tiếnhành lấy đữ liệu thực tế.
- Xây dựng hoàn chỉnh ứng dụng xử lý cho mô hình dự đoán trên Server
1.4 Cấu trúc luận văn
Tô chức phân còn lại của luận văn có câu trúc như sau:
- CHƯƠNG 2: NHỮNG CONG TRÌNH LIÊN QUAN
Giới thiệu về các công trình liên quan, các thuật toán đã được đưa ra
để áp dụng dự đoán đi chuyển, những công trình nghiên cứu dự đoán vị trí
và dự đoán vị trí di chuyển tiếp theo của người dùng Smartphone Trong
đó sẽ giới thiệu những mô hình dự đoán khác nhau trong lĩnh vực dự đoán
để thấy được những điểm mạnh, yếu nhằm thấy được hướng phát triển
trong hướng nghiên cứu này
- CHƯƠNG 3: CƠ SỞ LÝ THUYET VÀ NEN TANG
Giới thiệu về thuật toán phân cụm K-means là thuật toán được áp
dụng và mở rộng để phục vụ cho đề tài của luận văn , mô hình MarkovChain, mô hình n-Mobility Markov Chain là các mô hình dự đoán làm co
sở cho dự đoán vị trí di chuyển tiếp theo của luận văn này
- CHƯƠNG 4: MÔ HÌNH DỰ DOAN Extend - n Mobility Markov Chain
Trinh bày những vấn dé nghiên cứu chính của luận văn, các vấn đềcần giải quyết khi thực hiện dự đoán, mô tả thuật toán phân cum mở rộng
để phát hiện các vị trí phát sinh, trình bày mô hình được để xuất trong luận
văn này là mô hình Extend n-MMC dự đoán vị trí dựa trên lịch sử vị trí
cùng kết hợp với thời điểm đến và thời gian dừng lại được mở rộng từ môhình n-MMC chuẩn
- CHƯƠNG 5: TRIÊN KHAI ĐÁNH GIA MÔ HÌNH
Trình bày các vấn đề trong xây dựng hệ thống gồm giới thiệu kiếntrúc mô hình dự đoán , các vấn đề triển khai trên thiết bị, trên máy chủ ,
Trang 13lựa chọn HĐH, tính tương thích của Hệ thống, lựa chọn công cụ truy xuất
thông tin GPS, xác định cơ chế thực thi chương trình, xây dựng các chức
năng sử dụng cho hệ thống và lựa chọn mô hình triển khai hệ thống.
Trình bày phương pháp triển khai mô hình và các bước triển khai
thực nghiệm trên tập dữ liệu thu thập gồm 2 tập dữ liệu huấn luyện và dữ
liệu kiểm thử Phương pháp đánh giá mô hình, thực nghiệm đánh giá trênkết quả thực nghiệm trên mô hình dự đoán Extend n-MMC
- CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHAT TRIÊN
Phần kết luận tổng kết những mục tiêu đã thực hiện và kết quả đạtđược trong luận văn Nêu một số mặt còn hạn chế sau khi thực hiện luậnvăn , những kết quả mà luận văn này đóng góp cho lĩnh vực nghiên cứu vànêu phương hướng phát triển của đề tài luận văn trong tương lai
Trang 14CHƯƠNG 2 : CÁC CÔNG TRÌNH LIEN QUAN
Xác định vị trí người dùng thiết bị đi động và dự đoán vị trí di chuyên tiếptheo là những thách thức trong nghiên cứu từ khi xuất hiện mạng điện thoại di
động Những nghiên cứu về xác định vị trí nhằm mục đích tối ưu hoá tài nguyên
cung cấp cho người sử dụng thiết bị, làm giảm tác động quá trình chuyển giao giữacác trạm thu phát và cho phép Nhà cung cấp dich vụ quy hoạch cơ sở hạ tang dé
cung cấp dịch vụ tốt hơn
Những nghiên cứu về suy đoán vị trí di chuyền trong tương lại cũng nhằmmục đích cung cấp dịch vụ tốt hơn cho người dùng, ngoài ra nó còn giúp suy luận
ra các hoạt động của người dùng thiết bị thông minh hay suy đoán khả năng của
một người có thể đến vị trí yêu cầu dé hỗ trợ phối hợp cho hoạt động cộng đồng.
Trong chương này sẽ giới thiệu một số các thuật toán liên quan trong lĩnhvực dự đoán và những công trình nghiên cứu liên quan đến luận văn này:
- _ Các thuật toán gồm : gia đình Domain — Independent Algorithms,
Domain — Specific Heuristics.
- Các công trình nghiên cứu : ding neural network để dự đoán chuyển động
tương lai, những công trình cải thiện từ Markov Model là Hidden
Markov-chain (HMM), Mixed Markov Markov-chain Model (MMM), Order-2 Markov để
dự đoán vị trí.
Trang 152.1 Các thuật toán dự đoán
2.1.1 Thuật toán Domain — Independent Algorithms
Các thuật toán thuộc lĩnh vực này là thuật toán cơ sở trong dự đoán vị trí sử
dụng mạng di động không dây [4]
2.1.1.1 Thuật toán Order - k Markov Predictor :
Dự đoán Order-k Markov khi dự đoán vị trí tiếp theo chỉ dựa vào vị trí thứ
k gần nhất và không xét đến thời gian
Xét lịch sử đi chuyển của một người như sau :
đÊa= [Xị =a, Xn =a,} với Va€A
an = al Hl in) an Xian = an) VEENGiả sử trang thái hiện tai để dự đoán tiếp theo là : <ank¿i› ânk¿2; «e+ ân>
Nếu dữ liệu là nguồn của order-k Markov thì ma trận xác suất (M) chuyển
dịch có giá tri, vị trí có địa chỉ (dòng, cột) sẽ xác định theo chiều dài k từ A* để
P(X,.¡=al H,) = M(s, 8’) với s và s” là chuỗi anxiAyx¿2 ân VÀ ânx¿28n-k¿a ân3.
Xác định được ma trận M, xác định được xác suất cho dự đoán vị trí tiếp theo
Trong trường hợp chưa xác định M, dé tính giá trị xác suất chuyền dich cho
M, giá trị này sẽ được đánh giá theo công thức sau: Va e A.
= — N(fn~k+1 ng 2Ên)ÊQXu¿x = GP) = Nano (2.2.2.2)
Công thức 2.1.1.1 tính xác suất dịch chuyển cho mô hình Markov
Dự đoán vị trí di chuyền tiếp theo X;¿¡ được chọn trong A có xác xuất cao nhất và
Vị trí gần nhất theo thứ tự của chuỗi an¿i ây.k¿2 «+ ân trong H
Nhận xét về thuật toán :
- Markov Model (MM) chỉ áp dụng với trạng thái rời rac quan sát được.
- Kết quả suy đoán chỉ phụ thuộc vào vi trí hiện tại
- Áp dụng cho các yêu cầu không đòi hỏi độ chính xác cao
Trang 162.1.1.2 Thuật toán LZ-Based Predictors
LZ-Based Predictors dựa trên thuật toán Phân tích cú pháp gia tăng phdbiến của Ziv và Lempel dùng với văn bản nén Đây là phương pháp dự đoán tốt áp
dụng đối với văn bản nén và LZ-Based Predictors tương tự với order-k Markov
predictor thêm nữa ở đây k có thể thay đổi không giới hạn
2.1.1.3 Thuật toán LZ Parsing Algorithm (LZPA)
Với y là chuỗi réng, cho chuỗi nhập là chuỗi s, LZPA chia chuỗi s thành
các chuỗi con sọ, sị, , Sm , đặt sọ = y, với mọi j 21 , chuỗi con s; không có ký tự
sau cùng là s;, 0 <Si<j Và So, $1, ; Sm =S Ta quan sát các thành phần được
phân chia theo thứ tự sau khi xác định s; Sau khi xác định s; thuật toán chỉ xem
xét phần còn lại của chuỗi đưa vào
Minh họa như sau :
H , = abbbbdeee fff ddddb dduwowjc chia thành các chuỗi con : y, a, b, bb, bd, e,
ee, f, ff, d, dd, db.
Thuật toán kết hợp dùng “cây” đặt là “LZTree” là cây động biểu diễn chuỗi
con Các Nodes của cây biéu diễn chuỗi con, node s; là cha của node Sj néu va chi
nếu s¡ là một Prefix của s; Số liệu thống kê được lưu ở mỗi node đề lưu vết thôngtin về số lần chuỗi con được tìm thay là Prefix của sọ, 1, , Sm hay các mẫu tuần
tự của chuỗi con Minh hoạ cho thuật toán theo Hình 2.1
Xử lý xác định chuỗi con bằng cách từ Root của LZ Tree truy đến lá có
nhãn là s; node mới được đưa vào là con của lá và được đánh nhãn là s;,
Trang 172.1.1.4 Tiếp cân khác
J.Chan et al [4] đưa ra cách tiếp cận khác để dự đoán bằng cách dùng
order-2 Markov predictor sử dụng Bayes Ý tưởng là đầu tiên là dự đoán tất cả các di
chuyển và dùng những dự đoán này để dự đoán vị trí tiếp theo Với Order-2
predictor, 2 vị trí sau cùng của hành trình di chuyển được dùng để dự đoán làL=<L,,L;> Đầu tiên xác suất để dự đoán cho vị trí m là vị trí tiếp theo là L;,„ sẽ
được tính dựa vào lịch sử di chuyển Kế tiếp vị trí tiếp theo L; dùng Bayes để dự
đoán và xét điểm L;,„ bằng cách chọn B, có xác suất cao nhất theo công thức sau :
— P(z‡m|La12B„)P(vL2By) 2.1.1.4) [6
PŒa1¿B|Lz+n) hg PŒa12B,)P(L2+m|LLaB)) (2.1.1.4) [6]
2.1.2 Thuật toán Domain - Specific Heuristics
2.1.2.1 Thuật toán Mobile Motion Prediction (MMP.
Liu va Maguire [4] đưa ra thuật toán dự đoán vi trí với ý tưởng tăng cườngquản lý trong vùng phủ sóng (cellular network) Di chuyển của người dùng được
mô hình theo biểu thức sau : {M(a,t): a € 4,£ €T} với A là tập các vị trí (gọi làtrạng thái - State) và T tập thời gian tuần tự Các bước di chuyển của người dùng
theo qui tắc {S(a, 0}
Định nghĩa một vị trí gọi là trạm dừng (Stationary State) nếu người dùng
có một khoản thời gian dừng lại tại vị trí theo một ngưỡng đã qui ước trước khi dichuyển sang một vị trí khác Vị trí vật lý thuộc về vùng dịch vụ gọi là vùng trạng
thái (boundary state) Sau này gọi chung “Stationary” và “boundary state” là
maker state Có 2 kiểu di chuyên được định nghĩa là : chuyển động vòng
(Movement Circle - MC) là di chuyển tuần tự với vị trí đầu và vị trí cuối là một và
có ít nhất một maker state, chuyền động theo dõi (Movement Track - MT) là tuần
tự các vị trí từ bắt đầu đến kết thúc | một maker state Có thé di chuyền từ vi trí
MC đến MT và ngược lại Giả định qui tắc di chuyên {S(a, t)} chỉ có (MC@a, t)}
và {MT(a, t)} và quá trình di chuyển ngẫu nhiên tiếp theo là quá trình Markov
Thuật toán dự đoán di chuyên của Mobile (Mobile Motion MMP) gồm thuật toán phát hiện điều đặn (Regularity Detection Algorithm-RDA)
Prediction-tao ra dữ liệu cho MC và MT cho mỗi người dùng theo thời gian và thuật toán dự
Trang 18đoán di chuyển (Motion Prediction Algorithm — MPA) cũng dùng dữ liệu nay.
Thuật toán được mô ta như sau : Giả sử vị trí gần nhất là (k-1) là vị trí nằm trong
lịch sử di chuyển là các vị trí tuần tự L = Ijb 1, L là sufix của H có chiều dài
k-1 và có một MT trong dữ liệu, C = cạ c„ với cọ và Cy là các maker state Dùng
thuật toán so trùng (Matching Algorithm), so L trùng với C Lúc này gọi là ứng
viên MT Nếu vị trí hiện tại của người dùng, /¿ phù hợp với vị trí được dự đoán từ
C thì C là ứng viên MT va MPA dùng vị trí nay để dự đoán Mặt khác MPA dingthuật toán so trùng trên chuỗi tuần tự 2 L7 = ll„¡ ,l, với l; là marker state gầnnhất trong L dé tìm ứng viên MT mới
Thuật toán so trùng sử dụng 3 kỹ thuật heuristics để so trùng Kỹ thuật thứnhất là so trùng trạng thái và tính toán vị trí „ chỉ định mức độ phù hợp trong lịch
sử đi chuyển với ứng viên MT Cho 0 < m < k, là số lần vị trí xuất hiện trong L
và C Tính „ = m/(k — 1) có giá trị càng cao thì độ phù hợp càng lớn Kỹ thuật
thứ hai so trùng thời gian và tính toán vị trí 7 chỉ định mức độ phù hợp trong thờigian dừng lại của mỗi vị trí trong lịch sử di chuyền dé so sánh với ứng viên MT
Với 1; thời gian dừng lại ở mỗi vị trí J; trong L và sự là thời gian dừng lại của c;
trong Œ.
Công thức tính p : có giá trị càng nhỏ thì mức độ phù hợp càng cao.
(2.2.2.1)
Kỹ thuật thir ba là so trùng tuần tự và tính toán vị trí @ so sánh F’ và F với
F’ là tần suất đường đi của Mobile xuất hiện trong khoản thời gian và F là tang
suất ứng viên MT xuất hiện trong khoản thời gian đã có trong dữ liệu Tính
@=|Œ'—F)— 1| và giá trị càng nhỏ sẽ chỉ định mức độ phù hợp càng cao.Thuật toán so trùng (Matching) dùng thứ tự 3 thuật toán heuristics để tính trênPm
Nhân xét : [5
Trang 19-_ Trong thuật toán MMP lich sử di chuyển điều được phân loại theo
Movement Track và Movement Circle được giả định di chuyển
ngẫu nhiên
- Thuật toán Mobile Motion Prediction -MMP không xác định rõ ràng
và thiếu nền tảng lý thuyết nhưng thực sự chứa ý tưởng gây ngạcnhiên với phân loại các vị trí (stationary và boundary state) cũng như
với (MC,MT) và ứng dụng tuần tự kỹ thuật so trùng heuristics khác
nhau Đây được cho là sự cố gắng trong việc dự đoán vị trí
2.1.2.2 So trùng trên phân vùng - Segment matching :
Chan et al [4] đơn giản hoá thuật giải của Liu và Maguire và đặt tên là
Segment Criterion algorithm Ở đây định nghĩa trạm phủ sóng (Stationary cells SC) dựa trên thời gian dừng lại của người dùng trong vùng phủ sóng Lịch sử dichuyền của từng cá nhân chia thành các đoạn nhỏ gọi là segment Segment là cáctuần tự các trạm phủ sóng bắt đầu là một trạm, kết thúc bằng một trạm khác hay
-chính trạm bắt đầu Định nghĩa này tương tự như MT của Liu và Maguire vàkhông có khái niệm cho boundary cell.
Thuật toán dự đoán bắt đầu từ segment người dùng di chuyển Hành trình
sau k bước di chuyên là L = Ij ./¿ với 1; là stationary cell L sẽ được so sánh
với segment đã lưu trước đó Nếu tim thay segment phù hợp nghĩa là tìm được /; =
œ với 1 <Si<k.,C, = c¡c¿ c„ là các segment ứng viên đã được lưu trữ.Truong hợp dự đoán là cell c¿„¡ nếu có nhiều ứng viên thì cell xuất hiện nhiều nhấttrong vị trí k+/ trong các segment ứng viên được chọn.
Chan et al dùng 2 heuristics để khắc phục hạn chế dựa trên lịch sử dichuyển của người dùng Thứ nhất có gắng bù đắp cho sự thay đồi đột ngột tronghành vi đi chuyền 10 dự đoán sau cùng sẽ so sánh với lịch sử di chuyền của ngườidùng Di chuyển sau cùng sẽ gán trọng số cao hơn nếu dự đoán hướng đúng tiêu
chí, nếu 6 trong những dự đoán không đúng trọng số này sẽ giảm dần (Trọng sốgiảm, tiêu chí không được chỉ định).
Trang 20Thứ 2 cố gắng bù đắp cho những người không có lịch sử di chuyển và sử
dụng lịch sử tổng hợp trên tất cả người dùng Các heuristics được dùng cho môhình dự đoán Markov của Chan et al.
2.1.2.3 Thuật toán Hierarchical Location Prediction (HLP)
Liu et al [12] phat triển mô hình dự đoán mức 2 dự định sử dụng trongquản lý di động ở môi trường ATM không dây với mức độ rộng hơn Mức độ thấp
hơn sử dụng mô hình Mobile cục bộ (LMM - Local Mobility Model) là mô hình
ngẫu nhiên, trong khi ở mức độ cao kết hợp với chuyển động bên trong vùng phủ
sóng.
Thuật toán dự đoán cục bộ với ý tưởng chỉ dự đoán vùng di chuyển tiếptheo trong khi dự đoán tổng quát có thé dự đoán hành trình tương lai Thuật toán
dự đoán cục bộ sử dụng liên tục cường độ tính hiệu đo lường (Radio Signal
Strength Indication - RSSI) và áp dụng thuật toán Kalman filtering để đánh giátrạng thái động của sự di chuyển (trạng thái động gồm vị trí, vận tốc và gia tốc).Khi người dùng tiếp cận ranh giới vùng phủ sóng, trạng thái động được sử dungxác định xác suất đến các vùng lân cận và vùng với xác xuất cao nhất được chọn làvùng di chuyên tiếp theo Dự đoán này là thông tin đầu vào cho thuật toán tổng
quát Tương tự thuật toán MMP (Mobile Motion Prediction) của Liu và Maguire,
thuật toán dự đoán tổng quát dựa trên số lượng mẫu ghỉ lại của mỗi người Cho
đến nay, hành trình của con người cùng với việc dự đoán vùng di chuyển tiếp theo
là do dùng thuật toán dự đoán cục bộ bằng kỹ thuật so sánh với mẫu dữ liệu đã
được lưu trữ và điều chỉnh khoản cách, việc điều chỉnh này dựa trên số lượng vùng
chen vào ít nhất, loại bỏ vùng và hoạt động điều chỉnh mã nhận dạng tạo ra hành
trình giống với mẫu Mobile người dùng thiết bị Nếu điều chỉnh khoảng cách nhỏhơn giá trị ngưỡng, mẫu Mobile người dùng thiết bị (UMP- User MobilityPatterns) với khoảng cách điều chỉnh nhỏ nhất được xác định và dùng làm ứngviên để chỉ ra hướng di chuyển chung của người dùng thiết bị Phần còn lại củaứng viên UMP là hành trình được dự đoán cho người dùng thiết bi
Trang 21Liu et al có một dự đoán chính xác hơn MMP theo mẫu Mobile với sự ngẫu
nhiên ở mức độ trung bình hoặc cao hơn Điều đáng chú ý là không như thuật toán
MMP sự chính xác của dự đoán vùng di chuyển tiếp theo dùng thuật toán cục bộthuần tuý dựa trên đo lường RSSI và độc lập với mô hình di chuyển của mobile
Dự đoán cục bộ này dùng tối ưu hoá dự đoán hành trình Dự đoán vùng di chuyển
tiếp theo có thé giúp lựa chọn giữa 2 ứng viên UMP khi hành trình mobile tương.đương nhau khi điều chỉnh khoản cách giữa chúng
2.2 Dùng kỹ thuật Data Mining dé cải thiện dự đoán
(Improving Mobility Prediction Using Data Mining Techniques)
Kỹ thuật khai thác dữ liệu khám phá mẫu thường xuyên và luật kết hợp,
bằng cách xác định một quỹ đạo như một dãy các địa điểm và sử dụng phương
pháp phân tích trình tự như phiên bản sửa đổi của thuật toán Apriori [7][9] Cácphương pháp khai thác dữ liệu cố gắng đề tối đa hóa độ tỉnh cậy (confidence) với
cơ sở dựa trên những gì xuất hiện trước đó và không xem xét các ý niệm vềkhoảng cách không gian và thời gian.
Morzy dé xuất các phương pháp khai thác dữ liệu dé dự đoán vị trí trong
lai của các đối tượng chuyển động [9] Ông trích luật kết hợp từ đữ liệu đối tượng
chuyển động và với một quỹ đạo vô hình trước đó của đối tượng di chuyền, ông sử
dụng chức năng kết hợp dé chọn luật kết hợp nhất khớp với quỹ đạo, sau đó dựa
vào quy tắc này để dự đoán Tác giả cho thấy độ chính xác 80% đối với cấu hình
hệ thống tốt nhất
2.3 Dùng neural network model dé dự đoán chuyển động tương lai:
Partha Pratim Bhattacharya và Manidipa Bhattacharya [10] đã đề xuấtphương pháp Backpropagation Neural Network để dự đoán di chuyển trongtương lại, sử dụng Multi-layer neural network dé xử lý dir liệu mẫu của Mobile
tạo ra dự đoán chính xác.
Trong đó các mẫu dữ liệu di chuyển của mobile được ghi nhận trongkhoảng thời gian tạ (n : | khoảng thời gian nhất định khi mobile di chuyển có thé
Trang 22tính với đơn vị phút, giờ, ngày vv ) mẫu di chuyển M, được mô tả bằng dữ liệuthời gian tị, tạ, tạ.
Mẫu di chuyển Mạ = {m,, mạ, , mạ} được ghi nhận cho mobile node (MN)với M, là di chuyển của mobile trong thời gian t; , di chuyên được định nghĩa theo
2 đặc tính khoảng cách và hướng đi Mỗi M; được xác định với một cặp (dis;, dir,)trong đó dis; là số đo khoảng cách di chuyển của mobile ở lần thứ ¡ và dir, làhướng đi chuyền của mobile trong khoảng thời gian t, Cụ thé như sau : nếu có 2
lần di chuyển hướng từ Nam đến Bắc với khoảng cách di chuyển là 2 và 3 đơn vị
thì dữ liệu biểu diễn như sau : Mạ; = {m¡, mạ} = {(disi, dir;), (diso, diry)} = {(2,
Nam), (3, Bắc)) Tập dữ liệu huấn luyện trích ra từ dữ liệu thu thập của mobile
(MNI, MN2) được trình bày trong bảng 1 va bang 2 như sau :
disl, dirl | Dis2,dir2 | Dis3, dir3 Out put dis4, dir4
(1, NE) (1, E) (1, NE) (1, E) (1, E) (1, NE) q,E) (1, NE)
(1, E) (1, NE) (1, E) (1, NE)
(1, NE) (1, E) (1, NE) (2,2)
Bang | : Tap dữ liệu huan luyện cho MNI [10]
Ký hiệu các hướng di chuyểnNorth—N, East — E, South— S, West — W, North-East —NE,
South-East — SE, South-West — SW, North-West -NW.
Bảng 1 chi định MNI di chuyển khoảng cách một cell theo hướng Bắc (North),
tiếp theo là một cell theo hướng Đông - Bắc (North — East) Kích thước mẫu sử
dụng là 5, (2, 2) dùng ghi kết qua dự đoán
dis1, dirl | dis2, dir2 | dis3, dir3 | dis4, dir4 | Output : dis5,dirŠ
(,E) (1, SE) (2,E) (1,5) q,E) (1, SE) (2,E) (1, S) (1 ,E) (1, NE)
(2, BE) IS) Œ,B) | q,NE) q,E)
(1,S) (,E) (1,NE) (,E) (2,8) (1, E) (1, NE) (1, E) (2,8) d,W) (1, NE) (1, E) (2, S) q,W) q,SW) (1, E) (2, S) (1, W) (1, SW) q,W)
Trang 23(2, S) dW) | ,SW) | q,W) q,N)
Œ,W) | (,S5W) | q,W) | q,N) Œ,?
Bảng 2 : Tập dữ liệu huân luyện cho MN2 [10]
Bằng cách quan sát những thay đổi hướng di chuyển của mẫu dữ liệu, xemxét dự báo phù hợp và thu được mẫu con tương ứng (Ở đây, kích thước của mẫucon được lưu giữ là 9) Mang neural được huấn luyện với tắt cả các mẫu con đề dựđoán di chuyển (2, ?) của bảng | va 2 Cùng một tập dữ liệu được sử dụng đê dựđoán nhiều di chuyển bằng cách cập nhật các dit liệu được đưa ra trong Bảng 1 và2.
Mô hình Neural Network:
Môi trường mobile cellular được xem như một dãy các cell hình chữ nhật
liên tiếp, khoảng cách di chuyền tính trên số lượng cell đi qua Khoảng cách này
dùng làm tham số đầu vào cho mô hình Neural network (hình 2.3) Dùng neural
network 3 lớp với 8 neural ẩn để phát triển mô hình dự đoán di chuyển cho
mobile Tập dữ liệu huấn luyện được trích từ dữ liệu di chuyển của mobile theothời gian và tương ứng là hướng di chuyển tiếp theo dé tạo kết quả
Kết quả dự đoán cho MNI là (1, E) tức là di chuyển 1 6 theo hướng đông(East) tương tự dự đoán di chuyển của MN2 là (2, N) tức là di chuyển 2 6 theohướng Bắc (North) Sau đó dữ liệu ở Bảng 1 và 2 được cập nhật để sử dụng cho dựđoán Các dự đoán sử dụng mô hình trong Bảng 3 và 4 với kết quả được in đậm
dis1, dirl | Dis2, dir2 | Dis3, dir3 | Out put dis4, dir4 (1, NE) (1, E) (1, NE) (1, E)
a, E) (1, NE) q,E) (1, NE)
(1, NE) d, E) (1, NE) q,E) (1, E) (1, NE) d, E) (1, NE)(1, NE) (1, E) (1, NE) d, BE)(1, E) (1, NE) (1, E) (1, NE) (1, NE) (1, E) (1, NE) (1, E)
(1, E) (1, NE) d, EB) (1, NE) (1, NE) (1, E) (1, NE) (1, E)
Bang 3 : Tap dit liệu huân luyện cho MNI và két qua [10
Trang 24dis1, dirl | dis2, dir2 | dis3, dir3 | dis4, dir4 | Output : dis5,dirS
(1, E) (1, SE) (2, E) q,S) q,E)
(1, SE) (2, E) ad, S) q,E) (1, NE)
(2, E) (1, S) q,E) (1, NE) (1,E)
OUTPUT
— COMKPARISON
DESIRED
INPUT PATTERM
Hình 2.3 Cấu trúc Neural network [10]
Trang 25Với mô hình neural network di chuyền của cá nhân hay số đông với phương.
pháp dự đoán bằng cách cập nhật thông tin vị tri trong mang di động kết quả đạt
được cho thấy chính xác
Nhân xét :
Ưu nhược điểm của thuật toán Backpropagation:
Ưu điểm :
Ap dụng tốt khi có một khối lượng lớn dit liệu đầu vào và đầu ra
Giải quyết được các vấn dé phức tạp nhưng có giải pháp rõ ràng
Dễ dang tạo ra một số mẫu có hành vi đúng
Giải quyết được van dé thay đỗi theo thời gian Nhược điểm :
- Chi mang tính thực tế trong một số tình huống nhất định -_ Cần phải cung cấp bộ mẫu cho đầu vào và ra chính xác cho từng
trường hợp.
- Không đáp ứng tốt cho yêu cầu đòi hỏi kết quả chính xác
2.4 Dự đoán di chuyển dựa trên mô hình Hidden Markov-chain (HMM)
(Predicting Future Locations with Hidden Markov Models)
Wesley Mathew cùng các đồng sự đã đề xuất phương pháp lai dựa trênHidden Markov model [13] Với phương pháp này lịch sử di chuyển của cá nhânđược nhóm theo đặc điểm của nhóm người và dùng đặc điểm này để huấn luyệncho các nhóm khác nhau.
'Với một chuỗi tuần tự các vị trí dừng lại phát sinh dé phát hiện vị trí có khả
năng dừng lại tiếp theo thuật toán bắt đầu từ việc tìm các cụm có nhiều khả năngliên quan đến trình tự các vị trí dừng lại được xem xét trong dự đoán, sau đó suy
luận trên HMM tương ứng đề phát hiện vị trí tiếp theo có khả năng nhất.
Sơ đồ trong Hình 2.4 bên dưới cho thấy kiến trúc chung của HMM Mỗihình tròn trong biểu đồ đại diện cho một biến ngẫu nhiên có một giá trị bất kỳ.Biến ngẫu nhiên x(t) là trạng thái an tại thời điểm t, x(t) € {x1,x2,x3}, biến y(t)
là vi trí dừng lại tại thời điểm t với y(t) € {y1,y2,y3, y4} mũi tên hiển thị điều
Trang 26kiện phụ thuộc Từ sơ đồ, cho thấy phân phối xác suất có điều kiện của biến an
x(t) tại thời điểm t, do giá trị của các biến số ẩn x ở tất cả các lần, chỉ phụ thuộc
Vào giá trị của biến an x(t-1), do đó các giá trị tại thời diém t-2 và trước đó không
có ảnh hưởng Đây được gọi là tính chất Markov, tương tự như giá trị của vị trí
quan sát y(t) chỉ phụ thuộc vào giá trị của biến an x(t), tại thời diém t
Wesley Mathew sử dụng cách tiếp cận Baum-Welch dé ước lượng cácthông số của HMM, đưa ra bộ trình tự của có dạng Y = <y(0), y(I), , y(L),y(Lnext)> Vị trí L tương ứng cho vị trí đã dừng lại và Lye, tương ứng cho vị trídừng lại tiếp theo Tuần tự có xác suất cao nhất và tương ứng Lyex là nơi có khảnăng dừng lại tiếp theo Từ các vị trí đã dừng lại trước đó tính toán các bộ tương
ứng cho tất cả các vị trí tiếp theo sẽ dừng lại, sử dụng thuật toán chuyển tiếp để
tính xác suất cho tất cả và đưa ra vị trí tiếp theo tương ứng theo tuần tự với xácsuất cao nhất
b22
31
: „Z1.
b23 bll bl2 bl3
Hình 2.4 Hidden Markov Model [13]
2.5 Dự đoán di chuyển dựa trên mô hình Mixed Markov-chain
(Pedestrian-movement Prediction based on Mixed Markov-chain Model)
Trang 27Các nghiên cứu dùng Markov model với ý tưởng là quan sát hành vi dichuyển của cá nhân theo mô hình Markov và dự đoán vị trí di chuyền tiếp theodựa vào các vị trí đã dừng lại trước đó [3]
Một biến thể của mô hình Markov được gọi là Mixed Markov chain Model
(MMM) [2] đã được đề xuất để dự đoán vị trí tiếp theo Tiếp cận này cho rằngStandard Markov Model (MM) và Hidden Markov Model (HMM) là không mang
tính tổng quát cao dé áp dụng cho tat cả các loại di động Do đó, khái niệm vềMixed Markov Model (MMM) được đề xuất như một mô hình trung gian giữa môhình cá nhân và tổng quát Dự đoán vị trí tiếp theo dựa trên một mô hình Markovthuộc về một nhóm các cá nhân có hành vi di động tương tự Tiếp cận này phân
cụm các cá nhân thành các nhóm dựa trên các đấu vết di chuyển của họ và sau đó
tao ra một mô hình Markov cụ thé cho từng nhóm Dự đoán của các vị trí tiếp theothực hiện bằng cách xác định các nhóm một cá nhân cụ thể, sau đó suy luận ra các
vị trí tiếp theo trên cơ sở mô hình này
Akinori Asahara [3] cho rằng Markov Model (MM) chỉ xem xét với trangthái quan sát được và cá nhân lựa chọn hành vi phụ thuộc vảo vị trí Với Hidden
Markov Model (HMM) chỉ xem xét với trạng thái di chuyên không quan sát được.
Trạng thái không quan sát được là suy nghĩ của cá nhân và trạng thái quan sát
được chỉ thay đổi theo suy nghĩ này Akinori Asahara xây dựng Mixed Markov
chain Model (MMM) để hoàn thiện mô hình MM và HMM và không xem xét suynghĩ cá nhân mà nó xem xét suy nghĩ của một nhóm người và cho rằng dùng
MMM suy đoán tốt hon so với MM và HMM
Phương pháp dự đoán dựa trên mô hình Mixed Markov-chain minh hoạ
Hình 2.5 Trong MMM dự đoán khả năng di chuyền tiếp theo được tính theo công.thức phân bố xác suất Bước di chuyển tiếp theo của cá nhân với khả năng caonhất chính là xác suất cao nhất Công thức tính như sau [2] :
Trang 28`" rh
Hình 2.5 Mixed Markov chain Model
Nhân xét :
Tác giả Akinori Asahara [2] kết luận phương pháp dự đoán di chuyên bằng
mô hình Mixed Markov chain Model (MMM) chính xác cao hơn phương pháp Markov Model và phương pháp Hidden Markov Model thông qua thực nghiệm trên dữ liệu thực.
2.6 Tóm tắt chương
Chương 2 đã giới thiệu các thuật toán nghiên cứu về lĩnh vực dự đoán di
chuyền cùng với một số công trình liên quan gần đây Những nghiên cứu này cũng
nhằm mục đích cung cấp dịch vụ tốt hơn cho người dùng, ngoài ra nó còn giúp suyluận ra các hoạt động của người dùng thiết bị thông minh
Qua đó cho thấy hiện nay có rất nhiều nghiên cứu về mô hình dự đoán di
chuyển tương lai của người dùng thiết bị di động và đây là hướng phát triển mangnhiều tính thách thức vì hiện nay các mô hình đưa ra tuy có kết quả cao nhưng chỉ
có ý nghĩa trong hướng hẹp và tính thực tiễn chưa cao vì vậy việc đưa ra mô hình
để áp dụng được trong thực tiễn có hiệu quả là thách thức lớn hiện nay
Trang 29CHƯƠNG 3: CƠ SỞ LÝ THUYET VA NEN TANG
Chương này sẽ giới thiệu về Hệ thống Định vị toàn cầu (GPS) và các đặctính của hệ thống ảnh hưởng đến quá trình định vị cũng như những đặc điểm của
hệ thống hỗ trợ trong quá trình thu thập dữ liệu
Để giải quyết vấn đề xác định các vị trí trong hành trình cá nhân từ đó làm
cơ sở để dự đoán vị trí di chuyển tiếp theo, một số lý thuyết và thuật toán sẽ được
áp dụng Vì vậy chương này cũng sẽ trình bày thuật toán phân cụm, mô hình dự
đoán vị trí thường dùng làm cơ sở dé dự đoán các vị trí di chuyền tiếp theo Cácthuật toán và mô hình được giới thiệu gồm H
Thuật toán phân cụm K-means.
Mô hình Markov Chain.
Mô hình Human Mobility
Mô hình Mobility Markov Chain.
Mô hình Learning n-Mobility Markov Chain (Ln-MMC).
Do đặc diém và cũng là ưu diém của mô hình n-MMC, luận văn nay sé lựa chon mô hình n-MMC làm cơ sở đê triên khai và mở rộng mô hình đưa thêm vào
mô hình đặc điểm ngữ cảnh là thời điểm đến và thời gian dừng lại dé dự đoán vị
trí đi chuyển tiếp theo Luận văn này sẽ giới thuật toán và mô hình sau:
Thuật toán Dynamic K-mean (viết ngắn gọn là DK-means) là thuật toánlinh động được mở rộng từ thuật toán K-means để có thể phát hiện vị trí
mới làm phát sinh cụm vị trí dừng lại trong hành trình di chuyên.
Mô hình Extend Mobility Markov Chain viết ngắn gọn là Extend MMC được mở rộng từ mô hình n-MMC dé đưa thêm ngữ cảnh vào môhình nhằm làm tăng hiệu qua dự đoán cho mô hình n-MMC
Trang 30n-3.1 Kỹ thuật dự đoán
Máy học (Learning Machine), khai thác dữ liệu (Data mining), nhận dạngmẫu (pattern recognition) và thống kê suy luận (statistical inference) cùng mục tiêuchung tìm kiếm các mẫu trong dữ liệu dé đưa ra kết luận
Kỹ thuật máy học có thê được chia thành hai nhóm theo cách học: học có giám sát va học không giám sát Kỹ thuật học có giám sát sử dung dit liệu lich sử
đã được dán nhãn với các câu trả lời đúng Những dữ liệu này được dùng làm dữliệu huấn luyện để phát triển một mô hình, sau đó được áp dụng cho dữ liệu mớiđưa ra dự đoán hay phân loại Học không giám sát, kỹ thuật không sử dụng dữ liệu
ban đầu dé xây dựng mô hình và dữ liệu có thể có hoặc không có thông tin về các
câu trả lời chính xác Kỹ thuật học không giám sát cố gắng khám phá các mẫu
Phân loại | Hồi qui | Phân cụm | kết hớp
Dự đoán Market Basket Recommender
tuần tự Analysis System
Hình 3.1 Mô hình kỹ thuật máy học
3.1.1 Học giám sát
Học giám sát xem hình 3.1 có thé được chia thành hai loại kỹ thuật: hồi quy
và phân loại Hồi quy liên quan đến việc thiết lập một chức năng cho dữ liệu sé,
sau đó nội suy hoặc ngoại suy dé tính toán giá trị trong tương lai Ví dụ như hồi
quy tuyến tính hoặc hồi quy bình phương tối thiểu Kỹ thuật phân loại, nhóm dữ
liệu thành các loại được xác định trước Một ví dụ về phân loại nhị phân (một đầuvào chỉ có hai loại đầu ra) là mô hình dự đoán nguy cơ mắc bệnh, trong đó dữ liệu
Trang 31đầu vào là tập hợp các triệu chứng thể chất hoặc các đặc tính và kết quả đầu ra là
có hay không có giá trị để xem bệnh nhân có nguy cơ về căn bệnh nhất định
Dư đoán tuần tự rời rạc :
Dự đoán tuần tự là dự đoán mục tiếp theo trong một chuỗi, có thể được coi
là kiểu phân loại Kết quả đầu ra có thể là những yếu tố trong bảng chữ cái được
sử dụng đề tạo ra các trình tự Trình tự này được biết trước và dự đoán đó là mụctiếp theo trong chuỗi
Cho ¥ là chuỗi ký tự trong bảng chữ cái s„ 52, , s„ với n là số lượng ký
tự Trình tự huấn luyện của mô hình gồm các ký tut là x, x;, x;, , x, VỚI x;
€ 3, mô hình tính xác suất có điều kiện
PX 47 = Xe IX, = x,, Xp-7 = Xs, } BLD
Mô hình được gọi là Stationary Markov Chain
Với mỗi m và mọi x; € Ð)
P{X) = Xp, X› =X2, Xn = Xn}
= P{xtsm= XI; Xoem= X25 +++) Xnem=Xn} (3.1.2)
Quá trình này được gọi là Markov vì xác suất của một biến tùy thuộc vào biến trước (s) Số lượng các biến trước sử dụng là chiều dài L của mô hình Chuỗi con của các
biến trước được gọi là lịch sử hoặc bối cảnh.
Nếu chiều dài L trong bối cảnh là một hằng số, mô hình được gọi là mộtchuỗi Markov chiều dài cố định Trong một chuỗi Markov chiều dài thay đổi,chiều đài L trong bối cảnh sử dụng có thé thay đổi đến một số số lượng tối da
3.1.2 Hoc không giám sát
Kỹ thuật học không giám sát (xem hình 3.1) không xây dựng mô hình từ dữliệu huấn luyện lịch sử Thay vào đó kỹ thuật này cố gắng khám phá mối quan hệ
trong bộ dữ liệu Phân nhóm (Clustering) cũng được gọi là phân loại không giámsát, nó phát hiện ra các nhóm có đặc trưng tương tự Không giống như phân loại
có giám sát, kỹ thuật phân nhóm không biết trước nhãn của các loại đầu ra trướckhi hoàn thành Các nhóm kết quả có thể được dán nhãn bằng các thuật toán tự
Trang 32động với các điểm trung tâm của cụm hoặc thủ công bằng cách yêu cầu người
dùng nhập vào một tên có ý nghĩa.
3.2 Hệ thống đinh vị toàn cầu - GPS
3.2.1 Giới thiệu về GPS
Hệ thống Định vị Toàn cầu [14] (Global Positioning System - GPS) là hệ
thống xác định vi trí dựa trên vị trí của các vệ tinh nhân tạo Trong cùng một thờiđiểm, ở một vị trí trên mặt đất nếu thiết bị GPS xác định được khoảng cách đến ba
vệ tinh (tối thiêu) thì sẽ tính được vị trí toạ độ của thiết bị GPS đó
GPS ban đầu chỉ dành cho các mục đích quân sự, nhưng không hệ nào đưa
ra sự đảm bảo tôn tại liên tục và độ chính xác Vì thế chúng không thỏa mãn được
những yêu cầu an toàn ngày càng cao cho hệ thống dẫn đường dân sự hàng không
và hàng hải, đặc biệt là tại những vùng và tại những thời điểm có hoạt động quân
sự của những quốc gia sở hữu các hệ thống đó Do không thỏa mãn được nhữngnhu cầu trên nên từ năm 1980 chính phủ Mỹ cho phép sử dụng hệ thống định vịtoàn cầu trong dân sự
Trang 33- Mang người sử dụng: toàn thé các thiết bị thu và kỹ thuật tính toán dé cung.
cấp cho người sử dụng thông tin về vị trí
Mang không gian
lò e
Mang người sử dung Mang điều khiển
Hình 3.3 Các thành phan cơ bản của hệ thong GPS
Mang không gian : Các chức năng chính của vệ tinh bao gồm
- Thu nhận và lưu trữ dữ li u được truyền từ mảng điều khiển
- Cung cấp thời gian chính xác bằng các chuẩn tần số nguyên tử đặt trên
vệ tinh
-_ Truyền thông tin và tín hiệu đến người sử dụng trên một hay hai tần số
Các thế hệ vệ tinh GPS được đánh số Block I, II, HA, IIR va IF Thế
hệ vệ tỉnh đầu tiên là Block I được xây dựng bởi Rockwell International
Trang 34Corporation, nặng khoảng 800kg và tuổi tho khoảng 5 năm Block II và HA
cũng do công ty này xây dựng nhưng nặng đến 900 kg Tuổi thọ của chúng
khoảng 7.5 năm Sự thay thé các vệ tinh Block II/IIA bằng Block IIR bắt đầu
từ năm 1996 Những vệ tinh nay công ty General Electric xây dựng Block IIF
vẫn đang trong giai đoạn thiết kế và dự định phóng lên quỹ đạo từ năm 2005
Vào năm (2003) trên quỹ đạo có 26 vệ tinh Block ITA va IIR Cấu hình
quỹ đạo như sau:
Có 6 mặt phẳng quỹ đạo gần tròn
Trên mỗi mặt phẳng quỹ đạo có 4 đến 5 vệ tinh
Mặt phẳng quỹ đạo nghiêng so với xích đạo khoảng 55°
Độ cao bay trên mặt đất xAp xi 20.200km
TAN SO CƠ BAN
50BPS THONG BAO HÀNG HAI
Hinh 3.4 Cầu trúc tính hiệu GPS
Mỗi vệ tỉnh truyền một tín hiệu hàng hải duy nhất trên hai tần số LI1575.42MHz và L2 1227.60MHz Các tín hiệu vệ tinh bao gồm:
Hai tần số sóng mang
Mã đo khoảng cách được điều biến vào các sóng mang
Thông báo hàng hải chứa dung thông tin về vị trí và đồng hồ vệ tỉnh
Mang điêu kị H
Mảng điều khiển bao gồm các tiện ích cần cho việc giám sát sức khoẻ;theo dõi, điều khié , tính toán bản lịch vệ tinh va nạp dữ liệu lên vệ tinh Có 5
Trang 35trạm điều khiển trên mặt đất: Hawaii, Colorado Springs, Ascension Is., DiegoGarcia va Kwajalein Chức nang của chúng như sau:
Tất cả 5 trạm đều là tram giám sát, theo dõi vệ tỉnh và truyền dữ liệu đếntrạm điều khiển chính
Trạm đặt tại Colorado Springs là trạm điều khiển chính (MSC) Tại đó dữ
liệu theo dõi được xử lý nhằm tính toạ độ và số hiệu chỉnh đồng hồ vệ tinh
Ba trạm tại Ascension, Diego Garcia và Kwajalein là các trạm nạp dữ
liệu lên vệ tỉnh Dữ liệu bao gồm các bản lịch và thông tin số hiệu chỉnh đồng
hồ vệ tỉnh trong thông báo hàng hải
Mang người sử dung:
Thiết bị của người sử dụng GPS là các máy thu bao gồm:
Phần cứng (theo dõi tín hiệu và trị đo khoảng cách)Phần mềm (các thuật toán, giao diện người sử dụng)Các quá trình điều hành
Hiện nay trên thị trường có rất nhiều loại máy thu khác nhau về chủng.loại, độ chính xác và giá tiền Theo cấu tạo có thể chia thành hai loại:
Máy thu một tần số: là loại máy thu chỉ thu được tín hiệu trên 1 tần số LIMáy thu hai tần số: là loại máy có thể thu đầy đủ tín hiệu trên hai tần số
Theo độ chính xác, có thé chia làm ba loại:
Độ chính xác cao: đây là loại máy thu hai tần số đất tiền nhất hiện nayđược dùng trong trắc địa Thiết bị phần cứng phức tạp nên việc sử dụngkhó khăn Vi dụ như Trimble 4800, Topcon Legacy, Topcon Hiper Series,
Topcon GB-500, Topcon GB-1000, Leica system 500, wv
Độ chính xác trung bình: đây là loại may thu một tần số, có cầu tạo đơngiản dé mang vac va dé str dung cho thu thập dữ liệu phục vụ ban đồ vàGIS Ví dụ như Trimble Geo-explorer XT, Ashtech Reliance
Độ chính xác thấp: cũng là loại máy thu một tần số nhưng có cấu tạo gọnnhẹ nhất (thường là máy thu cầm tay) và rẻ tiền nhất thường được dùng
Trang 36cho các mục đích định vị hàng hải, du lich, Vi dụ Lowrance 200,
Garmin III+, Magenlan 3.2.2.2 Hoạt động chung của GPS
Các vệ tinh GPS [14] bay vòng quanh Trái Dat hai lần trong một ngày theomột quỹ đạo rất chính xác và phát tín hiệu có thông tin xuống Trái Dat Về bảnchất máy thu GPS so sánh thời gian tín hiệu được phát đi từ vệ tỉnh với thời giannhận được chúng Sai lệch về thời gian cho biết máy thu GPS ở cách vệ tinh bao
xa Rồi với nhiều khoảng cách đo được tới nhiều vệ tinh, máy thu có thé tính được
vị trí của người dùng và hiền thị lên bản đồ điện tử của máy
Máy thu phải nhận được tín hiệu của ít nhất ba vệ tỉnh đề tính ra vị trí haichiều (kinh độ và vĩ độ) và đề theo dõi được chuyển động Khi nhận được tín hiệucủa ít nhất 4 vệ tinh thì máy thu có thẻ tính được vị trí ba chiều (kinh độ, vĩ độ và
độ cao) Một khi vị trí người dùng đã tính được thì máy thu GPS có thê tính các
thông tin khác, như tốc độ, hướng chuyên động, bám sát di chuyền, khoảng hànhtrình, khoảng cách tới điểm đến, thời gian Mặt trời mọc, lặn và nhiều thứ khácnữa.
3.2.3 Tính hiệu GPS
Các vệ tinh GPS phát hai tín hiệu vô tuyến công suất thấp dai LI và L2
(dải L là phần sóng cực ngắn của pho điện từ trai rộng từ 0,39 tới 1,55 GHz) GPSdan sự dùng tan số LI 1575.42 MHz trong dai UHE Tín hiệu truyền trực thị, có
nghĩa là chúng sẽ xuyên qua mây, thuỷ tinh và nhựa nhưng không qua phan lớn
các đối tượng cứng như núi và nhà
LI chứa hai “mã giả ngẫu nhiên" (pseudo random), đó là mã Protected (P)
và mã Coarse/Acquisition (C/A) Mỗi một vệ tỉnh có một mã truyền dẫn nhất định,
cho phép máy thu GPS nhận dang được tín hiệu Mục đích của các mã tín hiệu này
là dé tính toán khoảng cách từ vệ tinh đến máy thu GPS
Tín hiệu GPS chứa ba mẫu thông tin khác nhau — mã giả ngẫu nhiên, dữliệu thiên văn và dữ liệu lịch Mã giả ngẫu nhiên đơn giản chỉ là mã định danh để
xác định được thông tin phát thuộc vệ tinh nào Có thể nhìn số hiệu của các vệ tinh
Trang 37trên trang vệ tỉnh của máy thu Garmin để biết nó nhận được tín hiệu của vệ tinhnào.
Dữ liệu thiên văn cho máy thu GPS biết vệ tỉnh ở đâu trên quỹ đạo ở mỗithời điểm trong ngày Mỗi vệ tỉnh phát dữ liệu thiên văn chỉ ra thông tin quỹ đạo
cho vệ tỉnh đó và mỗi vệ tỉnh khác trong hệ thống.
Dữ liệu lịch được phát đều đặn bởi mỗi vệ tinh, chứa thông tin quan trong
về trạng thái của vệ tỉnh, ngày giờ hiện tại Phần này của tín hiệu là cốt lõi để pháthiện ra vị trí.
3.2.4 Các trị đo của GPS
Các máy thu GPS cung cấp các trị đo là khoảng cách từ máy thu đến vệ
tỉnh Tuy nhiên các trị đo này bao gồm hai loại sau: [17]
- Giả cự ly (pseudo-range): là tri đo dựa trên nguyên tắc đo xung với xung là
mã P hay mã C/A Đặc điểm của trị đo này là độ chính xác thấp (0.3 m cho
mã P và 3m cho C/A) nhưng nó thể hiện trực tiếp khoảng cách hình học từmáy thu đến vệ tỉnh Vì mã đo khoảng cách P được truyền trên hai tần số
LI và L2 nên tương ứng cho hai trị đo P1 và P2 Trong khi đó mã C/A chỉhiện diện trên LI nên chỉ có trị đo duy nhất C1 Hình 3.5
- Trị đo pha: bước sóng của các sóng mang rất ngắn - xắp xi 19cm cho LI và
24 cm cho L2 Giả sử rằng độ phân giải của trị đo khoảng 1-2% bước sóng
thì pha sóng mang có thể được đo đến mức độ milimét Không may mắn làtrị đo này vẫn còn thiếu số nguyên chu kỳ pha dé có thể chuyền thành
khoảng cách từ máy thu đến vệ tỉnh Vì vậy để xử lý trị đo này cần có
những phần mềm chuyên dụng cho mục đích trắc địa Hình 3.6
Trang 38Hình 3.5 Kỹ thuật so trùng để giải mã tính hiệu từ vệ tỉnh [17]
h ' H Sóng mang đến từ
VV wWVWWvWWXx⁄^ vệ tỉnh
: (Độ lệch doppler)
1 '
!
` tạo ra ở máy thu
fh ASAI cà SỆ đinh Best signal
Trang 39Như vậy một máy thu một tần sẽ thu được 3 trị đo là Cl, PI và LI Trong
khi máy thu hai tần sẽ cung cấp đến 7 loại trị đo: Cl, P1, LI, P2, D1, D2 và L2
Các trị đo trên không chỉ chứa sai số đo của máy thu vì khi tín hiệu đi từ vệtỉnh đến máy thu nó bị ảnh hưởng nặng nề do đồng hỗ của vệ tỉnh và máy thu bị
sai, tín hiệu bị trễ ở tầng điện ly, đường lan truyền của tín hiệu trong khí quyền bị
bẻ cong do chiết suất của không khí không đều Ảnh hưởng tổng hợp của nhữngnguồn sai số này có thé làm cho các trị do sai đến hàng trăm km Vì vậy dé đòi hỏi
độ chính xác định cỡ vài chục mét, những nguồn sai số phải được khắc phục và
Độ chính xác định vị GPS không những chỉ phụ thuộc vào loại trị đo dùng
trong xử lý mà còn phụ thuộc đáng ké vào kiều định vị
3.2.5.1 Định vị tuyết đối:
Còn được gọi là định vị điểm đơn Trong kiểu này các trị đo được dùng làgiả cự ly.
Trang 40“The Clabal Pelodng
—
Hình 3.8 Kỹ thuật định vị tuyệt đối [17]
Giả sử toa độ vệ tinh đã biết ( ), véc tơ từ máy thu đến vệ tinh đo được là ()
„ thì toa độ của máy thu ( ) có thể xác định được Tuy nhiên trong thực tế chúng ta
không đo được mà chỉ đo được khoảng cách r Do đó cần ít nhất 3 vệ tỉnh khácnhau mới giải ra được toạ độ máy thu Ngoài ra do đồng hồ của máy thu luôn cósai số nên phát sinh thêm một an số nữa và do vậy cần có từ 4 vệ tỉnh trở lên