Kết quả thực nghiệm

c. Tính riêng tư

3.4.3. Kết quả thực nghiệm

Trong phần này, nghiên cứu sinh trình bày một số kết quả thực nghiệm so sánh phương pháp đề xuất với phương pháp sử dụng cây TPR*-tree. Có thể thấy được phương pháp đề xuất của nghiên cứu sinh đem đến hiệu năng truy vấn tốt hơn trong trường hợp truy vấn tương lai liên tục, mà rất hay được sử dụng trong các hệ thống quản lý phương tiện chuyển động.

Dữ liệu thực nghiệm

Dữ liệu thực nghiệm được sinh ngẫu nhiên bằng thuật toán kiểu GSTD [43], một thuật toán nổi tiếng được sử dụng ở rất nhiều nghiên cứu trước trong việc đánh giá hiệu năng của các cấu trúc chỉ mục cho đối tượng chuyển động. Với thuật toán này, nghiên cứu sinh tạo ra bốn tập dữ liệu bao gồm [1.000, 10.000, 50.000, 100.000] đối tượng chuyển động có vận tốc chuyển động ngẫu nhiên trong khoảng từ [-50, 50] và vận tốc thay đổi tối đa cho mỗi lần cập nhật là 5. Những đối tượng này giả lập sẽ di chuyển trong không gian truy vấn hai chiều có kích thước từ 0 đến 10,000. Trong không gian truy vấn này, mỗi đối tượng được biểu diễn như là một điểm có vị trí ban đầu và phân bố đều trong không gian.

Cấu trúc bản ghi mô tả chi tiết bao gồm định danh, MBR, VBR và thời điểm tham chiếu như sau:

struct MovingObject {

int oid; // unique identification of object float mbr[4]; // MRB of object

float vbr[4]; // VRB of object

float ref; // reference time at which the object is inserted or updated }

Dữ liệu mẫu thể hiện trong bảng 3.1 dưới đây:

Bảng 3.1. Dữ liệu thực nghiệm các đối tượng chuyển động

oid X1 X2 Y1 Y2 Vx1 Vx2 Vy1 Vy2 time ref

0 3383.691 3383.713 6253.745 6253.767 -13.148 -13.148 -46.418 -46.418 0 1 1463.102 1463.125 1174.597 1174.619 29.806 29.806 18.544 18.544 0 2 699.142 699.164 1529.711 1529.734 -24.100 -24.100 4.767 4.767 0 3 8125.313 8125.335 747.351 747.373 -24.063 -24.063 38.967 38.967 0 4 1899.701 1899.724 7856.583 7856.605 11.642 11.642 5.390 5.390 0 … 520 1721.404 1721.427 7964.688 7964.710 9.970 9.970 -5.254 -5.254 1 521 9796.890 9796.912 1979.648 1979.671 27.163 27.163 -26.776 -26.776 1 522 6352.922 6352.944 9722.270 9722.292 49.548 49.548 -25.330 -25.330 1 … 850 1960.613 1960.635 4836.069 4836.092 -22.374 -22.374 -36.063 -36.063 3 851 6955.288 6955.311 4882.243 4882.265 -1.135 -1.135 -10.259 -10.259 3 …

Thực nghiệm được thực hiện trên máy tính cài hệ điều hành Windows 8 với bộ xử lý Intel Core i3, 1.80GHz, 4GB RAM bộ nhớ trong.

Kết quả thực nghiệm

Thực nghiệm 3-1. Đánh giá hiệu năng theo độ lớn phạm vi truy vấn

Trước tiên nghiên cứu sinh đánh giá hiệu năng của DO-TPR*-tree theo độ lớn phạm vi truy vấn. Trong thực nghiệm này, kích thước vùng truy vấn QBR theo mỗi chiều là [100, 100]. Thời điểm cập nhật cuối cùng trong cây DO-TPR*-tree là 10. Phạm vi truy vấn thay đổi từ thời điểm 10 đến 50 với các giá trị lần lượt là [10-20], [10-30], [10-40] và [10-50].

Các kết quả thực nghiệm được biểu diễn trong hình 3.10 dưới đây, trong đó đồ thị hiển thị trung bình các kết quả tìm được ở hình 3.10a, trung bình số nút phải xử lý ở hình 3.10b, thời gian thực hiện truy vấn ở hình 3.10c. Ở cả 3 đồ thị, phạm vi truy vấn biểu diễn trên trục x.

(a) Trung bình kết quả tìm được

0,00 100,00 200,00 300,00 400,00 500,00 600,00 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 A V G . D A T A R E T R IE V E S ( N U M )

FUTURE QUERY TIME INTERVAL

(b) Trung bình số nút phải xử lý

Hình 3.10. Ảnh hưởng của độ lớn phạm vi truy vấn

Những kết quả thực nghiệm này cho thấy trung bình số nút phải xử lý và thời gian thực hiện truy vấn ngày càng tăng khi phạm vi truy vấn tương lai ngày càng xa.

Thực nghiệm 3-2. So sánh hiệu năng của DO-TPR*-tree với TPR*-tree

Trong thực nghiệm này, nghiên cứu sinh so sánh, đánh giá hiệu năng của phương pháp đề xuất, DO-TPR*-tree, với phương pháp gốc là TPR*-tree. Các kết quả thực nghiệm của cả hai phương pháp này được biểu diễn trong hình 3.11, trong đó đồ thị hiển thị trung bình các kết quả tìm được ở hình 3.11a, trung bình số nút phải xử lý ở hình 3.11b, thời gian thực hiện truy vấn ở hình 3.11c.

0,00 50,00 100,00 150,00 200,00 250,00 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 A V G . N O D E A C C E S S ( N U M )

FUTURE QUERY TIME INTERVAL

1K 10K 50K 100K 0,00 5,00 10,00 15,00 20,00 25,00 30,00 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 Q U E R Y E X E C U T IO N T IM E ( S )

FUTURE QUERY TIME INTERVAL

(a) Trung bình kết quả tìm được

(b) Trung bình số nút phải xử lý

Hình 3.11. So sánh hiệu năng của DO-TPR*-tree với TPR*-tree

0 50 100 150 200 250 300 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 A V G . D A T A R E T R IE V E S ( N U M )

FUTURE QUERY TIME INTERVAL TPR*-TRee DO-TPR*-Tree 0 20 40 60 80 100 120 140 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 A V G . N O D E A C C E S S ( N U M )

FUTURE QUERY TIME INTERVAL TPR*-TRee DO-TPR*-Tree 0 5 10 15 20 1 0 - 2 0 1 0 - 3 0 1 0 - 4 0 1 0 - 5 0 Q U E R Y E X E C U T IO N T IM E ( S )

FUTURE QUERY TIME INTERVAL TPR*-TRee DO-TPR*-Tree

Những kết quả thực nghiệm trên chỉ ra rằng số lượng trung bình kết quả tìm được là tương đương nhưng trung bình số nút phải xử lý ít đi và thời gian thực hiện truy vấn giảm xuống khoảng 30%. Phương pháp mà nghiên cứu sinh đề xuất cho kết quả truy vấn nhanh hơn phương pháp gốc.

Ở Việt Nam, với hạ tầng viễn thông đang phát triển, mạng truyền thông 3G thường bị lỗi hay chập chờn ở nhiều điểm ngay cả khi đang ở trong thành phố, tần suất cập nhật vị trí các điểm chuyển động sẽ bị hạn chế. Do đó khi truy vấn, hệ thống đòi hỏi cần nhiều lần điều chỉnh mật độ đủ tốt. Phương pháp của nghiên cứu sinh tỏ ra rất hiệu quả trong điều kiện này. Trong những trường hợp không cần điều chỉnh mật độ đủ tốt, phương pháp của nghiên cứu sinh hoạt động tương tự phương pháp gốc của TPR*-tree.

Kết luận chương

Chương 3 đã trình bày một số cấu trúc cây cơ bản việc trong lập chỉ mục dữ liệu không gian-thời gian. Trong chương này, nghiên cứu sinh cũng đã trình bày kết quả nghiên cứu là một cấu trúc cây mới được đề xuất dựa trên cây TPR*-tree nhằm giảm bớt các vùng không gian trống mỗi khi thực hiện truy vấn liên tục bằng cách điều chỉnh MBR theo mật độ, đặt tên là DO-TPR*-tree. Thuật toán xử lý truy vấn DOA_Search trong cấu trúc cây này đã được đưa ra và chứng minh tính đúng đắn. Các thực nghiệm cũng chứng tỏ cấu trúc cây DO-TPR*-tree đem lại hiệu năng truy vấn tốt hơn trong nhiều trường hợp so với cấu trúc cây ban đầu là TPR*-tree. Kết quả nghiên cứu này được thể hiện trong công bố (4) của nghiên cứu sinh.

KẾT LUẬN

Luận án đã đề xuất các phương pháp giải quyết một số vấn đề còn tồn tại trong việc xây dựng cơ sở dữ liệu các đối tượng chuyển động để giải quyết các bài toán trong ứng dụng MODB đang phát triển rất mạnh mẽ hiện nay, đặc biệt là ứng dụng quản lý thông tin đối tượng chuyển động hay quản lý và điều hành giao thông. Các kết quả chính bao gồm:

(1) Giải quyết vấn đề về mô hình hóa vị trí của đối tượng chuyển động dưới dạng thuộc tính động. Thuộc tính động ít cần phải cập nhật hơn thông tin vị trí do đó sẽ hạn chế được tần suất cập nhật vào cơ sở dữ liệu (mà thường là rất lớn trong các ứng dụng MODB). Thuộc tính động có thể được xác định nhờ vào hai phương pháp dự đoán vị trí đã đề xuất trong luận án:

- Dự đoán vị trí của đối tượng dựa theo hàm chuyển động sử dụng mô hình W- EWMA

- Dự đoán dựa trên hành vi của đối tượng sử dụng khai phá luật kết hợp của các mẫu hình di chuyển

(2) Giải quyết vấn đề về lập chỉ mục không gian cho biểu diễn hình học của các thuộc tính động nhằm tăng hiệu năng truy vấn trên dữ liệu không gian-thời gian. Luận án đã đề xuất cấu trúc chỉ mục mới là DO-TPR*-tree, dựa trên cấu trúc cây TPR*- tree. Cấu trúc này sử dụng điều chỉnh mật độ đủ tốt và tỏ ra rất hiệu quả khi xây dựng ứng dụng MODB với hạ tầng viễn thông đang phát triển, đôi lúc còn xảy ra tình trạng mất kết nối như ở Việt Nam.

Luận án hướng tới một số vấn đề có thể tiếp tục nghiên cứu:

- Phát triển phương pháp dự đoán theo hành vi của đối tượng theo các mô hình thống kê, suy luận khác nhằm nâng cao khả năng dự đoán vị trí của đối tượng ở tương lai xa.

- Phát triển cấu trúc chỉ mục DO-TPR*-tree trên mạng giao thông đô thị (Fixed Network) nhằm tiếp tục tối ưu truy vấn liên tục vị trí đối tượng chuyển động trong

các ứng dụng MODB cho đô thị (quản lý phương tiện/người chuyển động trong thành phố với số lượng rất lớn, tần suất cập nhật và truy vấn liên tục rất cao).

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

1. Nguyễn Tiến Phương, Đặng Văn Đức và đồng nghiệp, “Một mô hình dịch vụ trên cơ sở vị trí địa lý để theo dõi, giám sát đối tượng chuyển động”, Kỷ yếu hội thảo “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Biên Hòa, 2009, trang 512-523.

2. Nguyễn Tiến Phương, Đặng Văn Đức, “Dự đoán vị trí của đối tượng chuyển động theo mô hình W-EWMA”, Kỷ yếu hội thảo “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Cần Thơ, 2011, trang 109-116.

3. Nguyen Tien Phuong, Dang Van Duc, “Predict the location of moving objects using mining Association rules of movement patterns”, Journal of Computer Science and Cybernetics, T.29, S.3 (2013), p252-264.

4. Nguyen Tien Phuong, Dang Van Duc, “DO-TPR*-tree: A density optimal method for TPR*-tree”, Journal of Computer Science and Cybernetics, T31, S1 (2015), p43-54.

TÀI LIỆU THAM KHẢO

1. Agrawal R., Imielinski T., Swami A. (2003), “Mining association rules between sets of items in large databases”, ACM Sigmod Int. Conf. on Management of Data, pp. 207-216.

2. Beckmann N., Kriegel H., Schneider R., and Seeger B. (1990), “The R*-tree: An efficient and robust access method for points and rectangles”, Proc. of ACM SIGMOD Record, New York, NY, USA, 19, pp. 322-331.

3. Cai Y. (2004), “Processing range-monitoring queries on heterogeneous mobile objects”, Proc. IEEE Inter. Conf. on Mobile Data Management, pp. 27-38. 4. Cai Y., and Ying Cai (2006), “Real-time processing of range-monitoring

queries in heterogeneous mobile databases”, IEEE Transactions on Mobile Computing, 5(7), pp. 931-942.

5. Craig S., Raj M., Stephen B. (2003), “An Approach to Predicting the Location of Moving Objects During On-Road Navigation”, 18th Int. Joint Conf. on Artificial Intelligence.

6. Gedik B. (2006), “MobiEyes: A distributed location monitoring service using moving location queries”, IEEE Transactions on Mobile Computing, 5(10), pp. 1384-1402.

7. Gedik B. (2006), “Processing moving queries over moving objects using motion-adaptive indexes”, IEEE Transactions on Knowledge and Data Engineering, 18(5), pp. 651-668.

8. Güting R. H. (2000), “A Foundation for Representing and Querying Moving Objects”, ACM transactions on database systems, 25(1), pp. 1-42.

9. Guttman A. (1984), “R-trees: a dynamic index structure for spatial searching”,

Proc. of ACM SIGMOD ’84, Boston, Massachusetts, USA, ACM, New York, NY, USA, pp. 47–57.

10.Guttman, Antonin (1984), “R-trees: a dynamic index structure for spatial searching”, SIGMOD Record (ACM Special Interest Group on Management of Data), pp. 47-57.

11.Hoyoung J. et al. (2008), “A Hybrid Prediction Model for Moving Objects”,

Data Engineering, IEEE 24th Int. Conf..

12.Huang X., and Jensen C. S. (2004), “Towards a streams-based framework for defining location-based queries”, Proc. of the 2nd Workshop on SpatioTemporal Database Management (STDBM), pp. 73–80.

13.Ilarri S. (2006), “Location-dependent queries in mobile contexts: Distributed processing using mobile agents”, IEEE Transactions on Mobile Computing, 5(8), pp. 1029-1043.

14.Kalnis P., Mamoulis N., Bakiras S. (2005), “On discovering moving clusters in spatio-temporal data”, Proc. of the Intl. Symposium on Spatial and Temporal Databases, pp. 364–381.

15.Kim Dong-Oh, Lee Kang-Jun (2007), “An Efficient Indexing Technique for Location Prediction of Moving Objects”, Proc. of the 11th Int. Conf., KES 2007 and XVII Italian Workshop on Neural Networks Conf. on Knowledge- Based Intelligent Information and Engineering Systems.

16.Lazaridis I., Porkaew K., and Mehrotra S. (2002), “Dynamic queries over mobile objects”, Proc. of the 8th Int. Conf. on Extending Database Technology (EDBT), Springer, Berlin/Heidelberg, Germany, pp. 269-286.

17.Lee D. L., Xu J., Zheng B., and Lee W. C. (2002), “Data management in location-dependent information services”, IEEE Pervasive Computing, Vol. 1, pp. 65-72.

18.Li Y., He B., Luo Q., and Yi K. (2009), “Tree indexing on flash disks”, Proc. of ICDE ’09, Shanghai, China, IEEE Computer Society, Washington DC, USA, pp. 1303-1306.

19.Luis O. A., Vania B. et al. (2007), “A Model for Enriching Trajectories with Semantic Geographical Information”, Proc. of the 15th annual ACM Int. Sym. on Advances in geographic information systems, New York, NY, USA.

100

20.Madhavan R., and Schlenoff C. (2003), “Moving Object Prediction and Tracking for Off-road Autonomous Navigation”, Proc. of the SPIE Aerosense 2003 Conf., Orlando, FL.

21.Marcin G., Pawel J. 2009, “Using Apriori-like Algorithms for Spatio- Temporal Pattern Queries”, Proc. of the Int. MultiConf. on Computer Science and Information Technology, pp. 43-48.

22.Martin E., Hans-Peter K., Jörg S., Xiaowei X. (1996), “A density-based algorithm for discovering clusters in large spatial databases with noise”, Proc. of the 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. pp. 226–231.

23.Mikołaj M. (2007), “Mining Frequent Trajectories of Moving Objects for Location Prediction”, Proc. of the 5th Int. Conf. on Machine Learning and Data Mining in Pattern Recognition.

24.Mokbel M. F. (2004), “SINA: Scalable incremental processing of continuous queries in spatiotemporal databases”, Proc. ACMSIGMOD Inter. Conf. on Management of Data, pp. 623-634.

25.Mokbel M. F., and Aref W. G. (2008), “SOLE: Scalable on-line execution of continuous queries on spatiotemporal data streams”, VLDB J., 17(5), pp. 971– 995.

26.Mokbel M. F., Xiong X., Hammad M. A., and Aref W. G. (2005), “Continuous query processing of spatiotemporal data streams in PLACE”, GeoInformatica, 9(4), pp. 343-365.

27.MonetDB (2008), “MonetDB Introduction”,

www.monetdb.org/documentation/ UserGuide.

28.Nascimento M. A., Silva J. R. O., and Theodoridis, Y. (1999), “Evaluation of access structures for discretely moving points”, Proc. of the 1st Int. Workshop on Spatio-Temporal Database Management (STDBM), Springer, Berlin/Heidelberg, Germany, pp. 171–188.

101

29.Nehme R. V., et al. (2006), “SCUBA: Scalable Cluster-Based Algorithm for evaluating continuous spatio-temporal queries on moving objects”, Advances in Database Technology – EDBT, Springer Berlin/Heidelberg, pp. 1001-1019. 30.Nehme R. V., et al. (2007), “ClusterSheddy: Load shedding using moving clusters over spatiotemporal data streams”, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), pp. 637-651.

31.Nishimura S. (2011), “MD-HBase: A scalable multidimensional data infrastructure for location aware services”, IEEE 12th Int. Conf. on Mobile Data Management, pp. 7-16.

32.Ouri W., Prasad S., Bo X., Jutai Z., and Sam C. (1999), “DOMINO: databases fOr MovINg Objects tracking”, SIGMOD Rec, 28(2), pp. 547-549

33.Patel J. M., Chen Y., and Chakka V. P. (2004), “Stripes: an efficient index for predicted trajectories”, SIGMOD, pp. 635-646.

34.Patroumpas K. and Sellis T. K. (2004), “Managing trajectories of moving objects as data streams”, Proc. of the 2nd Workshop on Spatio-Temporal Database Management (STDBM), pp. 41-48.

35.Prabhakar S. (2002), “Query indexing and velocity constrained indexing: Scalable techniques for continuous queries on moving objects”, IEEE Transactions on Computers, 51(10), pp. 1124-1140.

36.Saltenis S., Jensen C. S., Leutenegger S. T., and Lopez M. A. (2000), “Indexing the positions of continuously moving objects”, Proc. of ACM

Dự đoán dựa theo hàm phi tuyến

Khai phá mẫu hình di chuyển