Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
1,11 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN TẤN BẢO MSHV: 10070472 - XÂY DỰNG GIẢI PHÁP LƢU TRỮ VÀ TRUY XUẤT DỮ LIỆU GPS VỚI KHỐI LƢỢNG LỚN - CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Tấn Bảo MSHV:10070472 Ngày, tháng, năm sinh: 12-01-1986 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa học máy tính Mã số : 60.48.01 I.TÊN ĐỀ TÀI: Xây Dựng Giải Pháp Lưu Trữ Và Truy Xuất Dữ Liệu GPS Với Khối Lượng Lớn II.NHIỆM VỤ VÀ NỘI DUNG: III.NGÀY GIAO NHIỆM VỤ : (Ghi theo QĐ giao đề tài) IV.NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo QĐ giao đề tài) V.CÁN BỘ HƢỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƯỞNG KHOA….……… (Họ tên chữ ký) Ghi chú: Học viên phải đóng tờ nhiệm vụ vào trang tập thuyết minh LV LỜI CẢM ƠN Xin chân thành cảm ơn Thầy giáo TS.Phạm Trần Vũ tận tình dạy hướng dẫn suốt thời gian học tập làm luận văn Tôi xin xin lời biết ơn chân thành đến quý Thầy giáo, Cô giáo Khoa Khoa Học Và Kĩ Thuật Máy Tính tận tình giảng dạy, trang bị cho tơi kiến thức quý báu suốt trình học tập Khoa Xin cảm ơn tất anh chị em học viên Cao học khóa 2010, gia đình, bạn bè, đồng nghiệp giúp đỡ suốt thời gian học tập hồn thành luận văn TP Hồ Chí Minh, tháng năm 2014 Tác giả Nguyễn Tấn Bảo LỜI CAM ĐOAN Tôi xin cam đoan đề tài khoa học “Xây Dựng Giải Pháp Lưu Trữ Và Truy Xuất Dữ Liệu GPS Với Khối Lượng Lớn Theo Thời Gian Thực Nhằm Phục Vụ Cho Các Giải Pháp Về Giao Thơng” cơng trình nghiên cứu thân Các số liệu kết nghiên cứu nêu luận văn trung thực, tác giả cho phép sử dụng tài liệu tham khảo trình bày luận văn Tơi xin chịu trách nhiệm luận văn Mục lục Mở đầu 10 1.1 Lý chọn đề tài 10 1.2 Nhiệm vụ nghiên cứu đề tài 10 1.3 Ý nghĩa khoa học đề tài 11 1.4 Phương pháp đối tượng nghiên cứu 11 1.5 Giới hạn phạm vi đề tài 11 1.6 Kết cần đạt 12 Mơ tả cụ thể tốn: 13 2.1 Vai trị vị trí hệ thống hệ thống tổng thể 13 2.2 Dữ liệu 14 2.3 Lưu trữ 15 2.4 Truy vấn 15 2.5 Hiệu suất mong muốn 17 Xây dựng giải pháp 18 3.1 Giải pháp dựa hệ thống database có 18 3.1.1 Cơ sở liệu quan hệ - MySql 18 3.1.2 Cơ sở liệu theo mơ hình No-SQL 18 3.1.3 Một số kiểm tra định lượng db có sẵn 22 3.1.4 Đánh giá chung 29 3.2 Các kĩ thuật cơng trình nghiên cứu liên quan 32 3.2.1 Các kĩ thuật index địa lý 32 3.2.2 Một số kĩ thuật cân tải 41 3.2.3 Kĩ thuật index liệu đa thuộc tính 46 3.3 Đề xuất giải pháp 49 3.3.1 Kiến trúc hệ thống 49 Gom cụm liệu 52 3.3.2 Lựa chọn Persistent Engine 54 Mơ hình liệu 55 Mơ hình liệu Cassandra liệu dòng thời gian 56 3.3.3 Lựa chọn kĩ thuật index 57 Tại chọn kd-tree thay r-tree? 60 3.3.4 Lựa chọn kĩ thuật cache 63 Đo đạc đánh giá 66 4.1 Tổ chức liệu với MySQL Mongodb 66 4.2 Đo đạc thời gian thực thi lệnh Get(TS,TE, R(LatMin, LatMax, LonMin, LonMax)) 67 4.2.1 Ảnh hưởng diện tích vùng bao đến tốc độ thực thi 67 4.2.2 Ảnh hưởng độ dài khung thời gian đến hiệu suất thực thi 69 4.3 Đo hiệu suất lệnh truy vấn theo key liệu, Get(TS,TE, K) 72 4.4 Đo hiệu suất lệnh truy vấn theo key liệu, có giới hạn vùng bao: Get(TS,TE, R(LatMin, LatMax, LonMin, LonMax), K) 74 4.5 Đánh giá 76 Kết luận đề xuất 77 Tham khảo 78 Mở đầu 1.1 Lý chọn đề tài Trong thời gian gần đây, số lượng thiết bị có tính GPS sử dụng ngày lớn Dữ liệu GPS sản sinh từ thiết bị rút trích chuyển đổi thành liệu giao thơng, sử dụng cho giải pháp giao thông, chẳng hạn biểu diễn trạng giao thông thời điểm đó, dự báo giao thơng, cảnh báo trạng giao thông, v.v Vấn đặt với số lượng lớn thiết bị tham gia vào hệ thống, khối lượng liệu chuyển hệ thống thời gian thực để lưu trữ Đồng thời, hệ thống phải cung cấp liệu cách tức thời đến ứng dụng liên quan Các hệ quản trị sở liệu truyền thống dựa SQL thường chậm không đáp ứng yêu cầu Nhiệm vụ luận văn tìm giải pháp hiệu cho việc lưu trữ truy xuất lượng liệu cách hiệu 1.2 Nhiệm vụ nghiên cứu đề tài Đưa giải pháp giải toán truy xuất lưu trữ liệu dạng GPS thời gian thực Giải pháp hệ thống có sẵn thị trường hệ thống tự xây dựng - Nếu hệ thống có sẵn phải mô tả kĩ thuật lưu trữ hệ thống Mơ tả thủ tục cài đặt Có số liệu đo đạc chứng minh hệ thống hệ thống thỏa mãn yêu cầu luận văn - Nếu hệ thống tự xây dựng, phải có thiết kế kiến trúc, mơ tả cách thực hệ thống Có số liệu đo đạc cụ thể chứng minh hệ thống thỏa mãn yêu cầu lưu trữ luận văn 10 `geo_point` POINT NOT NULL, PRIMARY KEY (`_id`), INDEX `key` (`_key`), INDEX `time` (`_time`), SPATIAL INDEX `point` (`geo_point`) ) COLLATE='utf8_general_ci' ENGINE=MyISAM ROW_FORMAT=DYNAMIC AUTO_INCREMENT=0; Trong trường index _key, _time, geo_point Tương tự với Mongodb: key, time location index lệnh: ensureIndex({key:1}) ensureIndex({time:1}) ensureIndex({location:2dsphere}) Do liệu trải qua nhiều bảng collection nên truy vấn có thời gian trải qua nhiều ngày phải thực truy vấn bảng có thời gian giao với khung thời gian truy vấn gộp kết lại 4.2 Đo đạc thời gian thực thi lệnh Get(TS,TE, R(LatMin, LatMax, LonMin, LonMax)) Lệnh trả liệu nằm miền xác định thời gian từ TS đế TE, không gian giới hạn hình chữ nhật có góc bên trái tọa độ (LatMin, LatMax), tọa độ góc bên phải (LatMax, LonMax) 4.2.1 Ảnh hƣởng diện tích vùng bao đến tốc độ thực thi Các đo đạc phần thực với TS TE cố định, tham số R(LatMin, LatMax, LonMin, LonMax) thay đổi tăng dần Với diện tích vùng bao, phép thử đo 1000 lần với nhiều vùng bao khác diện tích để lấy kết trung bình Bảng cho kết với khoảng TE - TS = 67 Biểu đồ Ảnh hƣởng diện tích vùng bao đến tốc độ thực thi Qua biểu đồ thấy Mongodb có tốc độ thực thi kém, điều giải thích giải thuật index dựa GeoHash MySQL có hiệu suất ban đầu tốt, tăng diện tích lên 5000m2 hệ thống bị treo hết nhớ 68 Giải pháp sử dụng index Cassandra tỏ hiệu quả, thời gian thực thi tốt so với MySQL, sử dụng cache, hiệu suất hệ thống tăng lên với thời gian thực thi giảm phần tư Thời gian thực thi tăng nhẹ tăng diện tích vùng bao không tỉ lệ thuận 4.2.2 Ảnh hƣởng độ dài khung thời gian đến hiệu suất thực thi Trong thí nghiệm phần này, truy vấn khảo sát giống phần 4.1.1, nhiên diện tích vùng bao giữ nguyên, khung thời gian tăng dần Diện tích vùng bao cố định 5000m2 69 Biểu đồ Ảnh hƣởng độ dài khung thời gian đến tốc độ thực thi Trong thí nghiệm này, kết tương tự thí nghiệm 4.1.1, MySQL bị treo khung thời gian vượt tiếng Mongodb trả kết lâu, giải pháp index Cassandra tỏ hiệu ổn định Để tiếp tục xem xét giới hạn hệ thống, ta tiếp tục thực thí nghiệm với khung thời gian tăng lên thành nhiều ngày Để giới hạn lượng liệu trả về, diện tích 70 vùng bao giới hạn xuống cịn 1000m2 Do MySQL bị tải nên thí nghiệm MySQL không đo Do hệ thống insdex Cassandra với cache vượt trội hiệu suất nên thí nghiệm hệ thống khơng cache khơng đo Biểu đồ Ảnh hƣởng độ dài khung thời gian đến tốc độ thực thi, khung thời gian trải qua nhiều ngày 71 Trong thí nghiệm này, Mongodb bị treo đến khung thời gian ngày, hệ thống index với Cassandra hoạt động ổn định với thời gian trả không giây Khối lượng liệu trả lớn với nửa triệu record 4.3 Đo hiệu suất lệnh truy vấn theo key liệu, Get(TS,TE, K) Phần kiểm tra hiệu suất hệ thống truy vấn giới hạn thời gian không gian, phần kiểm tra hiệu suất hệ thống cần lấy liệu khoảng thời gian giới hạn TS TE buộc có key phải K Trong thực tế, key liệu có giá trị id thiết bị lệnh dùng để theo dõi lộ trình hay liệu thiết bị Biểu đồ trình bày thời gian truy vấn để lấy liệu có key = 1509, thời gian TE - TS nhận giá trị từ đến ngày 72 Biểu đồ Tốc độ thực thi truy vấn ràng buộc khung thời gian key Kết cho thấy Mongodb tỏ tải, hệ thống MySQL hệ thống index Cassandra có hành vi tương đối lạ thời gian trả kết tăng tăng số ngày cần tìm liệu, thực, hệ thống phải tìm liệu cho 73 ngày, sau gộp lại Hiệu suất trung bình hệ thống MySQL cao hệ thống index Cassandra 4.4 Đo hiệu suất lệnh truy vấn theo key liệu, có giới hạn vùng bao: Get(TS,TE, R(LatMin, LatMax, LonMin, LonMax), K) Cách thực hệ thống index mở rộng key thành chiều khác kd-tree, theo lý thuyết cách cho hiệu truy suất cao cách index riêng biệt không gian key database truyền thống truy vấn có ràng buộc khơng gian key lúc Thí nghiệm phần khảo sát tính hiệu hệ thống index Cassandra truy vấn bao gồm ràng buộc không gian key Truy vấn giống phần 4.3 có thêm ràng buộc khơng gian vùng cố định có diện tích 10000m2 74 Biểu đồ Tốc độ thực thi truy vấn với ráng buộc khóa, thời gian khơng gian Kết gần giống thí nghiệm 4.3, nhiên thí nghiệm cách index Cassandra (index key không gian lúc) có hiệu suất tốt MySQL lý nêu 75 4.5 Đánh giá Như so với mục tiêu đề ra, hệ thống có hiệu suất chưa đạt yêu cầu vượt trội so với giải pháp dùng data base truyền thống cịn cải tiến thêm Tuy hệ thống hạn chế: - Chưa hỗ trợ truy vấn knn (k nearest neighboor) cho phép tìm kiếm liệu gần với điểm cho trước Vì truy vấn kd tree, nhiên so với kd tree nguyên node tương ứng với đối tượng liệu, kd tree thực luận văn node tương ứng với bucket nên thực giải thuật knn gặp nhiều khó khăn - Chưa cài đặt đánh giá hệ thống cụm máy tính giới hạn thời gian thực luận văn 76 Kết luận đề xuất Như so với mục tiêu đề ban đầu, luận văn đưa giải pháp để lưu trữ truy vấn hiệu khối lượng lớn liệu tương tự GPS Tuy nhiều hạn chế nhiên hệ thống đề có tốc độ truy xuất tốt so với giải pháp dùng database truyền thống Hệ thống có khả mở rộng nhờ xây dựng Cassandra, Data store đánh giá cao khả mở rộng Tuy nhiên giới hạn thời gian nên luận văn chưa có điều kiện đánh giá giải pháp cài đặt nhiều máy tính Luận văn cịn thiếu sót chưa thể cho phép truy vấn knn, luận văn có đề xuất nghiên cứu tương lai: - Hiện thực khả truy vấn knn - Cài đặt đo đạc giải pháp thực cụm máy tính Ngồi ra, nêu luận văn, cấu trúc liệu để thực index kd tree, vốn không cân bằng, giải pháp cache số node giải phần khơng triệt để vấn đề Hướng nghiên cứu tương lai thực cấu trúc index khác R+tree, R*tree để tìm giải pháp tối ưu 77 Tham khảo [1] A Guttman R-trees : A Dynamic Index Structure for Spatial Searching In SIGMOD, pages 45– 57, 1984 [2] C du Mouza, W Litwin, and P Rigaux SD-Rtre: A Scalable Distributed Rtree In ICDE, pages 296–305, 2007 [3] C du Mouza, W Litwin, and P Rigaux Dynamic storage balancing in a distributed spatial index In Proceedings of the 15th annual ACM international symposium on Advances in geographic information systems [4] Min Cai, Martin Frank, Jinbo Chen, Pedro Szekely MAAN: A Multi-Attribute Addressable Network for Grid Information Services In Proceeding GRID '03 Proceedings of the 4th International Workshop on Grid Computing, Page 184, 2007 [6] Ion Stoica, Robert Morris, David Karger, M Frans Kaashoek, Hari Balakrishnan Chord: A Scalable Peer-to-peer Lookup Service for Internet Applications In ACM SIGCOMM Computer Communication Review - Proceedings of the 2001 SIGCOMM conference, 2011 [7] Anirban Mondal, Yilifu, Masaru Kitsuregawa P2PR-tree: An R-tree-based Spatial Index for Peer-to-Peer Environments In In Proceedings of the International Workshop on Peer-to-Peer Computing and Databases, 2004 [8] Verena Kantere, Timos Sellis, Spiros Skiadopoulos Storing and Indexing Spatial Data in P2P Systems In Knowledge and Data Engineering, IEEE Transactions on, 2009 [9] Yong Jie Wang, Hua Cheng Dou, Shi Jun Deng, Liang Yong Cheng, Li Wang, Jian Ping Li, Ze Bing Zhou Research on Parallel Geo-spatial Index Replication Strategy 78 Based on PC Cluster System and its 3D Visualization Application Applied Mechanics and Materials, vol 241-244, pp 2969-2975, 2012 [10] Moon B and Jagadish H V, et al Analysis of theClustering Properties of Hilbert Space-Filling Curve URL: http://www.cs.umd.edu/ [11] Anthony Fox, Chris Eichelberger, James Hughes, Skylar Lyon Spatio-temporal Indexing in Non-relational Distributed Databases Big Data, 2013 IEEE International Conference on, page 291 - 299, 2013 [12] Geohash http://en.wikipedia.org/wiki/Geohash [Online; accessed 20-June-2013] [13] MySQL http://www.mysql.com [Online; accessed 10-May-2014] [14] Mongodb http://www.mongodb.org [Online; accessed 4-March-2014] [15] Cassandra http://cassandra.apache.org [Online; accessed 4-March-2014] [16] Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall and Werner Vogels Dynamo: amazon's highly available key-value store SOSP '07 Proceedings of twenty-first ACM SIGOPS symposium on Operating systems principles Pages 205-220, 2007 [17] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C Hsieh, Deborah A.Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, Robert E Gruber Bigtable: A Distributed Storage System for Structured Data ACM Transactions on Computer Systems (TOCS) TOCS Volume 26 Issue 2, June 2008, Article No [18] H.Blanken, A Ijbema, P Meek, Bv d Akker: The generalized grid file:Description andperformance aspects IEEE Proc 6th Int Conf on Data Engineering, L.A 380-388 (1990) 79 [19] J.L Bentley: Multidimensional binary search treesused for associative searching Comm ACM 18, 9, 509-517 (1975) [20] R.A Finkel, J L Bentley:Quad Trees: A data structure for retrieval on composite keys Acta informatica 4, 1-9 (1974) [21] Memcached http://memcached.org [Online; accessed 10-May-2014] 80 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Tấn Bảo Ngày, tháng, năm sinh: 12-01-1986 Nơi sinh: Quảng Ngãi Địa liên lạc: 55 Trương Quang Giao, phường Nghĩa Chánh, Tp Quảng Ngãi QUÁ TRÌNH ĐÀO TẠO (Bắt đầu từ Đại học đến nay) - Từ 2004 đến 2009: Học CNTT đại học Bách Khoa TP HCM - Từ 2011 đến 2014: Học Thạc sĩ Khoa học máy tính đại học Bách Khoa TP HCM Q TRÌNH CƠNG TÁC (Bắt đầu từ làm đến nay) - Từ 2010 đến 2011: công tác FPT, vị trí software developer - Từ 2011 đến 2014: cơng tác ME Corp, vị trí Technical Vice Manager 81 ... khoa học ? ?Xây Dựng Giải Pháp Lưu Trữ Và Truy Xuất Dữ Liệu GPS Với Khối Lượng Lớn Theo Thời Gian Thực Nhằm Phục Vụ Cho Các Giải Pháp Về Giao Thơng” cơng trình nghiên cứu thân Các số liệu kết nghiên... luận văn tìm giải pháp hiệu cho việc lưu trữ truy xuất lượng liệu cách hiệu 1.2 Nhiệm vụ nghiên cứu đề tài Đưa giải pháp giải tốn truy xuất lưu trữ liệu dạng GPS thời gian thực Giải pháp hệ thống... học máy tính Mã số : 60.48.01 I.TÊN ĐỀ TÀI: Xây Dựng Giải Pháp Lưu Trữ Và Truy Xuất Dữ Liệu GPS Với Khối Lượng Lớn II.NHIỆM VỤ VÀ NỘI DUNG: