Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
3,63 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HƢƠNG NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HƢƠNG NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HẢI CHÂU Hà Nội – 2015 LỜI CAM ĐOAN Tôi xin cam đoan nội dung kết luận văn tốt nghiệp tự nghiên cứu hướng dẫn PGS.TS Nguyễn Hải Châu Trong toàn nội dung luận văn, nội dung trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Tất tài liệu tham khảo trích dẫn rõ ràng phần cuối luận văn Tôi xin cam đoan lời thật Nếu sai tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 20 tháng 11 năm 2015 Học viên Trần Thị Hương LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hải Châu, người tận tình bảo tơi kiến thức chuyên môn, phương pháp nghiên cứu khoa học đồng thời gương mặt sống để học tập noi theo Tôi xin chân thành cảm ơn thầy, cô giáo trường Đại học Công nghệ cung cấp cho kiến thức bổ ích thời gian tơi học tập trường Cuối xin gửi lời cảm ơn tới gia đình tơi ln ủng hộ tơi đường học tập nghiên cứu với nhiều khó khăn, vất vả Mặc dù tơi cố gắng q trình làm luận văn khơng thể tránh khỏi thiếu sót, mong nhận góp ý thầy bạn Hà Nội, ngày 20 tháng 11 năm 2015 Học viên Trần Thị Hương MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH .8 DANH MỤC BẢNG BIỂU 10 MỞ ĐẦU .11 CHƢƠNG TỔNG QUAN .12 1.1 Khái quát hóa đồ 12 1.1.1 Lịch sử phát triển khái niệm tồn .12 1.1.2 Định nghĩa, ý nghiã, mục đích nhân tố 13 1.1.3 Khái quát hóa đồ số quy tắc khái quát hóa đồ 16 1.1.4 Lược giản hóa đồ từ tập liệu điểm cụm 22 1.2 Phân cụm (Phân cụm) .26 1.2.1 Khái niệm .26 1.2.2 Phân tích cụm gì? 27 1.2.3 Các kĩ thuật phân cụm .28 1.3 Giới thiệu hệ quản trị sở liệu PostgreSQL 29 1.3.1 Giới thiệu 29 1.3.2 Các đặc điểm PostgreSQL 29 1.3.3 Ưu nhược điểm PostgreSQL 31 1.3.4 Module PostGIS 33 CHƢƠNG GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU ĐỊA LÝ TRÊN BẢN ĐỒ TRỰC TUYẾN 34 2.2 Giới thiệu kĩ thuật phân cụm .34 2.2.1 Các thuật toán phân cụm 34 2.2.2 Các độ đo sử dụng phân cụm .36 2.3 Gộp nhóm với thuật tốn phân vùng K-means 37 2.3.1 Giới thiệu thuật toán phân vùng K-means 37 2.3.2 Cấu trúc thuật toán phân vùng K-means 39 2.4 Gộp nhóm với thuật tốn phân cấp Agglomerative Hirearchical (AH) 41 2.4.1 Giới thiệu thuật toán phân cấp .41 2.4.2 Cấu trúc thuật toán phân cấp 43 2.5 So sánh thuật toán K-means thuật toán AH 47 2.5.1 Thuật toán K-means 47 2.5.2 Thuật toán AH 48 CHƢƠNG THỰC NGHIỆM 49 3.1 Xây dựng CSDL thực nghiệm 49 3.2 Import liệu vào hệ quản trị CSDL PostgreSQL .50 3.3 Lập trình xây dựng trang Web thử nghiệm 54 3.3.1 Xây dựng trang Web hiển thị liệu điểm ATM 54 3.3.2 Ứng dụng thuật toán phân cấp Agglomerative Hirearchical lập trình tăng tốc độ hiển thị liệu điểm ATM 55 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 60 DANH MỤC CHỮ VIẾT TẮT Ký hiệu AH API ATM DBMS GIS GPS Diễn giải Agglomerative Hirearchical Application Programming Interface Automatic Teller Machine Database Management System Geographical Information System Global Positioning System Tiếng Việt Phân cấp gộp Giao diện lập trình ứng dụng Máy rút tiền tự động Hệ quản trị sở liệu Hệ thống thông tin địa lý Hệ thống định vị tồn cầu DANH MỤC HÌNH Hình 1.1 Sự khác biệt khái quát hóa đồ tỷ lệ hóa đồ………….……11 Hình 1.2 Khái qt hóa đồ ……………… …………………………………….12 Hình 1.3 Phương pháp hình phương pháp bậc thang kỹ thuật khái qt hóa ………………………………………………………………………………… 14 Hình 1.4 Lược giản hóa tập điểm ………………………………….… 20 Hình 1.5 Lựa chọn điểm gần để nhóm ………………………………… 22 Hình 1.6 Loại bỏ điểm gần tâm cụm…………………………………………… 23 Hình 1.7 Sự khác biệt liệu điểm gốc liệu điểm sau khái quát hóa lúc đồ phóng to……………………………………………………… 23 Hình 1.8 Việc thể tập liệu điểm gốc tập liệu điểm sau khái quát hóa tỷ lệ 1:10.000.000………………………………………………………………….24 Hình 1.9 Các cách khác để phân cụm tập điểm ……………… … 27 Hình 2.1a Thuật tốn phân cụm phân cấp 1……………………………………….…34 Hình 2.1b Sơ đồ ……………………………………………………………….34 Hình 2.1c Thuật tốn phân cụm phân cấp …………………………………………34 Hình 2.1d Sơ đồ ………………………………………………………….……34 Hình 2.2: Thuật tốn phân vùng………………………………………………………34 Hình 2.3 Quy trình hoạt động thuật tốn k-means………………… … …… 36 Hình 2.4 Gán k tâm cụm cách ngẫu nhiên………………………………………36 Hình 2.5 Gán điểm vào cụm gần …………………………… .……37 Hình 2.6 Tâm cụm dịch chuyển sau tính tốn lại ………….…… 37 Hình 2.7 Gán lại điểm vào cụm gần lặp lại………………………….37 Hình 2.8 Thuật tốn phân cụm phân cấp…………………………………………… 40 Hình 2.9 Q trình chạy thuật tốn phân cấp phân cụm…………………… ………40 Hình 2.10 Quy trình thuật tốn phân cấp phân cụm……………………………… 42 Hình 2.11 Sơ đồ hình cây…………………………………………………………….43 Hình 2.12 Độ đo single-link.………………………… …………………………….44 Hình 2.13 Độ đo complete-link …… …… ………………………… ……………44 Hình 2.14 Độ đo centroid-link ……… ………………………………… …………45 Hình 2.15 Độ đo group-average …………………………….……………… …… 45 Hình 2.16 Một phân cấp thuật tốn phân cụm AH………………….…… 45 Hình 3.1 Biên tập liệu phần mềm ArcGIS………………………… ………48 Hình 3.2 Cấu trúc bảng thuộc tính liệu………………………………………48 Hình 3.3 Bảng thuộc tính liệu ATM khu vực Hà Nội…………….………….49 Hình 3.4 Hộp thoại tạo Databases………………………………… ……………… 50 Hình 3.5 Cơ sở liệu ATM Thành phố Hà Nội ……………………………………50 Hình 3.6 Hộp thoại đưa shapefile lên Databases…………………………… …… 51 Hình 3.7 Hộp thoại Import Options……………………………………….………….52 Hình 3.8 Cơ sở liệu Databases db_test – atm………………………………52 Hình 3.9 Trang Web đơn giản với đồ GoogleMap…………… ….……… 53 Hình 3.10 Mã tạo trang Web với đồ GoogleMap…… …………….………54 Hình 3.11 Hiển thị liệu điểm ATM Web…………………………….………54 Hình 3.12 Minh họa q trình gộp nhóm thuật toán AH………………… … 55 10 DANH MỤC BẢNG BIỂU Bảng 1.1 Minh họa quy tắc khái quát hóa……………………………………17 Bảng 1.2 So sánh hiệu suất lưu trữ số liệu …………………………….……… 29 Bảng 1.3 So sánh số tính bản………………………………………30 Bảng 1.4 So sánh phương thức quản lý phân vùng ………………… ….….30 Bảng 1.5 So sánh số tính bản………………………………………31 Bảng 1.6 So sánh phương thức quản lý phân vùng………………………… 31 Bảng 3.1 Các hạng mục xây dựng trang Web thử nghiệm……………………….53 Bảng 3.2 Thống kê hiệu suất phân cụm với thuật toán AH…………………… 57 47 c Nhận xét độ đo Độ đo single-link: - Mang tính chất cục bộ: Chỉ quan tâm đến vùng mà có phần tử cụm gần nhất, không quan tâm đến phần tử khác cụm cấu trúc tổng thể cụm - Chất lượng phân cụm có phần tử cụm gần phần tử khác phân tán xa Độ đo complete-link: - Khoảng cách cụm dựa khoảng cách phần tử xa ⟹ Việc ghép cụm tạo cụm có đường kính nhỏ - Chất lượng phân cụm phần tử cụm xa thực tế trọng tâm cụm lại gần Độ đo group-average: - Tính tốn khoảng cách cụm dựa khoảng cách toàn cặp phần tử cụm không dựa cặp phần tử ⟹ tránh nhược điểm single-link complete-link Độ đo centroid-link: - Khắc phục nhược điểm single/complete-link - Vẫn có nhược điểm khoảng cách cụm từ mức lên mức phân cấp khơng tăng dần (do trọng tâm cụm mức cao nhiều gần cụm mức dưới) ⟹ Trái với giả thiết độ kết dính “Các cụm nhỏ thường có độ kết dính cao cụm có kích thước lớn hơn” 2.5 So sánh thuật toán K-means thuật toán AH 2.5.1 Thuật tốn K-means Độ phức tạp tính toán: - Độ phức tạp thuật toán O (NkT) N số đối tượng phân cụm, k số cụm T số vòng lặp trình phân cụm - Thường T, k Hình 3.12 Minh họa q trình gộp nhóm thuật toán Agglomerative Hirearchical Khoảng cách cho phép Phân cụm Tính tốn khoảng cách đối tượng thực thơng qua tọa độ hình, đơn vị bất biến mức zoom đồ Trong trình thử nghiệm học viên nhận thấy đối tượng hình cách khoảng 20 pixels xảy chồng lấn vị trí Tuy nhiên để đảm bảo tính thẩm mỹ học viên chọn 80 pixel làm giới hạn để gộp nhóm Để xác định khoảng cách điểm hình theo đơn vị pixels cần tính chuyển đơn vị từ tọa độ thực ( tọa độ địa lý) sang tọa độ hình (pixel) Chuyển đổi từ tọa độ thực sang tọa độ hình: Tính tốn ma trận khoảng cách tự động gộp nhóm điểm Sau có cơng thức tính tọa độ khoảng cách đối tượng hệ tọa độ hình (pixels,pixels) tiến hành lập trình gộp điểm 57 58 3.3.3 Đánh giá hiệu suất việc gộp nhóm điểm Bảng 3.2 Thống kê hiệu suất phân cụm với thuật toán AH Mức Zoom Số điểm Mức độ tăng tốc hiển thị 20 1393 19 1119 1.2 18 974 1.4 17 805 1.7 16 601 2.3 15 391 3.6 14 214 6.5 13 102 13.7 12 50 27.9 11 24 58 10 14 99.5 199 464.3 696.5 1393 1393 1393 1393 1393 1 1393 1393 Trên nội dung q trình lập trình gộp nhóm điểm thuật tốn phân cấp Agglomerative Hirearchical Kết q trình gộp nhóm cho ta danh sách (mảng) đối tượng đại diện cho nhóm điểm, q trình hiển thị đối tượng tương tự thị đối tượng đơn lẻ trước Tọa độ điểm đại diện cho nhóm điểm xác định cách tính trung bình cộng đối tượng thành phần nhóm 59 KẾT LUẬN Luận văn trình bày rõ hai phương pháp phổ biến thường sử dụng kĩ thuật gộp nhóm điểm K-means AH, ứng dụng thành cơng thuật tốn AH vào toán hiển thị liệu điểm ATM khu vực Hà Nội Đưa phương pháp đánh giá thay đổi hiệu suất trước sau áp dụng kỹ thuật gộp điểm AH Kết phát triển để ứng dụng vào toán hiển thị liệu điểm Web với số lượng lên tới hàng triệu điểm Mục tiêu luận văn khái quát hóa tập liệu dạng điểm, thực nghiệm giảm số lượng điểm hiển thị đồ mà không ảnh hưởng tới nội dung đồ Các tài liệu, nghiên cứu liên quan đến lĩnh vực cho thấy khơng có phương pháp hoàn toàn tự động khái quát hóa đồ Kết độ xác q trình khái qt hóa phương pháp phụ thuộc tham số người dùng đưa bán kính gộp điểm việc ấn định số lượng cụm ban đầu Trong trình khái qt hóa số lượng điểm giảm đi, hình thành khu vực bị trống liệu, cần lựa chọn tham số bán kính gộp nhóm cách hợp lý để q trình khái qt hóa khơng ảnh hưởng nhiều tới nội dung đồ Hướng nghiên cứu phát triển từ kết đạt luận văn vào toán khái quát hóa liệu dạng vùng dạng đường Góp phần hồn thiện mặt cịn hạn chế q trình khái quát hóa đồ số 60 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Thị Ngọc Diễm (2014), So sánh số thuật toán phân cụm liệu, Luận văn thạc sỹ, Học viện cơng nghệ bưu viễn thông, tr.5-9 Phạm Thị Phép (2013), Ứng dụng công nghệ Webgis mã nguồn mở phục vụ công tác quảng bá du lịch, Đại học Nông Lâm Hồ Chí Minh, tr.10-12 Nhữ Thị Xuân (2006), Bản đồ học, Nhà xuất Đại học quốc gia Hà Nội tr.8-9, 103-108 Fan Hong, Trần Quỳnh An, Tự động tổng qt hóa đồ, Tạp chí KHKT Mỏ địa chất, số 44, 10-2013, tr.23-29 Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012), Giáo trình khai phá liệu, Nhà xuất ĐHQGHN Hà Nội, tr.179-192 Tiếng Anh Atta Rabbi and Epameinondas Batsos (Master of Science Thesis in Geoinformatics - 2012), Phân cụm and cartographic simplification of point data set Bader M (2001), Energy Minimization methods for feature displacement in map generation, doctoral thesis, Universty of Geography, University of Zurich, Switzerland Epameinondas Batsos, Politis Panagiotis (2006), Creation of geographic – cartographic data, multiple, continuous scale of topographic maps using satellite images VHR Concepts, problems, suggestions, bachelor thesis, Department of Land surveying, Technological Educational Institution of Athens, Athens – Greece Jiawei Han, Micheline Kamber (2006), Data mining: Concepts and Techniques, 2nd ed., Elsevier Science, Sanfransico, United states 10 Robert B.McMaster, K.Stuart Shea (1992), Generalization in digital cartography, The Association of American Geographers, Washington 11 Robert B.McMaster, K.Stuart Shea (1989), Cartographic Generalization in a Digital Enviroment: when & how to generalize, Proceeding of 9th Internati onal Symposium on Computer ‐ Assisted Cartography, Baltimore 12 Pang Ning Tan, M Steinbach, V Kumar (2006), Introduction to Data Mining, Addison‐Wesley, Minesota, United states 13 L.Kaufman & P.J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons Ltd., New York 61 14 Zhu and Dreher (2008), Improving web search by categorization, phân cụm, and personalization, Springer-Verlag, pp 659-666 15 Geraci, Pellegrini, Maggini, and Sebastiani (2006), Cụm generation and cụm labelling for web snippets: A fast and accurate hierarchical solution, ISPIRE, pp 25-36 16 Charu C.Aggarwal, Chandan K.Reddy (2014), Data phân cụm: algorithms and applications, Taylor & Francis Group, LLC, pp 15-19 17 Gregory Smith (2012), PostgreSQL 9.0 High Performance, PACKT pp 12 Web 18 www.wattpad.com 19 www.postgresql.org 20 www.vi.wikipedia.org/wiki/So_sánh_các_hệ_quản_trị_cơ_sở_dữ_liệu_quan _hệ 21 https://maps.googleapis.com ... truy vấn đồ pha trộn truy vấn không gian truy vấn khơng gian 34 CHƢƠNG GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU ĐỊA LÝ TRÊN BẢN ĐỒ TRỰC TUYẾN 2.1 Nguyên nhân làm chậm tốc độ hiển thị số lƣợng...2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HƢƠNG NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống... điểm giúp nâng cao tốc độ hiển thị liệu dạng điểm Web + Sản phẩm thử nghiệm phải đạt chất lượng đồ nâng cao tốc độ hiển thị liệu địa lý dạng điểm 12 CHƢƠNG TỔNG QUAN 1.1 Khái quát hóa đồ 1.1.1