Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM Nguyễn Sơn Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống Thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS Đặng Văn Đức Năm bảo vệ: 2011 Abstract: Tổng quan về Hệ thông tin Địa lý (GIS) và khai phá dữ liệu không gian. Khái quát về phân cụm dữ liệu và một số phương pháp phân cụm dữ liệu không gian. Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian hỗ trợ tìm vị trí tối ưu đặt máy ATM trong khu vực nội thành Hà Nội, đánh giá các kết quả đạt được cũng như những hạn chế còn tồn tại. Keywords: Khai thác dữ liệu; Công nghệ thông tin; ATM; Dữ liệu Content CHƯƠNG 1. MỞ ĐẦU Khai phá dữ liệu không gian hay còn gọi là khai phá tri thức từ dữ liệu không gian là một lĩnh vực có nhu cầu rất cao. Bởi lẽ dữ liệu đầu vào ở đây bao gồm một khối lượng dữ liệu không gian khổng lồ đã được thu thập từ nhiều ứng dụng khác nhau, từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ bản đồ số, từ các hệ thống quản lý và đánh giá môi trường, …Việc phân tích và khai thác lượng thông tin khổng lồ này ngày càng tạo ra các thách thức và khó khăn, đòi hỏi phải có các nghiên cứu sâu hơn để tìm ra các kỹ thuật khai phá dữ liệu hiệu quả hơn. Trong những năm gần đây, việc nghiên cứu về khai phá dữ liệu đã có xu hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian. Sự thay đổi này không những giúp hiểu được dữ liệu không gian mà còn giúp khám phá được mối quan hệ giữa dữ liệu không gian và phi không gian, các mô hình dựa trên tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, Khai phá dữ liệu không gian được sử dụng nhiều trong các hệ thống thông tin địa lý (GIS), viễn thám, khai phá dữ liệu ảnh, ảnh y học, rô bốt dẫn đường, … Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian, … Các bài toán truyền thống của một hệ thông tin địa lý có thể trả lời các câu hỏi kiểu như: - Những con phố nào dẫn đến Nhà hát lớn Hà Nội ? 2 - Những căn nhà nào nằm trong vùng quy hoạch mở rộng phố? Khai phá dữ liệu không gian có thể giúp trả lời cho các câu hỏi dạng: - Xu hướng của các dòng chảy, các đứt gãy địa tầng ? - Nên bố trí các trạm tiếp sóng điện thoại di động như thế nào? - Những vị trí nào là tối ưu để đặt các máy ATM ? Một trong những bài toán liên quan đến dữ liệu không gian, cụ thể là dữ liệu địa lý có ý nghĩa thực tế cao là bài toán xác định vị trí tối ưu cho việc đặt các máy ATM của các ngân hàng. Hiện nay, cùng với chủ trương xây dựng Chính phủ điện tử và thúc đẩy giao dịch điện tử ở Việt Nam, việc thanh toán đang chuyển dần từ sử dụng tiền mặt sang thanh toán qua tài khoản, đồng thời với nhu cầu sử dụng thẻ tín dụng ngày càng tăng, các ngân hàng trong nước sử dụng tối đa mọi lợi thế để cạnh tranh, thu hút khách hàng. Một trong các cách để cạnh tranh hiệu quả là thông qua việc thiết lập các trạm ATM để khách hàng có thể tự thực hiện các giao dịch của mình một cách thuận tiện. Tính đến cuối năm 2010, số lượng trạm ATM đã đạt gần 8000 máy, số thẻ ATM được phát hành là hơn 12 triệu thẻ bởi hơn 40 tổ chức ngân hàng. Tuy nhiên, việc phát triển hệ thống các trạm ATM chưa được quy hoạch theo chiến lược bài bản, vị trí đặt các trạm ATM vẫn còn nhiều bất cập như tình trạng thừa hoặc thiếu ATM ở một số khu vực, do đó chưa khai thác được hết tiềm năng của hình thức giao dịch này. Xuất phát từ nhu cầu thực tế đó, luận văn giới thiệu một số phương pháp phân cụm dữ liệu trong khai phá cơ sở dữ liệu không gian được sử dụng hiện nay. Trên cơ sở đó cài đặt thử nghiệm một ứng dụng sử dụng kỹ thuật phân cụm dữ liệu địa lý, trong đó khai thác thông tin địa lý của các đối tượng địa lý có tầm ảnh hưởng quan trọng đến vị trí đặt các máy ATM như: các siêu thị, trung tâm thương mại, khách sạn, nhà hàng, khu đông dân cư, đường giao thông… để hỗ trợ giải quyết bài toán tìm vị trí tối ưu đặt các máy ATM trong thành phố Hà Nội. Luận văn được chia thành các chương mục sau: - Chương 1: Mở đầu, giới thiệu bài toán - Chương 2: Tổng quan về Hệ thông tin Địa lý (GIS) và khai phá dữ liệu không gian. - Chương 3: Một số phương pháp phân cụm dữ liệu không gian - Chương 4: Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian hỗ trợ tìm vị trí tối ưu đặt máy ATM trong khu vực nội thành Hà Nội. - Chương 5: Kết luận, đánh giá References Tiếng Việt [DVD01] Đặng Văn Đức (2001), Hệ thống thông tin địa lý, NXB Khoa học và kỹ thuật, Hà Nội. 3 Tiếng Anh [BEKS90] Beckmann N., Kriegel P., Schneider R., Seeger B. (1990), “The R*-tree: An efficient and Robust Access Method for Points and Rectangles”, SIGMOD 90. [DAVRA05] Davidson, I., & Ravi, S. (2005). “Clustering with constraints: Feasibility issues and the k-means algorithm”. Proc. of SIAM Int. Conf. of Data Mining. [DAVRA04] Davidson, I., & Ravi, S. (2004). “Towards efficient and improved hierarchical clustering with instance and cluster level constraints”. Department of Computer Science, University at Albany. [DOBKI85] Dobkin, D. P., & Kirkpatrick, D. G. (1985). “A Linear algorithm for determining the separation of convex polyhedra”, Journal Algorithm, 6, , 381-392. [EGFRA94] Egenhofer, M. J., & Franzosa, R. (1994). “On the equivalence of topological relations”, International Journal of Geographical Information Systems , 133- 152. [EGMA95] Egenhofer, M. J., & Mark, D. M. (1995). “Modeling conceptual neighborhoods of topological line-region relations”, International Journal of Geographical Information Systems , 555-565. [EGCFE94] Egenhofer, M. J., Clementini, E., & Felice, P. D. (1994), “Topological relations between regions with holes”, International Journal of Geographical Information Systems , 129-144. [ESFKS00] Ester, M., Frommelt, A., Kriegel, H P., & Sander, J. (2000), “Spatial data mining: database primitives, algorithms and efficient DBMS support”, Data Mining and Knowledge Discovery , 193-216. [ESKSX96] Ester, M., Kriegel, H P., Sander, J., & Xu, X. (1996), “A density-based algorithm for discovering clusters in large spatial databases with noise”, Second Int. Conf. on Knowledge Discovery and Data Mining , (pp. 226-231). Portland, Oregon. [ESKS01] Ester, Hans-Peter Kriegel, Jörg Sander (2001), “Algorithms and Applications for Spatial Data Mining”, Published in Geographic Data Mining and Knowledge Discovery, Research Monographs in GIS, Taylor and Francis. [FSSU96] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining. AAAI Press/ The MIT Press. [HAKT01] Han, J., Kamber, M., & Tung, A. (2001), “Spatial clustering methods in data mining: A Survey”. In Geographic Data Mining and Knowledge Discovery (pp. 1 - 29). Taylor and Francis. 4 [HAKT06] Han, J., & Kamber (2006). Data Mining: Concepts and Techniques. San Fransisco, CA: Morgan Kaufmann Publishers. [HAN95] Hanan S (1995), “Spatial Data Structures”, ACM Press, pp. 361-385 [HK06] Jiawei Han and Micheline Kamber (2006), Data Mining: Concepts and Techniques. University of Illinois, Morgan Kaufmann Publishers. [JOSAS09] Joshi, D., Samal, A., & Soh, L K. (2009), “A Dissimilarity Function for Clustering Geospatial Polygons”, 17th International Conference on Advances in Geographic Information Systems (ACM SIGSPATIAL GIS 2009), (pp. 384-387). Seattle, WA. [JOSAS10] Joshi, D., Samal, A., & Soh, L K. (2010), “A Dissimilarity Function for Polygons”, Journal of Geographic Systems in Decemeber. [JOS11] Deepti Joshi (2011), Polygonal Spatial Clustering, Dissertation for the Degree of Doctor of Philosophy, The Graduate College at the University of Nebraska, USA. [KAHAK99] Karypis G., Han E H, Kumar V., CHAMELEON (1999): “A Hierarchical Clustering Algorithm Using Dynamic Modeling”, Computer 32. [OCT97] Octavian P.(1997), Data Structures for Spatial Database Systems. [ODC03] Oracle (2003), Oracle Data Mining Concepts 10g Release 1 (10.1), Oracle Corporation. [RAJI02] Raymond T. Ng, Jiawei Han, CLARANS (2002): “A Method for Clustering Objects for Spatial Data Mining”, IEEE, 9-10. [ROTE91] Rote, G. (1991) “Computing the minimum Hausdorff distance between two point sets on a line under translation”. Information Processing Letters , 123- 127. [SOGHA08] Song Y-C., O’Grady M. J., O’Hare G. M. P. (2008), “Research and Application of Clustering Algorithm for Arbitrary Data Set”, IEEE. [TAPA04] Tao Y., Papadias D. (2004), “Performance Analysis of R*-trees with Arbitrary Node Extents”, IEEE. [TOB79] Tobler, W. (1979). “Cellular Geography, Philosophy in Geography”. Dordrecht, Reidel: Gale and Olsson, Eds. [THISU08] Thirumurugan S., Suresh L. (2008), Statistical Spatial Clustering using Spatial Data mining, IET Conference, pp. 26-29. [WAYM97] Wang W., Yang J., Muntz R., STING (1997): “A Statistical Information Grid Approach to Spatial Data Mining”. 5 [WAHA03] Wang, X., & Hamilton, H. J. (2003), “DBRS- A Density-Based Spatial Clustering Method with Random Sampling”, 7th PAKDD, (pp. 563-575). Seoul, Korea. Web sites [SLI.AU] http://www.sli.unimelb.edu.au/gisweb/GISModule/GIST_Vector.htm . (GIS) và khai phá dữ liệu không gian. Khái quát về phân cụm dữ liệu và một số phương pháp phân cụm dữ liệu không gian. Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian hỗ. và khai phá dữ liệu không gian. - Chương 3: Một số phương pháp phân cụm dữ liệu không gian - Chương 4: Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian hỗ trợ tìm vị trí. không gian và phi không gian, các mô hình dựa trên tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, Khai phá dữ liệu không gian được sử dụng