DSpace at VNU: Nghiên cứu một số kỹ thuật khai phá dữ liệu ứng dụng trongCSDL không gian

21 183 0
DSpace at VNU: Nghiên cứu một số kỹ thuật khai phá dữ liệu ứng dụng trongCSDL không gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHÊ ĐẶNG QUỐC HỮU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ỨNG DỤNG TRONG CSDL KHÔNG GIAN LUẬN VĂN THẠC SĨ Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG QUỐC HỮU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ỨNG DỤNG TRONG CSDL KHÔNG GIAN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC Hà Nội - 2015 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới PGS TS Đặng Văn Đức - người hướng dẫn, bảo tận tình, cung cấp tài liệu phương pháp luận nghiên cứu khoa học để tơi hồn thành luận văn Tơi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cơ, bạn bè khóa, lớp giúp đỡ suốt năm học qua Xin cảm ơn gia đình, bạn bè, người ln khuyến khích, động viên giúp đỡ tơi hồn cảnh khó khăn Tôi xin cảm ơn thầy cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện cho trình học làm luận văn Luận văn hồn thành thời gian hạn hẹp nên khơng thể tránh thiếu sót Tơi xin cảm ơn thầy cơ, bạn bè, đồng nghiệp có ý kiến đóng góp chân thành cho nội dung luận văn, để tơi tiếp tục sâu tìm hiểu lĩnh vực tương lai Hà Nội, tháng năm 2015 ĐẶNG QUỐC HỮU LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày riêng cá nhân tôi, tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo dùng có xuất xứ rõ ràng, trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỉ luật theo quy định cho lời cam đoan Hà Nội, tháng năm 2015 Đặng Quốc Hữu MỤC LỤC MỞ ĐẦU .1 CHƢƠNG I: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU .3 1.1 Tổng quan liệu không gian địa lý 1.1.1 Một số khái niệm .3 1.1.2 Mơ hình liệu Vector .5 1.1.3 Quan hệ không gian đối tượng địa lý 1.2 Khai phá liệu .8 1.2.1 Định nghĩa khai phá liệu 1.2.2 Nhiệm vụ khai phá liệu .9 1.2.3 Các phương pháp khai phá liệu 10 CHƢƠNG 2: KHAI PHÁ DỮ LIỆU KHÔNG GIAN SỬ DỤNG CÂY QUYẾT ĐỊNH ERROR! BOOKMARK NOT DEFINED 2.1 Cây định Error! Bookmark not defined 2.1.1 Khái niệm Error! Bookmark not defined 2.1.2 Ưu điểm nhược điểm định Error! Bookmark not defined 2.1.3 Xây dựng định Error! Bookmark not defined 2.2 Phân lớp liệu Error! Bookmark not defined 2.3 Cây định ứng dụng phân lớp liệu Error! Bookmark not defined 2.3.1 Thuật toán ID Error! Bookmark not defined 2.3.2 Thuật toán C4.5 Error! Bookmark not defined 2.4 Xây dựng định khai phá liệu không gian Error! Bookmark not defined 2.4.1 Tư tưởng xây dựng thuật toán Error! Bookmark not defined 2.4.2 Thuật tốn định khơng gian mở rộng từ ID3 Error! Bookmark not defined 2.4.3 Ví dụ xây dựng định khơng gian Error! Bookmark not defined 2.4.4 Đề xuất phương pháp phân lớp liệu không gian Error! Bookmark not defined CHƢƠNG 3: KHAI PHÁ DỮ LIỆU KHÔNG GIAN BẰNG PHÂN CỤM DỮ LIỆU KHÔNG GIAN ERROR! BOOKMARK NOT DEFINED 3.1 Phân cụm phân hoạch Error! Bookmark not defined 3.2 Phân cụm phân cấp Error! Bookmark not defined 3.3 Phân cụm dựa mật độ Error! Bookmark not defined 3.4 Phân cụm dựa lƣới Error! Bookmark not defined CHƢƠNG 4: ỨNG DỤNG PHÂN CỤM KHƠNG GIAN TRONG BÀI TỐN XÁC ĐỊNH VỊ TRÍ TỐI ƢU ĐẶT ĐIỂM TẬP KẾT TAXI ERROR! BOOKMARK NOT DEFINED 4.1 Phân tích toán Error! Bookmark not defined 4.1.1 Nguồn liệu đầu vào phạm vi toán Error! Bookmark not defined 4.1.2 Phương pháp kỹ thuật giải toán Error! Bookmark not defined 4.2 Xây dựng chƣơng trình ứng dụng Error! Bookmark not defined 4.2.1 Phân tích thiết kế hệ thống Error! Bookmark not defined 4.2.2 Cài đặt chương trình Error! Bookmark not defined 4.3 Thử nghiệm đánh giá thuật toán phân cụm Error! Bookmark not defined KẾT LUẬN ERROR! BOOKMARK NOT DEFINED 6 TÀI LIỆU THAM KHẢO 11 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CSDL Cơ sở liệu GIS Geographic information system Object ID Identifier of objects SDT Spatial Decision Tree SJI Spatial Join Index SJR Spatial Join Relation SpatRel Spatial Relation SpatMes Spatial Measure SQL Structured Query Language DANH MỤC CÁC BẢNG Bảng 1.1: Topology vùng Bảng 1.2: Topology nút Bảng 1.3: Topology cung Bảng 1.4: Dữ liệu tọa độ cung Bảng 1.5: Mô tả liệu đặc trưng cấu trúc Spaghetti Bảng 2.1: Dữ liệu thời tiết 22 Bảng 2.2: So sánh Gain thuộc tính nút gốc 22 Bảng 2.3: So sánh Gain nhánh "Quang cảnh" = "Nắng" 23 Bảng 2.4: So sánh Gain nhánh "Quang cảnh" = "Mưa" 24 Bảng 2.5: Dữ liệu thời tiết xét thuộc tính độ ẩm dạng số 29 Bảng 2.6: Bảng tính Gain 30 Bảng 2.7: Dữ liệu thời tiết xét thuộc tính ngày 30 Bảng 2.8: Bảng quan hệ không gian 37 Bảng 2.9: Bảng quan hệ không gian độ đo không gian 42 Bảng 2.10: Bảng quan hệ khơng gian lược thuộc tính Object ID 44 Bảng 2.11: Bảng quan hệ không gian: khoảng cách đến sông gần 45 Bảng 2.12: Bảng quan hệ không gian rút gọn (đầu vào thuật toán) 46 Bảng 3.1: Kết thực nghiệm đánh giá thời gian thực thuật toán 59 Bảng 4.1: So sánh tổng quan thuật toán K-means, DBSCAN DBRS 72 Bảng 4.2: Kết so sánh thời gian thực phân cụm tập liệu 73 DANH MỤC CÁC HÌNH Hình 1.1: Đối tượng liệu điểm, đường vùng Hình 1.2: Biểu diễn đối tượng mơ hình liệu Raster Hình 1.3: Bản đồ minh họa cấu trúc Topology Hình 1.4: Minh họa liệu Spaghetti Hình 1.5: Các bước trình khai phá liệu Hình 2.1: Cây định 13 Hình 2.2: Phân lớp sử dụng thuộc tính "Quang cảnh" 23 Hình 2.3: Phân nhánh "Quang cảnh" = "Nắng" 23 Hình 2.4: Cây nhánh "Quang cảnh" = "Nắng" 24 Hình 2.5: Cây định tính tốn từ thuật tốn ID3 24 Hình 2.6: Xác định giá trị phân chia kiểu số 30 Hình 2.7: Chỉ mục kết nối không gian 33 Hình 2.8: Các Layer dự báo cháy rừng 36 Hình 2.9: Layer mục tiêu Layer phủ bề mặt mật độ dân số 37 Hình 2.10: Cây định khơng gian 39 Hình 2.11: Mơ tả Object ID Layer 41 Hình 2.12: Quan hệ không gian Layer mục tiêu Layer mơ tả 41 Hình 2.13: Thống kê Layer phủ bề mặt theo loại phủ bề mặt 43 Hình 2.14: Thống kê Layer mật độ dân số theo loại mật độ dân số 47 Hình 2.15: Thống kê Layer khoảng cách đến sông gần 47 Hình 2.16: Phân lớp Layer phủ bề mặt theo loại phủ bề mặt 48 Hình 2.17: Nhánh Dryland forest - thống kê Layer mật độ dân số 48 Hình 2.18: Nhánh Dryland forest - thống kê khoảng cách đến sông gần 49 Hình 3.1: Minh họa thuật tốn k-mean 52 Hình 3.2: Phân cụm phân cấp 53 Hình 3.3: Kề mật độ trực tiếp 55 Hình 3.4: Kề mật độ 55 Hình 3.5: Kết nối theo mật độ 55 Hình 3.6: Minh họa đồ thị khoảng 58 Hình 3.7: Các cụm phát CLARANS DBSCAN 59 Hình 3.8: Các cụm phát DBRS, DBSCAN, K-Means, CLARANS 63 Hình 3.9: Phân cụm dựa theo lưới vùng 63 Hình 4.1: Biểu đồ ca sử dụng 67 Hình 4.2: Biểu đồ hoạt động thuật tốn phân cụm cài đặt K-means 67 Hình 4.3: Biểu đồ hoạt động thuật toán phân cụm cài đặt DBSCAN 68 Hình 4.4: Biểu đồ hoạt động thuật toán phân cụm cài đặt DBRS 69 Hình 4.5: Phân cu ̣m lớp dữ liê ̣u "Khách sạn-nhà hàng" nô ̣i thành Hà Nô ̣i, vùng màu vàng cụm tìm 70 Hình 4.6: Hình ảnh chồng phủ (vùng màu vàng) cụm “Siêu thi”̣ các cu ̣m “Khách sa ̣n- nhà khách” .71 10 Hình 4.7: Kết phân cụm DBSCAN liệu thử nghiệm tự tạo 71 Hình 4.8: Khả phát nhiễu cụm K-means DBSCAN 72 Hình 4.9: : Khả phân cụm theo thuộc tính DBSCAN DBRS 72 Hình 4.10: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN DBRS với tập liệu đầu vào 74 MỞ ĐẦU Đặt vấn đề Những tiến công nghệ CSDL kỹ thuật thu thập liệu đọc mã số mã vạch, viễn thám, ghi nhận thông tin từ vệ tinh,… tạo lượng lớn thông tin, liệu Việc liệu tăng lên nhanh với quy mơ lớn đòi hỏi phải khai phá để trích chọn tri thức hữa ích phục vụ cho công tác chuyên môn Chính điều dẫn đến đời lĩnh vực khai phá liệu hay khai phá tri thức CSDL Khai phá tri thức CSDL định nghĩa khai phá tri thức đáng quan tâm, tiềm ẩn chưa biết trước CSDL Khai phá liệu kết hợp số lĩnh vực bao gồm học máy, hệ thống CSDL, thể liệu, thống kê lý thuyết thơng tin Đã có nhiều nghiên cứu khai phá liệu CSDL quan hệ giao dịch, CSDL không gian vấn đề khai phá liệu thách thức cần giải Dữ liệu không gian liệu liên quan đến đối tượng không gian Một CSDL không gian lưu trữ đối tượng không gian bao gồm kiểu liệu không gian quan hệ không gian đối tượng Dữ liệu khơng gian mang thơng tin hình học khoảng cách thường tổ chức theo cấu trúc mục không gian truy cập phương pháp truy cập khơng gian Chính đặc trưng khác biệt CSDL không gian đặt nhiều trở ngại mang đến nhiều hội cho khai phá tri thức từ CSDL không gian Khai phá liệu không gian hay khai phá tri thức CSDL khơng gian trích trọn tri thức tiềm ẩn, quan hệ không gian hay mẫu chưa rõ lưu trữ CSDL không gian Các nghiên cứu trước học máy, hệ thống CSDL thống kê đặt móng cho nghiên cứu khai phá tri thức CSDL Và tiến CSDL không gian cấu trúc liệu khơng gian, lập luận khơng gian, tính tốn hình học,… mở đường cho khai phá liệu không gian Trở ngại lớn khai phá liệu khơng gian hiệu thuật tốn khai phá liệu không gian lượng liệu khơng gian thường có quy mơ lớn, kiểu liệu không gian phương pháp truy cập không gian phức tạp Các phương pháp khai phá liệu khơng gian tập trung theo ba hướng khai phá luật kết hợp không gian, phân lớp liệu không gian phân cụm liệu không gian Với mong muốn nghiên cứu phân lớp liệu không gian sử dụng định, luận văn sâu tìm hiểu lĩnh vực nhỏ phân lớp liệu không gian sử dụng định Mục tiêu luận văn Luận văn tập trung nghiên cứu kỹ thuật phân lớp không gian sử dụng định phân cụm liệu nhằm trích rút liệu địa lý có ích tiềm ẩn bên Cụ thể luận văn hướng vào công việc: - Thu thập số lớp liệu đồ (bao gồm liệu hình học liệu thuộc tính) để thử nghiệm với thuật tốn phân lớp liệu khơng gian sử dụng định - Nghiên cứu số thuật toán phân lớp liệu quan hệ dựa định sở liệu truyền thống, đề xuất mở rộng áp dụng liệu địa lý - Nghiên cứu số thuật toán phân lớp liệu quan hệ dựa phân cụm liệu - Cài đặt chương trình thử nghiệm thuật tốn lựa chọn liệu hình học liệu thuộc tính số lớp đồ Tóm tắt nội dung luận văn Phần lại luận văn tổ chức sau: Chƣơng 1: Tổng quan liệu không gian khai phá liệu Bao gồm phần như: Giới thiệu khái quát liệu địa lý, khai phá liệu, định Chƣơng 2: Khai phá liệu không gian sử dụng định Bao gồm: Giới thiệu số kỹ thuật khai khai phá liệu sử dụng định sở liệu quan hệ truyền thống, vận dụng đề xuất thuật tốn khai phá liệu khơng gian Chƣơng 3: Khai phá liệu không gian phân cụm liệu Chƣơng 4: Cài đặt chương trình thử nghiệm Bao gồm mơ tả tốn, xây dựng liệu thử nghiệm, thiết kế chương trình, cài đặt thuật toán đánh giá kết thử nghiệm Kết luận trình bày nghiên cứu phân lớp liệu khơng gian sử dụng định, đóng góp luận văn định hướng nghiên cứu tới 3 CHƢƠNG I: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan liệu không gian địa lý 1.1.1 Một số khái niệm - Đối tượng địa lý: Trên đồ, đối tượng trạm xe bus, bến tàu, trạm xăng thực thể liệu quản lý, gọi đối tượng địa lý Một trạm xăng đồ thể cụ thể đối tượng địa lý trạm xăng - Dữ liệu địa lý sở liệu địa lý: Dữ liệu địa lý thông tin đối tượng địa lý mã hóa máy tính Cơ sở liệu địa lý tập hợp liệu địa lý có chuẩn cấu trúc lưu trữ máy tính thiết bị lưu trữ thơng tin khác, thỏa mãn u cầu khai thác thơng tin đồng thời nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác - Dữ liệu không gian liệu phi không gian: Một đối tượng địa lý chứa thông tin liệu không gian liệu phi không gian + Dữ liệu không gian: Dữ liệu không gian sử dụng theo nghĩa rộng bao gồm điểm đa chiều, đường thẳng, hình khối, đối tượng hình học nói chung Mỗi đối tượng chiếm vùng khơng gian đặc trưng hai thuộc tính vị trí biên Trong luận văn, khái niệm liệu không gian hiểu đơn giản hơn, liệu không gian mô tả đối tượng địa lý thể dạng hình học, quản lý hình thể biểu diễn ba dạng đối tượng điểm, đường, vùng + Dữ liệu phi khơng gian: Một đối tượng địa lý ngồi thuộc tính khơng gian có thơng tin thuộc tính khác Ví dụ đường có thông tin tên đường, độ rộng, chất liệu làm đường, đơn vị quản lý, thời gian đưa vào sử dụng, Các thuộc tính gọi thơng tin thuộc tính phi khơng gian (dữ liệu phi khơng gian) Dữ liệu phi không gian gọi tắt liệu thuộc tính - Hệ thống GIS: Khi đề cập đến liệu địa lý, hệ thống thông tin địa lý (Geographic Information System - gọi tắt GIS) thường nhắc đến GIS sử dụng liệu địa lý GIS hình thành vào năm 1960 phát triển mạnh 10 năm lại Xét góc độ hệ thống, GIS hiểu hệ thống gồm thành phần: phần cứng, phần mềm, liệu người (người dùng quy định, sách liên quan đến trì, phát triển hệ thống) - Các phương pháp mơ hình hóa đối tượng địa lý (mơ hình liệu địa lý): Mơ hình liệu địa lý mơ hình liệu sử dụng hệ thống thơng tin địa lý, hình dung giới giới thực sử dụng GIS để tạo đồ, trình diễn truy vấn người máy thực phép xử lý, phân tích Có nhiều mơ hình liệu sử dụng hệ thống thông tin địa lý, nhiên, phổ biến biểu diễn thành phần không gian thông tin địa lý hai mơ hình liệu Vector Raster + Mơ hình liệu Vector: sử dụng đường hay điểm, xác định tường minh tọa đọa x, y chúng đồ Điểm: Dùng cho tất đối tượng không gian biểu diễn cặp tọa độ (x, y) Ngồi giá trị tọa độ (x, y), điểm thể kiểu điểm, màu, hình dạng liệu thuộc tính kèm Do đó, đồ điểm biểu ký hiệu văn Hình 1.1 Đối tượng liệu Điểm, Đường, Vùng Đường: Dùng để biểu diễn tất thực thể có dạng tuyến, tạo nên từ hai nhiều cặp tọa độ (x, y) Ngoài tọa độ, đường bao hàm góc quay đầu mút Vùng: đối tượng hình học hai chiều Vùng đa giác đơn giản hay tập hợp nhiều đa giác đơn giản Do vùng cấu tạo từ nhiều đa giác nên cấu trúc liệu đa giác phải ghi lại thể thiện thành phần phần tử cấu tạo nên đa giác + Mơ hình liệu Raster: Sử dụng tập hợp ô Cấu trúc đơn giản mảng gồm ô đồ Mỗi ô đồ biểu diễn tổ hợp tọa độ (hàng, cột) giá trị biểu diễn kiểu thuộc tính ô đồ Trong cấu trúc này, ô tương ứng điểm Khái niệm đường dạng liền có giá trị biểu diễn Miền nhóm liền có giá trị biểu diễn Hình 1.2 Biểu diễn đối tượng mơ hình liệu Raster 1.1.2 Mơ hình liệu Vector Mơ hình liệu Vector sử dụng để miêu tả đối tượng xác định xác vị trí, kích thước hình dạng Dữ liệu Vector có khả phân giải cao in ấn xuất tương tự đồ làm tay Dữ liệu Vector cần khơng gian lưu trữ trì mối quan hệ hình học dễ dàng Hai loại cấu trúc biết đến mơ hình liệu Vector cấu trúc Spaghetti cấu trúc Topology Cấu trúc Spaghetti đời trước sử dụng ngày số phần mềm GIS phần mềm Arcview GIS, ArcGIS, MapInfo,… Cấu trúc Topology đời tảng mơ hình liệu cung – nút - Cấu trúc Topology: Trong GIS, biết hình dạng hình học, vị trí, kích thước hệ tọa độ đối tượng đáp ứng tính đầy đủ liệu GIS Topology thể mối quan hệ liên kết đối tượng không gian Trong cấu trúc Topology, đối tượng địa lý mô tả bốn bảng Ba bảng đầu lưu trữ phần tử không gian vùng, nút, cung Bảng thứ tư lưu trữ tọa độ nút đầu, nút cuối đỉnh Cho đồ hình sau: Hình 1.3 Bản đồ minh họa cấu trúc Topology Bảng Topology vùng xác định cung làm đường biên vùng, phần bên đồ xem vùng không xác định cung đường biên Topology vùng Vùng Cung A a1, a5, a3 B a2, a5, 0, a6, 0, a7 C a7 D a6 E vùng Bảng 1.1 Topology vùng Bảng Topology nút xác định nút thuộc cung Topology nút Nút N1 N2 N3 N4 N5 N6 Cung a1, a3, a4 a1, a2, a5 a2, a3, a5 a4 a6 a7 Bảng 1.2 Topology nút Bảng Topology cung xác định quan hệ nút vùng với cung Topology cung Cung Nút đầu Nút cuối Vùng trái Vùng phải a1 N1 N2 E A a2 N2 N3 E B a3 N3 N1 E A a4 N4 N1 A A a5 N3 N2 A B a6 N5 N5 B B a7 N6 N6 B C Bảng 1.3 Topology cung Từ bảng này, phân tích quan hệ phần tử đồ Bảng thứ tư lưu trữ tọa độ cung cách lưu trữ tọa độ nút đỉnh cung, để từ vị trí phần tử đồ liên hệ với giới thực Cấu trúc Topology thích hợp với tốn tử phân tích khơng gian, tốn kề kết nối Trong đó, cấu trúc Topology định rõ liên kết Dữ liệu tọa độ cung Cung Nút đầu (x, y) Đỉnh Vertex (x, y) Nút cuối (x, y) a1 40, 60 70, 60 70, 50 a2 70, 50 10, 70; 10, 10 10, 25 a3 10, 25 10, 60 40, 60 a4 40, 60 30, 50 30, 40 a5 10, 25 20, 27; 30, 30; 50, 32 70, 50 a6 30, 20 30, 20 a7 55, 27 55, 15; 40, 15; 45, 27 55, 27 Bảng 1.4 Dữ liệu tọa độ cung - Cấu trúc Spaghetti: chất cấu trúc này, điểm đường biểu diễn đơn vị trí, khơng có mơ tả rõ ràng cấu trúc Topology Trong cấu trúc liệu Spaghetti, đơn vị sở cặp tọa độ không gian địa lý xác định Do đó, đối tượng điểm xác định cặp tọa độ (x, y); đối tượng đường biểu diễn chuỗi cặp tọa độ (xi, yi); đối tượng vùng biểu diễn chuỗi cặp toạ độ (xj, yj) với điểm đầu điểm cuối trùng Minh họa cho liệu Spaghetti hình vẽ sau: Hình 1.4 Minh họa liệu Spaghetti Bảng mơ tả đặc trưng cấu trúc Spaghetti Đặc trƣng Điểm A Điểm B Cung AB Vùng a Vùng b Vị trí (xA, yA) (xB, yB) (xA, yA), (xB, yB) (xA, yA), (xa1, ya1), …, (xa5, ya5) , (xB, yB), (xA, yA) (xA, yA), (xb1, yb1), (xb2, yb2), (xb3, yb3) , (xB, yB), (xA, yA) Bảng 1.5 Mô tả liệu đặc trưng cấu trúc Spaghetti Đặc điểm: Cấu trúc Spaghetti không ghi nhận đặc trưng kề hai vùng kề nhau, nghĩa hai vùng kề có hai cạnh chung kề nhau, cạnh chung hai vùng kề hai cạnh độc lập Ở thí dụ vùng a vùng b có chung cạnh AB 1.1.3 Quan hệ không gian đối tượng địa lý Có ba kiểu quan hệ khơng gian là: quan hệ khoảng cách, quan hệ hướng quan hệ Topo Quan hệ khoảng cách dựa khoảng cách Euclid đối tượng địa lý Quan hệ hướng thể vị trí đối tượng so với đối tượng khác quan hệ không gian Quan hệ Topo có kiểu đặc trưng điển hình giao hai đối tượng địa lý chúng bất biến phép biến đổi hình học quay co giãn Có nhiều phương pháp để xác định quan hệ Topo điểm, đường, vùng Hầu như, chúng dựa mơ hình giao như: bên đường bao bên trong, bên đường bao Phép giao phối hợp toán tử logic và(  ) hoặc(  ) Các mơ hình giao xác định quan hệ Topo nhị phân là: cắt(crosses), chứa(contains), trong(within), bao(covers), bao bở(-coveredBy), trùng(equals), không nối(disjoint), chồng(overlaps) 8 1.2 Khai phá liệu 1.2.1 Định nghĩa khai phá liệu Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) Quy trình phát tri thức thường tuân theo bước sau: Hình 1.5 Các bước trình khai phá liệu - Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hồn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu - Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá - Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường, toán khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tùy theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp 9 - Bước thứ tư: Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực - Bước thứ năm: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa ứng dụng lĩnh vực khác Do kết dự đốn mơ tả nên chúng đưa vào hệ thống hỗ trợ định nhằm tự động hố q trình 1.2.2 Nhiệm vụ khai phá liệu Nhiệm vụ khai phá liệu bao gồm : Phân lớp, Hồi qui, Phân nhóm, Tổng hợp, Mơ hình hố phụ thuộc Phát biến đổi độ lệch - Phân lớp (phân loại - Classification) Là việc xác định ánh xạ để ánh xạ mẫu liệu thỏa mãn ràng buộc vào lớp, liệu phân thành lớp giao khơng Mục tiêu thuật tốn phân lớp tìm mối quan hệ thuộc tính dự báo thuộc tính phân lớp Như q trình phân lớp sử dụng mối quan hệ để dự báo cho mục Các kiến thức phát biểu diễn dạng luật theo cách sau: “Nếu thuộc tính dự báo mục thoả mãn điều kiện tiền đề mục nằm lớp kết luận” - Hồi qui (regression) Là việc dùng hàm dự báo để từ mẫu liệu có hàm dự báo cho giá trị thực Nhiệm vụ hồi quy tương tự phân lớp, điểm khác chỗ thuộc tính để dự báo liên tục rời rạc Việc dự báo giá trị số thường làm phương pháp thống kê cổ điển, chẳng hạn hồi quy tuyến tính Tuy nhiên, phương pháp mơ hình hố sử dụng, ví dụ: định Ứng dụng hồi quy: dự báo thời tiết, ước lượng sác xuất người bệnh chết cách kiểm tra triệu chứng; dự báo nhu cầu người dùng sản phẩm, kháng sản,… - Phân nhóm (clustering) Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp hay gối lên Có nghĩa liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm phát tập khách hàng có phản ứng giống CSDL tiếp thị; xác định quang phổ từ phương pháp đo tia hồng ngoại, … Liên quan chặt chẽ đến 10 việc phân nhóm nhiệm vụ đánh giá liệu, hàm mật độ xác suất đa biến/ trường CSDL - Tổng hợp (summarization) Là cơng việc liên quan đến phương pháp tìm kiếm mô tả tập liệu Kỹ thuật tổng hợp thường áp dụng việc phân tích liệu có tính thăm dò báo cáo tự động Nhiệm vụ sản sinh mơ tả đặc trưng cho lớp Mô tả loại kiểu tổng hợp, tóm tắt đặc tính chung tất hay hầu hết mục lớp Các mơ tả đặc trưng thể theo luật có dạng sau: “Nếu mục thuộc lớp tiền đề mục có tất thuộc tính nêu kết luận” Lưu ý luật dạng có khác biệt so với luật phân lớp Luật phát đặc trưng cho lớp sản sinh mục thuộc lớp - Mơ hình hố phụ thuộc (dependency modeling) Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: + Mức cấu trúc mơ hình mơ tả (thường dạng đồ thị) Trong đó, biến phụ thuộc phận vào biến khác + Mức định lượng mô hình mơ tả mức độ phụ thuộc Những phụ thuộc thường biểu thị dạng theo luật “nếu - thì” (nếu tiền đề kết luận đúng) - Phát biến đổi độ lệch (change and deviation dectection) Nhiệm vụ tập trung vào khám phá hầu hết thay đổi có nghĩa dạng độ đo biết trước giá trị chuẩn, phát độ lệch đáng kể nội dung tập liệu thực nội dung mong đợi Hai mơ hình độ lệch hay dùng lệch theo thời gian hay lệch theo nhóm 1.2.3 Các phương pháp khai phá liệu - Các thành phần giải thuật khai phá liệu: Giải thuật khai phá liệu bao gồm thành phần sau: biểu diễn mơ hình, kiểm định mơ hình phương pháp tìm kiếm + Biểu diễn mơ hình: Mơ hình biểu diễn theo ngơn ngữ để miêu tả mẫu khai thác Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đoán học máy bị hạn chế Khả miêu tả mơ hình lớn làm tăng mức độ nguy hiểm bị học làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trở lên phức tạp việc giải thích mơ hình khó khăn Mơ hình ban đầu xác định cách kết hợp biến đầu (phụ thuộc) với 11 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, 2001 [2] Lê Thị Hồng, 2011 Kỹ thuật khai phá luật kết hợp không gian CSDL địa lý Luận văn tốt nghiệp Thạc sỹ Khoa học máy tính, Đại học Cơng nghệ thơng tin Truyền thông, Đại học Thái Nguyên, Thái Nguyên, Việt Nam Tiếng Anh [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] Chelghoum, N.; Karine, Z.; Azedine, B., “A Decision Tree for MultiLayered Spatial Data” in Symposium on Geospatial Theory, Processing and Applications, Ottawa, 2002 Clementini, E.; Felice, P.D.; Oosterorn, O., A small set of formal topological relationships suitable for end-user interaction Lecture Notes in Computer Science New York: Springer, pp 277–295, 1993 Egenhofer, M.J.; Robert, D.F., “Point-set topological spatial relations” International Journal of Geographical Information Systems, vol 5(2), pp 161 – 174, 1991 Ester, M.; Hans-Peter, K.; Jorg, S., “Spatial Data Mining: A Database Approach” in Proc of the Fifth Int Symposium on Large Spatial Databases, Berlin, Germany, 1997 Ester, M.; Hans-Peter, K.; Jorg, S., “Algorithms and Applications for Spatial Data Mining” Geographic Data Mining and Knowledge Discovery, Research Monographs in GIS, Taylor and Francis, 2001 Han, J.; Kamber, M.; Data Mining Concepts and Techniques, 2nd ed., San Diego, USA: Morgan-Kaufmann, 2006 Koperski, K.; Han, J.; Stefanovic, N., “An efficient two-step method for classification of spatial data” In Symposium on Spatial Data Handling, 1998 Quinlan, J.R., “Induction of Decision Trees” Machine Learning, vol 1, Kluwer Academic Publishers, Boston, pp 81-106, 1986 Rinzivillo, S.; Franco, T., Classification in Geographical Information Systems Lecture Notes in Artificial Intelligence Berlin Heidelberg: Springer-Verlag, pp 374385, 2004 Valduriez, P., “Join indices” ACM Trans on Database Systems, vol 12(2), pp 218246, June 1987 Sitanggang I.M ; Yaakob, R ; Mustapha, N ; Nuruddin, A.A.B., An extended ID3 decision tree algorithm for spatial data, IEEE International Conference 2011 Zeitouni, K.; Yeh, L.; Aufaure, M.A., “Join Indices as a Tool for Spatial Data Mining” in International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, 2000 Zeitouni, K.; Nadjim, C., “Spatial Decision Tree – Application to Traffic Risk Analysis” in ACS/IEEE International Conference, IEEE, 2001 ESRI Geodatabase, Website: http://esri.com [17] http://www.sli.unimelb.edu.au/gisweb/GISModule/GIST_Vector.htm ... cho khai phá liệu không gian Trở ngại lớn khai phá liệu không gian hiệu thuật tốn khai phá liệu khơng gian lượng liệu khơng gian thường có quy mơ lớn, kiểu liệu không gian phương pháp truy cập không. .. gian khai phá liệu Bao gồm phần như: Giới thiệu khái quát liệu địa lý, khai phá liệu, định Chƣơng 2: Khai phá liệu không gian sử dụng định Bao gồm: Giới thiệu số kỹ thuật khai khai phá liệu sử dụng. .. khai phá liệu thách thức cần giải Dữ liệu không gian liệu liên quan đến đối tượng không gian Một CSDL không gian lưu trữ đối tượng không gian bao gồm kiểu liệu không gian quan hệ không gian đối

Ngày đăng: 15/12/2017, 19:03

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan