Khai phá luật kết hợp không gian trong cơ sở dữ liệu địa lý dựa trên phân tích dữ liệu hình học

MỤC LỤC

Luật kết hợp không gian

Trong quá trình khai phá luật kết hợp giao dịch mỗi dòng trong tập dữ liệu là một giao tác và các cột là các mục, còn trong khai phá luật kết hợp không gian thì mỗi dòng là một trường hợp (ví dụ: Hà Nội) của một đối tượng địa lý nào đó (ví dụ:. thành phố) gọi là đối tượng đích và các cột là các thuộc tính. Do đó, giá thành tính toán của các thuật toán chủ yếu dựa vào việc trích chọn thuộc tính không gian (bước a), số lượng các trường hợp của đối tượng đích và số lượng của các đối tượng liên quan cũng như biểu diễn hình học tương ứng của chúng.

Tình hình nghiên cứu về khai phá luật kết hợp không gian

Phương pháp này có ưu điểm là không cần xác định đối tượng, nhưng lại có nhược điểm là thường chỉ áp dụng với dữ liệu dạng điểm (tọa độ x, y), chỉ xét các quan hệ định lượng và không xét các thuộc tính phi không gian của dữ liệu địa lý, mà dữ liệu này lại rất quan trọng trong khai phá tri thức. Năm 2006, Bogorny đã đưa ra phương pháp lập luận định tính dựa trên tri thức có sẵn là các phụ thuộc địa lý để loại bỏ toàn bộ các mẫu đã biết (các mẫu có chứa phụ thuộc địa lý) trong cả quá trình tiền xử lý dữ liệu đầu vào và trong quá trình tạo tập thường xuyên.

Khai phá luật kết hợp trong cơ sở dữ liệu địa lý

4 {contains(Cau),contains(SieuThi), contains(Duong), contains(NhaMay)}, {contains(Cau), contains(Duong), contains(NhaMay), crosses(NguonNuoc)} Từ các tổng hợp ở bảng 1.3 và bảng 1.4 chúng ta có thể thấy việc đưa ra ngưỡng minsup hay phương pháp tạo các tập thường xuyên đóng đều không đảm bảo loại bỏ hết được các phụ thuộc địa lý giữa đối tượng đích và các đối tượng liên quan. Xét các ngữ cảnh, chúng ta đưa ra thuật toán tiền xử lý dữ liệu địa lý sử dụng các geo- ontology như là tri thức biết trước để trích chọn các thuộc tính không gian phụ thuộc cho quá trình khai phá luật kết hợp không gian (sẽ được trình bày chi tiết trong chương 2). Cùng một dữ liệu ở các mức khác nhau (ví dụ: nguồn nước, sông, sông Tô Lịch, hồ,..) trong quá trình khai phá sẽ tạo ra các luật dư thừa và tầm thường được kết hợp từ một phân cấp (ví dụ: nguồn nước) với một phân cấp khác (ví dụ:. sông) nếu chúng đạt được minsup.

Ở mức thứ hai các luật is_a(Dao)within(Song) và/hoặc is_a(Dao)within(Ho) sẽ được tạo ra. Ở mức thấp hơn độ hỗ trợ của các tập thuộc tính là thấp hơn nên độ hỗ trợ nhỏ nhất cũng phải thấp hơn để tránh việc loại bỏ đi các luật kết hợp đáng quan tâm. tổng số tập). a) Tập dữ liệu Bộ. Mặc dù, các phụ thuộc xuất hiện lặp lại trong các tập thường xuyên và thay đổi theo các mức với các minsup khác nhau nhưng ở các ví dụ này đều cho thấy minsup không đảm bảo loại bỏ được các phụ thuộc địa lý đã biết trong quá trình khai phá luật kết hợp không gian.

Bảng 1.1: Tập dữ liệu đã được tiền xử lý cho khai phá tập thường xuyên và luật kết hợp không gian
Bảng 1.1: Tập dữ liệu đã được tiền xử lý cho khai phá tập thường xuyên và luật kết hợp không gian

MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP KHÔNG GIAN

Giới thiệu

- Mức khai phá dữ liệu gồm các thuật toán khai phá luật kết hợp không gian là: tạo tập thường xuyên, hai phương pháp khử tất cả các phụ thuộc địa lý đã biết giữa đối tượng đích và các đối tượng liên quan hoặc giữa các đối tượng liên quan với nhau. Các phụ thuộc này không thể loại bỏ từ tập dữ liệu không gian đầu vào. Phương pháp Apriori-KC khử các phụ thuộc địa lý trong một tập các phụ thuộc.

Phương pháp Max-FPG tạo tập thường xuyên cực đại áp dụng ý tưởng của các tập thường xuyên đóng khử các phụ thuộc địa lý.

Hình 2.1. Sơ đồ khai phá luật kết hợp không gian từ các CSDL địa lý
Hình 2.1. Sơ đồ khai phá luật kết hợp không gian từ các CSDL địa lý

Tiền xử lý dữ liệu không gian phục vụ cho khai phá dữ liệu

Trong trường hợp này, một tập lớn các phụ thuộc có thể được xác định, không chỉ cỏc kết hợp được mụ tả một cỏch rừ ràng trong cỏc lược đồ CSDL hoặc cỏc geo- ontology mà các phụ thuộc tạo ra các mẫu đã biết cũng được thể hiện. Việc trích chọn các thuộc tính không gian cho khai phá luật kết hợp không gian gồm 4 bước chính: tổ chức dữ liệu, khử phụ thuộc (cắt tỉa dữ liệu không gian đầu vào), kết nối không gian và biến đổi dữ liệu thể hiện ở hình 2.1. Người dùng có thể chọn các quan hệ CSDL bao gồm: đối tượng đích T, các thuộc tính phi không gian của T, tập các đối tượng liên quan O có ảnh hưởng tới T, các quan hệ không gian R và mức chi tiết g cho mỗi đối tượng liên quan O trong S khi phân cấp khái niệm H0.

Trích chọn từ CSDL địa lý D các quan hệ không gian R giữa các trường hợp của các đối tượng đích T và tất cả các trường hợp của các đối tượng liên quan O⊆S tại mức chi tiết go⊆G theo một phân cấp khái niệm ho⊆H. Để hiểu rừ về phương phỏp cắt tỉa dữ liệu khụng gian đầu vào và hiệu quả của việc khử phụ thuộc địa lý đơn giữa đối tượng đích và một đối tượng liên quan trong quá trình tạo tập thường xuyên, chúng ta hãy xét ví dụ trong hình 2.4.

Hình 2.3: Giả mã của thuật toán tiền xử lý dữ liệu địa lý
Hình 2.3: Giả mã của thuật toán tiền xử lý dữ liệu địa lý

Các thuật toán khai phá luật kết hợp không gian 1. Thuật toán tạo tập thường xuyên

- Bước 4: loại bỏ các cặp thuộc tính không gian chứa các đối tượng khác nhau có cùng mức cha (parents) trong phân cấp khái niệm (ví dụ: sông, hồ, biển); loại bỏ các cặp thuộc tính cùng mức trong phân cấp khái niệm có cùng quan hệ không gian (ví dụ: touch(Song), touch(Ho)) hoặc có các quan hệ không gian khác nhau (ví dụ: touch(Song), contains(Ho)) để tránh tạo ra một lượng lớn các luật không được quan tâm như contains(Song)contains(Ho). Tuy nhiên, áp dụng cả hai phương pháp cắt tỉa (không gian dữ liệu đầu vào và các tập thường xuyên với kích cỡ là 2) cho phụ thuộc giữa đối tượng đích với đối tượng liên quan và giữa các đối tượng liên quan sẽ giảm thiểu được đáng kể các tập thường xuyên tạo ra sau đó (hình 2.8). Trong đó, toán tử cực đại M tác động trên tập thuộc tính phổ biến L là tập thuộc tính lớn nhất trong cùng tập giao tác với L không có các phụ thuộc tức là tập thường xuyên L là cực đại nếu không có bất kỳ tập thường xuyên L’ nào trong cùng tập giao tỏc với L thừa món L⊂L’.

Cho tập L là tập thường xuyên tạo ra từ thuật toán Apriori-KC (hình 2.2) và tập dữ liệu địa lý Ψtạo ra từ phương pháp tiền xử lý (hình 2.1), thuật toán Max-FGP tương tự như phương pháp tập thường xuyên đóng, chỉ khác ở chỗ thuật toán Max-FGP thực hiện so sánh tất cả các tập thường xuyên cực đại trong M có kích thước k (Mk) với các tập có kích thước k+1 (Mk), khi Mk⊂Mk+1 đồng thời cả Mk và Mk+1 cùng xuất hiện trong một giao tác thì Mk là tập dư thừa. Chương này đã trình bày 3 phương pháp để cải tiến quá trình khai phá luật kết hợp không gian từ các CSDL địa lý là: thuật toán tiền xử lý dữ liệu cắt tỉa không gian dữ liệu đầu vào để loại bỏ các phụ thuộc đã biết trong lược đồ CSDL và các geo-ontology; thuật toán cắt tỉa các phụ thuộc địa lý ngay khi chúng xuất hiện lần đầu tiên để loại bỏ các phụ thuộc giữa đối tượng đích và các đối tượng liên quan; và thuật toán tạo các tập thường xuyên không dư thừa cực đại không có các phụ thuộc để loại bỏ các phụ thuộc giữa các đối tượng liên quan.

Hình 2.7: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {A, W} (trái) và các tập thường xuyên không có phụ thuộc {A, W} (phải)
Hình 2.7: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {A, W} (trái) và các tập thường xuyên không có phụ thuộc {A, W} (phải)

CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM

    Ngoài việc cung cấp bản đồ và các dữ liệu liên quan đến bản đồ, GIS server hỗ trợ các chức năng cho các máy trạm như phân tích không gian, xem bản đồ, truy vấn thông tin không gian, thao tác dữ liệu, quản lý dữ liệu phân tán, xử lý các gói thông tin bản đồ, đảm bảo các luật toàn vẹn bản đồ. Đây là hệ quản trị có độ tin cậy cao, có thể chạy được trên rất nhiều hệ điều hành khác nhau như Window, Linux, Unix, MacOSX…Và một tính năng nổi trội của PostgreSQL là khả năng mở rộng hàm, kiểu dữ liệu, toán tử…người sử dụng có thể tự định nghĩa hàm, kiểu dữ liệu, kiểu toán tử…và có thể thêm những kiểu dữ liệu, toán tử…vào hệ quản trị CSDL PostgreSQL. Ngoài ra, PostgreSQL rất phù hợp đối với dữ liệu địa lý vì nó không chỉ có cho phép lưu trữ các kiểu dữ liệu thông thường như kiểu chuỗi, kiểu số, kiểu ngày tháng, mà còn cho phép lưu trữ các kiểu dữ liệu không gian để lưu trữ các đối tượng như điểm, đường, vùng.

    Truy vấn không gian được thực hiện trên bảng không gian trong CSDL để tìm ra mối quan hệ giữa các đối tượng trong không gian, mối quan hệ đó có thể là các quan hệ topo hay các tính toán không gian như khoảng cách, diện tích, chu vi, chiều dài… PostGIS cung cấp các nhóm hàm để hỗ trợ việc truy vấn như nhóm hàm xác định mối quan hệ không gian, nhóm hàm trả về đối đối tượng mới…nhờ đó, việc thực hiện truy vấn trong không gian sẽ trở nên dễ dàng hơn. Thực hiện khai phá các file dữ liệu này bằng một số phương pháp khai phá luật kết hợp truyền thống và phương pháp khai phá luật kết hợp không gian Apriori-KC đã được thêm vào Weka-geo bằng cách áp dụng các thuật toán Apriori-KC và Max-FPG trong luận văn này.

    Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý của chương trình Weka-geo
    Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý của chương trình Weka-geo