Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
2,02 MB
Nội dung
http://www.ictu.edu.vn i MỤC LỤC TRANG Trang phụ bìa Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh mục ký hiệu, chữ viết tắt iv Danh mục bảng vi Danh mục hình (hình vẽ, ảnh chụp, đồ thị ) vii http://www.ictu.edu.vn ii http://www.ictu.edu.vn iii MỞ ĐẦU Đặt vấn đề Những tiến công nghệ CSDL kỹ thuật thu thập liệu đọc mã số mã vạch, viễn thám, ghi nhận thông tin từ vệ tinh,… thu gom lượng lớn liệu CSDL khổng lồ Việc liệu tăng lên cách dội đòi hỏi phải khai phá để trích chọn tri thức hữa ích phục vụ cho công tác chuyên môn Chính điều dẫn đến đời lĩnh vực đầy hứa hẹn gọi khai phá liệu hay khai phá tri thức CSDL Khai phá tri thức CSDL định nghĩa khai phá tri thức đáng quan tâm, tiềm ẩn chưa biết trước CSDL lớn [21] Khai phá liệu kết hợp số lĩnh vực bao gồm học máy, hệ thống CSDL, thể liệu, thống kê lý thuyết thông tin Đã có nhiều nghiên cứu khai phá liệu CSDL quan hệ giao dịch, CSDL không gian vấn đề khai phá liệu thách thức cần giải Dữ liệu không gian liệu liên quan đến đối tượng không gian Một CSDL không gian lưu trữ đối tượng không gian bao gồm kiểu liệu không gian quan hệ không gian đối tượng Dữ liệu không gian mang thông tin hình học khoảng cách thường tổ chức theo cấu trúc mục không gian truy cập phương pháp truy cập không gian Chính đặc trưng khác biệt CSDL không gian đặt nhiều trở ngại mang đến nhiều hội cho khai phá tri thức từ CSDL không gian Khai phá liệu không gian hay khai phá tri thức CSDL không gian trích trọn tri thức tiềm ẩn, quan hệ không gian hay mẫu chưa rõ lưu trữ CSDL không gian [21] http://www.ictu.edu.vn iv Các nghiên cứu trước học máy, hệ thống CSDL thống kê đặt móng cho nghiên cứu khai phá tri thức CSDL Và tiến CSDL không gian cấu trúc liệu không gian, lập luận không gian, tính toán hình học,… mở đường cho khai phá liệu không gian Trở ngại lớn khai phá liệu không gian hiệu thuật toán khai phá liệu không gian lượng liệu không gian khổng lồ, kiểu liệu không gian phương pháp truy cập không gian phức tạp Các phương pháp khai phá liệu không gian tập trung theo ba hướng khai phá luật kết hợp không gian, phân lớp không gian phân cụm không gian Với mong muốn nghiên cứu khai phá luật kết hợp không gian, luận văn sâu tìm hiểu lĩnh vực nhỏ không gian không gian địa lý Mục tiêu luận văn Luận văn tập trung nghiên cứu kỹ thuật khai phá luật kết hợp không gian CSDL địa lý nhằm trích rút liệu địa lý có ích tiềm ẩn bên kho tri thức địa lý khổng lồ Cụ thể luận văn hướng vào công việc: - Thu thập số lớp liệu đồ (bao gồm liệu hình học liệu thuộc tính) để thử nghiệm với thuật toán khai phá luật kết hợp không gian - Nghiên cứu vài thuật toán tiền xử lý liệu phục vụ cho khai phá liệu không gian vài thuật toán khai phá luật kết hợp truyền thống để mở rộng áp dụng liệu địa lý - Cài đặt chương trình thử nghiệm thuật toán lựa chọn nhằm khai phá luật kết hợp với liệu hình học liệu thuộc tính số lớp đồ Tóm tắt nội dung luận văn Phần lại luận văn tổ chức sau: Chương 1: Tổng quan liệu không gian khai phá luật kết hợp không gian Bao gồm phần như: Giới thiệu khái quát liệu địa lý, luật kết hợp, http://www.ictu.edu.vn v luật kết hợp không gian, vấn đề khó khăn khai phá luật kết hợp không gian Chương 2: Một số thuật toán khai phá luật kết hợp không gian Bao gồm: phương pháp tiền xử lý liệu không gian phục vụ khai phá liệu phương pháp khai phá luật kết hợp không gian liệu hình học liệu thuộc tính Chương 3: Cài đặt chương trình thử nghiệm Bao gồm mô tả toán, xây dựng liệu thử nghiệm, thiết kế chương trình, cài đặt thuật toán đánh giá kết thử nghiệm Kết luận trình bày nghiên cứu khai phá luật kết hợp không gian, đóng góp luận văn định hướng nghiên cứu tới http://www.ictu.edu.vn vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CSDL GKB OGC GIS GeoARM SQL JDBC ODBC GUI ER OO GPS Max-FGP Cơ sở liệu Geographic Knowledge Base Open Gis Consortium Geographic information system Geographic Association Rule Miner Structured Query Language Java Database Connectivity Open Database Connectivity Graphical User Interface Entity Relationship Object Oriented Global Positioning System Maximal Frequent Geographic Patterns http://www.ictu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 1.1: Tập liệu tiền xử lý cho khai phá tập thường xuyên luật kết hợp không gian 22 Bảng 1.2: Các tập thường xuyên có độ hỗ trợ 50% .22 Bảng 1.3: Các tập thường xuyên luật có phụ thuộc .23 Bảng 1.4: Các tập thường xuyên đóng 24 Bảng 1.5:Các quan hệ topo theo ngữ cảnh đối tượng địa lý 24 Bảng 1.6: Các quan hệ topo khả sử dụng khai phá liệu 25 Bảng 1.7: Các tập thường xuyên có độ hỗ trợ = 50% 27 Bảng 1.8: Các luật kết hợp tạo từ tập thường xuyên có kích thước 2,3,4 có chứa phụ thuộc .28 http://www.ictu.edu.vn viii DANH MỤC CÁC HÌNH Hình 1.1: Lưu trữ liệu địa lý CSDL quan hệ Hình 1.2: Quan hệ không gian tiềm ẩn Hình 1.3: Quan hệ không gian có phụ thuộc địa lý biết Hình 1.4: Các quan hệ không gian Hình 1.5: Một phần lược đồ CSDL địa lý mức khái niệm logic Hình 1.6: Thể geo-ontology 11 Hình 1.7: Tập liệu có tập thường xuyên với minsup = 50% 13 Hình 1.8: Tập liệu có tập thường xuyên đóng có minsup=50% .15 Hình 1.9: Quan hệ khoảng cách thực tế quan hệ điểm trung tâm 19 Hình 1.10: Phân cấp khái niệm nguồn nước .29 Hình 1.11: a) Tập liệu có nguồn nước mức b) Các tập thường xuyên với minsup=30% .31 Hình 1.12: a) Tập liệu có nguồn nước mức b) Các tập thường xuyên với minsup 30% 33 Hình 2.1 Sơ đồ khai phá luật kết hợp không gian từ CSDL địa lý 25 Hình 2.2: Giả mã thuật toán trích chọn phụ thuộc từ lược đồ CSDL 36 Hình 2.3: Giả mã thuật toán tiền xử lý liệu 38 Hình 2.4 Tập liệu có tập thường xuyên với minsnup= 50% 40 Hình 2.5: Đồ thị thể tập thường xuyên có phụ thuộc {D} (trái) tập thường xuyên phụ thuộc {D} (phải) 41 Hình 2.6: Thuật toán Apriori – KC tạo tập thường xuyên phụ thuộc biết .43 Hình 2.7: Đồ thị thể tập thường xuyên có phụ thuộc {A, W} (trái) tập thường xuyên phụ thuộc {A, W} (phải) 46 http://www.ictu.edu.vn ix Hình 2.8: Đồ thị thể tập thường xuyên có phụ thuộc {D} {A, W} (trái) tập thường xuyên phụ thuộc {D} {A, W} (phải) .47 Hình 2.9: Các tập thường xuyên tập thường xuyên đóng 48 Hình 2.10: Đồ thị thể tập thường xuyên đóng có phụ thuộc biết (trái) tập thường xuyên đóng phụ thuộc biết (phải) 49 Hình 2.11: Đồ thị thể tập thường xuyên phụ thuộc biết tập thường xuyên không dư thừa cực đại phụ thuộc biết (phải) 51 Hình 2.12: Giả mã thuật toán Max-FGP .52 Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý chương trình Weka-geo Hình 3.2: Một lược đồ CSDL địa lý Hình 3.3: Cấu trúc lưu trữ liệu dịa lý OGC Hình 3.4: Giao diện kết nối CSDL Hình 3.5: Giao diện tiền xử lý liệu địa lý Hình 3.6: Giao diện tạo cặp phụ thuộc địa lý Hình 3.7: Message không tìm thấy quan hệ không gian Hình 3.8: Message file arff tạo Hình 3.9: Giao diện thẻ Association thuật toán khai phá luật kết hợp Hình 3.10: Giao diện xuất kết thuật toán khai phá luật kết hợp không gian http://www.ictu.edu.vn CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN 1.1 Cơ sở liệu địa lý CSDL địa lý lưu trữ thực thể giới thực hay gọi đối tượng địa lý thuộc vùng nghiên cứu Các đối tượng địa lý chứa thuộc tính không gian (tọa độ địa lý x,y) thuộc tính phi không gian (tên, dân số,…) Đó hai thành phần liệu không gian Dữ liệu địa lý đối tượng địa lý thường lưu trữ CSDL quan hệ CSDL quan hệ đối tượng Hình 1.1 thể liệu địa lý lưu trữ CSDL quan hệ, đối tượng địa lý đường, nguồn nước siêu thị quan hệ khác (các bảng CSDL), chúng có thuộc tính không gian (dữ liệu hình học) thuộc tính phi không gian (dữ liệu thuộc tính) a) Duong Gid Name Shape Trần Duy Hưng Multiline[(x1,y1),(x2,y2), ] Bưởi Multiline[(x1,y1),(x2,y2), ] b) NguonNuoc Gid Name Shape Hồ Hoàn Kiếm Multiline[(x1,y1),(x2,y2), ] Sông Tô Lịch Multiline[(x1,y1),(x2,y2), ] c) SieuThi Gid Name Shape Big C Thăng Long Point[(x1,y1)] Plaza Tràng Tiền Point[(x1,y1)] Hình 1.1: Lưu trữ liệu địa lý CSDL quan hệ Ví dụ đặc trưng không gian Siêu thị Big C Thăng Long có liệu hình học điểm biểu diễn CSDL cặp tọa độ, liệu thuộc tính số loại mặt hàng kinh doanh, doanh thu hàng ngày cửa hàng http://www.ictu.edu.vn 63 Hình 3.7: Message không tìm thấy quan hệ không gian Nếu kết nối không gian thực chương trình thực chuyển đổi liệu tạo file arff tên *_geographic_data.arff thư mục data Trong đó, * tên đối tượng đích Các file arff có nhiều cột thuộc tính đặc biệt trường hợp sử dụng phân cấp khái niệm Để tránh xảy lỗi file arff tất thuộc tính giá trị phải tạo thành từ tập [A-Z, a-z, 0-9] dấu “_” Khi file arff tạo message thông báo đưa http://www.ictu.edu.vn 64 Hình 3.8: Message file arff tạo 3.5.3 Các thuật toán khai phá luật kết hợp không gian Sau thực tiền xử lý liệu, liệu địa lý chuyển đổi thành file *.arff file liệu đầu vào cho khai phá liệu nên áp dụng thuật toán khai phá liệu có Weka để khai phá liệu địa lý Ngoài ra, Weka-geo thêm vào thẻ Associate Weka thuật toán khai phá luật kết hợp không gian http://www.ictu.edu.vn 65 Hình 3.9: Giao diện thẻ Association thuật toán khai phá luật kết hợp Hình 3.10: Giao diện xuất kết thuật toán khai phá luật kết hợp không gian http://www.ictu.edu.vn 3.6 66 Đánh giá kết thử nghiệm Với liệu thử nghiệm đưa mục 3.4, mô đun tiền xử lý liệu thực công việc bước tiền xử lý đưa chương tạo file *_geographic_data.arff Đây file văn dạng bảng đơn lưu trữ liệu địa lý, cột thuộc tính phi không gian đối tượng đích quan hệ không gian liên quan dòng trường hợp đối tượng đích Các file arff file lưu trữ liệu đầu vào chuẩn cho thuật toán khai phá liệu Weka Vì vậy, file *_geographic_data.arff tạo từ mô đun tiền xử lý liệu địa lý khai phá thuật toán khai phá liệu có Weka Tuy nhiên, khuôn khổ nghiên cứu luận văn quan tâm đến phương pháp khai phá luật kết hợp Thực khai phá file liệu số phương pháp khai phá luật kết hợp truyền thống phương pháp khai phá luật kết hợp không gian Apriori-KC thêm vào Weka-geo cách áp dụng thuật toán Apriori-KC Max-FPG luận văn Kết phương pháp khai phá luật kết hợp tập thường xuyên luật kết hợp Tuy nhiên, số lượng tập thường xuyên luật kết hợp tạo phương pháp khai phá luật kết hợp không gian Apriori-KC giảm thiểu đáng kể so với phương pháp khai phá luật kết hợp truyền thống áp dụng với file liệu Lý phương pháp khai phá luật kết hợp truyền thống tạo tất tập thường xuyên luật kết hợp không chứa chứa phụ thuộc địa lý biết Trong phương pháp khai phá luật kết hợp không gian Apriori-KC loại bỏ hết tập thường xuyên luật kết hợp không gian chứa phụ thuộc địa lý biết http://www.ictu.edu.vn 67 KẾT LUẬN Sau thời gian thu thập tài liệu, khảo sát phân tích nội dung số báo đề xuất lĩnh vực khai phá liệu nói chung khai phá luật kết hợp không gian nói riêng, luận văn tổng hợp nét khai phá luật kết hợp CSDL địa lý Sau điểm mà luận văn tập trung giải quyết: Chương luận văn trình bày cách tổng quan liệu địa lý bao gồm cấu trúc, đặc trưng liệu địa lý, quan hệ không gian, phụ thuộc địa lý đối tượng địa lý Chương giới thiệu khái quát luật kết hợp, luật kết hợp không gian, tình hình nghiên cứu khai phá luật kết hợp không gian, phương pháp khai phá luật kết hợp không gian vấn đề cần giải khai phá luật kết hợp không gian Mục tiêu chương nêu khác biệt liệu địa lý so với liệu giao dịch, từ trở ngại trình khai phá luật kết hợp không gian so với khai phá luật kết truyền thống tìm phương pháp giải Chương trình bày trình khai phá luật kết hợp không gian bao gồm bước trích chọn liệu từ CSDL địa lý, tiền xử lý liệu địa lý phương pháp khai phá luật kết hợp CSDL địa lý Bước tiền xử lý liệu thực bước tổ chức liệu, khử phụ thuộc, kết nối không gian biến đổi liệu thành dạng bảng đơn (file arff), liệu đầu vào thích hợp cho thuật toán khai phá liệu Đây bước phức tạp tốn nhiều thời gian công sức Hai phương pháp khai phá luật kết hợp đưa để giải vấn đề khó khăn khai phá liệu địa lý là: khử phụ thuộc địa lý đối tượng đích đối tượng liên quan; khử phụ thuộc địa lý đối tượng liên quan Chương luận văn trình bày toàn trình thiết kế chương trình, xây dựng liệu cài đặt thử nghiệm thuật toán đưa chương http://www.ictu.edu.vn 68 dựa sở lý thuyết trình bày chương liệu địa lý khai phá luật kết hợp liệu địa lý Các tầng đồ phòng Hệ thống thông tin địa lý, viện CNTT cung cấp biên tập lại tạo liệu phù hợp cho toán khai phá luật kết hợp không gian Chương trình Weka-geo phát triển từ chương trình nguồn mở Weka cách thêm vào mô đun tiền xử lý liệu địa lý thuật toán khai phá luật kết hợp không gian Tuy nhiên kiến thức có hạn thời gian hạn hẹp nên luận văn không tránh khỏi thiếu sót có phần chưa giải như: chưa xây dựng liệu thử nghiệm để đánh giá hết trường hợp khai phá luật kết hợp không gian phần lý thuyết trình bày; chưa tự động hóa trình cập nhật liệu địa lý, sinh đồ sinh lược đồ CSDL địa lý; chương trình thử nghiệm thực Desktop Trong tương lai, tiếp tục nghiên cứu khai phá luật kết hợp không gian để giải vấn đề nói trên, đồng thời tìm hiểu hướng nghiên cứu khác khai phá liệu không gian phân lớp không gian phân cụm không gian http://www.ictu.edu.vn 69 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, 2001 [2] Võ Quang Minh, Cấu trúc sở liệu GIS, http://www.vocw.edu.vn/content/m10596/latest/, 2007 Tiếng Anh [3] Agrawal R., Imielinski T Swami A., Mining association rules between sets of items in large databases, ACM Sigmod International Conference on Management of Data, p.207-216, 2003 [4] Appice A et al, Mining and Filtering Multi-level Association Rules with Areas, International Symposium on Methodologies for Intelligent Systems, p342-353, 2005 [5] Bastide Y et al, Mining minimal non-redundant association rules using frequent closed itemsets, International Conference on Computational Logic, CL, p972-986, 2000 [6] Bayardo JR R.J, Agrawal R., Gunopulos D., Constraint-Base Rule Mining in Large, Dense Databases, IEEE ICDE International Conference on Data Engineerinh, p.188-197, 1999 [7] Bayardo JR R.J, Agrawal R., Mining the Most Interesting Rules, International Conference on Knowledge Discovery Data Mining, ACM SIGKDD, p.145-154, 1999 [8] Beckmann N., Kriegel P., Schneider R., Seeger B., The R*-tree: An efficient and Robust Access Method for Points Rectangles, SIGMOD 90, 1990 [9] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Enhancing Spatial Association Rule Mining in Geographic Databases, 2006 [10] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Enhancing the Process of Knowledge Discovery in Geograhic Databases using Geo-Ontologies, 2007 [11] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Mining Frenquent Geographic Pattern with Knowledge Constraints, International Symposium on Advances in Geograhic Information Systems, 2006 [12] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Towards elimination of well known geograhic domain patterns in spatial association rule mining, http://www.ictu.edu.vn [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] 70 International Conference on Intelligent Systems, p532-537, 2006b Clementini E., DI Felice P., Koperski K., Mining multiple-level spatila association rules for objects with a broad boundary, Data & Knowledge Engineering, [S.1], v.34, p.251-270, Sept 2000 Chaves M S, Silva M J, Matins B , GKB- Geograhic Knowledge Base, Lisboa: DI/FCUL, 2005 Egenhofer M., Franzosa R., On the equivalence of topological relations, The International Journal on Very large Data Base, [S.1], v.9, n.2, p.133-152, 1995 Fukada U et al, Mining optimized association rules for numeric attributes, ACM Sigmod sysposium on principles of database systems, p.182-191, 1996 Guting R H, An Introduction to Spatial Database Systems, The International Journal on Very large Data Bases, [S.1], v.3, n.4, p357-399, Oct.1994 Hadzilacos T, Tryfona N., A model for Expressing Topological, Integrity Constraints in Geographic Databases, International Conference GIS from Space to Territory: Theories Methods of Spatial Temporal Reasoning in Geographic Space, GIS, p.252-268, 1992 Han J., FU Y., Discovery of Multiple- Level Association Rules from Large Databases, International Conference on Very Large Databases, p.420-431, 1995 Han J., Mining Knowledge at Multiple Concept Level, International Conference on Information Knowledge Management, p19-24, 1995 K Koperski, J Han, Discovery of Spatial Association Rules in Geographic Information Databases In Proc 4th Int’l Symp on large Spatial Databases (SSD’95), pp.47-66, Cauland, Maine, August 1995 Lisi F.A, Malerba D., Inducing Multi-level Association Rules from Multiple Relation, Machine Learning Journal, [S.1], v.55, p.175-210, 2004 Liu B., Wynne H., Yiming M., Pruning summarizing the discorvered associations, International Conference on Knowledge Discovery and Data Mining, p215-234, 2000 María Auxilio Medina Nieto, “An Overview of Ontologies” Technical report Universidad De Las Américas Puebla, 2003 Morimoto Y Et al, Algorithms for Mining Association Rules for Sementation of Huge Categorical Databases, International Conference on Very Large Databases, p.380-391, 1998 Open GIS Consortium, Topic 5, the OpenGIS abstract specification- http://www.ictu.edu.vn [27] [28] [29] [30] [31] 71 OpenGIS feature -Version 4, 1999 Pasquirer N et al, Discovering frequent closed itemsets for association rules, International Conference on Databases Theory, ICDT, p.398-416, 1999 Pasquirer N et al, Efficient mining of association rules using closed itemsets Lattices, Information Systems, [S.1], p.398-416, 1999 Shekhar S., Chawla S Spatial databases: atour, Upper Saddle River, NJ: Prentice Hall, 2003 Srikant R., Agrawal R., Mining Generalized Association Rules, International Conference on Very Large Databases, p.407-419, 1995 Zaki M., Hsiao C., In: International Conference on Knowledge Discovery Data Mining, p.34-43, 2000 Các trang Web [32] www.people.revoledu.com/kardi/tutorial/GIS/WhatIsGIS.htm [33] www.postgresql.org [34] www.esri.com/library/whitepapers/pdfs/shapefile.pdf http://www.ictu.edu.vn 72 PHỤ LỤC GIỚI THIỆU CÔNG CỤ WEKA Weka gồm có chức • Tập công cụ tiền xử lý liệu, thuật toán học máy khai phá liệu phương pháp thí nghiệm, đánh giá • Giao diện đồ họa bao gồm tính hiển thị hóa liệu • Môi trường cho phép so sánh thuật toán học máy khai phá liệu Weka có môi tường làm việc • Simple CLI: Giao diện đơn giản kiểu dòng lệnh (như MS-DOS) • Explorer: môi trường làm việc cho phép sử dụng tất khả Weka để khai phá liệu • Experimenter: để tiến hành thí nghiệm thực kiểm tra, thống kê mô hình học máy http://www.ictu.edu.vn • 73 Knowledge Flow: để tương tác đồ họa kiểu kéo/thả để thiết kế thành phần thí nghiệm Môi trường Explorer có chức • Preprocess: cho phép chọn thay đổi liệu làm việc • Classify: để huấn luyện kiểm tra mô hình học máy • Cluster: để phân cụm liệu • Associate: để khai phá luật kết hợp từ liệu • Select attributes: để xác định lựa chọn thuộc tính liên quan quan trọng liệu • Visualize: để xem biểu đồ tương tác hai chiều liệu Chức khai phá luật kết hợp Sử dụng thẻ Asscociate • Associator: Phương pháp khai thác luật kết hợp o Choose: Lựa chọn phương pháp o Textbox: Thay đổi tham số cho phương pháp lựa chọn http://www.ictu.edu.vn • 74 Ví dụ: Apriori: Khai thác tập thường xuyên luật kết hợp o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến tập mục khai thác nằm khoảng o metricType: Độ đo tính lý thú luật kết hợp, gồm có Confidence, Lift, Leverage, Conviction o minMetric: Các luật khai thác có độ đo thỏa giá trị o numRule delta: Thuật toán khởi động với mức độ lý thú mục tiêu cao Khi số luật đạt số numRule, thuật toán dừng, ngược lại giá trị minMetric giảm lượng delta để tìm luật có độ đo lý thú thấp o outputItemsets: Kết xuất tập thường xuyên kết http://www.ictu.edu.vn • 75 Thể kết quả: o Tập phổ biến: Danh sách mục độ phổ biến o Luật kết hợp: Luật độ đo lý thú http://www.ictu.edu.vn 76 Dữ liệu đầu vào Weka làm việc với tập tin văn có khuân dạng *.arff (Attribute- Relation File Format) *.csv (Comma Separated Value) Ví dụ: file (*.arff) mở Wordpad Ví dụ: file (*.csv) mở Wordpad Explorer 3.6.3 o Cấu trúc tương tự phần liệu tập tin arff: Các mẫu lưu dòng, thuộc tính ngăn cách dấu phẩy http://www.ictu.edu.vn 77 o Dòng chứa tên thuộc tính Có nghĩa liệu gồm có 14 mẫu thuộc tính (outlook, temperature, humidity, windy, play) Hiển thị tập tin arffViewer: [...]... ABCD 1.3 Luật kết hợp không gian Luật kết hợp không gian có dạng X→Y, với X và Y là tập các thuộc tính trong đó có ít nhất một thuộc tính là thuộc tính không gian [21] Trong quá trình khai phá luật kết hợp giao dịch mỗi dòng trong tập dữ liệu là một giao tác và các cột là các mục, còn trong khai phá luật kết hợp không gian thì mỗi dòng là một trường hợp (ví dụ: Hà Nội) của một đối tượng địa lý nào đó... đã đưa ra phương pháp lập luận định tính dựa trên tri thức có sẵn là các phụ thuộc địa lý để loại bỏ toàn bộ các mẫu đã biết (các mẫu có chứa phụ thuộc địa lý) trong cả quá trình tiền xử lý dữ liệu đầu vào và trong quá trình tạo tập thường xuyên 1.5 Khai phá luật kết hợp trong cơ sở dữ liệu địa lý Như đã trình bày ở phần trước, cần ít nhất ba bước để trích chọn ra các mẫu từ CSDL địa lý là: xác định... với các phụ thuộc địa lý của dữ liệu ở mức chung Tuy nhiên, các luật kết hợp có thể được trích chọn từ dữ liệu ở các mức khác nhau Phần tiếp theo sẽ giải thích quá trình khai phá luật kết hợp ở các mức khái niệm khác nhau và sự thường xuyên của các phụ thuộc địa lý ở các mức khác nhau 1.5.3 Phụ thuộc địa lý giữa các đối tượng liên quan ở các mức khác nhau Quá trình khai phá luật kết hợp có thể được trích... số lượng các trường hợp của đối tượng đích và số lượng của các đối tượng liên quan cũng như biểu diễn hình học tương ứng của chúng 1.4 Tình hình nghiên cứu về khai phá luật kết hợp không gian http://www.ictu.edu.vn 16 Trong khi có khá nhiều thuật toán khai phá luật kết hợp áp dụng cho các CSDL quan hệ và CSDL giao dịch thì các thuật toán khai phá luật kết hợp áp dụng cho CSDL địa lý lại rất ít và có... chúng được gọi là một phụ thuộc địa lý Định nghĩa 1 (Phụ thuộc địa lý) : là quan hệ không gian bắt buộc giữa hai đối tượng địa lý A và B, trong đó mỗi trường hợp của A phải liên quan với ít nhất một trường hợp của B Phụ thuộc địa lý gọi là đã biết khi chúng được thể hiện rõ ràng trong lược đồ CSDL địa lý để đảm bảo sự toàn vẹn không gian của dữ liệu địa lý Lược đồ CSDL địa lý là sự mở rộng của lược đồ... thế giới thực thường có ảnh hưởng lẫn nhau hay phụ thuộc lẫn nhau Đây chính là đặc trưng của dữ liệu địa lý trong khai phá dữ liệu và cũng là sự khác biệt của việc khai phá dữ liệu không gian so với các phương pháp khai phá dữ liệu truyền thống Quá trình trích chọn quan hệ không gian sẽ tạo ra rất nhiều kết hợp không gian mà có thể được người sử dụng quan tâm hoặc không quan tâm Hình 1.2 là ví dụ về... thuộc địa lý xuất hiện trong các bước này như thế nào 1.5.1 Phụ thuộc địa lý giữa đối tượng đích và đối tượng liên quan Bước tiền xử lý trích chọn ra các quan hệ không gian và biến đổi các dữ liệu địa lý thành một bảng đơn hoặc một file theo đúng định dạng yêu cầu với dữ liệu đầu vào của các thuật toán khai phá luật kết hợp không gian http://www.ictu.edu.vn 19 Các phụ thuộc gây ra hai vấn đề chính trong. .. đưa ra phương pháp khai phá luật kết hợp không gian ở các mức khác nhau sử dụng độ hỗ trợ nhỏ nhất và độ tin cậy nhỏ nhất để trích chọn ra các tập thường xuyên và các luật kết hợp không gian [21] Năm 2000, Clementini đã mở rộng phương pháp này để áp dụng cho khai phá luật kết hợp không gian đa cấp đối với các đối tượng địa lý có các đường bao rộng [13] Năm 2004, Lisi đã đưa ra phương pháp cho phép... chính trong quá trình khai phá luật kết hợp là: tạo ra một lượng lớn các luật kết hợp không đáng quan tâm và yêu cầu thực hiện các kết nối không gian không cần thiết 1.5.1.1 Phụ thuộc địa lý và luật không đáng quan tâm Bảng 1.1 là ví dụ về một tập dữ liệu không gian ở mức chung sẽ được sử dụng trong tất cả các phần sau Mỗi dòng là một thành phố và các thuộc tính là các đối tượng địa lý khác nhau (cầu,... thể mà trong thực tế chúng khó có thể đạt được [23] Srikant đã sử dụng phân cấp khái niệm để khử các tập ứng viên chứa mức cha (ví dụ: cloth) và mức con (ví dụ: jacket, dress) của một phân cấp trong cùng một tập [30] Trong thực tế khai phá dữ liệu ở các mức khác nhau trong một quá trình khai phá không phải là phổ biến Phương pháp này giảm thiểu các luật nên tránh trong quá trình tiền xử lý dữ liệu, ... luật kết hợp không gian Chương 2: Một số thuật toán khai phá luật kết hợp không gian Bao gồm: phương pháp tiền xử lý liệu không gian phục vụ khai phá liệu phương pháp khai phá luật kết hợp không... liệu không gian khai phá luật kết hợp không gian Bao gồm phần như: Giới thiệu khái quát liệu địa lý, luật kết hợp, http://www.ictu.edu.vn v luật kết hợp không gian, vấn đề khó khăn khai phá luật. .. PHÁ DỮ LIỆU KHÔNG GIAN 1.1 Cơ sở liệu địa lý CSDL địa lý lưu trữ thực thể giới thực hay gọi đối tượng địa lý thuộc vùng nghiên cứu Các đối tượng địa lý chứa thuộc tính không gian (tọa độ địa lý