Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
1,82 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG LÊ THỊ HỒNG NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU ĐỊA LÝ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – ĐHTN Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG LÊ THỊ HỒNG NGHIÊN CỨU KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU ĐỊA LÝ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC Thái Nguyên – 2011 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới PGS TS Đặng Văn Đức - người thầy tận tình hướng dẫn tơi suốt thời gian hoàn thành luận văn, đồng thời người cho định hướng ý kiến quý báu lĩnh vực nghiên cứu Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cơ, bạn bè khóa, lớp giúp đỡ suốt năm học qua Xin cảm ơn gia đình, bạn bè, người ln khuyến khích, động viên giúp đỡ tơi hồn cảnh khó khăn Tôi xin cảm ơn thầy cô trường Đại học Công nghệ thông tin & truyền thông, Đại học Thái Nguyên, thầy cô đồng nghiệp khoa Công nghệ thông tin & truyền thông, trường Đại học Hồng Đức, Thanh Hóa tạo điều kiện cho tơi q trình học làm luận văn Luận văn hoàn thành thời gian hạn hẹp nên khơng thể tránh thiếu sót Tôi xin cảm ơn thầy cô, bạn bè, đồng nghiệp có ý kiến đóng góp chân thành cho nội dung luận văn, để tơi tiếp tục sâu tìm hiểu lĩnh vực tương lai Thái Nguyên, 9/2011 Lê Thị Hồng honglt_hd@yahoo.com.vn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân tôi, không chép lại ngƣời khác Trong toàn nội dung luận văn, điều đƣợc trình bày riêng cá nhân tôi, đƣợc tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo đƣợc dùng có xuất xứ rõ ràng, đƣợc trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỉ luật theo quy định cho lời cam đoan Thái Nguyên, 9/2011 Lê Thị Hồng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn iii MỤC LỤC TRANG Trang phụ bìa Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh mục ký hiệu, chữ viết tắt iv Danh mục bảng vi Danh mục hình (hình vẽ, ảnh chụp, đồ thị ) vii MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN 1.1 Cơ sở liệu địa lý 1.1.1 Quan hệ không gian ràng buộc tồn vẹn khơng gian 1.1.2 Phụ thuộc địa lý 1.1.3 Geo-Ontology ràng buộc tồn vẹn khơng gian 10 1.2 Luật kết hợp 11 1.3 Luật kết hợp không gian .17 1.4 Tình hình nghiên cứu khai phá luật kết hợp không gian 18 1.5 Khai phá luật kết hợp sở liệu địa lý 21 1.5.1 Phụ thuộc địa lý đối tƣợng đích đối tƣợng liên quan 21 1.5.1.1 Phụ thuộc địa lý luật không đáng quan tâm 21 1.5.1.2 Phụ thuộc địa lý kết nối không gian .24 1.5.2 Phụ thuộc địa lý đối tƣợng liên quan 26 1.5.3 Phụ thuộc địa lý đối tƣợng liên quan mức khác 28 CHƢƠNG 2: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP KHÔNG GIAN 34 2.1 Giới thiệu 34 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn iv 2.2 Tiền xử lý liệu không gian phục vụ cho khai phá liệu 36 2.2.1 Tiền xử lý liệu, thuật tốn cắt tỉa liệu khơng gian đầu vào 37 2.2.2 Đánh giá thuật toán cắt tỉa liệu không gian đầu vào .40 2.3 Các thuật toán khai phá luật kết hợp không gian 41 2.3.1 Thuật toán tạo tập thƣờng xuyên 41 2.3.1.1 Thuật toán Apriori – KC .42 2.3.1.2 Đánh giá thuật toán Apriori – KC .46 2.3.2 Thuật toán tạo tập thƣờng xuyên không dƣ thừa cực đại 47 2.3.2.1 Phụ thuộc địa lý tập thƣờng xuyên đóng 48 2.3.2.2 Thuật tốn Max-FGP 50 CHƢƠNG 3: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM 53 3.1 Giới thiệu 53 3.2 Lựa chọn công nghệ .53 3.2.1 Công cụ biên tập, lƣu trữ thể tầng liệu đồ 53 3.2.2 Ngơn ngữ lập trình hệ quản trị CSDL 55 3.3 Thiết kế chƣơng trình .56 3.4 Dữ liệu thử nghiệm 58 3.5 Cài đặt chƣơng trình .59 3.5.1 Dữ liệu đầu vào 60 3.5.2 Mô đun tiền xử lý liệu không gian 61 3.5.3 Các thuật toán khai phá luật kết hợp không gian .65 3.6 Đánh giá kết thử nghiệm 67 KẾT LUẬN .67 TÀI LIỆU THAM KHẢO 70 PHỤ LỤC 73 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CSDL Cơ sở liệu GKB Geographic Knowledge Base OGC Open Gis Consortium GIS Geographic information system GeoARM Geographic Association Rule Miner SQL Structured Query Language JDBC Java Database Connectivity ODBC Open Database Connectivity GUI Graphical User Interface ER Entity Relationship OO Object Oriented GPS Global Positioning System Max-FGP Maximal Frequent Geographic Patterns Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC BẢNG Bảng 1.1: Tập liệu đƣợc tiền xử lý cho khai phá tập thƣờng xuyên luật kết hợp không gian 22 Bảng 1.2: Các tập thƣờng xuyên có độ hỗ trợ 50% 22 Bảng 1.3: Các tập thƣờng xuyên luật có phụ thuộc 23 Bảng 1.4: Các tập thƣờng xuyên đóng 24 Bảng 1.5:Các quan hệ topo theo ngữ cảnh đối tƣợng địa lý 24 Bảng 1.6: Các quan hệ topo khả sử dụng khai phá liệu 25 Bảng 1.7: Các tập thƣờng xuyên có độ hỗ trợ = 50% 27 Bảng 1.8: Các luật kết hợp tạo từ tập thƣờng xun có kích thƣớc 2,3,4 có chứa phụ thuộc 28 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn vii DANH MỤC CÁC HÌNH Hình 1.1: Lƣu trữ liệu địa lý CSDL quan hệ Hình 1.2: Quan hệ không gian tiềm ẩn .5 Hình 1.3: Quan hệ khơng gian có phụ thuộc địa lý biết .6 Hình 1.4: Các quan hệ không gian Hình 1.5: Một phần lƣợc đồ CSDL địa lý mức khái niệm logic Hình 1.6: Thể geo-ontology 11 Hình 1.7: Tập liệu có tập thƣờng xuyên với minsup = 50% 13 Hình 1.8: Tập liệu có tập thƣờng xun đóng có minsup=50% 15 Hình 1.9: Quan hệ khoảng cách thực tế quan hệ điểm trung tâm 19 Hình 1.10: Phân cấp khái niệm nguồn nƣớc 29 Hình 1.11: a) Tập liệu có nguồn nƣớc mức b) Các tập thƣờng xuyên với minsup=30% 31 Hình 1.12: a) Tập liệu có nguồn nƣớc mức b) Các tập thƣờng xuyên với minsup 30% 33 Hình 2.1 Sơ đồ khai phá luật kết hợp không gian từ CSDL địa lý 25 Hình 2.2: Giả mã thuật tốn trích chọn phụ thuộc từ lƣợc đồ CSDL 36 Hình 2.3: Giả mã thuật toán tiền xử lý liệu 38 Hình 2.4 Tập liệu có tập thƣờng xuyên với minsnup= 50% 40 Hình 2.5: Đồ thị thể tập thƣờng xuyên có phụ thuộc {D} (trái) tập thƣờng xun khơng có phụ thuộc {D} (phải) 41 Hình 2.6: Thuật tốn Apriori – KC tạo tập thƣờng xun khơng có phụ thuộc biết 43 Hình 2.7: Đồ thị thể tập thƣờng xuyên có phụ thuộc {A, W} (trái) tập thƣờng xun khơng có phụ thuộc {A, W} (phải) 46 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn viii Hình 2.8: Đồ thị thể tập thƣờng xuyên có phụ thuộc {D} {A, W} (trái) tập thƣờng xun khơng có phụ thuộc {D} {A, W} (phải) 47 Hình 2.9: Các tập thƣờng xuyên tập thƣờng xuyên đóng 48 Hình 2.10: Đồ thị thể tập thƣờng xuyên đóng có phụ thuộc biết (trái) tập thƣờng xun đóng khơng có phụ thuộc biết (phải) 49 Hình 2.11: Đồ thị thể tập thƣờng xun khơng có phụ thuộc biết tập thƣờng xuyên không dƣ thừa cực đại khơng có phụ thuộc biết (phải) 51 Hình 2.12: Giả mã thuật toán Max-FGP 52 Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý chƣơng trình Weka-geo 57 Hình 3.2: Một lƣợc đồ CSDL địa lý 58 Hình 3.3: Cấu trúc lƣu trữ liệu dịa lý OGC 61 Hình 3.4: Giao diện kết nối CSDL 61 Hình 3.5: Giao diện tiền xử lý liệu địa lý 62 Hình 3.6: Giao diện tạo cặp phụ thuộc địa lý 63 Hình 3.7: Message khơng tìm thấy quan hệ khơng gian 64 Hình 3.8: Message file arff đƣợc tạo 65 Hình 3.9: Giao diện thẻ Association thuật toán khai phá luật kết hợp 66 Hình 3.10: Giao diện xuất kết thuật tốn khai phá luật kết hợp khơng gian 66 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 64 Hình 3.7: Message khơng tìm thấy quan hệ khơng gian Nếu kết nối khơng gian đƣợc thực chƣơng trình thực chuyển đổi liệu tạo file arff tên *_geographic_data.arff thƣ mục data Trong đó, * tên đối tƣợng đích Các file arff có nhiều cột thuộc tính đặc biệt trƣờng hợp sử dụng phân cấp khái niệm Để tránh xảy lỗi file arff tất thuộc tính nhƣ giá trị phải đƣợc tạo thành từ tập [A-Z, a-z, 0-9] dấu “_” Khi file arff đƣợc tạo message thơng báo đƣợc đƣa Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 65 Hình 3.8: Message file arff tạo 3.5.3 Các thuật toán khai phá luật kết hợp không gian Sau thực tiền xử lý liệu, liệu địa lý đƣợc chuyển đổi thành file *.arff file liệu đầu vào cho khai phá liệu nên áp dụng thuật toán khai phá liệu có Weka để khai phá liệu địa lý Ngồi ra, Weka-geo cịn thêm vào thẻ Associate Weka thuật toán khai phá luật kết hợp khơng gian Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 66 Hình 3.9: Giao diện thẻ Association thuật tốn khai phá luật kết hợp Hình 3.10: Giao diện xuất kết thuật toán khai phá luật kết hợp khơng gian Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 67 3.6 Đánh giá kết thử nghiệm Với liệu thử nghiệm đƣa mục 3.4, mô đun tiền xử lý liệu thực đƣợc công việc bƣớc tiền xử lý đƣợc đƣa chƣơng tạo file *_geographic_data.arff Đây file văn dạng bảng đơn lƣu trữ liệu địa lý, cột thuộc tính phi khơng gian đối tƣợng đích quan hệ khơng gian liên quan cịn dịng trƣờng hợp đối tƣợng đích Các file arff file lƣu trữ liệu đầu vào chuẩn cho thuật tốn khai phá liệu Weka Vì vậy, file *_geographic_data.arff đƣợc tạo từ mô đun tiền xử lý liệu địa lý đƣợc khai phá thuật tốn khai phá liệu có Weka Tuy nhiên, khuôn khổ nghiên cứu luận văn quan tâm đến phƣơng pháp khai phá luật kết hợp Thực khai phá file liệu số phƣơng pháp khai phá luật kết hợp truyền thống phƣơng pháp khai phá luật kết hợp không gian Apriori-KC đƣợc thêm vào Weka-geo cách áp dụng thuật toán Apriori-KC Max-FPG luận văn Kết phƣơng pháp khai phá luật kết hợp tập thƣờng xuyên luật kết hợp Tuy nhiên, số lƣợng tập thƣờng xuyên luật kết hợp tạo phƣơng pháp khai phá luật kết hợp không gian Apriori-KC đƣợc giảm thiểu đáng kể so với phƣơng pháp khai phá luật kết hợp truyền thống áp dụng với file liệu Lý phƣơng pháp khai phá luật kết hợp truyền thống tạo tất tập thƣờng xuyên luật kết hợp không chứa nhƣ chứa phụ thuộc địa lý biết Trong phƣơng pháp khai phá luật kết hợp không gian Apriori-KC loại bỏ đƣợc hết tập thƣờng xuyên luật kết hợp không gian chứa phụ thuộc địa lý biết Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 68 KẾT LUẬN Sau thời gian thu thập tài liệu, khảo sát phân tích nội dung số báo đƣợc đề xuất lĩnh vực khai phá liệu nói chung khai phá luật kết hợp khơng gian nói riêng, luận văn tổng hợp nét khai phá luật kết hợp CSDL địa lý Sau điểm mà luận văn tập trung giải quyết: Chƣơng luận văn trình bày cách tổng quan liệu địa lý bao gồm cấu trúc, đặc trƣng liệu địa lý, quan hệ không gian, phụ thuộc địa lý đối tƣợng địa lý Chƣơng giới thiệu khái quát luật kết hợp, luật kết hợp không gian, tình hình nghiên cứu khai phá luật kết hợp không gian, phƣơng pháp khai phá luật kết hợp không gian vấn đề cần giải khai phá luật kết hợp không gian Mục tiêu chƣơng nêu khác biệt liệu địa lý so với liệu giao dịch, từ trở ngại trình khai phá luật kết hợp không gian so với khai phá luật kết truyền thống tìm phƣơng pháp giải Chƣơng trình bày trình khai phá luật kết hợp khơng gian bao gồm bƣớc trích chọn liệu từ CSDL địa lý, tiền xử lý liệu địa lý phƣơng pháp khai phá luật kết hợp CSDL địa lý Bƣớc tiền xử lý liệu thực bƣớc tổ chức liệu, khử phụ thuộc, kết nối không gian biến đổi liệu thành dạng bảng đơn (file arff), liệu đầu vào thích hợp cho thuật tốn khai phá liệu Đây bƣớc phức tạp tốn nhiều thời gian công sức Hai phƣơng pháp khai phá luật kết hợp đƣợc đƣa để giải vấn đề khó khăn khai phá liệu địa lý là: khử phụ thuộc địa lý đối tƣợng đích đối tƣợng liên quan; khử phụ thuộc địa lý đối tƣợng liên quan Chƣơng luận văn trình bày tồn trình thiết kế chƣơng trình, xây dựng liệu cài đặt thử nghiệm thuật tốn đƣợc đƣa chƣơng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 69 dựa sở lý thuyết đƣợc trình bày chƣơng liệu địa lý khai phá luật kết hợp liệu địa lý Các tầng đồ đƣợc phịng Hệ thống thơng tin địa lý, viện CNTT cung cấp đƣợc biên tập lại tạo liệu phù hợp cho toán khai phá luật kết hợp khơng gian Chƣơng trình Weka-geo đƣợc phát triển từ chƣơng trình nguồn mở Weka cách thêm vào mô đun tiền xử lý liệu địa lý thuật tốn khai phá luật kết hợp khơng gian Tuy nhiên kiến thức có hạn thời gian hạn hẹp nên luận văn không tránh khỏi thiếu sót cịn có phần chƣa đƣợc giải nhƣ: chƣa xây dựng đƣợc liệu thử nghiệm để đánh giá hết trƣờng hợp khai phá luật kết hợp không gian nhƣ phần lý thuyết trình bày; chƣa tự động hóa đƣợc trình cập nhật liệu địa lý, sinh đồ sinh lƣợc đồ CSDL địa lý; chƣơng trình thử nghiệm thực Desktop Trong tƣơng lai, tiếp tục nghiên cứu khai phá luật kết hợp không gian để giải vấn đề nói trên, đồng thời tìm hiểu hƣớng nghiên cứu khác khai phá liệu không gian phân lớp không gian phân cụm khơng gian Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 70 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, 2001 [2] Võ Quang Minh, Cấu trúc sở liệu GIS, http://www.vocw.edu.vn/content/m10596/latest/, 2007 Tiếng Anh [3] Agrawal R., Imielinski T Swami A., Mining association rules between sets of items in large databases, ACM Sigmod International Conference on Management of Data, p.207-216, 2003 [4] [5] [6] [7] Appice A et al, Mining and Filtering Multi-level Association Rules with Areas, International Symposium on Methodologies for Intelligent Systems, p342-353, 2005 Bastide Y et al, Mining minimal non-redundant association rules using frequent closed itemsets, International Conference on Computational Logic, CL, p972-986, 2000 Bayardo JR R.J, Agrawal R., Gunopulos D., Constraint-Base Rule Mining in Large, Dense Databases, IEEE ICDE International Conference on Data Engineerinh, p.188-197, 1999 Bayardo JR R.J, Agrawal R., Mining the Most Interesting Rules, International Conference on Knowledge Discovery Data Mining, ACM SIGKDD, p.145-154, 1999 [8] Beckmann N., Kriegel P., Schneider R., Seeger B., The R*-tree: An efficient and Robust Access Method for Points Rectangles, SIGMOD 90, 1990 [9] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Enhancing Spatial Association Rule Mining in Geographic Databases, 2006 [10] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Enhancing the Process of Knowledge Discovery in Geograhic Databases using Geo-Ontologies, 2007 [11] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Mining Frenquent Geographic Pattern with Knowledge Constraints, International Symposium Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 71 on Advances in Geograhic Information Systems, 2006 [12] Bogorny V., Camargo S., Engel P.M, Alvares L.O, Towards elimination of well known geograhic domain patterns in spatial association rule mining, International Conference on Intelligent Systems, p532-537, 2006b [13] Clementini E., DI Felice P., Koperski K., Mining multiple-level spatila association rules for objects with a broad boundary, Data & Knowledge Engineering, [S.1], v.34, p.251-270, Sept 2000 [14] Chaves M S, Silva M J, Matins B , GKB- Geograhic Knowledge Base, Lisboa: DI/FCUL, 2005 [15] Egenhofer M., Franzosa R., On the equivalence of topological relations, The International Journal on Very large Data Base, [S.1], v.9, n.2, p.133-152, 1995 [16] Fukada U et al, Mining optimized association rules for numeric attributes, ACM Sigmod sysposium on principles of database systems, p.182-191, 1996 [17] Guting R H, An Introduction to Spatial Database Systems, The International Journal on Very large Data Bases, [S.1], v.3, n.4, p357-399, Oct.1994 [18] Hadzilacos T, Tryfona N., A model for Expressing Topological, Integrity Constraints in Geographic Databases, International Conference GIS from Space to Territory: Theories Methods of Spatial Temporal Reasoning in Geographic Space, GIS, p.252-268, 1992 [19] Han J., FU Y., Discovery of Multiple- Level Association Rules from Large Databases, International Conference on Very Large Databases, p.420-431, 1995 [20] Han J., Mining Knowledge at Multiple Concept Level, International Conference on Information Knowledge Management, p19-24, 1995 [21] K Koperski, J Han, Discovery of Spatial Association Rules in Geographic Information Databases In Proc 4th Int’l Symp on large Spatial Databases (SSD’95), pp.47-66, Cauland, Maine, August 1995 [22] Lisi F.A, Malerba D., Inducing Multi-level Association Rules from Multiple Relation, Machine Learning Journal, [S.1], v.55, p.175-210, 2004 [23] Liu B., Wynne H., Yiming M., Pruning summarizing the discorvered associations, International Conference on Knowledge Discovery and Data Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 72 Mining, p215-234, 2000 [24] María Auxilio Medina Nieto, “An Overview of Ontologies” Technical report Universidad De Las Américas Puebla, 2003 [25] Morimoto Y Et al, Algorithms for Mining Association Rules for Sementation of Huge Categorical Databases, International Conference on Very Large Databases, p.380-391, 1998 [26] Open GIS Consortium, Topic 5, the OpenGIS abstract specificationOpenGIS feature -Version 4, 1999 [27] Pasquirer N et al, Discovering frequent closed itemsets for association rules, International Conference on Databases Theory, ICDT, p.398-416, 1999 [28] Pasquirer N et al, Efficient mining of association rules using closed itemsets Lattices, Information Systems, [S.1], p.398-416, 1999 [29] Shekhar S., Chawla S Spatial databases: atour, Upper Saddle River, NJ: Prentice Hall, 2003 [30] Srikant R., Agrawal R., Mining Generalized Association Rules, International Conference on Very Large Databases, p.407-419, 1995 [31] Zaki M., Hsiao C., In: International Conference on Knowledge Discovery Data Mining, p.34-43, 2000 Các trang Web [32] www.people.revoledu.com/kardi/tutorial/GIS/WhatIsGIS.htm [33] www.postgresql.org [34] www.esri.com/library/whitepapers/pdfs/shapefile.pdf Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 73 PHỤ LỤC GIỚI THIỆU CÔNG CỤ WEKA Weka gồm có chức Tập cơng cụ tiền xử lý liệu, thuật toán học máy khai phá liệu phƣơng pháp thí nghiệm, đánh giá Giao diện đồ họa bao gồm tính hiển thị hóa liệu Mơi trƣờng cho phép so sánh thuật tốn học máy khai phá liệu Weka có mơi tƣờng làm việc Simple CLI: Giao diện đơn giản kiểu dòng lệnh (nhƣ MS-DOS) Explorer: mơi trƣờng làm việc cho phép sử dụng tất khả Weka để khai phá liệu Experimenter: để tiến hành thí nghiệm thực kiểm tra, thống kê mơ hình học máy Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 74 Knowledge Flow: để tƣơng tác đồ họa kiểu kéo/thả để thiết kế thành phần thí nghiệm Mơi trƣờng Explorer có chức Preprocess: cho phép chọn thay đổi liệu làm việc Classify: để huấn luyện kiểm tra mơ hình học máy Cluster: để phân cụm liệu Associate: để khai phá luật kết hợp từ liệu Select attributes: để xác định lựa chọn thuộc tính liên quan quan trọng liệu Visualize: để xem biểu đồ tƣơng tác hai chiều liệu Chức khai phá luật kết hợp Sử dụng thẻ Asscociate Associator: Phƣơng pháp khai thác luật kết hợp o Choose: Lựa chọn phƣơng pháp o Textbox: Thay đổi tham số cho phƣơng pháp lựa chọn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 75 Ví dụ: Apriori: Khai thác tập thƣờng xuyên luật kết hợp o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến tập mục khai thác đƣợc nằm khoảng o metricType: Độ đo tính lý thú luật kết hợp, gồm có Confidence, Lift, Leverage, Conviction o minMetric: Các luật khai thác đƣợc có độ đo thỏa giá trị o numRule delta: Thuật toán khởi động với mức độ lý thú mục tiêu cao Khi số luật đạt số numRule, thuật toán dừng, ngƣợc lại giá trị minMetric giảm lƣợng delta để tìm luật có độ đo lý thú thấp o outputItemsets: Kết xuất tập thƣờng xuyên kết Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 76 Thể kết quả: o Tập phổ biến: Danh sách mục độ phổ biến o Luật kết hợp: Luật độ đo lý thú Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 77 Dữ liệu đầu vào Weka làm việc với tập tin văn có khuân dạng *.arff (Attribute- Relation File Format) *.csv (Comma Separated Value) Ví dụ: file (*.arff) đƣợc mở Wordpad Ví dụ: file (*.csv) đƣợc mở Wordpad Explorer 3.6.3 o Cấu trúc tƣơng tự phần liệu tập tin arff: Các mẫu đƣợc lƣu dòng, thuộc tính đƣợc ngăn cách dấu phẩy Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn 78 o Dịng chứa tên thuộc tính Có nghĩa liệu gồm có 14 mẫu thuộc tính (outlook, temperature, humidity, windy, play) Hiển thị tập tin arffViewer: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn