DSpace at VNU: Phân cụm thô của dữ liệu tuần tự tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về...
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HàNội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội - 2016 LỜI CẢM ƠN Trƣớc hết, xin gửi lời biết ơn sâu sắc đến ngƣời thầy PGS TS Hoàng Xuân Huấn dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hƣớng nghiên cứu lĩnh vực thiết thực, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin đƣợc bày tỏ lòng biết ơn tới thầy trƣờng Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân tơi nói riêng Tơi xin cảm ơn tất Anh, Chị bạn chia sẻ, giúp đỡ, trao đổi, góp ý q trình học tập Tôi xin gửi lời biết ơn tới bố mẹ, gia đình ngƣời thân tạo điều kiện tốt để hội lựa chọn đƣờng Một lần nữa, tơi xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu tơi khơng chép Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn MỤC LỤC MỞ ĐẦU CHƢƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU Error! Bookmark not defined 1.1 Phân cụm liệu Error! Bookmark not defined 1.2 Thế phân cụm tốt Error! Bookmark not defined 1.3 Các ứng dụng phân cụm liệu Error! Bookmark not defined 1.4 Các kiểu liệu độ đo tƣơng tự Error! Bookmark not defined 1.4.1 Cấu trúc liệu Error! Bookmark not defined 1.4.2 Các kiểu liệu Error! Bookmark not defined 1.4.3 Độ đo tương tự Error! Bookmark not defined 1.5 Các phƣơng pháp thuật toán phân cụm liệuError! Bookmark not defined 1.5.1 Phương pháp phân cấp Error! Bookmark not defined 1.5.2 Phương pháp phân hoạch Error! Bookmark not defined 1.5.3 Phương pháp dựa mật độ Error! Bookmark not defined 1.5.4 Phương pháp dựa lưới Error! Bookmark not defined Chƣơng II LÝ THUYẾT TẬP THÔ Error! Bookmark not defined 2.1 Giới Thiệu Error! Bookmark not defined 2.2 Các khái niệm Error! Bookmark not defined 2.2.1 Hệ thống thông tin Error! Bookmark not defined 2.2.2 Bảng định (Decision Table) Error! Bookmark not defined 2.2.3 Quan hệ không phân biệt Error! Bookmark not defined 2.2.4 Các khái niệm xấp xỉ tập thô Error! Bookmark not defined 2.3 Rút gọn thuộc tính hệ thống thơng tin Error! Bookmark not defined 2.4 Ma trận phân biệt hàm phân biệt Error! Bookmark not defined 2.5 Hàm Thành Viên Thô Error! Bookmark not defined Chƣơng III ÁP DỤNG THUẬT TỐN PHÂN CỤM THƠ VÀO BÀI TỐNPHÂN CỤM NGƢỜI DÙNG TRÊN WEB Error! Bookmark not defined 3.1 Giới Thiệu Error! Bookmark not defined 3.2 Bài Toán Error! Bookmark not defined 3.3 Dữ liệu Error! Bookmark not defined 3.4 Độ đo tƣơng tự Error! Bookmark not defined 3.5 Thuật toán phân cụm thô Error! Bookmark not defined 3.6 Kết thử nghiệm với 𝛿 = 0.8 𝜎 = Error! Bookmark not defined KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Error! Bookmark not defined TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở liệu DBSCAN Density – Based Spatial Clustering of Applications with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm liệu RelSim Relative similarity S3M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatistical Information Grid approach DANH MỤC HÌNH VẼ Hình 1.1 Mơ vấn đề phân cụm liệu Error! Bookmark not defined Hình 1.2 Các bƣớc trình phân cụm liệu Error! Bookmark not defined Hình 1.3 Tiêu chuẩn phân cụm Error! Bookmark not defined Hình 1.4 Phân loại kiểu liệu dựa kích thƣớc miền Error! Bookmark not defined Hình 1.5 Phân loại kiểu liệu dựa hệ đo Error! Bookmark not defined Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phƣơng pháp “dƣới lên”.Error! Bookmark not defined Hình 1.7 Hai cụm đƣợc tìm thuật tốn DBSCAN Error! Bookmark not defined Hình 1.8 Hai cụm liệu tìm đƣợc nhờ DBSCAN Error! Bookmark not defined Hình 1.9 Ba tầng liên tiếp cấu trúc STING Error! Bookmark not defined Hình 2.1 Mơ tả tập xấp xỉ miền Error! Bookmark not defined Hình 3.1 Ví dụ liệu chuyển hƣớng Web Error! Bookmark not defined Hình 3.2 Ma trận tƣơng tự cách sử dụng số liệu đề xuất với p = 0,5Error! Bookmark not defined Hình 3.3 Kết 𝑅 (𝑇i) Error! Bookmark not defined Hình 3.4 Tập xấp xỉ hạn chế-tƣơng tự Error! Bookmark not defined Hình 3.5 Họ cụm cuối đƣợc đƣa Error! Bookmark not defined Hình 3.6 Kết xấp xỉ Error! Bookmark not defined Hình 3.7 Kết xấp xỉ thứ hai Error! Bookmark not defined Hình 3.8 Kết xấp xỉ thứ ba Error! Bookmark not defined DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số Error! Bookmark not defined Bảng 2.1 Hệ Thống Thông Tin Error! Bookmark not defined Bảng 2.2 Ví dụ bảng định Error! Bookmark not defined Bảng 2.3 Ví dụ cho bảng thông tin Error! Bookmark not defined Bảng 2.4 Ma trận phân biệt đƣợc biểu diễn nhƣ sau: Error! Bookmark not defined Bảng 3.1 Mô tả bảng liệu MSNBC Error! Bookmark not defined Bảng 3.2 Kết thực nghiệm với 𝛿 = 0.8 𝜎 = Error! Bookmark not defined MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng công nghệ tri thức, đƣợc ứng dụng rộng rãi đa dạng ngành khoa học nhƣ sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tƣợng có độ tƣơng đồng cao vào cụm, đối tƣợng thuộc cụm khác có độ tƣơng đồng thấp so với đối tƣợng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phƣơng pháp giải khác nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lƣới Thông thƣờng, thông tin giới xung quanh khơng xác, khơng đầy đủ, khơng chắn chồng chéo Đó vấn đề gặp phải phân cụm liệu Phân cụm đƣợc chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tƣợng đƣợc phân thành cụm khác nhau, đối tƣợng thuộc xác cụm, ngƣợc lại phân cụm mềm đối tƣợng thuộc nhiều cụm đối tƣợng có độ thuộc với cụm Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đƣợc ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thơ đƣợc phát triển tảng toán học vững chắc, cung cấp cơng cụ hữu ích để giải tốn phân tích liệu, phát luật, nhận dạng… Đặc biệt thích hợp với tốn phân tích khối lƣợng liệu lớn, chứa đựng thơng tin mơ hồ, khơng chắn Mục đích phân tích liệu dựa lý thuyết tập thô nhằm đƣa xấp xỉ để biểu diễn đối tƣợng đƣợc phân lớp cách chắn tri thức có sẵn Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ dƣới xấp xỉ Xấp xỉ dƣới bao gồm đối tƣợng chắn thuộc, xấp xỉ chứa tất đối tƣợng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thơ thuật tốn phân cụm thơ đƣợc đề xuất [2] áp dụng phân cụm liệu Cấu trúc luận văn đƣợc chia làm ba chƣơng nhƣ sau: Chương 1: Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phƣơng pháp phân cụm Chương 2: Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính khơng phân biệt đƣợc xấp xỉ tập hợp Chương 3:Áp dụng thuật tốn phân cụm thơ vào toán phân cụm ngƣời dùng Web Dựa lý thuyết tập thơ áp dụng thuật tốn phân cụm thô phân cụm ngƣời dùng Web( chuyển hƣớng Web ngƣời dùng) TÀI LIỆU THAM KHẢO Tiếng việt [1] Đỗ Mai Hƣờng (2007),Một số vấn đề liên quan đến lý thuyết tập thô Luận văn thạc sĩ [2] Hoàng Văn Dũng (2007),Khai phá liệu web kỹ thuật phân cụm Luận văn thạc sĩ [3] Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu Luận văn thạc sĩ [4] Phạm Văn Long (2012), Khai phá liệu theo tiếp cận tập thô định ứng dụng phân lớp khiếu học sinh Luận văn thạc sĩ Tiếng anh [5] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [6] Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques Second Edition, Hacours Science and Technology Company, USA [7] Pradeep Kumar, P Radha Krishna,, Raju S Bapi, Supriya Kumar De(2007): Rough clustering of sequential data [8] Ivo Düntsch & Günther Gediga (2000), Rough set data analysis: A road to noninvasive knowledge discovery [9] Zdzislaw Pawlak (1991), ROUGH SETS Theoretical Aspects of Reasoning about Data, Institute of Computer Science, Warsaw University of Technology Một số trang web [10] http://documents.tips/documents/ly-thuyet-tap-tho-va-cac-khai-niem.html [11] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf ... phải phân cụm liệu Phân cụm đƣợc chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tƣợng đƣợc phân thành cụm khác nhau, đối tƣợng thuộc xác cụm, ngƣợc lại phân cụm. .. QUAN VỀ PHÂN CỤM DỮ LIỆU Error! Bookmark not defined 1.1 Phân cụm liệu Error! Bookmark not defined 1.2 Thế phân cụm tốt Error! Bookmark not defined 1.3 Các ứng dụng phân cụm liệu ... đích sử dụng, có phƣơng pháp giải khác nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lƣới Thông thƣờng, thông tin giới xung quanh khơng xác, khơng