1. Trang chủ
  2. » Tất cả

Luận văn thạc sĩ phân cụm thô của dữ liệu tuần tự

53 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 443,1 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành Hệ thống thông tin Chuyênngành Hệ thống thông tin Mã số 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔ[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội, năm 2016 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến người thầy PGS TS Hoàng Xuân Huấn dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tơi xin bày tỏ lịng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tơi xin cảm ơn tất Anh, Chị bạn chia sẻ, giúp đỡ, trao đổi, góp ý q trình học tập Tơi xin gửi lời biết ơn tới bố mẹ, gia đình người thân tạo điều kiện tốt để tơi hội lựa chọn đường Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu không chép Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn MỤC LỤC MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt .5 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tương tự 1.4.1 Cấu trúc liệu 1.4.2 Các kiểu liệu 1.4.3 Độ đo tương tự 11 1.5 Các phương pháp thuật toán phân cụm liệu .13 1.5.1 Phương pháp phân cấp 14 1.5.2 Phương pháp phân hoạch 16 1.5.3 Phương pháp dựa mật độ 17 1.5.4 Phương pháp dựa lưới .19 Chương II LÝ THUYẾT TẬP THÔ 21 2.1 Giới Thiệu 21 2.2 Các khái niệm 22 2.2.1 Hệ thống thông tin .22 2.2.2 Bảng định (Decision Table) .23 2.2.3 Quan hệ không phân biệt 24 2.2.4 Các khái niệm xấp xỉ tập thô 25 2.3 Rút gọn thuộc tính hệ thống thông tin 27 2.4 Ma trận phân biệt hàm phân biệt 29 2.5 Hàm Thành Viên Thô .30 Chương III ÁP DỤNG THUẬT TỐN PHÂN CỤM THƠ VÀO BÀI TỐNPHÂN CỤM NGƯỜI DÙNG TRÊN WEB .32 3.1 Giới Thiệu 32 3.2 Bài Toán 33 3.3 Dữ liệu 34 3.4 Độ đo tương tự 34 3.5 Thuật tốn phân cụm thơ 36 3.6 Kết thử nghiệm với 𝛿 = 0.8 𝜎 = 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 TÀI LIỆU THAM KHẢO 46 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở liệu DBSCAN Density – Based Spatial Clustering of Applications with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm liệu RelSim Relative similarity S3M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatistical Information Grid approach DANH MỤC HÌNH VẼ Hình 1.1 Mô vấn đề phân cụm liệu Hình 1.2 Các bước trình phân cụm liệu .5 Hình 1.3 Tiêu chuẩn phân cụm Hình 1.4 Phân loại kiểu liệu dựa kích thước miền Hình 1.5 Phân loại kiểu liệu dựa hệ đo 10 Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 15 Hình 1.7 Hai cụm tìm thuật tốn DBSCAN 19 Hình 1.8 Hai cụm liệu tìm nhờ DBSCAN 19 Hình 1.9 Ba tầng liên tiếp cấu trúc STING 20 Hình 2.1 Mơ tả tập xấp xỉ miền 26 Hình 3.1 Ví dụ liệu chuyển hướng Web .39 Hình 3.2 Ma trận tương tự cách sử dụng số liệu đề xuất với p = 0,5 40 Hình 3.3 Kết 𝑹̅ (𝑻i) .40 Hình 3.4 Tập xấp xỉ hạn chế-tương tự 41 Hình 3.5 Họ cụm cuối đưa 42 Hình 3.6 Kết xấp xỉ 42 Hình 3.7 Kết xấp xỉ thứ hai 43 Hình 3.8 Kết xấp xỉ thứ ba 43 DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số 11 Bảng 2.1 Hệ Thống Thông Tin 22 Bảng 2.2 Ví dụ bảng định 23 Bảng 2.3 Ví dụ cho bảng thơng tin .29 Bảng 2.4 Ma trận phân biệt biểu diễn sau: 30 Bảng 3.1 Mô tả bảng liệu MSNBC .33 Bảng 3.2 Kết thực nghiệm với 𝜹 = 0.8 𝝈 = 44 MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng công nghệ tri thức, ứng dụng rộng rãi đa dạng ngành khoa học sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tượng có độ tương đồng cao vào cụm, đối tượng thuộc cụm khác có độ tương đồng thấp so với đối tượng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phương pháp giải khác như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lưới Thông thường, thơng tin giới xung quanh khơng xác, không đầy đủ, không chắn chồng chéo Đó vấn đề gặp phải phân cụm liệu Phân cụm chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tượng phân thành cụm khác nhau, đối tượng thuộc xác cụm, ngược lại phân cụm mềm đối tượng thuộc nhiều cụm đối tượng có độ thuộc với cụm Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thơ phát triển tảng tốn học vững chắc, cung cấp cơng cụ hữu ích để giải tốn phân tích liệu, phát luật, nhận dạng… Đặc biệt thích hợp với tốn phân tích khối lượng liệu lớn, chứa đựng thông tin mơ hồ, không chắn Mục đích phân tích liệu dựa lý thuyết tập thô nhằm đưa xấp xỉ để biểu diễn đối tượng phân lớp cách chắn tri thức có sẵn Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc, xấp xỉ chứa tất đối tượng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thơ thuật tốn phân cụm thô đề xuất áp dụng phân cụm liệu Cấu trúc luận văn chia làm ba chương sau: Chương 1: Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phương pháp phân cụm Chương 2: Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô bao gồm hệ thơng tin, bảng định, tính khơng phân biệt xấp xỉ tập hợp Chương 3:Áp dụng thuật toán phân cụm thơ vào tốn phân cụm người dùng Web Dựa lý thuyết tập thô áp dụng thuật tốn phân cụm thơ phân cụm người dùng Web( chuyển hướng Web người dùng) CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, cácmẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấpthơng tin, tri thức hữu ích cho việc định Phân cụm nhìn từ góc độ tự nhiên việc bình thường mà làm thực hàng ngày Ví dụ phân loại học sinh lớp; phân loại đất đai; phân loại tài sản; phân loại sách thư viện;… Cụm liệu tập hợp đối tượng có tính chất tương tự mức độ tập liệu Ở mức nhất, người ta đưa định nghĩa phân cụm liệu (PCDL) sau:[3] “Phân cụm liệu kỹ thuật khai phá liệu (Data mining), nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định.” Quá trình PCDL trình phân chia tập liệu ban đầu thành cụm liệu phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định theo phương pháp phân cụm Hình 1.1 Mơ vấn đề phân cụm liệu

Ngày đăng: 30/03/2023, 19:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w