1. Trang chủ
  2. » Thể loại khác

Phân cụm thô của dữ liệu tuần tự

54 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 1,18 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HàNội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội - 2016 LỜI CẢM ƠN Trƣớc hết, xin gửi lời biết ơn sâu sắc đến ngƣời thầy PGS TS Hoàng Xuân Huấn dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hƣớng nghiên cứu lĩnh vực thiết thực, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin đƣợc bày tỏ lịng biết ơn tới thầy trƣờng Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân tơi nói riêng Tơi xin cảm ơn tất Anh, Chị bạn chia sẻ, giúp đỡ, trao đổi, góp ý q trình học tập Tôi xin gửi lời biết ơn tới bố mẹ, gia đình ngƣời thân tạo điều kiện tốt để hội lựa chọn đƣờng Một lần nữa, tơi xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu tơi khơng chép Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn MỤC LỤC MỞ ĐẦU CHƢƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tƣơng tự 1.4.1 Cấu trúc liệu 1.4.2 Các kiểu liệu 1.4.3 Độ đo tương tự 11 1.5 Các phƣơng pháp thuật toán phân cụm liệu 13 1.5.1 Phương pháp phân cấp 14 1.5.2 Phương pháp phân hoạch 16 1.5.3 Phương pháp dựa mật độ 17 1.5.4 Phương pháp dựa lưới 19 Chƣơng II LÝ THUYẾT TẬP THÔ 21 2.1 Giới Thiệu 21 2.2 Các khái niệm 22 2.2.1 Hệ thống thông tin 22 2.2.2 Bảng định (Decision Table) 23 2.2.3 Quan hệ không phân biệt 24 2.2.4 Các khái niệm xấp xỉ tập thô 25 2.3 Rút gọn thuộc tính hệ thống thơng tin 27 2.4 Ma trận phân biệt hàm phân biệt 29 2.5 Hàm Thành Viên Thô 30 Chƣơng III ÁP DỤNG THUẬT TỐN PHÂN CỤM THƠ VÀO BÀI TỐNPHÂN CỤM NGƢỜI DÙNG TRÊN WEB 32 3.1 Giới Thiệu 32 3.2 Bài Toán 33 3.3 Dữ liệu 34 3.4 Độ đo tƣơng tự 34 3.5 Thuật tốn phân cụm thơ 36 3.6 Kết thử nghiệm với = 0.8 = 44 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 45 TÀI LIỆU THAM KHẢO 46 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở liệu DBSCAN Density – Based Spatial Clustering of Applications with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm liệu RelSim Relative similarity S3M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatistical Information Grid approach DANH MỤC HÌNH VẼ Hình 1.1 Mơ vấn đề phân cụm liệu Hình 1.2 Các bƣớc trình phân cụm liệu Hình 1.3 Tiêu chuẩn phân cụm Hình 1.4 Phân loại kiểu liệu dựa kích thƣớc miền Hình 1.5 Phân loại kiểu liệu dựa hệ đo 10 Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phƣơng pháp “dƣới lên” 15 Hình 1.7 Hai cụm đƣợc tìm thuật tốn DBSCAN 19 Hình 1.8 Hai cụm liệu tìm đƣợc nhờ DBSCAN 19 Hình 1.9 Ba tầng liên tiếp cấu trúc STING 20 Hình 2.1 Mơ tả tập xấp xỉ miền 26 Hình 3.1 Ví dụ liệu chuyển hƣớng Web 39 Hình 3.2 Ma trận tƣơng tự cách sử dụng số liệu đề xuất với p = 0,5 40 Hình 3.3 Kết ̅ i) 40 Hình 3.4 Tập xấp xỉ hạn chế-tƣơng tự 41 Hình 3.5 Họ cụm cuối đƣợc đƣa 42 Hình 3.6 Kết xấp xỉ 42 Hình 3.7 Kết xấp xỉ thứ hai 43 Hình 3.8 Kết xấp xỉ thứ ba 43 DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số 11 Bảng 2.1 Hệ Thống Thông Tin 22 Bảng 2.2 Ví dụ bảng định 23 Bảng 2.3 Ví dụ cho bảng thơng tin 29 Bảng 2.4 Ma trận phân biệt đƣợc biểu diễn nhƣ sau: 30 Bảng 3.1 Mô tả bảng liệu MSNBC 33 Bảng 3.2 Kết thực nghiệm với = 0.8 = 44 MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng cơng nghệ tri thức, đƣợc ứng dụng rộng rãi đa dạng ngành khoa học nhƣ sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tƣợng có độ tƣơng đồng cao vào cụm, đối tƣợng thuộc cụm khác có độ tƣơng đồng thấp so với đối tƣợng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phƣơng pháp giải khác nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lƣới Thông thƣờng, thông tin giới xung quanh khơng xác, khơng đầy đủ, khơng chắn chồng chéo Đó vấn đề gặp phải phân cụm liệu Phân cụm đƣợc chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tƣợng đƣợc phân thành cụm khác nhau, đối tƣợng thuộc xác cụm, ngƣợc lại phân cụm mềm đối tƣợng thuộc nhiều cụm đối tƣợng có độ thuộc với cụm Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đƣợc ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thơ đƣợc phát triển tảng toán học vững chắc, cung cấp cơng cụ hữu ích để giải tốn phân tích liệu, phát luật, nhận dạng… Đặc biệt thích hợp với tốn phân tích khối lƣợng liệu lớn, chứa đựng thông tin mơ hồ, khơng chắn Mục đích phân tích liệu dựa lý thuyết tập thơ nhằm đƣa xấp xỉ để biểu diễn đối tƣợng đƣợc phân lớp cách chắn tri thức có sẵn Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ dƣới xấp xỉ Xấp xỉ dƣới bao gồm đối tƣợng chắn thuộc, xấp xỉ chứa tất đối tƣợng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thơ thuật tốn phân cụm thơ đƣợc đề xuất [2] áp dụng phân cụm liệu Cấu trúc luận văn đƣợc chia làm ba chƣơng nhƣ sau: Chương 1: Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phƣơng pháp phân cụm Chương 2: Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính khơng phân biệt đƣợc xấp xỉ tập hợp Chương 3:Áp dụng thuật tốn phân cụm thơ vào toán phân cụm ngƣời dùng Web Dựa lý thuyết tập thơ áp dụng thuật tốn phân cụm thô phân cụm ngƣời dùng Web( chuyển hƣớng Web ngƣời dùng) 32 Chƣơng III ÁP DỤNG THUẬT TỐN PHÂN CỤM THƠ VÀO BÀI TỐNPHÂN CỤM NGƢỜI DÙNG TRÊN WEB 3.1 Giới Thiệu Phân cụm bƣớc khởi đầu phân tích liệu Phân cụm đƣợc nghiên cứu lĩnh vực học máy nhận dạng mẫu đóng vai trị quan trọng ứng dụng khai thác liệu nhƣ thăm dị liệu khoa học, thơng tin khai thác văn Nó đóng vai trị quan trọng ứng dụng sở liệu khơng gian, phân tích web, quản lý quan hệ khách hàng, tiếp thị, Sinh học, điện toán nhiều lĩnh vực khác có liên quan Các thuật tốn Phân cụm đƣợc phân loại sử dụng nguyên tắc phân loại khác dựa vấn đề quan trọng nhƣ cấu trúc thuật tốn, chất cụm hình thành, sử dụng tính năng, Nói chung, thuật tốn phân nhóm đƣợc chia thành hai loại – Partitional(phân vùng) phân cấp Các thuật toán Partitional xây dựng phân vùng sở liệu đối tƣợng vào tập hợp cụm , với tham số đầu vào cho thuật toán Để thiết lập giá trị , số kiến thức miền đƣợc yêu cầu mà không may khơng có sẵn cho nhiều ứng dụng Các nhóm đƣợc liên tục kết hợp dựa độ đo khoảng cách, có nhóm cịn lại kết thúc Trong phân chia phân nhóm theo cấp bậc, bắt đầu với việc tất liệu cụm lớn chia chúng thành cụm nhỏ dựa độ đo khoảng cách Một cụm thô đƣợc định nghĩa cách tƣơng tự nhƣ tập thô Xấp xỉ dƣới cụm thô chứa đối tƣợng mà thuộc nhóm Xấp xỉ cụm thơ chứa đối tƣợng nhóm thành viên Các cụm khác Lợi việc sử dụng thô không giống nhƣ kỹ thuật khác, lý thuyết tập thô không yêu cầu thông tin trƣớc liệu nhƣ khả thống kê chức thành viên lý thuyết tập mờ 33 Trong chƣơng này, tơi trình bày thuật tốn phân cụm phân cấp sử dụng xấp xỉ dựa lý thuyết tập thô Kết phƣơng pháp trả cụm thơ đối tƣợng thành viên nhiều cụm.[7] 3.2 Bài Toán Áp dụng thuật tốn phân cụm thơ vào phân cụm ngƣời dùng web(chuyển hƣớng ngƣời dùng web) Với ngƣời dùng cho ta đối tƣợng liệu bao gồm tập hợp thứ tự lần duyệt web ngƣời dùng Trong luận văn trích trọn n trình tự(n đối tƣợng ngƣời dùng) ngẫu nhiên từ liệu đƣợc mô tả bảng 3.1[7] với lần lƣợt : 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000 Kết thực nghiệm đƣợc trình bày phần 3.6 Bảng 3.1 Mô tả bảng liệu MSNBC Tổng số liệu Số ngƣời sử dụng 989.818 Số lần thăm tối thiểu Số lần thăm tối đa 500 Số lƣợng thăm trung bình ngƣời 5,7 lần dùng Dữ liệu từ kho lƣu trữ liệu UCI [http://kdd.ics.uci.edu/] Internet Information Server (IIS) bao gồm ghi cho msnbc.com tin tức liên quan đến phần msn.com Mỗi chuỗi liệu tƣơng ứng với lƣợt xem ngƣời dùng khoảng thời hai mƣơi bốn Mỗi kiện chuỗi tƣơng ứng với yêu cầu ngƣời sử dụng cho trang Yêu cầu không đƣợc ghi lại mức độ tốt chi tiết nhƣng cấp độ loại trang đƣợc xác định ngƣời quản trị trang web Đây 17 trang cụ thể: „frontpage‟, „news‟, „tech‟, „local‟, „opinion‟, „on-air‟, „misc‟, „weather‟, „health‟, „living‟, „business‟, „sports‟, „summary‟, „bbs‟ (bulletin board service), „travel‟, „msn-news‟ and „msn-sports‟ Bảng 3.1 cho thấy đặc tính liệu Mỗi loại trang đƣợc đại diện số nguyên nhãn Ví dụ, „frontpage‟ đƣợc mã hố 1, „news‟ 2, „tech‟ nhƣ 3, vv Mỗi hàng mô tả số truy cập ngƣời dùng 34 3.3 Dữ liệu Phân nhóm đáng tin cậy phiên ngƣời dùng web đạt đƣợc hai nội dung nhƣ thứ tự lƣợt ghé thăm trang đƣợc xem xét Bằng cách này, hai chuyến thăm trang ngƣời sử dụng thực tế nhƣ sở thích yêu cầu ngƣời sử dụng đƣợc nắm bắt Hầu hết phƣơng pháp tiếp cận khai thác web không sử dụng tính chất phiên ngƣời dùng Thƣờng đƣợc mơ hình hóa phiên chiều khơng gian vector trang web Các n - không gian vector đƣợc nhị phân, cho biết trang web cụ thể đƣợc truy cập hay không phiên Các vector mang theo thơng tin liên quan đến việc đếm tần số lƣợt ghé thăm trang web phiên Vì vậy, tùy thuộc vào chất giá trị liên kết với khơng gian n, phân tích hạn chế ngƣời dùng đƣợc thực Nói chung, thuật tốn phân nhóm sử dụng hai hàm khoảng cách hay chức tƣơng tự để so sánh cặp trình tự Nhiều ngƣời số số liệu cho trình tự khơng hồn tồn đủ điều kiện nhƣ số liệu nhiều lý Trong phần sau, giới thiệu ngắn gọn độ đo tƣơng tự [7] Độ đo xem xét thiết lập nhƣ trình tƣơng tự hai chuỗi Trong chƣơng trình bày kỹ thuật phân nhóm cho trình tự sử dụng khái niệm hạn chế - tƣơng tự xấp xỉ Ý tƣởng tìm tập hợp tính mà nắm bắt đƣợc thông tin chuỗi liệu nhƣ nội dung thơng tin Những tính đƣợc dự báo vào không gian xấp xỉ Hạn chế - tƣơng tự kỹ thuật xấp xỉ đƣợc áp dụng để có đƣợc xấp xỉ cụm thơ yếu tố thuộc nhiều cụm 3.4 Độ đo tƣơng tự trình tự ( )[7] Một chuỗi đƣợc tạo thành từ tập hợp mục xảy thời gian hay xảy khác, là, vị trí nhƣng khơng thiết phải liên quan với thời gian Có thể nói chuỗi tập có thứ tự tập tin Thông thƣờng, chuỗi đƣợc ký hiệu S= (a1,a2, ,an), với a1,a2, ,an tập hợp mục đặt chuỗi S Chiều dài chuỗi đƣợc định nghĩa số lƣợng tập mục có trình tự, ký hiệu |S| Để tìm mẫu trình tự, cần thiết để khơng nhìn vào mục có trình tự mà cịn thứ tự xuất chúng Một biện pháp 35 mới, đƣợc gọi trình tự thiết lập độ đo tƣơng tự ( ) đƣợc giới thiệu cho lĩnh vực an ninh mạng Độ đo bao gồm hai phần: Một định lƣợng thành phần chuỗi (bộ tƣơng tự) định lƣợng tính chất Trình tự giống định lƣợng số lƣợng tƣơng tự theo thứ tự xuất tập mục hai chuỗi Chiều dài dãy chung dài (LLCS) chiều dài chuỗi dài với định khía cạnh tƣơng tự hai chuỗi Ví dụ, với hai chuỗi , tƣơng tự đƣợc đo nhƣ sau: = | || | Bộ tƣơng tự (độ đo tƣơng tự Jaccard) đƣợc định nghĩa tỷ lệ với số tập mục phổ biến số lƣợng tập mục chung hai chuỗi Nhƣ vậy, cho hai chuỗi , tập tƣơng tự đƣợc đo nhƣ sau: | =| | | Xem xét hai trình tự , = (a, b, c, d) = (d, c, b, a) Bây giờ, bi độ đo tập tƣơng tự cho hai trình tự 1, thành phần chúng nhƣ Nhƣng thấy chúng không tất tƣơng tự xem xét thứ tự xuất tập mục Khía cạnh đƣợc xác thành phần trình tự giống Nơi thành phần tƣơng tự 0,25 cho trình tự theo dõi vị trí xuất tập mục trình tự Cho hai trình tự, = (a, b, c, d) = (b, a, k, c, t, p, d), sau chuẩn hóa, thành phần trình tự tƣơng đồng lƣợt đƣợc 0,43 Sự tƣơng tự thiết lập cho hai trình tự 0,57 Hai ví dụ minh họa cho cần thiết phải kết hợp tƣơng đồng trình tự thành phần tƣơng đồng vào chức Do đó, hai trình tự biện pháp cho đƣợc cho bởi: = p* | | || | + q*| | | Với p , xác định trọng lƣợng tƣơng đối đƣợc đƣa cho trật tự xảy ( trình tự tƣơng đồng) nội dung (tập tƣơng tự), tƣơng ứng Trong ứng dụng thực tế, định thơng số Các LLCS hai chuỗi đƣợc tìm thấy cách tiếp cận động lập trình Ở đây, xác định trọng lƣợng tƣơng đối đƣợc đƣa cho trật tự 36 xảy (tƣơng tự) nội dung (thiết lập tƣơng tự), tƣơng ứng Trong ứng dụng thực tế, ngƣời sử dụng định thông số này[7] tập hợp chuỗi hữu hạn đƣợc tạo từ tập hợp biểu tƣợng, ∑ Cho R tập số thực sau ( i, j): x đƣợc gọi số tƣơng đồng trình tự i, j có đủ đặc tính sau đây: (1) Non negativity( khơng âm): (2) Symmetry(tính đối xứng): ( i, j) với (si, sj) = (3) Normalization(tiêu chuẩn hóa): ( ( i, j) i, j j, i) với với i, j i, j 3.5 Thuật tốn phân cụm thơ Trong nhiều ứng dụng khai thác liệu, thuộc tính lớp hầu hết đối tƣợng không khác biệt nhƣng không rõ ràng Mơ hồ liệu thu hút nhà toán học, triết học, lý luận học gần nhà khoa học máy tính Lý thuyết tập thô phƣơng pháp để giải mơ hồ Khái niệm cốt lõi lý thuyết tập thơ mối quan hệ khơng phân biệt đƣợc có tính chất phản xạ, đối xứng bắc cầu Tính khơng phân biệt đƣợc phân vùng khơng gian vào lớp tƣơng đƣơng, tạo thành hạt Cho mối quan hệ mối quan hệ dung sai U, 1, phản xạ, có nghĩa 2, đối xứng, nghĩa cho cặp , , Định nghĩa xấp xỉ dƣới tập dễ dàng xây dựng sử dụng lớp khoan dung Để làm điều này, thay lớp dung sai cho lớp indiscernibility định nghĩa xấp xỉ dƣới Nhƣ vậy, xấp xỉ dung sai tập hợp đƣợc vũ trụ đƣợc định nghĩa nhƣ định nghĩa nhƣ sau: Định nghĩa 1[7]: mối quan hệ dung sai nhị phân R đƣợc xác định Cho Xấp xỉ dƣới , ký hiệu đƣợc quy định nhƣ sau: ={ , R( ) xấp xỉ , ký hiệu } tƣơng ứng 37 =⋃ Đề xuất thuật tốn phân sử dụng tập thơ cho phân nhóm giao dịch sử dụng web Cho i giao dịch ngƣời dùng bao gồm chuỗi lƣợt ghé thăm trang web Đối với phân nhóm giao dịch sử dụng, ban đầu giao dịch đƣợc thực nhƣ cụm Để cho cụm thứ i i ràng, , tập i tập hợp Xấp xỉ i, ký hiệu = { i} Rõ hợp giao dịch tƣơng tự nhƣ i, là, sử dụng truy cập trang web xi truy cập trang web khác có mặt giao dịch thuộc Đối với giá trị ngƣỡng không âm hai đối tƣợng , mối quan hệ nhị phân U đƣợc kí hiệu định sai Mối quan đƣợc xác quan hệ dung có phản xạ đối xứng nhƣng khơng bắc cầu Xấp xỉ có tập hợp đối tƣợng giống tiên đối tƣợng i Vì vậy, xấp xỉ đầu đƣợc định nghĩa nhƣ sau: i Định nghĩa [7]: Đối với giá trị ngƣỡng không âm cho n}, ={ 1, 2, …, xấp xỉ là: { i}) = { j| ( i, j) } Một số tập từ xấp xỉ chia sẻ yếu tố (cịn gọi phần tử ranh giới) Các yếu tố ranh giới hƣớng đến q trình phân nhóm Các yếu tố đƣợc chia sẻ, đƣợc tạo sau xấp xỉ đầu, thành viên tiềm tập hình thành xấp xỉ thứ hai cao Điều đƣợc định cách tính tốn cƣờng độ yếu tố chia sẻ cho tất cụm thuộc Điều đƣợc đo cách sử dụng tham số đƣợc gọi giống tƣơng đối Giá trị thứ hai giống xấp xỉ cao đƣợc tính tốn điều kiện tƣơng tự tƣơng đối Đối với hai giao giống tƣơng đối ( i, j) = với đƣợc cho : | | | | Khi Sự 38 Bây xác định đƣợc đề xuất hạn chế tƣơng tự -xấp xỉ định nghĩa sau đây: Định nghĩa 3.[7] Cho âm cố định ({ i}) = { = { 1, 2, n}, Cho giá trị không (0, 1], hạn chế tƣơng tự-xấp xỉ xi đƣợc cho bởi: j ⋃ | i, j) Nói cách khác, tất trình tự yếu tố …, i) j j) thuộc giống xấp xỉ tƣơng đối tƣơng tự nhƣ giống xấp xỉ } Khi ( i) i bị hạn chế (hoặc sáp nhập) vào i Lặp lại trình tính tốn hạn chế tƣơng tự-xấp xỉ tiếp cho hai hạn chế tƣơng tự-xấp xỉ liên tiếp nhƣ cũ Ở đây, tham số ngƣời dùng định nghĩa đƣợc gọi tƣơng tự tƣơng đối, đƣợc sử dụng để hợp hai lần xấp xỉ cho hình thành thứ hai cao xấp xỉ ngƣời dùng xác định ngƣỡng tham số sử dụng để xác định giống hai đối tƣợng đƣợc sử dụng để tìm xấp xỉ Các hạn chế tƣơng tự-xấp xỉ đƣợc tính cho tất giao dịch Thuật toán đầy đủ cho tính tốn tập thơ dựa phân nhóm đƣợc đƣa thuật tốn Khơng giống nhƣ thuật toán truyền thống khác, cách tiếp cận nhiều hai giao dịch kết hợp để tạo thành cụm Ngồi ra, số lƣợng tính toán xấp xỉ cho tƣơng tự nhƣ giảm số lần lặp lại tăng lên Vì vậy, phân nhóm thơ đề xuất hội tụ nhanh Thuật tốn Phân cụm dựa tập thơ Input: : Một tập hợp Threshold(ngƣỡng) Tƣơng tự tƣơng đối Output: Số cụm trình tự 39 Begin Step 1: Xây dựng ma trận tƣơng tự sử dụng độ đo Step 2: Đối với = ⋃ i i, Step 3: Cho , Tính Si= i i) sử dụng định nghĩa cho cho ngƣỡng = Step 4: Với i Tính ràng buộc tƣơng tự-xấp xỉ S‟ sử dụng định nghĩa cho tƣơng đối if i = i‟ i‟ { i} endif Step 5: Lặp lại bƣớc đến Step 6: Trả End - Độ phức tạp thuật toán: 2 | | Ví dụ: Ta có 10 ngƣời dùng với ngƣời dùng trình tự chuyển hƣớng web đƣợc cho hình sau: Hình 3.1 Ví dụ liệu chuyển hƣớng Web 40 Hình 3.2 Ma trận tƣơng tự cách sử dụng số liệu đề xuất với p = 0,5 Xét 10 chuỗi liệu nhƣ hình.3.1 Bảng tƣơng tự đƣợc tính tốn cách sử dụng ma trận tƣơng tự ngƣỡng giá trị với = 0,5 (Hình 3.2) Sự giống xấp xỉ = 0.2 đƣợc cho i) với i = 1, 2, …,10 nhƣ dƣới đây: Hình 3.3 Kết i) Trong bƣớc đầu tiên, giống xấp xỉ thứ hai xấp xỉ đƣợc cho 1) = { 1, 3, 5, 6, 8} Bây giờ, hạn chế tƣơng tự-xấp xỉ đƣợc áp dụng sử dụng Định nghĩa với = Có thể thấy có yếu tố 1, đủ điều kiện để đƣợc ( 1) Ví dụ, xem xét yếu tố 3, 1) 3) = { 6} { 1, 5} Nhƣ vậy, giống quan hệ cực là: ( i, j) = | | | | = 1) khơng sáp nhập vào 3) = 1) 41 Nhƣ vậy, Tập xấp xỉ hạn chế-tƣơng tự đƣợc đƣa hình sau: Hình 3.4 Tập xấp xỉ hạn chế-tƣơng tự Trong tập tập đƣợc in đậm xấp xỉ liên tiếp giống Ví dụ: ( 1) = 1) = { 1, 5, 6} Nhƣ vậy, giống xấp xỉ thứ ba đƣợc tính cho yếu tố có tƣơng tự liên tiếp xấp xỉ không giống Nhƣ vậy, T6 cần đƣợc xem xét cho giống xấp xỉ thứ ba 6) = { 3, 6, 8} 42 Do khơng có thay đổi hạn chế-tƣơng xấp xỉ cho tất yếu tố,thuật toán hội tụ Họ cụm cuối đƣợc đƣa hình sau: Hình 3.5 Họ cụm cuối đƣợc đƣa Kết thử nghiệm với ví dụ trên: Hình 3.6 Kết xấp xỉ 43 Hình 3.7 Kết xấp xỉ thứ hai Hình 3.8 Kết xấp xỉ thứ ba 44 3.6 Kết thử nghiệm với = 0.8 = Với trích trọn số lƣợng mẫu n ngẫu nhiên từ liệu đƣợc mô tả bảng 3.1 thu đƣợc kết bảng sau Bảng 3.2 Kết thực nghiệm với = 0.8 = Số lƣợng mẫu(n) Kết số cụm trả sau hạn chế xấp xỉ 100 38 Cụm 200 80 Cụm 300 120 Cụm 400 149 Cụm 500 174 Cụm 1000 287 Cụm 2000 467 Cụm 3000 653 Cụm 4000 824 Cụm 5000 965 Cụm 45 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết Luận Lý thuyết tập thô, ban đầu đƣợc đề xuất Pawlak vào năm 1982, thu hút đƣợc nhiều nhà nghiên cứu từ miền khác dẫn đến ứng dụng thành công lĩnh vực khác toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tƣơng tự đối tƣợng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu dựa lý thuyết tập thô lĩnh vực nghiên cứu rộng lớn đầy triển vọng Chính vậy, với đề tài “Phân cụm thô liệu tuần tự”, luận văn tập trung tìm hiểu, nghiên cứu đạt đƣợc số kết sau đây: Tìm hiểu tổng quan phân cụm liệu, giới thiệu số khái niệm liên quan phân cụm liệu Tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính khơng phân biệt đƣợc xấp xỉ tập hợp Dựa thuyết tập thô thuật tốn phân cụm thơ áp dụng vào tốn phân cụm ngƣời dùng web (chuyển hƣớng ngƣời dùng web) Mặc dù cố gắng nỗ lực hết mình, nhƣng thời gian nghiên cứu trình độ thân có hạn nên luận văn khơng thể tránh khỏi thiếu sót hạn chế, tơi mong nhận đƣợc ý kiến đóng góp để luận văn đạt đƣợc kết tốt Hƣớng Phát Triển Trong thời gian tới, tơi cố gắng tìm hiểu nhiều phƣơng pháp phân cụm liệu, đặc biệt phƣơng pháp phân cụm dựa lý thuyết tập thô cố gắng mở rộng ứng dụng thuật tốn phân cụm thơ vào nhiều tốn thực tế Xây dựng cải tiến thuật toán phân cụm thơ áp dụng vào tốn với liệu lớn hay mang tính thực tiễn nhƣ cảnh báo tắc đƣờng… 46 TÀI LIỆU THAM KHẢO Tiếng việt [1] Đỗ Mai Hƣờng (2007),Một số vấn đề liên quan đến lý thuyết tập thô Luận văn thạc sĩ [2] Hoàng Văn Dũng (2007),Khai phá liệu web kỹ thuật phân cụm Luận văn thạc sĩ [3] Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu Luận văn thạc sĩ [4] Phạm Văn Long (2012), Khai phá liệu theo tiếp cận tập thô định - ứng dụng phân lớp khiếu học sinh Luận văn thạc sĩ Tiếng anh [5] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [6] Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques - Second Edition, Hacours Science and Technology Company, USA [7] Pradeep Kumar, P Radha Krishna,, Raju S Bapi, Supriya Kumar De(2007): Rough clustering of sequential data [8] Ivo Düntsch & Günther Gediga (2000), Rough set data analysis: A road to noninvasive knowledge discovery [9] Zdzislaw Pawlak (1991), ROUGH SETS Theoretical Aspects of Reasoning about Data, Institute of Computer Science, Warsaw University of Technology Một số trang web [10] http://documents.tips/documents/ly-thuyet-tap-tho-va-cac-khai-niem.html [11] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf

Ngày đăng: 23/09/2020, 21:24

w