1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm thô của dữ liệu tuần tự

67 89 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,83 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội, năm 2016 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến người thầy PGS TS Hoàng Xuân Huấn dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp tơi hồn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tơi xin bày tỏ lòng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tơi xin cảm ơn tất Anh, Chị bạn chia sẻ, giúp đỡ, trao đổi, góp ý q trình học tập Tơi xin gửi lời biết ơn tới bố mẹ, gia đình người thân tạo điều kiện tốt để tơi hội lựa chọn đường Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tơi xin cam đoan cơng trình nghiên cứu không chép Hà Nội, tháng 11 năm 2016 Học viên Vi Văn Sơn MỤC LỤC MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tương tự 1.4.1 Cấu trúc liệu 1.4.2 Các kiểu liệu 1.4.3 Độ đo tương tự 11 1.5 Các phương pháp thuật toán phân cụm liệu 13 1.5.1 Phương pháp phân cấp 14 1.5.2 Phương pháp phân hoạch 16 1.5.3 Phương pháp dựa mật độ 17 1.5.4 Phương pháp dựa lưới 19 Chương II LÝ THUYẾT TẬP THÔ 21 2.1 Giới Thiệu 21 2.2 Các khái niệm 22 2.2.1 Hệ thống thông tin 22 2.2.2 Bảng định (Decision Table) 23 2.2.3 Quan hệ không phân biệt 24 2.2.4 Các khái niệm xấp xỉ tập thô 25 2.3 Rút gọn thuộc tính hệ thống thơng tin 27 2.4 Ma trận phân biệt hàm phân biệt 29 2.5 Hàm Thành Viên Thô 30 Chương III ÁP DỤNG THUẬT TOÁN PHÂN CỤM THƠ VÀO BÀI TỐNPHÂN CỤM NGƯỜI DÙNG TRÊN WEB 32 3.1 Giới Thiệu 32 3.2 Bài Toán 33 3.3 Dữ liệu 34 3.4 Độ đo tương tự 34 3.5 Thuật tốn phân cụm thơ 36 3.6 Kết thử nghiệm với � = 0.8 � = 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 TÀI LIỆU THAM KHẢO 46 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở liệu DBSCAN Density – Based Spatal Clustering of Applicatons with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm liệu RelSim Relatve similarity S3 M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatstcal Information Grid approach DANH MỤC HÌNH VẼ Hình 1.1 Mơ vấn đề phân cụm liệu Hình 1.2 Các bước trình phân cụm liệu Hình 1.3 Tiêu chuẩn phân cụm Hình 1.4 Phân loại kiểu liệu dựa kích thước miền Hình 1.5 Phân loại kiểu liệu dựa hệ đo 10 Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 15 Hình 1.7 Hai cụm tìm thuật tốn DBSCAN 19 Hình 1.8 Hai cụm liệu tìm nhờ DBSCAN 19 Hình 1.9 Ba tầng liên tiếp cấu trúc STING 20 Hình 2.1 Mơ tả tập xấp xỉ miền 26 Hình 3.1 Ví dụ liệu chuyển hướng Web 39 Hình 3.2 Ma trận tương tự cách sử dụng số liệu đề xuất với p = 0,5 40 ̅ Hình 3.3 Kết � (�i) 40 Hình 3.4 Tập xấp xỉ hạn chế-tương tự 41 Hình 3.5 Họ cụm cuối đưa 42 Hình 3.6 Kết xấp xỉ 42 Hình 3.7 Kết xấp xỉ thứ hai 43 Hình 3.8 Kết xấp xỉ thứ ba 43 DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số 11 Bảng 2.1 Hệ Thống Thông Tin 22 Bảng 2.2 Ví dụ bảng định 23 Bảng 2.3 Ví dụ cho bảng thơng tin 29 Bảng 2.4 Ma trận phân biệt biểu diễn sau: 30 Bảng 3.1 Mô tả bảng liệu MSNBC 33 Bảng 3.2 Kết thực nghiệm với � = 0.8 � = 44 MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng cơng nghệ tri thức, ứng dụng rộng rãi đa dạng ngành khoa học sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tượng có độ tương đồng cao vào cụm, đối tượng thuộc cụm khác có độ tương đồng thấp so với đối tượng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phương pháp giải khác như: Phân cụm dựa vào hàm mục têu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lưới Thông thường, thông tn giới xung quanh khơng xác, khơng đầy đủ, khơng chắn chồng chéo Đó vấn đề gặp phải phân cụm liệu Phân cụm chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tượng phân thành cụm khác nhau, đối tượng thuộc xác cụm, ngược lại phân cụm mềm đối tượng thuộc nhiều cụm đối tượng có độ thuộc với cụm Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thơ phát triển tảng toán học vững chắc, cung cấp cơng cụ hữu ích để giải tốn phân tích liệu, phát luật, nhận dạng… Đặc biệt thích hợp với tốn phân tích khối lượng liệu lớn, chứa đựng thơng tin mơ hồ, khơng chắn Mục đích phân tích liệu dựa lý thuyết tập thơ nhằm đưa xấp xỉ để biểu diễn đối tượng phân lớp cách chắn tri thức có sẵn Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc, xấp xỉ chứa tất đối tượng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thơ thuật tốn phân cụm thơ đề xuất áp dụng phân cụm liệu Cấu trúc luận văn chia làm ba chương sau: Chương 1: Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phương pháp phân cụm Chương 2: Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô bao gồm hệ thông tn, bảng định, tính khơng phân biệt xấp xỉ tập hợp Chương 3:Áp dụng thuật tốn phân cụm thơ vào toán phân cụm người dùng Web Dựa lý thuyết tập thơ áp dụng thuật tốn phân cụm thô phân cụm người dùng Web( chuyển hướng Web người dùng) Chiều dài chuỗi định nghĩa số lượng tập mục có trình tự, ký hiệu |S| Để tìm mẫu trình tự, cần thiết để khơng nhìn vào mục có trình tự mà thứ tự xuất chúng Một biện pháp mới, gọi trình tự thiết lập độ đo tương tự (�3�) giới thiệu cho lĩnh vực an ninh mạng Độ đo �3� bao gồm hai phần: Một định lượng thành phần chuỗi (bộ tương tự) định lượng tính chất Trình tự giống định lượng số lượng tương tự theo thứ tự xuất tập mục hai chuỗi Chiều dài dãy chung dài (LLCS) chiều dài chuỗi dài với định khía cạnh tương tự hai chuỗi Ví dụ, với hai chuỗi � �, tương tự đo sau: ���� (� ,� ) ������(�, � ) max(|�|,| = �|) Bộ tương tự (độ đo tương tự Jaccard) định nghĩa tỷ lệ với số tập mục phổ biến số lượng tập mục chung hai chuỗi Như vậy, cho hai chuỗi � � , tập tương tự đo sau: )= �������(�, � |� | � ∩� | ∪�| Xem xét hai trình tự � �, � = (a, b, c, d) � = (d, c, b, a) Bây giờ, bi độ đo tập tương tự cho hai trình tự 1, thành phần chúng Nhưng thấy chúng khơng tất tương tự xem xét thứ tự xuất tập mục Khía cạnh xác thành phần trình tự giống Nơi thành phần tương tự 0,25 cho trình tự ���� theo dõi vị trí xuất tập mục trình tự Cho hai trình tự, � = (a, b, c, d) � = (b, a, k, c, t, p, d), ����(� , � ) sau chuẩn hóa, thành phần tự trình tự tương đồng lượt 0,43 Sự tương tự thiết lập cho hai trình 0,57 Hai ví dụ minh họa cho cần thiết phải kết hợp tương đồng trìnhhai tựtrình thành đồng vào chức Do đó, �3� biện pháp cho tự � phần � tương cho bởi: | � ∩� | ���� (� , � ) � �(�, � )= p* + q* max(|�|,|�|) |� ∪�| Với � + � = p, � ≥ 0, � � xác định trọng lượng tương đối đưa cho trật tự xảy ( trình tự tương đồng) nội dung (tập tương tự), tương ứng Trong ứng dụng thực tế, định thơng số Các LLCS hai chuỗi tìm thấy cách tiếp cận động lập trình Ở đây, � + � = �, � ≥ � � xác định trọng lượng tương đối đưa cho trật tự xảy (tương tự) nội dung (thiết lập tương tự), tương ứng Trong ứng dụng thực tế, người sử dụng định thơng số này[7] �tương ∑ tập chuỗi hạn từ tập hợp Cho Rgiữa làhợp tập số tự thực đó�����(� x � = sau � gọi biểu i, � j): � chỉtượng, số đồng trình �hữu �j ∈ cótạo đủ đặc tính đây: i, sau (1) Non negativity( không âm): ���� (�i, �j) ≥0 với ∀�i, �j ∈ � (2) Symmetry(tính đối xứng): ����(si, sj) = ����(�j, �i) ≥ với ∀�i, �j ∈ � (3) Normalization(têu chuẩn hóa): ����(�i, �j) ≤1 với ∀�i, �j ∈ � 3.5 Thuật tốn phân cụm thơ Trong nhiều ứng dụng khai thác liệu, thuộc tính lớp hầu hết đối tượng khơng khác biệt không rõ ràng Mơ hồ liệu thu hút nhà toán học, triết học, lý luận học gần nhà khoa học máy tính Lý thuyết tập thơ phương pháp để giải mơ hồ Khái niệm cốt lõi lý thuyết tập thô mối quan hệ không phân biệt có tính chất phản xạ, đối xứng bắc cầu Tính khơng phân biệt phân vùng không gian vào lớp tương đương, tạo thành hạt Cho � ⊆ � mối quan hệ � ⊆ � � � mối quan hệ dung sai U, 1, � phản xạ, có nghĩa � ∈ �, � � � 2, τ đối xứng, nghĩa cho cặp �, � ∈ �, � � � = � � � Định nghĩa xấp xỉ tập dễ dàng xây dựng sử dụng lớp khoan dung Để làm điều này, thay lớp dung sai cho lớp indiscernibility định nghĩa xấp xỉ Như vậy, xấp xỉ dung sai tập hợp � vũ trụ � định nghĩa định nghĩa sau: Định nghĩa 1[7]: Cho � ⊂ � và�, mộtkýmối hệ dung saixỉnhịtrên phân đượckýxác định � Xấp xỉđịnh hiệuquan �(�) xấp củaR �, hiệu �(�) tương ứng quy sau: � (�) = {� ∈ �, R(� ) ⊆ � } �(�) = ⋃�∈� �(�) Đề xuất thuật toán phân sử dụng tập thơ cho phân nhóm giao dịch sử dụng web Cho �i ∈ � giao dịch người dùng bao gồm chuỗi lượt ghé thăm trang web Đối với phân nhóm giao dịch sử dụng, ban đầu giao dịch thực cụm nhất.là,Để cho cụm thứcập ilàlà�(�), = {� Rõ � i trang ràng, � tập contự � � hiệu lài}.web icác i, kýtruy tập hợp giao dịchhợp tương sử dụng �Xấp i, đóxỉ xi truy cập trang web khác có mặt giao dịch thuộc � (�) Đối với giá trị ngưỡng không âm � ∈ (0, 1] hai đối tượng �, � ∈ �, mối quan hệ nhị phân � U kí hiệu � � � xác định � � � ���� (� , �) ≥ � Mối quan � quan hệ dung sai � có phản xạ đối xứng khơng bắc cầu Xấp xỉ � (� ) đầu tên có tập hợp đối tượng giống �i Vì vậy, xấp xỉ đầu tên đối tượng �i định nghĩa sau: Định nghĩa [7]: Đối với giá trị ngưỡng không âm cho � ∈ (0, 1] � = {�1, � 2, …, �n}, � ⊆ � xấp xỉ đầu tên là: �({� i}) = {� j|����(� i,� j) ≥ � } Một số tập từ xấp xỉ đầu tên chia sẻ yếu tố (còn gọi phần tử ranh giới) Các yếu tố ranh giới hướng đến q trình phân nhóm Các yếu tố chia sẻ, tạo sau xấp xỉ đầu, thành viên tềm tập hình thành xấp xỉ thứ hai cao Điều định cách tính tốn cường độ yếu tố chia sẻ cho tất cụm thuộc Điều đo cách sử dụng tham số gọi giống tương đối Giá trị thứ hai giống xấp xỉ cao tính tốn điều kiện tương tự tương đối Đối với hai giao �, � ∈ � Sự giống tương đối � � với cho : | �������(� i, � (�� )∩�(� � )| � j) = |�(��) −�(��)| Khi �(�) ⊈ �(�) Bây xác định đề xuất hạn chế tương tự -xấp xỉ định nghĩa sau đây: Địnhσnghĩa Chochế �tương = {� 1, tự-xấp � 2, …, xỉ �trên Chocho giá trị không n}, � âm cố định ∈ (0,3.[7] 1], hạn của⊆xi � bởi: ��({�i}) = { �j ∈ ⋃��∈�(��) �(��)|�������( �i,� j) ≥ σ } Khi �(� i) ⊈ �(� j) Nói cách khác, tất trình tự �j thuộc giống xấp xỉ yếu tố �(� i) tương đối tương tự �i bị hạn chế (hoặc sáp nhập) vào giống xấp xỉ � i Lặp lại q trình tính tốn hạn chế tương tự-xấp xỉ tếp cho  hai hạn chế tương tự-xấp xỉ liên tiếp cũ Ở đây, � tham số người dùng định nghĩa gọi tương tự tương đối, sử dụng để hợp hai lần xấp xỉ cho hình thành thứ hai cao xấp xỉ  người dùng xác định ngưỡng tham số sử dụng để xác định giống hai đối tượng sử dụng để tìm xấp xỉ đầu tên Các hạn chế tương tự-xấp xỉ tính cho tất giao dịch � Thuật toán đầy đủ cho tính tốn tập thơ dựa phân nhóm đưa thuật tốn Khơng giống thuật toán truyền thống khác, cách tiếp cận nhiều hai giao dịch kết hợp để tạo thành cụm Ngồi ra, số lượng tính toán xấp xỉ cho tương tự giảm số lần lặp lại tăng lên Vì vậy, phân nhóm thơ đề xuất hội tụ nhanh Thuật tốn Phân cụm dựa tập thơ Input: �: Mộttự tập hợp trình tự ∈ � Threshold(ngưỡng) ∈1] (0, 1] Tương tương đối �  ∈� (0, Output: Số cụm� Begin Step 1: Xây dựng ma trận tương tự sử dụng độ đo �3� Step 2: Đối với �i ∈ �, Tính Si= �(� i) sử dụng định nghĩa cho cho ngưỡng � Step 3: Cho �� = ⋃i�i, � = ∅ Step 4: Với �i∈ �� Tính ràng buộc tương tự-xấp xỉ S’ sử dụng định nghĩa cho tương đối  if�i = �i’ � = � ∪ � i’ �� = �� \ {�i} endif Step 5: Lặp lại bước đến �� = ∅ Step 6: Trả � End - Độ phức tạp thuật toán: �(�2����2�) + �(�/|�|) + �(��� � ��) Ví dụ: Ta có 10 người dùng với người dùng trình tự chuyển hướng web cho hình sau: Hình 3.1 Ví dụ liệu chuyển hướng Web Hình 3.2 Ma trận tương tự cách sử dụng số liệu đề xuất với p = 0,5 Xét 10 chuỗi liệu hình.3.1 Bảng tương tự tính tốn cách đầu sử mangưỡng trận tương � =cho 0,5bởi (Hình 3.2) Sựi =giống xấp tên giá trịtự��= � 0.2 với �(� 1, 2, …,10 xỉ i) với đây:dụng Hình 3.3 Kết �(�i) Trong bước đầu tên, giống xấp xỉ thứ hai xấp xỉ �1 cho ��′(�1) = {�1, �3, �5, �6, �8} Bây giờ, hạn chế tương tự-xấp xỉ áp dụng ��′sử dụng Định nghĩa với  = Có thể thấy có yếu tố �1, �5 �6 đủ điều kiện để ��′(�1) Ví dụ, xem xét yếu tố � 3, �(� 1) ∩ �(� 3) = { � 6} �(� 1) − �(� 3) = {�1,�5} Như vậy, giống quan hệ cực �1 �3 là: |�(�1)∩�(�3)| �������(� i, |�(�1)−�(�3)| � j) = = < � �3 khơng sáp nhập vào � (� ) Như vậy, Tập xấp xỉ hạn chế-tương tự đưa hình sau: Hình 3.4 Tập xấp xỉ hạn chế-tương tự Trong tập tập in đậm xấp xỉ liên tiếp giống Ví dụ: �(�1) = ��(�1) = {�1,�5,�6} Như vậy, giống xấp xỉ thứ ba tính cho yếu tố có tương tự liên tếp xấp xỉ không giống Như vậy, T6 cần xem xét cho giống xấp xỉ thứ ba ��� (�6) = {�3, �6, �8} Do khơng có thay đổi hạn chế-tương xấp xỉ cho tất yếu tố,thuật toán hội tụ Họ cụm cuối đưa hình sau: Hình 3.5 Họ cụm cuối đưa Kết thử nghiệm với ví dụ trên: Hình 3.6 Kết xấp xỉ Hình 3.7 Kết xấp xỉ thứ hai Hình 3.8 Kết xấp xỉ thứ ba 3.6 Kết thử nghiệm với � = 0.8 � = Với trích trọn số lượng mẫu n ngẫu nhiên từ liệu mô tả bảng 3.1 thu kết bảng sau Bảng 3.2 Kết thực nghiệm với � = 0.8 � = Số lượng mẫu(n) Kết số cụm trả sau hạn chế xấp xỉ 100 38 Cụm 200 80 Cụm 300 120 Cụm 400 149 Cụm 500 174 Cụm 1000 287 Cụm 2000 467 Cụm 3000 653 Cụm 4000 824 Cụm 5000 965 Cụm Kết Luận KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Lý thuyết tập thô, ban đầu đề xuất Pawlak vào năm 1982, thu hút nhiều nhà nghiên cứu từ miền khác dẫn đến ứng dụng thành công lĩnh vực khác toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu dựa lý thuyết tập thô lĩnh vực nghiên cứu rộng lớn đầy triển vọng Chính vậy, với đề tài “Phân cụm thô liệu tuần tự”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: Tìm hiểu tổng quan phân cụm liệu, giới thiệu số khái niệm liên quan phân cụm liệu Tổng quan lý thuyết tập thô bao gồm hệ thơng tn, bảng định, tính khơng phân biệt xấp xỉ tập hợp Dựa thuyết tập thơ thuật tốn phân cụm thơ áp dụng vào toán phân cụm người dùng web (chuyển hướng người dùng web) Mặc dù cố gắng nỗ lực hết mình, thời gian nghiên cứu trình độ thân có hạn nên luận văn khơng thể tránh khỏi thiếu sót hạn chế, tơi mong nhận ý kiến đóng góp để luận văn đạt kết tốt Hướng Phát Triển Trong thời gian tới, cố gắng tìm hiểu nhiều phương pháp phân cụm liệu, đặc biệt phương pháp phân cụm dựa lý thuyết tập thô cố gắng mở rộng ứng dụng thuật tốn phân cụm thơ vào nhiều toán thực tế Xây dựng cải tến thuật tốn phân cụm thơ áp dụng vào tốn với liệu lớn hay mang tính thực tễn cảnh báo tắc đường… TÀI LIỆU THAM KHẢO Tiếng việt [1] Đỗ Mai Hường (2007),Một số vấn đề liên quan đến lý thuyết tập thô Luận văn thạc sĩ [2] Hoàng Văn Dũng (2007),Khai phá liệu web kỹ thuật phân cụm Luận văn thạc sĩ [3] Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu Luận văn thạc sĩ [4] Phạm Văn Long (2012), Khai phá liệu theo tiếp cận tập thô định - ứng dụng phân lớp khiếu học sinh Luận văn thạc sĩ Tiếng anh [5] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applicatons to web usage mining, School of Electrical Engineering and Computer Science, Australia [6] Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques - Second Editon, Hacours Science and Technology Company, USA [7] Pradeep Kumar, P Radha Krishna,, Raju S Bapi, Supriya Kumar De(2007): Rough clustering of sequental data [8] Ivo Düntsch & Günther Gediga (2000), Rough set data analysis: A road to noninvasive knowledge discovery [9] Zdzislaw Pawlak (1991), ROUGH SETS Theoretcal Aspects of Reasoning about Data, Insttute of Computer Science, Warsaw University of Technology Một số trang web [10] http://documents.tips/documents/ly-thuyet-tap-tho-va-cac-khainiem.html [11] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf ... gặp phải phân cụm liệu Phân cụm chia làm hai loại phân cụm phân cụm cứng phân cụm mềm Trong phân cụm cứng đối tượng phân thành cụm khác nhau, đối tượng thuộc xác cụm, ngược lại phân cụm mềm đối... VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 1.3 Các ứng dụng phân cụm liệu 1.4 Các kiểu liệu độ đo tương tự 1.4.1 Cấu trúc liệu. .. trình phân chia tập liệu ban đầu thành cụm liệu phần tử cụm “tương tự phần tử cụm khác “kém tương tự Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định theo phương pháp phân cụm

Ngày đăng: 22/04/2019, 11:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đỗ Mai Hường (2007),Một số vấn đề liên quan đến lý thuyết tập thô. Luận văn thạc sĩ Sách, tạp chí
Tiêu đề: Một số vấn đề liên quan đến lý thuyết tập thô
Tác giả: Đỗ Mai Hường
Năm: 2007
[2] Hoàng Văn Dũng (2007),Khai phá dữ liệu web bằng kỹ thuật phân cụm. Luận văn thạc sĩ Sách, tạp chí
Tiêu đề: Khai phá dữ liệu web bằng kỹ thuật phân cụm
Tác giả: Hoàng Văn Dũng
Năm: 2007
[3] Nguyễn Trung Đức (2013), Tiếp cận mờ trong phân cụm dữ liệu. Luận văn thạc sĩ Sách, tạp chí
Tiêu đề: Tiếp cận mờ trong phân cụm dữ liệu
Tác giả: Nguyễn Trung Đức
Năm: 2013
[4] Phạm Văn Long (2012), Khai phá dữ liệu theo tiếp cận tập thô và cây quyết định - ứng dụng trong phân lớp năng khiếu học sinh. Luận văn thạc sĩ.Tiếng anh Sách, tạp chí
Tiêu đề: Khai phá dữ liệu theo tiếp cận tập thô và cây quyếtđịnh - ứng dụng trong phân lớp năng khiếu học sinh
Tác giả: Phạm Văn Long
Năm: 2012
[5] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applicatons to web usage mining, School of Electrical Engineering and Computer Science, Australia Sách, tạp chí
Tiêu đề: Algorithmic engineering of clustering and cluster validitywith applicatons to web usage mining
Tác giả: Jianhua Yang
Năm: 2002
[6] Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques - Second Editon, Hacours Science and Technology Company, USA Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques- Second Editon
Tác giả: Jiawei Han, Micheline Kamber
Năm: 2001
[9] Zdzislaw Pawlak (1991), ROUGH SETS Theoretcal Aspects of Reasoning about Data, Insttute of Computer Science, Warsaw University of Technology.Một số trang web Sách, tạp chí
Tiêu đề: ROUGH SETS Theoretcal Aspects of Reasoning about Data
Tác giả: Zdzislaw Pawlak
Năm: 1991
[7] Pradeep Kumar, P. Radha Krishna,, Raju. S. Bapi, Supriya Kumar De(2007):Rough clustering of sequental data Khác
[8] Ivo Düntsch &amp; Günther Gediga (2000), Rough set data analysis: A road to non- invasive knowledge discovery Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w