So sánh các tiếp cận khai phá dữ liệu: phân cụ m phân lớp

Một phần của tài liệu Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản (Trang 25 - 26)

Hai kỹ thuật khai phá dữ liệu phổ biến để tìm ra các mẫu ẩn trong dữ liệu đó là phân cụm và phân lớp.Mặc dù phân lớp và phân cụm thƣờng đƣợc đề cập trong cùng một breath, chúng vẫn là các tiếp cận phân tích khác nhau.Ở đây ta đề cập tới các khía cạnh giống và khác nhau giữa chúng.

Tƣởng tƣợng một cơ sở dữ liệu bao gồm các bản ghi về hoạt động mƣợn sách tại thƣ viện. Nó bao gồm các thuộc tính nhƣ: MaSach, SoThe, NgayMuon, NgayTra.

Phân cụm tự động xử lý cụm các bản ghi có liên quan với nhau.Các bản ghi có liên quan đƣợc nhóm lại với nhau trên cơ sở có các giá trị tƣơng đồng tại một số thuộc tính. Đây là cách tiếp cận phân đoạn cơ sở dữ liệu theo phƣơng pháp phân cụm thƣờng đƣợc dùng nhƣ là một kỹ thuật khai thác bởi nó không cần ngƣời dùng đầu cuối mà nhà phân tích cho biết trƣớc là có bao nhiêu bản ghi có liên quan tới nhau. Trong thực tế, mục tiêu của phép phân tích thƣờng để phát hiện ra các đoạn hay các cụm và sau đó kiểm tra các thuộc tính và các giá trị mà định nghĩa các cụm hay các đoạn. Nhƣ vậy là cụm các tài liệu thƣờng đƣợc học viên mƣợn và mƣợn kết hợp sẽ trở nên rõ ràng hơn. Điều này sẽ đƣợc dùng để điều chỉnh việc bố trí, sắp xếp tài liệu cho hợp lý.Hay trong việc phân cụm các khách hàng có thể đƣợc dùng để điều chỉnh chiến lƣợc marketing và quảng cáo tới từng cụm khách hàng cụ thể.

Có rất nhiều giải thuật khác nhau đƣợc dùng để phân cụm nhƣng tất cả chúng đều tham gia, chia sẻ, đặc tính lặp ấn định các bản ghi tới một cụm, tính toán một độ đo (thƣờng là tƣơng đồng hoặc sự khác biệt), các bản ghi ấn định lại vào các cụm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

cho tới khi các độ đo đƣợc tính toán không thay đổi nhiều, chỉ ra rằng xử lý đã hội tụ tới các đoạn ổn định. Các bản ghi trong phạm vi một cụm có sự tƣơng đồng với nhau hơn và khác biệt nhiều so với các bản ghi ở các cụm khác. Tuỳ thuộc vào thực thi đặc thù, độ đo sự tƣơng đồng có nhiều dạng (nhƣ dựa trên khoảng cách không gian, dựa trên độ biến thiên thống kê) nhƣng toàn bộ chúng đều có chung mục đích là nhóm lại các bản ghi có liên quan.

Một phần của tài liệu Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(85 trang)