Khai phá dữ liệu

Một phần của tài liệu Khoá luận tốt nghiệp áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 25)

Ngày nay, với sự phát triển của xã hội, con người phải đối diện với một tập dữ liệu rất lớn với hàng trăm nghìn mẫu tin, thậm chí hàng trăm triệu mẫu tin như bộ sưu tập nhạc, bộ sưu tập các trang web, virus máy tính ... Vói tập dữ liệu lớn như vậy, người ta mong muốn trích chọn các thông tin hữu ích, các quy luật tiềm ẩn trong tập dữ liệu nhằm đưa ra những quyết định tối ưu đáp ứng một sự kiện xảy ra trong thực tế hoặc dự báo tình huống tương lai. Đó chính là nhiệm vụ của khai phá dữ liệu (Data mining)

Chúng ta có thể hình dung việc khám phá tri thức giống như khai thác một mỏ khoáng sản, trong mỏ có nhiều kim loại trộn lẫn như vàng, đồng, chì . . . Nhiệm vụ của khai thác một mỏ khoáng sản là phải loại bỏ tạp chất để tách

riêng các kim loại trong mỏ, đặc biệt là các kim loại quý. Khám phá tri thức trong cơ sở dữ liệu cũng giống như tách biệt được vàng trong mỏ khoáng sản.

Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge

Discovery Process), bao gồm:

+ Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem

understanding and data understanding).

+ Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích họp dữ liệu (data integration), chọn dữ liệu

(data selection), biến đổi dữ liệu (data transformation).

+ Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.

+ Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tralọc

nguồn tri thức thu được. + Triển khai (Deployment).

Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Các phương pháp khai phá dữ liệu:

+ Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.

+ Hồi qui (Regression): Discovery of a prediction learning function, which maps a data item to a real-value prediction variable.

+ Phân nhóm (Clustering): A common descriptive task in which one seeks to identify a finite set of categories or clusters to describe the data.

+ Tổng hợp (Summarization): An additional descriptive task that involves methods for finding a compact description for a set (or subset) of data. + Mô hình ràng buộc (Dependency modeling): Finding a local model that

describes significant dependencies between variables or between the values of a feature in a data set or in a part of a data set.

+ Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Discovering the most significant changes in the data set.

2.2. Phân lop

Giả sử có hai loại không gian: không gian đầu vào X và không gian đầu ra (không gian nhãn) Y. Ví dụ, phân loại các đối tượng đã biết cho trước, hữu hạn bao gồm “xe hơi”, “sách”, “điện thoại”, X là không gian bao gồm các đối tượng, Y là không gian các loại “xe hơi”, “sách”, “điện thoại”. Trong quá trình học, thuật toán “học” sẽ cho tập huấn luyện mẫu (Xi, Yi), . . . (Xn, yn), và gán nhãn cho từng đối tượng với các nhãn là “xe hơi”, “sách”, “điện thoại”. Như vậy, nếu nói theo nghĩa toán học là đi tìm một ánh xạ: X Y và làm cho “lỗi ít nhất có thể được”, có nghĩa là với không gian X, ta mong muốn cho các đối tượng được gắn nhãn sai là thấp nhất có thể. Ánh xạ /: X->Y được gọi là hàm phân loại.

Có hai loại vấn đề học: học giám sát và học không giám sát. Phân lớp là ví dụ về có học giám sát, mẫu huấn luyện bao gồm có Xi được gán nhãn là Yi. Mục đích của phân lớp là tìm hàm quan hệ giữa không gian đầu vào X và

không gian nhãn Y. Đây được gọi là học có giám sát vì trong mẫu huấn luyện, người học có thể đánh giá đáp án đúng hay không, và ngưòi học được giám sát. Trái lại vói học có giám sát, học không giám sát có không gian đầu vào chỉ bao gồm Xi, trong khi đó thông tin về các nhãn không được biết trước. Lúc này, quá trình học là khám phá ra “cấu trúc” ẩn dưói dữ liệu đầu vào. Ví dụ, một ngưòi bán hàng Online muốn phân cụm khách hàng dựa trên lịch sử mua hàng, cần chọn tất cả các khách hàng có tiềm năng và sau đó khám phá nhóm khách hàng này về sự tương đồng và sở thích. Trái ngược với phân lớp, phân cụm không hề biết trước, nó sẽ đưa khách hàng thuộc về nhóm nào - đó là nhiệm vụ của thuật toán phân cụm.

Phân lớp ở đây là từ các đặc trưng được rút trích, tiến hành phân loại nhạc bằng các phương pháp nhận dạng: K-neares neighbor, SVM, Neuron Net- work... Học giám sát bao gồm việc sử dụng các vector đặc trưng đã được gán nhãn để huấn luyện cho các bộ phân loại. Từ đó, bộ phân loại sẽ gán nhãn loại cho các vector đặc trưng mới một cách tự động. Trong khóa luận tốt nghiệp này, em sử dụng phương pháp phân loại K láng giềng gần nhất (K-Nearest Neighbour) vì phương pháp này có một số ưu điểm sau:

+ Dễ phân tích.

+ Thực hiện đơn giản + Dễ thực hiện việc so sánh + Hiệu quả khi tập huấn luyện lớn

+ Bổ sung mẫu huấn luyện vào bộ huấn luyện một cách dễ dàng.

Một phần của tài liệu Khoá luận tốt nghiệp áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 25)

Tải bản đầy đủ (DOCX)

(53 trang)
w