Phân lớp, phân cụm dữ liệu

5. Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI

2.3. Phân lớp, phân cụm dữ liệu

Khai phá dữ liệu là lĩnh vực mà con người luôn tìm cách đạt được mực đích sử dụng thông tin của mình. Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó phương pháp khai phá dữ liệu để tìm kiếm các mẫu đáng quan tâm theo dạng xác định. Có thể kể ra đây một vài phương pháp như: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng giềng gần nhất), giá trị trung bình, phát hiện luật kết hợp, v.v.

Trong lĩnh vực máy học và nhận dạng mẫu, bài toán phân lớp đề cập đến các thuật toán nhằm xác định lớp của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước.

Khác với bài toán phân cụm, dữ liệu huấn luyện dùng để xây dựng mô hình trong bài toán phân lớp phải được xác định nhãn trước.

Ví dụ 2.1: Xác định một email thuộc “spam” hoặc “non-spam”, hay xác định loại bệnh của bệnh nhân dựa vào các triệu chứng ho.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

 Phân lớp dữ liệu là tiến trình có 2 bước:

 Huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp (có thuộc tính nhãn lớp), (xem Hình 2.2):

(A)

Name Age Income Credit_rating Juan Bello Sylvia Crest Anne Yee ….. >40 <=30 31…40 ….. High Low High ….. fair fair excellent …… (B) Hình 2.2. Phân lớp dữ liệu

- Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới.

- Độ chính xác của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng

Age income Credit_rating Sandy Jones Bill lee Courtney fox Sunsan Claire Phips Andre Beau …… <=30 <=30 31…40 >40 >40 31…40 …… Low Low High med med high ……. fair excellent excellent fair fair excellent ……

If age = “31..41 and income = high Then credit_rating = excellent

Classification rules

Test data

New data

(John Henry, 31…40, high) Credit rating? Excellent Excellent Training data ing data Classification rules Classification algorithm

Độ chính xác =

 Đánh giá phương pháp phân lớp

- Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy.

- Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng vớ dữ liệu có nhiễu hay thiếu giá trị.

- Tính kích cỡ: khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn. - Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được.

 Phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật quan trọng trong phân tích dữ liệu và được áp dụng trong nhiều ngành khoa học khác nhau như: sinh học, tâm lý học, y học, v.v. Phân cụm là chia dữ liệu thành các nhóm mà các đối tượng trong cùng một nhóm thì giống nhau theo một nghĩa nào đó và khác với các đối tượng trong các nhóm khác. Mỗi nhóm được gọi là một cluster. Mỗi đối tượng được mô tả bởi một tập các độ đo hoặc bằng mối quan hệ với các đối tượng khác. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ. Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.

Hình 2.3 là một ví dụ về phân cụm. Trong ví dụ này chúng ta dễ dàng xác định được 4 cụm từ các dữ liệu được chia, tiêu chí “tương tự” là khoảng cách: hai hoặc nhiều đối tượng thuộc cùng cụm nếu nó là “gần gũi” nhau, theo một khoảng cách nhất định (trong trường hợp này là khoảng cách hình học). Đây được gọi là phân cụm dựa trên khoảng cách.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.3. Phân cụm dữ liệu

Một định nghĩa rộng hơn về phân cụm: “phân cụm là quá trình tổ chức các đối tượng thành các nhóm mà các thành viên trong nhóm là tương tự nhau theo cách nào đó” [12]. Ngoài ra, còn có một số định nghĩa về cluster như: “Một cluster là một tập các đối tượng giống nhau và khác với các đối tượng không ở trong cluster đó”. “Một cluster là một tập các điểm trong không gian mà khoảng cách giữa hai điểm bất kì trong nó luôn nhỏ hơn khoảng cách giữa một điểm bất kì trong nó và một điểm ngoài”. “Các cluster có thể được mô tả như các miền liên thông trong không gian đa chiều chứa mật độ tương đối cao các điểm, phân biệt giữa các miền bằng mật độ khá thấp của các điểm”. Hai hoặc nhiều đối tượng được gọi là cùng một cụm nếu nó được định nghĩa cùng một khái niệm chung cho tất cả các đối tượng. Nói cách khác, các đối tượng được nhóm lại để phù hợp với các khái niệm mô tả.

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người từ y tế, giáo dục, xử lý thông tin, nghiên cứu phân tích thị trường,v.v. Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường, phân loại trong tin sinh học,v.v. Bằng phân cụm, trong thương mại có thể giúp những nhà phân tích thị trường tìm ra những nhóm khách hàng có những nhu cầu riêng dựa trên độ tuổi, sở thích và tâm lý tiêu dùng. Trong sinh học, nó có thể được sử dụng để phân loại thực vật, động vật, phân loại cấu trúc protein dựa trên các cấu trúc tương đồng vốn có, từ đó có thể xây dựng ngân hàng dữ liệu protein. Trong xử lý thông tin, phân cụm giúp phân loại các tài liệu với dạng lưu trữ văn bản, trên đĩa mềm, trên ổ cứng, trên mạng internet thành giúp tạo lập và hoàn chỉnh kho dữ liệu khổng lồ về tri thức của loài người.

Chức năng khai phá dữ liệu, phân cụm có thể được sử dụng như một công cụ độc lập để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố dữ liệu và tập trung vào một tập riêng biệt của các cụm để phân tích. Phân cụm có thể dụng như một bước tiền xử lý cho các thuật toán như phân loại, mô tả đặc điểm, phát hiện ra các cụm với các đặc trưng, tính chất khác nhau.

Khai phá luật kết hợp

Thuật toán cây quyết định ID3