5. Bố cục luận văn
3.1 Bài toán phân lớp tổng quát
Quá trình phân lớp còn được gọi là quá trình gán nhãn cho các tập dữ liệu. Nhiệm vụ của bài toán phân lớp dữ liệu là cần xây dựng mô hình phân lớp để khi có một dữ liệu mới vào thì mô hình phân lớp sẽ cho biết dữ liệu đó thuộc lớp nào.
Về mặt hình thức, cho trước một tập các nhãn (các phân loại) C = {c1, . . . , cn} và một tập các dữ liệu D = {d1, d2, . . .}, một bộ phân lớp là một hàm K ánh xạ từ D tới tập của tất cả các tập con của C.
Hình 3.1 Minh hoạ bài toán phân lớp tổng quát
Đối với bài toán được nghiên cứu trong luận văn, tập D trong hình 3.1 là các đơn xin việc mẫu. Tập các nhãn C được xây dựng dựa trên các tiêu chí phân loại của nhà tuyển dụng (trình độ học vấn và kinh nghiệm làm việc). Hàm K sẽ được xây dựng
bằng phương pháp phân loại sử dụng máy véc tơ và hàm này được sử dụng để quyết định một đơn xin việc di được phân loại vào một lớp cj.
Trong cách phân loại truyền thống dựa vào con người, việc phân loại dữ liệu đòi hỏi phải xây dựng một ngưỡng phân loại để xác định điều kiện quyết định dữ liệu thuộc về lớp nào.
Trong kĩ thuật học máy, các hàm phân loại được xây dựng dựa trên một tập dữ liệu huấn luyện T do người dùng cung cấp và được gán nhãn trước. Các giải thuật sau đó có thể được phát triển để tạo ra các sự tổng quát hoá về quan hệ giữa nội dung tài liệu và phân lớp tài liệu, mã hoá các sự tổng quát hoá đó trong hàm học K.
Có nhiều cách để biểu diễn một mô hình phân lớp và có rất nhiều thuật toán giải quyết nó. Các thuật toán phân lớp tiêu biểu bao gồm như mạng nơ ron[10], cây quyết định, suy luận quy nạp[8], mạng Beyesian[3], máy véc tơ hỗ trợ (SVM) … Trong các kỹ thuật đó, SVM là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho phân lớp dữ liệu lớn và nhiều chiều.