Quá trình huấn luyện

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 61 - 64)

Trong phương pháp phân loại văn bản bằng SVM, công việc huấn luyện (học) là quan trọng nhất và tốn nhiều thời gian nhất. Quá trình huấn luyện sẽ trả ra các tham số của hàm tối ưu hoá, cũng chính là tham số của các support véc-tơ. Kết quả của quá trình huấn luyện sẽ được dùng cho việc kiểm tra và phân loại các văn bản khác.

Để chuẩn bị dữ liệu cho quá trình huấn luyện, tập văn bản huấn luyện thô ban đầu sẽ được đưa qua bước tiền xử lý để thu về dạng tập các văn bản huấn luyện biểu diễn ở dạng véc-tơ thưa với các thành phần là các trọng số của từ trong văn bản.

Tập văn bản huấn luyện cũng đã được gán nhãn và mảng lưu nhãn của các văn bản huấn luyện cũng là đầu vào cho quá trình huấn luyện của chương trình. Chú ý rằng với số chủ đề văn bản là m, nhãn của các văn bản được đánh theo giá trị từ 1 đến m để thể hiện chủ đề mà nó thuộc vào. Sau đó mảng này sẽ được biến đổi thành mảng giá trị {1/-1} tương ứng với một chủ đề nhất định đang được xét.

1.Đầu vào:

Là tập các véc-tơ biểu diễn tập văn bản huấn luyện đã được gán nhãn (đầu ra của modul tiền xử lý tập văn bản huấn luyện), giá trị của tham số v (Error parameter – tham số lỗi cho phép), tham số kernel của hàm nhân K(xi,xj).

- Nếu kernel = 1 thì hàm nhân được sử dụng là hàm tuyến tính

- Nếu kernel = 2, đồng thời có thêm tham số d thì hàm nhân là hàm đa thức có số mũ = d

- Nếu kernel = 3, đồng thời có thêm tham số γ thì hàm nhân là hàm RBF

2. Đầu ra:

Là các hệ số của siêu phẳng tối ưu, b, α=(α1, α2, …, αns). Và lưu lại các tham số của hàm nhân K(xi,xj) sử dụng cho module ra quyết định phân loại.

3. Thuật toán:

Bước 1: Tuỳ thuộc vào tham số của hàm nhân kernel, sử dụng hàm nhân tương ứng (một trong ba hàm Linear, Poly, hoặc RBF) để tính mảng giá trị hàm nhân của các cặp (xi, xj) trong tập huấn luyện.

Bước 2: Sử dụng thuật toán khởi tạo biến α0, để khởi tạo các biến α=(α1,α2,…,αns): Khởi tạo giá trị ban đầu cho các tham số (αi, Gi, V1, V2) đều = 0, tính ra tập N0 (N là tập các chỉ số i của các văn bản có cặp giá trị αi, Vichưa đạt yêu cầu)

Lặp công việc tìm kiếm các giá trị αi(0) cho đến khi N = ∅ thì kết thúc

Bước 3: Sử dụng thuật toán giải bài toán tối ưu, để thực hiện quá trình huấn luyện: Tại lần lặp thứ t, tìm cặp các văn bản thứ p, q sao cho Gp(t) – Gq(t)>0 và đạt max. Cập nhật lại giá trị của αp, αq, W+(t+1), W-(t+1).

Lặp cho đến khi W+=∅và W-=∅ thì kết thúc

Kết thúc thuật toán này chúng ta tìm được giá trị tối ưu của α, từ đó tính ra giá trị của b tương ứng.

Bước 4: Lưu lại các giá trị b, α, và các tham số của hàm nhân K(xi, xj) (là kernel

5.2.1.2.Quá trình kiểm tra

Sau khi huấn luyện ta đã thu được các tham số cần thiết để đưa ra quyết định phân loại văn bản. Quá trình kiểm tra này có mục đích kiểm nghiệm lại hiệu năng của chương trình phân loại văn bản bằng phương pháp SVM.

Đầu vào của modul này là tập các văn bản kiểm tra đã qua modul tiền xử lý văn bản, và được biểu diễn ở dạng véc-tơ thưa với các thành phần là các trọng số của một từ trong một văn bản. Đồng thời các văn bản kiểm tra cũng đã được gán nhãn trước với mục đích để so sánh với các nhãn mà chương trình phân loại bằng phương pháp SVM gán cho các văn bản kiểm tra, từ đó đưa ra được các giá trị đánh giá hiệu năng của chương trình (Precision, Recall, F-measure, break-even point).

Cụ thể modul này có các đầu vào, đầu ra và thuật toán xử lý như sau:

1. Đầu vào :

Tập các véc-tơ biểu diễn văn bản kiểm tra, tập các véc-tơ biểu diễn các văn bản huấn luyện đã được gán nhãn, các tham số b, α, của siêu phẳng tối ưu, các tham số của hàm nhân K(xi, xj) đã được dùng trong quá trình huấn luyện, lớp văn bản cần kiểm tra.

2. Đầu ra :

- Quyết định phân loại cho các văn bản kiểm tra.

- Các giá trị đánh giá hiệu năng của chương trình phân loại

3. Thuật toán :

Bước 1: Với mỗi véc-tơ x đại diện cho một văn bản thuộc tập văn bản kiểm tra, tính giá trị của hàm b x x K y a x f ns i i i i + =∑ = ) , ( ) ( 1

trong đó xi là véc-tơ biểu diễn văn bản huấn luyện thứ i, i = {1,…,ns}

- Nếu f(x)>0 thì x được gán nhãn là 1. - Ngược lại x được gán nhãn là –1.

Bước 2: Từ kết quả của bước 1, kết hợp với mảng y lưu nhãn của các văn bản kiểm tra, tính các giá trị độ chính xác, độ bao… để đưa ra kết quả đánh giá hiệu năng của chương trình phân loại đối với lớp văn bản hiện tại.

Nhận xét: Ưu điểm của việc phân chia giai đoạn phân loại văn bản thành hai modul là, với mỗi lớp văn bản chúng ta chỉ cần thực hiện module huấn luyện một lần, mà có thể sử dụng được cho tất cả các tập dữ liệu kiểm tra sau này.

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 61 - 64)

Tải bản đầy đủ (DOC)

(72 trang)
w