Phân loại văn bản bằng phương pháp hồi quy

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 55)

Hồi quy được định nghĩa là hàm xấp xỉ giá trị thực φ thay cho giá trị nhị

phân trong bài tốn phân lớp. Hàm φ sẽ cĩ nhiệm vụ học từ ngữ liệu huấn luyện. Nhiều nghiên cứu về phương pháp phân loại văn bản ứng dụng mơ hình hồi quy cĩ

thể kể đến như Fuhr và Pfeifer năm 1994 [54] , Ittner và đồng sự năm 1995 [55], Lewis và Gale năm 1994 [5], hay Schutze và đồng sự năm 1995[39] .Ở đây, chúng tơi chỉ đề cập đến một mơ hình, LLSF (Linear Least-Squares Fit) ứng dụng trong bài tốn phân loại văn bản.

LLSF là cách tiếp cận ánh xạđược phát triển bởi Yang và Chute năm 1992.

Đầu tiên tác giả thử nghiệm phương pháp này trong bài tốn xác định từđồng nghĩa và sau đĩ tiếp tục áp dụng vào bài tốn phân loại văn bản năm 1994 [29].

Trong phương pháp LLSF, mỗi văn bản trong tập huấn luyện sẽ được biểu diễn dưới dạng một cặp véc tơ vào và ra.Véc tơ đầu vào bao gồm các đặc trưng và trọng số của nĩ. Véc tơ đầu ra bao gồm các chủ đề với các trọng số nhị phân của văn bản ứng với véc tơđầu vào.

Quá trình phân lớp chính là việc giải phương trình các cặp véc tơ đầu vào và ra, cũng đồng nghĩa là ta sẽ tính tốn được một ma trận đồng hiện của hệ số hồi quy giữa từ và chủđề. Mục đích của phương pháp này là tìm giá trị lỗi nhỏ nhất từ ma trận đồng hiện cho bởi cơng thức. 2 min arg FA B F F ls = − [ 2.27] Trong đĩ:

- A, B là đại diện cho tập ngữ liệu huấn luyện (các cột trong ma trận tương ứng các giá trị của véc tơ đầu vào và ra).

- Fls là ma trận kết quả chỉ ra một ánh xạ từ một văn bản đầu vào bất kỳ vào véc tơ chủđề đã được gán trọng số, hay nĩi cách khác chính là thể hiện mức

độ quan hệ giữa các đặc trưng đầu vào và các chủđề phân lớp.

Nhờ vào việc sắp xếp trọng số các chủ đề, ta được danh sách các chủ đề cĩ thể gán cho văn bản cần phân loại. Từ danh sách đĩ ta sẽ tìm được chủ đề cho văn bản cần phân loại.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 55)

Tải bản đầy đủ (PDF)

(165 trang)