Các cơng trình liên quan đến vấn đề xử lý ngơn ngữ- 123docz.net

7. Nội dung luận văn

1.4. Các cơng trình liên quan đến vấn đề xử lý ngơn ngữ tự nhiên và phân lớp

lớp văn bản

Hiện nay cĩ rất nhiều cơng trình nghiên cứu trong và ngồi nước về học máy để ứng dụng trong cơng việc phân lớp văn bản như:

Ngồi nước:

- Đề tài “ Active Learning for Text Classification” của tác giả Rong Hu, đang làm việc tại School of Computing, Dublin Institute of Techonology[12].

Đề tài thực hiện đưa các thơng tin vào học máy dùng các thuật tốn gom cụm để tạo ra bộ dữ liệu mẫu. Đề tài tập trung vào việc tốt ưu cho việc học máy tích cực.

- Bài báo “Text Categorization with Support Vector Machines: Learning with Many Relevant Features” của tác giả Thorsten Joachims, Trường Đại học Dortmund, Đức[11].

Bài báo trình bày về việc sử dụng và cải tiến kỹ thuật Support Vector Machines (SVM) cho việc học máy cĩ hiệu quả trong việc phân loại văn bản.

- Bài báo “Text Catergorization Base on Regulazired Linear Classification Methods” của nhĩm tác giải Tong Zhang và Franks J.Oles, Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork[13].

Bài báo trình bày phương pháp phân loại văn bản tuyến tính dựa vào kỹ thuật Linear Least Squares Fit, Logistic Regression, SVM.

* Nĩi chung hầu hết các đề tài được nêu ở trên đều tập trung vào việc học máy và xử lý ngơn ngữ tiếng Anh. Việc áp dụng cho các văn bản sử dụng ngơn ngữ tiếng Việt thì chưa mang lại độ chính xác cao như mong đợi.

Trong nước cũng cĩ rất nhiều bài báo khoa học và cơng trình nghiên cứu về lĩnh vực này như:

- Bài báo Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2004)[1], Phân loại văn bản tiếng Việt với bộ phân loại vector hỗ trợ SVM, Bài báo khoa học, Hà Nội.

Bài báo trình bày các nghiên cứu về Vấn đề phân loại tài liệu tiếng Việt bằng cách sử dụng Hỗ trợ Máy Vector (SVM).

Luận văn này nghiên cứu đề xuất ứng dụng phương pháp phân loại văn bản SVM và thực hiện phân loại bằng phương pháp bên trong Oracle 10g với các bộ dữ liệu đa lớp và đa nhãn.

- Luận văn thạc sỹ khoa học máy tính “Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt” Luận văn thạc sỹ khoa học máy tính, trường Đại học Thái Nguyên năm 2015, tác giả Nguyễn Thị Thùy Dương[4].

Luận văn trình bày phương pháp lựa chọn dữ liệu, lưu trữ và xây dựng hệ thống ứng dụng tra cứu văn bản tiếng Việt dựa trên Naive Bayes, đánh giá phương pháp được cài đặt với tập dữ liệu văn bản tiếng Việt.

- Luận văn thạc sỹ khoa học máy tính “Phân loại tự động văn bản trong hệ thống điều hành tác nghiệp tại Sở Thơng tin truyền thơng Quảng Nam” Luận văn thạc sỹ khoa học máy tính, trường Đại học Đà Nẵng năm 2011, tác giả Nguyễn Thị Thúy

Kiều[6].

* Mỗi đề tài nghiên cứu trên cĩ những ưu điểm nhất định, tuy nhiên phạm vi xử lý văn bản của nĩ quá rộng, khơng xác định cụ thể loại văn bản nào. Do đĩ, kết quả cuối cùng độ chính xác chưa được đồng nhất và khĩ để đánh giá.

Qua tìm hiểu nghiên cứu, Trong chương tiếp theo dựa trên những khái niệm tổng quan đã trình bày tại chương 1 để đưa ra phương pháp nghiên cứu ứng dụng thuật tốn Support Vector Machines (SVM) trong phân loại văn bản hành chính.

CHƯƠNG 2

KHÁI QUÁT MƠ HÌNH HỌC MÁY SUPPORT VECTOR MACHINES (SVM)

Trong chương này, luận văn trình bày phương pháp phân loại văn bản tiếng Việt dựa trên mơ hình Support Vector Machines, từ cách tách từ, chọn từ phân loại, biểu diễn vector hĩa văn bản, phương pháp xây dựng mơ hình phân lớp. Trước tiên để tiến đến việc phân loại văn bản tiếng Việt trong văn bản hành chính ta cần phải tìm hiểu một số khái niệm về tiếng Việt và văn phong sử dụng trong văn bản hành chính. Những khái niệm đĩ sẽ được trình bày dưới đây.

Các cơng trình liên quan đến vấn đề xử lý ngơn ngữ tự nhiên và phân lớp

Phương pháp biểu diễn văn bản

Bộ phân loại Support Vector Machines (SVM)