Các ứng dụng của phân loại văn bản [2]

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 81)

Phân loại văn bản là bài tốn nền tảng trong lĩnh vực truy hồi thơng tin (information retrieval) cĩ liên quan 1 phần đến Xử lý ngơn ngữ tự nhiên (Natural Language Processing-NLP). Phân loại văn bản là bài tốn ứng dụng rất nhiều trong lĩnh vực xử lý ngơn ngữ hiện nay, ví dụ như: search engines, hệ thống lọc Spam mail, hệ thống phân loại để phục vụ cho việc lưu trữ và tìm kiếm… Ngồi ra, phân loại văn bản kết hợp với một số bài tốn khác là cơ sở cho một số ứng dụng như: phân loại giọng nĩi bằng cách kết hợp giữa nhận dạng giọng nĩi và phân loại văn bản [4][5], phân loại tài liệu số (multimedia) thơng qua phân tích chú thích văn bản

tác giả chưa biết [7], nhận dạng ngơn ngữ (language identification) của những văn bản chưa biết loại ngơn ngữ [8], định danh tựđộng thể loại văn bản (text genre) [9], và chấm điểm bài luận tựđộng (automated essay grading) [10], …

Đối với tiếng Anh và 1 số ngơn ngữ khác, việc nghiên cứu TC từ khá sớm và

đã đạt được nhiều kết quả rất khả quan. Đối với tiếng Việt, các kết quả nghiên cứu

đối với bài tốn này cịn hạn chế và thật sự vẫn chưa cĩ một kết quả khả quan nào.

Chương 4: MƠ HÌNH –THIT K – CÀI ĐẶT

Ni dung

Trong chương này, chúng tơi sẽ trình bày về các mơ hình thuật tốn được sử dụng cho bài tốn phân loại tài liệu tiếng Việt được dùng trong hệ thống tìm kiếm tài liệu tiếng Việt theo chủđề. Hơn nữa, chúng tơi cịn trình bày về bài tốn tách từ tiếng Việt, bài tốn rất quan trọng trong cách tiếp cận dãy cách từ phục vụ cho bài tốn phân loại tài liệu tiếng Việt.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 81)