Bộ khung của hệ thống khai phỏ dữ liệu văn bản dựa trờn mụ hỡnh TRSM

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 84 - 86)

trờn mụ hỡnh TRSM

Hỡnh 4.1: Bộ khung hệ thống khai phỏ dữ liệu dựa trờn mụ hỡnh TRSM

Nội dung chớnh sẽ trỡnh bày:

Bộ khung của hệ thống khai phỏ dữ liệu dựa trờn mụ hỡnh TRSM.

Mụ hỡnh tập thụ dung sai trong biểu diễn văn bản.

Giải thuật Non-hierarchical và hierarchical để phõn nhúm văn bản.

Cỏc đặc trưng của tiếng Việt và xử lý văn bản tiếng Việt theo mụ hỡnh tập thụ dung sai.

Hỡnh vẽ trờn mụ tả bộ khung chung cho mụ hỡnh TRSM và cỏc phương phỏp khai phỏ dữ liệu văn bản dựa trờn mụ hỡnh TRSM, như vậy ta cần phải tạo lập ra cỏc thành phần sau:

- Lớp dung sai của cỏc thuật ngữ xuất hiện trong cơ sở dữ liệu lưu trữ tài liệu - Tớnh toỏn xấp xỉ trờn và xấp xỉ dưới của mỗi tài liệu

Trong bộ khung này, bước tiền xử lý văn bản là một bước rất quan trọng, chiếm khỏ nhiều thời gian, bao gồm cỏc việc như: thứ nhất, tỏch từ khúa và tớnh tần suất xuất hiện của chỳng, ở bước này cần phải dựa vào đặc trưng của từng loại ngụn ngữ

tự nhiờn để cú cỏc giải thuật tỏch từ phự hợp. Chẳng hạn đối với tiếng Việt do đặc trưng ngụn ngữ là đơn õm tiết nờn khụng thể căn cứ vào kớ hiệu khoảng trắng để

phõn tỏch cỏc từ với nhau (như trong tiếng Anh) mà phải dựa vào một số phương phỏp khỏc (chẳng hạn sử dụng mụ hỡnh Markov ẩn, dựa vào đồ thị…). Bài toỏn tỏch từ tiếng Việt hiện nay đĩ được nhiều tỏc giả giải quyết tương đối tốt. Thứ hai, sau khi tỏch được cỏc từ khúa cần phải lựa chọn cỏc từ khúa để xử lý, bởi vỡ trong ngụn ngữ tự nhiờn cú rất nhiều từ xuất hiện rất nhiều lần nhưng hàm lượng thụng tin mà chỳng cung cấp thỡ rất ớt (đú là cỏc từ dừng – stop words) thỡ cũng cần loại bỏ chỳng khỏi danh sỏch cỏc thuật ngữ; loại bỏ từ dừng cũng là một cỏch để làm giảm khụng gian tớnh toỏn. Sau khi đĩ trớch chọn được cỏc thuật ngữ cần thực hiện tớnh toỏn lớp dung sai cho cỏc thuật ngữ đú và tạo ra cỏc xấp xỉ trờn và xấp xỉ dưới cho cỏc tài liệu.

Dựa vào cỏc xấp xỉ trờn và xấp xỉ dưới của cỏc tài liệu, lớp dung sai của cỏc thuật ngữ và tập tài liệu với cỏc thuật ngữ đĩ được lựa chọn ta sẽ ỏp dụng cỏc phương phỏp khai phỏ dữ liệu trờn cỏc dữ liệu này, chẳng hạn đú là cỏc phương phỏp clustering (phõn nhúm), categorization (phõn loại), thu thập thụng tin dựa trờn cluster (Cluster-based IR)… để đưa ra cỏc thụng tin phự hợp với yờu cầu người dựng. Phần tiếp theo sẽ trỡnh bày 2 phương phỏp clustering dựa trờn mụ hỡnh TRSM

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 84 - 86)

Tải bản đầy đủ (PDF)

(118 trang)