Phương phỏp xử lý vector thưa

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 29)

4 Chương 2 Bài toỏn phõn loại văn bản

4.3.1.3 Phương phỏp xử lý vector thưa

Theo mụ hỡnh vector chuẩn, việc xử lý cỏc phộp toỏn trờn vector sẽ phụ thuộc vào độ lớn của ma trận Wnm, ở đõy n là số lượng thuật ngữ hay số chiều của vector và m là số lượng văn bản cú trong cơ sở dữ liệu. Trờn thực tế, số lượng thuật ngữ và số văn bản cú thể lờn đến vài chục nghỡn. Khi đú số lượng phần tử trong ma trận

Wnm sẽ lờn đến con số trăm triệu và việc lưu trữ ma trận Wnm sẽ tốn quỏ nhiều tài nguyờn bộ nhớ đồng thời cỏc phộp toỏn trờn cỏc vector sẽ rất phức tạp. Để khắc phục vấn đề này cú thể sử dụng kỹ thuật xử lý trờn vector thưa thay vỡ việc lưu trữ và xử lý trờn cỏc vector chuẩn.

Cỏc điều kiện để cú thể ỏp dụng phương phỏp vector thưa:

 Cỏc vector thực sự thưa: số phần tử cú trọng số khỏc 0 nhỏ hơn rất nhiều so với số thuật ngữ trong cơ sở dữ liệu.

 Phộp xử lý vector là đơn giản nhất: số vector cựng bị tỏc động trong một phộp xử lý cơ bản là nhỏ nhất. Thường số vector bị tỏc động này được quy định tối đa là 3 hoặc 4.

Trờn thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới 1000. Đối với cỏc văn bản dài và đa chủ đề thỡ số thuật ngữ xuất hiện cú thể nhiều hơn. Trong khi đú, số lượng thuật ngữ cú trong từ điển cú thể đến 100,000 từ. Đõy chớnh là điều kiện để ỏp dụng phương phỏp vector thưa đối với điều kiện đầu tiờn. Việc thỏa món điều kiện thứ hai cũn phụ thuộc vào thuật toỏn ỏp dụng trong quỏ trỡnh xử lý.

Bảng 2.2.Vớ dụ biểu diễn vector thưa

 Đối với vector chuẩn:

d0 =(2, 3, 0, 0, 0, 0); d1 = (0, 0, 4, 0, 1, 1); d2 = (0, 0, 0, 6, 0, 2)

 Đối với vector thưa:

d0 =((1, 2), (2, 3)); d1 = ((3,4), (5,1), (6,1)); d2 = ((4,6), (6,2))

Kiểu phần tử của vector thưa cú thay đổi so với vector chuẩn. Mỗi phần tử gồm hai giỏ trị là mó biểu diễn thuật ngữ và giỏ trị trọng số tương ứng thuật ngữ đú. Vớ dụ: phần tử(6, 2) trong văn bản d2 chỉ ra thuật ngữ cú mó 6(“lụng cừu”)cú trọng số là 2

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 29)

Tải bản đầy đủ (DOC)

(96 trang)
w