Mô hình vector biểu diễn văn bản

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN (Trang 31 - 32)

- Viết hoa chữ cái đầu tiên của tên riêng, tên người, địa danh.

2.3.2.Mô hình vector biểu diễn văn bản

Phương pháp SVM yêu cầu dữ liệu đầu vào phải được biểu diễn như các vectơ chứa các số thực. Như vậy, công việc của bước tiền xử lý là phải biểu diễu dữ liệu đầu vào dưới dạng các vectơ số thực (vectơ trọng số). Để tránh các số quá lớn, người ta quy ước các số thực nằm trong khoảng [-1,1] hoặc [0,1]. Mỗi số thực biểu diễn giá trị cho một thuộc tính (attribute) hay một đặc trưng (feature) của dữ liệu. Khi đó, mỗi vectơ biểu diễn văn bản có n phần tử (n đặc trưng của văn bản) tương ứng với một điểm trong không gian n chiều.

Ý tưởng của mô hình này là xem mỗi một văn bản Di được biểu diễn theo dạng , trong đó, i là chỉ số dùng để nhận diện văn bản và là vectơ đặc trưng của văn bản Di này. được tính bởi , n là số lượng đặc trưng của vectơ văn bản, là trọng số của đặc trưng thứ j, .

Dưới đây là một ví dụ về việc biểu diễn tin nhắn dưới dạng vectơ trọng số:

Trong ví dụ này, không gian đặc trưng được định nghĩa là một vectơ chứa tất cả các danh từ Tiếng Việt. Mỗi vectơ trọng số của một văn bản sẽ lưu số lần xuất hiện mỗi danh từ trong văn bản đó.

Các đặc trưng của văn bản khi biểu diễn dưới dạng vector

- Đa số các trường hợp, không gian đặc trưng thường lớn. Các văn bản càng dài, lượng thông tin trong nó đề cập đến nhiều vấn đề thì không gian đặc trưng càng lớn.

- Các đặc trưng độc lập với nhau, sự kết hợp giữa các đặc trưng là không có nghĩa.

- Nếu chúng ta tiếp cận theo cách sử dụng giá trị nhị phân 0,1 để biểu diễn cho việc có xuất hiện hay không một đặc trưng nào đó trong văn bản, thì vectơ đặc trưng di có thể có nhiều phần tử mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di đang xét.

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN (Trang 31 - 32)