4. Phạm vi ứng dụng
2.4.3. Phương pháp xử lý nội dung website
Như đã trình bàyởtrên, nội dung website đang được đềcập là tiếng Việt hay tiếng Anh. Dưới đây sẽ đềxuất các phương pháp xử lý nội dung website.
– Cách thứ nhất là phân chia nội dung được thành tiếng Anh và tiếng Việt, sau đó tiến hành phân loại nội dung tiếng Anh và tiếng Việt riêng. Tất nhiên, có thể có trường hợp trong một nội dung có cả tiếng Việt và tiếng Anh nhưng tỷ lệ này không nhiều.
– Cách thứ hai là xây dựng một bộ phân loại chung cho cả tiếng Anh và tiếng Việt. Cách thứ hai đơn giản hơn nhưng có thể gặp vấn đề khi lựa chọn tham số k để tách các k-gram.
– Nếu sử dụng cách thứ nhất thì xuất hiện một vấn đề cần giải quyết là phân biệt nội dung tiếng Anh và tiếng Việt. Mặc dù có những giải pháp phức tạp hơn được đề xuất cho vấn đề này, ở đây đề xuất sử dụng một giải pháp rất đơn giản. Khi lựa chọn đặc trưng, các đặc trưng được đánh dấu riêng tiếng Việt hoặc tiếng Anh và lưu vào bảng băm. Khi một nội dung mới xuất hiện, 20 đặc trưng đầu tiên của nội dung sẽ được băm vào bảng tiếng Việt và tiếng Anh. Nếu số lượng băm trúng trong bảng tiếng Việt lớn hơn bảng tiếng Anh thì nội dung được coi là nội
dung tiếng Việt và ngược lại. Tuy nhiên, đối với những nội dung sử dụng cả tiếng Việt và tiếng Anh việc kết luận nội dung thuộc một trong hai ngôn ngữ duy nhất có thể ảnh hưởng tới quá trình phân loại tiếp theo.
Sau khi phân biệt được nội dung tiếng Anh thì sẽ được lọc riêng. Hiệu quả phân loại chung sau đó được lấy bằng trung bình cộng của phân loại cho nội dung tiếng Việt và nội dung tiếng Anh. Để tăng độ chính xác trong quá trình phân tích nội dung, có thể chia nhỏ nội dung thành từng câu đơn thể nhằm tạo tiền đề cho việc tách từ tiếng Việt mang lại độ chính xác cao nhất.