Phương pháp khớp tối đa (Maximum Matching)

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 45 - 46)

4. Phạm vi ứng dụng

2.3.2.2. Phương pháp khớp tối đa (Maximum Matching)

Nội dung: Phương pháp khớp tối đa (Maximum Matching) [4] còn gọi là Left

Right Maximum (LRMM). Theo phương pháp này, sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, rồi cứ thế tiếp tục cho từkếtiếp cho đến hết câu.

Dạng đơn giản: được dùng giải quyết nhập nhằng từ đơn. Giả sử có một chuỗi ký tự (tương đương với chuỗi tiếng trong tiếng Việt) C1, C2,…,Cn. Bắt đầu từ đầu chuỗi. Đầu tiên kiểm tra xem C1, có phải là từ hay không, sau đó kiểm tra xem

C1C2có phải là từ hay không. Cứ tiếp tục tìm cho đến khi tìmđược từ dài nhất. Từ có vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đó, sau đó tiếp tục tìm như trên cho những từcòn lại cho đến khi xác định được toàn bộ chuỗi từ.

Dạng phức tạp: Quy tắc của dạng này là phân đoạn có vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật toán bắt đầu như dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ C1là từ và C1C2 cũng là từ), xem các chữ kế tiếp để tìm tất cả các đoạn ba từ có thể có bắt đầu với C1 và C1C2. Ví dụ được những đoạn sau:

C1C2C3C4 C1C2C3C4C5 C1C2C3C4C5C6

Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từhoàn chỉnh

Ưu điểm của phương pháp trên có thể thấy rõ là đơn giản, dễ hiểu và chạy nhanh. Hơn nữa, chỉ cần một tập từ điển đầy đủ là có thể tiến hành phân đoạn văn bản, hoàn toàn không phải trải qua huấn luyện như các phương pháp được trình bày tiếp theo.

Nhược điểm của phương pháp này là nó không giải quyết được 2 vấn đề quan trọng nhất của bài toán phân đoạn từ tiếng Việt: thuật toán gặp phải nhiều nhập nhằng, hơn nữa nó hoàn toàn không có chiến lược gì với những từ chưa biết.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 45 - 46)

Tải bản đầy đủ (PDF)

(83 trang)