Bộ lọc tiếng Việt

a. Giới thiệu

Với các bộ lọc nội dung đƣợc thiết kế hiện nay thƣờng bao gồm một vài phƣơng pháp lọc đƣợc sử dụng khá rộng rãi, ví dụ nhƣ danh sách positive/negative URL và các trang cĩ địa chỉ rõ ràng, nhƣng với các nội dung, lĩnh vực rộng đƣợc trao đổi qua thƣ điện tử thì phƣơng pháp này chỉ bao phủ đƣợc một phần nhỏ. Điều này

gợi ý sự cần thiết cho lọc dựa trên nội dung, bao gồm cả lọc dựa trên ảnh và lọc dựa

trên văn bản. Việc lọc nội dung văn bản dạng text sẽ dựa trên những cơng nghệ hiệu quả nhất trong lĩnh vực xử lý ngơn ngữ tự nhiên (Natural Language Processing – NLP). Do đặc thù mỗi ngơn ngữ, việc lọc nội dung văn bản tiếng Việt cĩ những khác biệt so với lọc nội dung văn bản của các ngơn ngữ khác.

Khi cĩ một yêu cầu mới đƣợc gửi đến mơ đun lọc, tuỳ thuộc vào chức năng

của bộ lọc mà mơ đun con “Chuẩn hố dữ liệu” phải thực hiện những xử lý cần thiết

để chuẩn hố dữ liệu yêu cầu về hai dạng văn bản và hình ảnh. Sau đĩ, văn bản sẽ đƣợc đƣa qua bộ nhận dạng ngơn ngữ để quyết định xem sẽ hƣớng văn bản tới bộ lọc nào? Bộ lọc văn bản tiếng Việt đƣợc tách rời với các bộ lọc khác nhƣ lọc văn bản tiếng Anh, lọc Pics, URL, … Việc phân tách này cĩ hai lợi điểm chính: Một là, mỗi ngơn ngữ cĩ những đặc trƣng ngơn ngữ riêng nên việc tách ra này sẽ tận dụng đƣợc đặc điểm của từng ngơn ngữ để từ đĩ giúp ta đƣa ra đƣợc một mơ hình học máy phù hợp với ngơn ngữ đĩ; Hai là, khi tách rời nhƣ vậy thì sẽ làm tăng khả năng song song của hệ thống, nghĩa là cùng một lúc hệ thống cĩ thể tiến hành lọc nhiều văn bản.

Với bộ lọc văn bản tiếng Việt, do yêu cầu của các bộ lọc chung là cần quyết định nhanh nội dung dựa theo một tiêu chí xấu tốt nào đĩ nên bộ lọc đƣợc thiết kế phải đảm bảo rằng: Cần đƣa ra quyết định càng nhanh càng tốt về nội dung. Với đặc

điểm nhƣ vậy thì bộ lọc văn bản đƣợc thiết kế gồm 2 bộ lọc con là “light filter” và

“heavy filter”. Bộ lọc yếu “light filtering”, sử dụng kiến thức chút ít về xử lý ngơn ngữ tiếng Việt, đƣa ra đánh giá nhanh về nội dung của các trang cĩ thể phân lớp đƣợc ngay với độ chính xác cao. Đối với các trang khác (là các trang khơng thể phân lớp

fitering” - sử dụng tri thức về NLP nhiều hơn để đƣa ra quyết định về nội dung. Sự thỏa hiệp này cĩ ý nghĩa quan trọng đối với tính hiệu quả của tồn bộ hệ thống. Trong trƣờng hợp văn bản mà khơng thể dự đốn đƣợc nội dung của nĩ thì bộ lọc sẽ trả về

một kết quả đặc biệt là unknown.

Quá trình lọc tiếng Việt đƣợc thực hiện bởi hai bộ lọc. Cụ thể, với bộ lọc yếu, bộ phân lớp Nạve Bayes đƣợc áp dụng – bộ phân lớp đƣợc coi là đơn giản nhƣng hiệu quả đạt đƣợc lại khả quan, cịn bộ lọc mạnh sử dụng bộ phân lớp Maximum Entropy – phƣơng pháp học máy mạnh đã từng đƣợc ứng dụng thành cơng trong nhiều nhiệm vụ của xử lý ngơn ngữ tự nhiên.

b. Quy trình

Mơ tả quy trình nhƣ sau: Đầu tiên, thƣ điện tử sẽ đƣợc làm sạch bằng cách loại bỏ các từ dừng và lấy từ gốc. Sau đĩ nĩ sẽ đƣợc đƣa qua bộ trích chọn đặc trƣng. Nhiệm vụ của bộ trích chọn đặc trƣng sẽ rút trích các đặc trƣng hữu ích từ thƣ sao cho phù hợp với mơ hình đƣợc chọn. Thuộc tính hay đƣợc sử dụng nhất trong bài tốn phân lớp tự động văn bản là phân bố tần số xuất hiện của các từ khĩa hoặc các cụm từ khĩa trong nội dung văn bản. Nếu chúng ta cĩ thể phát hiện ra bất kì loại cấu trúc nào xuất hiện trong nội dung văn bản đƣợc phân lớp, các thuộc tính của cấu trúc đấy cĩ thể đƣợc trích rút và đƣa vào các thuật tốn phân lớp. Sau đĩ, sẽ tiến hành làm giảm đặc trƣng nhằm trích chọn các đặc trƣng hữu ích và bỏ đi các đặc trƣng khơng hữu ích đối với mơ hình sử dụng. Độ phức tạp tính tốn sẽ tỉ lệ thuận với kích thƣớc của vector biểu diễn, do vậy bất kỳ một phƣơng pháp làm giảm kích thƣớc của vector biểu diễn mà khơng ảnh hƣởng nghiêm trọng đến chất lƣợng của quá trình phân lớp sẽ rất cĩ ý nghĩa trong các ứng dụng thực tiễn. Quá trình trích rút các cụm từ khĩa đƣợc mơ tả ở trên và các phƣơng pháp làm giảm thuộc tính đƣợc mơ tả ở dƣới đây đều sử dụng các tri thức từ khoa học về ngơn ngữ và xử lý ngơn ngữ tự nhiên. Tuy nhiên việc càng ngày càng cĩ nhiều sự hợp tác giữa các nhà ngơn ngữ học và các nhà khoa học nghiên cứu về bài tốn phân lớp tự động văn bản cĩ thể mang lại các phƣơng pháp mới cho quá trình tích hợp các tri thức về ngơn ngữ vào quá trình thiết kế chƣơng trình trích rút thuộc tính, làm giảm thuộc tính và thậm chí là bộ phân lớp. Bên cạnh đĩ, cĩ một số từ đặc biệt trong một số ngơn ngữ gây ra nhiễu trong quá

trình tính tốn, vì vậy việc loại bỏ chúng ra khỏi vector biểu diễn sẽ thực sự làm tăng sự hiệu quả của quá trình phân lớp.

Ngồi ra, quá trình xử lý ngơn ngữ tự nhiên cĩ thể đƣợc áp dụng cho cả giai đoạn trích chọn thuộc tính và làm giảm thuộc tính của quá trình phân lớp văn bản. Các thuộc tính ngơn ngữ cĩ thể đƣợc lấy ra từ nội dung văn bản và đƣợc sử dụng nhƣ là một phần của vector thuộc tính. Ví dụ nhƣ các phần nội dung đƣợc viết theo lối trƣờng thuật trực tiếp, độ dài của các câu, các tỉ lệ giữa các chức năng ngơn ngữ khác nhau trong các câu ( ví dụ nhƣ các cụm danh từ, giới từ hoặc cụm động từ) cĩ thể đƣợc phát hiện và sử dụng nhƣ là một vector thuộc tính hoặc là một phần bổ sung cho vector thuộc tính các tần suất xuất hiện các từ khĩa.

Sau quá trình lựa chọn các đặc trƣng phù hợp, các đặc trƣng của văn bản sẽ đƣợc đƣa vào bộ huấn luyện để huấn luyện bộ một phân lớp. Quá trình này cĩ thể lặp đi lặp lại để tìm bộ phân lớp tối ƣu nhất. Khi đã tìm ra đƣợc mơ hình tối ƣu nhất với dữ liệu huấn luyện thì bộ lọc này sẽ đƣợc sử dụng để phân loại các văn bản mới.

Sử dụng bộ lọc Bayesian

Nguyên lý hoạt động chung