4. Phạm vi ứng dụng
2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không
phụ thuộc vào ngữ nghĩa
Ý tưởng: Tiep [3] đã đề xuất một phương pháp tách từhoàn toàn khác so với các phương pháp đã nêu trên. Xuất phát từ bài toán lọc thư rác tiếng Việt, Tiep đã giải quyết bài toán theo hướng tiếp cận tách từ dựa trên sự tồn tại của từ. Để đơn giản hóa vấn đề có thể hiểu như sau: Trong một thư spam (thư rác) hay ham (thư thông thường) nếu là tiếng Anh thì việc tách từ khá dễ dàng và đạt được kết quả khác nhau. Tuy nhiên, đối với thư rác tiếng Việt thì cách giải quyết đối với thư rác
tiếng Anh áp dụng không phù hợp vì những sự khác biệt giữa tiếng Anh và tiếng Việt nêu trên, đặc biệt là sự nhập nhằng ngữ nghĩa của tiếng Việt.
Trong công trình công bố, tác giả đã thử nghiệm các phương pháp tách từ khác như đã nêu trên để giải quyết bài toán này nhưng không mang hiệu quả cao do không có bộ từ điển từ tiếng Việt nào phù hợp với nội dung thư rác tiếng Việt. Tuy nhiên mấu chốt quan trọng đó là một bức thư thuộc lớp thư spam hay thư ham đều sẽ chứa các từ tiếng Việt đặc thù của riêng lớp đó. Ví dụ “quảng cáo”, “khuyến mãi”, “rao vặt”, “mua bán” là những từ thường xuyên gặp trong các thư quảng cáo tiếng Việt. Dưới đây sẽtrình bày cách tiếp cận vấn đềcủa thuật toán nêu trên.
Bộ phân tích câu tiếng Việt: Xét một văn bản u gồm n tiếng t=s1s2.. sn. Mục tiêu chính của quá trình là phân tích văn bản u thành m câu đơn t=z1z2… zm với zk= si… sj (1≤ k≤ m, 1≤ i, j≤ n) có thể chứa từ đơn hay từ phức. Ứng với mỗi câu có được, tiến hành phân tích thành từng từ đơn thể.
Bộ phân tích từ đơn: xét trong mỗi câu đơn chuẩn Sj (1≤ j≤ n) sẽ chứa k từ đơn, mỗi từ đơn Wm (1≤ m≤ k) và Wm+1 (1≤ m≤ k) được phân cách nhau bởi một ký tự khoảng trắng qua đặc điểm này, dễ dàng xây dựng được cơ sở dữ liệu các từ đơn chuẩn và tần số xuất hiện của từ đơn trong từng nội dung của tập huấn luyện. Kết thúc quá trình phân tích từ đơn, sẽ hình thành được một tập hợp gồm nhiều từ đơn, mỗi từ đơn sẽ có 01 mã định danh (id) nhất định và sẽ có 2 tần số xuất hiện: tần số tổng trên tập huấn luyện và tần sốtrên từng nội dung thuộc tập huấn luyện.
Bộ phân tích từ ghép: Xét trong 1 câu tiếng Việt S (Sentence) sẽ gồm W1, W2, W3,… Wntừ, mỗi từ Wi(1≤ i≤ n)là một từ đơn tiếng Việt. Do việc phân tích chỉtập trung từ ghép có 2 tiếng nên mỗi từ ghép CW (Compound Word) được tạo bởi hai từ đơn đứng gần nhau Wi, Wi+1(1≤ i≤ n)và được cách nhau bởi 1 khoảng trắng.
+ Do không xét mặt ngữ nghĩa của từ nên trong quá trình tạo từ ghép theo cách trên sẽ dẫn đến các từ vô nghĩa. Để giải quyết vấn đề này, tác giả đã sử dụng ngưỡng α dùng để đánh giá độchính xác của từ ghép tìmđược. Mỗi từ ghép đều có
riêng một ngưỡng α. Khi ngưỡng α thay đổi giá trị thì độ chính xác của từ ghép cũng bị thay đổi theo.
Xây dựng bộ từ điển từ ghép: Giả sử có tập dự hiệu huấn luyện TD (Training Document), mỗi thư Di TD sẽ có tập các câu đơn Sn. Trong mỗi câu đơn Si Sn (1≤ i≤ n) sẽ gồm các từ đơn W1, W2, W3,… Wn. Vận dụng cơ chế tách từ ghép nêu trên thỏa mỗi từ ghép CW chứa 1 bộ gồm 2 từ đơn { Wj, Wj+1} (1≤ j≤ m), trong đó
Wj và Wj+1là hai từ đơn liên tiếp đứng gần nhau và cách nhau bởi dấu khoảng cách. Ứng với mỗi từ ghép CW tìm được sẽ được đưa vào tập từ ghép nếu từ ghép chưa tồn tại trong tập từ ghép và tăng tần số xuất hiện nếu từ ghép tìm được đã tồn tại trong tập từghép.
Kết quả của quá trình tiền xử lý nêu trên, sẽ có được 1 tập từ ghép chứa cả từ có giá trịsử dụng và những từ 2 tiếng không có ý nghĩa. Mỗi từ trong tập từ này sẽ có 1 tần số k biểu diễn tần số xuất hiện của từ trong tập huấn luyện. Tần số k thể hiện tổng số lần xuất hiện của từ trên toàn bộ tập huấn luyện, mỗi lần từ xuất hiện thì tăng trọng số klên 1 đơn vị.
Tính giá trịcủa ngưỡngαcủa mỗi từ CW trong bộ từ ghép
ge Totalmessa
k
=
(2.28)
Trong đók là tần số xuất hiện của từghép CW trong tập huấn luyện. Ngưỡng α
thuộc khoảng [0.2 - 0.3] thì độ chính xác của từ có thể chấp nhận được. Những từ có ngưỡng α nằm ngoài khoảng cận trên được xếp vào tập các từ cần được huấn luyện tiếp tục.
2.3.3. So sánh các phương pháp tách từ tiếng Việt
Nhìn chung, phương pháp dựa trên từ (word-base) cho độ chính xác khá cao (trên 95%) nhờ vào tập dữ liệu lớn, được đánh dấu chính xác, tuy nhiên hiệu suất của thuật toán phụ thuộc hoàn toàn vào dữ liệu huấn luyện. Với các phương pháp cần phải sử dụng từ điển hoặc tập huấn luyện, ngoài việc tách từ thật chính xác,
còn có thể nhờ vào các thông tin đánh dấu trong tập dữ liệu để thực hiện các mục đích khác cần đến việc xác định từ loại như dịch máy, kiểm tra lỗi chính tả, từ điển đồng nghĩa… Do vây, dù thời gian huấn luyện khá lâu, cài đặt phức tạp, chi phí tạo tập dữ liệu lớn rất tốn kém, nhưng kết quả mà hướng tiếp cận dựa vào từ mang lại cho mục đích dịch máy là rất lớn.
Hướng tiếp cận dựa trên ký tự (character-based) có ưu điểm dễ thực hiện, thời gian thực thi tương đối nhanh, tuy nhiên lại có độ chính xác không cao bằng phương pháp dựa trên từ. Hướng tiếp cận này thích hợp cho các mục đích nghiên cứu không cần đến độ chính xác tuyệt đối cũng như các thông tin về từ loại như phân loại văn bản, lọc spam, firewall… Nhìn trên tổng thể, hướng tiếp cận dựa trên từ có nhiều ưu điểm đáng kểtrong việc định hướng nghiên cứu.
Dựa trên phần so sánh tổng thể các phương pháp và định hướng tách từ nêu trên cùng với mục tiêu chính của đề tài là phân loại nội dung web bằng tiếng Việt nên đề tài quyết định chọn hướng tiếp cận dựa trên “tiếng”. Tuy nhiên, việc phân loại văn bản không yêu cầu việc tách từ phải có độ chính xác cao đến mức từng từ nên luận văn không tập trung vào mặt ý nghĩa cũng như những đặc trưng phức tạp của tiếng Việt như từ đồng nghĩa, từ láy, … mà chỉ xác định tần số của từ đơn, từ ghép tiếng Việt xuất hiện trong nội dung cần lọc nên hướng tiếp cận khác với các phương pháp xác định ngữ nghĩa từ tiếng Việt. Phần dưới sẽ trình bày những đặc điểm chính của phương pháp tiếp cận vấn đề.
Phương pháp tách từ dựa vào xác suất tồn tại của từ, không phụ thuộc ngữ nghĩa tuy không giải quyết được bài toán nhập nhằng về ngữ nghĩa từ nhưng có lợi thế khi áp dụng vào bài toán phân lớp văn bản do bộ từ điển từ dễ dàng cập nhật lượng từ đầy đủ phù hợp với lớp văn bản mà đang muốn phân lớp mà không bị chi phối bởi các lớp khác do trong tiếng Việt có rất nhiều lĩnh vực mà tùy từng lĩnh vực, chủ đềkhác nhau nên có nhiều từ, tiếng khác nhau về mặt phát âm cũng nhưý nghĩa, đồng thời việc xử lý tốn một khoảng thời gian có thể chấp nhận được. Phần
trên đã đưa ra các phương pháp tách từ trong tiếng Việt cũng như so sánh ưu nhược điểm của các phương pháp đó. Phần tiếp theo sẽ trình bàyứng dụng phương pháp tách từ để xây dựng bộ lọc tiếng Việt không lành mạnh.