Tách từ trong văn bản

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống phân loại tài liệu tiếng việt (Trang 34)

Phƣơng pháp tách từ bằng N-gram:

Hƣớng tiếp cận dựa trên nhiều ký tự (n-gram) là chia văn bản ra thành nhiều chuỗi, mỗi chuỗi gồm hai, ba ký tự trở lên.

Các phƣơng pháp phổ biến là dựa trên việc tách từ gồm hai ký tự sẽ cho kết quả nhiều từ đúng hơn Wu & Tseng, 1993.Ví dụ, ta có một câu ABCDEF, hƣớng tiếp cận trên sẽ chia câu thành AB CD EF.

Một biến thể của phƣơng pháp tách từ hai ký tự là hƣớng tiếp cận cách chia chồng lên nhau, ví dụ ta có ABCDEFG, hƣớng tiếp cận này sẽ chia thành AB BC CD DE DF FG.

Nhóm nghiên cứu của Swiss Federal Institute of Technology (ETH) áp dụng phƣơng pháp biến thể và có thể cải tiến là sử dụng thêm danh sách stoplist (tƣơng tự nhƣ các hƣ từ trong tiếng Việt nhƣ à, ơi..) để tách các ngữ của câu trƣớc khi tách từ [Mateev et al, 1997]. Nhờ vậy, mà kích thƣớc văn bản cần tách từ đƣợc giảm xuống

Mô hình ngôn ngữ:

Một mô hình ngôn ngữ là một mô hình thống kê ƣớc lƣợng xác suất của chuỗi các từ độ dài n (n-gram). Một mô hình ngôn ngữ n-gram sẽ mô hình hóa xác suất của từ hiện tại trong một văn bản dựa trên n-1 từ trƣớc nó. Do đó, Một mô hình n-gram là một chuỗi Markov n-1(n-1th order), Trong đó, xác suất của một chuỗi n từ liên tiếp, W = {w1,…, wn) đƣợc tính toán sử dụng công thức

P (w1, . . ., wn) =

n

i 1

P(wi|w0, . . .,wi−1),

Một cách tiếp cận để ƣớc lƣợng xác suất n-gram từ văn bản huấn luyện là đếm số lƣợng n-grams xuất hiện trong văn bản và sau đó xác định xác suất nhƣ là ƣớc lƣợng hợp lý cực đại (maximum likelihood estimation).

Trong đó r(w) là tần số xuất hiện của n-gram W, N là số n-gram trong văn bản huấn luyện.

Cách tiếp cận đơn giản này có một hạn chế lớn: do số lƣợng các n-gram tăng theo hàm lũy thừa khi tăng n. Không quan tâm tới tập dữ liệu văn bản huấn luyện lớn bao nhiêu đƣợc sử dụng, Sẽ có nhiều n-grams không đƣợc quan sát. Cách tiếp cận hợp lý cực đại (maximum likelihood) trong trƣờng hợp này dẫn đến 2 vấn đề liên quan:

Đầu tiên, quá nhiều xác suất sẽ đƣợc gán cho n-grams đƣợc quan sát và không đƣợc gán cho những n-grams không đƣợc quan sát thấy (không xuất hiện).

Thứ hai, nhiều n-gram sẽ đƣợc gán một xác suất là zero, điều này dẫn đến “vấn đề tần số Zero”.

Giải quyết vấn đề 1 này, công thức đƣợc chỉnh sửa thành.

{

Đề giải quyết vấn đề thứ 2, “vấn đề tần số ZERO”, mô hình làm trơn điển hình đƣợc sử dụng. Một kĩ thuật làm trơn mô hình chung là luật back-off Katz’s, Luật này phát biểu là giải thuật mô hình hóa ƣớc lƣợng xác suất n-gram khi đủ dữ liệu, ngƣợc lại cố ƣớc lƣợng xác suất cho n-1grams, Nếu cần thiết, tiến trình lùi lại đƣợc lập lại.

Trong thí nghiệm đề cập trong bài báo, các tác giả đã sử dụng bộ toolkit mô hình ngôn ngữ của viện nghiên cứu Stanford (SRILM Toolkit) để huấn luyện các mô hình ngôn ngữ mẫu sử dụng mô hình ngôn ngữ sử dụng cho văn bản chƣa thay đổi và đã thay đổi bởi ẩn dữ liệu.

Các tham số quan trọng là: Loại n-gram đƣợc sử dụng:

- Loại giải thuật discounting đƣợc sử dụng. Phƣơng pháp đƣợc hỗ trợ bao gồm Good-Turing, absolute, Witten-Bell, và Kneser-Ney đã chỉnh sữa. - Tùy chọn một từ điển xác định trƣớc.

- Loại bỏ các từ không phổ biến hay là đối xử với chúng nhƣ token chỉ định. - Có loại bỏ trƣờng hợp đặc biệt trong văn bản nhập.

SRILM sử dụng mô hình lùi Katz nhƣ mặc định để làm trơn mô hình ngôn ngữ.

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống phân loại tài liệu tiếng việt (Trang 34)