Nguyên lý thống kê dựa trên Internet

Một phần của tài liệu (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền (Trang 51 - 54)

Chương 3. SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT

3.2. Nguyên lý thống kê dựa trên Internet

Internet là kho dữ liệu vô tận, việc khai thác các thông tin trên đó không thể thực hiện thủ công mà phải thông qua sự hỗ trợ của một công cụ tìm kiếm trên mạng. Theo Rudi Cilibrasi & Paul Vitanyi [23], công cụ tìm kiếm Google có thể dùng để tự động khám phá ý nghĩa của từ. Tác giả đã sử dụng kết quả tìm kiếm của Google để huấn luyện ngữ nghĩa của các từ cho phần mềm. Để tính toán mức độ liên quan giữa từ x với từ y, Rudi & Paul đƣa ra công thức tính khoảng cách NGD (Normalise Google Distance) nhƣ sau:

NGD =

)}

( log ), ( min{log log

) , ( log )}

( log ), ( max{log

y f x f M

y x f y

f x f

 (3.1)

Trong đó:

f(x) là số trang web chứa từ x mà Goole trả về.

f(x,y) là số trang web chứa đồng thời từ x và từ y.

M = 8,058,044,651 là số trang Web đƣợc Google đánh chỉ mục.

Với công thức trên, giá trị của NGD càng nhỏ thì mức độ liên quan giữa hai từ càng cao. Hơn nữa, NGD là số tỉ lệ bất biến nên có tính ổn định với gia tăng số lƣợng trang Web trên Google. Đây là tính chất quan trọng do số lƣợng trang Web được Google đánh chỉ mục tăng thường xuyên nên số trang Web chứa các từ tìm kiếm cũng tăng theo tỉ lệ đó. Nghiên cứu của Rudi & Paul đã mở ra một hướng tiếp cận mới cho các tìm hiểu, nghiên cứu khác nhờ tính không giới hạn bởi dữ liệu, dễ dàng thực thi.

Thông qua các nghiên cứu của H. Nguyen [2, 17, 26] có thể thấy rằng thông qua các Search Engine thương mại, có thể rút trích những thông tin thống kê hữu ích từ Internet. Đó là tần số tài liệu (document frequency - df), số lƣợng các tài liệu đã đƣợc lập chỉ mục có chứa từ cần xét. Chuẩn hóa giá trị df bằng cách chia cho một hằng số MAX (là số lƣợng các tài liệu tiếng Việt đã đƣợc lập chỉ mục) để tính xác suất xuất hiện của một từ trên Internet.

p(x) =

MAX x df ( )

= MAX x count ( )

(3.2)

Trên thực tế, khó có thể biết đƣợc chính xác số lƣợng các tài liệu tiếng Việt đã đƣợc lập chỉ mục. Do đó, thông qua thực nghiệm (bằng công cụ tìm kiếm Google) tính giá trị df của các từ thông dụng, hằng số MAX đƣợc lựa chọn cho thuật toán là 10 9 .

Tiếng Việt df

có 21.3 × 10 6

của 20.4 × 10 6

một 14.4 × 10 6

Bảng 3.4. Ví dụ về tần số tài liệu của một số từ thông dụng trong tiếng Việt.

Do từ tiếng Việt gồm một (số) tiếng liên tiếp nhau, ta cần độ đo mức độ liên kết giữa các tiếng. Thông tin hỗ trợ (Mutual Information - MI) là một khái niệm quan trọng trong lý thuyết thông tin, đƣợc dùng trong xử lý ngôn ngữ tự nhiên để thể hiện quan hệ giữa hai từ cụ thể x và y:

MI (x, y) =

) (

* ) (

) , log (

y p x p

y x

p (3.3)

Đối với nhóm n tiếng (n-gram) công thức tính MI cho n-gram đƣợc H.

Nguyen sử dụng:

MI (cx) = 

n

j

n j

n

x x

x p x p

x x

x p

1

2 1 2 1

)

&

...

&

&

( ) (

)

&

...

&

&

(

(3.4)

với cx là chuỗi gồm n tiếng (cx = s 1 s 2 …s n )

Một cách tính khác của MI cũng đƣợc Ong & Chen [27] đề nghị:

MI(cx) =

) ( ) ( ) (

) (

cx p rx p lx p

cx p

 (3.5)

với lx và rx là hai chuỗi con dài nhất (n-1) của cx (lx = s 1 s 2 …s n-1 và rx = s 2 s 3 …s n ).

Nếu giá trị MI(cx) lớn thì lx và rx có khuynh hướng cùng xuất hiện chung trong tài liệu trên Internet (tức là cx có khả năng cao là từ ghép).

Ví dụ: xét chuỗi “đại học khoa học tự nhiên”, thực hiện so sánh khả năng chuỗi “khoa học tự nhiên” hay “học khoa học tự” là từ ghép cho thấy

“khoa học tự nhiên” có giá trị MI lớn hơn hẳn MI của “học khoa học tự”

(không có ý nghĩa).

Chuỗi wf MI

khoa học tự nhiên 39200 0.92

học tự nhiên 39900

học khoa học tự 14900 0.27

học khoa học 28600

Bảng 3.5. Ví dụ về MI của n-gram.

Đối với các từ ghép có i tiếng, cách tính tần số tương đối [theo Su et al, 1993] cũng đƣợc định nghĩa nhƣ sau:

r i = K

f i

(3.6)

Trong đó: f i là tần số xuất hiện của từ ghép có i tiếng (i th n-gram) trong tập dữ liệu và K là số lần xuất hiện trung bình của một từ. Nói cách khác f i được bình thường hóa bằng cách chia cho K để lấy tỷ lệ liên quan.

Có thể thấy rằng, cách tính tần số tương đối sẽ ưu tiên cho những từ xuất hiện với tần số cao và bỏ mất từ xuất hiện với tần số thấp. Vì vậy, công thức (3.6) đƣợc dùng nhƣ một thuộc tính hỗ trợ cho việc tách từ. Khi sử dụng tập dữ liệu, các giá trị f và K là hoàn toàn tính được. Tuy nhiên phương pháp IGATEC lại lấy kết quả số lƣợng trang Web chứa từ cần tìm nên không thể tính được số K. Do vậy trong khuôn khổ luận văn này, cách tính tần số tương đối vẫn chƣa đƣợc áp dụng cho tiếng Việt.

Một phần của tài liệu (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền (Trang 51 - 54)

Tải bản đầy đủ (PDF)

(71 trang)