Cơng cụ trích xuất thơng tin từ Google

4.5.1.1. Mục đích

Ngày nay, cùng với sự phát triển nhanh chĩng của các cơng nghệ thơng tin hiện

đại, Internet đã trở thành một thư viện tuyệt vời với một khối lượng văn bản đồ sộ. Do đĩ, việc khai thác thơng tin từ world-wide-web như một tập ngữ liệu khổng lồ

cho các cơng trình nghiên cứu sẽ rút ngắn được thời gian và cơng sức tự xây dựng một tập ngữ liệu riêng. Với sự giúp sức của cơng cụ tìm kiếm miễn phí trên mạng, những thơng tin cần thiết sẽđược lấy về một cách nhanh chĩng và chính xác. Chúng em chọn Google là cơng cụ tìm kiếm chính bởi vì những ưu thế về tính nhanh chĩng, chính xác, và phổ biến của nĩ so với các cơng cụ tìm kiếm khác.

Trong luận văn này, chúng em cần hai loại thơng tin:

¾ Tần số xuất hiện của các văn bản chứa các từ (document frequency) trên các trang web để làm tính cơng thức MI, dựđốn khả năng tồn tại của một từ là

đúng hay khơng

¾ Tần số các văn bản chứa từ với từ khĩa đại diện cho chủ đề dùng để tính mức độ liên quan của từ với các chủđề cần phân loại.

Do vây, nhiệm vụ của cơng cụ trích xuất thơng tin từ Google sẽ lấy kết quả tìm kiếm của Google, trả về cho chương trình khi chúng ta đưa yêu cầu tìm kiếm.

4.5.1.2. Các cơng thức tính xác suất và độ tương hỗ

4.5.1.2.1. Các cơng thức tính xác suất

Khi nhận được kết quả trả về, dựa vào nền tảng của các cơng trình nghiên cứu về

thống kê trên Internet của Rudi & Paul (2005), chúng em sẽ sử dụng các cơng thức sau đây để tính tốn chỉ số MI.

Các cơng thức tính xác suất các từ xuất hiện trên Internet :

¾ Gọi count(w) là số lượng trang web chứa từ w

count(w1 & w2) là số trang web chứa đồng thời w1 và w2

¾ p(w)=count w( ) MAX ¾ 1 2 1 2 ( & ) ( & ) count w w p w w MAX = ¾ Trong đĩ, MAX = 4 * 109;

4.5.1.2.2. Các cơng thức tính độ tương hỗ (Mutual Information – MI)

Đối với hướng tiếp cận N-Gram để tách từ, cơng thức MI để tính tốn khả năng tồn tại một ngữ cần tách trong câu là rất quan trọng. Độ tương hỗ (Mutual Information) cho biết thơng tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi

n tiếng (cw = w1 w2 … wn) . Đối với từ một tiếng, ta quy ước MI = p(w). Đối với từ

ghép từ 2 tiếng trở lên, chúng em thử nghiệm 3 cách tính MI để tìm ra các tính hiệu quả nhất.

¾ MI theo cách tính của IGATEC [H. Nguyen et al, 2005] ) (đã được trình bày

ở mục 4.3.2.1.)

9 1 2

1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (2)

¾ MI theo cách tính của [Ong & Chen, 1999] (đã được trình bày ở mục 4.3.2.1.)

9 Giả sử ta cĩ

rw = p ( w2 & w3 ...&wn)

9 1 2

1 2

( & & ... & ) ( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rw −p w w w (3) ¾ MI do chúng em đề nghị: 9 Giả sử ta cĩ cw = p( w1 & w2 ...&wn-1 )

Với n chẵn : lw = p( w1 & w2 ...& wn/2 ), rw = p ( wn/2+1 & wn/2+2 ...&wn)

Với n lẻ: lw = p( w1 & w2 ...& wn-1 ) , rw = p ( w2 & w3 ...&wn)

9 1 2

1 2

( & & ... & ) ( ) =

( ) ( ) ( & & ... & )

p w w w

MI cw

p lw +p rw −p w w w (4)

Chúng ta sẽ sử dụng các cơng thức trên để tính độ thích nghi của các cá thể

trong thuật tốn di truyền dưới đây. Kết quả của mỗi cơng thức tính MI sẽ ưu tiên cho những loại từ ghép khác nhau mà ta sẽ hiểu rõ hơn trong kết quả thực nghiệm ở

chương 6.

Cơng cụ trích xuất thơng tin từ Google

Linear Least Square Fit (LLSF)

So sánh giữa tiếng Việt và tiếng Anh