Cơng cụ trích xuất thơng tin từ Google

Một phần của tài liệu tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 64 - 66)

4.5.1.1. Mc đích

Ngày nay, cùng với sự phát triển nhanh chĩng của các cơng nghệ thơng tin hiện

đại, Internet đã trở thành một thư viện tuyệt vời với một khối lượng văn bản đồ sộ. Do đĩ, việc khai thác thơng tin từ world-wide-web như một tập ngữ liệu khổng lồ

cho các cơng trình nghiên cứu sẽ rút ngắn được thời gian và cơng sức tự xây dựng một tập ngữ liệu riêng. Với sự giúp sức của cơng cụ tìm kiếm miễn phí trên mạng, những thơng tin cần thiết sẽđược lấy về một cách nhanh chĩng và chính xác. Chúng em chọn Google là cơng cụ tìm kiếm chính bởi vì những ưu thế về tính nhanh chĩng, chính xác, và phổ biến của nĩ so với các cơng cụ tìm kiếm khác.

Trong luận văn này, chúng em cần hai loại thơng tin:

¾ Tần số xuất hiện của các văn bản chứa các từ (document frequency) trên các trang web để làm tính cơng thức MI, dựđốn khả năng tồn tại của một từ là

đúng hay khơng

¾ Tần số các văn bản chứa từ với từ khĩa đại diện cho chủ đề dùng để tính mức độ liên quan của từ với các chủđề cần phân loại.

Do vây, nhiệm vụ của cơng cụ trích xuất thơng tin từ Google sẽ lấy kết quả tìm kiếm của Google, trả về cho chương trình khi chúng ta đưa yêu cầu tìm kiếm.

4.5.1.2. Các cơng thc tính xác sut và độ tương h

4.5.1.2.1. Các cơng thức tính xác suất

Khi nhận được kết quả trả về, dựa vào nền tảng của các cơng trình nghiên cứu về

thống kê trên Internet của Rudi & Paul (2005), chúng em sẽ sử dụng các cơng thức sau đây để tính tốn chỉ số MI.

Các cơng thức tính xác suất các từ xuất hiện trên Internet :

¾ Gọi count(w) là số lượng trang web chứa từ w

count(w1 & w2) là số trang web chứa đồng thời w1 và w2

¾ p(w)=count w( ) MAX ¾ 1 2 1 2 ( & ) ( & ) count w w p w w MAX = ¾ Trong đĩ, MAX = 4 * 109;

4.5.1.2.2. Các cơng thức tính độ tương hỗ (Mutual Information – MI)

Đối với hướng tiếp cận N-Gram để tách từ, cơng thức MI để tính tốn khả năng tồn tại một ngữ cần tách trong câu là rất quan trọng. Độ tương hỗ (Mutual Information) cho biết thơng tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi

n tiếng (cw = w1 w2 … wn) . Đối với từ một tiếng, ta quy ước MI = p(w). Đối với từ

ghép từ 2 tiếng trở lên, chúng em thử nghiệm 3 cách tính MI để tìm ra các tính hiệu quả nhất.

¾ MI theo cách tính của IGATEC [H. Nguyen et al, 2005] ) (đã được trình bày

ở mục 4.3.2.1.)

9 1 2

1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (2)

¾ MI theo cách tính của [Ong & Chen, 1999] (đã được trình bày ở mục 4.3.2.1.)

9 Giả sử ta cĩ

ƒ rw = p ( w2 & w3 ...&wn)

9 1 2

1 2

( & & ... & ) ( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rwp w w w (3) ¾ MI do chúng em đề nghị: 9 Giả sử ta cĩ ƒ cw = p( w1 & w2 ...&wn-1 )

ƒ Với n chẵn : lw = p( w1 & w2 ...& wn/2 ), rw = p ( wn/2+1 & wn/2+2 ...&wn)

ƒ Với n lẻ: lw = p( w1 & w2 ...& wn-1 ) , rw = p ( w2 & w3 ...&wn)

9 1 2

1 2

( & & ... & ) ( ) =

( ) ( ) ( & & ... & )

n

n

p w w w

MI cw

p lw +p rwp w w w (4)

Chúng ta sẽ sử dụng các cơng thức trên để tính độ thích nghi của các cá thể

trong thuật tốn di truyền dưới đây. Kết quả của mỗi cơng thức tính MI sẽ ưu tiên cho những loại từ ghép khác nhau mà ta sẽ hiểu rõ hơn trong kết quả thực nghiệm ở

chương 6.

Một phần của tài liệu tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử (Trang 64 - 66)

Tải bản đầy đủ (PDF)

(132 trang)