Xử lý dữ liệu

Chƣơng 3 SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT

3.3. Sử dụng giải thuật di truyền để tách từ tiếng Việt

3.3.2. Xử lý dữ liệu

3.3.2.1. Trích xuất thông tin từ Internet

Nhƣ đã phân tích, tìm hiểu ở chƣơng 1, việc trích xuất thông tin về tần số xuất hiện của từ đƣợc thực hiện thông qua Module Online Extractor. Nhằm mục đích tăng tốc độ trích xuất thông tin, tránh việc phải thực hiện tìm kiếm nhiều lần, các tập tin đệm đƣợc sử dụng với mục đích lƣu lại hay cập nhật kết quả các lần tìm kiếm trƣớc. Chúng ta có thể sử dụng một số cách khác nhau để lấy kết quả tìm kiếm: dịch vụ Web do Google cung cấp, tải trang kết quả về máy cục bộ sau đó sử dụng XPath hay tìm kiếm chuỗi.

Google Web Service: dịch vụ web của Google (đƣợc cung cấp tại địa chỉ: http://api.google.com/GoogleSearch.wsdl) là một phƣơng pháp để khai thác, triách xuất thông tin. Google Web Service yêu cầu phải đăng ký tài khoản trƣớc khi sử dụng. Với mỗi tài khoản Google giới hạn số lƣợng truy vấn là 1000 truy vấn/ngày. Một số tham số cần biết khi sử dụng dịch vụ:

 q: Câu truy vấn

 n: Số kết quả trả về trên từng trang  lr: Giới hạn phạm vi ngôn ngữ tìm kiếm  ie: Bảng mã câu truy vấn sử dụng

 oe: Bảng mã của kết quả trả về.

Một số câu truy vấn đặc biệt trên Google:

Truy vấn đặc biệt Câu truy vấn Ý nghĩa

khỏi kết quả tìm kiếm Từ khóa “or” vacation london or

paris Phép hoặc Giới hạn site Admission

site: www.vnexpress.net

site: tìm kiếm trong site đƣợc chỉ định Giới hạn ngày Star Wars daterange: 2452122- 2452234 daterange: trả về các file có thời gian thõa mãn điều kiện

Lọc file Google filetype: doc or

filetype: pdf

filetype: tìm kiếm các file có kiểu mở rộng đƣợc liệt kê Loại trừ file Google -filetype: doc or

-filetype: pdf -filetype: ngƣợc lại với lọc file Tìm theo tiêu đề intitle:Google search intitle: tìm kiếm tiêu đề web

Bảng 3.7. Một số câu truy vấn đặc biệt của Google.

Với Xpath và tìm kiếm chuỗi: trang kết quả trả về sẽ đƣợc chuyển sang định dạng xHTML dùng cho việc trích xuất dùng Xpath (Xpath đƣợc cung cấp tại địa chỉ http://www.w3.org/TR/XPath20) hay thực hiện tìm kiếm trên chuỗi. Cả hai phƣơng pháp này đều cho hiệu suất tốt (khoảng 1-3s/truy vấn). Xpath là định dạng đƣợc W3C đề nghị đƣợc sử dụng rộng rãi trong việc truy vấn tập tin XML. Sử dụng Xpath có thuận lợi hơn tìm kiếm chuỗi ở chỗ có thể sử dụng trích xuất trên nhiều ngôn ngữ trả về từ Google và nếu cấu trúc của trang web thay đổi thì ta vẫn lấy đƣợc thông tin trả về của Google. Trong khi đó việc tìm kiếm chuỗi sẽ phụ thuộc vào các câu đặc biệt (nhƣ “các kết quả ”...). Do đó, nếu các trang trả về của Google trình bày khác đi, cách tìm kiếm chuỗi sẽ không cho kết quả mong muốn. Tuy nhiên, sử dụng cách tìm kiếm chuỗi sẽ cho kết quả nhanh hơn dùng Xpath vì hệ thống không phải tốn một thời gian phân tích dữ liệu thành dạng tài liệu XML.

3.3.2.2. Tổ chức lưu trữ dữ liệu dưới dạng file Cache

Hƣớng tiếp cận của luận văn dựa trên thống kê từ Google, mỗi lần cần lấy tần số xuất hiện của một từ mới phải thực hiện lấy thông tin từ Google, điều này làm tiêu tốn thời gian chờ đợi. Do vậy các thông tin lấy đƣợc từ Internet sẽ đƣợc lƣu lại vào một file dữ liệu đệm để có thể sử dụng lại mỗi khi cần đến. Việc quản lý dữ liệu đƣợc thực hiện trên file văn bản thông thƣờng trên kiểu fonts Unicode UTF-8.

File dữ liệu đệm chứa thông tin:  Từ: từ đã tìm từ Google.

 Xác suất: xác suất của từ đó trên Google.

 Loại từ mang một trong các giá trị: W(là từ), NW (không là từ), WC (có thể là từ), NWC (không thể là từ), UD (chƣa phân loại).

Khi bắt đầu hoạt động, hệ thống tự động thực hiện đọc các file dữ liệu, phân tích chuỗi trong file để lấy thông tin. Cách xử lý này sẽ làm tăng tốc độ tìm kiếm thông tin của từ.

Các toán tử cao cấp

Các sơ đồ lựa chọn