Quá trình stemming

Một phần của tài liệu Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt (Trang 114 - 119)

Trong quá trình lập chỉ mục Tiếng Anh , Stemming là quá trình lượt bỏ các suffix (phần hậu tố / tiếp vĩ ngữ) của các từ . Việc nằm làm tăng giá trị recall của chương trình, làm cấu trúc cây từ điển chính xác và gọn nhẹ hơn , đương nhiên hiệu quả truy vấn cũng cao hơn .

Ví dụ : studies , studying , studied là các biến thể khác nhau của từ gốc study , nếu không có giai đọan stemming này thì tất cả các từ này đều được lập chỉ mục và bổ sung vào cây từ điển nếu nó chưa có . Rõ ràng điều này là khuyết điểm lớn của chương trình.

Có nhiều thuật tóan phổ biến cho việc lọai bỏ phần đuôi của một từ tiếng Anh , thông thường đều dựa vào danh sách các hậu tố để đối chiếu .

Hình 8.8 Lưu đồ nhận dạng bảng mã

Không

Dòng dữ liệu (text/html)

Được một từ

Tra cứu vào từ điển tiếng Việt đã được xây dựng sẵn (theo bảng mã qui định )

Nếu tìm được 8 từ trở lên (thỏa mãn là từ có trong

từ điển)

Tài liệu sử dụng bảng mã này Có là kí tự khoảng trắng hay khoảng cách hay có mã

> 256 ? Đọc vào từng byte Đủ 30 từ ? Đủ Không Đặt bảng mã cần tìm (TCVN, VNI, PCW …). Chuyển đổi các từ ở trên từ bảng mã đó về bảng

 Hệ thống ngoài xử lý được các bảng mã thông thường như TCVN3 , VNI , PCW , VIRQ còn xử lý được văn bản dùng bảng mã Unicode . Như chúng ta đã biết bảng mã unicode ngày nay trở thành chuẩn chung của mọi dạng bảng mã và hầu như được sử dụng hầu hết trong các trang web . Do đó xử lý được bảng mã Unicode là vấn đề hết sức quan trọng , là giá trị của chương trình.

 Unicode là 1 loại bảng mã rất đặc biệt , ta tìm hiểu sơ lược về loại mã này : Font Unicode có 2 dạng :

. UTF8 ( tổ hợp ) : 1byte , 2 byte , 3 byte

. UCS2 ( dựng sẵn ) : 2 byte , 4 byte – thông thường sử dụng 2 byte Do cấu trúc 2 dạng trên khác nhau nên cách xử lý khác nhau.

Chương 4: TÌM KIẾM THÔNG TIN

Hầu hết các Search engine hỗ trợ 2 tuỳ chọn là tìm cơ bản và nâng cao. Quy trình tìm kiếm cơ bản gần như giống nhau ở từng hệ thống. Đó là tiếp nhận câu hỏi, xử lý toán tử và trả về kết quả được mô tả qua lưu đồ dưới đây.

Nhằm mục đích minh hoạ, ứng dụng chỉ hỗ trợ :  Các toán tử : AND (mặc định) , OR.  Hệ thống dấu chấm câu : “ “(tìm cụm từ)

Câu truy vấn

Dựa vào từ điển tách thành các mục từ có nghĩa

Dựa vào file nghịch đảo , lấy danh sách các tài liệu tương ứng với từng

mục từ

Kết hợp danh sách theo tuỳ theo phép toán được chọn

Sắp xếp kết quả theo thư tự giảm d6àn của độ ưu tiên

Hình 9.9 Lưu đồ xử lý câu truy vấn

Khi muốn tìm thông tin, người dùng tương tác với hệ thống thông qua giao diện web. Bộ tìm kiếm thông tin sau khi tiếp nhận câu truy vấn sẽ dựa vào từ điển để tách câu hỏi thành các mục từ có nghĩa. Thuật toán tách mục từ là thuật toán được dùng trong bộ lập chỉ mục nhằm đảm bảo sự tương thích giữa tập mục từ của câu truy vấn và cơ sở dữ liệu chỉ mục.

Ứng dụng dựa vào file nghịch đảo lấy danh sách tài liệu tương ứng với từng mục từ. Một lần nữa lọc lại danh sách này tuỳ theo phép toán được chọn. Sắp xếp kết quả thu được và trả về cho người dùng.

Chương 5: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH

Một phần của tài liệu Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt (Trang 114 - 119)

Tải bản đầy đủ (DOC)

(148 trang)
w