Trong quá trình lập chỉ mục Tiếng Anh , Stemming là quá trình lượt bỏ các suffix (phần hậu tố / tiếp vĩ ngữ) của các từ . Việc nằm làm tăng giá trị recall của chương trình, làm cấu trúc cây từđiển chính xác và gọn nhẹ hơn , đương nhiên hiệu quả truy vấn cũng cao hơn .
Ví dụ : studies , studying , studied là các biến thể khác nhau của từ gốc study , nếu không có giai đọan stemming này thì tất cả các từ này đều được lập chỉ mục và bổ
sung vào cây từđiển nếu nó chưa có . Rõ ràng điều này là khuyết điểm lớn của chương trình.
Có nhiều thuật tóan phổ biến cho việc lọai bỏ phần đuôi của một từ tiếng Anh , thông thường đều dựa vào danh sách các hậu tốđểđối chiếu .
Hình 8.3 Lưu đồ nhận dạng bảng mã
Không
Có
Dòng dữ liệu (text/html)
Được một từ
Tra cứu vào từđiển tiếng Việt đã được xây dựng sẵn (theo bảng mã qui định )
Nếu tìm được 8 từ trở lên (thỏa mãn là từ có trong từ điển) Tài liệu sử dụng bảng mã này Có là kí tự khoảng trắng hay khoảng cách hay có mã > Đọc vào từng byte Đủ 30 từ ? Đủ Không Đặt bảng mã cần tìm (TCVN, VNI, PCW …). Chuyển đổi các từở trên từ bảng mã đó về bảng mã qui định
¾ Hệ thống ngoài xử lý được các bảng mã thông thường như TCVN3 , VNI , PCW , VIRQ còn xử lý được văn bản dùng bảng mã Unicode . Như chúng ta đã biết bảng mã unicode ngày nay trở thành chuẩn chung của mọi dạng bảng mã và hầu nhưđược sử
dụng hầu hết trong các trang web . Do đó xử lý được bảng mã Unicode là vấn đề hết sức quan trọng , là giá trị của chương trình.
¾ Unicode là 1 loại bảng mã rất đặc biệt , ta tìm hiểu sơ lược về loại mã này : Font Unicode có 2 dạng :
. UTF8 ( tổ hợp ) : 1byte , 2 byte , 3 byte
. UCS2 ( dựng sẵn ) : 2 byte , 4 byte – thông thường sử dụng 2 byte Do cấu trúc 2 dạng trên khác nhau nên cách xử lý khác nhau.
Chương 9:TÌM KIẾM THÔNG TIN
Hầu hết các Search engine hỗ trợ 2 tuỳ chọn là tìm cơ bản và nâng cao. Quy trình tìm kiếm cơ bản gần như giống nhau ở từng hệ thống. Đó là tiếp nhận câu hỏi, xử
lý toán tử và trả về kết quảđược mô tả qua lưu đồ dưới đây.
Nhằm mục đích minh hoạ, ứng dụng chỉ hỗ trợ : ¾ Các toán tử : AND (mặc định) , OR. ¾ Hệ thống dấu chấm câu : “ “(tìm cụm từ)
Câu truy vấn
Dựa vào từđiển tách thành các mục
Dựa vào file nghịch đảo , lấy danh
Kết hợp danh sách theo tuỳ theo
Hình 9.1 Lưu đồ xử lý câu truy vấn
Khi muốn tìm thông tin, người dùng tương tác với hệ thống thông qua giao diện web. Bộ tìm kiếm thông tin sau khi tiếp nhận câu truy vấn sẽ dựa vào từđiển để tách câu hỏi thành các mục từ có nghĩa. Thuật toán tách mục từ là thuật toán được dùng trong bộ lập chỉ mục nhằm đảm bảo sự tương thích giữa tập mục từ của câu truy vấn và cơ sở dữ liệu chỉ mục.
Ứng dụng dựa vào file nghịch đảo lấy danh sách tài liệu tương ứng với từng mục từ. Một lần nữa lọc lại danh sách này tuỳ theo phép toán được chọn. Sắp xếp kết quả thu được và trả về cho người dùng.
Chương 10: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA
CHƯƠNG TRÌNH