Chương 3 : LẬP CHỈ MỤC
4. Quá trình stemming
Trong quá trình lập chỉ mục Tiếng Anh , Stemming là quá trình lượt bỏ các suffix (phần hậu tố / tiếp vĩ ngữ) của các từ . Việc nằm làm tăng giá trị recall của chương trình, làm cấu trúc cây từ điển chính xác và gọn nhẹ hơn , đương nhiên hiệu quả truy vấn cũng cao hơn .
Ví dụ : studies , studying , studied là các biến thể khác nhau của từ gốc study , nếu khơng có giai đọan stemming này thì tất cả các từ này đều được lập chỉ mục và bổ sung vào cây từ điển nếu nó chưa có . Rõ ràng điều này là khuyết điểm lớn của chương trình.
Có nhiều thuật tóan phổ biến cho việc lọai bỏ phần đuôi của một từ tiếng Anh , thông thường đều dựa vào danh sách các hậu tố để đối chiếu .
Hình 8.8 Lưu đồ nhận dạng bảng mã
Khơng
Có
Dịng dữ liệu (text/html)
Được một từ
Tra cứu vào từ điển tiếng Việt đã được xây dựng sẵn (theo bảng mã qui định )
Nếu tìm được 8 từ trở lên (thỏa mãn là từ có trong
từ điển)
Tài liệu sử dụng bảng mã này Có là kí tự khoảng trắng hay khoảng cách hay có mã
> 256 ? Đọc vào từng byte Đủ 30 từ ? Đủ Khơng Đặt bảng mã cần tìm (TCVN, VNI, PCW …). Chuyển đổi các từ ở trên từ bảng mã đó về
Hệ thống ngồi xử lý được các bảng mã thơng thường như TCVN3 , VNI , PCW , VIRQ còn xử lý được văn bản dùng bảng mã Unicode . Như chúng ta đã biết bảng mã unicode ngày nay trở thành chuẩn chung của mọi dạng bảng mã và hầu như được sử dụng hầu hết trong các trang web . Do đó xử lý được bảng mã Unicode là vấn đề hết sức quan trọng , là giá trị của chương trình.
Unicode là 1 loại bảng mã rất đặc biệt , ta tìm hiểu sơ lược về loại mã này : Font Unicode có 2 dạng :
. UTF8 ( tổ hợp ) : 1byte , 2 byte , 3 byte
. UCS2 ( dựng sẵn ) : 2 byte , 4 byte – thông thường sử dụng 2 byte Do cấu trúc 2 dạng trên khác nhau nên cách xử lý khác nhau.