II. Ứng dụng luật kết hợp vào khai phá dữ liệu
3. Hoạt động của các Search engine
3.8 Nhận dạng mã tiếng việt
Tiếng Việt chƣa có một bảng mã thống nhất dùng trong cả nƣớc, mỗi vùng quen dùng một loại mã tiếng Việt riêng nhƣ các tỉnh phía Bắc hay dùng ABC,
54 VietWare, phía Nam hay dùng VNI, ĐHBK tpHCM. Điều này gây ra khó khăn khi trao đổi thông tin trên máy tính. Khi ta nhận tập tin tiếng Việt từ máy khác không dùng chung bảng mã tiếng Việt với máy của ta thì ta phải thực hiện thao tác chuyển mã. Nếu đã biết mã nguồn thì công việc trở nên đơn giản hơn, viết một chƣơng trình nhỏ với dữ liệu mã nguồn đã biết ta có thể chuyển đổi mã nhanh chóng. Các phần mềm tiếng Việt thƣờng dùng nhƣ VietWare, VNI đều có chức năng chuyển mã biết mã nguồn này. Vấn đề trở nên phức tạp hơn khi mã nguồn không biết, ta phải tự động đoán ra mã nguồn của đoạn văn tiếng Việt gửi đến. Hiện nay với sự bùng nổ của Internet việc trao đổi thông tin trên mạng thành thƣờng xuyên hơn thì nhu cầu nhận dạng tự động mã tiếng Việt là rất lớn. Ta thử tƣởng tƣợng với bất cứ chƣơng trình nào chạy trên Web server có đầu vào là một đoạn tiếng Việt nhận từ các máy client ở các vùng khác nhau sử dụng các bảng mã khác nhau (nhƣ chƣơng trình truy cập thông tin sách báo, chƣơng trình chọn bài nhạc, các chƣơng trình hỏi đáp cơ sở dữ liệu từ xa v.v… ) đều cần phải nhận dạng loại mã mà client đã dùng để biết đúng ý nghĩa của xâu gửi đến mà đáp ứng yêu cầu của client. Việc nhận dạng mã tiếng Việt còn giúp ta chuyển đổi tất cả các tài liệu trên mạng về một chuẩn mã thuận tiện cho việc xử lý sau này.
55
Chương 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG