Một số vấn đề về sắp xếp tiếng Việt

Một phần của tài liệu Thiết kế và xây dựng phần mềm sắp xếp tiếng việt theo trường họ tên hỗ trợ cho việc tuyển sinh Đại học – Cao đẳng (Trang 40 - 41)

III. Chơng trình sắp xếp tiếng việt trên Access

3.1 Một số vấn đề về sắp xếp tiếng Việt

Việc sắp xếp các trờng trong bất kỳ một cơ sở dữ liệu(CSDL) nào, bất kỳ một ngôn ngữ nào cũng cực kỳ quan trọng. Nếu dữ liệu không đợc sắp xếp thì việc xử lý, tìm kiếm sẽ gặp rất nhiều khó khăn. Hơn nữa, đối với một số lệnh trong các chơng trình phần mềm nếu trớc khi thực hiện các lệnh đó mà dữ liệu cha đợc sắp xếp thì các lệnh đó không thể thực hiện đợc.

Trong các CSDL soạn thảo bằng các ngôn ngữ chỉ sử dụng các kí tự Latin nên công việc soạn thảo, sắp xếp đợc thực hiện dễ dàng bằng các công cụ só sẵn trong các chơng trình phần mềm. Hơn nữa, các công cụ có sẵn chỉ cho phép chúng ta sắp xếp trờng ký tự theo thứ tự a, b, c, d, e,...và sắp xếp từ trái qua phải. Nhng đối với dữ liệu chữ Việt vì có một số đặc thù riêng nên chúng ta không thể sử dụng trực tiếp đợc các công cụ đó và việc sắp xếp thứ tự từ trái qua phải không có nhiều ý nghĩa và cũng không mang lại hiệu quả cho việc tìm kiếm. Bây giờ, chúng ta giả sử muốn tìm kiếm trong trờng họ và tên của một chơng trình “tuyển sinh Đại học và Cao đẳng” chẳng hạn. Nếu sử dụng các

công cụ có sẵn để sắp xếp thì việc sắp xếp sẽ thực hiện từ trái sang phải. Nh vậy, đối với họ tên ngời Việt Nam có rất nhiều ngời họ “Nguyễn”. Chỉ việc tìm kiếm trong tập hợp những ngời họ “Nguyễn” cũng đã rất khó khăn chứ cha nói đến việc sắp xếp các chữ thuần Việt không tuân theo thứ tự a, b, c, d của hệ… Latin. Thông thờng, trong việc tìm kiếm đối với trờng họ và tên của ngời Việt ngời ta hay tìm theo tên, nếu trùng tên thì tìm theo tên đệm, nếu trùng cả tên và tên đệm thì lúc đó mới tìm theo họ. Khi đó lại nảy sinh ra vấn đề đâu là tên, đâu là họ, đâu là tên đệm. Ví dụ, trong “Nguyễn Thị Thanh Hơng” thì “Nguyễn” là họ, “Hơng” là tên, còn lại là tên đệm. Nhng một số ngời cha đồng ý với quan điểm này mà họ cho rằng “Thanh Hơng” là tên kép. Chính vì quan niệm nh vậy nên đã có nhiều tác giả giải quyết công việc đó bằng cách tách riêng từng phần rồi mới mã hóa và sắp xếp. Nhng cũng có một số ngời dùng phép đảo ngợc trờng đó lên rồi mã hóa và sắp xếp. Chính vì kỹ thuật này mà nó đợc thực hiện nhanh và chính xác nên chơng trình mà em trình bày dới đây cũng đợc thợc hiện bằng cách này, tức là “Nguyễn Thị Thanh Hơng” sẽ đợc đổi thành “Hơng Thanh Thị Nguyễn” sau đó sẽ đợc mã hóa rồi mới sắp xếp và việc sắp xếp này sẽ đợc tuân theo tiêu chuẩn Việt Nam.

Trớc kỹ thuật sắp xếp nh vậy, cùng với sự cần thiết phải sắp xếp trong chơng trình tuyển sinh Đại học và Cao đẳng vì một số yếu tố sau đây :

* Trong công tác tuyển sinh sẽ có rất nhiều thí sinh trong cả nớc tham gia đăng ký dự thi và nh vậy sẽ có một lợng lớn các thí sinh đăng ký dự thi. Để quản lý các thí sinh dự thi đợc chặt chẽ, tìm kiếm và xử lý nhanh thì nhất thiết phải có một phần mềm hỗ trợ cho công tác này.

* Mặt khác, khi hồ sơ của thí sinh đợc nhập vào một cách hoàn thiện trong một CSDL. Nhng nếu nh cứ nhận đợc hồ sơ nào thì ta tiến hành cập nhật ngay hồ sơ đó thì đến khi tiến hành tra cứu hay sửa đổi hay có một yêu cầu gì đó mà ngời quản lý yêu cầu thì sẽ gặp rất nhiều khó khăn. Để khắc phục tình trạng này thì ta cần phải có một chơng trình phần mềm hỗ trợ cho công tác tuyển sinh đợc tốt hơn.

Chính vì lý do đó mà trong chơng trình tuyển sinh nhất thiết phải có phần mềm hỗ trợ việc sắp xếp họ tên này.

Một phần của tài liệu Thiết kế và xây dựng phần mềm sắp xếp tiếng việt theo trường họ tên hỗ trợ cho việc tuyển sinh Đại học – Cao đẳng (Trang 40 - 41)

Tải bản đầy đủ (DOC)

(52 trang)
w