Giới thiệu về bảng tần suất

Một phần của tài liệu Đồ án tốt nghiệp - Phân loại văn bản tiếng Việt với giải thuật K-NN (Trang 54)

4.3.1.1. Khái niệm

Nói vắn tắt, bảng tần suất là một danh sách các từ có ghi kèm số lần dùng (từc là ghi kèm tần số) của từng từ trong một hay nhiều văn bản nào đó. Thông thờng, bên cạnh chỉ số về tần số cho mỗi từ, còn có chỉ số về thứ hạng, về độ phân bố của từ đó trong các thể loại văn bản khác nhau. ở một số bảng tần suất, kèm theo tầng số đó là độ tin cậy của nó.

Các từ đợc xếp theo thứ tự tần số giảm dần. Khối lợng lợt từ đợc khảo sát để lập nên một bảng tần suất cũng khác nhau từ trăm nghìn từ tới hàng chục triệu từ, tuỳ theo mục đích và tính chất của bảng tần suất đó.

Trớc khi nghiên cứu cơ cấu một bảng tần suất, chúng ta tìm hiểu mục đích của chúng.

4.3.1.2. Mục đích của bảng tần suất

Ngời ta còn dùng bảng tần suất vào những mục đích khác nh tìm quy luật ngôn ngữ mã hoá ngôn ngữ trên cấp độ từ hoặc cấp độ các kết cấu có dạng thức từ, để phục vụ cho các tác dịch máy nói riêng và xử lý tự động văn bản nói chung, để làm từ điển hệ thống khái niệm và để phục vụ cho tất cả những công tác khác liên quan tới hoạt động ngôn từ.

Chẳng hạn trong ấn bản báo chí, ngời ta sử dụng rộng rãi sự viết tắt, những tên tắt này mang lợng thông tin rất lớn, vì thế cần đặc biệt tránh đặt các tên tắt mơ hồ, khi thuật ngữ nào đợc dùng nhiều sẽ đợc mang tên tắt theo lối viết chính thống. Ví dụ khi tạo tên tắt theo lối ghép các chữ cái đứng đầu mỗi tiến lại với nhau thì hai thuật ngữ Personal Computer (máy tính cá nhân) và Program Counter (bộ đếm chơng trình) đều sẽ đợc viết tắt thành PC. Ký hiệu PC có thể dùng để trỏ một thuật ngữ. Dựa theo tiêu chuẩn tần số ngời ta dùng PC để trỏ thuật ngữ thứ nhất vì nó đợc dùng nhiều hơn so với thuật ngữ kia.

Một phần của tài liệu Đồ án tốt nghiệp - Phân loại văn bản tiếng Việt với giải thuật K-NN (Trang 54)