Chức năng phõn loại văn bản

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 76)

8 Chương 6 Xõy dựng hệ thống thử nghiệm và kết quả

8.2.1Chức năng phõn loại văn bản

Đõy chớnh là chức năng chớnh của chương trỡnh.

Đầu vào là một văn bản dạng txt, chỳng ta cú thể nhập văn bản trực tiếp vào hoặc load từ file.

Đầu ra là tờn phự hợp nhất mà hệ thống xử lý được. Chức năng hệ thống

Hỡnh 6.17. Chức năng phõn loại văn bản

Hỡnh 6.18. Giao diện chớnh của chương trỡnh

Cỏc chức năng thực hiện trong chương trỡnh :

Tỏch term của văn bản : chức năng này thực hiện việc tỏch cỏc term và loại bỏ stopword của văn bản truy vấn đầu vào, tạo ra một list cỏc term. Trong list này sẽ cú thể cú sự lặp lại cửa cỏc term nếu term đú xuất hiện nhiều lần trong văn bản.

Vector hoỏ văn bản đầu vào : dựa vào list cỏc term tạo đó được tạo ra để tạo ra một đối tượng hashtable chứa ID của term và tần suất xuất hiện của term đú trong văn bản truy vấn. Thời gian cho cả việc tỏch term và vector hoỏ văn bản đầu vào trung bỡnh là 6ms. Tương đối nhanh.

Tớnh độ liờn quan của văn bản truy vấn đầu vào đối với toàn bộ văn bản tập mẫu. Trong chức năng này thỡ sẽ thực hiện truy vấn lần lượt với từng văn bản tập mẫu để tớnh ra giỏ trị độ liờn quan của văn bản truy vấn và cỏc văn bản mẫu đầu vào. Tổng thời gian chủ yếu thuộc vào chức năng này. Khi tăng số lượng tập mẫu thỡ sẽ tăng thời gian, nhưng sẽ tăng theo tỉ lệ thuận, bởi vậy số lượng tập mẫu mà

chỳng ta cú thể mở rộng là lớn, cú thể ước tớnh đến 30.000 văn bản mà thời gian xử lý trung bỡnh cho một văn bản sẽ là 2s.

Tớnh k văn bản gần nhất theo thuật toan kNN. Sau khi đó cú giỏ trị độ liờn quan của văn bản truy vấn và cỏc văn bản tập mẫu thỡ hệ thống sẽ tớnh ra k lớp văn bản cú độ liờn quan là lớn nhất. Giỏ trị k ở đõy người sử dụng cú thể nhập vào ngay ở giao diện, nếu khụng cú sự thay đổi nào từ phớa người sử dụng thỡ hệ thống sẽ mặc định giỏ trị k là 100. Thời gian để thực hiện việc này khụng lớn. Thậm chớ là khụng thay đổi đỏng kể khi giỏ trị k thay đổi lớn, cú thể k la 1000, 2000… hoặc là hơn đi nữa.

Tỡm ra lớp mà văn bản truy vấn thuộc về dựa trờn k văn bản cú độ liờn quan lớn nhất. Chức năng này sẽ tạo ra kết quả chớnh của hệ thống. Nú sẽ tớnh tống cỏc độ liờn quan của cỏc văn bản cựng một lớp trong k văn bản gần nhất, sau đú so sỏnh xem giỏ trị nào là lớn nhất và đưa lớp mà cú độ liờn quan lớn nhất với văn bản truy vấn làm kết quả của chương trỡnh.

Đỏnh giỏ về giao diện của chương trỡnh : giao diện của chương trỡnh tương đối đơn giản và dễ sử dụng. Thể hiện được những kết quả chớnh của chương trỡnh. Cú thể hiện thời gian phõn loại văn bản để người sử dụng cú thể đỏnh giỏ về độ dài của văn bản.

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 76)