(định cư ven biển đối mặt với nguy cơ nước biển dõng)

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 58 - 62)

- C1C2 C3C4 C5 C1C2 C3C4 C5C

292(định cư ven biển đối mặt với nguy cơ nước biển dõng)

biển dõng)

Tập văn bản kiểm thử cú 155 bài bỏo, tài nguyờn đất cú 29 bài, tài nguyờn nước cú 27 bài, Địa chất khoỏng sản cú 17 bài, Mụi trường cú 29 bài, khớ tượng thủy văn cú16 bài, đo đạc và bản đồ cú 19 bài, Tài nguyờn biển cú18 bài.

4.3. KẾT QUẢ

Chương trỡnh được tiến hành trờn mỏy tớnh Dell, intel core 2, 27 GHz, 4, 00 GB RAM, HDD 500GB.

Cỏc tiờu chớ đỏnh giỏ bao gồm tớnh chớnh xỏc phõn lớp dựa trờn cỏc văn bản được kiểm tra cú nội dung khỏc nhau, kớch thước khỏc nhau, kết quả và tớnh chớnh xỏc của thuật toỏn tỏch từ, …

Kết quả của kiểm thử 155 bài bỏo cho chất lượng cao. Trong quỏ trỡnh xõy dựng tập mẫu học cho hệ thống, nhận thấy hiệu quả của hệ thống phụ thuộc vào chất lượng tập mẫu, một số tham số của giải thuật sử dụng trong mụ hỡnh như giỏ trị k trong thuật toỏn K-NN (k = 100), chỉ số minsup của thuật toỏn Apriori, ngưỡng trong lựa chọn đặc trưng theo phương phỏp luhn (ngưỡng là 2)

4.3.1. Kết quả tỏch từ

Kết quả của tỏch từ được tớnh theo xỏc suất sai của thuật toỏn. Xột nội dung một bài bỏo thuộc chủ đề khớ tượng thủy văn cú tiờu đề "TP.HCM xuất hiện sương mự".

TP.HCM xuất hiện sương mự

Sỏng 19/9, tại TP.HCM đó xuất hiện hiện tượng sương mự dày đặc bao phủ trắng bầu trời, đến hơn 7 giờ sỏng sương mự mới tan dần.

Theo người dõn, tại cỏc quận ven và cỏc huyện ngoại thành, hiện tượng sương mự dày đặc hơn. Riờng tuyến đường Cộng Hũa, quận Tõn Bỡnh, tuy đó gần 6 giờ sỏng nhưng sương mự vẫn dày đặc, người đi xe gắn mỏy phải mở đốn mới rừ đường. Khu vực quanh sõn bay Tõn Sơn Nhất, do hiện tượng sương mự dày đặc đó ảnh hưởng tầm nhỡn cho một số tuyến bay sớm.

Một số người dõn đó gọi đến Đài Khớ tượng Thủy văn TP.HCM để tỡm hiểu về hiện tượng sương mự sẽ kộo dài bao lõu, cú ảnh hưởng đến sức khỏe khụng... Tuy nhiờn, để giữ gỡn sức khỏe, người dõn đó chủ động đeo khẩu trang khi ra đường.

Hỡnh 4.1. Kết quả sau khi lọc nhiễu và tỏch từ dựa vào từ điển

Cỏc từ nằm trong dấu múc vuụng [ ] là thuật ngữ mà chương trỡnh tỏch được. Chương trỡnh tỏch từ theo từng đoạn văn bản, bởi cỏc dấu (.) (,) (!) (?) (-) (/) ()…

Hỡnh 4.2. Kết quả tỏch từ được thống kờ theo tần số xuất hiện và loại bỏ từ dừng

- Thống kờ kết quả:

+ Số thuật ngữ tỏch được: 65 + Số thuật ngữ tỏch đỳng: 63 + Số thuật ngữ thực tế: 65

+ Số lỗi (tớnh theo số thuật ngữ khụng tỏch được và số thuật ngữ tỏch sai): 02

+ tỷ số lỗi/số thuật ngữ tỏch được: 2/65 = 3%

+ Tỷ số thuật ngữ tỏch đỳng / số thuật ngữ thực tế: 63/65 = 97% - Đỏnh giỏ kết quả:

Với việc cài đặt thuật toỏn tỏch từ và loại bỏ từ dừng, theo thuật toỏn đối sỏnh dài nhất từ trỏi sang phải, cho kết quả

+ Tốc độ tỏch từ tương đối ổn định, nhanh.

+ Số thuật ngữ tỏch được khoảng trờn 97%, độ chớnh xỏc cao + Lỗi khoảng 3%

+ Nhược điểm: việc tỏch từ phụ thuộc vào sự đầy đủ và chớnh xỏc của từ điển, với từ điển mà học viờn xõy dựng gồm 51342 từ, tuy cú cố gắng song chưa đầy đủ, và hoàn toàn chớnh xỏc, cú hạn chế cho việc tỏch từ.

+ Dự sao kết quả việc tỏch từ đạt khoảng 97%, cũng đó là yếu tố quan trọng, tớch cực, gúp phần mang lại kết quả bước đầu cho chương trỡnh phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn và mụi trường.

4.3.2. Kết quả phõn lớp văn bản

Thử nghiệm hiệu quả phõn lớp trờn 155 bài bỏo trong website bộ tài nguyờn và mụi trường, thuộc cỏc chủ đề: Tài nguyờn đất, tài nguyờn nước, tài nguyờn khoỏng sản, mụi trường, tài nguyờn biển, đo đạc bản đồ, khớ tượng thủy văn, học viờn thu được kết quả phõn lớp, được mụ tả trong bảng phụ lục.

Bảng 4.2. Trớch kết quả kiểm thử phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn và mụi trường

TT Tờn bài bỏo Kớch thƣớc (KB) Số thuật ngữ xuất hiện Chủ đề gốc Kết quả Phõn lớp PP KNN

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 58 - 62)