- C1C2 C3C4 C5 C1C2 C3C4 C5C
2 người mất tớch 10kb 19 TN khoỏng sản TN khoỏng sản
35
Lào cai trữ lượng quạng tại mỏ đồng Sin quyền cú hơn 100 triệu tấn
63kb 155 TN khoỏng sản TN khoỏng sản 36
Phú thủ tướng hoàng Trung hải yờu cầu xử lý nghiờm vụ cướp
than tại mỏ than Mạo Khờ 57kb 120 TNkhoỏng sản TN khoỏng sản 37
Bỡnh thuận cỏc biện phỏp cấp bỏch bảo vệ khu bảo tồn biển hũn cau
27kb 113 Tài nguyờn biển
Tài nguyờn biển 38 Bỡnh thuận phỏt triển hợp tỏc khai thỏc xa bờ và làm dịch vụ trờn biển 35kb 283 Tài nguyờn biển Tài nguyờn biển 39 Bỡnh định viện Hải dương học
mua cỏ mập 28kb 107 Tài nguyờn biển Tài nguyờn biển 40
Bộ trưởng Phạm Khụi Nguyờn tăng cường quản lý tổnghợp thống nhất biển đảo 173kb 424 Tài nguyờn biển Tài nguyờn biển 41 Cần ngăn chặn nạn nghờu tặc
ven biển Bạc liờu 30kb 145
Tài nguyờn biển
Tài nguyờn biển 42 Cồn cỏ khu bảo tồn biển thứ tư
của Việt Nam 55kb 252
Tài nguyờn biển
Tài nguyờn biển 43
Cộng đồng dõn cư Thừa thiờn Huế tham gia quản lý và khai thỏc mụi trường tự nhiờn ven biển
67kb 305 Tài nguyờn biển Tài nguyờn biển 44 Hải phũng quản lý vựng bờ cũn manh mỳn rời rạc 36kb 373 Tài nguyờn biển Tài nguyờn biển 45 Hấp dẫn tuần du lịch biển cồn vành tại Thỏi Bỡnh 68kb 248 Tài nguyờn biển Tài nguyờn biển 46 Quảng Ngói khai thỏc đỏ san hụ
phỏ vỡ mụi trường thủy sinh 29kb 145 TN biển Mụi tường 47
An lóo Hải phũng xõy dựng mụ hỡnh thu gom xừ lý rỏc thải nụng thụn hiệu quả
31kb 178 Mụi trường Mụi trường 48 Biogas VACVINA với cuộc
TT Tờn bài bỏo Kớch thƣớc (KB) Số thuật ngữ xuất hiện Chủ đề gốc Kết quả Phõn lớp PP KNN 49
Bỡnh dương phỏt hiện hơn 40000m3 nước thải nguy hại cú nguy cơ tràn ra mụi trường
42kb 299 Mụi trường Mụi trường 50 Bỡnh thuận thỳ săn lộc vừng tàn
phỏ mụi trường 45kb 508 Mụi trường Mụi trường 51 Bắc giang rỏc thải tồn đọng tại
thụn Nợm xó Dĩnh Kế 30kb 222 Mụi trường Mụi trường 52
Bắt quả tang CTTNHH Thanh Bỡnh đổ chất thải gõy ụ nhiễm mụi trường
30kb 84 Mụi trường Mụi trường 53 Cụng ty luyện đồng Lào cai lỳng
tỳng xử lý chất thải nguy hại 93kb 494 Mụi trường Mụi trường 54
Cụng ty than Hũn gai duy trỡ sản lượng an toàn sản xuất và bảo vệ mụi trường
49kb 448 Mụi trường Mụi trường 55 Brazin hơn 1000 người mất tớch
vỡ lũ lụt 29kb 60
Khớ tượng thủy văn
Khớ tượng thủyvăn 56 Bóo lốc xoỏy hoành hành Mexico 26kb 72 Khớ tượng
thủy văn
Khớ tượng thủy văn 57
Bắc Bộ và Trung Bộ tiếp tục giảm nhiệt sau những ngày nắng núng 34kb 161 Khớ tượng thủy văn Khớ tượng thủyvăn 58 Bắc Trung Bộ cú nắng núng gay gắt trờn 40 độ C 28kb 188 Khớ tượng thủy văn Khớ tượng thủy văn 59 Chõu Á 60 triệu người sẽ đúi
kộm khi băng tan 27kb 96
Khớ tượng thủy văn
Khớ tượng thủyvăn 60 Cỏc tỉnh phớa Bắc từ chiều tối
nay thời tiết dịu mỏt 27kb 166
Khớ tượng thủy văn Khớ tượng thủy văn 61 Cỏc tỉnh phớa đụng Bắc Bộ cần đề phũng tố lốc và giú giật 29kb 195 Khớ tượng thủy văn Khớ tượng thủyvăn 62 Dập tắt đỏm chỏy rừng tại Thanh Húa 32kb 123 Khớ tượng thủy văn Khớ tượng thủy văn 63 Hà Nội lốc xoỏy 1 người tử
vong 25kb 56
Khớ tượng thủy văn
Khớ tượng thủyvăn 64 Mưa lốc làm 86 nhà tốc mỏi tại
Bắc cạn 27kb 98
Khớ tượng thủy văn
Khớ tượng thủy văn
Kết quả kiểm thử thu được:
Độ chớnh xỏc = Tổng số văn bản phõn lớp đỳng chủ đề = 146/155 = 94,19 % Tổng số văn bản kiểm thử
Cú một số bài bỏo hệ thống phõn lớp chưa đỳng với chủ đề gốc, chẳng hạn bài "Trà vinh hơn 1200 giếng khoan nguy cơ gõy ụ nhiễm nguồn nước ngầm". Chủ đề gốc của bài bỏo này là tài nguyờn nước nhưng hệ thống lại phõn vào lớp mụi trường. Sở dĩ cú điều này là do nguyờn nhõn trong bài bỏo cú nhiều từ đề cập đến giếng khoan nước ngầm hỏng cần xử lý, nhưng cũng cú nhiều từ đề cập đến vấn đề ngành tài nguyờn mụi trường của tỉnh phối hợp với trung tõm mụi trường sở khoa học và cụng nghệ, thực hiện xử lý cỏc giếng khoan hỏng trỏnh gõy ụ nhiễm nguồn nước ngầm. Vấn đề này cũng lý giải được bởi cú trường hợp cựng một bài bỏo cũng cú thể đề cập tới một hoặc nhiều lĩnh vực khỏc nhau, cú liờn quan với nhau. Do đú nú cú thể thuộc một hoặc nhiều chủ đề.
4.4. KẾT CHƢƠNG
Chương này đó trỡnh bày cỏc kết quả thử nghiệm thực tế khi tiếp cận bài toỏn phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn và mụi trường học viờn đề xuất trong chương 2, chương trỡnh xõy dựng theo mụ hỡnh trong chương 3.
KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN
1. Kết luận
Luận văn đó giải quyết được cỏc nội dung cơ bản sau:
Phần lý thuyết làm rừ khỏi niệm phõn lớp văn bản, xõy dựng hệ thống phõn lớp văn bản, một số kĩ thuật phõn lớp văn bản, lựa chọn đặc trưng văn bản, thuật toỏn K lỏng giềng…
Về thực hành: Xõy dựng bộ từ điển trờn 51 nghỡn từ khúa, xếp theo abc.. và bộ từ dừng. Dựa vào cơ sở lý thuyết, luận văn đó nghiờn cứu đề xuất hướng tiếp cận đối với bài toỏn phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn mụi trường, sử dụng cỏch tiếp cận lựa chọn đặc trưng cho văn bản mẫu, dựa vào phương phỏp luhn,… để làm giảm kớch thước số chiều khụng gian biểu diễn văn bản mẫu. Cỏch tiếp cận đó mang lại hiệu quả cao trong phõn lớp văn bản. Ngoài ra luận văn cũng tỡm hiểu được bảy loại thụng tin chuyờn ngành về tài nguyờn và mụi trường là thụng tin về tài nguyờn đất, tài nguyờn nước, tài nguyờn biển, tài nguyờn khoỏng sản, mụi trường, đo đạc bản đồ, khớ tượng thủy văn. Tỡm hiểu một số đặc trưng cơ bản tiếng Việt phục vụ cụng việc tỏch từ tiếng Việt.
Luận văn đó dựa vào hướng tiếp cận, thiết kế xõy dựng hệ thống phõn lớp văn bản bỏo chớ tiếng việt gồm một số chức năng chớnh: quản lý văn bản phõn lớp, quản lý văn bản mẫu, quản lý từ điển, từ dừng, chủ đề. Ngoài ra cũn chức năng tiền xử lý, vộc tơ húa,… thiết kế cơ sở dữ liệu gồm cỏc quan hệ chude, quan hệ tapphobien, quan hệ tudung, quan hệ vanban, quan hệ vectovanban, quan hệ tudien.
Trờn cơ sơ phõn tớch thiết kế, luận văn đó thực hiện được phần cài đặt, thử nghiệm cú kết quả tốt, tỏch từ đạt khoảng 97%, phõn lớp đạt khoảng 94%.
Luận văn cũn cú nhược điểm: Thuật toỏn tỏch từ dựa vào từ điển, việc xõy dựng từ điển cũng chưa đầy đủ, và cú những từ cũng chưa hoàn toàn
chớnh xỏc, do đú ảnh hưởng tới kết quả của việc tỏch từ. Mặt khỏc luận văn chưa xử lý được cỏc văn bản tiếng Việt với cỏc phụng chữ khỏc.. nờn cũng hạn chế tới kết quả của hệ thống. việc lựa chọn tập đặc trưng cho chủ đề văn bản cũng chưa hiệu quả cao, do đú ảnh hưởng tới hiệu quả việc phõn lớp (tốc độ cũng như độ chớnh xỏc)