Người mất tớch 10kb 19 TN khoỏng sản TN khoỏng sản

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 64 - 68)

- C1C2 C3C4 C5 C1C2 C3C4 C5C

2người mất tớch 10kb 19 TN khoỏng sản TN khoỏng sản

35

Lào cai trữ lượng quạng tại mỏ đồng Sin quyền cú hơn 100 triệu tấn

63kb 155 TN khoỏng sản TN khoỏng sản 36

Phú thủ tướng hoàng Trung hải yờu cầu xử lý nghiờm vụ cướp

than tại mỏ than Mạo Khờ 57kb 120 TNkhoỏng sản TN khoỏng sản 37

Bỡnh thuận cỏc biện phỏp cấp bỏch bảo vệ khu bảo tồn biển hũn cau

27kb 113 Tài nguyờn biển

Tài nguyờn biển 38 Bỡnh thuận phỏt triển hợp tỏc khai thỏc xa bờ và làm dịch vụ trờn biển 35kb 283 Tài nguyờn biển Tài nguyờn biển 39 Bỡnh định viện Hải dương học

mua cỏ mập 28kb 107 Tài nguyờn biển Tài nguyờn biển 40

Bộ trưởng Phạm Khụi Nguyờn tăng cường quản lý tổnghợp thống nhất biển đảo 173kb 424 Tài nguyờn biển Tài nguyờn biển 41 Cần ngăn chặn nạn nghờu tặc

ven biển Bạc liờu 30kb 145

Tài nguyờn biển

Tài nguyờn biển 42 Cồn cỏ khu bảo tồn biển thứ tư

của Việt Nam 55kb 252

Tài nguyờn biển

Tài nguyờn biển 43

Cộng đồng dõn cư Thừa thiờn Huế tham gia quản lý và khai thỏc mụi trường tự nhiờn ven biển

67kb 305 Tài nguyờn biển Tài nguyờn biển 44 Hải phũng quản lý vựng bờ cũn manh mỳn rời rạc 36kb 373 Tài nguyờn biển Tài nguyờn biển 45 Hấp dẫn tuần du lịch biển cồn vành tại Thỏi Bỡnh 68kb 248 Tài nguyờn biển Tài nguyờn biển 46 Quảng Ngói khai thỏc đỏ san hụ

phỏ vỡ mụi trường thủy sinh 29kb 145 TN biển Mụi tường 47

An lóo Hải phũng xõy dựng mụ hỡnh thu gom xừ lý rỏc thải nụng thụn hiệu quả

31kb 178 Mụi trường Mụi trường 48 Biogas VACVINA với cuộc

TT Tờn bài bỏo Kớch thƣớc (KB) Số thuật ngữ xuất hiện Chủ đề gốc Kết quả Phõn lớp PP KNN 49

Bỡnh dương phỏt hiện hơn 40000m3 nước thải nguy hại cú nguy cơ tràn ra mụi trường

42kb 299 Mụi trường Mụi trường 50 Bỡnh thuận thỳ săn lộc vừng tàn

phỏ mụi trường 45kb 508 Mụi trường Mụi trường 51 Bắc giang rỏc thải tồn đọng tại

thụn Nợm xó Dĩnh Kế 30kb 222 Mụi trường Mụi trường 52

Bắt quả tang CTTNHH Thanh Bỡnh đổ chất thải gõy ụ nhiễm mụi trường

30kb 84 Mụi trường Mụi trường 53 Cụng ty luyện đồng Lào cai lỳng

tỳng xử lý chất thải nguy hại 93kb 494 Mụi trường Mụi trường 54

Cụng ty than Hũn gai duy trỡ sản lượng an toàn sản xuất và bảo vệ mụi trường

49kb 448 Mụi trường Mụi trường 55 Brazin hơn 1000 người mất tớch (adsbygoogle = window.adsbygoogle || []).push({});

vỡ lũ lụt 29kb 60

Khớ tượng thủy văn

Khớ tượng thủyvăn 56 Bóo lốc xoỏy hoành hành Mexico 26kb 72 Khớ tượng

thủy văn

Khớ tượng thủy văn 57

Bắc Bộ và Trung Bộ tiếp tục giảm nhiệt sau những ngày nắng núng 34kb 161 Khớ tượng thủy văn Khớ tượng thủyvăn 58 Bắc Trung Bộ cú nắng núng gay gắt trờn 40 độ C 28kb 188 Khớ tượng thủy văn Khớ tượng thủy văn 59 Chõu Á 60 triệu người sẽ đúi

kộm khi băng tan 27kb 96

Khớ tượng thủy văn

Khớ tượng thủyvăn 60 Cỏc tỉnh phớa Bắc từ chiều tối

nay thời tiết dịu mỏt 27kb 166

Khớ tượng thủy văn Khớ tượng thủy văn 61 Cỏc tỉnh phớa đụng Bắc Bộ cần đề phũng tố lốc và giú giật 29kb 195 Khớ tượng thủy văn Khớ tượng thủyvăn 62 Dập tắt đỏm chỏy rừng tại Thanh Húa 32kb 123 Khớ tượng thủy văn Khớ tượng thủy văn 63 Hà Nội lốc xoỏy 1 người tử

vong 25kb 56

Khớ tượng thủy văn

Khớ tượng thủyvăn 64 Mưa lốc làm 86 nhà tốc mỏi tại

Bắc cạn 27kb 98

Khớ tượng thủy văn

Khớ tượng thủy văn

Kết quả kiểm thử thu được:

Độ chớnh xỏc = Tổng số văn bản phõn lớp đỳng chủ đề = 146/155 = 94,19 % Tổng số văn bản kiểm thử

Cú một số bài bỏo hệ thống phõn lớp chưa đỳng với chủ đề gốc, chẳng hạn bài "Trà vinh hơn 1200 giếng khoan nguy cơ gõy ụ nhiễm nguồn nước ngầm". Chủ đề gốc của bài bỏo này là tài nguyờn nước nhưng hệ thống lại phõn vào lớp mụi trường. Sở dĩ cú điều này là do nguyờn nhõn trong bài bỏo cú nhiều từ đề cập đến giếng khoan nước ngầm hỏng cần xử lý, nhưng cũng cú nhiều từ đề cập đến vấn đề ngành tài nguyờn mụi trường của tỉnh phối hợp với trung tõm mụi trường sở khoa học và cụng nghệ, thực hiện xử lý cỏc giếng khoan hỏng trỏnh gõy ụ nhiễm nguồn nước ngầm. Vấn đề này cũng lý giải được bởi cú trường hợp cựng một bài bỏo cũng cú thể đề cập tới một hoặc nhiều lĩnh vực khỏc nhau, cú liờn quan với nhau. Do đú nú cú thể thuộc một hoặc nhiều chủ đề.

4.4. KẾT CHƢƠNG

Chương này đó trỡnh bày cỏc kết quả thử nghiệm thực tế khi tiếp cận bài toỏn phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn và mụi trường học viờn đề xuất trong chương 2, chương trỡnh xõy dựng theo mụ hỡnh trong chương 3.

KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN

1. Kết luận

Luận văn đó giải quyết được cỏc nội dung cơ bản sau:

Phần lý thuyết làm rừ khỏi niệm phõn lớp văn bản, xõy dựng hệ thống phõn lớp văn bản, một số kĩ thuật phõn lớp văn bản, lựa chọn đặc trưng văn bản, thuật toỏn K lỏng giềng…

Về thực hành: Xõy dựng bộ từ điển trờn 51 nghỡn từ khúa, xếp theo abc.. và bộ từ dừng. Dựa vào cơ sở lý thuyết, luận văn đó nghiờn cứu đề xuất hướng tiếp cận đối với bài toỏn phõn lớp văn bản bỏo chớ tiếng Việt về tài nguyờn mụi trường, sử dụng cỏch tiếp cận lựa chọn đặc trưng cho văn bản mẫu, dựa vào phương phỏp luhn,… để làm giảm kớch thước số chiều khụng gian biểu diễn văn bản mẫu. Cỏch tiếp cận đó mang lại hiệu quả cao trong phõn lớp văn bản. Ngoài ra luận văn cũng tỡm hiểu được bảy loại thụng tin chuyờn ngành về tài nguyờn và mụi trường là thụng tin về tài nguyờn đất, tài nguyờn nước, tài nguyờn biển, tài nguyờn khoỏng sản, mụi trường, đo đạc bản đồ, khớ tượng thủy văn. Tỡm hiểu một số đặc trưng cơ bản tiếng Việt phục vụ cụng việc tỏch từ tiếng Việt.

Luận văn đó dựa vào hướng tiếp cận, thiết kế xõy dựng hệ thống phõn lớp văn bản bỏo chớ tiếng việt gồm một số chức năng chớnh: quản lý văn bản phõn lớp, quản lý văn bản mẫu, quản lý từ điển, từ dừng, chủ đề. Ngoài ra cũn chức năng tiền xử lý, vộc tơ húa,… thiết kế cơ sở dữ liệu gồm cỏc quan hệ chude, quan hệ tapphobien, quan hệ tudung, quan hệ vanban, quan hệ vectovanban, quan hệ tudien.

Trờn cơ sơ phõn tớch thiết kế, luận văn đó thực hiện được phần cài đặt, thử nghiệm cú kết quả tốt, tỏch từ đạt khoảng 97%, phõn lớp đạt khoảng 94%.

Luận văn cũn cú nhược điểm: Thuật toỏn tỏch từ dựa vào từ điển, việc xõy dựng từ điển cũng chưa đầy đủ, và cú những từ cũng chưa hoàn toàn (adsbygoogle = window.adsbygoogle || []).push({});

chớnh xỏc, do đú ảnh hưởng tới kết quả của việc tỏch từ. Mặt khỏc luận văn chưa xử lý được cỏc văn bản tiếng Việt với cỏc phụng chữ khỏc.. nờn cũng hạn chế tới kết quả của hệ thống. việc lựa chọn tập đặc trưng cho chủ đề văn bản cũng chưa hiệu quả cao, do đú ảnh hưởng tới hiệu quả việc phõn lớp (tốc độ cũng như độ chớnh xỏc)

Một phần của tài liệu Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường (Trang 64 - 68)