Lấy thơng tintừ internet

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 58 - 81)

Kết quả của nguồn thơng tin là danh sách các file dạng html. Trong hình 24, hệ thống được xây dựng với thư viện crawler4j với một số cấu hình mặc định. Nguồn thơng tin cĩ thể là từ trung tâm dự báo thời tiết hoặc trang thoitiet.net.Ngồi ra, người quản trị của hệ thống cĩ thể thêm đường liên kết tới một số nguồn thơng tin khác.

Số lượng tiến trình chạy song song để thu thập dữ liệu đang được để với giá trị mặc định là 2, nghĩa là cĩ thể chạy 2 tiến trình song song để lấy nguồn dữ liệu về. Độ sâu khi thu thập dữ liệu là 3. Ví dụ, giả sử trang thơng tin đầu tiên chúng ta thu thập được, gọi là trang A, cĩ liên kết tới trang B, trang B lại liên kết tới trang C, sau đĩ liên kết tới trang D. Khi đĩ cấu trúc liên kết sẽ là:

A -> B -> C -> D

Do trang A là bắt đầu, sẽ cĩ độ sâu là 0. “B” sẽ cĩ độ sâu là 1, và tiếp tục. Thường thì khơng cĩ giới hạn về độ sâu trong quá trình thu thập dữ liệu, tuy nhiên chúng ta nên thiết lập giá trị này phù hợp để cân bằng giữa thời gian xử lý và các thơng tin liên

Với sự hỗ trợ của thư viện nguồn mở crawler4j, hệ thống thu thập được khoảng 50 trang thơng tin/ngày. Sau khi loại bỏ sự trùng lặp, hệ thống đang giữ lại và thu thập được khoảng ~1500 trang thơng tin tiếng Việt về tình hình thời tiết, trong khoảng thời tương đối ngắn (~ gần 2 tháng). Các trang thơng tin được lưu theo cùng tên, gắn với một số thứ tự và khơng trùng nhau. Ví dụ:

TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG61.html TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG64.html TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG998.html Những thơng tin về định dạng, thẻ của html cũng được loại bỏ hết trong bước này. Những tệp tin này sẽ là nguồn thơng tin cho các bước tiếp theo của hệ thống. Do quá trình xử lý bản tin với thẻ html của trang tin cĩ nhiều cấu trúc khơng thống nhất, nên việc xử lý tin từ các thẻ trở nên khĩ khăn, do đĩ các thẻ sẽ khơng được giữ lại trong bước thu thập dữ liệu này.

4.1.2. Tiền xử lý dữ liệu

4.1.2.1 Loại bỏ các thơng tin khơng liên quan

Các thơng tin thời tiết mà hệ thống quan tâm sẽ được xử lý bằng biểu thức chính quy. Tuy nhiên, một số thơng tin khơng được trích chọn đúng, do đĩ người huấn luyện mơ hình phải can thiệp và giữ lại các thơng tin này.

Các mẫu biểu thức chính quy được sử dụng để tách các thơng tin thời tiết gồm Bảng 4: Các mẫu biểu thức chính quy được sử dụng trong hệ thống

Mẫu biểu thức chính quy

Mơ tả Ví dụ các thơng tin được trích chọn bởi mẫu này

trung tâm dự báo khí tượng thủy văn trung ương(.+?)\s*thư nội bộ

Trích chọn các mẫu tin cĩ tiêu đề và thời gian bản tin được báo cáo.

TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG Chủ Nhật, 01/02/2015, 17:4 (GMT+7) Thư nội bộ thời tiết hiện tại(\s*)cập

nhật

lúc:(.*?)(\d){2}\/(\d){2 }\/(\d){4}

Chi tiết thơng tin thời tiết được cập nhật theo thời điểm cụ thể

Thời tiết hiện tại : Đà Nẵng 23°C Hải Phịng 17°C Nha Trang 26°C Pleiku 23°C Sơn La 16°C T.P Hồ Chí Minh 31°C Hà Nội 13°C Vinh 17°C Cập nhật lúc: : 16h - 01/02/2015

dự báo thời tiết(.*?)về đầu trang

Thơng tin dự báo thời tiết cho các khu vực

Dự báo thời tiết - Đêm 18 và ngày 19/01/2015 Phía Tây Bắc Bộ Nhiều mây, cĩ mưa vài nơi, sáng sớm cĩ sương mù và sương mù nhẹ rải rác, trưa chiều giảm mây trời nắng . Giĩ nhẹ. Trời rét. Nhiệt độ thấp nhất từ : : 9 - 12, cĩ nơi dưới 8 độ o C Nhiệt độ cao nhất từ : : 18 – 21, cĩ nơi 22 - 24 o C Phía Đơng Bắc Bộ Ít

mây, đêm khơng mưa, sáng sớm cĩ sương mù và sương mù nhẹ rải rác, ngày nắng . Giĩ đơng bắc 2 - 3. Trời rét. Nhiệt độ thấp nhất từ : : 11 - 14, vùng núi cĩ nơi dưới 10 o C Nhiệt độ cao nhất từ : : 19 – 22 o C Thanh Hĩa - Thừa Thiên Huế Nhiều mây, phía Bắc khơng mưa, sáng sớm cĩ sương mù và sương mù nhẹ rải rác, trưa chiều trời nắng; phía Nam đêm cĩ mưa rải rác, ngày cĩ mưa vài nơi. Giĩ bắc đến tây bắc cấp 2 – 3. Trời rét. Nhiệt độ thấp nhất từ : : 11 - 14, phía nam 14 - 17 o C Nhiệt độ cao nhất từ : : 19 - 22 o C Đà Nẵng đến Bình Thuận Phía bắc nhiều mây, đêm cĩ mưa, mưa rào rải rác, ngày cĩ mưa vài nơi; phía nam mây thay đổi, cĩ mưa vài nơi. Giĩ đơng bắc cấp 3. Nhiệt độ thấp nhất từ : : 17 - 20, phía nam 20 - 23 o C Nhiệt độ cao nhất từ : : 23 - 26 độ, phía nam 27 - 30 o C Tây Nguyên Mây thay đổi, cĩ mưa vài nơi. Giĩ đơng bắc cấp 2 - 3. Nhiệt độ thấp nhất từ : : 14 – 17 o C Nhiệt độ cao nhất từ : : 25 - 28 o C Nam Bộ Mây thay đổi, cĩ mưa rào vài nơi. Giĩ đơng bắc cấp 2 - 3. Nhiệt độ thấp nhất từ : : 20 – 23 o C Nhiệt độ cao nhất từ : : 28 – 31 o C Hà Nội Ít mây, đêm khơng mưa, sáng sớm cĩ sương mù nhẹ, ngày nắng. Giĩ nhẹ. Trời rét. Nhiệt độ thấp nhất từ : : 12 - 15 o C Nhiệt độ cao nhất từ : : 19 – 22 o C Về đầu trang bản tin dự báo thủy

văn(.*?)các tin khác

Bản tin dự báo thời tiết Bản tin dự báo thủy văn hạn ngắn các sơng Trung Bộ, Tây Nguyên và Nam Bộ

BẢN TIN THUỶ VĂN CÁC SƠNG TRUNG VÀ NAM BỘ

MỨC BÁO ĐỘNG TẠI MỘT SỐ TRẠM CHÍNH (Đơn vị: m) Mức báo động Bắc Trung Bộ Trung Trung Bộ Nam Trung Bộ Nam Bộ Mã Cả La Gianh Hương Thu Bồn Trà Khúc Kơn Đà Răng Tiền Hậu Giàng Nam Đàn Linh Cảm Mai Hố Kim Long Câu Lâu Trà Khúc Thạnh Hồ Phú Lâm Tân Châu Châu Đốc I 4.00 5.40 4.50 3.00 1.00 2.00 3.50 6.00 1.70 3.50 3.00 II 5.50 6.90 5.50 5.00 2.00 3.00 5.00 7.00 2.70

I. TÌNH HÌNH THUỶ VĂN 1. Nhận xét Các sơng Trung bộ và Tây Nguyên: Mực nước các sơng ở Trung Bộ và khu vực Tây Nguyên biến đổi chậm. Mực nước lúc 7h/11/12, trên sơng Trà Khúc tại Trà Khúc: 2,20m, sơng Kơn tại Thạnh Hịa: 5,65m.

Các sơng Nam Bộ: Mực nước sơng Cửu Long đang xuống theo triều. Mực nước cao nhất ngày 10/12, trên sơng Tiền tại Tân Châu: 1,75m; trên sơng Hậu tại Châu Đốc: 1,78m.

… tin nổi bật(.*?)bản tin

dự báo thủy văn

Các tin nổi bật về thời tiết

TIN NỔI BẬT

Tin giĩ mùa đơng bắc (26/02/2015)

Bộ phận khơng khí lạnh đã báo vẫn đang tiếp tục di chuyển xuống phía Nam. Bản đồ dự báo thời tiết ngày - 26/02/2015 Chọn vùng Thị xã/T.Phố --- Phía Tây Bắc Bộ Phía Đơng Bắc Bộ Thanh Hĩa - Thừa Thiên Huế Đà Nẵng đến Bình Thuận Tây Nguyên Nam Bộ Hà Nội Ghi chú: Kích chọn vào các vùng để xem thơng tin chi tiết Dự báo thời tiết - Đêm 26 và ngày 27/02/2015 Phía Tây Bắc Bộ Mây thay đổi, đêm khơng mưa, ngày nắng, cĩ nơi cĩ nắng nĩng. Giĩ nhẹ. Nhiệt độ thấp nhất từ : : 18 – 21 độ, cĩ nơi dưới 16 o C Nhiệt độ cao nhất từ : : 30 - 33 độ, cĩ nơi 34 – 36 o C Phía Đơng Bắc Bộ Đêm nhiều mây, cĩ mưa nhỏ vài nơi, sáng sớm cĩ nơi cĩ sương mù; ngày mây thay đổi, trời nắng. Giĩ đơng nam cấp 2 - 3. Nhiệt độ thấp nhất từ : : 20 – 23 o C Nhiệt độ cao nhất từ : : 28 – 31 độ, vùng núi cĩ nơi 31 - 33 o C Thanh Hĩa - Thừa Thiên Huế Mây thay đổi, chiều tối và đêm cĩ mưa rào và dơng vài nơi, ngày nắng, vùng núi cĩ nơi cĩ nắng nĩng. Giĩ nhẹ. Nhiệt độ thấp nhất từ : : 20 – 23 o C Nhiệt độ cao nhất từ : : 30 – 33 độ, cĩ nơi 34 – 36 o C Đà Nẵng đến Bình Thuận Mây thay đổi, đêm khơng mưa, ngày nắng, chiều tối cĩ mưa rào và dơng vài nơi. Giĩ nhẹ. Nhiệt độ thấp nhất từ : : 21 – 24 o C Nhiệt độ cao nhất từ : : 29 – 32 o C Tây Nguyên Mây thay

đổi, đêm khơng mưa, ngày nắng, chiều tối cĩ mưa rào và dơng vài nơi. Giĩ nhẹ. Nhiệt độ thấp nhất từ : : 19 – 22 o C Nhiệt độ cao nhất từ : : 30 – 33 o C Nam Bộ Mây thay đổi, đêm khơng mưa, ngày nắng. Giĩ đơng nam đến đơng cấp 2 – 3. Nhiệt độ thấp nhất từ : : 22 – 25 o C Nhiệt độ cao nhất từ : : 30 – 33 độ, riêng miền Đơng cĩ nơi trên 33 o C Hà Nội Đêm nhiều mây, khơng mưa; ngày mây thay đổi, trời nắng. Giĩ đơng nam cấp 2 - 3. Nhiệt độ thấp nhất từ : : 21 – 23 o C Nhiệt độ cao nhất từ : : 28 – 30 o C

Những thơng tin được tìm ra bởi biểu thức chính quy sẽ được đánh dấu bằng màu xanh như trong hình minh họa bên dưới.

Hình 25: Tiền xử lý dữ liệu (1)

Ngồi biểu thức chính quy, các thơng tin khơng được trích chọn bằng hình thức này cần được người sử dụng xem xét giữ lại, hoặc loại bỏ, hoặc điều chỉnh biểu thức chính quy để thu thập dữ liệu quan tâm được chính xác hơn. Hiện tại, hệ thống đang sử dụng các biểu thức đã được liệt kê, và để thu được kết quả cuối cùng, vẫn cần sự đánh giá và xem xét lại của người sử dụng hệ thống.

Hình 26: Tiền xử lý dữ liệu (2)

Những thơng tin về các trang liên kết sẽ bị loại bỏ trong bước này, ví dụ các thơng tin sau:

THUỶ VĂN BẢN TIN DỰ BÁO THỦY VĂN HẠN DÀI CÁC SƠNG TRUNG BỘ, TÂY NGUYÊN VÀ NAM BỘ (01/01/2015 10:33:09) BẢN TIN DỰ BÁO THỦY VĂN HẠN VỪA CÁC SƠNG TRUNG BỘ, TÂY NGUYÊN VÀ NAM BỘ

(01/01/2015 10:17:37) BẢN TIN DỰ BÁO THỦY VĂN THÁNG HỆ THỐNG SƠNG BẮC BỘ

(31/12/2014 11:29:04) BẢN TIN DỰ BÁO THỦY VĂN HẠN VỪA 10 NGÀYCÁC SƠNG BẮC BỘ

(31/12/2014 11:02:16) BẢN TIN DỰ BÁO THỦY VĂN HẠN VỪA TRUNG BỘ, TÂY NGUYÊN VÀ NAM BỘ

(21/12/2014 10:02:56) TIN TỨC

Triều cường 'nuốt chửng' hơn 100 mét kè đá ở Phú Yên BÁO CÁO NHẬN ĐỊNH XU THẾ THỜI TIẾT, THỦY VĂN MÙA ĐƠNG XUÂN NĂM 2014-2015

(01/12/2014 9:32:20 SA) Nhiều vùng ở Phú Yên bị lũ cơ lập sau bão (01/12/2014 9:21:25 SA) Thủy điện tích nước, dân lo mất nhà

(17/11/2014 9:24:33 SA) Việt Nam đặt mục tiêu cụ thể ứng phĩ với biến đổi khí hậu (06/10/2014 9:20:26 SA) Hiểm họa ơ nhiễm khơng khí

Hiện tại hệ thống đang cĩ khoảng 710 tệp tin đã được xử lý qua bước này. Các tập tin TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG Thứ Ba, 06/01/2015, 22:35 (GMT+7) Thời tiết hiện tại : Đà Nẵng 24°C Hải Phịng 20°C Nha Trang 25°C Pleiku 20°C Sơn La 20°C T.P Hồ Chí Minh 24°C Hà Nội 22°C Vinh 22°C Cập nhật lúc: : 22h - 06/01/

BẢN TIN DỰ BÁO THỦY VĂN HẠN NGẮN HỆ THỐNG SƠNG BẮC BỘ BẢN TIN THUỶ VĂN CÁC SƠNG BẮC BỘ

MỨC BÁO ĐỘNG TẠI MỘT SỐ TRẠM CHÍNH (Đơn vị: m) Mức báo động Hệ thống sơng Hồng Hồng Long Hệ thống sơng Thái Bình Đà Thao Lơ Hồng Cầu Thương Lục Nam Thái Bình Hồ Hồ Bình (*) Yên Bái Phú thọ Tuyên Quang Vụ Quang Hà Nội Bến Đế Đáp Cầu P.Lạng Thương Lục Nam Phả lại I 8.000 30.00 17.50 22.00 18.30 9.50 3.00 4.30 4.30 4.30 4.00 II 10.000 31.00 18.20 24.00 19.50 10.50 3.50 5.30 5.30 5.30 5.00 III 12.000 32.00 19.00 26.00 20.50 11.50 4.00 6.30 6.30 6.30 6.00 (*): Lưu lượng nước đến hồ Hịa Bình (m 3 /s) $ArticleNumberBacbo$ I. TÌNH HÌNH THỦY VĂN 1. Nhận xét - Sơng Hồng:Trên sơng Đà, lưu lượng đến hồ Sơn La và hồ Hồ Bình đang biến đổi chậm. Mực nước sơng Thao đang biến đổi chậm; mực nước sơng Lơ đang dao động theo điều tiết của hồ Tuyên Quang và Thác Bà; mực nước hạ lưu sơng Hồng đang dao động theo điều tiết của các hồ chứa và chịu ảnh hưởng của thủy triều, lúc 7h/15/10 tại Hà Nội là 2,38m.

- Sơng Thái Bình: Mực nước các sơng trên hệ thống sơng Thái Bình đang biến đổi chậm và chịu ảnh hưởng của thủy triều, lúc 7h/15/10 tại Phả Lại là 1,01m. 2. Dự báo

- Sơng Hồng: Trên sơng Đà, lưu lượng đến hồ Sơn La và hồ Hồ Bình tiếp tục biến đổi chậm. Mực nước sơng Thao tiếp tục biến đổi chậm; mực nước sơng Lơ tiếp tục dao động theo điều tiết của hồ Tuyên Quang và Thác Bà; mực nước hạ lưu sơng Hồng tiếp tục dao động theo điều tiết của các hồ chứa và chịu ảnh hưởng của thủy triều, đến 7h/17/10 tại Hà Nội cĩ khả năng ở mức 2,40m.

- Sơng Thái Bình: Mực nước các sơng trên hệ thống sơng Thái Bình tiếp tục biến đổi chậm và dao động theo thủy triều, đến 19h/16/10 tại Phả Lại cĩ khả năng ở mức 1,30m.

Ghi chú: Đây là bản tin cuối cùng của mùa lũ năm 2014. $date$ II. MỰC NƯỚC VÀ LƯU LƯỢNG DỰ BÁO Sơng Trạm H, Q thực đo H (cm), Q (m3/s) dự báo 19h-14/10 7h-15/10 19h-15/10 7h-16/10 19h-16/10 7h-17/10 Sơng Đà Hồ Hịa Bình (*) 1700 1850 2300 1900 Sơng Hồng Long Bến Đế 90 58 85 50 Sơng Thao Yên Bái 2655 2678 2655 2645 Sơng Thao Phú Thọ 1415 1411 1400 1390 Sơng Lơ Tuyên Quang 1638 1702 1640 1680 Sơng Lơ Vụ Quang 798 803 790 780 Sơng Hồng Hà Nội 260 238 255 235 250 240 Sơng Thái Bình Đáp Cầu 138 87 135 84 Sơng Thái Bình Phủ Lạng Thương 128 65 125 70 Sơng Thái Bình Lục Nam 110 44 110 40 Sơng Thái Bình Phả Lại 125 101 130 105 130

preprocessed.untagged1.txt preprocessed.untagged2.txt ….

preprocessed.untagged711.txt

4.1.2.2 Tách từ và làm sạch dữ liệu

Cơng việc tách từ được thực hiện bằng tay sẽ mất rất nhiều thời gian, do đĩ hệ thống cĩ sử dụng từ điển cĩ sẵn, sau đĩ sẽ tìm các từ xuất hiện trong cơ sở dữ liệu, do đĩ sẽ tách giúp người dùng và phần quyết định sẽ do người duy trì hệ thống đánh giá và chọn lựa giá trị phù hợp nhất. Từ điển hiện tại được sử dụng trong chương trình được lấy từ tập dữ liệu mẫu gồm 10.000 câu của trung tâm xử lý ngơn ngữ, đại học Quốc Gia Hà Nội [3].Ngồi ra, trong quá trình cập nhật của hệ thống này, các mục dữ liệu cũng đã được thêm, hiện cĩ 12338 mục từ đi kèm từ loại và tần suất xuất hiện tương ứng.Các mục từ này đa dạng với nhiều chủ đề khác nhau, khơng chỉ giới hạn ở lĩnh vực thơng tin thời tiết.

Dựa vào sự trợ giúp của hệ thống, sau khi dữ liệu được gán nhãn xong, hệ thống cĩ chức năng cập nhật lại các từ được tách và từ loại tương ứng.Nếu từ đã tồn tại trong cơ sở dữ liệu rồi, thì xác suất xuất xuất hiện của từ đĩ trong từ điển sẽ tăng lên, ngược lại thì sẽ thêm một mục trong từ điển và khởi tạo tần suất xuất hiện là 1. Ví dụ một phần trong từ điển tách từ và từ loại tương ứng như sau

sáng NN:1 nhỏ JJ:1 vài D:2 hửng VB:1 đơng_bắc NN:5 cấp NN:13 Tỉnh NC:2

Trong quá trình phân tích tách từ và gán nhãn từ loại, một số từ cĩ thể do quá trình nhập tin, hoặc xử lý ở các bước trước mà định dạng bị sai lệch, thì người dùng hệ thống sẽ cập nhật lại cho đúng, ví dụ

Thứ//NC

Ba, 06/01/2015, 22:35//NN

Với các thơng tin như trên, thì người dùng hệ thống phải ghép “Thứ Ba” là một từ, gán lại từ loại cho từ này, và các dấu câu cũng cần được tách thành mục riêng. Khi đĩ quá trình tách từ cĩ sự can thiệp của người dùng sẽ dẫn tới kết quả là

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 58 - 81)