Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

81 14 0
Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Hà nội, 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà nội, 2015 Lời cam đoan Tôi cam đoan cơng trình nghiên cứu riêng tơi, thực hướng dẫn khoa học Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tôi xin chịu trách nhiệm nghiên cứu Học viên Vũ Thị Lý i MỤC LỤC Lời cam đoan i Danh sách bảng iv Danh sách hình vẽ v Danh sách từ viết tắt, kí hiệu, thuật ngữ vi Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Ý nghĩa khoa học 1.3 Ý nghĩa thực tiễn 1.4 Ứng dụng đề tài Chương 2: BÀI TỐN TRÍCH CHỌN THƠNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 2.1 Mơ tả tốn ý tưởng giải 2.2 Xây dựng mơ hình hệ thống 2.2.1 Thu thập liệu 2.3.2 Tiền xử lý gán nhãn liệu 10 2.3.3 Lựa chọn trích chọn đặc trưng 14 2.3.4 Trích chọn đặc trưng xây dựng mơ hình 15 Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN THƠNG TIN TRONG VĂN BẢN 17 3.1 Một số nghiên cứu trích chọn thơng tintừ trang tin 17 3.2 Phương pháp trích chọn thơng tin dựa biểu thức quy 21 3.3 Trích chọn thơng tin dựa vào mơ hình 23 3.3.1 Mơ hình Markov ẩn 23 3.3.2 Mô hình Maximum Entropy Markov 25 3.3.3 Trường ngẫu nhiên có điều kiện 27 3.4 Nhận xét 47 3.5 Tóm tắt chương 47 Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 49 4.1 Kết thực nghiệm 49 4.1.1 Thu thập liệu 49 4.1.2 Tiền xử lý liệu 51 3.1.3 Lựa chọn trích chọn đặc trưng 61 ii 4.1.4 Mơ hình kết với tập liệu kiểm thử 63 4.2 Đánh giá 65 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 72 Tiếng Việt 72 Tiếng Anh 72 iii Danh sách bảng Bảng 1: Mẫu liệu thông tin website Bảng 2: Tập nhãn từ loại sử dụng Bảng 3: Bảng nhãn đối tượng sử dụng hệ thống Bảng 4: Các mẫu biểu thức quy sử dụng hệ thống 51 Bảng 5: Danh sách tập nhãn đối tượng 61 Bảng 6: So sánh kết mơ hình mong muốn 65 Bảng 7: Kết văn có độ xác thấp 68 iv Danh sách hình vẽ Hình 1: Mẫu thơng tin có cấu trúc Hình 2: Mẫu thơng tin bán cấu trúc Hình 3: Mẫu thơng tin phi cấu trúc Hình 4: Ví dụ thơng tin thời tiết trang tin tức Hình 5: Mơ hình trích chọn thơng tin thời tiết Hình 6: Hỗ trợ gán nhãn từ loại 12 Hình 7: Hỗ trợ gán nhãn đối tượng 14 Hình 8: Ví dụ kết gán nhãn đối tượng 14 Hình 9: Sự phân hóa cấu trúc loại tài liệu 20 Hình 10: So sánh hiệu suất kết sử dụng luật (biểu thức quy) CRF với số loại thực thể 22 Hình 11: Ví dụ số biểu thức quy sử dụng để trích chọn số loại thực thể 22 Hình 12: Các tham số xác suất mơ hình Markov ẩn 24 Hình 13: Tổng quan mơ hình xác suất: Naïve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên có điều kiện (CRF) Các khía cạnh minh họa xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán liệu chuỗi 27 Hình 14: Mơ hình đồ thị có hướng 30 Hình 15: Bộ phân loại Naïve Bayes 30 Hình 16: Đồ thị độc lập đồ thị thành phần cho mơ hình Markov ẩn 31 Hình 17: Bộ phân loại cực đại Entropy 32 Hình 18: Trường ngẫu nhiên có điều kiện chuỗi tuyến tính 33 Hình 19: Một dạng kết hợp CRF chuỗi tuyến tính 35 Hình 20: Ví dụ máy trạng thái hữu hạn ngẫu nhiên 37 Hình 21: Ví dụ cấu trúc CRF 44 Hình 22: Ví dụ CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức… 46 Hình 23: Nguồn thơng tin [4] 49 Hình 24: Lấy thơng tin từ internet 50 Hình 25: Tiền xử lý liệu (1) 54 Hình 26: Tiền xử lý liệu (2) 55 v Danh sách từ viết tắt, kí hiệu, thuật ngữ Từ viết tắt IR IE WI CRF NER HMM MEMM CMM SFSA Ý nghĩa, mô tả Information Retrieve: Truy vấn thông tin Information Extract: Trích chọn thơng tin Wrapper Induction: Condition Random Fields: Trường ngẫu nhiên có điều kiện Named Entity Recognition: Nhận dạng thực thể tên Hidden Markov Model: Mơ hình Markov ẩn Maximum Entropy Markov Model: Mơ hình Markov cực đại Entropy Conditional Markov Model: Mơ hình Markov có điều kiện Schochatics Finite State Automaton: Máy trạng thái hữu hạn ngẫu nhiên vi Chú ý Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài Thông tin dự báo thời tiết thông tin quan trọng cần cập nhật hàng ngày cho người.Nó ảnh hưởng lớn tới sống sinh hoạt người dân, quan tổ chức.Việc dự báo thông tin gần đúng, kịp thời có vai trị vơ cần thiết quan trọng Đối với sống hàng ngày, thông tin thời tiết giúp người dân có chuẩn bị cần thiết lại Đối với ngành phụ thuộc vào thời tiết đánh bắt thủy hải sản, nông nghiệp thơng tin thời tiết giúp họ có chuẩn bị phù hợp trình sản xuất Do mức độ quan trọng thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thơng tin thời tiết, từ văn bản, trang tin tức hàng ngày giúp ích cho nhiều người Phạm vi luận văn nghiên cứu phương pháp trích chọn thơng tin thời tiết từ văn bản, trang tin tức tiếng Việt Các thơng tin thời tiết có sẵn nhiều trang tin tức tiếng Việt, trình bày với nhiều dạng khác [4] Thông tin thời tiết dạng có cấu trúc (bảng thơng tin lượng mưa, nhiệt độ vùng miền thời điểm – Hình 1: Mẫu thơng tin có cấu trúc), phi cấu trúc (như dạng tin tóm tắt, chi tiết thơng tin thời tiết vùng miền thời điểm – Hình 3: Mẫu thơng tin phi cấu trúc), dạng bán cấu trúc (danh sách thông tin thời tiết chung chung, gồm nhiệt độ, độ ẩm, tình trạng nắng mưa số vùng miền – Hình 2: Mẫu thơng tin bán cấu trúc) Ngồi ra, thơng tin thời tiết cịn cung cấp khơng đầy đủ (một số thơng tin khơng có), khơng đồng (các đơn vị đo khác nhau) Do đó, nhiệm vụ trích chọn thơng tin phức tạp hoán đổi thuộc tính lỗi đánh máy xảy q trình đưa tin lên trang tin Hình 1: Mẫu thơng tin có cấu trúc Hình 2: Mẫu thơng tin bán cấu trúc Trường hợp mục từ chưa có sở liệu, hệ thống để trống phần từ loại, người dùng sử dụng context menu tự gán nhãn từ loại hộp thoại sửa chương trình.Ví dụ, từ TRUNG TÂM chưa có từ loại, người huấn luyện gán từ loại danh từ tay (thêm //NN vào sau từ này), sử dụng context menu, lựa chọn từ loại hệ thống cập nhật thay TRUNG TÂM DỰ BÁO//VB KHÍ TƯỢNG//NN 128|VB 10 THỦY VĂN//NN TRUNG ƯƠNG//NN Thứ//NC Ba, 06/01/2015, 22:35//NN (GMT+7)//NN Thời tiết//NN tại//NN 163|IN 13|JJ : Đà Nẵng//NP 190|NN 10 24°C//NN 151|D 13 Hải Phòng//NP 156|NN 10 20°C//NN 102|D 12 Nha Trang//NP 152|NN 10 25°C//NN 35|D Pleiku//NP 134|NN 20°C//NN 102|D 12 Sơn La//NP 20°C//NN 102|D 12 T.P Hồ Chí Minh//NP 24°C//NN 151|D 13 Hà Nội//NP 312|NN 10 22°C//NN 53|D Vinh//NP 146|NN 10 22°C//NN 53|D Để cập nhật văn vào hệ thống, công cụ tích hợp phần kiểm tra xem từ có từ loại hết chưa, trước tiến hành cập nhật thực Gán nhãn đối tượng thời tiết 59 TRUNG TÂM//NN//S DỰ BÁO//VB//S KHÍ TƯỢNG//NN//S THỦY VĂN//NN//S TRUNG ƯƠNG//NN//S Thứ Ba//NN//S ,//,//S 06/01/2015//NN//S_DATETIME ,//,//S 22:35//NN//S_DATETIME (GMT+7)//NN//S_DATETIME Thời tiết//NN//S tại//JJ//S ://://S Đà Nẵng//NP//S_LOCATION 24°C//NN//S_TEMPARATURE Hải Phòng//NP//S_LOCATION 20°C//NN//S_TEMPARATURE Nha Trang//NP//S_LOCATION 25°C//NN//S_TEMPARATURE Pleiku//NP//S_LOCATION 20°C//NN//S_TEMPARATURE Sơn La//NP//S_LOCATION 20°C//NN//S_TEMPARATURE T.P Hồ Chí Minh//NP//S_LOCATION 24°C//NN//S_TEMPARATURE Hà Nội//NP//S_LOCATION 22°C//NN//S_TEMPARATURE Vinh//NP//S_LOCATION 22°C//NN//S_TEMPARATURE Trong bảng bên trên, từ loại gán nhãn đối tượng.Tham khảo bảng để biết thêm chi tiết đối tượng sử dụng hệ thống.Ngoài số mẫu đối tượng hỗ trợ từ biểu thức quy, đối tượng lại cần người huấn luyện xem xét gán nhãn cho chúng Hình 21 minh họa cách sử dụng trợ giúp hệ thống để gán nhãn cho đối tượng.Có tất nhãn đối tượng, ngồi cịn giúp người dùng gán nhãn cho thành phần đối tượng (thẻ B_, M_, E_) Trong phạm vi hệ thống tới thời điểm này, có khoảng 23 tệp tin, với 700 câu tin thu thập, tách từ gán nhãn liệu (bao gồm gán nhãn từ loại gán nhãn đối tượng) Nguồn thông tin sử dụng để huấn luyện xây dựng mơ hình 60 3.1.3 Lựa chọn trích chọn đặc trưng Các tham số huấn luyện mơ hình lấy từ giá trị mặc định thư viện CRFSharp [23], sau: int max_iter = 1000; int min_feature_freq = 2; double min_diff = 0.0001; double slot_usage_rate_threshold = 0.95; int threads_num = 1; string strTemplateFileName = null; //template file name string strTrainingCorpus = null; //training corpus file name string strEncodedModelFileName = null; //encoded model file name bool bDebugMode = false; Các nhãn đối tượng thời tiết gồm có Bảng 5: Danh sách tập nhãn đối tượng Nhãn đối tượng DATETIME Ví dụ nhãn thuộc đối tượng S_DATETIME: mục tin thời gian B_DATETIME: bắt đầu đối tượng thời gian M_DATETIME: thông tin thuộc đối tượng thời gian, bắt đầu kết thúc E_DATETIME: thông tin cuối đánh dấu kết thúc đối tượng thời gian LENGTH S_LENGTH, B_LENGTH, M_LENGTH, E_LENGTH RAINFALL_MEA S_RAINFALL_MEA B_RAINFALL_MEA, M_RAINFALL_MEA E_RAINFALL_MEA FLOWSPEED S_FLOWSPEED, B_FLOWSPEED, M_FLOWSPEED, E_FLOWSPEED WATER_LEVEL S_WATER_LEVEL B_WATER_LEVEL, M_WATER_LEVEL, E_WATER_LEVEL LOCATION S_LOCATION B_LOCATION, M_LOCATION, E_LOCATION WEATHER S_WEATHER, B_WEATHER, M_WEATHER, E_WEATHER RAINFALL S_RAINFALL, B_RAINFALL, M_RAINFALL, E_RAINFALL HUMIDITY_PERCENTAGE S_HUMIDITY_PERCENTAGE, B_HUMIDITY_PERCENTAGE, 61 M_HUMIDITY_PERCENTAGE, E_HUMIDITY_PERCENTAGE WINDSPEED, B_WINDSPEED, M_WINDSPEED, E_WINDSPEED S_TEMPERATURE, B_TEMPERATURE, M_TEMPERATURE, E_TEMPERATURE WINDSPEED TEMPERATURE Với tập liệu chuẩn bị từ bước trước, thư viện CRFSharp, hệ thống thực nghiệm xây dựng mơ hình mẫu, với đặc trưng mơ hình ví dụ sau: B 4182 U01:% 369648 U01:& 434452 U01:( 24480 U01:(*) 341122 U01:(_o_C) 433568 U01:) 25466 U01:+ 311610 U01:, 2924 U01:- 13804 U01: - 278936 U01:-27% 142086 U01:-30% 141270 U01:-37% 140182 U01:-7% 142970 U01: 17238 … U04:2015/ở 221238 U04:2015/ở 228956 U04:20°C/Hải_Phòng 283084 U04:20°C/Nha_Trang 309706 U04:20°C/Sơn_La 310216 62 U04:20°C/T.P_Hồ_Chí_Minh 310386 U04:21/, 421090 U04:21/- 302362 U04:21/20 411332 U04:21/7/: 76636 U04:21/9/: 80240 U04:21/o_C 364480 U04:21/độ 304164 U04:21:51/(GMT+7) 430712 U04:21:53/(GMT+7) 353906 U04:21°C/Cập_nhật 335512 U04:21°C/Hải_Phòng 280228 U04:21°C/Pleiku 283322 U04:22/01/2015/, 3332 U04:22/21 411230 U04:22/22 433466 U04:22/5/) 105910 U04:22/o_C 358462 U04:22/độ 291822 U04:22/– 400622 U04:22:16/( 367336 4.1.4 Mơ hình kết với tập liệu kiểm thử Mơ hình xây dựng với tập huấn luyện gồm 1200 câu (tương ứng với 25 văn tiếng Việt), việc thực kiểm thử tiến hành với 10 văn tiếng Việt, độc lập với tập liệu huấn luyện (tương đương với 400 câu), thu kết sau: -Văn kiểm thử (30 câu), độ xác nhãn thực thể 97%, xác số nhãn 97% -Văn kiểm thử (~46 câu), độ xác nhãn thực thể 61%, xác số nhãn 64% -Văn kiểm thử (~64 câu), độ xác nhãn thực thể 60%, xác số nhãn 60% -Văn kiểm thử (~9 câu), độ xác nhãn thực thể số nhãn 86% 63 -Văn kiểm thử (~10 câu), độ xác nhãn thực thể 95% số nhãn 94% - Văn kiểm thử (~68 câu), độ xác nhãn thực thể 86% số nhãn 87% -Văn kiểm thử (~35 câu), độ xác nhãn thực thể 53% số nhãn 52% -Văn kiểm thử (~27 câu), độ xác nhãn thực thể 59% số nhãn 62% -Văn kiểm thử (~71 câu), độ xác nhãn thực thể 66% số nhãn 66% -Văn kiểm thử 10 (~40 câu), độ xác nhãn thực thể 95% số nhãn 96% - Văn kiểm thử 11 (~39 câu), độ xác nhãn thực thể số nhãn 94% - Văn kiểm thử (~10 câu), độ xác nhãn thực thể số nhãn 94% Trong đó: + Độ xác nhãn thực thể số thực thể gán nhãn (với trường hợp gán nhãn “B_” mà không gán nhãn lại đối tượng, khơng coi nhãn đúng) + Độ xác số nhãn đúng, trường hợp hệ thống nhận diện xác nhãn (khơng quan tâm xem nhãn có cấu thành đối tượng hay khơng) Tổng hợp độ xác văn kiểm thử (~400 câu) với mơ hình xây dựng từ 1200 câu sau Number of label matches: 1460/1872=77 Number of DATETIME object matches: 112/245=45 Number of LOCATION object matches: 449/457=98 Number of TEMPERATURE object matches: 256/305=83 Number of WEATHER object matches: 198/203=97 Number of WATER_LEVEL object matches: 192/302=63 Number of RAINFALL_MEA object matches: 3/45=6 Number of WINDSPEED object matches: 13/14=92 Number of RAINFALL object matches: 2/6=33 Number of HUMIDITY_PERCENTAGE object matches: 13/16=81 TOTAL MODEL: 1238/1593=77 64 4.2 Đánh giá Dựa khoảng 10 mẫu kiểm thử (khoảng tổng cộng khoảng 400 câu), với liệu kiểm thử độc lập với liệu huấn luyện thấy việc trích chọn thơng tin mơ hình trường ngẫu nhiên có điều kiện khả quan Tuy vậy, để áp dụng vào thực tế cần phải đánh giá tập liệu rộng hơn, bước xử lý cần chặt chẽ để đánh giá tham số tối ưu cho mơ hình -Với tập liệu kiểm thửcó độ xác số nhãn gán độ xác đối tượng giống nhau, thấy đối tượng từ đơn, nhãn đối tượng Đối tượng thời gian có độ xác thấp chúng thường cấu thành từ nhiều nhãn -Với tập liệu có đối tượng cấu thành từ từ đơn độ xác giảm mẫu đa dạng Một số nhãn đối tượng nhận đạng thành phần cịn lại khơng nhận dạng đúng, khơng tính nhãn thực thể nhận dạng xác Các mẫu liệu kiểm thử sử dụng có số mẫu liệu có định dạng chung so với mẫu liệu dùng để huấn luyện, mẫu cho độ xác cao so với mẫu khác Ngoài ra, số mẫu liệu có độ xác thấp hơn, ví dụ văn kiểm thử số 2,3,7,8 văn có cấu trúc hồn tồn khác so với mẫu dùng huấn luyện, có dạng liệt kê, thống kê liệu nên độ xác cịn thấp Trong bảng số so sánh kết nhận dạng khơng cao, giá trị số không nhận dạng đối tượng thời tiết thông tin thống kê nhiệt độ lượng mưa, cấu trúc hoàn toàn khác với mẫu huấn luyện sử dụng mơ hình Hơn nữa, liên kết đặc trưng với số từ khóa Nhiệt độ Lượng mưa “khoảng cách xa” Do đó, đối tượng thời tiết khơng nhận mong muốn Với trường hợp này, mẫu liệu phải xây dựng đa dạng nữa, mơ hình CRF cần cải tiến để nhận đặc trưng “khoảng cách xa” Dữ liệu theo định dạng mắt thường thường trình bày dạng bảng bán cấu trúc Bảng 6: So sánh kết mô hình mong muốn Kết mơ hình Nhãn đối tượng mong muốn [Vinh:S_LOCATION] 24.1 23.5-24.5 67 50-80 [Vinh:S_LOCATION] [24.1:S_TEMPERATURE] [23.5-24.5:S_TEMPERATURE] [67:S_RAINFALL_MEA] [50-80:S_RAINFALL_MEA] 65 [Huế:S_LOCATION] 25.9 25.5-26.5 55 40-70 [Đà_Nẵng:S_LOCATION] 26.3 26.0-27.0 40 30-50 [Nha_Trang:S_LOCATION] 27.3 27.0-28.0 30 20-40 [Buôn_Ma_Thuột:S_LOCATION] 26.2 26.0-27.0 104 70-90 10 [Châu_Đốc:S_LOCATION] 28.4 28.0-29.0 83 60-70 * Bản_tin cập_nhật [ngày:B_DATETIME] [01/4/2015:E_DATETIME] Dự_báo mực_nước [sông_Hồng:S_LOCATION] [Hà_Nội:S_LOCATION] ( tính_theo số_liệu [Huế:S_LOCATION] [25.9:S_TEMPERATURE] [25.5-26.5:S_TEMPERATURE] [55:S_RAINFALL_MEA] [40-70:S_RAINFALL_MEA] [Đà_Nẵng:S_LOCATION] [26.3:S_TEMPERATURE] [26.0-27.0:S_TEMPERATURE] [40:S_RAINFALL_MEA] [30-50:S_RAINFALL_MEA] [Nha_Trang:S_LOCATION] [27.3:S_TEMPERATURE] [27.0-28.0:S_TEMPERATURE] [30:S_RAINFALL_MEA] [20-40:S_RAINFALL_MEA] [Buôn_Ma_Thuột:S_LOCATION] [26.2:S_TEMPERATURE] [26.0-27.0:S_TEMPERATURE] [104:S_RAINFALL_MEA] [70-90:S_RAINFALL_MEA] 10 [Châu_Đốc:S_LOCATION] [28.4:S_TEMPERATURE] [28.0-29.0:S_TEMPERATURE] [83:S_RAINFALL_MEA] [60-70:S_RAINFALL_MEA] * Bản_tin cập_nhật [ngày:B_DATETIME] [01/4/2015:E_DATETIME] Dự_báo mực_nước [sông_Hồng:S_LOCATION] [Hà_Nội:S_LOCATION] ( tính_theo số_liệu 66 lưu_lượng xả dự_kiến ) : Trị_số Dự_báo Thời_gian Ngày 10/2 Ngày 11/2 17h 19h 21h 23h 1h 3h 5h 7h 9h 11h 13h 15h H (cm) 88 [85:S_WATER_LEVEL] [82:S_WATER_LEVEL] [80:S_WATER_LEVEL] [78:S_WATER_LEVEL] [75:S_WATER_LEVEL] [72:S_WATER_LEVEL] [70:S_WATER_LEVEL] [100:S_WATER_LEVEL] [120:S_WATER_LEVEL] [150:S_WATER_LEVEL] 150 Thời_gian Ngày 11/2 Ngày 12/2 lưu_lượng xả dự_kiến ) : Trị_số Dự_báo Thời_gian [Ngày:B_DATETIME] [10/2:E_DATETIME] [Ngày:B_DATETIME] [11/2:E_DATETIME] [17h:S_DATETIME] [19h:S_DATETIME] [21h:S_DATETIME] [23h:S_DATETIME] [1h:S_DATETIME] [3h:S_DATETIME] [5h:S_DATETIME] [7h:S_DATETIME] [9h:S_DATETIME] [11h:S_DATETIME] [13h:S_DATETIME] [15h:S_DATETIME] H (cm) 88 [85:S_WATER_LEVEL] [82:S_WATER_LEVEL] [80:S_WATER_LEVEL] [78:S_WATER_LEVEL] [75:S_WATER_LEVEL] [72:S_WATER_LEVEL] [70:S_WATER_LEVEL] [100:S_WATER_LEVEL] [120:S_WATER_LEVEL] [150:S_WATER_LEVEL] [150:S_WATER_LEVEL] Thời_gian [Ngày:B_DATETIME] [11/2:E_DATETIME] [Ngày:B_DATETIME] [12/2:E_DATETIME] 67 17h 19h 21h 23h 1h 3h 5h 7h 9h 11h 13h 15h H (cm) 152 [153:S_WATER_LEVEL] [154:S_WATER_LEVEL] [155:S_WATER_LEVEL] [157:S_WATER_LEVEL] [160:S_WATER_LEVEL] [162:S_WATER_LEVEL] [165:S_WATER_LEVEL] [175:S_WATER_LEVEL] [195:S_WATER_LEVEL] [205:S_WATER_LEVEL] [210:S_WATER_LEVEL] [17h:S_DATETIME] [19h:S_DATETIME] [21h:S_DATETIME] [23h:S_DATETIME] [1h:S_DATETIME] [3h:S_DATETIME] [5h:S_DATETIME] [7h:S_DATETIME] [9h:S_DATETIME] [11h:S_DATETIME] [13h:S_DATETIME] [15h:S_DATETIME] H (cm) [152:S_WATER_LEVEL] [153:S_WATER_LEVEL] [154:S_WATER_LEVEL] [155:S_WATER_LEVEL] [157:S_WATER_LEVEL] [160:S_WATER_LEVEL] [162:S_WATER_LEVEL] [165:S_WATER_LEVEL] [175:S_WATER_LEVEL] [195:S_WATER_LEVEL] [205:S_WATER_LEVEL] [210:S_WATER_LEVEL] Độ xác nhãn thực thể toàn liệu kiểm thử từ mơ hình xây dựng sau: Bảng 7: Kết văn có độ xác thấp Nhãn thực thể DATETIME LOCATION TEMPERATURE WEATHER WATER_LEVEL RAINFALL_MEA WINDSPEED RAINFALL HUMIDITY_PERCENTAGE Độ xác 112/245=45% 449/457=98% 256/305=83% 198/203=97% 192/302=63% 3/45=6% 13/14=92% 2/6=33% 13/16=81% 68 Để tăng độ xác với mẫu đối tượng cấu thành từ nhiều từ, cần tập liệu đủ lớn, tập huấn luyện đủ nhiều để mơ hình xây dựng xác hơn.Như bảng kết quả, độ xác lượng mưa số đo lượng mưa thấp, thông tin thường liệt kê dạng bảng, liên kết đặc trưng lỏng lẻo khó phát Ngồi số liệu đa dạng thay đổi liên tục, nên liên kết với thông tin giá trị “Lượng mưa”, “Nhiệt độ” có tính liệt kê Độ xác thông tin địa điểm, tượng thời tiết thường đạt độ xác cao, từ xác định thông tin thời tiết rõ ràng, có thay đổi thể đầu câu, viết hoa thường viết tắt nên đặc trưng “nổi bật” thông tin khác Hơn nữa, độ xác mơ hình xây dựng phụ thuộc vào chủ quan người xây dựng từ điển huấn luyện, việc gán nhãn từ loại đánh giá chủ quan người quản lý để phân định từ loại hay đối tượng thời tiết cần quan tâm Do đó, việc rà sốt lại từ điển huấn luyện, từ điển kiểm thử nhiệm vụ cần thiết để đánh giá xác mơ hình nhờ sử dụng phương pháp 69 KẾT LUẬN Luận văn hệ thống hóa số vấn đề lý thuyết trích chọn thơng tin, bái tồn nhận dạng đối tượng thực thể thơng tin thời tiết đồng thời trình bày, phân tích, đánh giá số hướng tiếp cận tốn trích chọn thơng tin thời tiết Một số vấn đề giải pháp với tốn trích chọn thông tin thời tiết từ văn tiếng Việt dựa mơ hình CRF đề xuất, thực nghiệm thu kết khả quan Sau số nét mà luận văn giải Thông tin thời tiết nguồn thông tin quý giá cá nhân tổ chức Tuy nhiên, thơng tin thời tiết có sẵn không tổng hợp, chọn lọc, thu thập cách tự động Do đó, phạm vi luận văn nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản, trang tin tiếng Việt Từ nhu cầu thực tế, đánh giá ý nghĩa khoa học, thực tiễn ứng dụng đề tài, để thấy cần thiết phải có hệ thống trích chọn thơng tin thời tiết từ nguồn tin có sẵn Dựa nhìn khái qt trích chọn thơng tin, luận văn đưa hướng tiếp cận khác để giải toán Các phương pháp bao gồm: dựa biểu thức quy, sử dụng mơ hình (mơ hình xác suất) HMM, MEMM, CRF Luận văn đưa thông tin khái quát phương pháp, đánh giá đưa so sánh phương pháp áp dụng với toán nhận dạng thực thể, cho thấy thiếu linh hoạt, khó bảo trì phương pháp sử dụng biểu thức quy, vấn đề nhãn mờ mơ hình MEMM gặp phải Những đánh giá lý giải cho phương pháp học máy CRF chọn làm sở xây dựng hệ thống trích chọn thơng tin thời tiết Từ đánh giá cách tiếp cận giải toán, luận văn đưa bước xây dựng mơ hình để giải tốn đặt phần Các bước gồm có: thu thập thơng tin từ động từ trang tin có sẵn, tiền xử lý liệu, gán nhãn cho từ tiếng Việt, sau lựa chọn thuộc tính cho việc nhận dạng thực thể thời tiết Hệ thống thu thập trích chọn thơng tin thời tiết xây dựng kiểm thử với liệu thực tế, cịn cần nhiều hỗ trợ từ phía người dùng, việc gán nhãn từ loại xem xét đánh giá làm liệu, cho thấy tiềm để xây dựng hệ thống tốt việc thu thập trích chọn, khai phá liệu thơng tin thời tiết Cuối cùng, luận văn trình bày hệ thống trích chọn thơng tin thời tiết từ văn tiếng Việt, đưa kết hệ thống qua số lần thực nghiệm liệu thực tế Với lượng liệu cịn ỏi so với thực tế (dữ liệu thu thập khoảng thời gian ngắn), cho thấy kết khả quan cải tiến nhiều để xây dựng hệ thống áp dụng thực tế 70 Công việc nghiên cứu tương lai Mặc dù kết trích chọn thơng tin thời tiết khả quan, kết tốt nữa, tăng độ xác hệ thống với liệu từ trang tin, từ sử dụng lại kết cho hệ thống khai phá, dự báo thời tiết Ngoài ra, việc gán nhãn cho từ loại cải thiện tự động hóa nữa, nhờ xem xét đánh giá lại thực trạng hệ thống, đưa giải pháp tập luật dựa kinh nghiệm hệ thống Để dễ dàng phân tích thơng tin đạt được, hệ thống tích hợp với hệ thống đồ địa lý, nhằm minh họa thông tin sinh động cụ thể hơn, dễ so sánh Hơn nữa, bước tiền xử lý thông tin hệ thống cịn chưa đầy đủ, thơng tin bị thiếu bị bỏ qua, chưa sử dụng phương pháp nội suy để điền thông tin bổ sung liệu cho phù hợp đầy đủ 71 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Trí Thành.Bài giảng khai phá liệu, K17HTTT, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội, 2010-2011 2.Hà Quang Thụy, Bài giảng Khai phá liệu kho liệu, K17HTTT, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội, 2010-2011 Website http://vnlp.net/?attachment_id=166 Kho liệu gán nhãn từ loại tiếng Việt Website http://www.nchmf.gov.vn/web/vi-VN/43/Default.aspx Trung tâm dự báo khí tượng thủy văn trung ương Tiếng Anh Li, Yunyao, et al "Regular expression learning for information extraction." Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics, 2008 J.Lafferty, A.McCallum, and F.Pereira “Conditional random fields: probalistic models for segmenting and labeling sequence data” In Proc ICML, pages 282290,2001 William W Cohen, Andrew McCallum Slides “Information Extraction from the World Wide Web”, KDD 2003 Jenny Rose Finkel “Named Entity Recognition and the Standford NER Software” slides Standford University March 09, 2007 Ian Fette “Combining n-gram based statistics with traditional methods for named entit recognition” School of Computer Science, Carnegie Mellon University, 2007 10 McCallum, Andrew, Dayne Freitag, and Fernando CN Pereira “Maximum Entropy Markov Models for Information Extraction and Segmentation.” ICML Vol 17 2000 11 Dan Klein and Chris Manning.“Maxent models, Conditional Estimation, and Optimization” slides Standford Universtiy HLT-NAACL 2003 and ACL 2003 Tutorial 12 Sarawagi, Sunita, and William W Cohen “Semi-markov conditional random fields for information extraction.”Advances in Neural Information Processing Systems 2004 72 13 Charles Sutton, Andrew McCallum “An introduction to Conditional Random Fields for Relational Learning”.Introduction to Statistical Relational Learning, page 93-130 14 Yasemin Altun, Alex J Smola, Thomas Hoffmann “Exponential Families for Conditional Random Fields”.AUAI Press Arlington, Virginial, US 2004.ISBN:09749039-0-6, Page 2-9 15 Walter F.Mascarenhas “The BFGS method with exact line searches fails for nonconvex objective functions” Mathematical Programming, January 2004, Volume 99, Issue 1, pp 49-61 16 Mark Johnson “A brief introduction to Conditional Random Fields”.Macqurie University 2010 17 Trevor Cohn “Conditional Random Fields” Slide ALTW 2005.December 2013 18 Roman Klinger, Katrin Tomanek “Classical Probalistic Models and Conditional Random Fields.”Algorithm Engineering Report TR07-2-013, ISSN 1864-4503 19 Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan “A survey of Web information extraction systems”, IEEE Transactions on Knowledge and Data Engineering, TKDE-0475- 1104.R3 20 Website http://www.cs.cornell.edu/.The natural language processing courses 21 Website http://www-nlp.stanford.edu/~manning/papers/.Papers about natural processing language techniques and applications, CRFs 22 Website http://nlp.stanford.edu/projects/project-ner.shtml.The Standford Natural Language Processing Group 23 Website https://crfsharp.codeplex.com/ Conditional Random Fields implemented by NET (C#) 24 Website https://code.google.com/p/crawler4j/ Open source Web Crawler for Java 73

Ngày đăng: 23/09/2020, 22:48

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan