DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt

20 133 0
DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt tài liệu, giáo án, bài giảng...

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Hà nội, 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ LÝ NGHIÊN CỨU PHƢƠNG PHÁP TRÍCH CHỌN THÔNG TIN THỜI TIẾT TỪ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà nội, 2015 Lời cam đoan Tôi cam đoan cơng trình nghiên cứu riêng tơi, đƣợc thực dƣới hƣớng dẫn khoa học Phó Giáo sƣ, Tiến sĩ Nguyễn Trí Thành Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin chịu trách nhiệm nghiên cứu Học viên Vũ Thị Lý i MỤC LỤC Lời cam đoan i Danh sách bảng iv Danh sách hình vẽ v Danh sách từ viết tắt, kí hiệu, thuật ngữ vi Chƣơng 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài .1 1.2 Ý nghĩa khoa học 1.3 Ý nghĩa thực tiễn 1.4 Ứng dụng đề tài Chƣơng 2: BÀI TỐN TRÍCH CHỌN THƠNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 2.1 Mơ tả tốn ý tƣởng giải 2.2 Xây dựng mơ hình hệ thống 2.2.1 Thu thập liệu 2.3.2 Tiền xử lý gán nhãn liệu .10 2.3.3 Lựa chọn trích chọn đặc trƣng Error! Bookmark not defined 2.3.4 Trích chọn đặc trƣng xây dựng mơ hình Error! Bookmark not defined Chƣơng 3: MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN THƠNG TIN TRONG VĂN BẢN Error! Bookmark not defined 3.1 Một số nghiên cứu trích chọn thơng tintừ trang tin Error! Bookmark not defined 3.2 Phƣơng pháp trích chọn thơng tin dựa biểu thức quy Error! Bookmark not defined 3.3 Trích chọn thơng tin dựa vào mơ hình Error! Bookmark not defined 3.3.1 Mơ hình Markov ẩn Error! Bookmark not defined 3.3.2 Mơ hình Maximum Entropy Markov Error! Bookmark not defined 3.3.3 Trƣờng ngẫu nhiên có điều kiện Error! Bookmark not defined 3.4 Nhận xét Error! Bookmark not defined 3.5 Tóm tắt chƣơng Error! Bookmark not defined Chƣơng 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined 4.1 Kết thực nghiệm Error! Bookmark not defined 4.1.1 Thu thập liệu Error! Bookmark not defined ii 4.1.2 Tiền xử lý liệu Error! Bookmark not defined 3.1.3 Lựa chọn trích chọn đặc trƣng Error! Bookmark not defined 4.1.4 Mơ hình kết với tập liệu kiểm thử Error! Bookmark not defined 4.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO .11 Tiếng Việt 11 Tiếng Anh 11 iii Danh sách bảng Bảng 1: Mẫu liệu thông tin website Bảng 2: Tập nhãn từ loại đƣợc sử dụng Bảng 3: Bảng nhãn đối tƣợng đƣợc sử dụng hệ thống Bảng 4: Các mẫu biểu thức quy đƣợc sử dụng hệ thống Error! Bookmark not defined Bảng 5: Danh sách tập nhãn đối tƣợng Error! Bookmark not defined Bảng 6: So sánh kết mô hình mong muốn Error! Bookmark not defined Bảng 7: Kết văn có độ xác thấp Error! Bookmark not defined iv Danh sách hình vẽ Hình 1: Mẫu thơng tin có cấu trúc Hình 2: Mẫu thông tin bán cấu trúc Hình 3: Mẫu thông tin phi cấu trúc Hình 4: Ví dụ thông tin thời tiết trang tin tức Hình 5: Mơ hình trích chọn thơng tin thời tiết Hình 6: Hỗ trợ gán nhãn từ loại Error! Bookmark not defined Hình 7: Hỗ trợ gán nhãn đối tƣợng Error! Bookmark not defined Hình 8: Ví dụ kết gán nhãn đối tƣợng Error! Bookmark not defined Hình 9: Sự phân hóa cấu trúc loại tài liệu Error! Bookmark not defined Hình 10: So sánh hiệu suất kết sử dụng luật (biểu thức quy) CRF với số loại thực thể Error! Bookmark not defined Hình 11: Ví dụ số biểu thức quy sử dụng để trích chọn số loại thực thể Error! Bookmark not defined Hình 12: Các tham số xác suất mơ hình Markov ẩnError! Bookmark not defined Hình 13: Tổng quan mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trƣờng ngẫu nhiên có điều kiện (CRF) Các khía cạnh đƣợc minh họa xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán liệu chuỗi Error! Bookmark not defined Hình 14: Mơ hình đồ thị có hƣớng Error! Bookmark not defined Hình 15: Bộ phân loại Nạve Bayes Error! Bookmark not defined Hình 16: Đồ thị độc lập đồ thị thành phần cho mơ hình Markov ẩn Error! Bookmark not defined Hình 17: Bộ phân loại cực đại Entropy Error! Bookmark not defined Hình 18: Trƣờng ngẫu nhiên có điều kiện chuỗi tuyến tínhError! Bookmark not defined Hình 19: Một dạng kết hợp CRF chuỗi tuyến tính Error! Bookmark not defined Hình 20: Ví dụ máy trạng thái hữu hạn ngẫu nhiênError! Bookmark not defined Hình 21: Ví dụ cấu trúc CRF Error! Bookmark not defined Hình 22: Ví dụ CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức… Error! Bookmark not defined Hình 23: Nguồn thơng tin [4] Error! Bookmark not defined Hình 24: Lấy thông tin từ internet Error! Bookmark not defined Hình 25: Tiền xử lý liệu (1) Error! Bookmark not defined Hình 26: Tiền xử lý liệu (2) Error! Bookmark not defined v Danh sách từ viết tắt, kí hiệu, thuật ngữ Từ viết tắt IR IE WI CRF NER HMM MEMM CMM SFSA Ý nghĩa, mô tả Information Retrieve: Truy vấn thông tin Information Extract: Trích chọn thơng tin Wrapper Induction: Condition Random Fields: Trƣờng ngẫu nhiên có điều kiện Named Entity Recognition: Nhận dạng thực thể tên Hidden Markov Model: Mơ hình Markov ẩn Maximum Entropy Markov Model: Mơ hình Markov cực đại Entropy Conditional Markov Model: Mơ hình Markov có điều kiện Schochatics Finite State Automaton: Máy trạng thái hữu hạn ngẫu nhiên vi Chú ý Chƣơng 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài Thông tin dự báo thời tiết thông tin quan trọng cần đƣợc cập nhật hàng ngày cho ngƣời Nó ảnh hƣởng lớn tới sống sinh hoạt ngƣời dân, quan tổ chức Việc dự báo thông tin gần đúng, kịp thời có vai trò vơ cần thiết quan trọng Đối với sống hàng ngày, thơng tin thời tiết giúp ngƣời dân có chuẩn bị cần thiết lại Đối với ngành phụ thuộc vào thời tiết nhƣ đánh bắt thủy hải sản, nơng nghiệp thơng tin thời tiết giúp họ có chuẩn bị phù hợp q trình sản xuất Do mức độ quan trọng thông tin thời tiết, việc nghiên cứu phƣơng pháp để trích chọn thơng tin thời tiết, từ văn bản, trang tin tức hàng ngày giúp ích cho nhiều ngƣời Phạm vi luận văn nghiên cứu phƣơng pháp trích chọn thơng tin thời tiết từ văn bản, trang tin tức tiếng Việt Các thơng tin thời tiết có sẵn nhiều trang tin tức tiếng Việt, đƣợc trình bày với nhiều dạng khác [4] Thơng tin thời tiết dạng có cấu trúc (bảng thông tin lƣợng mƣa, nhiệt độ vùng miền thời điểm – Hình 1: Mẫu thơng tin có cấu trúc), phi cấu trúc (nhƣ dạng tin tóm tắt, chi tiết thông tin thời tiết vùng miền thời điểm – Hình 3: Mẫu thơng tin phi cấu trúc), dạng bán cấu trúc (danh sách thông tin thời tiết chung chung, gồm nhiệt độ, độ ẩm, tình trạng nắng mƣa số vùng miền – Hình 2: Mẫu thơng tin bán cấu trúc) Ngồi ra, thơng tin thời tiết đƣợc cung cấp không đầy đủ (một số thông tin khơng có), khơng đồng (các đơn vị đo khác nhau) Do đó, nhiệm vụ trích chọn thơng tin phức tạp hốn đổi thuộc tính lỗi đánh máy xảy trình đƣa tin lên trang tin Hình 1: Mẫu thơng tin có cấu trúc Hình 2: Mẫu thơng tin bán cấu trúc Hình 3: Mẫu thông tin phi cấu trúc Mục tiêu luận văn xây dựng hệ thống bán tự động, nhằm lấy thông tin từ trang tin, sau đƣa vào hệ thống xử lý liệu đầu vào, xây dựng mơ hình để trích chọn thơng tin thời tiết Từ mơ hình đó, tin đƣợc đƣa vào hệ thống cho kết liệt kê đối tƣợng thời tiết mà quan tâm 1.2 Ý nghĩa khoa học Việc trích chọn thơng tin thời tiết có ý nghĩa lớn mặt khoa học Từ thông tin thời tiết đƣợc chọn lọc mơ hình, chúng đƣợc dùng để thống kê lƣu trữ lại làm sở tham khảo sau Việc lƣu trữ thông tin thời tiết thông tin liên quan (thời gian xảy ra, địa điểm xảy tƣợng thời tiết), có ích cho việc đánh giá đƣa số để xem xét thực tế Ngoài ra, việc lƣu trữ thông tin thời tiết thay văn giúp giảm thiểu kích thƣớc tin cần đƣợc lƣu trữ Các thơng tin đƣợc thể lƣu trữ theo đối tƣợng, việc lƣu trữ dễ dàng truy cập lại cách nhanh chóng theo tiêu chí khác Các thơng tin sau đƣợc trích chọn lƣu trữ theo dạng đối tƣợng, với thuộc tính khác (đối tƣợng thơng tin lƣợng mƣa gồm địa điểm, thời điểm, số đo lƣợng mƣa, đơn vị đo) đƣợc lƣu trữ dạng sở liệu dễ dàng Khi đƣợc lƣu trữ dạng phù hợp, việc truy vấn thông tin để thống kê báo cáo nhanh chóng tiện lợi Từ giúp nhà quản lý hoạch định có nhìn tổng quan xây dựng biện pháp phòng tránh thiên tai cách hiệu Việc rút ngắn tin giúp cho tin nhắn đƣợc truyền thông báo vơ tiện lợi Với kích thƣớc tin đầy đủ, ngƣời dùng phải thời gian để chọn lọc thơng tin cần thiết, khó sử dụng nhắn tin mà điện thoại di động đƣợc sử dụng phổ biến nhƣ Các tin ngắn giúp tổ chức gửi thơng tin dễ dàng nhanh chóng 1.3 Ý nghĩa thực tiễn Các thông tin thời tiết đƣợc cung cấp miễn phí đa dạng trang tin tức tiếng việt Mọi ngƣời bắt gặp thông tin thời tiết đƣợc cập nhật góc nhỏ, nguồn thơng tin cho tốn miễn phí có sẵn Hình 4: Ví dụ thơng tin thời tiết trang tin tức Với kết hệ thống, thông tin thời tiết đƣợc cập nhật nhanh chóng hơn, tiện lợi cho ngƣời có nhu cầu Thay vào trang tin tìm sâu quan tâm, hệ thống cung cấp cho ngƣời dùng thông tin cần thiết cách tập trung cụ thể 1.4 Ứng dụng đề tài Từ thơng tin thời tiết đƣợc trích chọn, chúng đƣợc cung cấp cho ngƣời dân ngƣời quan tâm cách kịp thời Ngƣời dân đăng ký nhận tin nhắn thời tiết mà họ quan tâm Ví dụ, sinh sống khu vực đó, họ quan tâm tới tình hình thời tiết nơi mà họ sinh sống, loại tin cảnh báo đặc biệt Hệ thống xây dựng thơng tin đƣợc trích chọn thực việc lọc tin theo loại thuộc tính để cung cấp cho ngƣời dùng cách tự động có tin tức mà họ cần biết Đối với hệ thống dự báo thời tiết, thơng tin đƣợc trích chọn làm sở để họ xây dựng thêm, ví dụ nhƣ mơ hình hóa thơng tin lên đồ cách trực quan, sinh động Các thông tin thời tiết cung cấp cho hệ thống thông tin địa lý (GIS) giúp cho ngƣời dùng có nhìn tổng quan sinh động, chi tiết Chƣơng 2: BÀI TỐN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 2.1 Mơ tả tốn ý tƣởng giải Bài tốn trích chọn thơng tin thời tiết nhƣ nhiều tốn trích chọn thơng tin khác, gồm bƣớc chính: thu thập liệu từ trang tin, xử lý liệu để tăng hiệu suất hệ thống trích chọn thơng tin, xây dựng mơ hình để trích chọn thơng tin cách bán tự động, cuối kiểm nghiệm đánh giá mơ hình Phần trích chọn đặc trƣng xây dựng mơ hình luận văn đƣợc thực theo mô hình CRF Chƣơng giới thiệu cách tiếp cận tốn trích chọn thơng tin lý hệ thống tiến hành thực nghiệm mơ hình này, ƣu điểm mặt sở lý thuyết so với mơ hình lại Mặc dù với thông tin liệu cụ thể tốn đạt đƣợc cách lại, nhƣng mặt tổng quan cần phải kiểm nghiệm cách rộng rãi trƣớc định áp dụng ứng dụng kết ứng dụng thực tế Bƣớc thu thập liệu từ trang tin đƣợc thực công cụ tiện lợi chia sẻ rộng rãi ngày [4, 23] Việc thu thập thông tin đƣợc tiến hành với hỗ trợ nguồn mở cần ngƣời dùng can thiệp để loại bỏ thông tin trang tin không liên quan, khơng cần thiết Sau đó, nguồn thơng tin phải đƣợc xử lý làm sạch, với đầy đủ bƣớc tiền xử lý liệu khai phá liệu, gồm làm liệu Bảng 1: Mẫu liệu thông tin website I.BẢNG 1: SỐ LIỆU MỰC NƢỚC VÀ LƢU LƢỢNG TRÊN CÁC SƠNG CHÍNH Ở TRUNG, NAM BỘ VÀ TÂY NGUYÊN Sông Trạm Yếu tố đo Thực đo tuần Mã Cả Tả Trạch Thu Bồn Trà Khúc Kôn Ba Cái N.T ĐăkBla Srêpôk Tiền Lý Nhân Yên Thƣợng Thƣợng Nhật H Q Q 245

Ngày đăng: 17/12/2017, 03:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan