Văn học - Tin tức máy VIỆT BẮC

19 108 0
Văn học - Tin tức máy VIỆT BẮC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Xuân Sơn TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MÔ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2011 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Xuân Sơn TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MÔ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành : Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thu Trang Cán bộ đồng hướng dẫn: CN. Nguyễn Tiến Thanh HÀ NỘI - 2011 3 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, ThS. Nguyễn Thu Trang và CN. Nguyễn Tiến Thanh đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi cũng xin gửi lời cảm ơn tới CN. Vũ Tiến Thành, CN. Trần Bình Giang và các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Sislab đã hỗ trợ tôi rất nhiều trong quá trình thực hiện khóa luận. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K52CB và K52CHTTT đã ủng hộ và khích lệ tôi trong suốt thời gian học tập tại trường. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi giúp tôi học tập và nghiên cứu tại trường Đại học Công Nghệ. Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38trong thời gian tôi thực hiện khóa luận. Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh Viên Vũ Xuân Sơn 4 Tóm tắt nội dung Khai phá quan điểm trên miền tin tức là một lĩnh vực mới, nhận được nhiều sự quan tâm trong những năm gần đây, và đánh dấu một bước phát triển trong khai phá văn bản (text mining).Khai phá văn bản hướng tới việc phân tích ngữ nghĩa, giúp máy móc thực sự “hiểu” nội dung văn bản nói và quan điểm của người viết như thế nào (ví dụ: khen/chê) trong văn bản đó. Nhu cầu một máy tìm kiếm quan điểm được đặt ra đáp ứng nhu cầu tìm kiếm quan điểm người dùng. Máy tìm kiếm quan điểm nhận đầu vào là một truy vấn từ người dùng và kết VIỆT BẮC – TỐ HỮU KHÁI QUÁT VỀ TÁC GIẢ – TÁC PHẨM Tác giả: Tố Hữu nhà thơ lớn thi ca Việt Nam đại Các chặng đường thơ Tố Hữu gần song hành với giai đoạn đấu tranh cách mạng đất nước khiến thơ ơng mang tính biên niên sử với nội dung trữ tình trị đậm nét đồng thời thể vận động tư tưởng nghệ thuật nhà thơ TÁC PHẨM Hồn cảnh sáng tác Việt Bắc địa vững cách mạng Việt Nam từ đầu năm cách mạng tới kết thúc kháng chiến chống Pháp Nơi người dân Việt Bắc che chở, đùm bọc sát cánh bên đội, cán để giành bảo vệ độc lập dân tộc Sau chiến thắng lịch sử Điện Biên Phủ, kháng chiến chống Pháp kết thúc thắng lợi, tháng 10/1954, quan trung ương Đảng phủ từ biệt địa Việt Bắc trở Hà Nội Một loạt vấn đề đặt đời sống tình cảm dân tộc: liệu người chiến sỹ có giữ lòng thủy chung với đồng bào Việt Bắc quê hương Có nhớ tháng ngày gian khổ, hào hùng sâu nặng nghĩa tình kháng chiến? Việt Bắc có vị trí nghiệp xây dựng phát triển đất nước thời kỳ mới?… Nhân kiện thời có tính lịch sử ấy, Tố Hữu sáng tác Việt Bắc Bài thơ gồm có hai phần: Phần đầu tái hình ảnh cách mạng kháng chiến Việt Bắc, phần sau gợi viễn cảnh tươi sáng đất nước ca ngợi công ơn Đảng, Bác Hồ dân tộc Qua đó, nhà thơ thể nghĩa tình thắm thiết với Việt Bắc – quê hương cách mạng, với đất nước nhân dân, với kháng chiến trở thành kỷ niệm khiến niềm vui gắn kết với nghĩa tình khứ niềm tin tương lai Bài thơ khúc hát tâm tình người Việt Nam kháng chiến mà chiều sâu truyền thống ân nghĩa, đạo lý thủy chung dân tộc Cấu tứ chung thơ Bài thơ đặt vào hoàn cảnh đặc biệt chia tay đầy nhớ thương lưu luyến người gắn bó lâu dài, chia sẻ bùi cay đắng Nay phút chia tay gợi lại kỷ niệm đẹp đẽ khứ, khẳng định nghĩa tình bền chặt, thủy chung hẹn ước tương lai Nhưng lại chia tay đặc biệt người thực chất lại người trở về, cuối chặng đường người chân trời góc bể xa xơi mà tổ ấm gia đình, thủ hoa lệ, sống hòa bình., lòng người lại, ngồi nỗi nhớ thương niềm trăn trở thủy chung người Với hai nhân vật trữ tình người – kẻ ở, thơ kết cấu theo hình thức đối đáp tựa câu hát giao duyên ca dao xưa Thực ra, bên lớp đối thoại kết cấu lời độc thoại tâm trạng: kẻ – người đi, câu hỏi lời đáp phân thân chủ thể trữ tình, thủ pháp để nhà thơ bộc lộ nỗi niềm tâm trạng, tạo hô ứng, đồng vọng, vang ngân Để thể phân thân ấy, thơ sử dụng sáng tạo tinh tế hai đại từ “mình” “ta” Trong tiếng Việt, “mình” đại từ nhân xưng ngơi thứ để thân người nói, ngơi thứ hai để đối tượng giao tiếp thân yêu, gần gũi, thường hay xuất quan hệ tình yêu, vợ chồng Trong thơ Việt Bắc, “mình” lại chủ yếu dùng ngơi thứ hai cho thấy gắn bó thân thiết vô hai nhân vật đối đáp – “mình” người câu hỏi người lại: “Mình có nhớ ta”, có người lại xao xuyến người đi: “Ta có nhớ ta”; nhiên “mình” có lúc chuyển hóa đa nghĩa, vừa người đi, vừa người lại hòa nhập, gắn kết: “mình có nhớ mình?” Đại từ “ta” sử dụng linh hoạt, độc đáo chủ yếu thứ – người phát ngôn, nhiều lại dùng để chung người đi, kẻ với nghĩa “chúng ta” “rừng cây, núi đá, ta đánh tây ”… Hình ảnh người – người cách đối đáp xưng hơ Mình – Ta thường dùng để diễn tả tình cảm riêng tư tình bạn, tình yêu., thể nghĩa tình thiêng liêng lớn lao cách mạng Cách cấu tứ đặc biệt khiến chuyện nghĩa tình cách mạng, kháng chiến diễn tả ngơn ngữ giọng điệu ngào tình yêu, đưa người đọc vào khoảnh khắc xúc động ân tình lưu luyến, hồi tưởng hồi niệm, tin tưởng ước vọng Đây nét riêng đặc sắc phong cách thơ Tố Hữu Vị trí – giá trị Việt Bắc đỉnh cao thơ Tố Hữu, thành công xuất sắc thơ ca Việt Nam thời kỳ kháng chiến chống Pháp Việt Bắc coi khúc hùng ca tình ca cách mạng, kháng chiến người kháng chiến Bài thơ thể nét tiêu biểu phong cách nghệ thuật thơ Tố Hữu TÌM HIỂU VĂN BẢN Nỗi niềm tâm trạng người lại thấu hiểu, đồng cảm, đồng vọng người tình cảm son sắt người dân Việt Bắc với kháng chiến thuỷ chung người kháng chiến với quê hương cách mạng (24 câu thơ đầu) Khúc dạo đầu ân tình thủy chung niềm nhớ thương đầy trăn trở người lại với người (bốn câu đầu) Nội dung chủ yếu hai cặp câu lục bát hai câu hỏi láy lại da diết: “Mình có nhớ ta …Mình có nhớ khơng?” “Mình” “ta” đại từ nhân xưng quen thuộc ca dao xưa, lối xưng hơ bình dị, thương mến vơ tình u đơi lứa Hai câu hỏi đoạn mở đầu gợi nhắc tới câu ca dao nói cảnh chia tay bịn rịn, nhớ nhung đơi lứa: “Mình nhớ ta Ta ta nhớ hàm cười” Hoặc: “Mình ta dặn câu Dặn dăm câu nhớ, dặn vài câu thương” Tố Hữu mượn hình thức ngơn từ quen thuộc văn học dân tộc để gửi gắm nội dung tình cảm lớn lao thời đại mới, câu ca ngào tình yêu trở thành câu hỏi xao xuyến nghĩa tình cách mạng, thể nỗi nhớ nhung người lại với người xuôi Hai câu thơ lục bát có tới bốn tiếng “mình” có tiếng “ta” Tương quan ngôn từ đem lại cảm giác hình ảnh người tràn ngập khơng gian đầy ắp nỗi nhớ người lại đồng thời gợi chút đơn côi, lặng thầm cho người lại nơi núi rừng hoang vắng, hắt hiu… Đoạn thơ sử dụng phép lặp quen thuộc ca dao khiến nỗi nhớ trở nên miên man da diết nguôi ngoai, đồng thời tạo nên âm hưởng day dứt, trăn trở, thể cảm hứng chủ đạo bài: liệu người chiến thắng có giữ lòng thủy chung, có nhớ tất người ... ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH HÀ NỘI - 2014 i LỜI CẢM ƠN Trƣớc tiên, tôi xin đƣợc gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, TS. Nguyễn Trí Thành đã tận tình chỉ bảo; hƣớng dẫn; động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin gửi lời cảm ơn tới Thầy giáo, PGS. TS. Hà Quang Thuỵ ngƣời đã tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời gian tôi nghiên cứu và làm việc tại phòng thí nghiệm Công nghệ Tri thức (Knowledge Technology Laboratory - KTLab). Tôi xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm Công nghệ Tri thức (KTLab) – Trƣờng Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngƣời thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này. Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng 6 năm 2014 Học viên Phan Thị Thuận ii LỜI CAM ĐOAN Tôi xin cam đoan giải pháp trích chọn sự kiện trong văn bản tin tức tiếng Việt đƣợc trình bày trong luận văn này do tôi thực hiện dƣới sự hƣớng dẫn của TS. Nguyễn Trí Thành. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nƣớc và quốc tê. Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Hà Nội, tháng 6 năm 2014 Tác giả luận văn Phan Thị Thuận iii MỤC LỤC DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vi MỞ ĐẦU vii Chƣơng 1. GIỚI THIỆU ĐỀ TÀI 1 1.1. BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 1 1.2. TỔNG QUAN VỀ SỰ KIỆN 1 1.2.1. Định nghĩa sự kiện 3 1.2.2. Trích chọn sự kiện 3 1.3. TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 4 1.3.1. Bài toán trích chọn sự kiện vụ tai nạn 4 1.3.2. Phát hiện sự kiện 6 1.3.3. Trích chọn sự kiện 6 1.4. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 7 1.4.1. Ý nghĩa khoa học 7 1.4.2. Ý nghĩa thực tiễn 7 1.5. KẾT LUẬN 8 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN 9 2.1. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 9 2.1.1. Luật cú pháp (lexico-syntactic patterns) 10 2.1.2. Luật ngữ nghĩa (lexico-semantic patterns) 11 2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of Rules) 11 iv 2.2. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY 15 2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY 17 2.5. TỔNG KẾT 18 Chƣơng 3. ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 19 3.1. CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN 19 3.2. PHÁT BIỂU BÀI TOÁN 19 3.3. MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 21 3.3.1. Phƣơng pháp đề xuất 21 3.3.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn 22 3.4. GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 23 3.4.1. Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1) 23 3.4.1.1. Phát biểu bài toán 23 3.4.1.2. Xây dựng tập luật 24 3.4.1.3. Xây dựng mô hình phân lớp 28 3.4.2. Bài toán 2- Trích chọn sự kiện vụ tai nạn (pha 2) 29 3.4.2.1. Phát biểu bài toán 29 3.4.2.2. Trích chọn thời gian 30 3.4.2.3. Trích chọn địa điểm 32 3.4.2.4. Trích chọn số thương vong 32 3.4.2.5. Trích chọn phương tiện gây tai nạn 33 3.5. TỔNG KẾT 34 Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 v 4.1. MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM 36 4.2. XÂY DỰNG TẬP DỮ LIỆU 37 4.2.1. Thu thập dữ liệu 37 4.2.2. Tiền xử lý dữ liệu 37 4.3. ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 37 4.3.1. Đánh giá bộ lọc dữ liệu 37 4.3.2. Đánh giá quá Trích chọn sự kiện trong văn bản tin tức tiếng Việt Phan Thị Thuận Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: TS. Nguyễn Trí Thành Năm bảo vệ: 2014 Keywords. Hệ thống thông tin; Trích chọn thông tin; Văn bản tiếng Việt Content Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được nhiều kết quả trong thực tế. Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như kinh tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị, Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, như: thông tin đăng trên báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013” do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì. Trong hội nghị, Ủy ban An toàn giao thông ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người. Cũng theo báo điện tử http://hanoimoi.com.vn, ngày 31-12- 2013, Phó Thủ tướng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 và triển khai nhiệm vụ năm 2014. Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người. Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn. Mặt khác, bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và người dân tham gia giao thông đúng cách. Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích chọn sự kiện trong văn bản tin tức tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết luận văn được chia thành 4 chương: Chương 1. Giới thiệu đề tài Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet. Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt. Chương 2.Một số phương pháp tiếp cận Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích. Từ đó, luận văn sẽ chỉ ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn. Chương 3. Đề xuất mô hình trích chọn sự kiện vụ tai nạn Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn. Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và trích chọn sự kiện. Chương 4. Thực nghiệm và đánh giá Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Ba độ đo được sử dụng trong pha phát hiện sự kiện là i LỜI CAM ĐOAN Tác giả Phùng Chí Quốc xin cam đoan giải pháp trích chọn kiện văn tin tức tiếng Việt trình bày luận văn thực hướng dẫn TS Nguyễn Long Giang Tác giả trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tê Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc ii LỜI CẢM ƠN Trước tiên, em xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Long Giang tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn đến thầy cô trường Trường Đại học Công nghệ thông tin & Truyền thông – Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức làm tảng để nghiên cứu hoàn thành luận văn tốt nghiệp giúp em ứng dụng kiến thức công việc Em xin gởi lời cảm ơn tới người bạn thân yêu, đặc biệt bạn lớp K13E đoàn kết, động viên, giúp đỡ em hoàn thành luận văn tốt nghiệp vượt qua khó khăn học tập Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh: quan tâm; động viên suốt trình học tập thực luận văn tốt nghiệp Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy cô để luận văn em hoàn thiện Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC BIỂU ĐỒ vi DANH MỤC CÁC HÌNH .vii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN 1.1 Bài toán trích chọn thông tin văn (IE) 1.2 Các khái niệm kiện trích chọn kiện (EE) 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 Ý nghĩa khoa học thực tiễn toán trích chọn kiện tai nạn giao thông 1.3.1 Ý nghĩa khoa học 1.3.2 Ý nghĩa thực tiễn 1.4 Kết luận 10 Chương CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN 12 2.1 Các phương pháp dựa tập luật (rule-based) 13 2.1.1 Luật cú pháp (lexico-syntactic patterns) 13 2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 14 2.1.3 Hình dạng biểu diễn tập luật (Form and Representation of Rules) 15 2.2 Phương pháp tiếp cận dựa học máy 19 2.3 Các phương pháp kết hợp luật học máy 20 iv 2.4 Tiêu chuẩn đánh giá thuật toán 21 2.5 Kết luận 23 Chương LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG .24 3.1 Bài toán trích chọn kiện vụ tai nạn giao thông 24 3.1.1 Phát biểu toán 25 3.1.2 Phát kiện 27 3.1.3 Trích chọn kiện 27 3.2 Lựa chọn phương pháp giải toán trích chọn kiện tai nạn giao thông 28 3.2.1 Lựa chọn phương pháp giải toán 28 3.2.2 Mô hình phát trích chọn kiện vụ tai nạn 29 3.2.4 Giải toán phát kiện vụ tai nạn (pha 1) 31 3.2.5 Giải toán trích chọn kiện vụ tai nạn (Pha 2) 35 3.3 Đánh giá thuật toán 41 3.4 Kết luận 42 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Bài toán trích chọn kiện 43 4.2 Môi trường công cụ thự nghiệm: 43 4.2.1 Về phần cứng: 43 4.2.2 Về công cụ phần mềm sử dụng để thử nghiệm: 44 4.3 Xây dựng sở liệu 45 4.3.1 Bảng liệu lưu trữ website 45 4.3.2 Bảng liệu lưu trữ tin chứa thông tin kiện vụ tai nạn giao thông sau qua lọc liệu 45 4.3.3 Bảng liệu lưu trữ chi tiết thuộc tính vụ tai nạn 45 4.4 Các bước thử nghiệm toán 46 4.5 Thử nghiệm quy trình trích chọn thông tin 46 4.5.1 Thu thập liệu: 46 4.5.2 Lọc liệu: 48 4.5.3 Trích i LỜI CAM ĐOAN Tác giả Phùng Chí Quốc xin cam đoan giải pháp trích chọn kiện văn tin tức tiếng Việt trình bày luận văn thực hướng dẫn TS Nguyễn Long Giang Tác giả trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tê Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc ii LỜI CẢM ƠN Trước tiên, em xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Long Giang tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn đến thầy cô trường Trường Đại học Công nghệ thông tin & Truyền thông – Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức làm tảng để nghiên cứu hoàn thành luận văn tốt nghiệp giúp em ứng dụng kiến thức công việc Em xin gởi lời cảm ơn tới người bạn thân yêu, đặc biệt bạn lớp K13E đoàn kết, động viên, giúp đỡ em hoàn thành luận văn tốt nghiệp vượt qua khó khăn học tập Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh: quan tâm; động viên suốt trình học tập thực luận văn tốt nghiệp Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy cô để luận văn em hoàn thiện Thái Nguyên, ngày 28 tháng năm 2016 Tác giả Phùng Chí Quốc iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC BIỂU ĐỒ vi DANH MỤC CÁC HÌNH .vii MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Cấu trúc luận văn Chương TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN 1.1 Bài toán trích chọn thông tin văn (IE) 1.2 Các khái niệm kiện trích chọn kiện (EE) 1.2.1 Định nghĩa kiện 1.2.2 Trích chọn kiện 1.3 Ý nghĩa khoa học thực tiễn toán trích chọn kiện tai nạn giao thông 1.3.1 Ý nghĩa khoa học 1.3.2 Ý nghĩa thực tiễn 1.4 Kết luận 10 Chương CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN 12 2.1 Các phương pháp dựa tập luật (rule-based) 13 2.1.1 Luật cú pháp (lexico-syntactic patterns) 13 2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 14 2.1.3 Hình dạng biểu diễn tập luật (Form and Representation of Rules) 15 2.2 Phương pháp tiếp cận dựa học máy 19 2.3 Các phương pháp kết hợp luật học máy 20 iv 2.4 Tiêu chuẩn đánh giá thuật toán 21 2.5 Kết luận 23 Chương LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG .24 3.1 Bài toán trích chọn kiện vụ tai nạn giao thông 24 3.1.1 Phát biểu toán 25 3.1.2 Phát kiện 27 3.1.3 Trích chọn kiện 27 3.2 Lựa chọn phương pháp giải toán trích chọn kiện tai nạn giao thông 28 3.2.1 Lựa chọn phương pháp giải toán 28 3.2.2 Mô hình phát trích chọn kiện vụ tai nạn 29 3.2.4 Giải toán phát kiện vụ tai nạn (pha 1) 31 3.2.5 Giải toán trích chọn kiện vụ tai nạn (Pha 2) 35 3.3 Đánh giá thuật toán 41 3.4 Kết luận 42 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Bài toán trích chọn kiện 43 4.2 Môi trường công cụ thự nghiệm: 43 4.2.1 Về phần cứng: 43 4.2.2 Về công cụ phần mềm sử dụng để thử nghiệm: 44 4.3 Xây dựng sở liệu 45 4.3.1 Bảng liệu lưu trữ website 45 4.3.2 Bảng liệu lưu trữ tin chứa thông tin kiện vụ tai nạn giao thông sau qua lọc liệu 45 4.3.3 Bảng liệu lưu trữ chi tiết thuộc tính vụ tai nạn 45 4.4 Các bước thử nghiệm toán 46 4.5 Thử nghiệm quy trình trích chọn thông tin 46 4.5.1 Thu thập liệu: 46 4.5.2 Lọc liệu: 48 4.5.3 Trích ... Tây Bắc Chính liên tưởng ngào tới tình yêu khiến hình ảnh sau thiên nhiên Việt Bắc thấm đẫm hương vị tình yêu Từng cảnh vật Việt Bắc thời gian không gian liên tiếp, dồn dập nỗi nhớ người Việt Bắc. .. đường Việt Bắc ban đêm (câu 6 3-7 4) Khung cảnh sôi động kháng chiến nhà thơ tập trung miêu tả qua hình ảnh đường Việt Bắc vào ban đêm Hình ảnh đường nhắc đến niềm tự hào: “Những đường Việt Bắc ta”... diết người với tất thuộc Việt Bắc Hình ảnh người Việt Bắc hoài niệm xúc động kháng chiến (câu 31 – 42) Thấp thoáng tranh rừng núi đoạn trên, đoạn thơ sau, người Việt Bắc trực tiếp xuất qua hoài

Ngày đăng: 08/11/2017, 21:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan