1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

99 885 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 1,2 MB

Nội dung

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ NGUYỄN Biên Hòa, Tháng 6/2012 MỤC LỤC Trang Mở đầu . 1 1. Tóm lược đề tài . 1 2. Mục tiêu đề tài . 2 3. Nội dung thực hiện đề tài . 2 4. Phạm vi ứng dụng . 3 Chương 1 : Tổng quan về tóm tắt văn bản tự động 4 1.1. Giới thiệu . 4 1.2. Mô hình tóm tắt văn bản . 5 1.3. Phân loại bài toán tóm tắt văn bản 6 1.4. Các phương pháp tóm tắt văn bản . 9 1.5. Tình hình nghiên cứu trong và ngoài nước . 10 1.5.1. Ngoài nước . 10 1.5.2. Trong nước 12 1.6. Một số hệ thống tóm tắt văn bản trên thế giới . 13 Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt 16 2.1. Một số đặc điểm của ngôn ngữ tiếng Việt . 16 2.1.1. Văn bản, chủ đề văn bảncấu trúc văn bản . 16 2.1.2. Tiêu đề của văn bản 17 2.1.3. Đoạn văn 18 2.1.4. Câucấu trúc câu tiếng Việt . 19 2.1.5. Từ 23 2.2. Bài toán tách câu 24 2.2.1. Giới thiệu bài toán 24 2.2.2. Dấu hiệu đặc trưng nhận dạng câu 25 2.3. Bài toán tách từ tiếng việt . 26 2.3.1. Giới thiệu bài toán 26 2.3.2. Các phương pháp tách từ 28 2.3.2.1. Phương pháp dựa trên otomat 28 2.3.2.2. Dùng mô hình n-gram và phương pháp xác suất thống . 30 2.3.2.3. Sử dụng giải thuật di truyền và thốngtrên Internet . 31 2.4. Các thách thức của quá trình rút trích văn bản khoa học . 32 2.4.1. Văn phong 32 2.4.2. Lỗi văn phạm . 32 Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt 33 3.1. Các phương pháp rút trích 33 3.1.1. Các phương pháp thống kê (Statistical Methods) 33 3.1.1.1. Phương pháp vị trí (Position-Based) . 34 3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based) . 35 3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based) 36 3.1.2 . Phương pháp mạng ngữ nghĩa . 36 3.1.2.1. Phương pháp quan hệ lẫn nhau . 36 3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains ) 36 3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences ) . 36 3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based ) 37 3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích 37 3.1.4. Hướng tiếp cận của đề tài . 38 3.2. Mô hình rút trích ý chính của văn bản khoa học . 39 3.2.1. Mô hình tổng quát 39 3.2.1.1. Giai đoạn tiền xử lý văn bản . 41 3.2.1.2. Giai đoạn tách và lọc câu 41 3.2.1.3. Giai đoạn rút trích cơ sở 45 3.2.1.4. Giai đoạn phân lớp câu . 55 3.2.1.5. Tính độ quan trọng của câu . 56 3.2.2. Đánh giá kết quả tóm tắt, rút trích 59 3.2.2.1. Phương pháp thủ công 61 3.2.2.2. Các phương pháp đánh giá khác 61 Chương 4 : Thử nghiệm và đánh giá kết quả 65 4.1. Kiến trúccác chức năng chương trình 65 4.1.1. Tiền xử lý . 65 4.1.2. Tách từ toàn văn bản 65 4.1.3. Tách câu . 66 4.1.4. Lọc câu 66 4.1.5. Rút trích cơ sở 67 4.1.6. Phân lớp câu . 68 4.1.7. Đánh giá câu 68 4.1.8. Hiển thị kết quả xử lý . 69 4.2. Thực nghiệm chương trình . 69 4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản . 70 4.2.2. Giao diện tách câu 71 4.2.3. Giao diện phân lớp câu . 72 4.2.4. Giao diện hiển thị kết quả . 73 4.2.5. Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73 4.3. Đánh giá kết quả . 74 4.3.1. Đánh giá kết quả xử lý tổng quát 74 4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng . 76 4.3.3. Đánh giá từ phía người đọc 83 Kết Luận 89 Tài liệu tham khảo 91 DANH MỤC HÌNH ẢNH Hình 1.1 : Mô hình hệ thống tóm tắt văn bản 5 Hình 1.2: Mô hình một hệ thống rút trích văn bản . 6 Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word 14 Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ . 15 Hình 2. 1 Xây dựng ôtômát âm tiết . 28 Hình 2. 2 Xây dựng ôtômát từ vựng . 29 Hình 2. 3 Một tình huống nhập nhằng 29 Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học . 40 Hình 4. 1 Mô hình tách từ tiếng Việt và huấn luyện . 65 Hình 4. 2 Mô hình huấn luyện từ ghép 66 Hình 4. 3 Mô hình tách câu 66 Hình 4. 4 Mô hình lọc câu 67 Hình 4. 5 Mô hình Rút trích cơ sở 67 Hình 4. 6 Mô hình phân lớp câu . 68 Hình 4. 7 Mô hình đánh giá câu 69 Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện . 70 Hình 4. 9 Giao diện tách câu 71 Hình 4. 10 Giao diện phân lớp và đánh giá câu 72 Hình 4. 11 Giao diện hiển thị kết quả . 73 Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học 73 Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara 80 DANH MỤC BẢNG BIỂU Bảng 3.1 Các ký hiệu kết thúc câu . 41 Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu . 42 Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com 44 Bảng 3.4 Các thành phần trong bài báo khoa học 46 Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học 50 Bảng 3.6 Ví dụ về độ hồi tưởng . 62 Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% 74 Bảng 4. 2 Lọc kết quả theo tỷ lệ 7% . 75 Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS 77 Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường . 78 Bảng 4. 5 Kết quả khác nhau của ISS . 79 Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường 79 Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara 81 Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara 82 Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara . 82 Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara . 83 Bảng 4. 11 Chi tiết kết quả rút trích 84 Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS 87 1 Mở đầu 1. Tóm lược đề tài Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay Word Wide Web (www) nói riêng là một môi trường phổ biến dùng để lưu trữ các thông tin. Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông tin vô cùng to lớn. Lượng thông tin khổng lồ đó đem lại lợi ích không nhỏ dành cho con người. Chính vì sự khổng lồ của thông tin đó dẫn đến việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng mục đích và ít tốn kém thời gian. Người ta mất quá nhiều thời gian để có thể đọc hết một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận là nội dung tài liệu đó không đúng mục đích tìm kiếm của mình. Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Đồng thời cũng là cơ sở cho các bài toán tóm tắt văn bản, truy hồi thông tin,… Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa học là trong mỗi văn bản, tác giả – nhà khoa học – luôn mong muốn trình bày, thậm chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt một cách hết sức khách quan[27]. Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong toàn bộ văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thông tin như bài báo khoa học và toàn văn báo cáo. Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng 2 dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực khác nhau. Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu. Đề tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học với kết quả đầu ra tốt nhất. 2. Mục tiêu đề tài Đề xuất một quy trình rút trích các câunội dung mang thông tin quan trọng trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách chặt chẽ, đưa ra thuật toán phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút trích văn bản khoa học trong lĩnh vực công nghệ thông tin. 3. Nội dung thực hiện đề tài - Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt. - Thu thập số lượng lớn các bài báo khoa học, các tin tức và toàn văn báo cáo trong lĩnh vực công nghệ phần mềm ngành công nghệ thông tin. Khảo sát cách viết và cấu trúc các loại tài liệu đó. - Tìm hiểu các công cụ xử lý văn bản của nước ngoài. - Tìm hiểu cách thức tương tác với văn bản. - Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết. - Xây dựng quy trình rút trích ý chính trong văn bản khoa học : § Xác định, phân loại đối tượng văn bản : bài báo khoa học, toàn văn … § Tiền xử lý, chuẩn hóa văn bản § Xác định thông tin văn bản : tên tác giả, năm phát hành, tên văn bản, số trang, số từ . § Xác định cấu trúc của toàn bộ văn bản : chương, phần, đoạn,… § Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản. § Xác định những câu chứa các từ có trong tên đề tài. Xác định câu nào hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất. 3 § Xác định các vị trí quan trọng trong văn bản thường chứa ý chính. § Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ mà theo sau nó hay đứng trước nó là ý chính) . § Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất. - Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân. Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý chính trong văn bản khoa học. - Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp. - Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động. - Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ chính xác của quy trình đề xuất. 4. Phạm vi ứng dụng Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học tiếng Việt như bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin. 4 Chương 1 : Tổng quan về tóm tắt văn bản tự động 1.1. Giới thiệu Tóm tắt văn bản tự động là một trong những nội dung quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Qua việc tóm tắt, các ý chính trong tài liệu được sàng lọc và trình bày một cách cô đọng góp phần tạo ra một văn bản ngắn gọn xúc tích nhưng vẫn mang đầy đủ thông tin mà tài liệu muốn đề cập, vì thế nó có giá trị thực tiễn to lớn và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin. Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến”[12]. Và để thực hiện được công việc tóm tắt đòi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì thế có thể nói đây là quá trình quan trọng nhất trong công đoạn tóm tắt. Bài toán tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn nhất trong lĩnh vực khai phá văn bản. Một số biến thể của bài toán này như sinh mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản . Những thuật toán dùng trong tóm tắt văn bản cũng được áp dụng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện. Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn vị văn bản. Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích rút như mệnh đề hoặc câu. Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Sau khi chọn được các đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống khác. . TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ. về các ý chính trong văn bản khoa học. - Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp. - Xây dựng hệ thống rút trích ý chính

Ngày đăng: 18/12/2013, 14:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bùi Minh Toán, Lê A, Đỗ Việt Hùng, Giáo trình tiếng Việt thực hành, Nhà xuất bản Giáo dục, p.2 – 10,p.25-31 Sách, tạp chí
Tiêu đề: Giáo trình tiếng Việt thực hành
Nhà XB: Nhà xuất bản Giáo dục
[2] Chin-Yew Lin and Eduard Hovy (2003) , Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics, Information Sciences Institute-University of Southern California Sách, tạp chí
Tiêu đề: Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics
[3] Đặng Vũ Bình (2007), Hướng dẫn viết đề cương nghiên cứu và báo cáo kết quả nghiên cứu của khóa luận tốt nghiệp, Đại học Nông nghiệp I – Hà Nội Sách, tạp chí
Tiêu đề: Hướng dẫn viết đề cương nghiên cứu và báo cáo kết quả nghiên cứu của khóa luận tốt nghiệp
Tác giả: Đặng Vũ Bình
Năm: 2007
[4] Đỗ Hữu Tài (2011), Quy định về nội dung và cách trình bày luận văn thạc sĩ, Đại học Lạc Hồng Sách, tạp chí
Tiêu đề: Quy định về nội dung và cách trình bày luận văn thạc sĩ
Tác giả: Đỗ Hữu Tài
Năm: 2011
[5] Đỗ Phúc và Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung, Trung tâm Phát triển Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung
[8] Elena Lloret and Manuel Palomar (2010), Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation , Department of Software and Computing Systems, University of Alicante, Spain Sách, tạp chí
Tiêu đề: Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation
Tác giả: Elena Lloret and Manuel Palomar
Năm: 2010
[18] Nguyễn Lê Minh và Cao Hoàng Trụ (2006), Phân cụm từ Tiếng Việt bằng phương pháp học máy cấu trúc, Advanced Institute of Science and Technology Sách, tạp chí
Tiêu đề: Phân cụm từ Tiếng Việt bằng phương pháp học máy cấu trúc
Tác giả: Nguyễn Lê Minh và Cao Hoàng Trụ
Năm: 2006
[19] Nguyễn Quý Minh (2009), Xây dựng công cụ quảng cáo theo ngữ cảnh tiếng Việt, Luận văn thạc sĩ ngành Khoa học máy tính – Trường Đại học Khoa học Tự Nhiên, TP.Hồ Chí Minh Sách, tạp chí
Tiêu đề: Xây dựng công cụ quảng cáo theo ngữ cảnh tiếng Việt
Tác giả: Nguyễn Quý Minh
Năm: 2009
[20] Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet, Trường PT Năng Khiếu-ĐHQG TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet
Tác giả: Nguyễn Thanh Hùng
Năm: 2006
[21]Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương , Sử dụng bộ gán nhán từ loại xác suất QTAG cho văn bản tiếng , Đại học Khoa học tự nhiên Sách, tạp chí
Tiêu đề: Sử dụng bộ gán nhán từ loại xác suất QTAG cho văn bản tiếng
[22] Nguyễn Trọng Phúc và Lê Thanh Hương (2006), Tóm tắt văn bản tiếng Việt dựa trên cấu trúc diễn ngôn, Đại học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: Tóm tắt văn bản tiếng Việt dựa trên cấu trúc diễn ngôn
Tác giả: Nguyễn Trọng Phúc và Lê Thanh Hương
Năm: 2006
[23] R.C. Balabantara and et al (2012), Text Summarization using Term Weights, International Journal of Computer Applications (0975 – 8887) Volume 38– No.1, January 2012 Sách, tạp chí
Tiêu đề: Text Summarization using Term Weights
Tác giả: R.C. Balabantara and et al
Năm: 2012
[25] Trần Văn Lăng (2011), Cách thức viết một bài báo khoa học, Khoa Công nghệ thông tin – trường Đại học Lạc Hồng Sách, tạp chí
Tiêu đề: Cách thức viết một bài báo khoa học
Tác giả: Trần Văn Lăng
Năm: 2011
[26] Vishal Gupta and Gurpreet Singh Lehal (2010), A Survey of Text Summarization Extractive Techniques, Journal of emerging technologies in web intelligence, vol. 2, no. 3, august 2010 Sách, tạp chí
Tiêu đề: A Survey of Text Summarization Extractive Techniques
Tác giả: Vishal Gupta and Gurpreet Singh Lehal
Năm: 2010
[27] Vương Toàn (2007), Thử đề xuất quy trình tự động tóm tắt văn bản khoa học, Bản tin thư viện – Công nghệ thông tin Sách, tạp chí
Tiêu đề: Thử đề xuất quy trình tự động tóm tắt văn bản khoa học
Tác giả: Vương Toàn
Năm: 2007
[28] Wesley T. Chuang and Jihoon Yang (2000) , Extracting Sentence Segments for Text Summarization: A Machine Learning Approach, SIGIR 2000 7/00 Athens, Greece© 2000 ACM 1-58113-226-3/00/0007 Sách, tạp chí
Tiêu đề: Extracting Sentence Segments for Text Summarization: A Machine Learning Approach
[29] Yiming Yang, Xin Liu, A re-examination for text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 Sách, tạp chí
Tiêu đề: A re-examination for text categorization methods
[6] Đỗ Văn Long và cộng sự, Xây dựng hệ thống tự động rút trích nội dung chính trong các văn bản điện tử tiếng Việt, Phân viện Công nghệ thông tin tại TP. Hồ Chí Minh, Viện Khoa học và Công nghệ Việt Nam Khác
[7]Dragomir Radev and et al, MEAD, University of Michigan, October -2003 <URL: http://old-site.clsp.jhu.edu/ws01/groups/asmd/front_page.html&gt Khác
[9]Eduard Hovy, Summarist – Automated Text Summarization, Information Sciences Institute of the University of Southern California,2003<URL: http://www.isi.edu/natural-language/projects/SUMMARIST.html&gt Khác

HÌNH ẢNH LIÊN QUAN

1.2. Mô hình tóm tắt văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
1.2. Mô hình tóm tắt văn bản (Trang 11)
Hình  1.1 : Mô hình hệ thống tóm tắt văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
nh 1.1 : Mô hình hệ thống tóm tắt văn bản (Trang 11)
Hình 1.2: Mô hình một hệ thống rút trích văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 1.2 Mô hình một hệ thống rút trích văn bản (Trang 12)
Hình  1.2: Mô hình một hệ thống rút trích văn bản - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
nh 1.2: Mô hình một hệ thống rút trích văn bản (Trang 12)
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word •SUMMARIST[9] - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word •SUMMARIST[9] (Trang 20)
Hình  1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
nh 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word (Trang 20)
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ (Trang 21)
Hình  1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
nh 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ (Trang 21)
Bảng  chữ   cái   của   ôtômát   âm  tiết   là bảng chữ cái tiếng Việt,  mỗi  cung  chuyển được ghi trên đó một ký tự - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
ng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự (Trang 34)
Hình 2. 2 Xây dựng ôtômát từ vựng - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 2. 2 Xây dựng ôtômát từ vựng (Trang 35)
Hình 2. 3  Một tình huống nhập nhằng - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 2. 3 Một tình huống nhập nhằng (Trang 35)
Hình 3.1 Quy trình tổng quát rút trích ý chính văn bản khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 3.1 Quy trình tổng quát rút trích ý chính văn bản khoa học (Trang 46)
Hình 3. 1  Quy trình tổng quát rút trích ý chính văn bản khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học (Trang 46)
3.2.1.1. Giai đoạn tiền xử lý văn bản (Khối (1) hình 3.1) - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
3.2.1.1. Giai đoạn tiền xử lý văn bản (Khối (1) hình 3.1) (Trang 47)
3.2.1. 1. Giai đoạn tiền xử lý văn bản ( Khối (1) hình 3.1) - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
3.2.1. 1. Giai đoạn tiền xử lý văn bản ( Khối (1) hình 3.1) (Trang 47)
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu (Trang 48)
Bảng 3.2  Một số trường hợp ngoại lệ trong nhận dạng tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu (Trang 48)
Bảng 3. 3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3. 3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com (Trang 50)
Bảng 3.4 Các thành phần trong bài báo khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3.4 Các thành phần trong bài báo khoa học (Trang 52)
Bảng 3.6 Ví dụ về độ hồi tưởng S ố  câu được  C   ch ọn  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3.6 Ví dụ về độ hồi tưởng S ố câu được C ch ọn (Trang 68)
Bảng 3.6  Ví dụ về độ hồi tưởng  Số  câu  được  C   chọn - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 3.6 Ví dụ về độ hồi tưởng Số câu được C chọn (Trang 68)
Dựa trên mô hình tổng quát rút trích ý chính văn bản khoa học (Hình 3.1) hệ - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
a trên mô hình tổng quát rút trích ý chính văn bản khoa học (Hình 3.1) hệ (Trang 71)
Hình 4. 1  Mô hình tách từ tiếng Việt và huấn luyện - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 1 Mô hình tách từ tiếng Việt và huấn luyện (Trang 71)
Hình 4.2 Mô hình huấn luyện từ ghép - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4.2 Mô hình huấn luyện từ ghép (Trang 72)
Hình 4. 2  Mô hình huấn luyện từ ghép - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 2 Mô hình huấn luyện từ ghép (Trang 72)
Hình 4.4 Mô hình lọc câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4.4 Mô hình lọc câu (Trang 73)
Hình 4. 4  Mô hình lọc câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 4 Mô hình lọc câu (Trang 73)
Hình 4 .6 Mô hình phân lớp câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4 6 Mô hình phân lớp câu (Trang 74)
Hình 4. 6 Mô hình phân lớp câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 6 Mô hình phân lớp câu (Trang 74)
Hình 4 .7 Mô hình đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4 7 Mô hình đánh giá câu (Trang 75)
Hình 4. 7  Mô hình đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 7 Mô hình đánh giá câu (Trang 75)
Hình 4 .8 Giao diện tiền xử lý, tách từ và huấn luyện - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4 8 Giao diện tiền xử lý, tách từ và huấn luyện (Trang 76)
Hình 4. 8  Giao diện tiền xử lý, tách từ và huấn luyện - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện (Trang 76)
Hình 4.9 Giao diện tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4.9 Giao diện tách câu (Trang 77)
Hình 4. 9  Giao diện tách câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 9 Giao diện tách câu (Trang 77)
Hình 4. 10 Giao diện phân lớp và đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 10 Giao diện phân lớp và đánh giá câu (Trang 78)
Hình 4. 10  Giao diện phân lớp và đánh giá câu - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 10 Giao diện phân lớp và đánh giá câu (Trang 78)
Hình 4.12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4.12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học (Trang 79)
Hình 4.11 Giao diện hiển thị kết quả - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4.11 Giao diện hiển thị kết quả (Trang 79)
Hình 4. 12  Giao diện hiển thị thành phần quan trọng của bài báo khoa học - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học (Trang 79)
Bảng 4. 1  Lọc kết quả theo tỷ lệ 4.21% - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% (Trang 80)
Bảng 4.2 Lọc kết quả theo tỷ lệ 7% - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4.2 Lọc kết quả theo tỷ lệ 7% (Trang 81)
Bảng 4.3 Kết quả 10 câu điểm cao nhất của ISS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4.3 Kết quả 10 câu điểm cao nhất của ISS (Trang 83)
Bảng 4. 3  Kết quả 10 câu điểm cao nhất của ISS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS (Trang 83)
Bảng 4.4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4.4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường (Trang 84)
Bảng 4. 4  Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường (Trang 84)
Bảng 4 .5 Kết quả khác nhau của ISS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4 5 Kết quả khác nhau của ISS (Trang 85)
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Th ấy rõ hơn qua bảng sau :  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Th ấy rõ hơn qua bảng sau : (Trang 86)
Hình 4. 13  Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara  Thấy rừ hơn qua bảng sau : - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Thấy rừ hơn qua bảng sau : (Trang 86)
Bảng 4 .7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara (Trang 87)
Bảng 4. 7  Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C (Trang 87)
Bảng 4 .8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara (Trang 88)
Bảng 4. 8  Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C (Trang 88)
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara  - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara (Trang 89)
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C (Trang 89)
Bảng 4.11 Chi tiết kết quả rút trích - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4.11 Chi tiết kết quả rút trích (Trang 90)
Bảng 4. 11  Chi tiết kết quả rút trích - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 11 Chi tiết kết quả rút trích (Trang 90)
Chú thích bảng biểu 4.1 1: - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
h ú thích bảng biểu 4.1 1: (Trang 92)
Bảng 4. 12  Kết quả và tỷ lệ rút trích giữa người và EMIS - Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS (Trang 93)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w