1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng chương trình tóm tắt văn bản tiếng việt

76 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 1,47 MB

Nội dung

Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa BÙI QUỐC NAM XÂY DỰNG CHƯƠNG TRÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT Chun ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2008 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo - Tp HCM, ngày 30 tháng 11 năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Bùi Quốc Nam Giới tính : Nam / Nữ  Ngày, tháng, năm sinh : 18/04/1982 Nơi sinh : Đồng Tháp Chuyên ngành : Khoa học Máy tính Khố : 2005 1- TÊN ĐỀ TÀI : Xây dựng chương trình Tóm tắt Văn Tiếng Việt 2- NHIỆM VỤ LUẬN VĂN : Nghiên cứu phương pháp tóm tắt văn bản, từ định hướng nghiên cứu luận văn Nghiên cứu đặc tính ngơn ngữ tiếng việt Xây dựng chương trình tóm tắt văn tiếng việt dựa lưới ý niệm (chú ý đến đặc tính tiếng việt) 3- NGÀY GIAO NHIỆM VỤ : 15/06/2008 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH PGS.TS Phan Thị Tươi CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS Phan Thị Tươi Cán chấm nhận xét : PGS.TS Đỗ Phúc Cán chấm nhận xét : TS Nguyễn Đức Cường Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 19 tháng 02 năm 2009 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS.TS Phan Thị Tươi PGS.TS Cao Hoàng Trụ PGS.TS Đỗ Phúc TS Quản Thành Thơ TS Nguyễn Đức Cường Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành Lời cảm ơn ***** Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS.TS Phan Thị Tươi, người Cơ tận tình hướng dẫn tơi suốt q trình thực luận văn tạo điều kiện để tơi hồn thành luận văn Tôi xin chân thành cảm ơn thầy cô khoa Công nghệ Thông tin, Trường ĐH Bách Khoa Tp.HCM, người tận tình giảng dạy, hướng dẫn truyền đạt kinh nghiệm thực tế, qua tạo tơi kiến thức tảng q báu để tơi hồn thành luận văn Tơi xin cảm ơn gia đình bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi xin hứa tiếp tục cố gắng phấn đấu để vươn cao Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt Tóm tắt Trong thời đại ngày này, internet xem nguồn thông tin vô rộng lớn ngày mở rộng thêm Đặc biệt công việc học tập nghiên cứu internet nguồn tài liệu cập nhật phù hợp Trong vơ số tài liệu có từ nhiều nguồn khác nhau, người ta nhiều thời gian đọc toàn nội dung tài liệu định sử dụng hay khơng Khi đó, đọc tóm tắt (abstract) cách nhanh để nắm tổng quát nội dung tài liệu Vấn đề tự động tạo tóm tắt cho tài liệu tìm hiểu phát triển giới Ngôn ngữ tự nhiên ln chứa đựng nhiều hàm ý Bản tóm tắt hiệu phải mang nhiều nội dung cốt lõi văn gốc, việc tạo tóm tắt không đơn dựa tần suất xuất từ văn mà cịn phải tính đến mối quan hệ ý nghĩa từ với Hiện nay, việc xây dựng chương trình tóm tắt văn tiếng việt bắt đầu quan tâm nghiên cứu nhiều Luận văn giới thiệu mô hình tóm tắt văn tiếng việt dựa Lưới ý niệm phương pháp tóm tắt sử dụng tiếng việt, có giải mối quan hệ ngữ nghĩa từ câu với Mơ hình xây dựng tập ý niệm tạo mối quan hệ ngữ nghĩa câu thông qua ý niệm câu, sau chạy giải thuật dựa lưới ý niệm để chọn câu cho tóm tắt Kết thực nghiệm cho thấy mơ hình giới thiệu có hiệu tốt áp dụng vào tiếng việt Vì thế, mơ hình xem sở cho nghiên cứu để tiếp tục hoàn thiện việc tóm tắt văn tiếng việt Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt Mục lục trang Danh mục hình .8 Danh mục bảng CHƯƠNG 1: GIỚI THIỆU VẤN ĐỀ .10 1.1 Mục tiêu đề tài .11 1.2 Đóng góp đề tài 12 CHƯƠNG 2: TỔNG QUAN CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 13 2.1 Các cơng trình nghiên cứu nước 13 2.1.1 Phương pháp Tóm tắt Văn tiếng Trung Quốc dựa phương thức “Xác định vùng chủ đề” 13 2.1.2 Giải thuật học áp dụng cho việc rút trích cụm từ đặc trưng 16 2.1.3 Sử dụng Lưới ý niệm Tài liệu phục vụ cho việc tóm tắt 19 2.2 Các cơng trình nghiên cứu nước .22 Phương pháp Rút trích tóm tắt nội dung trang web tiếng việt 22 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 26 3.1 Ngôn ngữ Tiếng Việt 26 3.1.1 Hiện tượng đồng nghĩa 26 3.1.2 Hệ thống từ loại tiếng Việt 28 3.2 Phương pháp Xây dựng Lưới ý niệm 29 3.2.1 Nền tảng vấn đề tóm tắt văn 29 3.2.2 Định nghĩa ý niệm .30 3.2.3 Lưới ý niệm 33 3.3 Tóm tắt Văn dựa Lưới ý niệm 37 3.3.1 Trọng số biểu diễn câu 37 3.3.2 Giải thuật tóm tắt văn dựa lưới ý niệm 38 Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 3.4 Phương pháp tiến hành thực nghiệm 41 3.4.1 Phạm vi thực nghiệm 41 3.4.2 Thực nghiệm 41 CHƯƠNG 4: MƠ HÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN ĐỒ THỊ Ý NIỆM .43 4.1 Mơ hình đề xuất 43 4.2 Hiện thực Giải thuật (với liệu bảng 3.1) 46 4.3 Giải thuật với liệu Tiếng Việt 49 4.4 Giải thuật với số điều chỉnh .59 4.4.1 Điều chỉnh cơng thức tính trọng số .59 4.4.2 Điều chỉnh giải thuật .62 4.5 Đánh giá bàn luận kết đạt sau điều chỉnh 64 CHƯƠNG 5: KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 69 Phụ lục A 71 Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt Danh mục hình trang Hình 2.1: bước giai đoạn dị tìm vùng chủ đề 14 Hình 2.2: quy trình Giải thuật Học áp dụng cho việc rút trích cụm từ đặc trưng 17 Hình 2.3: sơ đồ lọc cụm từ dự tuyển 18 Hình 2.4: quy trình đánh điểm cho cụm từ dự tuyển để hình thành cụm từ đặc trưng 19 Hình 2.5: tiến trình tóm tắt văn dựa lưới ý niệm 20 Hình 2.6: quy trình Rút trích Tóm tắt văn tiếng Việt 23 Hình 3.1: câu thí dụ từ hội thảo DUC 2005 31 Hình 3.2: lưới ý niệm dẫn xuất từ từ tồn câu hình 3.1 34 Hình 4.1: mơ hình đề xuất cho phương pháp tóm tắt văn tiếng việt dựa lưới ý niệm 44 Hình 4.2: Lưới ý niệm liệu thứ 51 Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt Danh mục bảng trang Bảng 3.1: bảng phân nhóm từ loại Tiếng Việt 29 Bảng 3.2: bảng ý niệm liệu gốc phương pháp 33 Bảng 4.1: bảng ý niệm liệu tiếng việt thứ 50 Bảng 4.2: Kết chạy chương trình mẫu liệu Tiếng Việt thứ 51 Bảng 4.3: tập ý niệm mẫu liệu Tiếng Việt thứ hai 56 Bảng 4.4: kết chạy chương trình mẫu liệu Tiếng Việt thứ hai 57 Bảng 4.5: kết chạy thử nghiệm việc cải tiến cơng thức tính trọng số liệu gốc phương pháp 60 Bảng 4.6: kết chạy thử nghiệm việc cải tiến cơng thức tính trọng số liệu Tiếng Việt thứ 60 Bảng 4.7: kết chạy thử nghiệm việc cải tiến cơng thức tính trọng số liệu Tiếng Việt thứ hai 61 Bảng 4.8: kết chạy thử nghiệm việc cải tiến giải thuật liệu tiếng việt thứ hai 63 Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 10 Chương 1: Giới thiệu vấn đề Trong thời đại ngày nay, với phát triển cơng nghệ thơng tin internet xem kho tư liệu vô lớn phong phú Đặc biệt lĩnh vực mà công nghệ thay đổi liên tục tài liệu điện tử mạng internet nguồn tài liệu cập nhật phù hợp cho việc tham khảo nghiên cứu Tuy nhiên, đặc điểm vơ rộng lớn kho liệu internet nên khó khăn việc xác định tính đắn phù hợp tài liệu tương ứng với vấn đề cần nghiên cứu Với số lượng vô lớn tài liệu, người nghiên cứu khơng thể có đủ thời gian để đọc hết tài liệu sau lọc lại tài liệu phù hợp với vấn đề Do đó, thơng thường người nghiên cứu đọc phần Abstract tài liệu lấy từ internet, thông qua nội dung phần Abstract, người nghiên cứu định xem tiếp phần nội dung tài liệu hay khơng Qua thấy nội dung phần Abstract quan trọng việc tác động đến mức độ quan tâm người đọc tài liệu Đối với người làm công tác lưu trữ tài liệu, đặc biệt tài liệu điện tử, với số lượng tài liệu lớn khó khăn cho họ việc tạo phần liệu tóm tắt từ văn gốc (đối với văn chưa có phần Abstract) Trên giới, vấn đề tóm tắt văn dù quan tâm nghiên cứu từ năm 1958 (theo [9]) đến cịn vấn đề quan tâm thảo luận hội thảo (chẳng hạn hội thảo Document Understanding Conference [16]) Điều nói lên cần thiết phát triển giải thuật chương trình tóm tắt văn Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 62 Bảng kết liệu cho ta thấy cụm từ tính đơn vị cộng vào tổng số từ câu tính phụ từ (trường hợp 1) cần 11 câu cho tóm tắt mang tất ý nghĩa văn 4.4.2 Điều chỉnh giải thuật Trong giải thuật (Tóm tắt dựa Lưới ý niệm) bước số nút dẫn xuất tập  bị giảm xuống ta xóa nút mà có dẫn xuất nút khác nằm tập  Từ bước ta biết trường hợp số nút lại  không đủ độ dài summary tức khơng thể tạo bảng tóm tắt với độ dài mong muốn Tuy nhiên, giải thuật tiếp tục thực thi từ bước đến bước 12, điều làm chương trình chạy lâu Do đó, chúng tơi định điều chỉnh giải thuật (được gọi giải thuật mở rộng) cách kiểm tra số phần tử  nhỏ độ dài summary quay vòng lặp for bước Giải thuật sau cải tiến là: Giải thuật mở rộng: Input: LYN, n0,nstep Output: summary 1: xếp tất nút dẫn xuất theo mức độ quan trọng 2: for i  n0 step nstep 3:   { i nút lớn LYN} 4:   {M|M  , M không dẫn xuất nút } 5: Nếu số phần tử  nhỏ độ dài summary goto bước 6: summary   7: repeated 8: chọn câu có RP lớn mà nút Ncur tương ứng với bị phủ qua nút dẫn xuất có , đưa câu vào summary Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 63 xố nút  mà phủ qua Ncur 9: 10: until độ dài summary đạt yêu cầu  =  11: if độ dài summary đạt yêu cầu then 12: 13: 14: return summary end if end for Kết giải thuật là: Chúng tiến hành thực việc đo thời gian chạy giải thuật với liệu tiếng việt thứ hai Kết cho bảng bên dưới: Thời gian chạy (ms) trước Thời gian chạy (ms) sau cải tiến giải thuật cải tiến giải thuật 0 16 10 16 11 16 12 16 13 16 16 14 141 125 15 141 140 16 141 141 17 141 141 18 141 141 19 141 141 Số Câu tóm tắt Bảng 4.8: kết chạy giải thuật mở rộng liệu Tiếng Việt thứ hai Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 64 4.5 Đánh giá bàn luận kết đạt sau điều chỉnh Đối với việc điều chỉnh cơng thức tính trọng số, từ kết chạy hai liệu tiếng việt, ta thấy cụm từ tính cộng vào tổng số từ câu cho kết có khuynh hướng chọn câu có mức độ bao hàm nhiều chủ đề Tuy nhiên, khác biệt không nỗi bật nhiều số câu tóm tắt Chỉ số câu tóm tắt nhiều (chẳng hạn 12 câu liệu tiếng Việt thứ hai) khác biệt bắt đầu biểu Trong kết thử liệu tiếng Việt thứ hai cần 11 câu cách tính trọng số theo trường hợp đủ bao gộp hết tất ý niệm có văn bản, cịn cách tính trọng số trường hợp lại đòi hỏi đến rút 13 câu cho tóm tắt bao gộp hết chủ đề Nhìn chung, kết tóm tắt phản ánh chủ đề bật văn Với việc xây dựng Lưới ý niệm đảm bảo cho việc chủ đề bật nằm câu chọn trước tiên tóm tắt Do đó, chúng tơi đề xuất việc tính đơn vị cụm từ tính tổng số từ câu, cịn phụ từ bỏ qua khơng tính vào cơng thức Đối với việc điều chỉnh giải thuật: Xét mặt logic, ta dễ dàng thấy rằng: lần chọn thêm câu cho tóm tắt loại phần tử tập , bắt buộc số phần tử tập  lớn số câu cần lấy thêm cho tóm tắt Do đó, việc đưa thêm phần kiểm tra số phần tử  giúp cho việc kết thúc bước lặp kịp thời hơn, bỏ qua đoạn lệnh dư thừa, nhờ chắn làm giải thuật chạy nhanh Về mặt kết thực nghiệm cho ta thấy rằng: trường hợp tạo đủ số câu tóm tắt u cầu việc cải tiến giúp chương trình chạy nhanh vài mili giây Tuy nhiên, chương trình chạy giải thuật tóm tắt chạy nhanh (nhỏ giây) nên việc kết việc cải tiến giải thuật có tốt khơng thực bật Mặc dù đề xuất việc Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 65 điều chỉnh giải thuật nhằm mục đích làm tăng tính đắn hợp lý giải thuật Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 66 Chương 5: Kết luận Luận văn kế thừa thành cơng phương pháp Tóm tắt Văn dựa Lưới ý niệm (theo [12]) thực việc điều chỉnh phương pháp cho phù hợp với đặc thù riêng ngôn ngữ tiếng Việt [17] Bên cạnh đó, để thực hố chương trình Tóm tắt Văn cho tiếng Việt luận văn xây dựng từ điển đồng nghĩa với số lượng liệu đảm bảo đủ để phục vụ cho việc xây dựng Lưới ý niệm dựa liệu đầu vào Đóng góp luận văn: Luận văn giới thiệu hướng tiếp cận mới, tóm tắt văn dựa lưới ý niệm, từ giới thiệu mơ hình tóm tắt văn tiếng việt, khai thác mối quan hệ ngữ nghĩa từ câu thực tóm tắt Thực nghiệm cho thấy hiệu suất mơ hình giới thiệu tương đối tốt Các điều chỉnh công thức tính trọng số giải thuật chứng minh qua thực nghiệm cho kết tốt so với trước điều chỉnh, điều cho thấy việc xem xét đặc thù ngôn ngữ tiếng việt tính số từ câu hồn tồn hợp lý Đối với việc tính cụm từ tiếng việt đơn vị cơng thức tính số từ câu, thực nghiệm cho thấy câu bảng tóm tắt tương tự phương pháp trước điều chỉnh, nhiên số trường hợp kết tóm tắt có độ bao phủ ngữ nghĩa rộng so với lúc đầu Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 67 Hạn chế luận văn: Mơ hình tóm tắt văn tiếng việt dựa lưới ý niệm qua thực nghiệm cho kết tương đối tốt Tuy nhiên, liệu đầu vào mơ hình liệu qua tiền xử lý nên chất lượng mơ hình phụ thuộc vào chất lượng liệu đầu vào Mặt khác, liệu nhập dạng từ cụm từ qua tiền xử lý nên khó khăn nhiều thời gian cho việc nhập liệu kiểm thử cho chương trình Việc đánh giá hiệu chương trình dựa vào trực quan, chưa thể áp dụng chương trình đánh giá tự động Hướng phát triển đề tài: Chương trình Tóm tắt Văn áp dụng cho tiếng Việt thực thông qua giải thuật dựa Lưới ý niệm Ở đây, Lưới ý niệm cơng cụ để biểu diễn ngữ nghĩa văn bản, việc chuẩn bị từ cụm từ phục vụ cho việc xây dựng Lưới ý niệm quan trọng Để thực điều địi hỏi giai đoạn tiền xử lý (tách câu, tách từ, nhận dạng cụm từ…) phải thực cách hiệu đầy đủ nhằm tạo tiền đề cho việc nhận dạng nhóm chủ đề văn Điều đòi hỏi giai đoạn tiền xử lý luôn cải thiện nâng cao hiệu Ngoài ra, từ điển đồng nghĩa phải bổ sung phát triển cho đáp ứng nhu cầu từ việc xây dựng Lưới ý niệm, đảm bảo thỏa mãn tất liệu yêu cầu tra cứu từ văn đầu vào Một từ điển đồng nghĩa đầy đủ góp phần đảm bảo tính xác hiệu tập ý niệm tạo Qua việc khảo sát phân tích mặt lý thuyết, kết tương đối tốt mặt thực nghiệm, mơ hình tóm tắt văn tiếng việt dựa lưới ý niệm điều chỉnh tiếp tục nghiên cứu phát triển thêm Trong tương lai, chương trình cần để kết hợp trực tiếp với chương trình tiền xử lý để có tạo chương trình hoàn chỉnh với liệu văn Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 68 Ngoài ra, từ điển đồng nghĩa phải bổ sung ngày phong phú Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 69 TÀI LIỆU THAM KHẢO [1] Po Hu, Tingting He, Donghong Ji Chinese Text Summarization Based on Thematic Area Detection [2] Ernesto D’Avanzo, Bernardo Magnini, Alessandro Vallin 2004 Keyphrase Extraction for Summarization Purposes: The LAKE System at DUC2004 [3] Yihong Gong, Xin Liu 2001 Generic text summarization using relevance measure and latent semantic analysis In Proceedings of ACM SIGIR’01, pages 1925, ACM, New York [4] L Kaufmann and P.J Rousseeuw 1987 Clustering by means of medoids In Statistical Data Analysis Based on the L1 Norm, Y.Dodge, Ed, Amsterdam,405-416 [5] Jian-Zhou Liu, Ting-Ting He, and Dong-Hong Ji 2003 Extracting Chinese term based on open corpus In Proceedings of the 20th International Conference on Computer Processing of Oriental Languages, pages 43-49 ACM, New York [6] H Schmid 1994 Probabilistic part-of-speech tagging using decision tree In International Conference on New Method in Language Processing, Manchester, UK, [7] C Fellbaum, MIT press, 1998 WordNet: An Electronic Lexical Database [8] B Magnini, M Negri, H Tanev and R Prevete 2002 A WordNet-Based Approach to Named Entities Recognition In Processing of the SemaNet’02 workshop on Building and Using Sematic Networks, Taipei, Taiwan [9] Đỗ Phúc, Hồ Anh Thư 2005 Rút trích Tóm tắt nội dung trang Web tiếng Việt Trung tâm Phát triển Công nghệ Thông tin – Đại học Quốc gia Tp.HCM [10] Võ Lý Hồ 2004 Tìm hiểu văn tóm tắt phương pháp tóm tắt văn Luận án Tiến sĩ Ngữ văn, Đại học Khoa học Xã hội Nhân văn, Tp.HCM [11] Zhang Y, N Zincir-Heywood, Evangelos Milios 2002 World Wide Web Site Summarization Technical Report CS-2002-08, Faculty of Computer Science, Dalhousie University [12] Shiren Ye and Tat-Seng Chua 2006 Document Concept Lattice for Summarization School of Computing, National University of Singapore Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 70 [13] Slava Katz 1996 Distribution of content words andphrases in text and language modelling [14] Dinh Dien, Hoang Kiem, Nguyen Van Toan 2001 Vietnamese Word Segmentation In Processing of the 6th Natural Language Processing Pacific Rim Symposium (NLPR2001), p 749-756, Tokyo [15] Nguyễn Thị Minh Huyền, Vũ Xuân Hương, Lê Hồng Phương 2003 Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt Kỹ yếu Hội thảo ICT.rda’03, Hà Nội [16] Document Understanding Conference Http://duc.nist.gov/ [17] Bùi Tất Tươm, Nguyễn Văn Bằng, Hoàng Xuân Tâm, Nguyễn Thị Quy, Hồng Diệu Minh Giáo trình Tiếng Việt Nhà xuất Giáo Dục [18] Đại học quốc gia thành phố Hồ Chí Minh, 2005 Tạp chí phát triển khoa học cơng nghệ Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 71 Phụ lục A Các bước mô chạy giải thuật với liệu bảng 3.1: Bước 1: nút dẫn xuất sau xếp theo thứ tự mức độ quan trọng sau: {12,11,13,14,21,22,15,23,31,32,41} Bước 2: gán i (là kích thước tập ) = Bước 3: trình bày hình A1 Hình A1: bước giải thuật Bước 4: trình bày hình A2 Hình A2: bước giải thuật Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 72 Bước 5: gán tập summary ban đầu =  Bước 6: vào vòng lặp repeat để bắt đầu chọn câu cho tóm tắt Bước 7: trình bày hình A3 Hình A3: bước giải thuật Bước 8: trình bày hình A4 Hình A4: bước giải thuật Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 73 Bước 9: chưa đủ độ dài summary nên lặp lại bước lần thứ Bước (lần thứ 2): trình bày hình A5 Hình A5: bước giải thuật lần thứ Bước (lần thứ 2): trình bày hình A6 Hình A6: bước giải thuật lần thứ Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 74 Bước (lần thứ 2): chưa đủ độ dài summary nên lặp lại bước lần thứ Bước (lần thứ 3): trình bày hình A7 Hình A7: bước giải thuật lần thứ Bước (lần thứ 3): trình bày hình A8 Hình A7: bước giải thuật lần thứ Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 75 Bước (lần thứ 3): tập  =  nên khỏi vịng lặp repeat chuyển đến bước 10 Bước 10: độ dài summary chưa đạt yêu cầu (= 5) nên phải vòng vòng lặp for bước để tăng kích thích tập  lên thêm phần tử (lên thành 6) … Tiếp tục chạy giải thuật vòng lặp for độ dài summary tóm tắt đạt yêu cầu đề (là câu) Kết cuối tiến trình thực thi giải thuật: Giải thuật chạy đến hết vòng lặp for (ở bước 2) lần thứ với giá trị i (là số phần tử tập ) đạt độ dài summary = giải thuật kết thúc Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt LÝ LỊCH TRÍCH NGANG Họ tên: Bùi Quốc Nam Ngày, tháng, năm sinh: 18/04/1982 Nơi sinh: Đồng Tháp Địa liên lạc: L15, Lô G, chung cư Bàu Cát 2, đường Vườn Lan, phường 10, quận Tân Bình, Tp.Hồ Chí Minh Email: bqnam_it@yahoo.com  Quá trình đào tạo: Từ tháng 09/1999 đến 01/2005: sinh viên khoa Công nghệ Thông tin trường Đại học Bách khoa Tp.HCM Từ tháng 09/2005 đến nay: học viên cao học ngành Khoa học Máy tính trường Đại học Bách khoa Tp.HCM  Q trình cơng tác: Từ tháng 11/2007 đến nay: chun viên phịng Thơng tin – Tin học , Sở giao dịch II, Ngân hàng Phát triển Việt Nam ... dạng ý niệm) Xây dựng lưới ý niệm Lưới ý niệm Áp dụng giải thuật tóm tắt văn Bản tóm tắt Hình 2.5: tiến trình tóm tắt văn dựa lưới ý niệm Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 21 Trong... : Xây dựng chương trình Tóm tắt Văn Tiếng Việt 2- NHIỆM VỤ LUẬN VĂN : Nghiên cứu phương pháp tóm tắt văn bản, từ định hướng nghiên cứu luận văn Nghiên cứu đặc tính ngơn ngữ tiếng việt Xây dựng. .. việc tóm tắt văn Đề tài: Xây dựng chương trình Tóm tắt Văn Tiếng Việt 41 3.4 Phương pháp tiến hành thực nghiệm Q trình tóm tắt từ văn đầu vào kết tóm tắt trải qua nhiều cơng đoạn (tiền xử lý, tóm

Ngày đăng: 08/03/2021, 23:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[14] Dinh Dien, Hoang Kiem, Nguyen Van Toan. 2001. Vietnamese Word Segmentation. In Processing of the 6 th Natural Language Processing Pacific Rim Symposium (NLPR2001), p. 749-756, Tokyo Sách, tạp chí
Tiêu đề: In Processing of the 6"th
[1] Po Hu, Tingting He, Donghong Ji. Chinese Text Summarization Based on Thematic Area Detection Khác
[2] Ernesto D’Avanzo, Bernardo Magnini, Alessandro Vallin. 2004. Keyphrase Extraction for Summarization Purposes: The LAKE System at DUC2004 Khác
[3] Yihong Gong, Xin Liu. 2001. Generic text summarization using relevance measure and latent semantic analysis. In Proceedings of ACM SIGIR’01, pages 19- 25, ACM, New York Khác
[4] L. Kaufmann and P.J. Rousseeuw. 1987. Clustering by means of medoids. In Statistical Data Analysis Based on the L1 Norm, Y.Dodge, Ed, Amsterdam,405-416 Khác
[5] Jian-Zhou Liu, Ting-Ting He, and Dong-Hong Ji. 2003. Extracting Chinese term based on open corpus. In Proceedings of the 20th International Conference on Computer Processing of Oriental Languages, pages 43-49. ACM, New York Khác
[6] H. Schmid. 1994. Probabilistic part-of-speech tagging using decision tree. In International Conference on New Method in Language Processing, Manchester, UK Khác
[7] C. Fellbaum, MIT press, 1998. WordNet: An Electronic Lexical Database Khác
[8] B. Magnini, M. Negri, H. Tanev and R. Prevete. 2002. A WordNet-Based Approach to Named Entities Recognition. In Processing of the SemaNet’02 workshop on Building and Using Sematic Networks, Taipei, Taiwan Khác
[9] Đỗ Phúc, Hồ Anh Thư. 2005. Rút trích và Tóm tắt nội dung trang Web tiếng Việt. Trung tâm Phát triển Công nghệ Thông tin – Đại học Quốc gia Tp.HCM Khác
[10] Võ Lý Hoà. 2004. Tìm hiểu văn bản tóm tắt và phương pháp tóm tắt văn bản. Luận án Tiến sĩ Ngữ văn, Đại học Khoa học Xã hội và Nhân văn, Tp.HCM Khác
[11] Zhang Y,. N. Zincir-Heywood, Evangelos Milios. 2002. World Wide Web Site Summarization. Technical Report CS-2002-08, Faculty of Computer Science, Dalhousie University Khác
[12] Shiren Ye and Tat-Seng Chua. 2006. Document Concept Lattice for Summarization. School of Computing, National University of Singapore Khác
[13] Slava Katz. 1996. Distribution of content words andphrases in text and language modelling Khác
[15] Nguyễn Thị Minh Huyền, Vũ Xuân Hương, Lê Hồng Phương. 2003. Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt. Kỹ yếu Hội thảo ICT.rda’03, Hà Nội Khác
[17] Bùi Tất Tươm, Nguyễn Văn Bằng, Hoàng Xuân Tâm, Nguyễn Thị Quy, Hoàng Diệu Minh. Giáo trình Tiếng Việt . Nhà xuất bản Giáo Dục Khác
[18] Đại học quốc gia thành phố Hồ Chí Minh, 2005. Tạp chí phát triển khoa học và công nghệ Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w