1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tóm tắt văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện

50 1,1K 14

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 0,93 MB

Nội dung

MỤC LỤC LỜI NÓI ĐẦU DANH MỤC BẢNG DANH MỤC HÌNH Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan DANH MỤC TỪ VIẾT TẮT TỪ VIẾT TÊN ĐẦY ĐỦ SVM Support vector machines Ý NGHĨA TẮT Bộ phân loại máy vector hỗ trợ HMM Hidden Makov Model Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Mô hình makov ẩn Sinh viên thực hiện: Trịnh Thị Lan LỜI NÓI ĐẦU Tính cấp thiết đề tài Ngày với phong phú tài liệu văn có sẵn Internet Thông tin internet nhiều thông tin mà người dùng cần Vì vậy, vấn đề gặp phải: tìm kiếm tài liệu liên quan thông qua số lượng lớn tài liệu sẵn có, tiếp thu số lượng lớn thông tin có liên quan Tóm tắt công cụ hữu ích cho việc lựa chọn văn có liên quan, để trích xuất điểm văn Nó thu hút nhiều chuyên gia khai phá liệu lĩnh vực xử lý ngôn ngữ tự nhiên Một công cụ tóm tắt văn hữu ích Nó giúp tìm kiếm thông tin cách nhanh chóng gần mục tiêu thay phải đọc tất văn nhiều thời gian, công sức công việc nhàm chán, không khả thi Đối với tiếng việt, số phương pháp tóm tắt văn dựa vào phương pháp đề xuất cho tiếng anh mang lại số kết đáng kể Tuy nhiên, số vấn đề khó khăn để nghiên cứu với xử lý ngôn ngữ tiếng việt Bởi đặc điểm ngôn ngữ khác tiếng anh tiếng việt Tiếng việt ngôn ngữ đơn âm tiết Không giống tiếng anh, từ văn tiếng việt xác định không gian Với phát triển nhiều kỹ thuật máy học xử lý ngôn ngữ, số nhà nghiên cứu ứng dụng kỹ thuật vào tóm tắt văn tự động Một số nghiên cứu điển hình phương pháp : Naïve-Bayes, Decision Tree, Hidden Makov Model, Log-Linear, Mạng nơ-ron, SVM Nhờ khả năng: Học, nhớ lại khái quát hoá từ mẫu huấn luyện liệu, mạng nơ-ron nhân tạo trở thành phát minh đầy hứa hẹn hệ thống xử lý thông tin Các tính toán mạng nơ-ron cho phép giải tốt Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan toán đặc trưng Mạng nơ-ron huấn luyện ánh xạ từ liệu vào tới liệu mà không yêu cầu liệu phải đầy đủ Trong đề tài thực tập này, em lựa chọn đề tài: “Xây dựng hệ thống tóm tắt văn tiếng việt sử dụng mạng nơ ron cho việc huấn luyện” Mục tiêu đề tài: - Tìm hiểu khai phá liệu, tóm tắt văn - Trình bày ứng dụng mạng nơ ron vào tóm tăt văn - Phân tích thiết kế xây dựng chương trình tóm tắt văn Kết đạt được: • • Về lý thuyết : - Tìm hiểu khai phá liệu, tóm tắt văn - Trình bày ứng dụng mạng nơ ron vào tóm tăt văn - Phân tích thiết kế xây dựng chương trình tóm tắt văn Về thực nghiệm : - Chương trình thực nghiệm Bố cục đồ án gồm chương Chương Trình bày tổng quan khai phá liệu, tóm tắt văn Chương Ứng dụng mạng nơ ron tóm tăt văn Chương Phân tích thiết kế xây dựng chương trình tóm tắt văn Chương Kết thực nghiệm Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan Chương TỔNG QUAN VỀ TÓM TẮT VĂN BẢN Các tiến gần công nghệ thông tin truyền thông dẫn đến tăng trưởng chưa thấy liệu thông tin có sẵn Do phương pháp xử lý lượng liệu thông tin lớn vô cần thiết Chúng ta cần có phương pháp khai thác hiệu thông tin văn để phân loại, phân cụm, tổng hợp thông tin sẵn Chương trình bày tổng quan khai phá thông tin văn đặc biệt tóm tắt văn 1.1.Khai phá văn 1.1.1 Khái niệm Khai phá liệu loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn kho liệu, sở liệu có dung lượng lớn Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu có tính hệ thống tập liệu Cũng khai phá liệu khai phá văn mô tả tìm kiếm mẫu liệu, khai phá văn tìm kiếm mẫu văn bản[4] Tuy nhiên, khai phá liệu đặc tả đầy đủ khai thác thông tin tiềm ẩn, có khả hữu ích từ liệu Các thông tin tiềm ẩn liệu đầu vào: ẩn, chưa biết, khó trích xuất mà không truy đòi kỹ thuật tự động khai phá liệu Với khai phá văn bản, thông tin trích xuất rõ ràng quy định rõ ràng văn Khai phá văn cố gắng tách khỏi văn hình thức phù hợp để máy tính trực tiếp xử lý, không cần trung gian người Khai phá văn lĩnh vực phát triển cố gắng để thu thập thông tin có ý nghĩa từ văn ngôn ngữ tự nhiên Nó trình phân tích văn để trích xuất thông tin hữu ích cho mục đích cụ thể Sử dụng kỹ thuật khai phá liệu, máy học, xử lý ngôn ngữ tự nhiên…[5] Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 10 Trong ứng dụng khai phá liệu, chìa khóa cho thành công thông tin chiết xuất phải hiểu chỗ giúp giải thích liệu Điều cần thiết, kết thông tin để dành cho người sở cho hành động tự động Tiêu chuẩn không áp dụng khai phá văn vì, không giống khai phá liệu, đầu vào khai phá văn dễ hiểu Khai phá văn với đầu dễ hiểu đồng nghĩa với việc tóm tắt tính bật từ nội dung lớn văn bản, trường nó: tóm tắt văn 1.1.2 Các kỹ thuật khai phá văn Phân loại văn bản: nhiệm vụ chủ yếu khai phá văn bản[3] Phân loại văn xếp văn ngôn ngữ tự nhiên với chuyên mục xác định trước theo nội dung chúng Tập hợp chuyên mục thường gọi ” từ vựng có kiểm soát” Phân loại văn kỹ thuật truyền thống lâu đời để lấy thông tin thư viện, nơi mà tác giả chuyên ngành cổng vào chiếm ưu với nội dung thư viện Phân cụm văn bản: Phân loại văn xếp văn ngôn ngữ tự nhiên với chuyên mục lớp không xác đinh trước nhóm văn loại tìm kiếm Tóm tắt văn bản: Tóm tắt văn cố gắng để tạo đại diện cô đọng đầu vào Giúp cho người dễ dàng nắm bắt tri thức đọc ma hiểu nhiều Tra cứu văn bản: Với ngữ liệu văn thông tin người dùng cần hiển thị số liệu truy vấn, tìm kiếm văn nhiệm vụ nhận biết đưa văn phù hợp 1.2.Tóm tắt văn 1.2.1 Định nghĩa Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 11 Tóm tắt văn trình rút trích thông tin quan trọng từ văn để tạo thành văn cô đọng, ngắn gọn phục vụ cho yêu cầu nhiều người dùng cụ thể, hay nhiều nhiệm vụ cụ thể [1] 1.2.2 Đặc điểm văn tóm tắt Tóm tắt văn phải làm cho lượng nội dung tóm tắt so với gốc, phải đảm bảo thông tin quan trọng, bật Mức độ giảm nội dung thông tin đo tỷ lệ nén Các tóm tắt thường có chiều dài định mong muốn Nội dung thông tin phải trung thực tương đương với văn nguồn liên quan, phù hợp với yêu cầu người dùng Phải có định dạng tốt ngữ pháp cấu trúc diễn ngôn (cấu trúc nội dung loại văn bản) Có thể đọc hiểu người dùng 1.2.3 Phân loại tóm tắt Tóm tắt văn chia thành nhiều kiểu khác nhau: + Theo kết quả: Tóm tăt rút trích, tóm tắt tóm lược + Theo mục đích hay chức năng: Tóm tắt thị, tóm tắt thông tin, tóm tắt đánh giá + Theo nội dung: Tóm tắt chung, tóm tăt hướng truy vấn + Theo miền liệu: Tóm tắt miền liệu, tóm tắt thể loại, tóm tắt độc lập + Theo mức độ chi tiết: Tóm tắt tổng quan, tóm tắt tập trung kiện + Theo số lượng: Tóm tắt đơn văn bản, tóm tắt đa văn Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 12 + Theo ngôn ngữ: Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ, tóm tắt xuyên ngôn ngữ 1.2.4 Các thuật ngữ Tỷ lệ nén (Compression Ratio): độ đo thể thông tin cô đọng văn tóm tắt Nó tính bằng: Độ bật hay liên quan (Salient or Relevance): trọng số gán cho thông tin văn thể độ quan trọng thông tin toàn văn hay để liên quan thông tin yêu cầu truy vấn người dùng Sự mạch lạc (coherence): văn gọi mạch lạc tất thành phần tuân theo thể thống mặt nội dung trùng lặp thành phần 1.2.5 Các giai đoạn hệ thống tóm tắt Hệ thống tóm tắt văn tự động chia thành giai đoạn chính[1] : - Phân tích (Analysis or Interpretation) : biểu diễn hiểu văn nguồn - Biến đổi (Transformation) : trích chọn nội dung quan trọng - Tổng hợp (Synthesis or Realization) : tạo văn chứa điểm chính, quan trọng văn gốc 1.3.Một số phương pháp tiếp cận tóm tắt ngôn ngữ tiếng việt Có loại tóm tắt tóm tắt rút trích tóm tắt tóm lược Để thực tóm lược cần có lượng tri thức đầy đủ lĩnh vực cần tóm tắt Điều hạn chế nhiều, hướng tiếp cận đa số tập trung vào dạng tóm tắt rút trích câu 1.3.1 Phương pháp thống kê Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 13 Hầu hết nghiên cứu cho tóm tắt đơn văn tập trung văn kỹ thuật (các báo khoa học) Các phương pháp cổ điển thường tập trung vào đặc trưng hình thái để tính điểm cho câu rút trích câu quan trọng để đưa vào tóm tắt Ý tưởng hướng tiếp cận : - Thu tập ngữ liệu - Tạo tóm tắt thủ công - Thiết kế công thức toán hay logic để tính điểm cho câu - Lặp tóm tắt tự động đạt tính tương đương với tóm tắt thủ công: Tính điểm cho câu để tạo tóm tắt cho văn ngữ liệu dựa vào đặc trưng hình thái Từ so sánh tóm tắt tạo tự động với tóm tắt tạo thủ công Cải thiện lại phương thức tính điểm cho câu Phương pháp xác chủ quan Phương pháp xử dụng nhiều vào hệ thống máy học sau Nó phương pháp điển hình phương pháp cổ điển 1.3.2 Phương pháp máy học Máy học lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy học Máy học phương pháp để tạo chương trình máy tính việc phân tích tập liệu Máy học có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, máy học tập trung vào phức tạp giải thuật việc thực thi tính toán Nhiều toán suy luận xếp vào loại toán khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lí Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 39 Hình 3.5 Biều đồ chức tính đặc trưng câu 3.5.3 Biều đồ trình tính huấn luyện Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 40 Hình 3.6 Biều đồ chức huấn luyện 3.5.4 Biểu đồ trình tóm tăt Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 41 Hình 3.7 Biều đồ chức tóm tắt 3.5.5 Biểu đồ trình thêm thuật ngữ Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 42 Hình 3.8 Biều đồ chức thêm thuật ngữ 3.5.6 Biểu đồ trình sửa thuật ngữ Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 43 Hình 3.9 Biều đồ chức sửa thuật ngữ 3.6 Thiết kế sở liệu 3.6.1 Bảng giá trị câu Bảng lưu trữ thông tin ba giá trị đặc trưng câu giá trị câu sau huấn luyện với mạng nơ ron Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 44 Bảng 3.1 Bảng giá trị câu 3.6.2 Trường liệu Kiểu liệu ID_Cau int ThongTinQT float ViTri float SoLuongTT float DauRa float Mô tả Khóa Mã câu Khóa Đặc trưng thông tin quan trọng câu Đặc trưng vị trí câu Đặc trưng số lượng thông tin câu Đầu ra( đặc trưng câu) Bảng Thuật ngữ Đây bảng gồm thuật ngữ tần số thuật ngữ tập văn huấn luyện Bảng 3.2 Bảng thuật ngữ 3.6.3 Trường liệu Kiểu liệu Mô tả Khóa ID_ThuatNgu int Mã thuật ngữ ThuatNgu float Thuật ngữ Wd float Trọng số tập huấn luyện Wt float Trọng số câu Khóa Bảng Văn chuẩn Bảng dùng để lưu trữ thông tin tập văn dùng để huấn luyện Bảng 3.3 Bảng văn Trường liệu Kiểu liệu Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Mô tả Khóa Sinh viên thực hiện: Trịnh Thị Lan 45 ID_VanBan TenVanBan ChieuDai 3.6.4 int Mã văn Nvarchar(200 ) int Khóa Tên Văn Chiều dài văn Bảng danh sách câu Bảng lưu trữ câu văn giá trị mong muốn người dùng nhập vào Bảng 3.4 Bảng Danh sách câu Trường liệu Kiểu liệu ID_Cau NoiDung 3.6.5 int Mô tả Khóa Mã câu Nvarchar(max ) Khóa Nội dung câu ID_VanBan int Mã văn MaCau int Mã câu văn Bảng liên kết Bảng 3.5 Bảng trọng số Liên kết1 3.6.6 Trường liệu Kiểu liệu Mô tả ID_lk1 int Mã liên kết lk1 float Trọng số khởi tạo lk_TT float Trọng số liên kết Khóa Khóa Bảng liên kết Bảng 3.6 Bảng trọng số liên kết2 Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 46 3.7 Trường liệu Kiểu liệu Mô tả Khóa ID_lk2 int Mã liên kết lk2 float Trọng số khởi tạo lk2_TT float Trọng số liên kết cho Khóa Mối quan hệ bảng Hình 3.10 Mối quan hệ bảng 3.8 Kết luận Trong chương này, đồ án trình bày mạng nơ ron phương pháp tóm tắt văn với mạng nơ ron Hệ thống thực tương đối tốt việc trích rút câu tạo văn với thuật toán lan truyền ngược để huấn luyện Tuy nhiên kho ngữ liệu thuật ngữ chưa đầy đủ,vì điều kiện thời gian đồ án dừng lại việc trích rút câu chưa thực việc rút gọn câu để mang lại hiệu cao Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 47 Chương KẾT QUẢ THỰC NGHIỆM Chương trình bày số kết đạt hệ thông tóm tắt văn tiếng việt 4.1 Ngôn ngữ lập trình sử dụng Sử dụng ngôn ngữ ngôn ngữ C# để visual Studio 2010 hệ quản trị sở liệu SQL Server 2008 Chương trình dễ dàng cài đặt chạy ổn định tảng hệ điều hành Windows XP Windows 4.2 Giao diện chương trình Hình 4.1 Giao diện trình huấn luyện với mạng nơ ron Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 48 Nhiệm vụ chức năng: Form huấn luyện gồm chức cho phép lựa chọn văn từ máy tính, hiển thị nội dung văn huấn luyện, giá trị đặc trưng câu sau huấn luyện hiển thị danh sách câu tách từ văn chức tách câu tính đặc trưng thực huấn luyện Thiết kế giao diện: Form thiết kế dựa vào công cụ visual studio 2010 DotNetBar Hình 4.2 Giao diện trình tóm tắt Nhiệm vụ chức năng: Form tóm tắt gồm chức cho phép lựa chọn văn cần tóm tắt từ máy tính, hiển thị nội dung văn cần tóm tắt(văn gốc) văn Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 49 tóm tắt, giá trị đặc trưng câu sau huấn luyện chức tính đặc trưng tóm tắt Thiết kế giao diện: Form thiết kế dựa vào công cụ visual studio 2010 DotNetBar Hình 4.3 Giao diện quản lý thuật ngữ Nhiệm vụ chức năng: Form quản lý thuật ngữ gồm chức chính: thêm sửa xóa thuật ngữ, hiển thị danh sách thuật ngữ Thiết kế giao diện: Form thiết kế dựa vào công cụ visual studio 2010 DotNetBar Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 50 Hình 4.4 Giao diện quản lý văn 4.3 Kết tóm tắt Sau trình huấn luyện 22 văn gồm 800 câu, thực tóm tắt hệ thống với đoạn văn ngắn cho ta kết sau: Ngày với phong phú tài liệu văn có sẵn Internet Thông tin internet nhiều thông tin mà người dùng cần Vì vậy, vấn đề gặp phải: tìm kiếm tài liệu liên quan thông qua số lượng lớn tài liệu sẵn có, tiếp thu số lượng lớn thông tin có liên quan Tóm tắt công cụ hữu ích cho việc lựa chọn văn có liên quan, để trích xuất điểm văn Nó thu hút nhiều chuyên gia khai phá liệu lĩnh vực xử lý Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 51 ngôn ngữ tự nhiên Một công cụ tóm tắt văn hữu ích Nó giúp tìm kiếm thông tin cách nhanh chóng gần mục tiêu thay phải đọc tất văn nhiều thời gian, công sức công việc nhàm chán, không khả thi Hình 4.5 Văn gốc Thông tin internet nhiều thông tin mà người dùng cần Tóm tắt công cụ hữu ích cho việc lựa chọn văn có liên quan, để trích xuất điểm văn bản.nó thu hút nhiều chuyên gia khai phá liệu lĩnh vực xử lý ngôn ngữ tự nhiên.một công cụ tóm tắt văn hữu ích Nó giúp tìm kiếm thông tin cách nhanh chóng gần mục tiêu thay phải đọc tất văn nhiều thời gian, công sức công việc nhàm chán, không khả thi Hình 4.6 Văn tóm tắt 4.4 Kết luận Chương trình tóm tắt văn tiếng việt áp dụng mạng nơ ron lan truyền ngược huấn luyện trích rút câu tương đối thành công với độ xác chấp nhận Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 52 KẾT LUẬN Tóm tắt văn tiếng việt thu hút nhiều nhà nghiên cứu phát triển ứng dụng Nhiều kĩ thuật đề xuất để đáp ứng nhu cầu khác Hầu hết hướng tới việc nâng cao hiệu hệ thống Kỹ thuật tóm tắt văn thông qua kỹ thuật học có giám sát với mạng nơ ron mạng lại hiệu cao Đánh giá chung Đồ án trình bày nội dung tìm hiểu khai phá liệu, tóm tắt văn bản, kiến thước mạng nơ ron thuật toán lan truyền ngược, bước cần thực để xây dựng chương trình tóm tắt văn dựa vào trích rút câu sử dụng phương pháp học có giám sát với thuật toán lan truyền ngược nhằm mục đích ứng dụng lý thuyết vào thực tiễn Chương trình tóm tắt văn ứng dụng mạng nơ ron xây dựng thử nghiệm với văn khác Kết đạt Chương trình thực tính đặc trưng câu văn bản, thực huấn luyện đưa trọng số câu Và thử nghiệm tóm tắt văn Hạn chế Do tập thuật ngữ không đầy đủ, cần có tham gia người cho tập văn huấn luyện nên tập văn chuẩn chưa chuẩn hóa nên độ xác chưa cao Vì thời gian hạn chế nên chương trình xây dựng mức thử nghiệm nên chưa tối ưu Hướng phát triển Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 53 Xây dựng hoàn thiện chương trình kết hợp với phương pháp rút gọn câu để chương trình tối ưu Kết hợp xây dựng thêm modul phân loại văn TÀI LIỆU THAM KHẢO Tiếng việt: [1] Nguyễn Thị Thu Hà, Phát triển số thuật toán tóm tắt văn tiếng việt sử dụng phương pháp học bán giám sát, Luận án tiến sĩ toán học, Học Viện Kĩ Thuật Quân Sự, 2012 Tiếng anh: [2].Ha N.T.T, Quynh N H, A Supervised Learning method combine with Dimensionality Reduction in Vietnamese text Summarization, International Journal of Engineering and Technology, Vol.3, No.3, pp 203-207, 2011 [3].Michael W Berry, Malu Castellanos Editors, Survey of Text Mining I, USA, 2007 [4].Ian H Witten, Text mining, Computer Science, University of Waikato, Hamilton, New Zealand [5].Ronen Feldman, James Sanger, The Text Mining Handbook, Cambridge University Press, 2007 [6].Nikola K Kasabov Foundations of Neural Networks, Fuzzy Systems, and Knowledge Engineering Massachusetts Institute of Technology Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan [...]... vào phương pháp tóm tắt văn bản tiếng việt sử dụng mạng nơ ron Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 17 Chương 2 MẠNG N RON VÀ TÓM TẮT VĂN BẢN SỬ DỤNG MẠNG N RON Mạng nơ ron đã được sử dụng thành công trong một loạt các vấn đề phân loại Mục đích của đồ án này là áp dụng mạng trong vấn đề tóm tắt Trong chương này sẽ trình bày sơ lược về mạng nơ ron Các mô hình,... VÀ XÂY DỰNG CHƯƠNG TRÌNH Trong chương này sẽ trình bày phương pháp phân tích và thiết kê xây dựng chương trình tóm tắt văn bản tiếng việt sử dụng mạng nơ ron với thuật toán lan truyền ngược huấn lyện Chương trình xây dựng đơn giản các chức năng thêm,sửa, xóa, hiển thị và 2 chức năng chính là huấn luyện và tóm tắt sử dụng thuật toán của mô hình mạng nơ ron Phân tích hệ thống 3.1 Chương trình tóm tắt văn. .. nhưng vẫn đảm bảo nội dung Mô tả khái quát: Truy cập hệ thống chọn văn bản cần tóm tắt và chọn tóm tắt văn bản Mô tả diễn biến: Hành động của tác nhân Hồi đáp của hệ thống Nhập trực tiếp: 1.Chọn một văn bản cần tóm tắt 2 Hiện thị nội dung văn bản 3 Chọn tỉ lệ tóm tắt 4 Cập nhật tỉ lệ tóm tắt 5.Chọn tóm tắt 6 Thực hiện tóm tắt và hiển thị văn bản đã tóm tắt Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh... Các mô hình, phương pháp, thuật toán của mạng và ứng dụng mạng nơ ron vào tóm tắt văn bản tiếng việt 2.1 Mạng n ron 2.1.1 Giới thiệu mạng n ron Mạng n ron được giới thiệu đầu tiên năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits Dựa trên quan điểm cho rằng bộ não người là bộ điều khiển Mạng n ron nhân tạo được thiết kế tương tự như n ron sinh học sẽ có khả năng giải quyết... liệu huấn luyện Hệ thống gồm hai quá trình chính: Huấn luyện và tóm tắt Quá trình huấn luyện bao gồm các giai đoạn: tách câu,tính các đặc trưng, đánh giá điểm số(mức độ quan trọng) cho các câu trong từng văn bản dùng để huấn luyện( sử dụng khả năng con người), huấn luyện mạng nơ ron với thuật toán lan truyền ngược Quá trình tóm tắt bao gồm các giai đoạn: tách câu, tính các đặc trưng câu, tính điểm cho. .. người Cấu trúc mạng nơ ron huấn luyện có ba lớp, một lớp ẩn trong đó có 3 nơ ron đầu vào, 3 nơ ron lớp ẩn, và một nơ ron đầu ra Giá trị [0,1] của đầu ra (trọng số của câu) chỉ câu được trích rút hoặc không Mạng nơ ron huấn luyện như trong hình: Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 31 v w f1 1 f2 y f3 Lớp ẩn Hình 2.4 Mạng nơ ron được huấn luyện Sử dụng thuật toán... được đưa vào trong văn bản tóm tắt hay không Mạng nơ ron học từ đặc trưng trong câu để xét câu nên được đưa vào trong bản tóm tắt và những câu không nên đưa vào với phương pháp học có giám sát Giai đoạn đầu của quá trình liên quan đến việc huấn luyện các mạng nơ ron để tìm các dạng câu mà cần được bao gồm trong tóm tắt[ 2] Học có giám sát có thể được xem như việc xấp xỉ một ánh xạ: X→ Y, trong đó X là... ngữ liệu văn bản Sau khi huấn luyện mạng đưa ra tầm quan trọng của Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà Sinh viên thực hiện: Trịnh Thị Lan 27 các câu khác nhau được sử dụng để xác định bản tóm tắt Các đầu vào mạng nơ ron là các đặc trưng của từng câu trong văn bản Với phương pháp học có giám sát nên hệ thống có sự tham gia của con người cho việc lựa chọn giá trị câu trong từng văn bản cho tập... Tách văn bản thành danh sách câu riêng Mô tả khái quát: Truy cập hệ thống chọn văn bản cần tách câu Mô tả diễn biến: Hành động của tác nhân Hồi đáp của hệ thống Nhập trực tiếp: 1.Chọn các văn bản 2 Hiện thị nội dung văn bản 3 Chọn tách câu 4.Thực hiện tách câu hiển thị danh sách câu được tách 3.4.4 UC4 Tóm tắt Tên ca sử dụng: Tóm tắt Tác nhân: Người dùng Mục đích: Chuyển văn bản gốc thành văn bản ngắn... thông tin Sau cùng hệ thống rút trích câu nổi bật trong từng cụm để làm tóm tắt, nếu trùng lắp thì câu suất hiện ở văn bản mới hơn sẽ dược rút trích - Giải thuật để tìm sự trùng lắp là sử dụng bộ phân tích thống kê của Collin (1999) xây dựng cây phụ thuộc (dependency tree) • Phương pháp mạng Neural và đặc trưng Là phương pháp áp dụng mạng nơ ron vào huấn luyện với thuật toán của mạng để tìm ra đầu

Ngày đăng: 13/08/2016, 20:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Nguyễn Thị Thu Hà, Phát triển một số thuật toán tóm tắt văn bản tiếng việt sử dụng phương pháp học bán giám sát, Luận án tiến sĩ toán học, Học Viện Kĩ Thuật Quân Sự, 2012.Tiếng anh Sách, tạp chí
Tiêu đề: Phát triển một số thuật toán tóm tắt văn bản tiếng việtsử dụng phương pháp học bán giám sát
[2].Ha. N.T.T, Quynh. N. H, A Supervised Learning method combine with Dimensionality Reduction in Vietnamese text Summarization, International Journal of Engineering and Technology, Vol.3, No.3, pp. 203-207, 2011 Sách, tạp chí
Tiêu đề: A Supervised Learning method combine withDimensionality Reduction in Vietnamese text Summarization
[3].Michael W. Berry, Malu Castellanos Editors, Survey of Text Mining I, USA, 2007 Sách, tạp chí
Tiêu đề: Survey of Text Mining I
[4].Ian H. Witten, Text mining, Computer Science, University of Waikato, Hamilton, New Zealand Sách, tạp chí
Tiêu đề: Text mining
[5].Ronen Feldman, James Sanger, The Text Mining Handbook, Cambridge University Press, 2007 Sách, tạp chí
Tiêu đề: The Text Mining Handbook
[6].Nikola K. Kasabov. Foundations of Neural Networks, Fuzzy Systems, and Knowledge Engineering. Massachusetts Institute of Technology Sách, tạp chí
Tiêu đề: Foundations of Neural Networks, Fuzzy Systems, andKnowledge Engineering

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w