Tóm tắt văn bản tiếng việt dựa phương pháp không giám sát
Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn MỤC LỤC 6.1 Kết luận : .39 6.2 Hướng phát triển: 39 TÀI LIỆU THAM KHẢO .40 Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn LỜI MỞ ĐẦU Mặc dù gia tăng nhanh chóng lượng thông tin Internet thập kỷ cuối kỷ trước, phương pháp cho việc xử lý thông tin văn : tóm tắt, trích rút thông tin, phân loại, đánh số văn bản,…đã năm 59,60 Tóm tắt văn thu hút nhiều quan tâm nhà nghiên cứu, hội thảo chuyên đề tóm tắt văn tổ chức hàng năm (DUC) đề cập tới vấn đề tìm phương pháp xử lý tóm tắt văn cách tốt Những nghiên cứu sớm tóm tắt văn sử dụng phương pháp trích rút câu dựa đặc trưng từ tần suất nhóm từ ( Luhn, 1958), vị trí câu văn ( Baxendale,1958) nhóm từ quan trọng ( Edmundson, 1969) Xác định độ quan trọng từ dựa mô hình tần suất tf*idf phương pháp chủ yếu Một vấn đề thách thức quan tâm năm gần toán tóm tắt văn tự động đưa kết tóm tắt cho tập văn liên quan với mặt nội dung hay gọi tóm tắt văn tiếng Việt Bài toán tóm tắt văn tiếng Việt xác định toán có độ phức tạp cao Đa số người nghĩ rằng, tóm tắt văn việc áp dụng tóm tắt văn cho văn cho trước Tuy nhiên điều hoàn toàn không xác, thách thức lớn vấn đề tóm tắt văn liệu đầu vào có nhập nhằng ngữ nghĩa nội dung văn này, để đưa kết tóm tắt tốt vô khó khăn [EWK] Với việc lựa chọn đề tài “Tóm tắt văn tiếng Việt dựa phương pháp không giám sát”, chúng em tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp tóm tắt văn phù hợp với ngôn ngữ tiếng Việt Sau chúng em trình bày cụ thể, chi tiết hướng phân tích phát triển đề tài Qua rút kết luận hướng phát triển đề tài Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn CHƯƠNG 1-KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN 1.1 Tổng quan toán: Yêu cầu đề tài: Tóm tắt văn tiếng Việt phương pháp không giám sát Trong đề tài chúng em tìm hiểu thuật toán phương pháp không giám sát áp dụng thuật toán vào việc tóm tắt văn dựa môi trường C# 1.2 Bài toán tóm tắt văn tự động: Theo Inderjeet Mani, mục đích tóm tắt văn tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thông tin trình bày nội dung quan trọng cho người sử dụng theo khuôn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến” Việc đưa văn kết tóm tắt có chất lượng văn người làm mà không bị giới hạn miền ứng dụng xác định khó khăn Vì vậy, toán giải tóm tắt văn thường hướng đến kiểu văn cụ thể kiểu tóm tắt cụ thể 2.1 Một số khái niệm toán tóm tắt phân loại tóm tắt: 2.1.1 Một số khái niệm: - Tỷ lệ nén(Compression Rate): độ đo thể thông tin cô đọng văn tóm tắt tính công thức: SourceLength CompressionRate = SummaryLength SummaryLength: Độ dài văn tóm tắt Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn SourceLength: Độ dài văn nguồn - Độ bật hay liên quan(Salience or Relevance): trọng số gán cho thông tin văn thể độ quan trọng thông tin toàn văn hay để liên quan thông tin chương trình người sử dụng - Sự mạch lạc(coherence): Một văn tóm tắt gọi mạch lạc tất thành phần nằm tuân theo thể thống mặt nội dung trùng lặp thành phần 2.1.2 Phân loại toán tóm tắt: Có nhiều cách phân loại tóm tắt văn khác nhiên phân loại mang tính tương đối, phụ thuộc vào việc tóm tắt sở Ở đây, luận văn đề cập đến phân loại tóm tắt dựa sở là: dựa vào định dạng, nội dung đầu vào, dựa vào định dạng, nội dung đầu ra, dựa vào mục đích tóm tắt • Tóm tắt dựa sở định dạng, nội dung đầu vào trả lời cho câu hỏi “Cái tóm tắt” Cách chia cho ta nhiều cách phân loại khác Cụ thể như: - Kiểu văn (bài báo, tin, thư, báo cáo …) Với cách phân loại này, tóm tắt văn báo khác với tóm tắt thư, tóm tắt báo cáo khoa học đặc trưng văn quy định - Định dạng văn bản: dựa vào định dạng văn khác nhau, tóm tắt chia thành loại khác như: tóm tắt văn không theo khuôn mẫu (free-form) hay tóm tắt văn có cấu trúc Với văn có cấu trúc, tóm tắt văn thường sử dụng mô hình học dựa vào mẫu cấu trúc xây dựng từ trước để tiến hành tóm tắt - Số lượng liệu đầu vào: tùy vào số lượng đầu vào toán tóm tắt, người ta chia tóm tắt thành tóm tắt đa văn bản, tóm tắt đơn văn Tóm tắt đơn văn đầu vào văn đơn, đầu vào tóm tắt đa văn Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn tập tài liệu có liên quan đến như: tin tức có liên quan đến kiện, trang web chủ đề cụm liệu trả từ trình phân cụm - Miền liệu: dựa vào miền liệu cụ thể lĩnh vực đó, ví dụ như: y tế, giáo dục… miền liệu tổng quát, chia tóm tắt thành loại tương ứng • Tóm tắt sở mục đích thực chất làm rõ cách tóm tắt, mục đích tóm tắt gì, tóm tắt phục vụ đối tượng - Nếu phụ thuộc vào đối tượng đọc tóm tắt tóm tắt cho chuyên gia khác cách tóm tắt cho đối tượng đọc thông thường - Tóm tắt sử dụng tìm kiếm thông tin (IR) khác với tóm tắt phục vụ cho việc xếp - Dựa mục đích tóm tắt, chia thành tóm tắt thị (Indicative) tóm tắt thông tin (Informative) Tóm tắt thị (indicative) loại thông tin, ví dụ loại văn thị “tối mật” Còn tóm tắt thông tin nội dung thông tin - Tóm tắt sở truy vấn (Query-based) hay tóm tắt chung (General) Tóm tắt general mục đích tìm đoạn tóm tắt cho toàn văn mà nội dung đoạn văn bao quát toàn nội dung văn Tóm tắt sở truy vấn nội dung văn tóm tắt dựa truy vấn người dùng hay chương trình đưa vào, loại tóm tắt thường sử dụng trình tóm tắt kết trả từ máy tìm kiếm • Tóm tắt sở đầu có nhiều cách phân loại - Dựa vào ngôn ngữ: Tóm tắt phân loại dựa vào khả tóm tắt loại ngôn ngữ: Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn • Tóm tắt đơn ngôn ngữ (Monolingual): hệ thống tóm tắt loại ngôn ngữ định như: tiếng Việt hay tiếng Anh… • Tóm tắt đa ngôn ngữ (Multilingual): hệ thống có khả tóm tắt nhiều loại văn ngôn ngữ khác nhau, nhiên tương ứng với văn đầu vào ngôn ngữ văn đầu ngôn ngữ tương ứng • Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả đưa văn đầu có ngôn ngữ khác với ngôn ngữ văn đầu vào - Dựa vào định dạng đầu kết tóm tắt: bảng, đoạn, từ khóa • Ngoài hai cách phân loại trên, phân loại tóm tắt cở sở đầu có cách phân loại sử dụng phổ biến là: tóm tắt theo trích xuất (Extract) tóm tắt theo tóm lược (Abstract) • Tóm tắt theo trích xuất: tóm tắt có kết đầu tóm tắt bao gồm toàn phần quan trọng trích từ văn đầu vào • Tóm tắt theo tóm lược: tóm tắt có kết đầu tóm tắt không giữ nguyên lại thành phần văn đầu vào mà dựa vào thông tin quan trọng để viết lại văn tóm tắt Hiện nay, hệ thống sử dụng tóm tắt theo trích xuất sử dụng phổ biến cho kết tốt tóm tắt theo tóm lược Nguyên nhân tạo khác biệt vấn đề toán tóm tắt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận sinh ngôn ngữ tự nhiên đánh giá khó chưa có nhiều kết nghiên cứu khả quan so với hướng trích xuất câu toán tóm tắt theo trích xuất Trong thực tế, theo đánh giá Dragomir R Radev (Đại học Michigan, Mỹ) chưa có hệ thống tóm tắt theo tóm lược đạt đến hoàn thiện, hệ thống tóm tắt theo tóm lược thường dựa vào thành phần trích xuất có sẵn Các hệ thống thường biết đến với tên gọi tóm tắt theo nén văn Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Tóm tắt theo nén văn (Text Compaction): loại tóm tắt sử dụng phương pháp cắt xén(truncates) hay viết gọn(abbreviates) thông tin quan trọng sau trích xuất Mặc dù dựa vào nhiều sở có nhiều loại tóm tắt khác nhiên hai loại tóm tắt tóm tắt đơn văn tóm tắt đa văn quan tâm lớn nhà nghiên cứu tóm tắt tự động 2.2 Khái quát tóm tắt văn bản: Bài toán tóm tắt văn đơn giống toán tóm tắt khác, trình tóm tắt tự động với đầu vào văn bản, đầu đoạn mô tả ngắn gọn nội dung văn đầu vào Văn đơn trang Web, báo, tài liệu với định dạng xác định (ví dụ : doc, txt)… Tóm tắt văn đơn bước đệm cho việc xử lý tóm tắt đa văn toán tóm tắt phức tạp Chính phương pháp tóm tắt văn đời phương pháp tóm tắt cho văn đơn Các phương pháp nhằm giải toán tóm tắt văn đơn tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất tóm tắt theo tóm lược • Tóm tắt theo trích xuất: Đa số phương tóm tắt theo loại tập trung vào việc trích xuất câu hay ngữ bật từ đoạn văn kết hợp chúng lại thành văn tóm tắt Một số nghiên cứu giai đoạn đầu thường sử dụng đặc trưng vị trí câu văn bản, tần số xuất từ, ngữ hay sử dụng cụm từ khóa để tính toán trọng số câu, qua chọn câu có trọng số cao cho văn tóm tắt [Lu58, Ed69] Các kỹ thuật tóm tắt gần sử dụng phương pháp học máy xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm thành phần quan trọng văn Sử dụng phương pháp học máy kể đến phương pháp Kupiec, Penderson and Chen năm 1995 sử dụng phân lớp Bayes để kết hợp đặc trưng lại với [PKC95] hay Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn nghiên cứu Lin Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí câu quan trọng văn [LH97] Bên cạnh việc áp dụng phương pháp phân tích ngôn ngữ tự nhiên sử dụng mạng từ Wordnet Barzilay Elhadad vào năm 1997 [BE97] • Tóm tắt theo tóm lược: Các phương pháp tóm tắt không sử dụng trích xuất để tạo tóm tắt xem phương pháp tiếp cận tóm tắt theo tóm lược Các hướng tiếp cận kể đến dựa vào trích xuất thông tin (information extraction), ontology, hợp nén thông tin… Một phương pháp tóm tắt theo tóm lược cho kết tốt phương pháp dựa vào trích xuất thông tin, phương pháp dạng sử dụng mẫu định nghĩa trước kiện cốt truyện hệ thống tự động điền thông tin vào mẫu có sẵn sinh kết tóm tắt Mặc kết tốt nhiên phương pháp dạng thường áp dụng miền định Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn CHƯƠNG 2- CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ PHÁT TRIỂN ĐỀ TÀI 2.1 Giới thiệu ngôn ngữ C#: C# ngôn ngữ dẫn xuất từ C C++, tạo từ tảng phát triển Microsoft bắt đầu với công việc C C++ thêm vào đặc tính để làm cho ngôn ngữ dễ sử dụng Nhiều số đặc tính giống với đặc tính giống với đặc tính có ngôn ngữ Java Microsoft đưa số mục đích xây dựng ngôn ngữ Những mục đích là: C# ngôn ngữ đơn giản: - C# loại bỏ vài phức tạp rối rắm ngôn ngữ C++ Java - C# giống C / C++ diện mạo, cú pháp, biểu thức, toán tử - Các chức C# lấy trực tiếp từ ngôn ngữ C / C++ cải tiến để làm cho ngôn ngữ đơn giản C# ngôn ngữ đại: C# có đặc tính ngôn ngữ đại như: - Xử lý ngoại lệ - Thu gom nhớ tự động - Có kiểu liệu mở rộng - Bảo mật mã nguồn C# ngôn ngữ hướng đối tượng: C# hỗ trợ tất đặc tính ngôn ngữ hướng đối tượng là: - Sự đóng gói (encapsulation) - Sự kế thừa (inheritance) - Đa hình (polymorphism) C# ngôn ngữ mạnh mẽ mềm dẻo: - Với ngôn ngữ C#, bị giới hạn thân Ngôn ngữ không đặt ràng buộc lên việc làm - C# sử dụng cho nhiều dự án khác như: tạo ứng dụng xử lý văn bản, ứng dụng đồ họa, xử lý bảng tính; chí tạo trình biên dịch cho ngôn ngữ khác - C# ngôn ngữ sử dụng giới hạn từ khóa Phần lớn từ khóa dùng để mô tả thông tin, không mà C# phần mạnh mẽ Chúng ta tìm thấy ngôn Báo cáo kết thúc môn Máy Học Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn ngữ sử dụng để làm nhiệm vụ C# ngôn ngữ hướng module: - Mã nguồn C# viết Class (lớp) Những Class chứa Method (phương thức) thành viên - Class (lớp) Method (phương thức) thành viên sử dụng lại ứng dụng hay chương trình khác C# trở nên phổ biến: C# mang đến sức mạnh C++ với dễ dàng ngôn ngữ Visual Basic 2.2 Giới thiệu Access : Cơ sở liệu gì? Cơ sơ liệu tập hợp thông tin có liên quan Ví dụ, tập hợp tất ảnh nhau, bạn có sở liệu ảnh Nếu tập hợp tất ảnh có chủ đề, bạn có sở liệu gốc tập toàn sở liệu Nếu sơ liệu nhỏ (ví dụ hợp đồng bảo hiểm bạn), bạn quản lý thông tin bình thường Trong trường hợp vậy, bạn phải sử dụng phương pháp quản lý cũ bảng file hay danh sách đơn giản giấy Tuy nhiên, sở liệu ngày nhiều, thao tác quản lý trở nên khó Ví dụ, khó để quản lý tay sở liệu khách hàng công ty lớn Đây lúc máy tính bạn hệ quản trị sở liệu có ích Phần mềm quản trị sở liệu giúp bạn quản lý thông tin nhanh dễ dàng Trong Access, sở liệu thông tin mà có bảng thông tin xếp, sở liệu Access bao gồm mối quan hệ truy vấn, báo biểu, báo cáo lệnh lập trình Dưới khái niệm số thuật ngữ thường dùng Access: Thế Table (bảng)? Trong Access, bảng chứa thông tin thực tế sơ liệu, có nhiều bảng Thông tin bảng liên quan tới thông tin bảng khác Ví dụ, bạn có bảng chứa ghi tất khóa cửa tòa nhà, bảng khác phải có danh sách tất chìa khóa cho khóa Một bảng chứa tên tất người có chìa khóa Cả bảng có thông tin liên quan đến nhau, chúng tạo thành sở liệu Báo cáo kết thúc môn Máy Học 10 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Form huấn luyện văn Hình 5.2: Huấn luyện văn Đầu vào đoạn văn dạng txt thuộc lĩnh vực giáo dục, kinh tế, thể thao, tin học Báo cáo kết thúc môn Máy Học 26 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Form tóm tắt văn Hình 5.3: Xử lý tóm tắt văn Đầu vào văn đầy đủ dạng txt thuộc lĩnh vực mẩu chuyện ngắn… Đầu văn tóm tắt lại tùy vào yêu cầu người dùng muốn lược % lượng văn ban đầu Các form quản lý Báo cáo kết thúc môn Máy Học 27 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Hình 5.4: Quản lý Tập Huấn Báo cáo kết thúc môn Máy Học 28 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Hình 5.5: Quản lý Từ Chủ Đề Hình 5.6: Quản lý Từ Nguyên Gốc Báo cáo kết thúc môn Máy Học 29 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn 5.2 Hệ sở liệu: Sử dụng access để thiết kế sở liệu Bảng DataIndex : DataIndex Bảng 5.1 : DataIndex Bảng Dictionary : Dictionary Bảng 5.2 : Dictionary Bảng Field: Field Bảng 5.3 : Field Bảng Test: Test Báo cáo kết thúc môn Máy Học 30 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Bảng 5.4 : Test Bảng Test_Instructor: Test_Instructor Bảng 5.5 : Test_Instructor Bảng TopicWord: TopicWord Bảng 5.6 : TopicWord 5.3 Thực nghiệm chương trình: Mô tả liệu: Input : Đoạn văn dạng txt dạng đầy đủ thuộc lĩnh vực : công nghệ thông tin, Báo cáo kết thúc môn Máy Học 31 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn giáo dục, kinh tế, thể thao Output : Rút gọn văn theo tỉ lệ tùy chọn Kết thực nghiệm: Hình 5.8: Kết Tóm Tắt Báo cáo kết thúc môn Máy Học 32 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn Hình 5.9: Kết Huấn Luyện 5.4 Code chương trình 5.4.1 Code tách câu #region"Tách câu văn bản" public int tachcau(RichTextBox rtb, ListView lv) { lv.Items.Clear(); ListViewItem item; const char s1 = '.'; char[] delimiters = new char[] { s1 }; int ctr = 0; //Xử lý dấu chấm xuống dòng (!?;: ) string text = Sentence.thaythe(rtb.Text); foreach (String subString in text.Split(delimiters)) { ctr++; if (subString.Length > 1)//Loai bo cau cuoi cung khong co ki tu nao { item = new ListViewItem(ctr.ToString()); item.SubItems.Add(subString); item.SubItems.Add("_"); Báo cáo kết thúc môn Máy Học 33 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn item.SubItems.Add("_"); lv.Items.Add(item); } } return lv.Items.Count; } #endregion 5.4.2 Code tách từ private List Tachtu(ListView lvLookResult) { try { List list=new List(); ListViewItem item; lvLookResult.Items.Clear(); for (int j = 0; j < LvSentence.Items.Count; j++) { string sentence=Sentence.thaythe(LvSentence.Items[j].SubItems[1].Text); WordSegmentation Wsg = new WordSegmentation(); ArrayList Arr1 = new ArrayList(); Arr1 = Wsg.Voice(Sentence.thaythe(sentence)); string[] str = new string[Arr1.Count]; for (int i = 0; i < Arr1.Count; i++) { str[i] = Arr1[i].ToString(); } ArrayList list1 = new ArrayList(); list1 = Wsg.GetWord(str, Wsg.voice); // ArrayList list2 = new ArrayList(); list2 = Wsg.Trichrut(list1); // The End string kq = ""; kq = Wsg.tachroi(list2, sentence); string str1 = Wsg.cauchuan1(kq); string str2 = Wsg.cauchuan2(str1); list.Add(Wsg.cauchuan3(str2)); item = new ListViewItem((j+1).ToString()); item.SubItems.Add(list[j]); ArrayList arr = new ArrayList(); arr = SplitText.Spliter(list[j], '/'); item.SubItems.Add(Convert.ToString(arr.Count)); LvSentence.Items[j].SubItems[3].Text = Convert.ToString(arr.Count); lvLookResult.Items.Add(item); } return list; } finally { // MessageBox.Show("Please choose sentence for text", "Message"); Báo cáo kết thúc môn Máy Học 34 Trường Đại học Điện Lực } Đề tài 3: Tóm tắt văn } 5.4.3 Code tóm tắt private void button1_Click(object sender, EventArgs e) { try { Rate = Convert.ToInt32(cbRate.Text); } catch (Exception) { } MessageBox.Show("Bạn chưa chọn tỷ lệ cần tóm tắt !"); return; ///////////// tachcau(vanbangoc, LvSentence); List list1 = new List(); listView1.Items.Clear(); list1 = Ws(Tachtu(lvTachtu)); for (int i = 0; i < LvSentence.Items.Count; i++) { LvSentence.Items[i].SubItems[2].Text = Convert.ToString(list1[i]); } ///////////// // trích rút câu quan trọng văn rtbtomtat.ResetText(); groupBox12.Text = "Reduction Text:"; // int len = 0; for (int i = 0; i < LvSentence.Items.Count; i++) { len += Convert.ToInt16(LvSentence.Items[i].SubItems[3].Text); } len = (int)(len * Rate / 100); List list = new List(); list = Sentence.NummberSentence(LvSentence, len); for (int j = 0; j < LvSentence.Items.Count; j++) { foreach (var item in list) { if (Convert.ToInt16(LvSentence.Items[j].SubItems[0].Text) == Convert.ToInt16(item)) { rtbtomtat.Text += LvSentence.Items[j].SubItems[1].Text + " "; } } Báo cáo kết thúc môn Máy Học 35 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn } } private List Ws(List sentence) { try { progressBar1.Value = 0; List list = new List(); ArrayList arr = new ArrayList(); string fullpath = Application.StartupPath + "\\Documents"; foreach (var cauchuan in sentence) { string cau = cauchuan; FindWord(cau); if (cau != "") { arr = SplitText.Spliter(cau, '/'); lvTopicWord.Items.Clear(); ListViewItem item; string I = ""; for (int i = 0; i < arr.Count; i++) { I = "0"; // Iconst cua tu thuong // Add vào LvWord if (i == 0) { item = new ListViewItem(arr[i].ToString()); item.SubItems.Add(I); //Tìm giá trị Lv topic word =? string Pab = " " + arr[i].ToString(); string Pb = " "; //MessageBox.Show(Pab); //MessageBox.Show(Pb); double Lv = N_Gram.Lv(Pab, Pb, fullpath); item.SubItems.Add(Lv.ToString()); lvTopicWord.Items.Add(item); // break; } else { item = new ListViewItem(arr[i].ToString()); item.SubItems.Add(I); //Tìm giá trị Lv topic word =? string Pab = arr[i - 1].ToString() + " " + arr[i].ToString(); string Pb = arr[i - 1].ToString(); //MessageBox.Show(Pab); //MessageBox.Show(Pb); double Lv = N_Gram.Lv(Pab, Pb, fullpath); Báo cáo kết thúc môn Máy Học 36 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn //double db = N_Gram.Lv(" Microsoft", " ", Application.StartupPath + "\\văn bản"); item.SubItems.Add(Lv.ToString()); lvTopicWord.Items.Add(item); // break; } } // Tìm kiếm từ chủ đề (Topic Word ) for (int i = 0; i < lvTopicWord.Items.Count; i++) { for (int j = 0; j < lvketqua.Items.Count; j++) { if (lvTopicWord.Items[i].SubItems[0].Text.ToLower() == lvketqua.Items[j].SubItems[0].Text.ToLower()) { I = Algorithms.I(Convert.ToDouble(lvketqua.Items[j].SubItems[2].Text), Convert.ToDouble(lvketqua.Items[j].SubItems[4].Text), Convert.ToDouble(lvketqua.Items[j].SubItems[5].Text)); lvTopicWord.Items[i].SubItems[1].Text = I; break; } } } double word=0; ListViewItem item1; for (int j = 0; j < lvTopicWord.Items.Count; j++) { word += Convert.ToDouble(lvTopicWord.Items[j].SubItems[1].Text) + Convert.ToDouble(lvTopicWord.Items[j].SubItems[2].Text); item1 = new ListViewItem(lvTopicWord.Items[j].SubItems[0].Text); item1.SubItems.Add(lvTopicWord.Items[j].SubItems[1].Text); item1.SubItems.Add(lvTopicWord.Items[j].SubItems[2].Text); listView1.Items.Add(item1); //xem kết } list.Add(word); } else { "Message"); MessageBox.Show("Please word separation for sentence original:", } progressBar1.Value += (100 / sentence.Count); } return list; } finally { } } Báo cáo kết thúc môn Máy Học 37 Trường Đại học Điện Lực Báo cáo kết thúc môn Máy Học Đề tài 3: Tóm tắt văn 38 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn CHƯƠNG - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận : Với nhu cầu thực tiễn ứng dụng tóm tắt văn nay, đồ án tập trung nghiên cứu toán tóm tắt văn nói chung tóm tắt văn đơn nói riêng Các kết cụ thể mà đồ án đạt là: • Khảo sát, nghiên cứu tóm tắt văn tiếng việt phương pháp không giám sát • Xây dựng thuật toán cho chương trình tóm tắt cậu văn tiếng việt • Thử nghiệm demo đề xuất cho kết ban đầu khả quan 6.2 Hướng phát triển: Với kết thực nghiệm ban đầu, cần tiếp tục hoàn thiện để nâng cao hiệu suất kết Cần tiếp tục bổ sung thiếu sót để chương trình hoàn thiện hơn: • Xây dựng kho liệu phổ biến quy mô lớn phục vụ trình huấn luyện cho văn • Hoàn thiện chức xử lý văn với độ xác cao hơn, cho kết nhanh hơn, hiệu suất cao • Mở rộng thêm chức cho chương trình Báo cáo kết thúc môn Máy Học 39 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn TÀI LIỆU THAM KHẢO [1] Ha Nguyen Thi Thu, Quynh Nguyen Huu, Cuong Do Duc, A novel important word based sentence reduction method for Vietnamese text, Proc of IEEE on Intellectual Technology in Industrial Practice, pp 401-405, September 2010 [2] Ha Nguyen Thi Thu, Nguyen Thien Luan A Novel Application of Fuzzy Set Theory and Topic Model in Sentence Extraction for Vietnamese Text, International Journal of Computer Science and Network Security, Vol 10 No pp 41-46, 2010 [3] Ha Nguyen Thi Thu, Quynh Nguyen Huu A New method for Vietnamese Sentence Extraction based on important information of topic word and linguistic score, Proc of IEEE on Multimedia and Computational Intelligence, September 2010 (Accepted) [4] JING, H 2000 Sentence reduction for automatic text summarization In Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2000) [5] KNIGHT, K AND MARCU, D 2002 Summarization beyond sentence extraction: A probabilistic approach to sentence compression Artif Intell 139, , 91-107, 2002 [6] COLLINS, M Head-driven statistical model for natural language parsing Ph.D dissertation, Univ of Pennsylvania, 1999 [7] M.L Nguyen and S Horiguchi, “A Sentence Reduction Using Syntax Control”, Proc Of 6th Information Retrieval with Asian Language, pp 139-146, 2003 Báo cáo kết thúc môn Máy Học 40 [...]... quan giữa các kết quả của mô hình tóm tắt và tập dữ liệu đánh giá Phương pháp này đã cho ra kết quả khả quan và được sự đánh giá cao của cộng đồng nghiên cứu tóm tắt văn bản Báo cáo kết thúc môn Máy Học 22 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản 4.3 Tóm tắt văn bản bằng phương pháp không giám sát: Tóm tắt văn bản bằng phương pháp không giám sát là phương pháp của ngành học máy nhằm tìm ra... từ dựa trên từ vì đã không phải xây dựng kho ngữ liệu , một công việc đòi hỏi nhiều công sức , thời gian và sự hỗ trợ của các chuyên gia trong các lĩnh vực khác nhau Báo cáo kết thúc môn Máy Học 19 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản CHƯƠNG 4-TÓM TẮT VĂN BẢN DỰA TRÊN PHƯƠNG PHÁP KHÔNG GIÁM SÁT 4.1 Hướng tiếp cận của bài toán tóm tắt văn bản: Như chúng ta đã biết ở trên tóm tắt văn bản. .. Máy Học 25 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Form huấn luyện văn bản Hình 5.2: Huấn luyện văn bản Đầu vào là các đoạn văn bản dạng txt thuộc các lĩnh vực giáo dục, kinh tế, thể thao, tin học Báo cáo kết thúc môn Máy Học 26 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Form tóm tắt văn bản Hình 5.3: Xử lý tóm tắt văn bản Đầu vào là các văn bản đầy đủ dạng txt thuộc các lĩnh vực hoặc... tài 3: Tóm tắt văn bản 5.2 Hệ cơ sở dữ liệu: Sử dụng access để thiết kế cơ sở dữ liệu Bảng DataIndex : DataIndex Bảng 5.1 : DataIndex Bảng Dictionary : Dictionary Bảng 5.2 : Dictionary Bảng Field: Field Bảng 5.3 : Field Bảng Test: Test Báo cáo kết thúc môn Máy Học 30 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Bảng 5.4 : Test Bảng Test_Instructor: Test_Instructor Bảng 5.5 : Test_Instructor Bảng... định được độ quan trọng của thông tin Phương pháp của McKeown và Radev đề xuất năm 1995[MR95] là một dạng của tóm tắt tại mức xử lý này Báo cáo kết thúc môn Máy Học 20 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Dựa vào các đặc trưng của từng phương pháp tiếp cận, Inderjeet Mani đã đưa ra bảng so sánh, đánh giá ba mức tiếp cận để giải quyết bài toán tóm tắt văn bản Mức xử lý Mức hình thái Đặc tính... tiếp theo là mức cú pháp (Syntactic), tiếp đến là mức ngữ nghĩa (Semantic) và cuối cùng là mức ngữ dụng (Pragmatic) Tương tự như các độ sâu xử lý của xử lý ngôn ngữ tự nhiên, phương pháp tiếp cận để giải quyết bài toán tóm tắt văn bản cũng có thể được phân loại dựa vào độ sâu xử lý được thực hiện trong quá trình tóm tắt Tuy nhiên phương pháp tiếp cận để giải quyết bài toán tóm tắt văn bản chỉ có ba mức,... thái, cú pháp và ngữ nghĩa Mức hình thái: tại mức xử lý này, trong các văn bản, đơn vị được sử dụng để so sánh là các ngữ, câu hay đoạn văn (paragraph) Các phương pháp tại mức này thường sử dụng độ đo tương đồng dựa trên mô hình không gian vector (Vector space model) áp dụng trọng số TF.IDF cho các từ và các câu Phương pháp tóm tắt MMR [CG98] là phương pháp nổi bật tại mức xử lý này Mức cú pháp: đơn... vực hoặc có thể là mẩu chuyện ngắn… Đầu ra là một văn bản được tóm tắt lại tùy vào yêu cầu người dùng muốn lược bao nhiêu % lượng văn bản ban đầu Các form quản lý Báo cáo kết thúc môn Máy Học 27 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Hình 5.4: Quản lý Tập Huấn Báo cáo kết thúc môn Máy Học 28 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản Hình 5.5: Quản lý Từ Chủ Đề Hình 5.6: Quản lý Từ... hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các Báo cáo kết thúc môn Máy Học 13 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn bản phương pháp này Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý , không gian đĩa và đòi hỏi nhiều chi phí 3.2 Các hướng tiếp cận dựa trên ký tự Trong tiếng việt, hình vị nhỏ nhất là tiếng được hình thành bởi nhiều ký tự trong bảng... từ một câu và khi đó tầng mạng Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển Bên cạnh đó, cũng tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu học đầy đủ 3.3.4 Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC ... lý tóm tắt đa văn toán tóm tắt phức tạp Chính phương pháp tóm tắt văn đời phương pháp tóm tắt cho văn đơn Các phương pháp nhằm giải toán tóm tắt văn đơn tập trung vào hai loại tóm tắt là: tóm tắt. .. nghiên cứu tóm tắt văn Báo cáo kết thúc môn Máy Học 22 Trường Đại học Điện Lực Đề tài 3: Tóm tắt văn 4.3 Tóm tắt văn phương pháp không giám sát: Tóm tắt văn phương pháp không giám sát phương pháp ngành... loại tóm tắt khác nhiên hai loại tóm tắt tóm tắt đơn văn tóm tắt đa văn quan tâm lớn nhà nghiên cứu tóm tắt tự động 2.2 Khái quát tóm tắt văn bản: Bài toán tóm tắt văn đơn giống toán tóm tắt khác,