CHƯƠNG 3. XÂY DỰNG VÀ CÀI ĐẶT HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN LÝ THUYẾT NẠVE BAYES
3.1 Mơ hình hệ thống tĩm tắt văn bản tiếng Việt dựa trên lý thuyết Nạve
Một cách tổng quan nhất khi làm việc với văn bản tiếng Việt, các nhà nghiên cứu thường sử dụng công cụ tách từ để khai thác các đặc trưng trong văn bản tiếng Việt, do vậy trong các mô hình tóm tắt văn bản tiếng Việt thông thường, các công cụ tách từ thường được sử dụng ở cả hai pha: pha huấn luyện và pha tóm tắt.
Trong pha huấn luyện: Công cụ tách từ tách các từ trong tập văn bản huấn luyện và tính tần suất xuất hiện các từ đó trong văn bản.
Trong pha tóm tắt: Văn bản gốc phải sử dụng công cụ tách từ để tách từ, tính tần suất xuất hiện các từ trong câu để đối sánh qua mô hình và lựa chọn các câu quan trọng để trích rút.
Mô hình Công cụ tách
từ
Huấn luyện
Thuật toán Nạve bayes
Văn bản gốc
Văn bản tóm tắt Tách từ
Xử lý
Tập văn bản
Hình 3.1. Mô hình tóm tắt văn bản thông thường
Do đặc thù của tiếng Việt, công cụ tách từ thường được sử dụng trong cả hai pha của hệ thống tóm tắt. Trong quá trình tóm tắt, khi sử dụng công cụ tách từ một văn bản đầu vào phải thông qua ba bước:
Tiền xử lý văn bản, loại bỏ các từ dừng, từ nhiễu như là một phương pháp giảm chiều đặc trưng.
Sử dụng công cụ tách từ.
Áp dụng mơ hình học Nạve Bayes và sinh ra văn bản tĩm tắt.
Đối với các mô hình tóm tắt dựa trên ngôn ngữ đa âm tiết như tiếng Anh, tiếng Pháp và một số ngôn ngữ khác trên thế giới, bước thứ hai trên
thường không sử dụng, do đó hệ thống tóm tắt văn bản bằng ngôn ngữ đa âm tiết thường có tốc độ nhanh hơn.
Để giảm bớt một bước xử lý đối với ngôn ngữ đơn âm tiết, cụ thể là ngôn ngữ tiếng Việt, luận văn tìm hiểu phương pháp đã được đề xuất tại [10]
để xây dựng hệ thống. Hình dưới đây mô tả phương pháp tóm tắt văn bản tiếng Việt bằng phương pháp Nạve Bayes sử dụng cơng cụ gán nhãn từ loại tiếng Việt thay thế cho công cụ tách từ tiếng Việt. Sử dụng phương pháp này có thuận lợi sau:
Công cụ gán nhãn từ loại nhận diện ra danh từ trong tập huấn luyện và chỉ sử dụng tập danh từ để xử lý từ là một cách giảm chiều đặc trưng sẽ được mô tả ở mục 2.2.1
Các danh từ được tách ra trong quá trình huấn luyện được lưu trữ tại cơ sở dữ liệu của hệ thống.
Trong quá trình tóm tắt, văn bản gốc được đối sánh với tập danh từ đã được lưu trữ tại cơ sở dữ liệu để xử lý.
Với cách tiếp cận này, quá trình tóm tắt sẽ loại bỏ được quy trình tách từ và xử lý từ, do vậy tốc độ tính toán của hệ thống sẽ nhanh hơn.
Mô hình Công
cụ gán nhãn
Huấn luyện
Thuật toán Nạve bayes
Văn bản gốc
Văn bản tóm tắt Tập văn bản
Xử lý
Hình 3.2. Mô hình tóm tắt văn bản trong luận văn đề xuất 3.1.1 Lựa chọn ngôn ngữ lập trình và yêu cầu của hệ thống
3.1.1.1 Lựa chọn ngôn ngữ lập trình
Hiện nay, hầu hết các hệ điều hành trên máy tính xách tay, máy tính để bàn đều sử dụng hệ điều hành Microsoft Windows. Do đó, để tránh trường hợp xung đột với hệ thống, nên luận văn lựa chọn ngôn ngữ lập trình C# 2012 và thiết kế cơ sở dữ liệu của hệ thống bằng hệ quản trị cơ sở dữ liệu SQL Server.
Microsoft Visual Studio 2012 là ngôn ngữ hoàn thiện và hoạt động theo hướng đối tượng, đây cũng là ngôn ngữ lập trình thông dụng trên Windows, hỗ trợ quản lý cơ sở dữ liệu, lập trình internet. Chương trình có nhiều tính năng
mới, các điều khiển mới cho phép ta viết chương trình ứng dụng kết hợp các giao diện, ngoài ra sử dụng chương trình Microsoft Visual Studio 2012 sẽ tiết kiệm được thời gian và công sức so với các chương trình khác. Bên cạnh đó Microsoft Visual Studio 2012 còn hỗ trợ tính năng kết nối môi trường dữ liệu SQL, việc liên kết có thể thực hiện bằng nhiều cách.
Hệ quản trị cơ sở dữ liệu SQL Server 2008 là phần mềm tương tác với người sử dụng chạy trên môi trường Windows, nó tăng thêm sức mạnh trong công tác tổ chức và tìm kiếm thông tin, các công tác kiểm tra dữ liệu, giá trị mặc định, khuôn nhập dữ liệu của chương trình hoàn toàn đáp ứng yêu cầu. Quản lý được khối lượng dữ liệu lớn và tần suất truy cập cao, đáp ứng dịch vụ trực tuyến và đảm bảo yêu cầu về an toàn dữ liệu. Chính vì lẽ đó mà luận văn chọn sử dụng ngôn ngữ lập trình Microsoft Visual Studio 2012 và hệ quản trị cơ sở dữ liệu SQL Server 2008.
3.1.1.2 Yêu cầu của hệ thống
Hệ thống gồm hai pha riêng biệt, pha huấn luyện và pha tóm tắt. Trong pha huấn luyện, các văn bản được tải về từ nguồn dữ liệu internet, tự động loại các thẻ html, các hình ảnh và lưu trữ trong hệ thống dưới dạng đường dẫn. Chương trình cho phép quản lý và lưu trữ các văn bản huấn luyện đồng thời tính xác suất chọn và xác suất không chọn cho các từ quan trọng và lưu trữ để sử dụng trong quá trình tóm tắt. Các văn bản tóm tắt có thể được lưu lại và quản lý. Ngoài việc tóm tắt văn bản được tải từ internet thì chương trình cho phép được tóm tắt các văn bản sẵn có.
3.1.1.3 Cơ sở dữ liệu của hệ thống
Cơ sở dữ liệu của hệ thống mô tả các thông tin lưu trữ của hệ thống trong cơ sở dữ liệu. Bao gồm thông tin:
Bảng “tbSentence” lưu các câu được tách trong văn bản huấn luyện.
Bảng “TypeNews” lưu các thể loại tin tức( công nghệ thông tin, thể thao, xã hội…).
Bảng “Tranning documents” lưu các văn bản huấn luyện.
Bảng “tbWord” lưu các từ quan trọng.
Bảng “New” Lưu các văn bản ví dụ.
Hình 3.3 Cơ sở dữ liệu của hệ thống.
3.1.1.4 Các chức năng chính của hệ thống Chức năng thêm văn bản huấn luyện.
Chức năng thêm từ mới.
Chức năng xóa văn bản huấn luyện.
Chức năng cập nhật lại văn bản huấn luyện.
Module tách từ: tích hợp từ công cụ Vntagger.
Module xử lý tách câu trong văn bản.
3.1.1.5 Tập từ điển danh từ
Hệ thống sử dụng công cụ Vntagger được tải về từ trang web vlsp do nhóm tác giả của đề tài KC01 thực hiện. Công cụ này được tích hợp vào hệ thống để tự động lọc ra các danh từ trong tập văn bản huấn luyện rồi lưu trữ vào cơ sở dữ liệu của hệ thống.