Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt dựa trên kỹ thuật xử lý ngôn ngữ tự nhiên và khai phá dữ liệu

MỤC LỤC

KHAI PHÁ VĂN BẢN

  • Biểu diễn văn bản
    • Các bài toán Khai phá văn bản điển hình 1. Bài toán Phân lớp văn bản

      Tri thức, khái niệm ở mức cao nhất trong mục phân cấp Dữ liệu - Thông tin - Tri thức, dùng để chỉ những dữ liệu có quan hệ với nhau, mang tính định hướng tập trung (thông tin), đồng thời qua đó chúng ta có thể thấy được tính chủ động và những vận động quá khứ cũng như xu hướng tương lai của thông tin đó. Các kỹ thuật của Khai phá dữ liệu cũng được áp dụng rộng rãi trong Data warehousing - quá trình lưu trữ và quản lý tập trung các cơ sở dữ liệu khác nhau bằng các công cụ quản lý tiên tiến trong việc lưu trữ, truyền tải, phân tích và khai thác dữ liệu với dung lượng lưu trữ cực lớn và tốc độ xử lý cực mạnh.

      Hình 1.2: Mô tả các bài toán phân lớp văn bản
      Hình 1.2: Mô tả các bài toán phân lớp văn bản

      XỬ LÝ NGÔN NGỮ TỰ NHIÊN

      • Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
        • Các đặc trưng ngôn ngữ của tiếng Việt

          Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này không phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ. Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung Quốc, Nhật Bản… thường sử dụng một số phương pháp như : Đối sánh thuật ngữ dài nhất (Maximum Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu và nhược điểm riêng nhưng phương pháp nào cũng sử dụng một từ điển hoặc danh sách từ vựng.

          BÀI TOÁN TểM TẮT VĂN BẢN

          Giới thiệu chung

            Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự động một mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng và hiển thị ra theo dạng yêu cầu của người sử dụng [10,11]. Và sau khi chọn được các đơn vị ngữ liệu quan trọng, hệ thống Tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác. Tất nhiên, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng.

            Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn.Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể.

            Hình 3.1: Tóm tắt trang tin
            Hình 3.1: Tóm tắt trang tin

            Mô hình Tóm tắt văn bản 1. Mô hình chung

              Ngoài ra việc rút gọn câu dựa vào các tập ngữ liệu song ngữ cũng là một hướng đi được nhiều nhà xử lý ngôn ngữ tự nhiên lựa chọn như Vandeghinste và Yi Pan [23,24]… Nói chung các phương pháp này đều đòi hỏi phải có tập mẫu để học gồm các cặp câu nguyên mẫu-tóm tắt, ngoài ra cần có một bộ phân tích cú pháp khá chính xác. So với các phương pháp ở pha Phân tích, xét về mặt chính xác tóm tắt thì các phương pháp pha Biến đổi không giúp tăng thêm độ chính xác tóm tắt, chỉ thực hiện chức năng rút gọn câu sao cho vẫn sát ý, làm tăng độ rút gọn và tăng khả năng dễ đọc, mang tính ngôn ngữ tự nhiên trong các câu đầu ra. Việc hiển thị liên kết là tiếp nhận các đơn vị ngữ liệu đã được trích rút và giản lược từ các pha trước đó, phân tích mối quan hệ về nghĩa của các câu rồi thêm bớt các từ nối, từ dẫn và sắp xếp theo một thứ tự mới dựa vào những gì đã thu thập sao cho thỏa mãn yêu cầu về hiển thị và yêu cầu về độ dễ đọc, dễ hiểu của người dùng.

              Trong hai phương pháp hiển thị (thực ra là cách thức hiển thị) được nhắc đến trong pha Generation thì phương pháp hiển thị phân đoạn quá đơn giản và nếu ta chỉ xét đến hệ Trích rút (không có các hành động khắc phục lỗi thừa thiếu từ, ngữ và lỗi mập mờ tham chiếu) thì không cần cài đặt bất kỳ một thuật toán nào ngoài việc giữ lại thứ tự.

              Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát
              Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát

              Đánh giá kết quả tóm tắt

                Các phương pháp đánh giá bên ngoài, ngược lại, áp dụng vào hệ thống những nhiệm vụ cụ thể và thông qua các tiêu chí kết quả như độ phù hợp (relevance) hay độ dễ đọc dễ hiểu (reading comprehension) để đánh giá một hệ thống tóm tắt xem có tốt cho người dùng khi họ sử dụng hệ thống vào những mục tiêu khác nhau hay không [18]. Ngoài ra đối với các hệ thống Tóm lược (Abstractor), độ chặt chẽ mạch lạc còn được đánh giá thông qua việc một câu có hoàn chỉnh về mặt cấu trúc ngữ pháp và thậm chí là ngữ nghĩa hay không. Các hệ thống của tiếng Anh hay tiếng Pháp thường mắc phải vấn đề về hình thái từ, các hệ thống tiếng Nhật, tiếng Trung hay mắc phải vấn đề về phân tách từ, tùy vào đặc trưng của từng ngôn ngữ.

                Tuy vậy các phương pháp đánh giá bên ngoài thường không giúp gì cho người phát triển ứng dụng trong việc phản hồi lại các kết quả đánh giá nhằm cải thiện chất lượng tóm tắt, trong khi đó lại là một chức năng quan trọng của các phương pháp đánh giá bên trong.

                Một số hệ thống tóm tắt văn bản trên thế giới

                Hiện nay có rất nhiều các hệ thống đánh giá, các hệ này có thể áp dụng cho các loại ứng dụng tóm tắt, thậm chí còn áp dụng trong bất kỳ ngôn ngữ nào. Tuy nhiên các hệ thống này chỉ mặc định dùng cho các ứng dụng tóm tắt tiếng Anh, Pháp..còn tiếng Việt thì ta cần phải xây dựng thêm vào hoặc xây dựng mới các tiêu chí đánh giá. Đây là một hệ thống sử dụng các phương pháp áp dụng cho hệ ngôn ngữ đơn âm tiết (monosyllabic language system) như tiếng Nhật, Hàn Quốc, Trung Quốc và Việt Nam.

                MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của Tổ chức Khoa học quốc gia Mỹ.

                Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ
                Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ

                Kết chương

                Ngoài ra còn các hệ thống Tóm tắt văn bản nổi tiếng khác như ANES hay SUMMONS. Tuy nhiên tại Việt Nam hiện nay chưa có một nghiên cứu và ứng dụng Tóm tắt văn bản chính thức nào.

                XÂY DỰNG ỨNG DỤNG TểM LƯỢC VĂN BẢN TIẾNG VIỆT

                • Cài đặt tiền xử lý văn bản tiếng Việt 1. Chuẩn hóa văn bản
                  • Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt 1. Các phương pháp trong pha Phân tích

                    Như chúng ta đã đề cập trong phần Những vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên, nhiều phương pháp tách thuật ngữ đã được thế giới nghiên cứu và sử dụng như Đối sánh thuật ngữ dài nhất, Đồ thị chuyển trạng thái (Transducing Graph), Tách dựa cú pháp, Mô hình Markov ẩn… Trong đồ án này em lựa chọn phương pháp Đối sánh thuật ngữ dài nhất. Các từ dừng là các từ xuất hiện nhiều trong văn bản nhưng không mang nhiều ý nghĩa về mặt nội dung, thường là các hư từ, mạo từ như và, nên, vì thế, tuy nhiên… VTAS loại bỏ từ dừng thông qua một module rất đơn giản, kiểm tra trong các term của văn bản, đoạn văn, câu văn xem có các term trong danh sách từ dừng tiếng Việt không, nếu có thì loại bỏ. Trong pha phân tích, em có cài đặt một số các phương pháp khác như Ngữ cố định, Vị trí tối ưu, Chuỗi từ vựng, tuy nhiên chưa tích hợp vào VTAS do chưa chứng minh được tính đúng đắn, do chi phí tính toán cho các thuật toán theo phương pháp đó lớn hoặc do chưa áp dụng được với kiểu tài liệu đầu vào và ngữ liệu tiếng Việt hiện tại.

                    Loại bỏ tham chiếu tự do được thực hiện đơn giản như sau : Các ngữ đầu tiên của câu được tách ra (dựa vào dấu phảy), nếu các ngữ này không là ngữ danh từ, ngữ động từ, ngữ tính từ hoặc không là một mệnh đề, đồng thời chứa các term có trong một danh sách các tham chiếu tự do như “đó”, “như vậy”, “như trên” …thì sẽ bị loại bỏ.

                    Hình 4.1: Mô hình ứng dụng Tóm lược văn bản tiếng Việt
                    Hình 4.1: Mô hình ứng dụng Tóm lược văn bản tiếng Việt

                    KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG

                    Giao diện kết quả thực nghiệm

                    Với mục đích phục vụ nghiên cứu, khi cài đặt ứng dụng em đã cài đặt các chức năng kiểm thử đơn vị, tập hợp thành một form riêng. Các kết quả trung gian như mô hình hoá văn bản, tách đoạn, phân tách thuật ngữ của một văn bản được theo dừi trực quan và dễ dàng thống kờ, kiểm thử. Kết quả của pha Phân tích và Biến đổi cũng được hiển thị thông qua form này.

                    Hình 5.1: Giao diện chính
                    Hình 5.1: Giao diện chính

                    Tập kiểm thử

                    Với tập kiểm thử như trên, em đã lấy ngẫu nhiên một số lượng văn bản nào đó phục vụ cho các lần kiểm thử khác nhau. Các lý thuyết đánh giá kiểm thử một ứng dụng Tóm tắt đã được em nêu ở chương 3, phần Đánh giá tóm tắt.

                    Kết quả kiểm thử và đánh giá

                      Qua đây ta thấy khi áp dụng thuật toán tách thuật ngữ theo độ dài từ dài nhất từ trái qua không hiệu quả bằng từ phải qua, trong khi độ phức tạp tính toán của hai thuật toán là như nhau. Đối với VTAS, các phương pháp rút gọn câu không làm ảnh hưởng tới độ chính xác của toàn bộ ứng dụng, do vậy mười câu bất kỳ lấy ra từ tập kiểm thử được rút gọn và tính toán độ nén theo độ dài câu. 6 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung (nguyên. thủ môn đội bóng đá Lâm Đồng) đang ghi độ bóng đá cho hai người chơi tại nhà 158 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung đang ghi.

                      - Tìm hiểu những đặc trưng ngôn ngữ cơ bản của tiếng Việt, từ đó đề xuất những phương pháp riêng, phù hợp hơn đối với một ứng dụng Tóm lược văn bản tiếng Việt, xây dựng mô hình và cài đặt thành công ứng dụng.