Các lĩnh vực này chính là cấu trúc về nội dung của các tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng các thành quả đạt về xử lý văn bản tiếng Việt như bài toán phân tách
CƠ SỞ LÝ THUYẾT
N HIỆM VỤ CỦA ĐỒ ÁN
Lĩnh vực khai phá dữ liệu văn bản tiếng Việt hiện vẫn còn mới mẻ và thu hút sự quan tâm của nhiều nhà nghiên cứu, đặc biệt trong việc tóm tắt văn bản phục vụ cho việc tóm tắt tin tức Bài toán tóm tắt văn bản tiếng Việt theo chủ đề được thực hiện dựa trên nền tảng tách từ trong ngôn ngữ tự nhiên, kết hợp với các bài toán phân nhóm và phân lớp Tuy nhiên, việc áp dụng phương pháp này gặp nhiều khó khăn, đòi hỏi sự nghiên cứu và phát triển thêm để cải thiện hiệu quả tóm tắt văn bản.
Khả năng liên kết giữa bài toán tách từ, phân nhóm, phân lớp với bài toán tóm tắt văn bản
Tập mẫu cho bài toán tóm tắt văn bản
Khả năng đáp ứng tốc độ và nội dung cho việc tóm tắt trang tin là rất quan trọng Nhiệm vụ tách từ, phân nhóm và phân lớp trong bài toán tóm tắt văn bản được dựa trên kết quả nghiên cứu của tác giả Hoàng Đức Đông.
K HAI PHÁ DỮ LIỆU VĂN BẢN
Khai phá dữ liệu văn bản (Text Mining) là một khái niệm quan trọng xuất hiện từ những năm 90 của thế kỷ 20 Đến nay, lĩnh vực này đã phát triển mạnh mẽ và có một nền tảng lý thuyết vững chắc, đóng góp đáng kể vào việc phân tích và xử lý thông tin từ văn bản.
Khai phá dữ liệu văn bản là một phần của khai phá dữ liệu (Data Mining), nhằm phát hiện và trích xuất thông tin hữu ích từ khối lượng lớn dữ liệu lưu trữ trong các cơ sở dữ liệu khác nhau Để nắm rõ hơn về khai phá dữ liệu văn bản, cần tìm hiểu về khai phá dữ liệu và quá trình phát hiện tri thức trong cơ sở dữ liệu.
Khái niệm phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in
Cơ sở dữ liệu KDD (Knowledge Discovery in Databases) nhằm mục tiêu khám phá những thông tin hữu ích ẩn chứa trong dữ liệu Quá trình phát hiện tri thức bao gồm bảy giai đoạn chính.
1 Làm sạch dữ liệu trước khi thu thập (Data Cleaning)
2 Tích hợp dữ liệu từ các nguồn khác nhau (Data Integration)
3 Chọn lựa dữ liệu ứng viên (Data Selection)
4 Biến đổi dữ liệu thành dạng chuẩn để xử lý (Data Transformation)
5 Khai phá dữ liệu (Data Mining)
6 Đánh giá kết quả (Evaluation)
7 Biểu diễn tri thức (Knowledge Presentation)
Quá trình Phát hiện tri thức trong cơ sở dữ liệu được biểu diễn dưới hình vẽ sau [ ]: 13
Hình 1-1:Tiến trình khai phá dữ liệu và phát hiện tri thức (KDD)
Quá trình phát hiện tri thức diễn ra qua các giai đoạn từ Dữ liệu đến Thông tin và cuối cùng là Tri thức Khi lưu trữ thông tin, chúng ta tạo ra dữ liệu, nhưng dữ liệu thường không được khai thác hết và trở thành kho dữ liệu lớn theo thời gian Qua phân tích và thống kê kho dữ liệu này, chúng ta thu thập được Thông tin, từ đó tổng hợp và khái quát hóa thành các quy luật, quy tắc để hình thành Tri thức Khai phá dữ liệu không chỉ dừng lại ở việc phát hiện mà còn tiến hành phân tích để tìm ra những tri thức mới chưa từng được biết đến.
Hình 1-2: Quan hệDữ liệu – Thông tin – Tri thức
Các ứng dụng Khai phá dữ liệu đang ngày càng phát triển, tạo ra sản phẩm thân thiện và gần gũi với con người Sự tiến bộ này giúp người dùng dễ dàng tiếp cận và hiểu thông tin về sản phẩm, từ đó thúc đẩy sự phát triển thương mại Các tập đoàn lớn như Oracle, IBM, Yahoo, và Microsoft đã tích hợp những nghiên cứu tiên tiến vào ứng dụng của mình.
Khai phá dữ liệu đã đạt được thành công lớn trong việc phát triển các sản phẩm và nền tảng dành cho doanh nghiệp lớn, cũng như các ứng dụng phổ biến cho người dùng cá nhân Kỹ thuật khai phá dữ liệu được áp dụng rộng rãi trong lĩnh vực Data warehousing, nơi tập trung lưu trữ và quản lý các cơ sở dữ liệu khác nhau thông qua các công cụ quản lý tiên tiến, cho phép lưu trữ, truyền tải, phân tích và khai thác dữ liệu với dung lượng lớn và tốc độ xử lý mạnh mẽ.
Trong quá trình Khai phá dữ liệu, khi làm việc với dữ liệu văn bản, chúng ta bước vào lĩnh vực Khai phá dữ liệu văn bản Khai phá dữ liệu là một trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu, diễn ra qua các giai đoạn từ Dữ liệu, Thông tin đến Tri thức.
1.2.1 Khái niệm khai phá dữ liệu văn bản
Chúng ta xem xét một số định nghĩa về văn bản
Văn bản là các tài liệu được thể hiện dưới dạng phi cấu trúc hoặc bán cấu trúc, thường có định dạng file với đuôi ".txt" Các loại văn bản được phân loại thành nhiều nhóm khác nhau.
Dạng phi cấu trúc (unstructured) là loại văn bản mà chúng ta thường sử dụng hàng ngày, được thể hiện bằng ngôn ngữ tự nhiên mà không có cấu trúc định dạng cụ thể Ví dụ điển hình của dạng này là các tệp tin txt.
Dạng bán cấu trúc (semi-structured) là loại văn bản không được lưu trữ theo cách chặt chẽ mà được tổ chức thông qua các đánh dấu để thể hiện nội dung chính Ví dụ về dạng văn bản này bao gồm các tệp tin HTML, e-mail, WordPad, và DOC.
Trong bài viết này, tác giả tập trung vào việc nghiên cứu các văn bản lưu trữ được mã hóa theo chuẩn Unicode, với nội dung chính là ngôn ngữ tiếng Việt.
Khai phá dữ liệu ăn bản là thực hiện công việc: v
Trích ra, lấy ra các thông tin có ích, chưa được biết đến còn tiềm ẩn trong các kho dữ liệu văn bản lớn.
Phát hiện các mô tả chung về lớp đối tượng, từ khóa và mối liên quan nội dung là yếu tố quan trọng trong việc phân loại các đối tượng văn bản Việc này giúp nâng cao khả năng hiểu biết và tổ chức thông tin một cách hiệu quả hơn.
Khai phá dữ liệu văn bản là quá trình trích xuất thông tin tiềm ẩn từ văn bản bằng các công cụ tự động hoặc bán tự động Quá trình này bao gồm việc xác định các đặc trưng của đối tượng, từ khóa, và các mối liên hệ ngữ nghĩa, cùng với các phương pháp thống kê và tổng hợp dữ liệu.
1.2.2 Các khái niệm cơ bản trong xử lý văn bản
Trong lĩnh vực xử lý văn bản, có một số khái niệm quan trọng như Thuật ngữ (Term), Từ khóa (Keyword), khái niệm (Concept), từ dừng (Stopword) và trọng số thuật ngữ (Centroid) Những khái niệm này đóng vai trò nền tảng trong việc xây dựng các mô hình và phương pháp xử lý văn bản hiệu quả.
1.2.2.1 Thuật ngữ - Từ khóa – Khái niệm
XỬ LÝ VĂN BẢN GẮN LIỀN VỚI XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.3.1 Tại sao xử lý văn bản lại gắn liền với xử lý ngôn ngữ tự nhiên?
Mỗi ngôn ngữ đề có đặc thù riêng biệt Việc xử lý ngôn ngữ phải gắn liền với các đặc thù riêng biệt đó.
Các bài toán xử lý văn bản đã xuất hiện từ những năm 90 trong nghiên cứu khai phá dữ liệu Kể từ đó, nhiều phương pháp mới đã được phát triển và đạt được thành tựu đáng kể Một câu hỏi đặt ra là: "Tại sao không áp dụng các phương pháp xử lý văn bản thành công trên thế giới vào tiếng Việt?" Mặc dù các nhà ngôn ngữ học và chuyên gia tin học đã thử nghiệm, nhưng kết quả không đạt như mong đợi Để có kết quả tốt hơn, các phương pháp cần được cải tiến phù hợp với ngôn ngữ bản địa, dẫn đến việc các phương pháp xử lý văn bản luôn được cập nhật và phát triển.
Bản so sánh giữa đặc điểm ngôn ngữ tiếng Việt và tiếng Anh cho thấy những khác biệt rõ rệt Tiếng Việt là một ngôn ngữ đơn âm, trong khi tiếng Anh có cấu trúc âm tiết phức tạp hơn Ngữ pháp tiếng Việt thường đơn giản hơn với ít biến đổi, trái ngược với ngữ pháp tiếng Anh có nhiều quy tắc và ngoại lệ Hơn nữa, tiếng Việt sử dụng hệ thống dấu để phân biệt nghĩa, trong khi tiếng Anh chủ yếu dựa vào ngữ cảnh và cấu trúc câu Những đặc điểm này tạo nên sự phong phú và đa dạng trong việc học và sử dụng hai ngôn ngữ này.
Được xếp là loại hình đơn lập
(isolate) hay còn gọi là loại hình phi hình thái, không biến hình đơn tiết
Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ
Ví dụ: Chị ngã em nâng và Em ngã chị nâng.
Là loại hình biến cách
(flexion) hay còn gọi là loại hình khuất chiết
Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ
Ví dụ: I see him và He sees me
Phương thức ngữ pháp chủ yếu trật tự từ và hư từ.
Ví dụ: Gạo xay và Xay gạo; đang học và học rồi; “nó bảo sao không tới”,
“sao không bảo nó tới”, “sao không tới bảo nó”
Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng
Tồn tại loại từ đặc biệt “từ chỉ loại”
(classifier) còn gọi là phó danh từ chỉ loại kèm theo với danh từ, như cái bàn, cuốn sách, bức thư, con chó, con sông, vì sao
Có hiện tượng láy và nói lái trong tiếng Việt
Ví dụ: lấp lánh, lung linh
Hiện đại -> hại điện, thầy giáo -> tháo giầy
Phương thức ngữ pháp chủ yếu là: phụ tố.
Ví dụ: studying và studied
Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu
Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào gốc từ là rất phổ biến.
(anti-compute - er ize ation al).-
Bảng 1-2: So sánh đặc điểm tiếng Việt với đặc điểm tiếng Anh
Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực trong trí tuệ nhân tạo (AI) với nền tảng khoa học vững chắc Ngày nay, NLP ngày càng được chú trọng và phát triển, đồng thời gắn liền với các phần mềm tiên tiến có khả năng tư duy giống như con người.
Hiện nay, các ngôn ngữ lập trình như Pascal, C, C++, và Net đang phát triển mạnh mẽ, kế thừa bản chất giao tiếp của ngôn ngữ tự nhiên Những ngôn ngữ này được thiết kế để cung cấp các đối tượng cơ bản như số, phép toán và hàm, cùng với các quy tắc hoạt động như cộng, trừ, nhân chia, nhằm hỗ trợ con người trong việc thao tác Chúng là một phần của ngôn ngữ nhân tạo và kết hợp với sự phát triển của trí tuệ nhân tạo, giúp giả lập, phát hiện và nâng cao ngôn ngữ tự nhiên lên một tầm cao mới.
Mục đích của xử lý ngôn ngữ tự nhiên là giúp máy tính hiểu ngôn ngữ như con người Điều này liên quan đến việc giải quyết các bài toán ngôn ngữ mà con người có thể hiểu, từ đó tạo ra các ứng dụng thực tiễn như chương trình soát lỗi chính tả Khi máy tính hoàn thiện khả năng này, chúng ta sẽ có những ứng dụng mạnh mẽ trong việc tiền xử lý văn bản trong quy trình xử lý tài liệu Các vấn đề quan tâm chính trong lĩnh vực này bao gồm
Phonology & Phonetics (Âm vị và Ngữ âm)
1.3.2 Một số khái niệm, thuật ngữ cơ bản trong ngôn ngữ
1.3.2.1 Thuật ngữ cơ bàn về ngôn ngữ
Âm vận: Làcơ sở của một âm trong tiếng Việt.
Vần: Âm vận kết hợp với thanh điệu tạo thành vần
Âm vị: Được hình thành từ một âm vận hoặc bao gồm Phụ âm đầu và một âm vận
Âm tiết, hay còn gọi là tiếng, được hình thành từ âm vị và thanh điệu, đóng vai trò là đơn vị cơ sở trong cấu trúc ngữ pháp tiếng Việt Mỗi âm tiết trong tiếng Việt được viết tách biệt và được giới hạn bởi các dấu ngăn cách.
Từ: Là đơn vị ngữ pháp nhỏ nhất có nghĩa Từ đơn gồm một âm tiết; từ ghép tạo bởi hai hoặc hơn hai âm tiết
Cụm từ hay ngữ: Là thành phần giữ một vai trò độc lập về cú pháp và ngữ nghĩa trong câu
Câu: Là một ngữ tuyến được hình thành một cách trọn vẹn về ngữpháp và ngữ nghĩa
Quan niệm về từ loại trong tiếng Việt còn nhiều tranh cãi, với một số ý kiến cho rằng có hai loại từ chính: thực từ và hư từ Thực từ bao gồm danh từ, động từ, tính từ, trong khi hư từ gồm phụ từ và kết từ Một quan điểm khác lại phân chia tiếng Việt thành 8 loại từ, bao gồm danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ và cảm từ.
Theo "Ngữ pháp tiếng Việt - Câu" của tác giả Hoàng Trọng Phiến, tiếng Việt có các ngữ loại cơ bản sau :
Danh ngữ: ngữ có danh từ làm trung tâm
Động ngữ:ngữ có động từ làm trung tâm
Tính ngữ:ngữ có tính từ làm trung tâm
Giới ngữ: ngữ bắt đầu bằng giới từ
1.3.2.4 Các thành phần trong câu
Tiếng Việt có các thành phần câu cơ bản sau:
Chủ ngữ là thành phần chính trong câu, thể hiện đối tượng và mối quan hệ với vị ngữ Nó có vai trò quan trọng trong việc chỉ định chủ thể của hành động, sở hữu hoặc phẩm chất.
Vị ngữ là thành phần chính trong câu, đóng vai trò quan trọng và ảnh hưởng đến toàn bộ cấu trúc câu Bởi vì vị ngữ là trung tâm của tổ chức câu, nên nó hiếm khi bị lược bỏ.
Trạng ngữ là thành phần phụ trong câu, có vai trò bổ sung ý nghĩa cho nội dung Thành phần này thường diễn tả các thông tin liên quan đến địa điểm, thời gian, không gian, nguyên nhân và mục đích.
Bổ ngữ là thành phần phụ thuộc trong câu, có nhiệm vụ bổ sung ý nghĩa cho nhóm động từ đóng vai trò vị ngữ Khác với trạng ngữ, bổ ngữ gắn liền với từ trung tâm trong vị ngữ và chỉ có ý nghĩa khi liên kết với động từ làm vị ngữ.
Định ngữ là thành phần phụ thuộc trong câu, thể hiện phẩm chất hoặc đặc trưng của hiện tượng và hành động Nó đóng vai trò bổ nghĩa cho các đơn vị như chủ ngữ, vị ngữ, bổ ngữ và trạng ngữ trong câu.
Nó cũng có thể phụ nghĩa cho toàn câu.
1.3.3 Các bài toán trong ngôn ngữ tự nhiên
1.3.3.1 Bài toán phân tách từ vựng
Phân tách thuật ngữ (Word Segmentation) là quá trình tách một câu tiếng Việt thành các đơn vị từ vựng, đồng thời phát hiện những âm tiết không có trong từ điển, như tên riêng, ký hiệu hay chữ viết tắt Đây là bước quan trọng cho việc mô hình hóa văn bản, là bài toán cơ bản trong xử lý ngôn ngữ tự nhiên So với các ngôn ngữ Latin như tiếng Anh và tiếng Pháp, vấn đề này phức tạp hơn ở tiếng Việt, tiếng Trung Quốc và tiếng Nhật, vì các từ trong tiếng Anh và tiếng Pháp được ngăn cách bằng dấu cách, trong khi tiếng Việt và các ngôn ngữ khác lại sử dụng các đơn vị nhỏ hơn từ, như tiếng hoặc chữ.
Ví dụ: Xét câu tiếng Anh sau :
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng tôi học tiếng Anh
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quả phân tách thuật ngữ đúng phải là như sau :
Để giải quyết vấn đề học tiếng Anh, các chuyên gia về xử lý ngôn ngữ từ Việt Nam, Trung Quốc, Nhật Bản và Hàn Quốc đã đề xuất những phương pháp đặc thù Trong đồ án này, người viết luận văn coi đây là một bài toán quan trọng cần được giải quyết Chi tiết nội dung sẽ được trình bày ở chương 2.
1.3.3.2 Bài toán gán nhãn từ loại
Bài toán gán nhãn từ loại là quá trình phân loại từ thành các lớp từ loại dựa trên thực tiễn ngôn ngữ Mỗi từ loại có hình thái và vai trò ngữ pháp riêng Các bộ chú thích từ loại có thể thay đổi theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể Một từ trong ngôn ngữ có thể thuộc nhiều từ loại, và việc hiểu đúng nghĩa của từ phụ thuộc vào việc xác định đúng từ loại của nó.
CÁC BÀI TOÁN SỬ DỤNG TRONG ĐỀ TÀ I
BÀI TOÁN TÁCH TỪ TIẾNG VIỆT
2.1.1 Những khó khăn trong tách từ tiếng Việt
Trong chương trước, tác giả đã trình bày những đặc điểm ngôn ngữ của tiếng Việt cùng với một số khó khăn khi giải quyết các bài toán liên quan đến ngôn ngữ này Đặc biệt, trong việc tách từ tiếng Việt, chúng ta phải đối mặt với nhiều thách thức đáng kể.
Việc tách từ, câu và đoạn trong tiếng Việt là một thách thức lớn do đặc điểm ngôn ngữ với sự hiện diện của thành phần hư từ, thực từ và từ láy Hơn nữa, khái niệm về từ trong tiếng Việt vẫn chưa được định hình rõ ràng.
Phương pháp xác suất trong Tách từ và các bài toán Xử lý ngôn ngữ tự nhiên cho tiếng Việt gặp nhiều khó khăn do ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ Một thách thức lớn là ranh giới giữa các từ không được xác định bằng ký tự trắng như trong tiếng Anh, điều này làm cho việc xác định ranh giới từ trở nên quan trọng trong quá trình Tách từ.
Cụ thể theo [2] chúng ta gặp các khó khăn sau:
Nhập nhằng giữa các từ ghép trong cụm từ
Không có một từ điển từ vựng đầy đủ
Vấn đề nhận dạng danh từ riêng và tên riêng
Vấn đề hình vị và láy âm
2.1.2 Các phương pháp tách từ hiện nay
Bài toán Tách từ trong tiếng Anh tương đối đơn giản do sử dụng ký tự trắng làm dấu hiệu phân cách Tuy nhiên, tiếng Việt và các ngôn ngữ như Trung, Nhật, Hàn lại có những điểm tương đồng trong cách xác định từ và dấu hiệu phân cách Trong bài viết này, chúng ta sẽ đi sâu vào việc phân tích bài toán Tách từ của tiếng Trung.
Dựa trên thống kê về các phương pháp tách từ tiếng Trung, có nhiều phương pháp tách từ khác nhau được liệt kê và giải thích chi tiết trong bài viết này.
Hình 2-1: Các phương pháp tách từ Ghi chú:
Chinese segmentation: Tách từ tiếng Trung Quốc
Vietnammese sementation: Tách từ tiếng Việt
Character – base: Dựa trên ký tự o Unigram: Một ký tự o N – gram:Nhiều ký tự
Word – base: Dựa trên từ o Statistic: Thống kê o Dictionary: Từ điển
Full word/ pharse: cụm từ
• Shortest match: Bắt ngắn nhất
• Longest match: Bắt dài nhất
Component: Thành phần o Hybird: Lai (tổng hợp)
Các hướng tiếp cận dựa trên từ (Word-base Approaches)d
Hướng tiếp cận dựa trên từ nhằm tách từ hoàn chỉnh trong câu được chia thành ba loại chính: tiếp cận dựa trên thống kê, tiếp cận dựa trên từ điển và tiếp cận lai.
Hướng tiếp cận thống kê sử dụng thông tin về tần suất xuất hiện của từ trong tập huấn luyện ban đầu, cho phép linh hoạt áp dụng trong các lĩnh vực riêng biệt nhờ vào việc dựa trên tập ngữ liệu.
Hướng tiếp cận dựa trên từ điển là phương pháp phổ biến trong tách từ, trong đó ý tưởng chính là sử dụng tập cụm từ tách ra từ văn bản để khớp với các từ trong từ điển Các phương pháp khác nhau sẽ áp dụng các loại từ điển khác nhau Cụ thể, phương pháp “full word/phrase” yêu cầu một từ điển hoàn chỉnh để tách các từ hoặc ngữ trong văn bản, trong khi phương pháp thành phần sử dụng từ điển thành phần Từ điển hoàn chỉnh bao gồm tất cả các từ trong một ngôn ngữ, còn từ điển thành phần chỉ chứa các từ và ngữ chính.
Hướng tiếp cận "full word/phrase" trong việc khớp từ có thể chia thành khớp dài nhất (Long match) và khớp ngắn nhất (shortest match), theo He et al (1996) Một phương pháp khác là kết hợp (overlap), trong đó câu được phân tách thành đồ thị có hướng, không trọng số để tìm đường đi ngắn nhất Kết quả là danh sách các trường hợp phân tách có thể của câu Mỗi chuỗi từ văn bản có thể lấp lên chuỗi khác nếu có trong từ điển, ví dụ như "con ngựa đá" có thể phân tách thành "con ngựa" và "ngựa đá" Hiện tại, khớp dài nhất được coi là phương pháp chính xác nhất trong các phương pháp dựa trên từ điển.
Hướng tiếp cận dựa trên từ điển gặp một số hạn chế, chủ yếu là yêu cầu về một từ điển hoàn chỉnh Tuy nhiên, thực tế cho thấy rằng việc xây dựng một từ điển hoàn chỉnh là điều không khả thi.
Hướng tiếp cận Hybrid kết hợp ưu điểm của các phương pháp thống kê và từ điển, nhưng đòi hỏi chi phí lưu trữ và thời gian thực hiện Đối với tiếng Việt, giải pháp Tách từ của Đinh Điền et al (2001) đã xây dựng tập ngữ liệu huấn luyện khoảng 10 triệu từ từ nguồn thông tin trên Internet như tin tức và e-book Tuy nhiên, tập ngữ liệu này vẫn còn nhỏ để đảm bảo độ phong phú cho việc tách từ và mang tính chủ quan do được xây dựng thủ công Hơn nữa, việc đánh giá lại những biến đổi hàng ngày diễn ra chậm Trong khi đó, hướng tiếp cận từ điển yêu cầu các từ tách phải có trong từ điển, nhưng hiện tại chúng ta vẫn chưa có một bộ từ điển Việt Nam đầy đủ.
Các phương pháp tiếp cận dựa trên ký tự (Character – based approaches)
Hình vị nhỏ nhất của tiếng Việt là "tiếng", cấu tạo từ nhiều ký tự trong bảng chữ cái, trong khi hình vị nhỏ nhất của tiếng Trung là một ký tự Chữ viết tiếng Trung là chữ tượng hình, không dựa trên bảng chữ cái Latin như tiếng Việt, do đó, hình vị trong tiếng Trung được xác định là "ký tự" Mỗi ký tự (Character) trong tiếng Trung có cách phát âm riêng.
Trong bài viết này, chúng ta sẽ xem xét từ "tiếng" trong tiếng Trung và tiếng Việt, nhận thấy sự tương đồng về âm vị giữa hai ngôn ngữ Để tránh nhầm lẫn về ý nghĩa giữa ký tự tiếng Trung và tiếng Việt, tác giả sẽ sử dụng từ "tiếng" để chỉ cả ký tự tiếng Trung và tiếng trong tiếng Việt, đặc biệt trong các trường hợp liên quan đến cách tách từ.
Mặc dù có sự khác biệt trong cách viết, tiếng Trung và tiếng Việt lại có nhiều điểm tương đồng về cấu tạo từ và ngữ pháp Tiếng Việt, thực chất, là hình thức phiên âm của chữ Nôm do người Việt sáng tạo, có nguồn gốc từ tiếng Trung Hoa cổ đại.
Phương pháp này đơn giản chỉ là rút trích một số lượng nhất định các ký tự trong văn bản, như từ một ký tự (unigram) hoặc nhiều ký tự (n-gram) Mặc dù cách tiếp cận này đơn giản hơn so với các phương pháp khác, nhưng nó vẫn mang lại nhiều kết quả khả quan trong việc xử lý ngôn ngữ tiếng Trung.
BÀI TOÁN PHÂN NHÓM VĂN BẢN
Phân nhóm văn bản là một kỹ thuật phân nhóm dữ liệu tự động, giúp tổ chức các văn bản và tài liệu thành các nhóm Mục tiêu của phương pháp này là đảm bảo rằng các văn bản trong cùng một nhóm có độ tương tự cao, trong khi lại khác biệt rõ rệt với các văn bản trong nhóm khác.
Phân nhóm văn bản là một lĩnh vực nghiên cứu quan trọng với nhiều ứng dụng đa dạng như khai thác dữ liệu văn bản, khai thác dữ liệu web, tìm kiếm thông tin, phân tích hình học và tối ưu hóa công cụ tìm kiếm.
2.2.2 Các giải thuật cơ bản
Các giải thuật phân vùng (Partitionning Algorithms) là những phương pháp chia một tập dữ liệu thành các nhóm riêng biệt Một trong những thuật toán tiêu biểu là k-means, do J MacQueen giới thiệu vào năm 1967, cùng với các biến thể của nó như k-means chia đôi (bisecting K-Means) Những thuật toán này thường khác nhau về cách xác định k trọng tâm ban đầu, tính toán độ tương tự và phương pháp tính toán trọng tâm, nhằm giảm thời gian tính toán.
Hình 2-4: Ví dụ mô tả giải thuật k-means Ưu điểm:
K – Mean là tính đơn giản trong cài đặt
Phụ thuộc nhiều vào quá trình chọn tập ban đầu Đây là một trong các giải thuật được sử dụng trong đồ án
Các giải thuật dựa trên tập thuật ngữ xuất hiện thường xuyên (Document
Các giải thuật dựa trên mật độ (Density-based Algorithms) là những phương pháp xác định các nhóm dữ liệu dựa trên mật độ điểm trong không gian dữ liệu, nơi các vùng dày đặc được tách biệt bởi các vùng có mật độ thấp hơn Quá trình này tiếp tục cho đến khi mật độ của các vùng lân cận đạt ngưỡng nhất định Mỗi nhóm được xác định dựa trên ba tiêu chí chính: mật độ (density), sự kết nối với các điểm khác (connectivity) và đường biên (boundary).
Các giải thuật dựa trên lưới dữ liệu (Grid-based Algorithms) thực hiện việc lượng tử hóa không gian thành các ô (cell) hữu hạn, tạo ra cấu trúc lưới Tất cả các thao tác phân nhóm được tiến hành trên cấu trúc này Độ phức tạp tính toán của các giải thuật này không phụ thuộc vào số lượng đối tượng dữ liệu mà chỉ phụ thuộc vào số lượng ô trong mỗi chiều không gian đã được lượng tử hóa.
Các giải thuật dựa trên mô hình dữ liệu (Model-based Algorithms),
2.2.3 Kết luận về bài toán phân nhóm
Bài toán phân nhóm văn bản là một kỹ thuật học không giám sát với ít ứng dụng trực tiếp, nhưng lại đóng vai trò quan trọng trong khai phá dữ liệu văn bản Phương pháp này giúp tìm kiếm và gom nhóm các bài viết có nội dung tương tự, từ đó nâng cao hiệu quả trong việc quản lý và truy xuất thông tin.
Kỹ thuật K – Mean là một trong những phương pháp phổ biến nhất trong phân nhóm văn bản nhờ vào tính dễ sử dụng và khả năng xử lý nhanh chóng Phương pháp này thường được áp dụng để tìm ra các khái niệm chủ đề trong tập dữ liệu.
BÀI TOÁN PHÂN LỚP VĂN BẢN
2.3.1 Các phương pháp phân loại văn bản hiện nay
Phân loại văn bản tự động đã trở thành một lĩnh vực thu hút sự chú ý trong những năm gần đây, với nhiều phương pháp tiếp cận như dựa trên từ khóa, ngữ nghĩa, mô hình Maximum Entropy, và tập thô Tiếng Anh là ngôn ngữ được nghiên cứu sớm và rộng rãi nhất, với nhiều phương pháp phân loại thành công như hồi quy, k-nearest neighbors, xác suất Nạve Bayes, cây quyết định, mạng nơron, học trực tuyến, và máy vector hỗ trợ (SVM) Hiệu quả của các phương pháp này có sự khác biệt đáng kể, và việc đánh giá cũng gặp khó khăn do thiếu tập dữ liệu huấn luyện chuẩn, đặc biệt là với các phiên bản khác nhau của tập dữ liệu Reuter Nhiều độ đo như recall, precision, accuracy, và F-measure được sử dụng để đánh giá hiệu suất Chương này sẽ giới thiệu và so sánh các thuật toán phân loại phổ biến nhất.
2.3.2 Các phương pháp phân loại văn bản tiếng Anh hiện hành
Trong bài viết này, chúng ta sẽ khám phá các phương pháp biểu diễn văn bản, đặc biệt là mô hình không gian vector, nơi mỗi văn bản được đại diện bằng một vector Việc đánh giá giá trị thông tin trong văn bản phụ thuộc vào các phép toán của vector, tuy nhiên, một thách thức lớn là chọn lựa đặc trưng và số chiều cho không gian Câu hỏi đặt ra là cần bao nhiêu thuật ngữ và lựa chọn những thuật ngữ nào? Có nhiều phương pháp tiếp cận, trong đó tiêu biểu là Information Gain, cùng với các phương pháp khác như DF-Thresolding, X2-Test và Term Strength Phương pháp Information Gain sử dụng độ đo Mutual Information (MI) để xác định tập đặc trưng con F, bao gồm các từ có giá trị MI cao nhất.
Các đặc trưng của văn bản khi biểu diễn dưới dạng vector:
Số chiều không gian đặc trưng thường rất lớn (trên 10000).
Có các đặc trưng độc lập nhau, sự kết hợp các đặc trưng này thường không có ý nghĩa trong phân loại
Đặc trưng rời rạc: vector di có rất nhiều giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di
Hầu hết các văn bản có thể được phân chia một cách tuyến tính bằng các hàm tuyến tính
Việc phân loại sẽ hiệu quả hơn khi các thuật toán khai thác được những đặc trưng này Trong phần tiếp theo, chúng ta sẽ đi sâu vào các thuật toán phân loại và phân lớp văn bản.
SVM là phương pháp tiếp cận phân loại rất hiệu quả được Vapnik giới thiệu năm
1995 [30] để giải quyết vấn đề nhận dạng mẫu 2 lớp sử dụng nguyên lý Cực tiểu hóa thành phần rủi ro có tích chất cấu trúc
Tư tưởng của SVM là tìm ra siêu mặt phẳng tốt nhất để phân chia các điểm trong không gian vector thành hai lớp riêng biệt, với chất lượng siêu mặt phẳng được xác định bởi khoảng cách biên của các điểm dữ liệu gần nhất Khoảng cách biên lớn hơn đồng nghĩa với việc phân loại chính xác hơn, và SVM tìm kiếm khoảng cách biên lớn nhất Điểm đặc biệt của SVM là chỉ các vector hỗ trợ (Support Vector) quyết định mặt phẳng, cho phép thuật toán duy trì kết quả ngay cả khi các điểm khác bị loại bỏ Điều này khiến SVM khác biệt so với các thuật toán như kNN, LLSF, Nnet và NB, nơi tất cả dữ liệu đều được sử dụng để tối ưu hóa kết quả Một số phiên bản SVM nổi bật bao gồm SVM light và Sequential Minimal Optimization (SMO) K-Nearest Neighbor (kNN) là phương pháp truyền thống nổi tiếng trong nhận dạng mẫu, đã được nghiên cứu hơn bốn thập kỷ và được coi là một trong những phương pháp hiệu quả nhất, đặc biệt trên tập dữ liệu Reuters phiên bản 21450.
Khi phân loại văn bản mới, thuật toán KNN tính khoảng cách (như khoảng cách Euclide, Cosine) giữa văn bản đó và tất cả các văn bản trong tập huấn luyện để tìm k "láng giềng" gần nhất Trọng số của mỗi chủ đề được xác định bằng tổng khoảng cách của các văn bản trong k láng giềng có cùng chủ đề, trong khi những chủ đề không xuất hiện sẽ có trọng số bằng 0 Các chủ đề sau đó được sắp xếp theo trọng số giảm dần, và chủ đề có trọng số cao nhất sẽ được chọn Để xác định tham số k tối ưu, thuật toán cần thử nghiệm với nhiều giá trị khác nhau, với k lớn hơn giúp tăng độ ổn định và giảm sai sót Giá trị k tốt nhất cho hai bộ dữ liệu Reuter và Oshumed là k = 45.
NB là phương pháp phân loại dựa trên xác suất, rất phổ biến trong lĩnh vực máy học Phương pháp này lần đầu tiên được áp dụng trong phân loại bởi Maron.
1961 sau đó trở nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm, các bộ lọc mail…
Tư tưởng của Naive Bayes (NB) là sử dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của văn bản cần phân loại Phương pháp này giả định rằng sự xuất hiện của tất cả các từ trong văn bản là độc lập, điều này dẫn đến việc NB không tận dụng được sự phụ thuộc giữa các từ liên quan đến một chủ đề cụ thể.
Giả định này giúp việc tính toán Naive Bayes (NB) trở nên hiệu quả và nhanh chóng hơn so với các phương pháp khác có độ phức tạp theo số mũ, vì nó không cần phải kết hợp các từ để đưa ra phán đoán về chủ đề.
Có nhiều phương pháp Naive Bayes (NB) khác nhau như ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes và Bayesian Naive Bayes Naive Bayes là một công cụ phân loại hiệu quả, đặc biệt trong phân loại văn bản nhiều chủ đề Tuy nhiên, kết quả có thể kém nếu dữ liệu huấn luyện không đầy đủ và chất lượng tham số dự đoán thấp Thuật toán này có ưu điểm cài đặt đơn giản, tốc độ nhanh và khả năng cập nhật dữ liệu dễ dàng Mặc dù NB giả định tính độc lập giữa các từ, nó cũng cần một ngưỡng tối ưu để đạt kết quả tốt Để cải thiện hiệu năng của NB, các phương pháp như multiclass-boosting và ECOC có thể được áp dụng.
Nnet đã được nghiên cứu sâu trong lĩnh vực trí tuệ nhân tạo Wiener đã áp dụng Nnet để phân loại văn bản bằng hai phương pháp: kiến trúc phẳng không có lớp ẩn và mạng nơron ba lớp với một lớp ẩn.
Cả hai hệ thống đều áp dụng các nơron độc lập cho từng chủ đề, với Nnet học cách ánh xạ phi tuyến tính các yếu tố đầu vào như từ vựng hoặc mô hình vector của văn bản vào các chủ đề cụ thể.
Khuyết điểm của phương pháp Nnet là tiêu tốn nhiều thời gian dành cho việc huấn luyện mạng nơron
Mô hình mạng neural bao gồm ba thành phần chính: kiến trúc, hàm chi phí và thuật toán tìm kiếm Kiến trúc xác định mối quan hệ chức năng giữa các giá trị đầu vào và đầu ra.
Kiến trúc phẳng (flat architecture) là mạng phân loại đơn giản nhất, còn được gọi là mạng logic, với một đơn vị xuất là kích hoạt kết quả (logistic activation) và không có lớp ẩn Kết quả trả về ở dạng hàm tương đương với mô hình hồi quy logic Thuật toán tìm kiếm chia nhỏ mô hình mạng để điều chỉnh phù hợp với tập huấn luyện Chúng ta có thể học trọng số trong mạng kết quả bằng cách sử dụng không gian trọng số giảm dần hoặc áp dụng thuật toán interated-reweighted least squares, một phương pháp truyền thống trong hồi quy logic.
Linear Least Square Fit (LLSF)
LLSF, một phương pháp ánh xạ được phát triển bởi Yang và Chute vào năm 1992, ban đầu được thử nghiệm trong lĩnh vực xác định từ đồng nghĩa Đến năm 1994, LLSF được ứng dụng trong phân loại, với các thử nghiệm cho thấy hiệu suất phân loại của nó có thể tương đương với phương pháp kNN truyền thống.
Tư tưởng của LLSF là áp dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ đề có sẵn Tập huấn luyện được thể hiện dưới dạng cặp vector đầu vào và đầu ra.
Vector đầu vào một văn bản bao gồm các từ và trọng số
Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với vector đầu vào
BÀI TOÁN TÓM TẮT VĂN BẢN
2.4.1 Giới thiệu bài toán tóm tắt văn bản.
Trong thời đại bùng nổ thông tin, nhu cầu tiếp nhận thông tin ngày càng tăng, dẫn đến sự cần thiết của các hệ thống hỗ trợ thu thập thông tin Chúng ta không có đủ thời gian để đọc toàn bộ nội dung của các bài báo, tài liệu hay báo cáo Đồng thời, chúng ta cũng không muốn nhận thông tin không cần thiết Do đó, một hệ thống tóm tắt thông tin quan trọng là rất cần thiết, giúp chúng ta nắm bắt nội dung tài liệu nhanh chóng và quyết định xem có nên tiếp tục đọc hay chuyển thông tin cho người cần sử dụng.
Trên thế giới, nhiều quốc gia đã phát triển thành công hệ thống tóm tắt văn bản, điển hình như AutoSummarize trong bộ Office của Microsoft và SUMMARIST, áp dụng cho các ngôn ngữ như tiếng Anh, tiếng Hàn Những thành tựu này đã đạt được kết quả đáng kể trong việc cải thiện hiệu quả xử lý thông tin.
Trong những năm qua đã có nhiều công trình nghiên cứu về tóm tắt tự động các văn bản tiếng Anh, Nhật, Trung …
William B Cavnar,1994: Biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống bằng từ khóa
Chinatsu Aone (1997) đã phát triển hệ DimSum, một công cụ tóm tắt văn bản sử dụng xử lý ngôn ngữ tự nhiên và kỹ thuật thống kê dựa trên hệ số tf-idf Tác giả cũng áp dụng Wordnet để phân tích ngữ nghĩa của từ và đề xuất một số phương pháp đánh giá hiệu quả.
Jaine Carbonell, 1998: tóm tắt văn bản bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra các câu trội
Jade Goldstein, năm 1999, đã đề xuất một phương pháp phân loại tóm tắt dựa trên độ đo liên quan Phương pháp này kết hợp giữa ngữ học và thống kê, trong đó mỗi câu được đặc trưng bởi các đặc tính ngữ học và các chỉ số thống kê.
J Larocca Neto, 2000: Dựa trên các dãy từ trong câu được chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering)
D Radev, 2000: tóm tắt văn bản dựa trên trọng tâm sau đó rút trích câu quan trọng
Yihong Gong (2001) đã đề xuất hai phương pháp tóm tắt văn bản đơn giản, bao gồm tiếp cận dựa trên thống kê và tần suất, cùng với tiếp cận phân tích ngữ nghĩa tiềm ẩn (latent semantic analysis).
JKathleen R, 2001: tiếp cận kiến trúc đẳng cấp cụm và chọn câu trội trong mỗi cụm.
Yoshio Nakao (2001) đã trình bày hai phương pháp tóm tắt văn bản tiếng Nhật, bao gồm rút câu dựa trên từ khóa và rút câu dựa trên kiến trúc ngữ nghĩa Phương pháp thứ hai tập trung vào việc xây dựng độ đo mối liên kết giữa hai từ, nhằm cải thiện chất lượng tóm tắt.
M Mitra (2002) đã đề xuất một phương pháp tóm tắt hiệu quả bằng cách trích xuất các đoạn văn quan trọng, trong đó bao gồm việc xây dựng bản đồ quan hệ văn bản Phương pháp này phân tích các mối quan hệ giữa các đoạn văn để xác định đoạn văn nào là quan trọng nhất trong nội dung.
Lĩnh vực Khai phá dữ liệu văn bản và Xử lý ngôn ngữ tự nhiên tại Việt Nam đang phát triển mạnh mẽ với nhiều thành tựu đáng kể, đặc biệt trong các bài toán Tách từ, Phân lớp và Phân nhóm văn bản Tuy nhiên, nghiên cứu về Tóm tắt văn bản vẫn còn hạn chế, không tương xứng với nhu cầu ngày càng cao trong việc phát triển các ứng dụng hỗ trợ tóm lược văn bản, sinh tiêu đề và hiển thị thông tin theo yêu cầu.
2.4.2 Khái niệm về Tóm tắt văn bản?
Tóm tắt văn bản có nhiều định nghĩa khác nhau, phụ thuộc vào mục đích sử dụng và góc nhìn của người tiếp nhận Mỗi định nghĩa mang đến một cách hiểu riêng về khái niệm này, phản ánh sự đa dạng trong cách tiếp cận và ứng dụng của tóm tắt văn bản.
Là việc thể hiện nội dung văn bản đó dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía người dùng [ ] 23
“Cho một văn bản, tìm tóm tắt chứa các ý chính của văn bản thỏa nhu cầu khai thác văn bản” của Hoàng Kiếm và Đỗ Phúc
Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :
Tóm tắt tự động các tin tức trên báo điện tử.
Trợ giúp thông minh việc đọc và khai thác thông tin
Tóm lược danh sách tìm kiếm từ các Search Engine
Giản lược nội dung trình bày cho các thiết bị cầm tay
Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản
Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay công việc
Ngoài ra, một số module và kết quả của hệ thống có thể được sử dụng làm đầu vào hoặc là các bước tiền xử lý cho những bài toán khác trong lĩnh vực Khai phá văn bản.
Hình 2-5: Tóm tắt trang tin
Hình 2-6: Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay
Hình 2-7: Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp
Hình 2-8: Tóm tắt tài liệu khoa học
2.4.3 Mô hình bài toán tóm tắtvăn bản
Mô hình của một bài toán tắt văn bản đầy đủ gồm ba pha chính là: Phân tích, Biến đổi, Hiển thị
Hình 2-9: Mô hình hệ Tóm tắt văn bản tổng quát
Phân tích văn bản đầu vào là quá trình quan trọng nhằm cung cấp mô tả chi tiết, bao gồm thông tin cần thiết cho việc tìm kiếm và đánh giá các đơn vị ngữ liệu quan trọng Nhiệm vụ này cũng xác định các tham số đầu vào cần thiết cho việc tóm tắt nội dung một cách hiệu quả.
Biến đổi là quá trình lựa chọn và tinh giản thông tin, nhằm tạo ra các đơn vị ngữ liệu đã được tóm tắt một cách thống nhất.
Hiển thị (Generation) là giai đoạn cuối cùng trong quy trình tóm tắt, nơi các đơn vị ngữ liệu đã được tóm tắt sẽ được liên kết thành các đoạn văn theo thứ tự hoặc cấu trúc ngữ pháp phù hợp, nhằm đáp ứng yêu cầu của người dùng.
Một hệ Trích rút (Extraction) thì đơn giản và giản lược hơn Nó chỉ bao gồm pha Phân tích và Pha Hiển thị, không có pha biến đổi
HỆ TÓM TẮT VĂN BẢN
Hình 2-10: Mô hình một hệ Trích rút văn bản
Hệ trích rút đơn giản hơn nhiều so với hệ tóm lược đầy đủ, vì hệ tóm lược bao gồm các đặc trưng phức tạp của ngôn ngữ tự nhiên như tách từ, gán nhãn, và phân tích cú pháp Trong khi đó, hệ trích rút chỉ cần thực hiện ít bước hơn và chủ yếu tập trung vào pha phân tích Các phương pháp cài đặt hệ trích rút thường dựa vào thống kê và học từ ngữ liệu, trong khi hệ tóm lược yêu cầu cài đặt đầy đủ ba pha của mô hình chung, kết hợp chặt chẽ giữa các phương pháp thống kê, học dựa ngữ liệu và các phương pháp khác.
GIẢI PHÁP TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ
MÔ HÌNH TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ
Mô hình tóm tắt văn bản tiếng Việt theo chủ đề gồm 2 quá trình là:
Title của văn bản Chủ đề trong cây phân lớp
Chủ đề trong cây phân lớp Khái niệm của chủ đề
Khái niệm của chủ đề
Xử lý offline là quá trình huấn luyện và tập mẫu cho mỗi chủ đề, nhằm tạo ra đặc trưng riêng cho từng chủ đề trong các phân lớp Mục tiêu của quá trình này là hình thành tập hợp các khái niệm liên quan đến chủ đề, diễn ra một lần trước khi thực hiện nhiều tóm tắt văn bản.
Xử lý offline bao gồm hai pha chính: pha đầu tiên là xây dựng cây phân lớp (Công việc 1.1), và pha thứ hai là xây dựng huấn luyện tập mẫu nhằm tạo ra các khái niệm cho mỗi chủ đề (Công việc 1.2).
Xử lý Online là quá trình tóm tắt văn bản, bắt đầu với đầu vào là văn bản cần tóm tắt Kết hợp với dữ liệu từ xử lý offline, quá trình này cho ra văn bản tóm tắt như kết quả đầu ra Xử lý Online diễn ra qua hai pha: pha phân tích văn bản (Công việc 2.1) và pha hiển thị văn bản tóm tắt (Công việc 2.2).
Sau đây là chi tiết hình vẽ của mô hình:
Hình 3-5: Mô hình tóm tắt văn bản theo chủ đề
Chúng ta sẽ đi chi tiết các pha trong mô hình tóm tắt văn bản tiếng Việt:
Công việc 1.1: Xây dựng cây phân lớp là quá trình thực thi 2 bước:
Xây dựng các chủ đề là quá trình phân lĩnh vực của cây, tạo ra các nút chủ đề chưa có dữ liệu Quá trình này thường được thực hiện bởi các chuyên gia ngôn ngữ để phản ánh chính xác tính chất ngôn ngữ của lĩnh vực.
Xây dựng các tập văn bản mẫu cho mỗi chủ đề là quá trình tạo ra dữ liệu tại các nút do các chuyên gia ngôn ngữ học thiết lập trước đó Đây là bước quan trọng để chuẩn bị cho quá trình huấn luyện mẫu, với dữ liệu được lựa chọn kỹ lưỡng bởi các chuyên gia.
Công việc 1.2: Xây dựng các khái niệm của chủ đề
Công việc 2.2: Hiển thị kết quả tóm tắt
Văn bản cần tóm tắt
Công việc 2.1: Phân tích văn bản đầu vào
Phân tích đặc trưng văn bản đầu vào
Công việc 1.1: Xây dựng Cây phân lớp Công việc 1.2: Xây dựng các khái niệm Huấn luyện tập mẫu (1)
Quá trình xây dựng các khái niệm trong tập mẫu của mỗi chủ đề diễn ra thông qua việc thực thi thuật toán tìm khái niệm, và đây là một quá trình hoàn toàn do máy thực hiện.
Mục đích của quá trình này là phân tách chủ đề thành các thành phần nhỏ hơn, từ đó thực hiện các thao tác đánh giá và so sánh với các thành phần tương ứng trong luận văn.
Công việc 2.1: Phân tích văn bản đầu vào
Phân tách cấu trúc văn bản là quá trình chia nhỏ văn bản thành các thành phần cơ bản, bao gồm Title - câu chủ đề chính, đoạn - đặc trưng cho một khái ni
Quá trình phân tách từ văn bản đầu vào là việc thực hiện thuật toán Tách từ tiếng Việt, nhằm phân chia từ vựng trong một câu Kết quả đầu ra của thuật toán này là tập hợp các từ tiếng Việt được tách ra từ câu ban đầu.
Mô hình hóa văn bản là quá trình chuyển đổi văn bản gốc thành vector trong không gian vector Để thực hiện điều này, trước tiên cần tách từ và loại bỏ các stopword.
Trích rút thông tin đặc trưng của văn bản bao gồm việc phân lớp văn bản để xác định nội dung trung tâm cho quá trình đánh giá Đặc trưng đoạn văn được xác định dựa trên độ quan trọng của từng đoạn đối với chủ đề, từ đó quyết định số lượng câu cần trích rút Tiếp theo, việc trích rút câu dựa vào câu chủ đề và các khái niệm liên quan, với ưu tiên cho câu chủ đề trong việc đánh giá độ quan trọng Cuối cùng, đặc trưng thuật ngữ liên quan đến việc đánh giá các thuật ngữ trong chủ đề văn bản nhằm đảm bảo sự chính xác và liên quan trong quá trình trích rút thông tin.
Hiển thị Title: Là câu chủ đề của câu.
Hiển thị các câu trong đoạn: Là công việc hiển thị các câu được trích rút trong đoạn
Hiển thị các đoạn trong văn bản: Là việc kết hợp các câu trích rút trong đoạn đó
3.2.2 Phương pháp xây dựng chủ đề
Xây dựng chủ đề là một công việc rõ ràng, yêu cầu chọn tập mẫu tương ứng cho từng phân lớp Tuy nhiên, không phải ai cũng có khả năng thực hiện vì nó liên quan đến ngôn ngữ và nội dung Thông thường, nhiệm vụ này thuộc về các nhà ngôn ngữ học và được thực hiện theo các bước xây dựng cây.
Để xây dựng cây nội dung cho một tòa soạn báo, bước đầu tiên là xác định và liệt kê các chủ đề chính Ví dụ, cây nội dung có thể bao gồm các chủ đề như Tin tức, Thể thao, Giải trí, Kinh doanh và Văn hóa Mỗi chủ đề sẽ được phân chia thành các mục nhỏ hơn để tổ chức thông tin một cách rõ ràng và hợp lý, giúp độc giả dễ dàng tìm kiếm và tiếp cận nội dung mà họ quan tâm.
Hình 3-6: Tính chủ đề trong tòa soạn báo www.vnexpress.net
Bước 2 trong việc xây dựng cây chủ đề là lựa chọn và xây dựng dữ liệu phù hợp, bao gồm các văn bản phản ánh nội dung chủ đề Quá trình này đóng vai trò quan trọng trong việc thể hiện đặc điểm và tính chất của chủ đề đó.
THIẾT KẾ, CÀI ĐẶT VÀ THỬ NGHIỆ P PHẦ N MỀM
XÁC ĐỊNH YÊU CẦU
Nhiệm vụ chính của đề tài là nghiên cứu các phương pháp hiệu quả cho việc tóm tắt văn bản tiếng Việt Dựa trên các lý thuyết đã được đề xuất, tác giả đưa ra giải pháp tóm tắt theo chủ đề Để kiểm chứng các phương pháp này, tác giả sẽ phát triển một ứng dụng demo Bài viết sẽ phân tích bài toán từ góc độ ứng dụng, và kết quả thực nghiệm sẽ thể hiện hiệu quả của các phương pháp và giải pháp thiết kế đã được lựa chọn.
PHÂN TÍCH THIẾT KẾ HỆ THỐNG
Chúng tôi áp dụng mô hình tiếp cận giải pháp tóm tắt văn bản theo chủ đề, trong đó quá trình này trải qua nhiều giai đoạn khác nhau Người viết luận văn sẽ trình bày thứ tự các chức năng trong tổng thể hệ thống để làm rõ cách thức hoạt động của giải pháp.
Hình 4-1: Các chức năng hệ thống
Chức năng Tách từ: Thực hiện phân tách một câu tiếng Việt bất kỳ theo 2 phương pháp Left Right Maximum Matching
Tách từ Phân nhóm Phân lớp Tóm tắt
Chức năng phân nhóm văn bản cho phép tổ chức một tập hợp tài liệu thành k nhóm, đảm bảo rằng các văn bản trong mỗi nhóm có sự tương đồng cao nhất Việc này giúp tối ưu hóa quá trình tìm kiếm và quản lý thông tin, đồng thời nâng cao hiệu quả phân tích dữ liệu.
Chức năng phân lớp văn bản cho phép xác định phân lớp của một văn bản truy vấn, từ đó cung cấp kết quả chính xác về việc văn bản đó thuộc về phân lớp nào trong tập mẫu đã được xác định.
Chức năng Trích rút văn bản: Trích rút các ý chính từ văn bản gốc và độ trích rút đưa vào Đây là chức năng chính của hệ thống
Hình 4-2: Sơ đồ hệ thống
Dữ liệu đầu vào: Văn bản cần tóm tắt, Mức độ tóm tắt
Dữ liệu đầu ra: kết quả Tóm tăt của văn bản truy vấn đó
Chức năng tách từ: Gồm hai bộ phận chính là:
Bộ phân phân tách từ
Bộ phận phát hiện tên riêng
V ăn bản phân lớp bằng tay
V ăn bản cần TÓM TẮT Giao diện Người - Máy
V ector biểu diễn văn bản
Bộ PHÂN LỚP Văn bản
PHÂN Bộ NHÓM bản Văn
TƠ HÓA văn bản tiếng Việt
Phân tích, thống kê Văn bản
Một văn bản tiếng Việt
Phân tách văn bản tiếng Việt
Chức năng phân nhóm văn bản:
Tập mẫu được đưa vào phân nhóm
Qua bộ vector hóa: Để biến thành các vector
Sử dụng giải thuật K – Mean đề phân nhóm
Chức năng phân lớp văn bản bao gồm:
Bộ vector hóa văn bản chuyển đổi các văn bản đầu vào, bao gồm văn bản truy vấn cần phân lớp và tập văn bản mẫu đã được phân lớp, thành các vector để phục vụ cho quá trình phân tích và xử lý.
TF trước khi đi vào bộ phân nhóm văn bản (đối với tập mẫu) và bộ xử lý phân lớp
Bộ xử lý phân nhóm sử dụng thuật toán K-Mean để thực hiện phân nhóm văn bản Kết quả đầu ra bao gồm các nhóm văn bản mẫu, trong đó mỗi phân lớp văn bản mẫu chứa nhiều phân nhóm Mỗi văn bản sẽ được phân loại vào một phân nhóm cụ thể.
Kho Dữ liệu: Chứa thông tin về các nhóm văn bản mẫu được biểu diễn dưới dạng vector
Bộ xử lý phân lớp thực hiện việc phân loại văn bản bằng thuật toán k-NN, dựa trên vector trọng tâm của các nhóm văn bản mẫu và vector biểu diễn của văn bản truy vấn.
Chức năng Trích rút văn bản:
Bộ phân tích, thống kêvăn bản đầu vào.
Sử dụng kết quả ngữ liệu của Bộ Phân nhóm văn bản
Sử dụng kết quả phân lớp văn bản
Thực hiện đánh giá độ tương tự của câu với câu chủ đề (Title)
Để tiến hành trích rút văn bản, trước tiên cần đánh giá tính chủ đề của văn bản thông qua việc phân lớp Tiếp theo, đánh giá mức độ tóm tắt của đoạn văn dựa trên độ tương tự với chủ đề chính Đồng thời, cần xác định mức độ quan trọng của từng câu bằng cách so sánh với ngữ liệu khái niệm liên quan, ưu tiên những câu có mức độ liên quan cao nhất với câu chủ đề Cuối cùng, đưa ra câu cần trích rút để đảm bảo tính chính xác và đầy đủ thông tin.
Huấn luyện tập mẫu và tạo cây phân lớp là quy trình do người dùng thực hiện, trong đó các văn bản được nhập vào dưới dạng tệp tin txt Hệ thống dự kiến sẽ mở rộng hỗ trợ nhiều định dạng file khác trong tương lai.
Nhập văn bản cần tóm tắt: Thao tác này cũng được thực hiện bởi người dùng, văn bản nhập vào dưới dạng tệp tin txt
Vector hóa văn bản là bước tiền xử lý quan trọng, trong đó văn bản thô được chuyển đổi thành dạng vector dễ xử lý hơn Quá trình này bao gồm việc tách các từ (term) và loại bỏ các từ dừng (stopword), giúp cải thiện hiệu quả phân tích và xử lý văn bản.
Phân nhóm văn bản là quá trình tổ chức các mẫu văn bản đã được phân lớp và vector hóa Kết quả của quá trình này sẽ được lưu trữ trong kho dữ liệu, tạo thành tập khái niệm cho chủ đề phân lớp.
Phân lớp văn bản là quá trình xác định chủ đề của văn bản truy vấn sau khi được vector hóa Hệ thống sử dụng thuật toán k-NN để so sánh văn bản truy vấn với các nhóm văn bản mẫu trong kho dữ liệu, từ đó tìm ra phân lớp phù hợp nhất.
Kết quả trích rút được tạo ra từ việc kết hợp văn bản truy vấn đầu vào với kết quả phân nhóm ngữ liệu và kết quả phân lớp.
CƠ SỞ DỮ LIỆU THỬ NGHIỆP
4.3.1 Tập 7 văn bản đã gán nhãn sẵn
Số từ Tên/ Nội dung văn bản Kích thước(Kb)
1 Vb1.txt 6682 Những bài học nông thôn 66
2 Vb2.txt 14277 Chuyện tình trước lúc rạng đông (Phần 1)
3 Vb3.txt 12499 Chuyện tình trước lúc rạng đông (Phần 2)
4 Vb4.txt 1028 Tạp chí khoa học công nghệ 13.7
5 Vb5.txt 15532 Hoàng tử bé Saint-Exupéry 150
6 Vb6.txt 10598 Một nhà khoa học nổi tiếng 119
7 Vb7.txt 3117 Muối của rừng 30.7
8 Tong.txt 63733 Là tệp tổng hợp từ tất cả tệp trên
Bảng 4-1: Cơ sở dữ liệu cho tập phân tách từ
4.3.2 Tập kiểm thử trên vnexpress.net và vietnamnet.vn
Tập mẫu cho hệ thống:
Hình 4-3: Biểu đồ tập mẫu trên vnexpress.net và trên vietnamnet.vn
Dung lượng (Kb) Số lượng văn bản
Kinh Doanh 263 66 Ô tô – Xe máy 226 48
Bảng 4-2: Cơ sở dữ liệu cho tập trích rút văn bản
Tập mẫu cho cây phân lớp và tập kiểm thử hệ thống:
Dung lượng (Kb) Số lượng văn bản Tập mẫu Kiểm thử Tập mẫu Tập kiểm thừ
Bảng 4-3: Bảng chi tiết tập huấn luyện và tập kiểm thử
KẾT QUẢ THỬ NGHIỆP
4.4.1 Phương pháp đánh giá kết quả thử nghiệm Để đánh giá khả năng tóm tắt văn bản tiếng Việt theo chủ đề trong phạm vi đề tài này, em xin được giới thiệu vắn tắt phương pháp được sử dụng để đánh giá chất lượng các văn bản tóm tắt: phương pháp BLEU Phương pháp này dựa trên cơ sở đánh giá mức độ trùng khớp các dãy ký tự có độ dài n (phương pháp n-grams) giữa bản tóm tắt bằng máy và bản tóm tắt tham khảo để đánh giá
BLEU là một phương pháp đánh giá chất lượng bản dịch, được IBM giới thiệu tại hội nghị ACL ở Philadelphia vào tháng 7 năm 2001 Phương pháp này so sánh bản dịch tự động với một bản dịch chuẩn làm đối chiếu, thông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch, chú trọng đến thứ tự từ trong câu (phương pháp n-grams theo từ) BLEU dựa vào hệ số tương quan giữa bản dịch máy và bản dịch chính xác của con người để đánh giá chất lượng hệ thống dịch.
Việc đánh giá chất lượng dịch thuật dựa trên việc so sánh mức độ trùng khớp của các n-grams từ kho dữ liệu dịch và các bản dịch tham khảo chất lượng cao Giải thuật của IBM không chỉ xem xét sự trùng khớp của các n-grams mà còn đánh giá dựa trên độ dài của các bản dịch để đảm bảo tính chính xác và hiệu quả của hệ thống dịch.
Công thức đánh giá dựa trên phương pháp này như sau:
Hệ số BP tính theo công thức:
Với |c| là chiều dài bản tóm tắt cần đánh giá, |r| là chiều dài bản tóm tắt tham chiếu.
R gram n match n Count n gram gram n
R là bản tóm tắt tham chiếu, trong khi Count match -(n gram) đại diện cho số lượng n-gram đồng hiện giữa R và bản tóm tắt cần đánh giá Count(n-gram) là tổng số n-gram có trong bản tóm tắt tham chiếu.
4.4.2 Tóm tắt văn bản tiếng Việt theo chủ đề
Kết quả đánh giá dựa trên nhận xét của người sử dụng cho thấy, qua việc thử nghiệm 188 văn bản từ các nguồn www.vnexpress.net và www.vietnamnet.vn, nội dung đã được phân tích và đánh giá một cách toàn diện.
Số văn bản không đạt: 26/188 ~ 14 %
Mức độ rút gọn Tiêu chí đánh giá
Bảng 4-4: Kết quả đánh giá nội dung của trích rút theo người sử dụng
Hình 4-4: Biểu đồ kết quả đánh giá trích rút về nội dung
Kết quả đánh giá sử dụng công thức BLEU cho chương trình AutoSummarise của MSWord cho thấy độ rút gọn đạt 30% Mỗi chủ đề thử nghiệm được kiểm tra với 5 văn bản, với các chỉ số n-gram là (1,1) và (1,2).
Du lịch Giáo dục Thể thao
Du lịch Giáo dục Thể thao
Bảng 4-5: Kết quả đánh giá nội dung của trích rúttheo pp BLEU
Trên các bộ dữ liệu thử nghiêm này, chương trình VNSUM cho kết quả khả quan hơn chương trình AutoSummarise của MSWord trong 3 chủ đề Du lịc Giáo dụch, ,
- Đánh giá mức độ trơn của văn bản:
Số văn bản trung bình: 116/188 ~ 62%
Số văn chấp nhận được: 44/188 ~ 23%
Mức độ rút gọn Tiêu chí đánh giá
Yếu Trung bình Chấp nhận được
Bảng 4-6: Kết quả đánh giá nội dung của trích rút
Trung Bình Chấ p nh ậ n đư ợ c
Hình 4-5: Biểu đồ kết quả đánh giá trích rút về độ trơn Nhận xét:
Độ trơn trong ứng dụng trích rút không đạt kết quả cao Lí do là không có giai đoạn hợp giải tham chiếu, biến đổi câu
Khi độ trích rút ở mức nhỏ 10% do có ít câu trích rút nên độ trơn đạt kết quả cao chỉ có 7% yếu
Độ trơn đạt kết quả không cao tại độ trích rút 30%, 40% và đạt kết quả tốt nhất ở độ trơn 40% Khi đó số câu đủ nhiều ở mỗi đoạn.
ĐÁNH GIÁ THỬ NGHIỆM
Dựa trên các kết quả về tách từ, tìm chủ đề, trích rút văn bản chúng ta nhận thấy:
Kết quả tách từ, tìm chủ đề đều đạt kết quả cao như dự kiến Tách từ đạt khoảng 96%, kết quả tìm chủ đề đạt 95%
Kết quả trích rút đã đáp ứng yêu cầu người sử dụng qua hai khía cạnh: nội dung và độ trơn của trích rút Cụ thể, mức độ chấp nhận nội dung trích rút đạt khoảng 86%, trong khi độ trơn của văn bản đạt 72%.
Kết quả trên phản ánh sự đúng đắn của hướng tiếp cận cho bài toán tóm tắt văn bản tiếng Việt
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết quả đạt được:
Trong bài viết này, tác giả nghiên cứu và đề xuất phương pháp tóm tắt văn bản tiếng Việt, đồng thời trình bày các kết quả thử nghiệm đạt được trong khoảng thời gian gần một năm hợp tác với Cô giáo, TS Lê Thanh Hương.
Xây dựng cây phân lớp sử dụng hai kỹ thuật học: có giám sát và không giám sát Kỹ thuật học có giám sát được thực hiện bằng tay, đảm bảo nội dung phù hợp
Quá trình trích rút thông tin từ văn bản đầu vào được xác định chủ đề thông qua phân lớp, giúp xác định tính chủ đề khái quát của văn bản Mỗi đoạn trong văn bản sẽ được đối chiếu với khái niệm trong chủ đề của cây phân lớp và câu chủ đề để tìm ra khái niệm tương ứng cần trích rút.
Xây dựng hoàn chỉnh câyphân lớp tiếng Việt
Giải quyết bài toán đồng tham chiếu trong tóm tắt văn bản tạo ra văn bản tóm tắt trơn chu hơn, dễ hiểu hơn
Đi sâu vào nhận dạng tên riêng trong tiếng Việt tạo ra những thông tin mới phong phú hơn cho văn bản cần tóm tắt
[1] Chih – Hao Tsai, A word indentification System for Mandarin Chinese Text base on two Variants of the maximum matching algorithim
[2] Dinh Dien - Hoang Kiem - Nguyen Van Toan, Vietnamese Word Segmentation; Faculty of Information Technology National University of
[3] Đinh Điền, Xây dựng và khai thác Kho ngữ liệu song ngữ Anh Vi- ệt điện tử, Luận án tiến sĩ ngữ văn, 2004
[4] Hoàng Đức Đông, Tóm tắt văn bản tiếng Việt, Luận văn Thạc sĩ khoa CNTT
[5] D Lewis(1991), Representation and Learning in Information Retrieval, PhD
Thesis, Graduate School of the University of Massachusetts
[7] Eui-Hong (Sam) Han - George Karypis - Vipin Kumar(1999), Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification
[8] Eduard Hovy & Daniel Marcu , Automated Text Summarization Tutorial,
[9] Foo S, Lee h, Chise word segmentation and Its effect on Information retrieval
[10] Đinh Điền, Ứng dụng Ngữ liệu song ngữ Anh - Việt điện tử trong ngành ngôn ngữ ọ h c so sánh, tạp chí Ngôn ngữ, Viện ngôn ngữ học, 2002
[11] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Trường đại học khoa học tự nhiên TP HCM 12/2004
[12] George Karypis and Eui Hong (Sam) Han- , Concept Indexing A Fast
Dimensionality Reduction Algorithm with Applications to Document Retrieval
& Categorization, http://www.cs.umn.edu/˜karypis
[13] Hồ Tú Bảo(12 2003), - Knowledge Discovery anh Data Mining, Viện CNTT-
Viện khoa học và công nghệ tiên tiến Nhật Bản JAIST, Bài giảng tại Đại học Bách Khoa Hà Nội
[14] Hoàng Phê, Ngữ pháp tiếng Việt, Nhà xuất bản giáo dục
[15] H Nguyễn et al, Internet and genetics algrothim – base Text categorization for document in Vietnammese, RIFT 2005
[16] Inderjeet MANI, Summarization Evaluation: An Overview
[17] Jing, H., Sentence reduction for automatic text summarization, Proc Of
[18] Knight, K and Marcu, D., Statistics-Based Summarization Step One:Sentence Compression, Proc of AAAI2000, 2000
[19] K Murat Karakaya and H Altay Güvenir, Arg: Atool for Automatic report generation, Bilkent University, Department of Computer Engineering,
[20] Mani & Maybury, Automatic Summarization, ACL 2001
[21] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998.
[22] Nie J.Y et al, On Chinese Text retrieval
[23] Partha Lal , Text Summarization, Doctor thesis, 07/2002
[24] Regina Barzilay, Lexical Chains for Summarization, M.Sc Thesis, 11/97
Nguyễn Ngọc Bình, Vũ Ngọc Tiệp, và Nguyễn Thanh Phương đã thực hiện nghiên cứu về việc trích chọn từ khóa trong văn bản tiếng Việt Nghiên cứu này được trình bày tại hội thảo khoa học quốc gia về Nghiên cứu phát triển và ứng dụng Công nghệ thông tin và truyền thông (ICT).
II, Hà nội 24-25/9/2004 Kỷ ế y u H i th o – ộ ả Trang 216 225.-
[26] R Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03
[27] R Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03
[28] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998
[29] R Radev Et All, Evaluation challenges in large-scale document summarization,