Phân cụm văn bản sử dụng phương pháp xếp hạng cụm từ quan trọng trong tiếng Việt

MỤC LỤC

Thuật toán phân cụm bottom-up (HAC - Hierarchical Agglomeraltive Clustering)

Mặc dù có rất nhiều các công thức của vấn đề phân cụm, một cách nhận thức đơn giản để tìm ra các cụm là bắt đầu với tất cả các tài liệu và từng bước kết nối chúng thành các nhóm ở đó độ tương tự các tài liệu bên trong mỗi nhóm là cao, và ngừng lại khi đạt được số cụm mong muốn[6]. • Single-link: với phương pháp này, khoảng cách giữa hai cụng được định nghĩa là khoảng cách giữa những đối tượng giống nhau nhất giữa hai nhóm D(r,s) = Min (d(i,j)) với i thuộc ra và j thuộc s.

Thuật toán phân cụm top-down

Nó tính độ tương tự trung bình sim-ga của tất cả các cặp văn bản, bao gồm cả các cặp trong cùng một cụm, nhưng những độ tương tự tính trong một cùng một cụm không chứa trong phép trung bình. Một điều kiện dừng vòng lặp while ("có thể tốt hơn") thường được dùng là sau khi thực hiện thân vòng lặp while mà các cụm là không thay đổi (hoặc sự thay đổi là không đáng kể), hoặc trọng tâm của cụm di chuyển các khoảng không đáng kể trong các lần lặp tiếp theo. (1)Trong bước làm sạch tài liệu, xóa tất cả các hậu tố và tiền tố của các từ nếu có, đưa toàn bộ số nhiều về số ít, loại bỏ các ký tự không phải là một từ (như các thẻ HTML, hệ thống dấu chấm câu), các từ trong tài liệu được giữ nguyên vị trí.

(2) Xác định các cụm cơ sở: Theo định nghĩa trong [13] thì cây hậu tố T là một cây có hướng có gốc, biểu diễn một chuỗi s bất kỳ có chiều dài m với đúng m nút lá. Mỗi nút sẽ lưu trữ tất cả các thông tin về các cụm từ ( tần số xuất hiện trong tập văn bản, tần số xuất hiện trong từng văn bản) trong khi quan hệ giữa chúng lại nói lên sự tồn tại của các cụm từ. Trong phân cụm, người ta sử dụng cây hậu tố mở rộng để phân tích các câu: [11] Cây hậu tố mở rộng là cây hậu tố nhằm kết tất cả các hậu tố của các câu trong văn bản.

Đánh giá các thuật toán phân cụm

Như vậy các cạnh nối từ b cũng bị bỏ đi và chúng ta có 3 cụm được đưa ra là “mouse too” “cat ate” “ate cheese”. Các thuật toán như HAC hay K-means đều không là các thuật toán gia tăng. Một số thuật toán gia tăng đã được phát triển như thuật toán phân cụm cây hậu tố (Suffix Tree Clustering - STC), với thời gian thực hiện O(n) trong đó n là kích thước của tập tài liệu[6].

Phân cụm văn bản tiếng Việt

Đặc trưng của tiếng Việt và tách từ trong tiếng việt

    Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn. Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm.

    - là đơn vị có ranh giới trùng với hình vị và âm tiết - không có sự biến đổi hình thái trong quá trình sử dụng - là đơn vị có sẵn, được tái hiện trong khi nói. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn ngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về phonetic, văn phạm và ngữ nghĩa so với tiếng Anh. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt.

    Một số nghiên cứu về phân cụm tiếng Việt

      Trong [1], Nguyễn Thi Thu Chung và cộng sự giới thiệu 4 tiêu chuẩn đánh giá chất lượng cho phân cụm để bảo đảm tính kết dính và độc lập là: giảm tối thiểu tổng khoảng cách (tổng khoảng cách giữa trọng tâm các cụm với trọng tâm toàn cục và tổng khoảng cách giữa đối tượng với trọng tâm của cụm chứa đối tượng), phân cụm sao cho độ tách biệt giữa các cụm là lớn nhất, vị trí cụm của đối tượng và số lượng đối tượng có vị trí cụm đúng. - Phương pháp đánh giá dựa vào tập dữ liệu mẫu: chọn một chuẩn cơ sở để so sánh khả năng phân cụm của bộ phân cụm: độ đo chất lượng phân cụm, đo chất lượng của một hệ thống phân cụm bởi các mức. Từ các phương pháp trên tác giả đã tiến hành đánh giá chất lượng phân cụm của máy tìm kiếm VNSEN dựa trên cây phân cấp chủ đề và so sánh với kết quả phân cụm của máy tìm kiếm vivisimo[1].

      Để người quản lý có thể nắm bắt các nội dung chính của thông tin trao đổi trên diễn đàn trong một giai đoạn, cần xây dựng một hệ thống gom cụm các thông điệp, hỗ trợ trích rút nội dung chính trong khối thông điệp [3]. Đỗ Phúc và cộng sự trình bày cách sử dụng mạng Kohonen để gom cụm các đồ thị đặc trưng văn bản và rút trích các ý chính từ khối văn bản hỗ trợ tạo trích lược thông tin chính trong khối văn bản. (Kết quả huấn luyện mạng Kohonen sẽ tạo trên lớp ra Kohonen các cụm dữ liệu ứng với nhóm các nút gần nhau trên lớp ra Kohonen. Các mẫu học sẽ thuộc về cụm có khoảng cách gần nhất từ nó đến nowrron trong cụm. Các cụm có vị trí gần nhau trên mạng Kohonen sẽ chứa các đối tượng có mức độ tương tự cao).

      Phân cụm văn bản sử dụng phương pháp xếp hạng cụm từ quan trọng

      • Trích các cụm từ quan trọng
        • Xếp hạng các cụm từ quan trọng

          Đưa ra một truy vấn và lấy về danh sách được xếp hạng các kết quả trả về của một máy tìm kiếm, trước tiên là phân tích cú pháp toàn bộ danh sách tài liệu gồm tiêu đề và nội dung tóm tắt (snippet), trích ra tất cả các cụm từ có thể (n-grams) từ nội dung, và tính một vài đặc trưng cho mỗi cụm từ như là tần suất. Trong bước thứ hai, các tiêu đề và đoạn tóm tắt (snippet) được phân tích cú pháp để loại bỏ các thẻ HTML và hệ thống dấu chấm câu, tách thành các n-grams với n có giá trị từ 1 đến 3. Các đặc trưng được tính toán ở đây là TFDF (Phrase Frequency/Inverted Document Frequency), độ dài (Phrase leng LEN), Tương tự nội tại (Intra-cluster similarity - ICS), entropy cụm (Cluster entropy -CE), độc lập cụm từ (Phrase.

          Khi biến độc lập y không phải là biến liên tục mà là biến mang tính đo lường nhị phân: có giá trị là 0 hoặc 1, mô hình hồi qui logistic phù hợp hơn vì những gì cần chớnh xỏc khụng phải là một giỏ trị số rừ ràng của biến độc lập, nhưng khả năng xảy ra. Thay cho việc sử dụng một bình phương nhỏ nhất độ lệch tiêu chuẩn cho phù hợp nhất, hồi qui logistic sử dụng một phương thức có thể xảy ra lớn nhất với khả năng lớn nhất của việc lấy các kết quả quan sát đưa ra hệ số hồi quy. Trong hồi qui hỗ trợ vecto, x đưa vào được sắp xếp lên trên một không gian đặc trưng nhiều chiều (hight dimensional feature space) sử dụng một vài sắp xếp không tuyến tính, và sau đó một mô hình tuyến tính được xây dựng trong không gian riêng 37.

          Thực nghiệm và đánh giá 4.1. Dữ liệu của thực nghiệm

          Cài đặt thực nghiệm 1. Phần cứng

            - Khóa luận sử dụng phần mềm tách từ tiếng Việt JvnTextPro của tác giả Nguyễn Cẩm Tú và Phan Xuân Hiếu (trường đại học Công nghệ, đại học quốc gia Hà Nội). - Khóa luận xây dựng chương trình sinh n-gram và tính các đặc trưng của các cụm từ. - Bộ mã nguồn mở SVM rank - Support Vector Machine for Ranking của tác giả Thorsten Joachims [19] được sử dụng để xếp hạng các cụm từ quan trọng.

            Thông số được thiết lập cho mô hình hồi qui hỗ trợ vector này là thông số -c (được gán giá trị là 3) là giá trị chuyển đổi giữa lỗi của tập huấn luyện và độ lệch chuẩn.

            Kết quả thực nghiệm và đánh giá Kết quả huấn luyện với SVM-rank như sau

            Như biểu đồ trên ta thấy mỗi đặc trưng thể hiện không tốt trong việc xếp hạng. Xét trong 4 đặc trưng thì TFIDF và LEN tỏ ra tốt hơn trong việc xác định độ quan trọng của cụm từ. Điều này có thể là do mỗi tài liệu chỉ gồm có tiêu đề và đoạn tóm tắt rất ngắn nên không gian vecto dựa vào độ tương tự có lỗi khá lớn.

            Có thể nhận thấy độ chính xác ở đây là khá cao song không đều do có sự khác. Với truy vấn “thị trường” độ chớnh xỏc thấp, bởi vì top các cụm từ quan trọng có chứa từ truy vấn như “thị trường vàng”, “thị trường bất động sản”,”thông tin thị trường”. Từ phần thực nghiệm trên có thể thấy phương pháp phân cụm tài liệu dựa vào các cụm từ quan trọng áp dụng trên các văn bản tiếng Việt có kết quả khá khả quan.