Phương pháp ghom cụm tài liệu theo thực thể có tên

Một phần của tài liệu TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 30)

Gom cụm các tài liệu là quá trình nhóm các tài liệu có sự tương tự với nhau lại thành cụm. Kết quả của quá trình gom cụm là các phân cụm chứa các tài liệu liên quan sao cho độ tương tự giữa hai tài liệu bất kỳ trong cùng phân cụm lớn hơn độ tương tự giữa hai tài liệu ở hai phân cụm khác nhau. Hiện nay, hầu hết các giải thuật gom cụm tài liệu sử dụng mô hình không gian vector để biểu diễn cho mỗi đối tượng tài liệu. Tập hợp các thuật ngữ (term) sẽ hình thành một không gian vector thuật ngữ; mỗi tài liệu được biểu diễn bằng một vector d trong không gian vector này. Tập các vector đại diện cho tập các tài liệu tạo thành một ma trận thuật ngữ - tài liệu, trong đó mỗi vector là một hàng của ma trận, mỗi cột của ma trận ứng với một thuật ngữ.

Gom cụm tài liệu là sự phân chia và sắp xếp các tài liệu trong một tập tài liệu ban đầu vào các nhóm tài liệu nhỏ hơn. Tiêu chí của sự sắp xếp này là: trong mỗi nhóm, các cặp tài liệu có sự tương quan với nhau ở một mức độ nào đó, ví dụ như độ tương tự giữa hai tài liệu trong nhóm phải lớn hơn (hoặc khoảng cách nhỏ hơn) một hệ số quy định; hoặc một tài liệu được xếp vào một nhóm khi khoảng cách của tài liệu đến nhóm đó nhỏ hơn khoảng cách của tài liệu đến tất cả các nhóm khác (hoặc độ tương tự lớn hơn). Tiêu chí để xếp các tài liệu vào các nhóm sẽ thay đổi tùy theo giải thuật được sử dụng.

Có hai phương pháp ghom cụ tài liệu phổ biến như: giải thuật K-means cơ bản (Basic K-means), giải thuật Fuzzy C-means (FCM)

Gom cụm dựa trên cấu trúc cây ontology

Chúng ta tiếp cận theo một hướng khác cho bài toán gom cụm. Thay vì sắp xếp các tài liệu vào các nhóm trước rồi mới đi tìm hiểu xem các tài liệu trong nhóm đó nói về cái gì để tạo nhãn cho phân nhóm, thì trong phương pháp này, chúng ta sẽ tìm hiểu xem tài liệu nói về các gì trước, rồi mới phân bổ các tài liệu này vào các nhóm sau. Các bước xử lý tài liệu ban đầu gần tương tự như đối với phương pháp không gian vector, đó là công việc tập hợp các thực thể xuất hiện trong tài liệu.

Theo như đã phân tích ở phần thực tập tốt nghiệp, phương pháp này gom cụm phân cấp dựa trên lớp thực thể và định danh của thực thể. Tiêu chí chính của phương pháp gom cụm này là theo thực thể trội, tức là các thực thể xuất hiện nhiều hơn so với các thực thể khác được chọn làm tiêu chí để sắp xếp tài liệu vào phân nhóm. Như vậy, những tài liệu có các thực thể trội giống nhau sẽ được xem như là tương tự với nhau, và được xếp vào chung một nhóm. Việc gom cụm được thực hiện qua hai bước. Bước thứ nhất gom cụm dựa trên lớp thực thể, và bước thứ hai gom cụm dựa trên định danh của thực thể.

Phần 4

Mô hình không gian vector nhiều chiều cho việc xử lý thông tin dựa trên thực thể có tên (NE) thích nghi với VSM truyền thống dựa trên keyword thông quan không gian NE. Mỗi tài liệu (query) được đại diện bởi 4 thành phần vector qua 4 không gian của tên (name), loại (type), cặp tên-loại (name-type) và định danh (identifier) cho phép tìm kiếm và gom nhóm tài liệu theo những đặc điểm khác nhau của NE. Trọng số của mỗi phần tử trong vector được tính toán theo công thức tf.idf. Độ tương tự giữa 2 tài liệu được định nghĩa là khoảng cách giữa 2 vector đại diện. So sánh với những mô hình NE khác, sự cần thiết của mô hình được giới thiệu là sự khác nhau của những đặc điểm trong thực thể có tên, sự gộp lại giữa loại và tên là những thứ được tính đến.

Áp dụng mô hình này để gom cụm tài liệu với những thực thể có tên có trong mỗi tài liệu. Thí nghiệm cho thấy gom cụm dựa trên NE là sự bổ sung cho keyword, đem lại những gom cụm ý nghĩa và chính xác cho người dùng tùy thuộc vào từng đặc điểm khác nhau của thực thể có tên. Nó có thể hữu ích cho việc học trên các tài liệu văn bản, nơi có nhiều chủ đề, khái niệm mà chính là những thực thể có tên.

Việc xây dựng một bộ phân tích tiếng Việt hoàn chỉnh có lẽ là hướng phát triển tiềm năng nhất của bài toán này. Để làm được việc đó, ngoài việc phát triển một bộ phân tích cú pháp đầy đủ, ta cũng cần có một phương pháp đủ mạnh để nhận diện chính xác hơn các thực thể và loại của chúng. Về giải pháp biến đổi đồ thị ý niệm dùng hệ thống luật, có hai hướng phát triển chính cho vấn đề này: hoặc tiếp tục làm giàu thêm tập luật để có thể xử lý nhiều hơn; hoặc nghiên cứu một giải pháp khác.

Một vấn đề quan trọng của bài toán gom cụm là tốc độ xử lý trên một số lượng lớn các tài liệu. Do đó một hướng phát triển của bài toán này là cải thiện hiệu suất của giải thuật. Ta cũng cần cải tiến giải pháp tạo nhãn cho phân cụm nhằm thể hiện rõ vai trò của thực thể có tên khi hiển thị các tài liệu. Mô hình không gian vector cần quan tâm nhiều hơn đến mối quan hệ cha con giữa các thực thể, đặc biệt là thông tin về lớp của thực thể. Ngoài ra, ta cũng cần nghiên cứu thêm các giải thuật gom cụm khác.

Phân loại tài liệu theo thực thể có tên là một phương pháp hữu ích trong việc tìm kiếm và quản lý tài liệu, đặc biệt là giải quyết vấn đề tài liệu ngữ nghĩa. Nó cho phép quản lý tài tốt nguyên học tập trên web đối với những đối tượng liên quan. Tuy nhiên, trong một số trường hợp tìm kiếm theo keyword vẫn tỏ ra rất hữu ích. Đơn cử một trường hợp tìm kiếm trên những tài liệu mà số lượng thực thể có tên là rất ít, nội dung của tài liệu phụ thuộc chủ yếu vào những keyword. Khi đó, phương pháp tìm kiếm phân loại dựa

vào thực thể có tên tỏ ra không hiệu quả. Một phương pháp cải tiến được đề xuất là sử dụng mô hình vector 5 thành phần với thành phần thứ 5 là keyword. Theo mô hình này, một term được xem như một vector gồm 5 thành phần: tên, loại, cặp tên – loại, định danh của thực thể có tên, và keyword. Mô hình này đảm bảo quá trình phân loại tài liệu được thực hiện dựa trên cả hai tiêu chí là thực thể có tên và keyword. Điều chỉnh tỉ lệ giữa hai tiêu chí sao cho thích hợp với tập tài liệu sẽ cho ta một kết quả phân loại và tìm kiếm tốt.

Như ta đã thấy bài toán tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt được giải quyết bằng phương pháp gián tiếp – phương pháp trí tuệ nhân tạo và sử dụng một số nguyên tắc sáng tạo như:nguyên tắc kết hợp (thay đổi VSM truyền thống bằng việc kết hợp thêm thành phần thực thể có tên (tên, loại, tên-loại, định danh)), nguyên tắc phân nhỏ, nguyên tắc thứ tự…Bài toán không thể giải quyết bằng việc cài đặt các thủ tục, thuật toán thông thường; những bài toán như thế này có tính khát quát chung cho nhiều trường hợp và việc cài đặt cho từng trường hợp cụ thể là không thể được. Vì vậy cần nắm bắt được mô hình, ý tưởng chung của bài toán thông qua các phương pháp giải quyết vấn đề - bài toán trong tin học và có thể cải tiến chúng phù hợp với mục tiêu cần giải quyết. Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con đường sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực hiện nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu.

Một phần của tài liệu TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 30)

Tải bản đầy đủ (DOC)

(34 trang)
w