Xác định chủ đề (Topic Identification)

Bước quan trọng trong cách tiếp cận này là xác định các chủ đề có ý nghĩa trong một tập các đánh giá và tạo ra các cấu trúc chủ đề dựa trên các chủ đề này. Một phương pháp tiêu biểu là phân đoạn văn bản, là phương pháp dựa trên sự giống nhau của các đoạn liền kề và phát hiện ranh giới của các chủ. Phương pháp này hoạt động tốt cho một tài liệu. Tuy nhiên, đối với nhiều tài liệu thì lại rất khó để tìm ra các ranh giới như vậy.

Quá trình xác định chủ đề dựa vào trật tự thường xuyên của các từ (Frequent word Sequences - FS) và các lớp tương đương. Một FS là một trật tự

các từ xuất hiện trong ít nhất là tài liệu đặt trong một tập tài liệu ( là ngưỡng hỗ trợ các tài liệu). Thuật toán 1 chỉ ra quá trình để trích xuất tất cả các FSs trong một tập tài liệu. Quá trình này bắt đầu với việc thu thập tất cả các cặp từ thường xuyên, nghĩa là FSs với độ dài là 2. Những FSs sau đó được mở rộng với một từ nữa và tạo thành một dãy các FSs với với độ dài là 3. Tất cả các FSs với độ dài là 3 sau đó lại được mở rộng. Quá trình này được thực hiện cho đến khi không còn FS để mở rộng. Các ngưỡng hỗ trợ tài liệu được chọn dựa vào kích thước của tập tài liệu. Đối với một tập tài liệu có kích thước vừa phải, lựa chọn một ngưỡng thấp để cho phép các khái niệm bề ngoài quan trọng hơn. Đối với một tập lớn, một ngưỡng cao hơn có thể được xem xét để làm giảm các thông tin không cần thiết.

Thuật toán 1. Phát hiện ra tất cả các FSs trong một tập các tài liệu

Đầu vào: D: một tập các văn bản đã được tiền xử lý, : một tần số ngưỡng Đầu ra: Fs: một tập các trật tự thường xuyên của các từ

/ /Pha khởi tạo: tập hợp tất cả các cặp từ thường xuyên

Thuật toán 1: Tìm ra tất cả các FSs trong 1 tập các tài liệu.

FSs có thể bị lược bớt hơn nữa và được nhóm lại thành các lớp tương đương dựa vào vị trí của nó. Các lớp tương đương được tạo ra theo cách sau: Lấy A và B là 2 FSs. Lớp tương đương của A, kí hiệu là EqA, bao gồm 1 tập các FSs mà cùng xuất hiện với A trong hầu hết các tập cùng đánh giá đã cho với 1

tham số tin cậy. DetA là 1 tập hợp của FSs được xác định bởi A. Với A và B, nếu:

thì ta thêm B vào tập DetA, A cũng được thêm vào DetA. Các FSs khác cũng được kiểm tra theo cách như vậy và cũng được thêm vào DetA nếu thoả mãn các tiêu chuẩn ở trên. Theo cách ở trên, EqA được tạo ra từ tất cả các FSs X mà DetX=DetA.

Sau khi tất cả FSs được chọn ra, chúng sẽ được phân nhóm vào các lớp tương đương dựa vào vị trí xuất hiện trước của chúng trong mỗi câu ở trong tập đánh giá. Mọi ứng cử viên FSs xuất hiện trong cùng một tập đánh giá sẽ được phân nhóm vào trong một lớp tương đương.

Một FS hoặc một lớp tương đương được coi như là một đại diện của một chủ đề trong một tập đánh giá. Các chủ đề được xếp hạng dựa vào điểm số của chúng. Các điểm số của một FS được tính theo công thức dưới đây. Điểm số của một lớp tương đương bằng với điểm số trung bình của các FSs.

trong đó:

f là tần số của FS trong tập đánh giá, N là tổng số đánh giá,

n là số các đánh giá mà có FS xảy ra, l là chiều dài của FS.

Hình 4 dưới đây cho thấy một số chủ đề đã được xếp hạng được trích ra từ một tập các đánh giá về điện thoại Nokia và các chỉ mục (IDs) đánh giá tương ứng đối với các chủ đề này.

- Chất lượng âm thanh 8,13,18,20,27,33,34,40 - Tuổi thọ pin 2,5,18,26,28,29,30,37

- Điện thoại nắp gập 4,18,26,33 - Điện thoại Nokia 2,18,31 - Điện thoại Samsung 18,40

Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia

Có thể thấy, ý kiến đánh giá thứ 18 có liên quan đến tất cả các chủ đề và một số đánh giá khác cũng có liên quan đến nhiều chủ đề khác nhau. Cách tiếp cận tóm tắt theo nhóm cũng không thể xử lý tình huống này bởi vì gộp các tập hợp này vào trong các nhóm không chồng chéo sẽ cắt đứt mối quan hệ giữa các đánh giá.

(5)

Xác định chủ đề (Topic Identification)

Khai phá luật kết hợp (Assocition Rules)

Kỹ thuật tối đa biên liên quan – MMR