Phân loại thuộc tính

Một phần của tài liệu Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm luận văn ths công nghệ thông tin (Trang 29)

Để tìm ra các thuộc tính tốt, Bing Liu và các cộng sự [1] đã sử dụng phương pháp sắp xếp các thuộc tính sau khi trích chọn. Việc sắp xếp này để xác định tầm quan trọng của thuộc tính. Nếu một thuộc tính được trích chọn chính xác và quan trọng nó sẽ được sắp xếp ở vị trí cao, còn những thuộc tính trích chọn sai hoặc không quan trọng, nó có thể được sắp xếp với thứ hạng thấp.

Chúng ta xem xét hai loại thuộc tính là: thuộc tính quan trọng và tần xuất thuộc tính Thuộc tính quan trọng: được thể hiện ở ba đặc điểm. Thứ nhất, thuộc tính quan trọng là những thuộc tính có độ tin cậy cao, nó được bổ nghĩa bởi nhiều từ quan điểm. Từ quan điểm là tính từ, trạng từ trong câu. Ví dụ như tốt, xấu, tuyệt vời, nét…cùng bổ nghĩa cho từ camera. Camera ở đây có thể coi là thuộc tính quan trọng hay là thuộc tính chính xác. Thứ hai, thuộc tính quan trọng được lấy ra trong nhiều câu bởi phương pháp bộ phận – toàn bộ. Thuộc tính được lặp đi lặp lại trong nhiều câu. Ví dụ:

“Điện thoại này có camera tốt” và “Camera này của điện thoại” “Camera” được trích chọn là thuộc tính tin cậy.

Cuối cùng là sự kết hợp giữa phương pháp lan truyền kép bộ phận – toàn bộ và mẫu “No”. Một thuộc tính vừa được bổ nghĩa bởi các từ quan điểm, vừa được trích chọn từ phương pháp toàn bộ - bộ phận, mẫu “No” thì cũng được coi là thuộc tính tin cậy. Ví dụ “Điện thoại này có camera tốt” thì camera là thuộc tính vừa được trích chọn do từ quan điểm “tốt” bổ nghĩa, nó vừa là bộ phận của thực thể điện thoại.

Ngoài ra, nếu từ chứa quan điểm được trích từ phương pháp lan truyền kép là tin cậy cao, tức nó cũng được lặp lại nhiều lần trong câu bổ nghĩa cho các thuộc tính. Thuộc tính được trích chọn dựa vào bổ nghĩa của các từ quan điểm đó cũng có độ tin cậy cao. Do đó, Zhang Lei đã sử dụng thuật toán Hits để sắp xếp các thuộc tính.

Tần suất xuất hiện của thuộc tính: Đây là yếu tố quan trọng trong sắp xếp thuộc tính. Một thuộc tính xuất hiện thường xuyên hơn thuộc tính khác khi chúng có tần suất

Chỉ số

xuất hiện lớn hơn. Những thuộc tính có tần suất lớn trong tài liệu được coi là những thuộc tính quan trọng và đáng tin cậy. Đây cũng được coi là phương pháp trích chọn thuộc tính, và nó cho kết quả tốt.

Một phần của tài liệu Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm luận văn ths công nghệ thông tin (Trang 29)