Tối đa biên liên quan (MMR- Maximal Marginal Relevance) một trong những phương pháp phổ biến nhất để phù hợp cân bằng và đa dạng trong tập thông tin và đã được trích dẫn hơn 530 lần kể từ khi xuất bản vào năm 1998.
MMR là kỹ thuật dựa trên mô hình không gian vector, rất phù hợp với tóm tắt đa văn bản. Với kỹ thuật MMR, các câu được lựa chọn dựa theo một sự
(3) (2)
kết hợp giữa sự liên quan tới một truy vấn và sự dư thừa của chúng với những câu đã được trích ra. Sự liên quan và sự dư thừa được đo bằng cách sử dụng độ đồng dạng cosin. Sự liên quan thông thường là độ đồng dạng cosin của câu và các vectơ truy vấn, nhưng vì nhiệm vụ này bao gồm các thông tin chung nhiều hơn là tóm tắt dựa trên truy vấn, sự liên quan được xác định bởi độ đồng dạng cosin của vector câu và một vector tài liệu đại diện cho mức độ trung bình của các vectơ câu. Độ đo ScMMR(i) cho một câu Si trong văn bản được cho bởi công thức:
Trong đó:
D: vectơ trung bình giữa các tài liệu.
Summ: vectơ trung bình từ tập các câu đã được lựa chọn. : được thoả thuận giữa sự liên quan và sự dư thừa. Sim: độ đồng dạng cosin giữa 2 tài liệu.
Chƣơng 3 - SỬ DỤNG KỸ THUẬT TÓM TẮT ĐA VĂN BẢN CHO BÀI TOÁN TÓM TẮT Ý KIẾN ĐÁNH GIÁ VỀ SẢN
PHẨM TỪ NHIỀU NGƢỜI DÙNG. 3.1. Xử lý các đánh giá trực tuyến của khách hàng
Công việc chủ yếu của quá trình đánh giá trực tuyến của khách hàng tập trung vào khai thác những đánh giá về mặt tích cực, tiêu cực về những thuộc tính khác nhau của một sản phẩm, ví dụ như: đưa ra trọng lượng của máy tính xách tay và chất lượng hình ảnh của một máy ảnh kỹ thuật số. Dưới đây đưa ra một ví dụ về kết quả của việc khai thác ý kiến cho 1 máy ảnh kỹ thuật số đặc biệt. Trong kết quả này, chất lượng hình ảnh và kích thước máy ảnh là các thuộc tính của sản phẩm. Có 253 khách hàng đánh giá đã bày tỏ quan điểm tích cực về chất lượng hình ảnh, và chỉ có 6 khách hàng có các ý kiến tiêu cực. Các liên kết đến các câu hoặc đánh giá rõ ràng, cụ thể sẽ mang lại những ý kiến đánh giá tích cực hay tiêu cực về những đặc điểm cụ thể.
Tuy nhiên, nhận thấy rằng mặc dù một số ý kiến của khách hàng về các thuộc tính của sản phẩm không thể được dán nhãn là tích cực hay tiêu cực nhưng chúng vẫn có giá trị. Ví dụ, hai câu sau đây được trích ra từ đánh giá của các khách hàng về điện thoại di động Nokia .
Câu 1: Chất lượng âm thanh của điện thoại là rất quan trọng. Câu 2: Điều quan trọng nhất đối với tôi là chất lượng âm thanh .
Cả hai câu trên cung thảo luận về tính năng chất lượng âm thanh của điện thoại. Không giống như câu đầu tiên, câu thứ hai không cung cấp bất kỳ một thái độ định hướng là tích cực hay tiêu cực khi đề cập tới điện thoại Nokia, nhưng nó cung cấp các thông tin có giá trị cho các nhà thiết kế về những thuộc tính nào của sản phẩm mà người tiêu dùng thực sự quan tâm đến.
Như vậy, những ý kiến trung lập và đề xuất như vậy không được xem xét trong phương pháp khai thác ý kiến hiện tại.
Hơn nữa, khai thác ý kiến tập trung chủ yếu vào thuộc tính của sản phẩm, nhưng thuộc tính sản phẩm có thể không bao gồm tất cả các vấn đề trong đánh giá của khách hàng. Dưới đây là một số câu được rút ra từ những nhận xét của khách hàng về điện thoại Nokia:
- Tôi thích điện thoại Nokia nắp gập hơn nhiều bởi vì: a) Sẽ không làm xước màn hình hay bàn phím
b) Không cần phải khóa điện thoại của bạn vào mọi lúc để tránh sự nhấn phím vô tình .
- 2 điện thoại trước của tôi đều là điện thoại nắp gập, và tôi đã bắt đầu thấy chán chúng.
- Máy Nokia đầu tiên của tôi không phải là điện thoại nắp gập, và tôi thấy vui khi quyết định dùng nó.
- Tôi không có đủ kiên nhẫn để giải quyết những phiền phức của điện thoại nắp gập.
Tất cả những câu này đều đánh giá về điện thoại nắp gập và người tiêu dùng đưa ra các triệu chứng mà họ thường nhận thấy về sản phẩm từ những quan điểm khác nhau. Một số khách hàng rất tỉ mỉ khi đưa ra lý do lựa chọn. Thông tin này là rất quan trọng để hiểu về sự hợp lý khi mua hàng và quá trình quyết định của mình. Tuy nhiên, trong phương pháp khai thác ý kiến, các vấn đề quan trọng không được chỉ ra bởi vì điện thoại nắp gập đơn giản là không được coi là một tính năng sản phẩm của điện thoại di động.
Với một bản tóm tắt dựa trên tính năng của sản phẩm như vậy, khách hàng có thể dễ dàng nhận thấy các khách hàng đang sử dụng cảm nhận về máy ảnh kỹ thuật số như thế nào. Nếu họ rất quan tâm đến một tính năng đặc biệt, họ có thể đi sâu bằng cách dựa vào những đánh giá của các khách hàng đang sử dụng để xem lý do tại sao họ thích nó và/ hoặc họ phàn nàn về nó. Đối với một nhà sản xuất, có thể kết hợp bản tóm tắt từ nhiều trang web thương mại để tạo ra một báo cáo duy nhất cho mỗi sản phẩm của mình.
Vì những lý do ở trên, việc khai thác ý kiến là không đủ để trích xuất tất cả thông tin quan trọng từ các đánh giá của khách hàng. Trong luận văn này sẽ đưa ra một cách tiếp cận khác bằng cách sử dụng kỹ thuật tóm tắt văn bản tự động để xác định và tổng hợp chủ đề thông tin nổi bật từ nhiều đánh giá trực tuyến của khách hàng liên quan đến một sản phẩm.
Nhiệm vụ tóm tắt được thực hiện trong ba bước chính:
Bước 1: Phát hiện các thuộc tính (feature) của sản phẩm từ những nhận xét của khách hàng.
Bước 2: Xác định các câu ý kiến trong mỗi đánh giá và quyết định xem mỗi câu ý kiến là tích cực hay tiêu cực. Lưu ý rằng, những câu lấy ý kiến này phải bao gồm một hoặc nhiều thuộc tính sản phẩm được xác định ở trên. Để quyết định ý kiến định hướng của từng câu (cho dù các ý kiến thể hiện trong câu là tích cực hay tiêu cực) thì cần thực hiện ba công việc phụ. Đầu tiên, một tập hợp các từ (thường được sử dụng để thể hiện ý kiến) được xác định bằng phương pháp xử lý ngôn ngữ tự nhiên. Thứ hai, với mỗi từ ý kiến, xác định ngữ nghĩa là tích cực hay tiêu cực. Cuối cùng, là xác định ngữ nghĩa của mỗi câu.
Bước 3: Tóm tắt kết quả. Bước này tập hợp các kết quả của bước trước và trình bày chúng trong các định dạng.
3.2. Tóm tắt văn bản tự động.
Do sự bùng nổ của các văn bản điện tử trực tuyến, trong suốt thập kỷ qua, có rất nhiều nghiên cứu thú vị về tóm tắt văn bản tự động. Một số ứng dụng ban đầu đã được ghi nhận. Ví dụ, Google cung cấp một bản tóm tắt ngắn gọn cho mỗi tài liệu được lưu trữ ở dạng rời rạc có liên quan đến truy vấn từ. Một ví dụ khác là NewsInEssence (http://www.newsinessence.com/) có thể tóm tắt tin bài từ nhiều nguồn tin bài khác nhau.
Có hai nhóm phương pháp tóm tắt tự động chính: phương pháp thống kê và phương pháp ngôn ngữ. Phương pháp thống kê được sử dụng rộng rãi vì nó không phụ thuộc vào thể loại tài liệu. Luhn (Luhn, 1958) là người đầu tiên phát triển phương pháp này dựa trên tần số của từ. Các nhà nghiên cứu sau đó mở rộng cách làm việc của Luhn để xử lý với nhiều thuộc tính hơn, ví dụ như tiêu đề (Edmundson,1969), vị trí câu (Hovy & Lin, 1997), cụm từ chỉ thị (Hovy & Lin, 1997), chiều dài câu (Kupiec, Pedersen, & Chen, 1995) v.v. Các phương pháp ngôn ngữ đưa ra một cách tóm tắt khác. Các phương pháp điển hình bao gồm cấu trúc luận (Mann & Thompson, 1988; Marcu, 1999), và chuỗi từ vựng (Barzilay & lhadad,1997).
Gần đây, khả năng thu thập được một số lượng lớn các tài liệu trực tuyến nên nhu cầu cho tóm tắt đa văn bản (Multi-Document Summarization - MDS) ngày càng tăng. Thay vì chỉ tập trung các tài liệu duy nhất, MDS được thực hiện để xử lý nhiều tài liệu có liên quan với nhau, ví dụ như các tin bài liên quan đến một sự kiện từ nhiều nguồn khác nhau. Hướng tiếp cận tóm tắt đa văn bản phổ biến nhất là tổng hợp theo nhóm. Cách tiếp cận tổng hợp theo nhóm đầu tiên phân chia một tập tài liệu vào trong một số nhóm tài liệu hoặc nhóm các câu không chồng chéo. Việc tổng hợp sau đó được thực hiện một cách riêng biệt trong mỗi nhóm. Hạn chế của phương pháp tiếp cận tổng hợp theo nhóm khi áp dụng trong phạm vi đánh giá của khách hàng như sau:
- Số lượng các cụm rất khó xác định mà không có kiến thức trước từ tập các nhận xét. Cách lựa chọn số lượng không phù hợp chắc chắn sẽ đưa vào những thông tin không cần thiết và làm giảm hiệu quả.
- Trong tổng hợp theo nhóm, tập tài liệu được chia vào các cụm không chồng chéo, mỗi cụm được giả sử là thảo luận về một chủ đề. Tuy nhiên, trong một thế giới thực tập hợp các đánh giá, các chủ đề thường bị trùng lặp với nhau và không hoàn toàn được phân bố trong các các cụm tài liệu không chồng chéo
nhau. Mỗi chủ đề có liên quan đến các đánh giá khác nhau. Tương tự như vậy, mỗi đánh giá trong một tập các thảo luận về một số chủ đề thay vì chỉ một chủ đề, bởi vì khách hàng thường nhận xét về các khía cạnh khác nhau của một sản phẩm hơn là chỉ tập trung vào một khía cạnh.
Để giải quyết những hạn chế của phương pháp tổng hợp theo nhóm, luận văn này tập trung vào cách tiếp cận tổng hợp dựa trên cấu trúc chủ đề của các đánh giá.
3.3. Tóm tắt dựa trên cấu trúc chủ đề
Như đã trình bày, tóm tắt đa văn bản thực hiện theo phương pháp tiếp cận tổng hợp theo nhóm là yếu để xử lý các cấu trúc trong một tập các tài liệu, ví dụ các chủ đề hoàn toàn không được phân phối trong các cụm không chồng chéo nhau của các tài liệu. Thực trạng này là cấp thiết hơn trong các đánh giá trực tuyến của khách hàng, từ những bài viết đánh giá thường được viết theo một phong cách tuỳ hứng và hướng tới sự bao quát các chủ đề khác nhau. Trong luận văn này, tôi xin trình bày cách tiếp cận tổng hợp dựa trên cấu trúc chủ đề. Cấu trúc chủ đề bao gồm một danh sách các chủ đề quan trọng được lựa chọn từ một tập tài liệu. Cấu trúc chủ đề này được thiết kế để phản ánh các tình huống trong thế giới thực, nghĩa là mỗi chủ đề có thể xuất hiện trong các đánh giá khác nhau và mối đánh giá có thể được liên kết với các chủ đề khác nhau.
Các bước chi tiết của hướng tiếp cận này bao gồm:
3.3.1. Quá trình tiền xử lý dữ liệu (Pre-processing)
Quá trình tóm tắt bắt đầu với đầu vào là một tập hợp các đánh giá về một sản phẩm của khách hàng. Những đánh giá này được thu thập từ World Wide Web hoặc lấy từ mạng cục bộ, ví dụ như tất cả các email khách hàng liên quan đến một sản phẩm. Các bước tiền xử lý bao gồm: tách câu, tách từ, gán nhãn từ loại, loại bỏ những câu không hợp lệ (không phải là câu thực sự) và biểu diễn câu trên không gian vectơ. Kết quả của bước tiền xử lý ta thu được danh sách các mục từ chính.
3.3.2. Xác định chủ đề (Topic Identification).
Bước quan trọng trong cách tiếp cận này là xác định các chủ đề có ý nghĩa trong một tập các đánh giá và tạo ra các cấu trúc chủ đề dựa trên các chủ đề này. Một phương pháp tiêu biểu là phân đoạn văn bản, là phương pháp dựa trên sự giống nhau của các đoạn liền kề và phát hiện ranh giới của các chủ. Phương pháp này hoạt động tốt cho một tài liệu. Tuy nhiên, đối với nhiều tài liệu thì lại rất khó để tìm ra các ranh giới như vậy.
Quá trình xác định chủ đề dựa vào trật tự thường xuyên của các từ (Frequent word Sequences - FS) và các lớp tương đương. Một FS là một trật tự
các từ xuất hiện trong ít nhất là tài liệu đặt trong một tập tài liệu ( là ngưỡng hỗ trợ các tài liệu). Thuật toán 1 chỉ ra quá trình để trích xuất tất cả các FSs trong một tập tài liệu. Quá trình này bắt đầu với việc thu thập tất cả các cặp từ thường xuyên, nghĩa là FSs với độ dài là 2. Những FSs sau đó được mở rộng với một từ nữa và tạo thành một dãy các FSs với với độ dài là 3. Tất cả các FSs với độ dài là 3 sau đó lại được mở rộng. Quá trình này được thực hiện cho đến khi không còn FS để mở rộng. Các ngưỡng hỗ trợ tài liệu được chọn dựa vào kích thước của tập tài liệu. Đối với một tập tài liệu có kích thước vừa phải, lựa chọn một ngưỡng thấp để cho phép các khái niệm bề ngoài quan trọng hơn. Đối với một tập lớn, một ngưỡng cao hơn có thể được xem xét để làm giảm các thông tin không cần thiết.
Thuật toán 1. Phát hiện ra tất cả các FSs trong một tập các tài liệu
Đầu vào: D: một tập các văn bản đã được tiền xử lý, : một tần số ngưỡng Đầu ra: Fs: một tập các trật tự thường xuyên của các từ
/ /Pha khởi tạo: tập hợp tất cả các cặp từ thường xuyên
Thuật toán 1: Tìm ra tất cả các FSs trong 1 tập các tài liệu.
FSs có thể bị lược bớt hơn nữa và được nhóm lại thành các lớp tương đương dựa vào vị trí của nó. Các lớp tương đương được tạo ra theo cách sau: Lấy A và B là 2 FSs. Lớp tương đương của A, kí hiệu là EqA, bao gồm 1 tập các FSs mà cùng xuất hiện với A trong hầu hết các tập cùng đánh giá đã cho với 1
tham số tin cậy. DetA là 1 tập hợp của FSs được xác định bởi A. Với A và B, nếu:
thì ta thêm B vào tập DetA, A cũng được thêm vào DetA. Các FSs khác cũng được kiểm tra theo cách như vậy và cũng được thêm vào DetA nếu thoả mãn các tiêu chuẩn ở trên. Theo cách ở trên, EqA được tạo ra từ tất cả các FSs X mà DetX=DetA.
Sau khi tất cả FSs được chọn ra, chúng sẽ được phân nhóm vào các lớp tương đương dựa vào vị trí xuất hiện trước của chúng trong mỗi câu ở trong tập đánh giá. Mọi ứng cử viên FSs xuất hiện trong cùng một tập đánh giá sẽ được phân nhóm vào trong một lớp tương đương.
Một FS hoặc một lớp tương đương được coi như là một đại diện của một chủ đề trong một tập đánh giá. Các chủ đề được xếp hạng dựa vào điểm số của chúng. Các điểm số của một FS được tính theo công thức dưới đây. Điểm số của một lớp tương đương bằng với điểm số trung bình của các FSs.
trong đó:
f là tần số của FS trong tập đánh giá, N là tổng số đánh giá,
n là số các đánh giá mà có FS xảy ra, l là chiều dài của FS.
Hình 4 dưới đây cho thấy một số chủ đề đã được xếp hạng được trích ra từ một tập các đánh giá về điện thoại Nokia và các chỉ mục (IDs) đánh giá tương ứng đối với các chủ đề này.
- Chất lượng âm thanh 8,13,18,20,27,33,34,40 - Tuổi thọ pin 2,5,18,26,28,29,30,37
- Điện thoại nắp gập 4,18,26,33 - Điện thoại Nokia 2,18,31 - Điện thoại Samsung 18,40
Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia