3.3. Tóm tắt dựa trên cấu trúc chủ đề
3.3.4. Bƣớc xử lý cuối cùng và trình bày bản tóm tắt
Bước cuối cùng là tạo lại câu từ các câu ứng cử viên và đưa ra bản tóm tắt cho người dùng.
Hình 5 dưới đây là một ví dụ của bản tóm tắt được đưa ra cho người đọc. (7)
Hình 5: Bản tóm tắt cuối cùng
Các chủ đề đã được xếp hạng theo sự nổi trội của chúng trong tập đánh giá. Các đánh giá có liên quan đến từng chủ đề đã được xác định và được tạo siêu liên kết với ID của chúng được đặt trong ngoặc theo cụm chủ đề để người sử dụng dễ dàng xem chi tiết về mỗi bài viết đánh giá. Nếu người sử dụng quan tâm đến một chủ đề cụ thể, họ có thể nhấp nút mở rộng trước cụm từ chủ đề để mở rộng chủ đề này và xem được các thông tin chi tiết.
Trong hình trên, chủ đề “Màu sắc” được mở rộng và tất cả những câu có liên quan đến chủ đề này được hiển thị cùng với ID đánh giá của chúng.
Chƣơng 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1. Môi trƣờng thử nghiệm
Phần cứng:
- CPU: Intel Pentium Dual – Core E2160
- Memory: 1GB DDR3
Phần mềm:
- Hệ điều hành: Window XP SP3
- Phần mềm JvnTextpro của tác giả Nguyễn Cẩm Tú để tách từ, tách câu các văn bản.
- Phần mềm Microsoft Visual Basic 2008.
4.2. Dữ liệu thử nghiệm
Tập hợp các dữ liệu thu thập được từ việc đánh giá về sản phẩm là điện thoại Nokia của 70 sinh viên khoa Báo chí trường Cao đẳng Phát thanh truyền hình 1:
1. Chất lượng âm thanh của điện thoại này là rất tuyệt vời.
2. Tôi đã từng ao ước có một chiếc điện thoại Nokia nắp gập.
3. Trong số các điện thoại Nokia, điện thoại Nokia nắp gập tốt hơn nhiều bởi vì :
Bạn sẽ khó có thể làm xước màn hình hay bàn phím.
Bạn không cần phải khóa điện thoại vào mọi lúc để ngăn sự nhấn phím một cách vô tình .
4. Cá nhân tôi thích các điện thoại Samsung hơn bởi vì tôi đã thấy chính mình hợp
với điện thoại nắp gập.
5. Hai chiếc điện thoại trước của tôi đều là điện thoại nắp gập và tôi đã bắt đầu
thấy chán chúng.
6. Nokia là chiếc điện thoại đầu tiên của tôi mà không phải phải là điện thoại nắp
gập và tôi rất vui vì đã quyết định sử dụng nó.
7. Tôi không có đủ kiên nhẫn để xử lý những rắc rối của điện thoại nắp gập.
8. Có thể nói đây là một máy ảnh tốt với hình ảnh rõ ràng.
9. Những hình ảnh hoàn toàn tuyệt vời - máy ảnh chụp tỉ mỉ đến từng chi tiết.
10.Sau gần 800 bức ảnh, tôi đã phát hiện ra rằng máy ảnh này chụp được những
hình ảnh rất tuyệt vời.
11.Trong quá trình chụp ảnh, nếu bạn run tay khi chụp thì hình ảnh sẽ bị mờ.
12.Trong số các điện thoại tôi đã từng sử dụng, điện thoại Nokia có thực đơn dễ sử
dụng nhất.
13.Nokia là điện thoại có thực đơn dễ sử dụng nhưng tuổi thọ pin không cao.
14. Kích thước của điện thoại Nokia là rất nhỏ gọn, tôi có thể bỏ gọn trong chiếc
15. So với những điện thoại trước đây tôi đã dùng, điện thoại Nokia có trọng lượng nhẹ hơn cả.
16. Tôi là người mới biết sử dụng điện thoại nhưng Nokia có thực đơn rất dễ, thuận tiện cho những người mới như tôi.
17. Tôi thích điện thoại Samsung vì nó có màn hình cảm ứng.
18. Đối với tôi, sử dụng Nokia để lướt web là rất chậm, nhưng nhắn tin thì lại dễ
dàng.
19.Với công việc của tôi, việc sử dụng điện thoại để liên lạc là rất cần thiết. Tôi sử dụng Nokia vì chất lượng âm thanh của nó rất tốt
20.Tôi đã sử dụng Nokia 4 năm nay và tôi nhận thấy rằng Nokia có nhiều tiện ích
hơn so với điện thoại các hãng khác, pin dùng được rất lâu nhưng đôi khi chất lượng âm thanh không được hay khi nghe nhạc.
21. Tôi thích dùng Nokia vì pin của nó rất bền.
22. Đối với tôi, sử dụng Tiếng Việt với Nokia khó hơn là sử dụng tiếng Anh.
23. Với tôi, chất lượng âm thanh của Nokia không phù hợp cho việc nghe nhạc. Hơn nữa, Nokia rất hay bị lỗi phần mềm.
24. Tôi thích sử dụng Nokia vì tính năng message thực hiện rất đơn giản, nhanh
chóng.
25. Với tôi, kiểu dáng và màu sắc điện thoại là rất quan trọng nhưng Nokia chưa
đáp ứng được điều này.
26. Tôi sử dụng Nokia vì nó có giá cả phù hợp với túi tiền của tôi và công việc của
tôi.
27. Tôi đang sử dụng điện thoại HTC, tôi thấy kiểu dáng của Nokia không đẹp, giá
cả quá cao.
28. Khi chụp ảnh, hình ảnh hay bị nhoè khi tay bị di chuyển.
29. Tôi rất hay nhắn tin nên tôi lựa chọn Nokia vì bàn phím của nó gần giống với
bàn phím của máy vi tính.
30. Chất lượng âm thanh của dòng điện thoại này rất tốt nhưng loa không nghe ở
mức to được, nếu nghe to âm thanh sẽ bị rè.
31. Tôi rất thích điện thoại Nokia nắp gấp vì tôi không lo bị xước màn hình.
32. Với tôi, một số tính năng: nhắn tin, chụp ảnh là rất tốt, tuy nhiên, Nokia rất
hạn chế trong việc lướt web.
33.Tôi đang dùng 3 điện thoại của 3 hãng khác nhau, nhưng tôi thích Nokia hơn
cả vì pin của nó dùng được rất lâu, nhắn tin nhanh.
34. Do điều kiện kinh tế, nên để tiện việc liên lạc với gia đình và bạn bè, tôi chọn Nokia vì giá thành của nó rẻ, phù hợp với điều kiện kinh tế của gia đình. Hơn nữa, nó cũng đầy đủ các chức năng cần thiết.
35. Giá cả của Nokia rất phù hợp với sinh viên chúng tôi. Thêm nữa, nó rất nhẹ,
36. Tôi không thích dòng máy Nokia vì nó chỉ dùng được 1 sim trong khi tôi có rất nhiều sim.
37. Tôi đã sử dụng nhiều dòng máy khác nhau nhưng tôi thấy Nokia có pin rất bền,
giá cả hợp túi tiền.
38. Tuy kiểu dáng của Nokia là không nổi bật nhưng được người tiêu dùng lựa chọn nhiều do giá cả hợp lý.
39. Nokia rất phù hợp với phái nữ vì trọng lượng của nó nhẹ, kiểu dáng đơn giản.
40. Tôi không thích sử dụng điện thoại nắp gập bởi vì lúc nào tôi cũng sợ nó bị đứt
cáp nếu máy bị rơi.
41.Tôi đã dùng nhiều sản phẩm của Nokia và tôi nhận thấy chất lượng âm thanh
của nó rất tốt nhưng chức năng từ chối cuộc gọi rất khó thực hiện so với điện thoại của các hãng khác.
42.Với tôi, Nokia có nhiều tiện ích hơn so với các dòng sản phẩm khác, độ bền cao, giá cả lại bình dân.
43.Tôi đã dùng rất nhiều các dòng điện thoại nhưng tôi thấy giá cả của Nokia là
hợp với túi tiền của tôi, thực đơn của nó rất dễ sử dụng.
44. Tuy kiểu dáng của Nokia là không được đẹp nhưng thực đơn sử dụng lại rất
thông minh, chất lượng âm thanh rất tốt.
45. Nokia có nhiều dòng điện thoại mà giá cả của nó phù hợp với túi tiền của sinh
viên. Tuy nhiên, tôi lại rất thích gam màu nóng vì nó tạo nên cá tính của tôi. Màu sắc của Nokia không đẹp, không bắt mắt.
46. Tôi bị cận thị nặng, tôi không thích dùng Nokia vì màn hình của nó rất nhỏ so
với các dòng điện thoại khác.
47. Tôi không thích điện thoại nắp gập vì sử dụng nó không tiện lợi khi đang đi tàu
xe mà có ai gọi tới.
48. Tôi sử dụng Nokia vì tiện ích nhắn tin của nó rất nhanh, tìm người trong danh
bạ liên lạc cũng rất nhanh.
49. So với các hãng khác, Nokia được ưa chuộng hơn do giá cả hợp lý, thực đơn
sử dụng đơn giản, pin bền.
50. Tôi không chọn Nokia vì nó chỉ cho phép dùng 1 sim. Khi muốn dùng sim khác
lại phải tắt máy, thay sim rất mất thời gian, bất tiện.
51. Kiểu dáng và màu sắc của Nokia không đẹp và đa dạng như những điện thoại
của các hãng khác nhưng độ bền của pin thì Nokia là hơn hắn.
52. Một số dòng máy của Nokia có kích thước quá to, không phù hợp với phái nữ.
53.Nokia là dòng sản phẩm được nhiều người ưa chuộng bởi vì giá cả phù hợp, sử
dụng đơn giản. Thêm nữa, chất lượng âm thanh và độ bền của pin lại rất tốt.
54. Tôi thích điện thoại Nokia ngay từ đầu bởi vì hình ảnh của nó rất sắc nét, âm
thanh tốt. Tuy nhiên, bàn phím của nó khá cứng nên hơi bất tiện khi nhắn tin hay gửi mail.
55. Tôi đã dùng chiếc điện thoại này được 2 năm. Nó rất bền,có nhiều tính năng và giao diện lại rất đẹp.
56. Với tôi, Nokia có mức âm thanh hơi nhỏ, màu sắc sản phẩm quá ít để lựa chọn.
57. Một số dòng máy có chất lượng hình ảnh rất tốt không khác gì hình ảnh chụp
bằng máy ảnh kỹ thuật số.
58.Tôi rất thích chiếc điện thoại Nokia tôi đang dùng vì pin dùng được rất lâu, có
nhiều tiện ích sử dụng.
59. Tôi đang dùng chiếc Nokia nắp trượt. Tôi thấy nó rất hoàn hảo về màu sắc và
kiểu dáng. Nó rất thích hợp với phong cách của tôi.
60. Tôi thích Nokia và sử dụng nó vì giao diện đẹp, thực đơn rất dễ sử dụng.
61. Tôi đang sử dụng chiếc điện thoại màn hình cảm ứng. Rất tuyệt vời vì có sự kết
hợp giữa màn hình cảm ứng và bàn phím thông thường. Hơn nữa, tôi truy cập các trang web rất nhanh, âm thanh rất tốt.
62. Tôi là người rất thích chụp ảnh. Tôi thấy hài lòng khi sử dụng điện thoại Nokia
để chụp. Hình ảnh của nó rất sắc nét, khi rửa ảnh thì hình ảnh không bị vỡ.
63. Gia đình tôi không có điều kiện về kinh tế nên chúng tôi lựa chọn Nokia vì giá
cả của nó phù hợp với túi tiền. Hơn nữa, nó cũng có đầy đủ các chức năng cần thiết.
64. Tôi đang sử dụng một chiếc điện thoại Nokia. Chiếc điện thoại này rất nhẹ, giá
lại rẻ, có nhiều trò chơi.
65. Mắt tôi bị cận thị rất nặng. Do đó, tôi cần dùng loại điện thoại có kích cỡ màn
hình lớn. Nokia chưa thuyết phục tôi được vì lý do này.
66. Với sinh viên như tôi, Nokia là sự lựa chọn tốt nhất vì giá cả của nó rất hợp lý mà vẫn có những chức năng cơ bản.
67.Điện thoại Nokia không gây được sự chú ý với người dùng về kiểu dáng, màu
sắc. Tuy nhiên, những tính năng bên trong thì rất tuyệt vời, thực đơn rất đơn giản, dễ sử dụng.
68.Tôi đang sử dụng chiếc điện thoại cảm ứng. Để đảm bảo độ chính xác, người
dùng cần sử dụng máy với cả 2 tay. Thật là phiền phức khi đang lái xe.
69.Tôi chỉ sử dụng điện thoại thông thường, không sử dụng kiểu nắp trượt hay nắp
gập vì tôi rất sợ nó bị hỏng khi bị rơi.
70.Tôi đã sử dụng qua nhiều đời máy điện thoại, nhưng tôi luôn chọn điện thoại
của hãng Nokia vì tôi đã quen với việc sử dụng menu của nó.
4.3. Quá trình thử nghiệm
Quá trình thử nghiệm được chia làm các giai đoạn:
- Giai đoạn 1: Tiền xử lý dữ liệu đầu vào nhờ công cụ Phần mềm JvnTextpro. Sau khi tiền xử lý sẽ loại bỏ những được những câu không hợp lệ (không phải là câu thực sự).
- Giai đoạn 2: Xác định danh sách các mục từ chính.
- Giai đoạn 3: Xác định những câu đánh giá tương ứng với các mục từ chính.
4.4. Kết quả thử nghiệm
4.4.1. Kết quả xác định danh sách các mục từ chính:
4.4.2. Bản tóm tắt cuối cùng
Hình 7: Kết quả thử nghiệm của bản tóm tắt
4.5. Đánh giá thử nghiệm
Hiệu suất của tóm tắt được so sánh với phương pháp khai thác và tổng hợp ý kiến theo nhóm. Các bộ dữ liệu được sử dụng trong thử nghiệm bao gồm năm bộ từ corpus Hu's (Hu & Liu, 2004b) và ba bộ từ Amazon.com. Những bộ tài liệu có kích cỡ vừa phải với 40-100 tài liệu trong một tập hợp. Một ví dụ về đầu ra của khai thác ý kiến được cho trong hình 1. Bản tóm tắt được tạo ra bằng cách tổng hợp theo cụm được phân chia thành các cụm, như trong hình 8(chỉ có ba cụm được hiển thị tại đây). Bản tóm tắt được tạo ra bởi cách tiếp cận dựa trên các chủ đề được trình bày dưới dạng của hình 5.
Hình 8: Bản tóm tắt được tạo ra bằng phương pháp tóm tắt dựa vào phân cụm trên tập các đánh giá về điện thoại Nokia.
Hiệu suất tóm tắt được đánh giá theo phản ứng của người dùng. Người dùng đã yêu cầu đưa ra một điểm số cho mỗi bản tóm tắt dựa trên nội dung của nó và phạm vi bao hàm của các chủ đề quan trọng trong tập hợp các đánh giá. Các điểm số là một số nguyên giữa 1 và 5, với 1 là đáp ứng thấp nhất và 5 là đáp ứng cao nhất. Để giảm thiểu sự thiên vị trong việc đánh giá, ba người khác nhau đã tham gia vào quá trình ghi điểm. Đối với một tập hợp, tất cả các bản tóm tắt được đánh giá bởi cùng một người. Vì vậy, quá trình kiểm tra giả thiết (cặp kiểm tra t – paired t-test) có thể được thực hiện để so sánh các bản tóm tắt.
Ở trong bảng 1 đưa ra điểm số đáp ứng mức trung bình của việc khai thác ý kiến theo cách tổng hợp theo cụm và phương pháp tiếp cận sử dụng FSs và lớp tương đương như các chủ đề trên tất cả các tập hợp đánh giá. Bảng 2 đưa ra so sánh kết quả của cặp kiểm tra t (paired t-test) giữa phương pháp tiếp cận sử dụng
FSs như là các chủ đề và các phương pháp khác. So sánh giữa FSs và các lớp tương đương cũng được trình bày trong Bảng 2.
Có thể thấy rằng cách tiếp cận dựa trên cấu trúc chủ đề thực hiện tốt hơn đáng kể so với các phương pháp khác (Bảng 1 và 2). Chất lượng theo cụm của tập các đánh giá của khách hàng cũng được phân tích trong thử nghiệm này. Như thể hiện trong Bảng 1 và 2 còn cho thấy: bằng cách sử dụng FSs như là chủ đề tốt hơn đáng kể so với lớp tương đương với giá trị của p-value = 0,0008 trong cặp kiểm tra t. Người viết đánh giá thường viết theo một phong cách tuỳ hứng và khám phá ra được các chủ đề khác nhau trong một đánh giá (các chủ đề này có thể có ít mối quan hệ hợp lý với các chủ đề khác). Do đó, bằng cách sử dụng các lớp tương đương có thể đưa ra được nhiều những thông tin nhiễu trong miền các đánh giá của khách hàng, khi các lớp tương đương nhóm lại thành các chủ đề dựa trên sự xuất hiện cùng nhau của chúng.
Bảng 3 cho thấy sự tương tự của các cụm bên trong và các liên cụm cho một tập các đánh giá về điện thoại Nokia. Có thể thấy rằng, không có nhiều sự khác biệt giữa nội cụm tương tự và liên cụm tương tự , đặc biệt cho các cụm 4 và 5 là hai cụm chính trong tập hợp này. Như vậy, trong thế giới thực các tập đánh giá, việc phân nhóm thành các cụm không chồng chéo là rất khó khăn.
Trong thử nghiệm trên, với mỗi tập tài liệu thì tạo ra các bản tóm tắt dựa trên Top 10 chủ đề nổi bật. Số lượng các chủ đề trong các bản tóm tắt có lẽ sẽ ảnh hưởng đến hiệu suất tổng hợp, đó cũng tương tự như khái niệm về tỉ lệ nén trong tổng hợp. Một tóm tắt quá ngắn bỏ qua rất nhiều thông tin hữu ích, trong khi tóm tắt quá dài sẽ tốn rất nhiều thời gian đọc nó. Hệ thống tóm tắt nên tìm ra
đọc bản tóm tắt là giảm đến tối thiểu. Trong trường hợp này, rất cần thiết để tìm một số lượng tối ưu của các chủ đề trong phần tóm tắt. Vì vậy, số lượng các chủ