Chức năng Watch Later của Youtube

Tính năng này được gọi là “Đọc sau” (Read later) trong xenoNews:

o Giúp cho quá trình duyệt tin của người dùng hiệu quả và tiết kiệm thời gian hơn.

o Các tin này được hệ thống ngầm xác định là người dùng “cĩ quan tâm”, dù họ chưa thực sự đánh giá, và cập nhật vào CSDL. Qua đĩ, thu thập thêm được nhiều tin tức thuộc sở thích của người dùng.

Tĩm lại, giao diện và các chức năng trong phần front-end của hệ thống gợi ý tin tức xenoNews lấy người dùng làm trung tâm, với mong muốn thu thập được nhiều phản hồi từ người dùng, tăng hiệu quả gợi ý của hệ thống.

Chương 4: Các thử nghiệm và kết quả

Trong chương này, tơi sẽ báo cáo về các thử nghiệm được thiết kế nhằm đánh giá hiệu quả gợi ý tin tức (cụ thể hơn là khả năng mơ hình hố độc giả sử dụng Hồ sơ người dùng lai – Hybrid User Profile), thu thập phản hồi người dùng (bao gồm phản hồi trực tiếp từ người dùng và phản hồi ẩn dựa trên thời gian đọc tin). Đầu tiên, tơi sẽ trình bày về độ đo được dùng trong thử nghiệm. Tiếp theo, tơi sử dụng độ đo này để đánh giá hiệu năng hệ thống và phân tích sự đĩng gĩp của từng phần. Kết quả thử nghiệm cũng sẽ chỉ ra rằng Hồ sơ người dùng lai hoạt động hiệu quả hơn so với từng mơ hình ngắn hạn, dài hạn riêng biệt. Ngồi ra, khả năng của cơ chế phản hồi time-coded cũng sẽ được đánh giá.

4.1 Các độ đo và Quá trình chuẩn bị thử nghiệm

4.1.1 Các độ đo dùng để đánh giá

Đối với một hệ thống mà hiệu quả hoạt động phụ thuộc vào phản hồi, đồng thời cĩ sự tương tác thường xuyên

Đánh giá hiệu năng tồn bộ hệ thống đã xây dựng là khĩ trong trường hợp của hệ thống gợi ý tin tức tiếng Việt xenoNews, vì các lý do chính sau:

- Khơng cĩ bộ dữ liệu chuẩn để tính tốn hiệu năng, so sánh các thuật tốn

- Hồ sơ người dùng cố gắng mơ hình hố sở thích của độc giả. Thế nhưng “sở thích” ở đây chỉ mang tính tương đối. Sở thích mỗi người khơng phải là bất biến, và

thống nhất. Do đĩ, một người duyệt cùng một danh sách tin, vào những thời điểm

khác nhau, cĩ thể cho kết quả đánh giá khác nhau.

- Các phương pháp đánh giá chuẩn trong học máy, như đánh giá chéo (n-fold cross-

validation) khơng áp dụng được cho ngữ cảnh hệ thống này. Nguyên nhân chủ yếu

là do đặc tính cĩ thứ tự thời gian của tin tức. Do vậy, với dữ liệu dạng này, sử dụng độ đo trên sẽ gây biến dạng lớn tới kết quả.

- Phân phối của các tin tức là khơng đều, ví du: mỗi ngày, lượng tin bài cho các chuyên mục khác nhau rất khác nhau.

Trong bài tốn phân loại, cĩ một độ đo thơng dụng là Accuracy (tạm dịch là „Độ

đúng đắn’, để phân biệt với „Độ chính xác‟ - Precision), ví dụ: Accuracy được tính bằng

tỉ lệ các tin được phân lớp đúng. Tuy nhiên, tơi khơng sử dụng độ đo này, bởi vì nĩ khơng phản ảnh được hiệu quả hệ thống đang xét. Cĩ thể hình dung vấn đề của độ đo Accuracy như sau. Do tỉ lệ các tin “khơng liên quan” (đến sở thích đọc của người dùng) cao hơn nhiều so với tỉ lệ các tin “cĩ liên quan”, nếu một bộ phân lớp coi tất cả tin tức đều là “khơng liên quan”, thì cĩ thể dễ dàng đạt Độ đúng đắn cao hơn những bộ phân lớp chỉ cĩ thể xác định đúng vài bài viết “cĩ liên quan” đến người dùng. Do vậy, Precision (Độ

chính xác) và Recall (Độ hồi tưởng) trong Thu thập thơng tin (IR) được dùng làm thước

đo đánh giá hệ thống. Cụ thể trong trường hợp của xenoNews, độ chính xác là phần trăm các tin bài được hệ thống đánh giá là “cĩ liên quan” (gợi ý ra cho người dùng), sau đĩ được người dùng phản hồi là gợi ý chính xác. Cịn độ hồi tưởng là phần trăm các bài báo người dùng cho là “cĩ liên quan” (đến sở thích, đặc điểm đọc của họ), đồng thời hệ thống cũng đã đưa vào kết quả gợi ý cho người dùng đĩ.

Cần phải đánh giá Độ chính xác và Độ hồi tưởng song song với nhau, do việc nâng cao từng độ đo riêng biệt là dễ. Một bộ phân lớp hữu ích cho các mục đích gợi ý cần phải đưa ra được nhiều đối tượng thơng tin thực sự phù hợp cho người dùng (tối ưu độ hồi tưởng), với độ chính xác cao (tối ưu độ chính xác). Để hợp nhất hai giá trị này, Lewis và cộng sự Gale đã đề xuất độ đo F-measure, một giá trị kết hợp cĩ trọng số giữa Precision và Recall, khoảng giá trị từ 0 đến 1. Các kết quả báo cáo trong luận văn này coi Độ chính xác và Độ hồi tưởng cĩ tầm quan trọng như nhau. Từ đĩ, ta cĩ cơng thức F1 được định nghĩa như sau:

1 2 precision recall F precision recall    

4.1.2 Quá trình chuẩn bị thử nghiệm

- Dữ liệu:

Thu thập tin tức là module (nằm trong Back-end) được xây dựng đầu tiên của hệ

thống. Và trong suốt thời gian trước khi các thử nghiệm được tiến hành (quá trình nghiên cứu khố luận, lập trình hệ thống), module này đã thu thập được trên 40.000 bài báo thuộc 8 chuyên mục lớn (xem Bảng 3.1), từ nhiều báo điện tử khác nhau: VietnamNet, Dân trí, Tinh tế, Genk, Người Lao Động, Tiền phong, Zing News, iOne, …

- Chuẩn bị Bộ phân loại (Module gợi ý trong Back-end): các tin tức đã thu thập kể trên được dùng làm dữ liệu hiệu chỉnh trong quá trình lập trình hệ thống; và để xác định các tham số của mơ hình ngắn hạn, cũng như dài hạn trong hồ sơ người dùng. Cần lưu ý rằng, dữ liệu dùng trong các thử nghiệm sau khơng nằm trong tập dữ liệu hiệu chỉnh.

4.2 Hiệu quả gợi ý của Hồ sơ người dùng kết hợp

Để đánh giá kết quả gợi ý và phân tích sự đĩng gĩp của từng phần, thử nghiệm này được tiến hành như sau. Cĩ 10 người được mời tham gia thử nghiệm trong thời gian 8 ngày. Hằng ngày, mỗi người cĩ quyền xem tất cả các tin tức mới hệ thống thu thập được và đánh giá về các tin họ xem (cĩ thể là sau khi đọc chi tiết, hoặc chỉ qua tiêu đề, ảnh, mơ tả ngắn trong danh sách tin). Sau quá trình huấn luyện hệ thống này, tơi thu được khoảng hơn 4000 đánh giá, tức là trung bình một người đánh giá khoảng 50 tin mỗi ngày. Mặc dù lượng dữ liệu này cĩ thể khơng ước lượng được chính xác hiệu quả tổng thể của hệ thống khi cĩ nhiều người dùng hơn, và phân phối tin tức mỗi ngày lại thay đổi. Nhưng nĩ vẫn cho phép chúng ta cĩ thể biết được Hồ sơ người dùng kết hợp cĩ hoạt động hiệu quả như mong muốn khơng, và cũng phân tích được tỉ lệ đĩng gĩp của mơ hình ngắn hạn, dài hạn vào hiệu năng tổng thể.

Trong thử nghiệm này, ta khơng cĩ các luật người dùng tự mơ tả. Bởi vì, số lượng các luật này là thơng tin tuỳ chọn, và nếu được khai báo thì cũng rất khác nhau với mỗi người, về số lượng và tính hiệu quả của luật (vì phụ thuộc vào các từ khố được chọn, cũng như cách thức người sử dụng kết hợp chúng). Hoặc cũng cĩ thể được hiểu đơn giản là trong thời gian đầu sử dụng, người dùng chưa cĩ nhu cầu khai báo luật tự mơ tả nào.

Tiến hành quá trình đánh giá: dữ liệu đánh giá của mỗi người được chia thành các

phiên huấn luyện, mỗi phiên tương ứng với một ngày. Ban đầu, hệ thống được huấn luyện

bằng tất cả các ví dụ đánh giá của phiên đầu tiên, kết quả gợi ý được so sánh với nhãn lớp đánh giá của người dùng trong phiên đánh giá thứ hai. Sau đĩ, dữ liệu huấn luyện được tăng lên theo từng phiên, và tơi lại tiến hành đánh giá hiệu quả hệ thống trong các phiên tiếp theo. Cuối cùng, tơi sử dụng giá trị trung bình trên tất cả 10 người dùng. Phương pháp thử nghiệm này mơ tả cách thức hệ thống hoạt động trong thực tế. Kết quả thu được từ thử nghiệm này được thể hiện trong Bảng 4.1.

Bảng 4.1: Bảng số liệu trung bình trên tất cả người dùng, sau mỗi phiên huấn luyện

Precision Recall F1

S-T L-T Hybrid S-T L-T Hybrid S-T L-T Hybrid 1 72.6 28.8 51.9 26.2 17.0 32.1 38.5 21.4 39.7 2 70.1 32.7 72.1 41.5 36.7 48.8 52.1 34.6 58.2 3 74.6 41.2 75.5 53.0 58.3 57.7 62.0 48.3 65.4 4 80.2 40.6 83.0 59.6 66.9 61.1 68.4 50.5 70.4 5 76.9 38.2 78.1 58.6 71.4 61.3 66.5 49.8 68.7 6 83.1 66.8 86.8 56.3 63.9 61.4 67.1 65.3 71.9 7 85.8 67.7 87.7 54.8 72.0 61.5 66.9 69.8 72.3

Đồ thị 4.1: Sự biến đổi các độ đo Precision, Recall, F1 sau từng phiên huấn luyện

– được xây dựng từ dữ liệu trong các ơ kẻ nét đứt của Bảng 4.1. Qua Đồ thị 4.1, ta cĩ thể nhận thấy sự thay đổi tích cực của Precision và Recall sau các phiên huấn luyện, do vậy, giá trị đo F1 cũng được cải thiện.

Trong Đồ thị 4.2, tơi sử dụng độ đo F1 để biểu diễn hiệu năng hoạt động của hệ thống dưới dạng hàm của các phiên huấn luyện (sử dụng phần dữ liệu được tơ xám trong

Bảng 4.1). Đồ thị thể hiện sự tăng nhanh chĩng hiệu quả phân loại ngay từ những phiên

đầu tiên, rồi sau đĩ dao động, do ảnh hưởng của phân phối tin tức khác nhau của mỗi ngày. Đồ thị cũng thể hiện được tương quan khả năng của hai mơ hình thành phần trong Hồ sơ người dùng. Như đã dự đốn từ trước, hướng tiếp cận sử dụng Hồ sơ dạng kết hợp mơ hình ngắn hạn và dài hạn hiệu quả hơn từng hướng riêng lẻ, dựa trên kết quả độ đo F1. Nghiên cứu kỹ hơn kết quả thu được, tơi cũng nhận thấy mơ hình ngắn hạn cĩ xu hướng đạt độ chính xác Precision cao hơn, nhưng độ hồi tưởng Recall nhỏ hơn. Ngược lại, mơ hình dài hạn lại cĩ độ hồi tưởng cao hơn mơ hình ngắn hạn, nhưng độ chính xác nhỏ hơn. Việc sử dụng cả hai mơ hình cho phép tận dụng ưu thế của cả hai, kết quả là giúp cho F1 đạt các giá trị cao hơn.

Đồ thị 4.1: Sự biến đổi các độ đo Precision, Recall, F1 sau từng phiên huấn luyện

Do thời gian thử nghiệm là ngắn, nên hai mơ hình ngắn hạn, dài hạn cĩ thể được chưa đạt đến hiệu quả tốt nhất. Ví dụ, lịch sử của mơ hình ngắn hạn chưa đạt được số lượng tối đa các bài báo người dùng đọc gần đây; và mơ hình dài hạn cũng chưa cĩ đủ nhiều ví dụ huấn luyện để mơ hình hố được sở thích dài hạn của người dùng (vì thử nghiệm diễn ra trong 8 ngày, nên cho đến ngày cuối cùng của thử nghiệm, hệ thống mới chỉ cĩ dữ liệu phản hồi trong 7 ngày của độc giả).

4.3 Cơ chế phản hồi ẩn time-coded

Time-coded là cơ chế thu thập phản hồi ẩn (implicit feedbacks) cĩ vai trị rất quan

trọng trong xenoNews. Bởi vì nĩ cho phép hệ thống thu thập thêm được rất nhiều đánh giá của người đọc, một cách tự động.

Trong xenoNews, cĩ 2 ngưỡng thời gian được chọn sử dụng, vượt qua ngưỡng này, hệ thống tự xác định người dùng cĩ quan tâm đến nội dung bài viết:

- Các bài viết ngắn dưới 700 ký tự: giá trị ngưỡng time-coded là 22 giây. - Các bài viết cịn lại: 35 giây.

Để đánh giá hiệu quả của cơ chế này, một thử nghiệm nhỏ được tiến hành. Hệ thống lần lượt hiển thị từ bài báo đầu tiên họ đã đánh giá trong thử nghiệm trước. Hệ thống thơng báo cho người dùng biết: trước đây họ đã phản hồi như thế nào với bài viết đĩ (quan tâm, hoặc khơng quan tâm):

- Nếu trước đĩ kết quả đánh giá là “khơng quan tâm”, họ được yêu cầu bấm nút “Chuyển tới bài tiếp” ngay.

- Nếu phản hồi trước đĩ là “quan tâm”, họ được yêu cầu đọc bài viết như bình thường. Nhưng nếu họ vẫn chưa đọc xong đọc mà cơ chế time-coded đã đạt giá trị ngưỡng, hệ thống tự động nhảy sang bài báo tiếp theo. Người dùng vẫn cĩ quyền chuyển sang bài tiếp nếu họ đọc xong trước khi cơ chế time-coded đạt điều kiện cần.

Kết quả thử nghiệm được thể hiện trong Bảng 4.2.

Bảng 4.2: Kết quả đánh giá tự động của cơ chế phản hồi ẩn Time-coded

Predicted Negative Predicted Positive

2245 5 Positive Cases FN: user:“interesting”+xenoNew:”Irrelevant” 19 TP: user:“interesting”+xenoNew:”Relevant” 2089 Từ bảng trên, ta tính được: 2089 99.8% 2089 5 TP Precision TP FP      ; 2089 99.1% 2089 19 TP Recall TP FN     

Kết quả rất cao trên là dễ hiểu, bởi vì số lượng tin “siêu ngắn” (dưới 700 ký tự, tương đương 4-5 câu trong tiếng Việt) là ít, khi đĩ cĩ thể người dùng đã đọc xong nhưng thời gian đọc chưa đủ để time-coded quyết định bài viết đĩ cĩ nên đưa vào lớp “Relevant” hay khơng. Hơn nữa, cũng chỉ thi thoảng mới xảy ra trường hợp: tuy bài viết khơng được quan tâm nhưng hệ thống lại coi là “Relevant” – cĩ liên quan đến sở thích của người dùng, ví dụ: họ cĩ thể bị xao nhãng trong khi duyệt tin và khơng tắt bài viết, hay chuyển sang bài tiếp theo ngay.

Kết luận

Trong luận văn này, tơi đã trình bày về chức năng, thiết kế cũng như các thuật tốn của một hệ thống thích nghi - xenoNews, cĩ khả năng “học” được sở thích của người dùng thơng qua việc họ đọc tin tức hằng ngày, từ đĩ gợi ý các tin bài phù hợp trong những ngày tiếp theo. xenoNews sử dụng hướng tiếp cận dựa trên nội dung, đa-chiến- lược để mơ hình hố thơng tin ngắn hạn, dài hạn của độc giả một cách riêng biệt, kết hợp với các luật tự mơ tả của họ, tạo nên một Hồ sơ người dùng lai. Qua thử nghiệm, từng mơ hình đã thể hiện rõ vai trị của mình trong việc nâng cao hiệu năng tổng thể của hệ thống. Ngồi ra, tơi cũng đã nghiên cứu và sử dụng thĩi quen tương tác của người dùng để thiết kế website đọc tin – front-end của hệ thống. Một cơ chế thu thập phản hồi ẩn, tự động -

time-coded cũng được cài đặt và chứng tỏ sự hữu ích của mình, dựa trên kết quả thử nghiệm.

Nghiên cứu trong luận văn chỉ là bước đầu để xây dựng dịch vụ gợi ý tin tức, do vậy vẫn cịn nhiều vấn đề cần giải quyết. Phản hồi của người dùng, qua thời gian sử dụng dài đang tiếp tục được thu thập, nhằm đánh giá chính xác hơn hiệu quả của hệ thống. Bên cạnh đĩ, tơi cũng mong muốn nghiên cứu sâu hơn vấn đề thuật tốn xử lý, cũng như giao diện và chức năng website, nâng cao trải nghiệm cho người sử dụng.

Mặc dù bản mẫu hệ thống chọn lọc tin tức dựa trên nội dung của tơi hoạt động khá hiệu quả. Nhưng tơi tin rằng việc nghiên cứu các vấn đề sau, tích hợp thêm vào xenoNews sẽ giúp hệ thống hoạt động cịn tốt hơn nữa:

- Sử dụng thêm thơng tin hợp tác: hướng tiếp cận gợi ý dựa trên hợp tác tỏ ra khá

hứa hẹn, cĩ khả năng kết hợp với hệ thống hiện tại, tạo nên một hệ thống lai. Tuy nhiên để nghiên cứu và thử nghiệm thì hiện tại tơi cần thêm thời gian và lượng người sử dụng.

- Cơ chế thu thập phản hồi: như đã nĩi, phản hồi của người dùng đĩng vai trị đặc

biệt quan trọng trong hệ thống. Việc nghiên cứu thêm các cơ chế thu thập phản hồi ẩn (implicit feedbacks), đặc biệt là dạng phản hồi “khơng quan tâm” của người dùng sẽ được nghiên cứu kỹ hơn trong tương lai.

Phụ lục

Một số ảnh minh hoạ giao diện Website

Các đặc trưng riêng của tin tức

Hướng tiếp cận và Kiến trúc hệ thống