Mục ý kiến bạn đọc trên VNExpress

Người dùng có khả năng thể hiện quan điểm cá nhân về nội dung tin tức hoặc về ý kiến của một người dùng khác. Dù tình huống bình luận là như thế nào thì một nhận xét có thể đưa ra là người dùng thường đã đọc hết và kỹ nội dung của tin tức này.

Báo điện tử VNExpress cung cấp nhiều hình thức để truy cập như tạo tài khoản mới hay thông qua tài khoản Facebook, Gmail. VNExpress cho phép người dùng hoặc những người dùng khác xem lại hoạt động bình luận của họ.

Những thông tin người dùng có thể được trích xuất tự động thông qua công cụ thu thập những trang Web có cấu trúc dạng http://my.vnexpress.net/users/feed/<user id>. Thông tin sau khi lấy về bao gồm đường dẫn tin tức và nội dung bình luận của người dùng như bảng sau:

Bảng 2. Thông tin lịch sử hoạt động bình luận của ngƣời dùng

User ID Url Comment

1002764224

http://vnexpress.net/infographic/doanh- nghiep/viet-nam-co-vi-tri-nhu-the-nao- trong-tpp-3293259.html

Nhìn vào bảng chi tiết trên thấy Nhật và Singapore đầu tư vào Việt Nam nhiều hơn rất nhiều Trung Quốc. Thực sự thấy sự phụ thuộc của Việt Nam vào Trung Quốc không là gì so với Nhật và Singapore.

http://sohoa.vnexpress.net/tin-tuc/san- pham/dien-thoai/galaxy-note-5-chup-anh- dep-hon-iphone-6s-plus-3291793.html

Không ngờ G4 còn chụp thua cả iPhone 6S Plus. Note 5 đúng là điện thoại toàn diện nhất hiện nay, nếu thua thì điều Note 5 thua duy nhất có lẽ là thương hiệu của Apple iPhone mà thôi.

… …

3.2.2. Mô hình ngƣời dùng

Trong mô hình này, mối quan tâm của người dùng được biểu diễn bởi tập các chủ đề.

Xác định tập chủ đề ẩn ngƣời dùng quan tâm đƣợc thực hiện qua 3 bƣớc

 Bƣớc 1: Từ tập tài liệu người dùng từng quan tâm, các chủ đề và phân phối của chúng vào từng tài liệu được tính toán.

Ứng với mỗi tài liệu di thuộc vào tập D các tài liệu mô tả mối quan tâm người dùng, sử dụng phân tích chủ đề ẩn ta được kết quả là tập các chủ đề của tài liệu di, kí hiệu là các TPj thuộc vào tập các chủ đề TP, với trọng số wtpj.

 Bƣớc 2: Gộp xác suất của các chủ đề bằng công thức xác suất trung bình, ta được tập hợp các chủ đề và trọng số về mức độ quan tâm của người dùng uk vào từng chủ đề tương ứng.

Topics(uk) = {(TPj, Avg(wdi,tpj),…}

 Bƣớc 3: Xác định Top N chủ đề ẩn có xác suất phân phối cao nhất được sử dụng để biểu diễn mô hình người dùng.

3.3. Áp dụng mô hình ngƣời dùng vào tƣ vấn tin tức

Luận văn phát triển một mô hình tư vấn sử dụng mô hình người dùng đề xuất ở phần trước. Trong đó, ý tưởng chung của việc tư vấn dựa trên xem các tin tức tư vấn tiềm năng là các tin tức mang thông tin về chủ đề người dùng từng quan tâm. Ứng dụng tư vấn được tích hợp trong một hệ thống quản lý nội dung (Content Management System). Vì vậy, giải pháp được đưa ra là xác định chủ đề nằm trong mỗi tin tức được thực hiện ngay sau khi dữ liệu tin tức được nhập vào cơ sở dữ liệu các tin tức của hệ thống. Luận văn xem giai đoạn này là pha xử lý phân tích dữ liệu tư vấn. Sau pha này, mỗi tin tức sẽ tương ứng với một danh sách các chủ đề và xác suất liên quan của tin tức vào chủ đề. Pha tư vấn thực hiện so sánh những tin tức mới được cập nhật với các chủ đề đang lưu trong hồ sơ người dùng, sau đó tự động sinh các truy vấn cho cơ sở dữ liệu, kết quả đạt được là dữ liệu tư vấn liên quan những chủ đề người dùng quan tâm.

3.3.1. Pha phân tích dữ liệu Input: Mỗi văn bản tin tức. Input: Mỗi văn bản tin tức.

Output: Phân tích chủ đề của từng tin tức.

Hình 14. Luồng phân tích dữ liệu

Tin tức mới được lưu trữ và được sử dụng để định kỳ huấn luyện lại mô hình chủ đề.

Suy diễn chủ đề

Tin tức được suy diễn các chủ đề nó thuộc vào theo một mô hình chủ đề ẩn đã được huấn luyện. Pha này, được thực hiện bởi hai bước:

 Bƣớc 1. Suy diễn chủ đề ẩn:

Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ đề ẩn phản ánh nội dung trong văn bản. Các chủ đề có xác suất lớn hơn là các chủ đề mà nội dung chính của tin tức hướng tới. Chú ý rằng số lượng các chủ đề ẩn là không đổi, và mỗi chủ đề đều có một xác suất phản ánh nội dung của văn bản. Ví dụ, nếu ta chọn mô hình với 100 chủ đề ẩn để phân tích, mỗi văn bản được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá trị trong các chiều là trọng số xác suất của chủ đề tương ứng.

 Bƣớc 2. Xác định top các chủ đề có phân phối cao:

Từ các vector phân phối chủ đề của văn bản tin tức, ta cần xác định đâu là các chủ đề có thể đại diện cho nội dung thông tin của tin tức. Các chủ đề này có thể được nhận ra bởi hai ràng buộc:

o Số lượng chủ đề có thể biểu diễn nội dung cho một văn bản phải nằm trong một giới hạn.

o Xác suất của chủ đề đó phải lớn hơn một ngưỡng cho trước.  Bƣớc 3: Lưu trữ vào cơ sở dữ liệu 2 danh sách

o Vector trọng số chủ đề, số chiều vector chủ đề bằng tham số trong bước suy diễn chủ đề. Mỗi chiều trên vector ứng với một chủ đề, và giá trị tại mỗi chiều ứng với mức độ liên quan của tài liệu vào chủ đề đó.

o Danh sách các chủ đề có phân phối cao.

3.3.2. Pha xây dựng mô hình ngƣời dùng Input: Log lịch sử bình luận của người dùng.

Output: Phân tích chủ đề của từng tin tức người dùng bình luận và xác định trọng số của từng chủ đề trong mô hình mối quan tâm người dùng.

Hình 15. Luồng xây dựng mô hình ngƣời dùng

Pha này xây dựng mô hình người dùng dựa trên lịch sử các lần bình luận. Dựa trên danh sách các tin tức người dùng từng bình luận. Luồng xây dựng mô hình bắt đầu thực hiện như sau:

Bƣớc 1: Truy vấn cơ sở dữ liệu các tin tức đã gán chủ đề, xác định trọng số các chủ đề ẩn của từng tin tức.

Bƣớc 2: Tính toán mức độ liên quan của mô hình người dùng vào từng chủ đề và lưu vào cơ sở dữ liệu hồ sơ người dùng.

3.3.3. Pha tƣ vấn

Input: Tập các tin tức mới cập nhật.

Output: Tập các tin tức tư vấn.

Hình 16. Luồng tƣ vấn

Pha này thực hiện tìm kiếm trong cơ sở dữ liệu các tin tức mới được cập nhật những tin tức mang các chủ đề liên quan tới mối quan tâm của người dùng. Kết quả thu được là một tập hợp các tư vấn tiềm năng.

Chƣơng 4. Thực nghiệm và đánh giá

4.1. Môi trƣờng thực nghiệm

Bảng 3. Môi trƣờng thực nghiệm.

Thành phần Thông số

CPU Core 2 Duo 2.0 GHz

RAM 2 GB

HDD 320 GB

OS Windows 7 Ultimate

4.2. Dữ liệu và công cụ 4.2.1. Dữ liệu 4.2.1. Dữ liệu

Dữ liệu tin tức dùng để huấn luyện mô hình và đánh giá mô hình

Để xây dựng bộ dữ liệu cho hệ thống, luận văn thu thập dữ liệu từ trang VNExpress. Sau quá trình tiến hành tiền xử lý như bóc tách lấy nội dung chính của tin tức, luận văn thu được 2215 tin.

Dữ liệu lịch sử bình luận của người dùng

Như đã đề cập ở mục 3.2.1 lịch sử truy cập của người dùng được VNExpress cho phép truy vấn thông qua đường dẫn http://my.vnexpress.net/users/feed/<user id>, thực hiện truy vấn trên máy tìm kiếm google luận văn trích xuất được 161 người dùng ứng với 1847 tin tức bình luận.

4.2.2. Công cụ

Bảng 4. Công cụ.

Công cụ Mô tả

TopicModel

Tác giả: Uông Huy Long

Mô tả: Bộ công cụ phân tích mô hình người dùng dựa trên lịch sử bình luận.

Website: https://github.com/123cntt/topicmodel JGibbLDA

Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu

Mô tả: Công cụ phân tích chủ đề ẩn cho tài liệu viết trên nền Java Website: http://jgibblda.sourceforge.net

JVnTextPro

Tác giả: Nguyễn Cẩm Tú, Phan Xuân Hiếu, Nguyễn Thu Trang Mô tả: Bộ công hỗ trợ xử lý các văn bản tiếng Việt.

Website: http://jvntextpro.sourceforge.net/ VNExpress 1 0 0 t o p i c s

Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu

Mô tả: Bộ dữ liệu 100 chủ đề ẩn được phân tích từ VNExpress dùng để phân tích chủ đề ẩn

Website:http://jgibblda.sourceforge.net/VNExpress100topics.txt

Crawler4j

Tác giả: Yasser Ganjisaffar

Mô tả: Công cụ thu thập dữ liệu từ các Website báo điện tử Website: http://code.google.com/p/crawler4j/

JSoup

Tác giả: Jonathan Hedley

Mô tả: Công cụ trích xuất dữ liệu từ file HTML Website: http://jsoup.org/

4.3. Luồng phân tích dữ liệu trong thực nghiệm 4.3.1. Huấn luyện mô hình phân tích chủ đề 4.3.1. Huấn luyện mô hình phân tích chủ đề

Luận văn thực hiện huấn luyện tiếp diễn từ mô hình 100 chủ đề đã được Tiến sỹ Nguyễn Cẩm Tú và cộng sự thực hiện1, dữ liệu cho huấn luyện được thu thập tự động qua 5 bước:

Bƣớc 1: Tiến trình VNExpressCrawler thực hiện thu thập tin tức từ trang báo điện tử VNExpress trong 10 ngày từ ngày 21/09/2015 tới ngày 01/10/2015. Dữ liệu thu được bằng phưong pháp trích xuất CSS Path sử dụng thư viện JSoup2

Hình 18. Nội dung chính của trang tin

Nội dung chính của tin tức đặt trong đường dẫn CSS Path: “#left_calculator > div.fck_detail.width_common”. Kết quả của bước này là các file chỉ chứa nội dung dạng văn bản của tin tức.

Bƣớc 2: Quá trình tiền xử lý đầu tiên dùng công cụ PreProcess thực hiện nhiệm vụ loại bỏ hết các ký tự đặc biệt như *,?,&,…ra khỏi văn bản, gộp tất cả các văn bản vào một file duy nhất.

Bƣớc 3: Công cụ JVNTextPro được sử dụng để tách từ, kết quả của bước này là các văn bản gồm các từ đơn, từ ghép được nối với nhau bởi dấu gạch chân.

words) dùng để chỉ các từ mà xuất hiện quá nhiều trong các văn bản nhưng lại thường thì không giúp ích gì trong việc phân biệt nội dung.

Hình 19. Tin tức sau khi tiền xử lý

Bƣớc 5: Luận văn thực hiện huấn luyện tiếp diễn từ mô hình 100 chủ đề đã được huấn luyện trước đó. Kết quả thu được mô hình chủ đề mới với không gian từ và các tham số được cập nhật so với thời điểm hiện tại.

Bảng 5. Một số chủ đề ẩn

Topic 4 Topic 22 Topic 94

đầu_tư thị_trường bất_động_sản dự_án ngân_hàng căn_hộ công_ty mua tỷ kinh_doanh tuổi thu_nhập đất nam mark he phú facebook bữa_tiệc priscilla mua_lại harvard chuyện_tình hết_mình xã_hội mạng tỷ trắng cầu_thủ bàn giải bóng trận sân minh ba đội man phương vô_địch thi_đấu bóng_đá

4.3.2. Phân tích dữ liệu tin tức

Luận văn thực thi một quá trình gồm 7 bước để xác định chủ đề của từng tin tức được người dùng bình luận.

Bƣớc 1: Truy vấn google theo cấu trúc đường dẫn tới các trang Web về hoạt động bình luận trên VNExpress. Kết quả thu được là tập url và một mã userid của họ.

Hình 20. Truy vấn tìm kiếm ngƣời dùng và các trang bình luận

Bƣớc 2: Sử dụng mô đun VNExpressFeedCrawler để lấy những đường dẫn tới các trang tin tức người dùng đã từng bình luận trong quá khứ. Do những người dùng có ít bình luận thì chưa thể suy diễn được một thói quen đọc hay bình luận tin tức của họ, luận văn chỉ lấy những người dùng có số lượng đánh giá lớn hơn 3.

Hình 21. Tập hợp các đƣờng dẫn và bình luận của ngƣời dùng

Bƣớc 3: Mô đun UserModeler lấy nội dung trang tin và lưu vào các thư mục riêng rẽ.

Bƣớc 7: Luận văn thực hiện tính năng suy diễn chủ đề cho từng tin tức người dùng đã bình luận. Kết quả của bước này là tập hợp file dữ liệu văn bản người dùng đã từng bình luận theo trình tự thời gian.

4.3.3. Mô hình ngƣời dùng và đánh giá kết quả

Việc đánh giá chất lượng của tin tức tư vấn được trả về bởi hệ thống là một bài toán khó, vì không có một độ đo ngữ nghĩa đánh giá chính xác được sự phù hợp giữa người dùng và tin tức hệ thống trả lại.

Herlocker [12] đưa ra hai nguyên nhân chủ yếu dẫn tới việc đánh giá các hệ thống tư vấn là khó khăn. Nguyên nhân đầu tiên là chất lượng của hệ tư vấn phụ thuộc vào tập dữ liệu sử dụng. Một hệ tư vấn tin tức có mô hình tốt chưa chắc đã tư vấn tốt hơn một hệ tư vấn có dữ liệu tốt (như một cơ sở dữ liệu tin tức phong phú). Nguyên nhân thứ hai là việc đánh giá hệ tư vấn có thể hướng tới các mục tiêu khác nhau. Trong một số hệ thống, các đánh giá có thể dựa trên số lần tư vấn dẫn đến quyết định đúng và sai. Trong một số khác, các đánh giá có thể dựa trên xem xét người dùng hài lòng hoặc không hài lòng đối với các kết quả tư vấn.

Do các nguyên nhân này, để đánh giá tính đúng đắn của mô hình tư vấn, luận văn tiến hành đánh giá dựa vào việc kiểm tra tin tức được người dùng đọc, bình luận gần nhất bằng mô hình được huấn luyện bởi các tin tức bình luận trước đó. Nếu một trong các chủ đề của tin tức gần nhất nằm trong mô hình người dùng đã được huấn luyện thì ta kết luận rằng mô hình này đã phản ánh đúng được thói quen đọc và bình luận tin tức của người dùng.

Như đã đề cập ở chương 3, xác suất liên quan của mối quan tâm người dùng vào các chủ đề được xác định bằng công thức trung bình xác suất. Với mô hình người dùng được xác định bởi top 10 chủ đề có xác suất liên quan cao nhất từ những tin tức đã bình luận “trừ” tin tức gần nhất. Kết quả của quá trình này được nêu trong bảng sau: Bảng 6. Mô hình ngƣời dùng User ID Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10 100261

1950 topic67 topic21 topic69 topic91 topic77 topic81 topic71 topic27 topic8 topic33 100261

2012 topic21 topic91 topic71 topic69 topic67 topic43 topic77 topic95 topic33 topic59 100261

3006 topic67 topic21 topic91 topic71 topic27 topic81 topic3 topic33 topic77 topic23 100261

100261

3178 topic91 topic21 topic67 topic30 topic27 topic71 topic81 topic33 topic41 topic70 100261

3261 topic21 topic91 topic67 topic71 topic77 topic33 topic0 topic70 topic27 topic43 100261

3836 topic21 topic69 topic91 topic67 topic77 topic33 topic95 topic79 topic71 topic81 100261

4759 topic21 topic81 topic67 topic43 topic50 topic12 topic33 topic19 topic76 topic71 Theo đó, với top 10 các chủ đề của tin tức người dùng bình luận gần nhất mô tả trong bảng 7, kết quả về độ chính xác của mô hình chủ đề được mô tả trong bảng 8.

Bảng 7. Top các chủ đề của tin tức đƣợc bình luận gần nhất User ID Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10 100261

1950 topic69 topic43 topic77 topic21 topic70 topic33 topic86 topic83 topic19 topic6 100261

2012 topic21 topic67 topic92 topic73 topic69 topic64 topic34 topic59 topic46 topic40 100261

3006 topic67 topic21 topic91 topic29 topic6 topic95 topic92 topic81 topic69 topic58 100261

3143 topic67 topic21 topic3 topic71 topic43 topic76 topic18 topic11 topic51 topic65 100261

3178 topic81 topic21 topic67 topic53 topic49 topic79 topic73 topic98 topic74 topic69 100261

3261 topic99 topic98 topic97 topic96 topic95 topic94 topic93 topic92 topic91 topic90 100261

3836 topic91 topic21 topic79 topic33 topic71 topic93 topic90 topic67 topic55 topic52 100261

4759 topic91 topic81 topic25 topic99 topic98 topic97 topic96 topic95 topic94 topic93

Bảng 8. Độ chính xác của mô hình User Model User Model top 1 topic User Model top 3 topic user model top 5 topic user model top 7 topic user model

Tài liệu vớ iK chủ đề ẩn

Luồng phân tích dữ liệu