Pha phân tích dữ liệu - (Luận văn thạc sĩ) phát hi- 123docz.net

Input: Mỗi văn bản tin tức.

Output: Phân tích chủ đề của từng tin tức.

Hình 14. Luồng phân tích dữ liệu

Pha này xử lý các tin tức trước khi được lưu trữ vào cơ sở dữ liệu. Quá trình xử lý gồm hai tiến trình độc lập.

Tin tức mới được lưu trữ và được sử dụng để định kỳ huấn luyện lại mô hình chủ đề.

Suy diễn chủ đề

Tin tức được suy diễn các chủ đề nó thuộc vào theo một mô hình chủ đề ẩn đã được huấn luyện. Pha này, được thực hiện bởi hai bước:

 Bƣớc 1. Suy diễn chủ đề ẩn:

Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ đề ẩn phản ánh nội dung trong văn bản. Các chủ đề có xác suất lớn hơn là các chủ đề mà nội dung chính của tin tức hướng tới. Chú ý rằng số lượng các chủ đề ẩn là không đổi, và mỗi chủ đề đều có một xác suất phản ánh nội dung của văn bản. Ví dụ, nếu ta chọn mô hình với 100 chủ đề ẩn để phân tích, mỗi văn bản được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá trị trong các chiều là trọng số xác suất của chủ đề tương ứng.

 Bƣớc 2. Xác định top các chủ đề có phân phối cao:

Từ các vector phân phối chủ đề của văn bản tin tức, ta cần xác định đâu là các chủ đề có thể đại diện cho nội dung thông tin của tin tức. Các chủ đề này có thể được nhận ra bởi hai ràng buộc:

o Số lượng chủ đề có thể biểu diễn nội dung cho một văn bản phải nằm trong một giới hạn.

o Xác suất của chủ đề đó phải lớn hơn một ngưỡng cho trước.  Bƣớc 3: Lưu trữ vào cơ sở dữ liệu 2 danh sách

o Vector trọng số chủ đề, số chiều vector chủ đề bằng tham số trong bước suy diễn chủ đề. Mỗi chiều trên vector ứng với một chủ đề, và giá trị tại mỗi chiều ứng với mức độ liên quan của tài liệu vào chủ đề đó.

o Danh sách các chủ đề có phân phối cao.

3.3.2. Pha xây dựng mô hình ngƣời dùng Input: Log lịch sử bình luận của người dùng.

Output: Phân tích chủ đề của từng tin tức người dùng bình luận và xác định trọng số của từng chủ đề trong mô hình mối quan tâm người dùng.

Hình 15. Luồng xây dựng mô hình ngƣời dùng

Pha này xây dựng mô hình người dùng dựa trên lịch sử các lần bình luận. Dựa trên danh sách các tin tức người dùng từng bình luận. Luồng xây dựng mô hình bắt đầu thực hiện như sau:

Bƣớc 1: Truy vấn cơ sở dữ liệu các tin tức đã gán chủ đề, xác định trọng số các chủ đề ẩn của từng tin tức.

Bƣớc 2: Tính toán mức độ liên quan của mô hình người dùng vào từng chủ đề và lưu vào cơ sở dữ liệu hồ sơ người dùng.

3.3.3. Pha tƣ vấn

Input: Tập các tin tức mới cập nhật.

Output: Tập các tin tức tư vấn.

Hình 16. Luồng tƣ vấn

Pha này thực hiện tìm kiếm trong cơ sở dữ liệu các tin tức mới được cập nhật những tin tức mang các chủ đề liên quan tới mối quan tâm của người dùng. Kết quả thu được là một tập hợp các tư vấn tiềm năng.

Chƣơng 4. Thực nghiệm và đánh giá

4.1. Môi trƣờng thực nghiệm

Bảng 3. Môi trƣờng thực nghiệm.

Thành phần Thông số

CPU Core 2 Duo 2.0 GHz

RAM 2 GB

HDD 320 GB

OS Windows 7 Ultimate

4.2. Dữ liệu và công cụ 4.2.1. Dữ liệu 4.2.1. Dữ liệu

Dữ liệu tin tức dùng để huấn luyện mô hình và đánh giá mô hình

Để xây dựng bộ dữ liệu cho hệ thống, luận văn thu thập dữ liệu từ trang VNExpress. Sau quá trình tiến hành tiền xử lý như bóc tách lấy nội dung chính của tin tức, luận văn thu được 2215 tin.

Dữ liệu lịch sử bình luận của người dùng

Như đã đề cập ở mục 3.2.1 lịch sử truy cập của người dùng được VNExpress cho phép truy vấn thông qua đường dẫn http://my.vnexpress.net/users/feed/<user id>, thực hiện truy vấn trên máy tìm kiếm google luận văn trích xuất được 161 người dùng ứng với 1847 tin tức bình luận.

4.2.2. Công cụ

Bảng 4. Công cụ.

Công cụ Mô tả

TopicModel

Tác giả: Uông Huy Long

Mô tả: Bộ công cụ phân tích mô hình người dùng dựa trên lịch sử bình luận.

Website: https://github.com/123cntt/topicmodel JGibbLDA

Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu

Mô tả: Công cụ phân tích chủ đề ẩn cho tài liệu viết trên nền Java Website: http://jgibblda.sourceforge.net

27 JVnTextPro

Tác giả: Nguyễn Cẩm Tú, Phan Xuân Hiếu, Nguyễn Thu Trang Mô tả: Bộ công hỗ trợ xử lý các văn bản tiếng Việt.

Website: http://jvntextpro.sourceforge.net/ VNExpress 1 0 0 t o p i c s

Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu

Mô tả: Bộ dữ liệu 100 chủ đề ẩn được phân tích từ VNExpress dùng để phân tích chủ đề ẩn

Website:http://jgibblda.sourceforge.net/VNExpress100topics.txt

Crawler4j

Tác giả: Yasser Ganjisaffar

Mô tả: Công cụ thu thập dữ liệu từ các Website báo điện tử Website: http://code.google.com/p/crawler4j/

JSoup

Tác giả: Jonathan Hedley

Mô tả: Công cụ trích xuất dữ liệu từ file HTML Website: http://jsoup.org/

4.3. Luồng phân tích dữ liệu trong thực nghiệm 4.3.1. Huấn luyện mô hình phân tích chủ đề 4.3.1. Huấn luyện mô hình phân tích chủ đề

Luận văn thực hiện huấn luyện tiếp diễn từ mô hình 100 chủ đề đã được Tiến sỹ Nguyễn Cẩm Tú và cộng sự thực hiện1, dữ liệu cho huấn luyện được thu thập tự động qua 5 bước:

Bƣớc 1: Tiến trình VNExpressCrawler thực hiện thu thập tin tức từ trang báo điện tử VNExpress trong 10 ngày từ ngày 21/09/2015 tới ngày 01/10/2015. Dữ liệu thu được bằng phưong pháp trích xuất CSS Path sử dụng thư viện JSoup2

Hình 18. Nội dung chính của trang tin

Nội dung chính của tin tức đặt trong đường dẫn CSS Path: “#left_calculator > div.fck_detail.width_common”. Kết quả của bước này là các file chỉ chứa nội dung dạng văn bản của tin tức.

Bƣớc 2: Quá trình tiền xử lý đầu tiên dùng công cụ PreProcess thực hiện nhiệm vụ loại bỏ hết các ký tự đặc biệt như *,?,&,…ra khỏi văn bản, gộp tất cả các văn bản vào một file duy nhất.

Bƣớc 3: Công cụ JVNTextPro được sử dụng để tách từ, kết quả của bước này là các văn bản gồm các từ đơn, từ ghép được nối với nhau bởi dấu gạch chân.

Bƣớc 4: Một từ điển giúp loại bỏ các từ dừng ra khỏi văn bản. Từ dừng (stop-

1 http://jgibblda.sourceforge.net/ 2 http://jsoup.org/

words) dùng để chỉ các từ mà xuất hiện quá nhiều trong các văn bản nhưng lại thường thì không giúp ích gì trong việc phân biệt nội dung.

Hình 19. Tin tức sau khi tiền xử lý

Bƣớc 5: Luận văn thực hiện huấn luyện tiếp diễn từ mô hình 100 chủ đề đã được huấn luyện trước đó. Kết quả thu được mô hình chủ đề mới với không gian từ và các tham số được cập nhật so với thời điểm hiện tại.

Bảng 5. Một số chủ đề ẩn

Topic 4 Topic 22 Topic 94

đầu_tư thị_trường bất_động_sản dự_án ngân_hàng căn_hộ công_ty mua tỷ kinh_doanh tuổi thu_nhập đất nam mark he phú facebook bữa_tiệc priscilla mua_lại harvard chuyện_tình hết_mình xã_hội mạng tỷ trắng cầu_thủ bàn giải bóng trận sân minh ba đội man phương vô_địch thi_đấu bóng_đá

4.3.2. Phân tích dữ liệu tin tức

Luận văn thực thi một quá trình gồm 7 bước để xác định chủ đề của từng tin tức được người dùng bình luận.

Bƣớc 1: Truy vấn google theo cấu trúc đường dẫn tới các trang Web về hoạt động bình luận trên VNExpress. Kết quả thu được là tập url và một mã userid của họ.

Hình 20. Truy vấn tìm kiếm ngƣời dùng và các trang bình luận

Bƣớc 2: Sử dụng mô đun VNExpressFeedCrawler để lấy những đường dẫn tới các trang tin tức người dùng đã từng bình luận trong quá khứ. Do những người dùng có ít bình luận thì chưa thể suy diễn được một thói quen đọc hay bình luận tin tức của họ, luận văn chỉ lấy những người dùng có số lượng đánh giá lớn hơn 3.

Hình 21. Tập hợp các đƣờng dẫn và bình luận của ngƣời dùng

Bƣớc 3: Mô đun UserModeler lấy nội dung trang tin và lưu vào các thư mục riêng rẽ.

Bƣớc 4,5,6: Thực thi các bước tiền xử lý bao gồm: loại bỏ các ký tự đặc biệt, tách từ và loại bỏ từ dừng như mô tả ở pha huấn luyện mô hình phân tích chủ đề. Tuy nhiên, quá trình tiền xử lý diễn ra ở từng file riêng rẽ chứ không gộp lại như ở pha trước.

Bƣớc 7: Luận văn thực hiện tính năng suy diễn chủ đề cho từng tin tức người dùng đã bình luận. Kết quả của bước này là tập hợp file dữ liệu văn bản người dùng đã từng bình luận theo trình tự thời gian.

4.3.3. Mô hình ngƣời dùng và đánh giá kết quả

Việc đánh giá chất lượng của tin tức tư vấn được trả về bởi hệ thống là một bài toán khó, vì không có một độ đo ngữ nghĩa đánh giá chính xác được sự phù hợp giữa người dùng và tin tức hệ thống trả lại.

Herlocker [12] đưa ra hai nguyên nhân chủ yếu dẫn tới việc đánh giá các hệ thống tư vấn là khó khăn. Nguyên nhân đầu tiên là chất lượng của hệ tư vấn phụ thuộc vào tập dữ liệu sử dụng. Một hệ tư vấn tin tức có mô hình tốt chưa chắc đã tư vấn tốt hơn một hệ tư vấn có dữ liệu tốt (như một cơ sở dữ liệu tin tức phong phú). Nguyên nhân thứ hai là việc đánh giá hệ tư vấn có thể hướng tới các mục tiêu khác nhau. Trong một số hệ thống, các đánh giá có thể dựa trên số lần tư vấn dẫn đến quyết định đúng và sai. Trong một số khác, các đánh giá có thể dựa trên xem xét người dùng hài lòng hoặc không hài lòng đối với các kết quả tư vấn.

Do các nguyên nhân này, để đánh giá tính đúng đắn của mô hình tư vấn, luận văn tiến hành đánh giá dựa vào việc kiểm tra tin tức được người dùng đọc, bình luận gần nhất bằng mô hình được huấn luyện bởi các tin tức bình luận trước đó. Nếu một trong các chủ đề của tin tức gần nhất nằm trong mô hình người dùng đã được huấn luyện thì ta kết luận rằng mô hình này đã phản ánh đúng được thói quen đọc và bình luận tin tức của người dùng.

Như đã đề cập ở chương 3, xác suất liên quan của mối quan tâm người dùng vào các chủ đề được xác định bằng công thức trung bình xác suất. Với mô hình người dùng được xác định bởi top 10 chủ đề có xác suất liên quan cao nhất từ những tin tức đã bình luận “trừ” tin tức gần nhất. Kết quả của quá trình này được nêu trong bảng sau: Bảng 6. Mô hình ngƣời dùng User ID Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10 100261

1950 topic67 topic21 topic69 topic91 topic77 topic81 topic71 topic27 topic8 topic33 100261

2012 topic21 topic91 topic71 topic69 topic67 topic43 topic77 topic95 topic33 topic59 100261

3006 topic67 topic21 topic91 topic71 topic27 topic81 topic3 topic33 topic77 topic23 100261

100261

3178 topic91 topic21 topic67 topic30 topic27 topic71 topic81 topic33 topic41 topic70 100261

3261 topic21 topic91 topic67 topic71 topic77 topic33 topic0 topic70 topic27 topic43 100261

3836 topic21 topic69 topic91 topic67 topic77 topic33 topic95 topic79 topic71 topic81 100261

4759 topic21 topic81 topic67 topic43 topic50 topic12 topic33 topic19 topic76 topic71

Theo đó, với top 10 các chủ đề của tin tức người dùng bình luận gần nhất mô tả trong bảng 7, kết quả về độ chính xác của mô hình chủ đề được mô tả trong bảng 8.

Bảng 7. Top các chủ đề của tin tức đƣợc bình luận gần nhất

User ID Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10 100261

1950 topic69 topic43 topic77 topic21 topic70 topic33 topic86 topic83 topic19 topic6 100261

2012 topic21 topic67 topic92 topic73 topic69 topic64 topic34 topic59 topic46 topic40 100261

3006 topic67 topic21 topic91 topic29 topic6 topic95 topic92 topic81 topic69 topic58 100261

3143 topic67 topic21 topic3 topic71 topic43 topic76 topic18 topic11 topic51 topic65 100261

3178 topic81 topic21 topic67 topic53 topic49 topic79 topic73 topic98 topic74 topic69 100261

3261 topic99 topic98 topic97 topic96 topic95 topic94 topic93 topic92 topic91 topic90 100261

3836 topic91 topic21 topic79 topic33 topic71 topic93 topic90 topic67 topic55 topic52 100261

4759 topic91 topic81 topic25 topic99 topic98 topic97 topic96 topic95 topic94 topic93

Bảng 8. Độ chính xác của mô hình User Model top 1 topic User Model top 3 topic user model top 5 topic user model top 7 topic user model top 10 topic Last Article top 1 topic 30.43478261 61.49068323 73.29192547 76.39751553 78.88198758 Last Article top 2 topic 56.52173913 85.71428571 88.19875776 90.0621118 91.92546584 Last Article top 3 topic 65.2173913 88.19875776 90.68322981 92.54658385 93.78881988 Kết quả so sánh độ tương đồng chủ đề giữa tin tức được bình luận gần nhất và các trang Web người dùng đọc và bình luận trước cho thấy những phân tích đề xuất có thể sử dụng để tổng hợp các mối quan tâm hiện tại và dự đoán các tin tức có thể được người dùng ưa thích trong tương lai.

Hình 22. Biểu đồ độ chính xác của mô hình

Dựa trên kết quả thu được, luận văn nhận thấy có thể đưa ra các kết luận khác:  Nếu chọn mô hình người dùng gồm top 10 chủ đề ẩn cho độ chính xác cao nhất.  Nếu chọn mô hình người dùng từ 3 chủ đề trở lên thì độ chính xác tăng lên cao hơn

hẳn so với trường hợp chỉ lấy 1 chủ đề.

 Nếu tăng mô hình tin tức từ 2 lên 3 chủ đề thì độ chính xác tăng lên không nhiều so với trường hợp tăng từ 1 lên 2, nếu tăng mô hình người dùng từ 3 lên 5 chủ đề thì độ chính xác tăng lên không nhiều so với trường hợp tăng chủ đề từ 1 lên 3. Vì vậy, trường hợp có ít không gian lưu trữ và để giới hạn hơn nữa số lượng các tin tức tư vấn thì phương pháp lựa chọn 3 chủ đề cho mô hình người dùng và 2 chủ đề cho mô hình các tin tức có thể là một phương án hợp lý. 0 10 20 30 40 50 60 70 80 90 100 User Model Top 1 Topic User Model Top 3 Topic User Model Top 5 Topic User Model Top 7 Topic User Model Top 10 Topic

Last Article Top 1 Topic Last Article Top 2 Topic Last Article Top 3 Topic

Kết luận Các kết quả chính đạt đƣợc

Luận văn đã tìm hiểu về các khái niệm, thuật ngữ, kỹ thuật liên quan đến mô hình hóa người dùng và các phương tiện xã hội. Dựa vào khảo sát, phân tích ưu nhược điểm của các phương pháp mô hình hóa và nguồn dữ liệu từ các phương tiện xã hội, luận văn đề xuất một giải pháp tư vấn tin tức dựa trên khai phá thói quen đọc và bình luận tin tức của người dùng trên trang báo điện tử VNExpress. Trong đó, hệ thống thực thi một tiến trình tự động thu thập dữ liệu, thuật toán mô hình người dùng dựa trên phân tích chủ đề ẩn. Hướng tiếp cận này có nhiều tiềm năng và đã được chứng minh thông qua một số số liệu thống kê kết quả ban đầu.

Một số vấn đề cần tiếp tục giải quyết

Tuy mô hình đã bước đầu đạt được một số kết quả khả quan, nhưng vẫn còn tồn tại nhiều vấn đề cần giải quyết. Đầu tiên, kết quả tư vấn chỉ có thể áp dụng được với những người dùng có số lượt bình luận đủ lớn (vấn đề khởi động chậm). Thêm vào đó, chất lượng tư vấn từ mô hình người dùng chỉ dựa vào chủ đề có thể tiếp tục nâng cao hơn nhờ phân tích các đặc trưng bổ sung như phân tích các thực thể nằm trong chính các đoạn bình luận của người dùng, phân tích quan điểm tích cực hay tiêu cực của người dùng về các tin