1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện thói quen của con người nhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

46 438 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,51 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/ NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN HÀ NỘI - 2015 Lời cảm ơn ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Uông Huy Long Hà Quang Thụy Thạc sĩ Trần Mai Vũ, người tận tình bảo hướng dẫn suốt trình thực khoá luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/ liệu” giúp nhiều việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT khoá luận Cuối cùng, muốn gửi lời cảm vô hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt trình thực khóa luận tốt nghiệp Côngcảm nghệ Tôi xinNgành: chân thành ơn!thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Sinh viên Uông Huy Long NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Việt Cƣờng HÀ NỘI - 2015 Lời cam đoan Tôi cam đoan công trình nghiên cứu riêng tôi, thực hướng dẫn khoa học Tiến sĩ Nguyễn Việt Cường Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tôi xin chịu trách nhiệm nghiên cứu Học viên Uông Huy Long i Mục lục Lời cam đoan i Mục lục ii Danh sách hình iv Danh sách bảng v Mở đầu .1 Chương Giới thiệu .2 1.1 Những thách thức trang báo điện tử 1.2 Bài toán tư vấn trang báo điện tử xã hội 1.3 Cấu trúc luận văn Chương Một số nghiên cứu liên quan mô hình hóa người dùng 2.1 Mô hình hóa người dùng 2.2 Phương pháp mô hình hóa người dùng 2.2.1 Phương pháp dựa từ khóa có trọng số 2.2.2 Phương pháp dựa mạng ngữ nghĩa 2.2.3 Phương pháp dựa phân cấp khái niệm 2.3 Thu thập thông tin người dùng 2.3.1 Phương pháp định danh người dùng 2.3.2 Các phương pháp thu thập thông tin truyền thống 11 2.4 Thu thập thông tin từ Web truyền thông xã hội .13 2.4.1 Sử dụng thông tin thẻ (Tag) 13 2.4.2 Nguồn liệu từ blog microblog 14 Chương Mô hình đề xuất 17 3.1 Phân tích thông tin chủ đề dựa mô hình chủ đề LDA 17 3.2 Phân tích thói quen đọc, bình luận tin tức người dùng .20 3.2.1 Thông tin lịch sử bình luận người dùng 20 3.2.2 Mô hình người dùng 22 3.3 Áp dụng mô hình người dùng vào tư vấn tin tức .23 3.3.1 Pha phân tích liệu 23 3.3.2 Pha xây dựng mô hình người dùng 24 3.3.3 Pha tư vấn 25 ii Chương Thực nghiệm đánh giá 26 4.1 Môi trường thực nghiệm 26 4.2 Dữ liệu công cụ 26 4.2.1 Dữ liệu .26 4.2.2 Công cụ .26 4.3 Luồng phân tích liệu thực nghiệm 29 4.3.1 Huấn luyện mô hình phân tích chủ đề .29 4.3.2 Phân tích liệu tin tức 30 4.3.3 Mô hình người dùng đánh giá kết 32 Tài liệu tham khảo 36 Tiếng Việt .36 Tiếng Anh .36 iii Danh sách hình Hình Chức tìm kiếm trang vnexpress.net Hình Ví dụ tin tức nảy sinh xung quanh kiện Hình Tiến trình mô hình hóa người dùng Hình Mô hình mối quan tâm người dùng dựa từ khóa Hình Mô hình mối quan tâm người dùng dựa mạng ngữ nghĩa[9] Hình Mô hình mối quan tâm người dùng dựa mạng khái niệm [24] Hình Các hệ thống tư vấn dựa thông tin người dùng 11 Hình Tài liệu với K chủ đề ẩn 18 Hình Biểu diễn đồ họa LDA[6] 19 Hình 10 Ước lượng tham số tập liệu văn .19 Hình 11 Suy diễn chủ đề sử dụng tập liệu VNExpress[29] 20 Hình 12 Mục ý kiến bạn đọc VNExpress 21 Hình 13 Trang hoạt động bình luận người dùng 21 Hình 14 Luồng phân tích liệu 23 Hình 15 Luồng xây dựng mô hình người dùng 25 Hình 16 Luồng tư vấn .25 Hình 17 Luồng phân tích liệu thực nghiệm .28 Hình 18 Nội dung trang tin 29 Hình 19 Tin tức sau tiền xử lý 30 Hình 20 Truy vấn tìm kiếm người dùng trang bình luận .31 Hình 21 Tập hợp đường dẫn bình luận người dùng 31 Hình 22 Biểu đồ độ xác mô hình 34 iv Danh sách bảng Bảng Các kỹ thuật thu thập thông tin ẩn [8] 12 Bảng Thông tin lịch sử hoạt động bình luận người dùng .22 Bảng Môi trường thực nghiệm .26 Bảng Công cụ .26 Bảng Một số chủ đề ẩn 30 Bảng Mô hình người dùng 32 Bảng Top chủ đề tin tức bình luận gần 33 Bảng Độ xác mô hình 33 v Mở đầu Thuật ngữ Web 2.0 lần đầu xuất vào tháng 10/2004 Tim OReily – Chủ tịch Dale Dougherty – Phó Chủ tịch OReily Media đưa hội thảo phát triển Web Có nhiều quan điểm khác Web 2.0, nhiên đa số mô tả Web 2.0 số tính khả giao tiếp, tính tương tác người dùng với yếu tố cho phép người dùng tạo thông tin Các trang Web truyền thông xã hội (social media websites) dựa Web 2.0 trang báo điện tử xã hội, mạng xã hội, blog, từ điển mở wiki,… có phát triển vũ bão thực làm biến đổi giới Internet ngày, Cùng nhìn vào đại diện tiêu biểu Web truyền thông xã hội, trang báo điện tử xã hội (social news sites), khái niệm “báo điện tử” việc đọc tin tức điện tử không xa lạ với đa số người dân Việt Nam Những thống kê gần alexa1 số lượng trang báo điện tử nằm top trang Web phổ biến Việt Nam cho thấy nhu cầu cao xã hội lĩnh vực truyền thông Tuy nhiên, vấn đề tồn có nhiều tin tức ngày cập nhật, người dùng dường bị chìm ngập biển thông tin mà không tìm thông tin phù hợp Web 2.0 lời giải cho vấn đề này, trang báo điện tử xã hội cho phép người dùng tạo nội dung bình luận, chia sẻ,…Đây nguồn liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người dùng Từ nắm bắt thói quen đọc, bình luận tin tức người dùng theo lĩnh vực (như thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm (như tin tức mới, quảng cáo, game,…) suy diễn tư vấn xác, kịp thời Luận văn đề xuất phương pháp dựa mô hình chủ đề xác suất giúp trang báo điện tử xã hội nhận diện thói quen, mối quan tâm người dùng cách tự động lịch sử hoạt động bình luận họ (Người dùng xây dựng thói quen đọc, bình luận tin tức sở mối quan tâm, vậy, luận văn, khái niệm mô hình hóa người dùng, phân tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận người dùng sử dụng thay cho nhau) Tính xác khả ứng dụng thực tế mô hình chứng minh số kết thực nghiệm ban đầu http://www.alexa.com/topsites/countries/VN Chƣơng Giới thiệu 1.1 Những thách thức trang báo điện tử Ngày nay, thông tin trang báo điện tử (như VNExpress1) bao phủ khía cạnh đời sống xã hội, từ tin tức kinh tế, trị tới kiện thể thao, giải trí nước quốc tế Cùng với thực tế tượng có lượng lớn tin tức phát sinh thêm ngày (như trang VNExpress, thời điểm khảo sát có 135 tin tức ngày), người đọc quan tâm tới tin tức kiện/ chuỗi kiện diễn nhiều ngày muốn xem lại thông tin từ ngày trước, mà lượng tin tức cần đọc lên tới hàng nghìn Vấn đề đặt làm cách người đọc vừa tiết kiệm thời gian truy cập vừa không bỏ sót nội dung mà họ quan tâm Những nghiên cứu trước gọi vấn đề tràn ngập thông tin Một giải pháp phổ biến cung cấp cho người dùng công cụ tìm kiếm Tuy nhiên, công cụ tìm kiếm không đem lại hiệu quả, điều thường nghĩa từ khoá không rõ ràng ý nghĩa xác chúng phụ thuộc vào ngữ cảnh người dùng Ví dụ lập trình viên tìm kiếm với từ khóa “apache”, người không muốn nhìn thấy hình ảnh loại máy bay trực thăng Hay người dùng muốn tìm kiếm lịch sử tộc người da đỏ (cũng có tên apache), nội dung người quan tâm máy bay trực thăng hay máy chủ web Một hướng tiếp cận khác nghiên cứu tìm cách xây dựng hệ thống cá nhân hóa, hệ thống cung cấp kết tư vấn tìm kiếm khác cho phù hợp với người dùng khác Hình Chức tìm kiếm trang vnexpress.net http://vnexpress.net/ Một hệ thống cá nhân hóa giải vấn đề có nhiều lựa chọn cách xây dựng quản lý thông tin người dùng, đặt hồ sơ người dùng Toàn trình gọi mô hình hóa người dùng trình bày chi tiết chương Hệ thống thực thi hình thức lọc thông tin không liên quan xác định thêm thông tin hấp dẫn người dùng Hồ sơ người dùng bao gồm thông tin cá nhân, ví dụ tên, tuổi, quốc gia, mức độ giáo dục,…và đại diện cho sở thích, mối quan tâm cá nhân nhóm người dùng ưa thích với chủ đề thể thao hay du lịch Các thông tin phân tích dựa vào liệu người dùng cung cấp, suy diễn từ liệu log hệ thống nguồn liệu từ phương tiện xã hội, nội dung luận văn trình bày chi tiết chương 1.2 Bài toán tƣ vấn trang báo điện tử xã hội Tư vấn tin tức lĩnh vực giàu tiềm số lượng sản phẩm tư vấn, số lượng người dùng số lượt sử dụng cao nhiều so với đối tượng tư vấn khác, luận văn đề xuất mô hình người dùng ứng dụng vào hệ thống tư vấn tin tức chương Một vài đặc trưng riêng có miền đối tượng tin tức đặc trưng chung người sử dụng tư vấn, mô tả sau: Đầu tiên, tin tức đối tượng tư vấn đặc biệt, đặc trưng sau tin tức giúp đưa giải pháp hữu hiệu xây dựng giải pháp tư vấn:  Tính không đồng giá trị: Giá trị tin tức xác định cách kết hợp yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả,…  Tính dễ sinh ra: số lượng lớn tin tức nảy sinh xung quanh kiện, tượng  Tính dễ tàn lụi: tượng tin tức đánh giá trị vấn đề đề cập không tính thời Hình 15 Luồng xây dựng mô hình ngƣời dùng Pha xây dựng mô hình người dùng dựa lịch sử lần bình luận Dựa danh sách tin tức người dùng bình luận Luồng xây dựng mô hình bắt đầu thực sau: Bƣớc 1: Truy vấn sở liệu tin tức gán chủ đề, xác định trọng số chủ đề ẩn tin tức Bƣớc 2: Tính toán mức độ liên quan mô hình người dùng vào chủ đề lưu vào sở liệu hồ sơ người dùng 3.3.3 Pha tƣ vấn Input: Tập tin tức cập nhật Output: Tập tin tức tư vấn Hình 16 Luồng tƣ vấn Pha thực tìm kiếm sở liệu tin tức cập nhật tin tức mang chủ đề liên quan tới mối quan tâm người dùng Kết thu tập hợp tư vấn tiềm 25 Chƣơng Thực nghiệm đánh giá 4.1 Môi trƣờng thực nghiệm Bảng Môi trƣờng thực nghiệm 4.2 Thành phần Thông số CPU Core Duo 2.0 GHz RAM GB HDD 320 GB OS Windows Ultimate Dữ liệu công cụ 4.2.1 Dữ liệu Dữ liệu tin tức dùng để huấn luyện mô hình đánh giá mô hình Để xây dựng liệu cho hệ thống, luận văn thu thập liệu từ trang VNExpress Sau trình tiến hành tiền xử lý bóc tách lấy nội dung tin tức, luận văn thu 2215 tin Dữ liệu lịch sử bình luận người dùng Như đề cập mục 3.2.1 lịch sử truy cập người dùng VNExpress cho phép truy vấn thông qua đường dẫn http://my.vnexpress.net/users/feed/, thực truy vấn máy tìm kiếm google luận văn trích xuất 161 người dùng ứng với 1847 tin tức bình luận 4.2.2 Công cụ Bảng Công cụ Công cụ TopicModel JGibbLDA Mô tả Tác giả: Uông Huy Long Mô tả: Bộ công cụ phân tích mô hình người dùng dựa lịch sử bình luận Website: https://github.com/123cntt/topicmodel Tác giả: Nguyễn Cẩm Tú Phan Xuân Hiếu Mô tả: Công cụ phân tích chủ đề ẩn cho tài liệu viết Java Website: http://jgibblda.sourceforge.net 26 Tác giả: Nguyễn Cẩm Tú, Phan Xuân Hiếu, Nguyễn Thu Trang Mô tả: Bộ công hỗ trợ xử lý văn tiếng Việt Website: http://jvntextpro.sourceforge.net/ JVnTextPro VNExpress 0 t o p i c s Crawler4j JSoup Tác giả: Nguyễn Cẩm Tú Phan Xuân Hiếu Mô tả: Bộ liệu 100 chủ đề ẩn phân tích từ VNExpress dùng để phân tích chủ đề ẩn Website:http://jgibblda.sourceforge.net/VNExpress100topics.txt Tác giả: Yasser Ganjisaffar Mô tả: Công cụ thu thập liệu từ Website báo điện tử Website: http://code.google.com/p/crawler4j/ Tác giả: Jonathan Hedley Mô tả: Công cụ trích xuất liệu từ file HTML Website: http://jsoup.org/ 27 Hình 17 Luồng phân tích liệu thực nghiệm 28 4.3 Luồng phân tích liệu thực nghiệm 4.3.1 Huấn luyện mô hình phân tích chủ đề Luận văn thực huấn luyện tiếp diễn từ mô hình 100 chủ đề Tiến sỹ Nguyễn Cẩm Tú cộng thực hiện1, liệu cho huấn luyện thu thập tự động qua bước: Bƣớc 1: Tiến trình VNExpressCrawler thực thu thập tin tức từ trang báo điện tử VNExpress 10 ngày từ ngày 21/09/2015 tới ngày 01/10/2015 Dữ liệu thu phưong pháp trích xuất CSS Path sử dụng thư viện JSoup2 Hình 18 Nội dung trang tin Nội dung tin tức đặt đường dẫn CSS Path: “#left_calculator > div.fck_detail.width_common” Kết bước file chứa nội dung dạng văn tin tức Bƣớc 2: Quá trình tiền xử lý dùng công cụ PreProcess thực nhiệm vụ loại bỏ hết ký tự đặc biệt *,?,&,…ra khỏi văn bản, gộp tất văn vào file Bƣớc 3: Công cụ JVNTextPro sử dụng để tách từ, kết bước văn gồm từ đơn, từ ghép nối với dấu gạch chân Bƣớc 4: Một từ điển giúp loại bỏ từ dừng khỏi văn Từ dừng (stop1 http://jgibblda.sourceforge.net/ http://jsoup.org/ 29 words) dùng để từ mà xuất nhiều văn lại thường không giúp ích việc phân biệt nội dung Hình 19 Tin tức sau tiền xử lý Bƣớc 5: Luận văn thực huấn luyện tiếp diễn từ mô hình 100 chủ đề huấn luyện trước Kết thu mô hình chủ đề với không gian từ tham số cập nhật so với thời điểm Bảng Một số chủ đề ẩn Topic đầu_tư thị_trường bất_động_sản dự_án ngân_hàng căn_hộ công_ty mua tỷ kinh_doanh tuổi thu_nhập đất nam Topic 22 Topic 94 cầu_thủ bàn giải bóng trận sân minh ba đội man phương vô_địch thi_đấu bóng_đá mark he phú facebook bữa_tiệc priscilla mua_lại harvard chuyện_tình hết_mình xã_hội mạng tỷ trắng 4.3.2 Phân tích liệu tin tức Luận văn thực thi trình gồm bước để xác định chủ đề tin tức người dùng bình luận Bƣớc 1: Truy vấn google theo cấu trúc đường dẫn tới trang Web hoạt động bình luận VNExpress Kết thu tập url mã userid họ 30 Hình 20 Truy vấn tìm kiếm ngƣời dùng trang bình luận Bƣớc 2: Sử dụng mô đun VNExpressFeedCrawler để lấy đường dẫn tới trang tin tức người dùng bình luận khứ Do người dùng có bình luận chưa thể suy diễn thói quen đọc hay bình luận tin tức họ, luận văn lấy người dùng có số lượng đánh giá lớn Hình 21 Tập hợp đƣờng dẫn bình luận ngƣời dùng Bƣớc 3: Mô đun UserModeler lấy nội dung trang tin lưu vào thư mục riêng rẽ Bƣớc 4,5,6: Thực thi bước tiền xử lý bao gồm: loại bỏ ký tự đặc biệt, tách từ loại bỏ từ dừng mô tả pha huấn luyện mô hình phân tích chủ đề Tuy nhiên, trình tiền xử lý diễn file riêng rẽ không gộp lại pha trước 31 Bƣớc 7: Luận văn thực tính suy diễn chủ đề cho tin tức người dùng bình luận Kết bước tập hợp file liệu văn người dùng bình luận theo trình tự thời gian 4.3.3 Mô hình ngƣời dùng đánh giá kết Việc đánh giá chất lượng tin tức tư vấn trả hệ thống toán khó, độ đo ngữ nghĩa đánh giá xác phù hợp người dùng tin tức hệ thống trả lại Herlocker [12] đưa hai nguyên nhân chủ yếu dẫn tới việc đánh giá hệ thống tư vấn khó khăn Nguyên nhân chất lượng hệ tư vấn phụ thuộc vào tập liệu sử dụng Một hệ tư vấn tin tức có mô hình tốt chưa tư vấn tốt hệ tư vấn có liệu tốt (như sở liệu tin tức phong phú) Nguyên nhân thứ hai việc đánh giá hệ tư vấn hướng tới mục tiêu khác Trong số hệ thống, đánh giá dựa số lần tư vấn dẫn đến định sai Trong số khác, đánh giá dựa xem xét người dùng hài lòng không hài lòng kết tư vấn Do nguyên nhân này, để đánh giá tính đắn mô hình tư vấn, luận văn tiến hành đánh giá dựa vào việc kiểm tra tin tức người dùng đọc, bình luận gần mô hình huấn luyện tin tức bình luận trước Nếu chủ đề tin tức gần nằm mô hình người dùng huấn luyện ta kết luận mô hình phản ánh thói quen đọc bình luận tin tức người dùng Như đề cập chương 3, xác suất liên quan mối quan tâm người dùng vào chủ đề xác định công thức trung bình xác suất Với mô hình người dùng xác định top 10 chủ đề có xác suất liên quan cao từ tin tức bình luận “trừ” tin tức gần Kết trình nêu bảng sau: Bảng Mô hình ngƣời dùng User ID 100261 1950 100261 2012 100261 3006 100261 3143 Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic 10 topic67 topic21 topic69 topic91 topic77 topic81 topic71 topic27 topic8 topic33 topic21 topic91 topic71 topic69 topic67 topic43 topic77 topic95 topic33 topic59 topic67 topic21 topic91 topic71 topic27 topic81 topic3 topic33 topic77 topic23 topic67 topic21 topic91 topic33 topic73 topic95 topic69 topic71 topic77 topic81 32 100261 3178 100261 3261 100261 3836 100261 4759 topic91 topic21 topic67 topic30 topic27 topic71 topic81 topic33 topic41 topic70 topic21 topic91 topic67 topic71 topic77 topic33 topic0 topic70 topic27 topic43 topic21 topic69 topic91 topic67 topic77 topic33 topic95 topic79 topic71 topic81 topic21 topic81 topic67 topic43 topic50 topic12 topic33 topic19 topic76 topic71 Theo đó, với top 10 chủ đề tin tức người dùng bình luận gần mô tả bảng 7, kết độ xác mô hình chủ đề mô tả bảng Bảng Top chủ đề tin tức đƣợc bình luận gần Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic 10 topic69 topic43 topic77 topic21 topic70 topic33 topic86 topic83 topic19 topic6 topic21 topic67 topic92 topic73 topic69 topic64 topic34 topic59 topic46 topic40 topic67 topic21 topic91 topic29 topic6 topic95 topic92 topic81 topic69 topic58 topic67 topic21 topic3 topic71 topic43 topic76 topic18 topic11 topic51 topic65 topic81 topic21 topic67 topic53 topic49 topic79 topic73 topic98 topic74 topic69 topic99 topic98 topic97 topic96 topic95 topic94 topic93 topic92 topic91 topic90 topic91 topic21 topic79 topic33 topic71 topic93 topic90 topic67 topic55 topic52 topic91 topic81 topic25 topic99 topic98 topic97 topic96 topic95 topic94 topic93 User ID 100261 1950 100261 2012 100261 3006 100261 3143 100261 3178 100261 3261 100261 3836 100261 4759 Bảng Độ xác mô hình User Model top topic User Model top topic user model top topic user model top topic user model top 10 topic Last Article top topic 30.43478261 61.49068323 73.29192547 76.39751553 78.88198758 Last Article top topic 56.52173913 85.71428571 88.19875776 90.0621118 91.92546584 Last Article top topic 65.2173913 88.19875776 90.68322981 92.54658385 93.78881988 Kết so sánh độ tương đồng chủ đề tin tức bình luận gần trang Web người dùng đọc bình luận trước cho thấy phân tích đề xuất sử dụng để tổng hợp mối quan tâm dự đoán tin tức người dùng ưa thích tương lai 33 100 90 80 70 60 Last Article Top Topic 50 Last Article Top Topic 40 Last Article Top Topic 30 20 10 User Model Top Topic User Model Top Topic User Model Top Topic User Model User Model Top Topic Top 10 Topic Hình 22 Biểu đồ độ xác mô hình Dựa kết thu được, luận văn nhận thấy đưa kết luận khác:  Nếu chọn mô hình người dùng gồm top 10 chủ đề ẩn cho độ xác cao  Nếu chọn mô hình người dùng từ chủ đề trở lên độ xác tăng lên cao hẳn so với trường hợp lấy chủ đề  Nếu tăng mô hình tin tức từ lên chủ đề độ xác tăng lên không nhiều so với trường hợp tăng từ lên 2, tăng mô hình người dùng từ lên chủ đề độ xác tăng lên không nhiều so với trường hợp tăng chủ đề từ lên Vì vậy, trường hợp có không gian lưu trữ để giới hạn số lượng tin tức tư vấn phương pháp lựa chọn chủ đề cho mô hình người dùng chủ đề cho mô hình tin tức phương án hợp lý 34 Kết luận Các kết đạt đƣợc Luận văn tìm hiểu khái niệm, thuật ngữ, kỹ thuật liên quan đến mô hình hóa người dùng phương tiện xã hội Dựa vào khảo sát, phân tích ưu nhược điểm phương pháp mô hình hóa nguồn liệu từ phương tiện xã hội, luận văn đề xuất giải pháp tư vấn tin tức dựa khai phá thói quen đọc bình luận tin tức người dùng trang báo điện tử VNExpress Trong đó, hệ thống thực thi tiến trình tự động thu thập liệu, thuật toán mô hình người dùng dựa phân tích chủ đề ẩn Hướng tiếp cận có nhiều tiềm chứng minh thông qua số số liệu thống kê kết ban đầu Một số vấn đề cần tiếp tục giải Tuy mô hình bước đầu đạt số kết khả quan, tồn nhiều vấn đề cần giải Đầu tiên, kết tư vấn áp dụng với người dùng có số lượt bình luận đủ lớn (vấn đề khởi động chậm) Thêm vào đó, chất lượng tư vấn từ mô hình người dùng dựa vào chủ đề tiếp tục nâng cao nhờ phân tích đặc trưng bổ sung phân tích thực thể nằm đoạn bình luận người dùng, phân tích quan điểm tích cực hay tiêu cực người dùng tin tức Hƣớng nghiên cứu Trong thời gian tới, việc tiếp tục giải vấn đề tồn tại, đinh : ̣ hướng mô ̣t số nghiên cứu tiế p theo  Nghiên cứu thêm yếu tố ngữ cảnh ảnh hưởng chúng đến định người dùng  Phát mối quan hệ tin cậy người dùng hệ thống  Bài toán tư vấn cho nhóm người dùng 35 Tài liệu tham khảo Tiếng Việt Tiếng Anh [1] Ahlqvist, T., Bäck, A., Halonen, M., & Heinonen, S (2008) Social Media Roadmaps Helsinki: Edita Prima Oy [2] Ahmed, A., Low, Y., Aly, M., Josifovski, V., & Smola, A J (2011) Scalable distributed inference of dynamic user interests for behavioral targeting Paper presented at the ACM Conference on Knowledeg Discovery and Data Mining (KDD) (pp 373-382) [3] Bamshad Mobasher: Data Mining for Web Personalization The Adaptive Web 2007:90-135 [4] Bo Hu, Zhao Song, and Martin Ester 2012 User Features and Social Networks for Topic Modeling in Online Social Media In Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012) (ASONAM '12) IEEE Computer Society, Washington, DC, USA, 202-209 [5] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching In: Proceedings of the 2nd International Conference on Autonomous Agents, Minneapolis/St Paul, May 9-13, (1998) 132-139 [6] David M Blei, Andrew Y Ng, Michael I Jordan: Latent Dirichlet Allocation Journal of Machine Learning Research (JMLR) 3:993-1022 (2003) [7] X Ding, B Liu, and P S Yu A holistic lexiconbased approach to opinion mining In Proceedings of the Conference on Web Search and Web Data Mining (WSDM), 2008 [8] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A User profiles for personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds The Adaptive Web: Methods and Strategies of Web Personalization Springer- Verlag, 36 Berlin Heidelberg New York, 2007, 54-89 [9] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information Filtering System for the Cultural Heritage Domain Applied Artificial Intelligence 17(8-9) (2003) 715-744 [10] Gueye, M., Abdessalem, T., & Naacke, H (2012) Dynamic recommender system: using cluster-based biases to improve the accuracy of the predictions [11] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report [12] Herlocker, L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating Collaborative Filtering Recommender Systems ACM Transactionson Information Systems 22(1), 5–53(2004) [13] T Hoffman Online reputation management is hot – but is it ethical? ComputerWorld, 2008 [14] L Hong and B D Davison Empirical study of topic modeling in twitter In Proceedings of the First Workshop on Social Media Analytics, SOMA ’10, pages 80– 88, New York, NY, USA, 2010 ACM [15] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010) User Interest Analysis with Hidden Topic in News Recommendation System IALP 2010: 211-214 [16] M Joshi and N Belsare Blogharvest: Blog mining and search framework In International Conference on Management of Data, Delhi, India, 2006, December 1416 2006 Computer Society of India [17] Kaplan, A M., & Haenlein, M (2010) Users of the world, unite! The challenges and opportunities of Social Media Business horizons, 53(1), 59-68 [18] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a bibliography ACM SIGIR Forum 37(2) (2003) 18-28 37 [19] Kietzmann, J H., Hermkens, K., Mccarthy, I P., & Silvestre, B S (2011) Social media? Get serious! Understanding the functional building blocks of social media Business horizons, 54(3), 241-251 [20] Milstein, S., Lorica, B., Magoulas, R., Hochmuth, G., Chowdhury, A., & O'Reilly, T (2008) Twitter and the micro-messaging revolution: Communication, connections, and immediacy 140 characters at a time O'Reilly Media, Incorporated [21] M Naaman, H Becker, and L Gravano Hip and trendy: Characterizing emerging trends on twitter Journal of the American Society for Information Science and Technology, 2011 [22] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying Interesting Web Sites In: Proceedings of the 13th National Conference On Artificial Intelligence Portland, Oregon, August 4–8 (1996) 54-61 [23] A M Popescu and O Etzioni Extracting product features and opinions from reviews In HLT ’05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 339–346, Morristown, NJ, USA, 2005 Association for Computational Linguistics [24] Pretschner, A.: Ontology Based Personalized Search Master’s thesis University of Kan- sas, June (1999) [25] S Sen, J Vig, and J Riedl Tagommenders: Connecting users to items through tags In Proc of WWW’ 09, pages 671–680, 2009 [26] J Tatemura Virtual reviewers for collaborative exploration of movie reviews In Proceedings of Intelligent User Interfaces (IUI), pages 272–275, 2000 [27] Thomas Hofmann Probabilistic latent semantic indexing In Proceedings of SIGIR-99, (1999) 35–44 [28] Le Dieu Thu On the analysis of large-scale datasets towards online contextual, Undergraduate Thesis, College of Technology, Vietnam National University, Hanoi, 38 2008 [29] Nguyen Cam Tu Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, 2008 [30] Tso-Sutter, K.H.L., L Marinho, and L Schmidt-Thieme Tag-aware recommender systems by fusion of collaborative filtering algorithms In Proc of Applied Computing, pages 1995–1999, 2008 [31] J Weng, E Lim, J Jiang, and Q He Twitterrank: finding topic-sensitive influential twitterers In Proceedings of the third ACM international conference on Web search and data mining, pages 261–270 ACM, 2010 [32] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes: A Swift Messenger In Cyberspace In: Proc 1999 AAAI Spring Symposium Workshop on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67 [33] D T Wijaya and S Bressan A random walk on the red carpet: rating movies with user reviews and pagerank In CIKM ’08: Proceeding of the 17th ACM conference on Information and knowledge management, pages 951–960 ACM, 2008 [34] W Zhang, C Yu, and W Meng Opinion retrieval from blogs In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 831–840 ACM, 2007 [35] L Zhuang, F Jing, X Zhu, and L Zhang Movie review mining and summarization In Proceedings of the ACM SIGIR Conference on Information and Knowledge Management (CIKM), 2006 39 [...]... phân tích chủ đề, chúng ta giả sử mỗi văn bản đề cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn bằng phân phối xác suất của của tài liệu đó trên các chủ đề Hình 8 Tài liệu với K chủ đề ẩn Có rất nhiều phương pháp phân tích thông tin chủ đề từ văn bản, điển hình là mô hình LDA [6] LDA là một mô hình sinh (generative model) và thực hiện phân tích chủ đề từ các tập... chọn nhầm Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn: 4  Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin tức người dùng đã từng bình luận  Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của chúng với những chủ đề trong mô hình người dùng... Các chủ đề có xác suất lớn hơn là các chủ đề mà nội dung chính của tin tức hướng tới Chú ý rằng số lượng các chủ đề ẩn là không đổi, và mỗi chủ đề đều có một xác suất phản ánh nội dung của văn bản Ví dụ, nếu ta chọn mô hình với 100 chủ đề ẩn để phân tích, mỗi văn bản được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá trị trong các chiều là trọng số xác suất của chủ đề tương... mô hình phân tích chủ đề 23 Tin tức mới được lưu trữ và được sử dụng để định kỳ huấn luyện lại mô hình chủ đề Suy diễn chủ đề Tin tức được suy diễn các chủ đề nó thuộc vào theo một mô hình chủ đề ẩn đã được huấn luyện Pha này, được thực hiện bởi hai bước:  Bƣớc 1 Suy diễn chủ đề ẩn: Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ đề ẩn phản ánh nội dung trong văn bản Các chủ. .. chủ đề, số chiều vector chủ đề bằng tham số trong bước suy diễn chủ đề Mỗi chiều trên vector ứng với một chủ đề, và giá trị tại mỗi chiều ứng với mức độ liên quan của tài liệu vào chủ đề đó o Danh sách các chủ đề có phân phối cao 3.3.2 Pha xây dựng mô hình ngƣời dùng Input: Log lịch sử bình luận của người dùng Output: Phân tích chủ đề của từng tin tức người dùng bình luận và xác định trọng số của từng... định trọng số của từng chủ đề trong mô hình mối quan tâm người dùng 24 Hình 15 Luồng xây dựng mô hình ngƣời dùng Pha này xây dựng mô hình người dùng dựa trên lịch sử các lần bình luận Dựa trên danh sách các tin tức người dùng từng bình luận Luồng xây dựng mô hình bắt đầu thực hiện như sau: Bƣớc 1: Truy vấn cơ sở dữ liệu các tin tức đã gán chủ đề, xác định trọng số các chủ đề ẩn của từng tin tức Bƣớc 2:... D các tài liệu mô tả mối quan tâm người dùng, sử dụng phân tích chủ đề ẩn ta được kết quả là tập các chủ đề của tài liệu di, kí hiệu là các TPj thuộc vào tập các chủ đề TP, với trọng số wtpj Topics(di) = {(TPj, wtpj),…} 22  Bƣớc 2: Gộp xác suất của các chủ đề bằng công thức xác suất trung bình, ta được tập hợp các chủ đề và trọng số về mức độ quan tâm của người dùng uk vào từng chủ đề tương ứng Topics(uk)... Avg(wdi,tpj),…}  Bƣớc 3: Xác định Top N chủ đề ẩn có xác suất phân phối cao nhất được sử dụng để biểu diễn mô hình người dùng 3.3 Áp dụng mô hình ngƣời dùng vào tƣ vấn tin tức Luận văn phát triển một mô hình tư vấn sử dụng mô hình người dùng đề xuất ở phần trước Trong đó, ý tưởng chung của việc tư vấn dựa trên xem các tin tức tư vấn tiềm năng là các tin tức mang thông tin về chủ đề người dùng từng quan tâm Ứng... toàn diện nhất hiện nay, nếu thua thì điều Note 5 thua duy nhất có lẽ là thương hiệu của Apple iPhone mà thôi 1002764224 … … 3.2.2 Mô hình ngƣời dùng Trong mô hình này, mối quan tâm của người dùng được biểu diễn bởi tập các chủ đề Xác định tập chủ đề ẩn ngƣời dùng quan tâm đƣợc thực hiện qua 3 bƣớc  Bƣớc 1: Từ tập tài liệu người dùng từng quan tâm, các chủ đề và phân phối của chúng vào từng tài liệu... chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà người dùng đã từng bình luận Các lý do có thể được nêu ra là:  Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ của các tác giả hoặc của những từ khóa nổi lên chỉ trong

Ngày đăng: 13/05/2016, 09:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w