Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Khai phá dữ liệu vết duyệt web cho tư vấn cá nhân hóa

25 58 0
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Khai phá dữ liệu vết duyệt web cho tư vấn cá nhân hóa

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề tài được thực hiện với mục tiêu nhằm xây dựng một mô hình hệ tư vấn tự động trên các website tạp chí Tiếng Việt, nhằm mục đích gợi ý những nội dung liên quan tới sở thích của từng cá nhân người dùng, dựa trên lịch sử duyệt web của họ trên website đó (vết duyệt web). Mời các bạn cùng tham khảo Luận văn.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẠC ĐAN THANH KHAI PHÁ DỮ LIỆU VẾT DUYỆT WEB CHO TƯ VẤN CÁ NHÂN HÓA Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 Lời mở đầu Đối mặt với tình trạng bùng nổ thơng tin nay, ngày bạn nhiều thời gian việc lựa chọn thông tin hay sản phẩm phù hợp với Cùng với phát triển thương mại điện tử (ecommerce), hệ tư vấn xuất với vai trò vơ quan trọng việc hỗ trợ người dùng lựa chọn sản phẩm phù hợp đồng thời tăng giá trị kinh doanh cho doanh nghiệp Và nay, hệ tư vấn ứng dụng rộng khắp nhiều lĩnh vực khác mạng xã hội, trang tin tức, giải trí, du lịch,…, với thơng tin người dùng quan tâm thấy xuất hệ tư vấn Mặc dù vai trò lợi ích hệ tư vấn lớn, nhiên Việt Nam, hệ thống chưa thực phổ biến thơ sơ Đa phần trang web Việt Nam chưa có hệ thống gợi ý hiệu dựa profile người dùng, mà sử dụng phương pháp đơn giản gán nhãn tay (thẻ catagoried tags), thống kê để gợi ý thông tin, sản phẩm liên quan với sản phẩm xem, hay gợi ý thông tin bật nhiều người quan tâm Chính vậy, luận văn mong muốn xây dựng mơ hình hệ tư vấn tự động website tạp chí tiếng việt, nhằm mục đích gợi ý nội dung liên quan tới sở thích cá nhân người dùng, dựa lịch sử duyệt web họ website (vết duyệt web) Nội dung luận văn bao gồm nội dung sau: Chương Hệ tư vấn toán tư vấn: Trình bày nội dung hệ tư vấn bao gồm mơ tả tốn tư vấn, ứng dụng hệ thống tiếng, phân loại kĩ thuật tư vấn Chương Khai phá liệu vết duyệt web người dùng cho hệ tư vấn: Phân loại liệu profile người dùng, ưu nhược điểm loại liệu số nghiên cứu, phương pháp ứng dụng miền liệu Giới thiệu hệ tư vấn nội dung website dựa vết duyệt web xây dựng luận văn Chương Mơ hình hệ tư vấn nội dung website dựa vết duyệt web: Trình bày mơ hình tư vấn nội dung website chúng tơi đề xuất, mơ hình tư vấn cộng tác kết hợp phương pháp ước lượng hạng giả định theo mơ hình chủ đề ẩn LDA Chương Thực nghiệm đánh giá: Thử nghiệm đánh giá mô hình hệ thống với liệu thực tế từ trang web http://www.otoxemay.vn/ http://www.emdep.vn/ Phần kết luận tổng kết nội dung luận văn, vấn đề tồn định hướng phát triển hệ thống Chương Hệ tư vấn toán tư vấn Giới thiệu hệ tư vấn Hệ tư vấn (recommender system, gọi hệ gợi ý) cơng cụ phần mềm kỹ thuật cung cấp tư vấn mục (item; ví dụ phim, CD, nhà hàng,…) cho người dùng [2] Item thuật ngữ chung để mà hệ thống muốn tư vấn cho người dùng Một vài hệ tư vấn tiếng [3] hệ tư vấn phim MovieLens, tư vấn sách CDs Amazon.com, tư vấn nhà hàng Adaptive Place Advisor,… 1.1 Bài toán tư vấn Theo Adomavicius Tuzhilin [5], hầu hết trường hợp, toán tư vấn coi toán ước lượng trước hạng item chưa người dùng xem xét Việc ước lượng thường dựa đánh giá có người dùng người dùng khác Những item có hạng cao dùng để tư vấn Một cách hình thức, tốn tư vấn mơ tả sau: Gọi C tập tất người dùng; S tập tất item tư vấn Hàm u(c,s) đo độ phù hợp (hay hạng) item s với user c: u: C x S → R Với người dùng c ∈ C, cần tìm sản phẩm s′ ∈ S cho hàm u(c, s’) đạt giá trị lớn nhất: ∀c ∈ C, s′c = arg max u(c, s’), s’ ∈ S Vấn đề hệ tư vấn giá trị hàm u chưa có tồn khơng gian R mà miền nhỏ khơng gian Nhiệm vụ hệ tư vấn ngoại suy, dự đoán hạng mà người dùng ci đánh giá item sj chưa đánh giá, từ đưa danh sách item có hạng cao với người dùng ci 1.2 Các kĩ thuật tư vấn Các hệ thống tư vấn thường phân thành bốn loại dựa kỹ thuật tư vấn [4]: - Dựa nội dung (content-based): người dùng gợi ý sản phẩm tương tự sản phẩm họ đánh giá cao - Cộng tác (collaborative): người dùng gợi ý sản phẩm đánh giá cao người có sở thích với họ - Dựa tri thức (knowledge-based): người dùng gợi ý sản phẩm đáp ứng với yêu cầu đặt họ - Lai ghép (hybrid): kết hợp phương pháp 1.3 Kĩ thuật tư vấn dựa nội dung Hệ tư vấn dựa nội dung đưa tư vấn dựa đoán người thích sản phẩm có nhiều đặc trưng tương tự với 1.3.1 sản phẩm mà họ ưa thích Theo [5], với phương pháp tư vấn dựa nội dung, độ phù hợp u(c, s) sản phẩm s với người dùng c đánh giá dựa độ phù hợp u(c, si), si ϵ S “tương tự” s Ví dụ, để gợi ý phim cho người dùng c, hệ thống tư vấn tìm đặc điểm phim c đánh giá cao (như diễn viên, đạo diễn…); sau phim tương đồng với sở thích c giới thiệu Hình 1.1 Tư vấn dựa nội dung [7] Phương pháp tư vấn theo nội dung làm việc hiệu với tài liệu văn có nhiều ứng dụng thực tế hệ thống lọc email, thư rác… phương pháp nhiều hệ thống tư vấn sử dụng tính dễ cài đặt, hiệu xử lý liệu văn Nhược điểm phương pháp gặp khó khăn vấn đề trích chọn đặc trưng với kiểu liệu văn Kĩ thuật tư vấn cộng tác Theo Adomavicius cộng [5], không giống phương pháp tư vấn dựa nội dung, hệ thống cộng tác dự đoán độ phù hợp u(c,s) sản phẩm s với người dùng c dựa độ phù hợp u(cj, s) người dùng cj s, cj người có sở thích với c Hệ tư vấn loại chia thành hai loại: dựa kinh nghiệm (heuristic-based hay memory-based) dựa mô hình (model-based) 1.3.2 Hình 1.2 Tư vấn dựa cộng tác [7] Hệ thống tư vấn cộng tác khắc phục nhiều nhược điểm hệ thống dựa nội dung Một điểm quan trọng xử lý loại liệu gợi ý loại sản phẩm, kể sản phẩm mới, khác hoàn tồn so với người dùng xem nhờ vào tham khảo ý kiến người dùng khác sở thích sản phẩm, hiệu sản phẩm khơng có mơ tả rõ ràng đặc trưng nôi dung Tuy nhiên, hệ thống lọc dựa cộng tác gặp số vấn đề vấn đề liệu thưa hay vấn đề sản phẩm Kĩ thuật tư vấn dựa tri thức Với miền liệu đặc thù khác, ví dụ điện máy, miền liệu bao gồm phần lớn sản phẩm mua lần khoảng thời gian dài, đồng thời có yêu cầu chi tiết với sản phẩm Do phương pháp cộng tác hay dựa nội dung không đáp ứng trường hợp Theo [4], hầu hết kỹ thuật tư vấn dựa tri thức, hệ thống cần thêm thông tin cung cấp khách hàng yêu cầu người mua sản phẩm, từ đưa tư vấn thỏa mãn yêu cầu người dùng Hệ tư vấn ràng buộc (Constraint-based recommender) ví dụ hệ tư vấn Các hệ thống tư vấn dựa tri thức có ưu điểm hoạt động tốt từ lúc đầu triển khai, không phụ thuộc liệu học phương pháp cộng tác hay dựa nội dung Tuy nhiên, nhược điểm hệ thống này, khơng khai thác lịch sử tương tác người với máy tính, hạn chế sản phẩm đối tượng tư vấn 1.3.3 Phương pháp lai ghép Phương pháp lai ghép kết hợp hai nhiều phương pháp tư vấn, nhìn chung phân thành ba cách kết hợp sau [4]: - Xây dựng mơ hình khối hợp (monolithic hybridization): sử dụng kết hợp đặc trưng phương pháp cho đặc trưng mơ hình - Xây dựng mơ hình song song (parallelized hybridization): cài đặt phương pháp riêng rẽ kết hợp kết dự đoán chúng - Xây dựng mơ hình nối tiếp (pipelined hybridization): đầu phương pháp đầu vào phương pháp 1.3.4 Chương Khai phá liệu vết duyệt web người dùng cho hệ tư vấn Phân loại liệu profile người dùng Để xây dựng hệ tư vấn cá nhân hóa cần phải thiết lập hồ sơ (profile) người dùng Trong trình sử dụng internet như: lướt web, mua sắm online, xem phim, nghe nhạc, … người dùng thực nhiều tác vụ khác nhau, tác vụ ghi lại máy chủ website mà người dùng vừa truy Những tác vụ chia thành hai loại thông tin đánh giá ẩn (implicit feedback) thông tin đánh giá rõ ràng (explicit feedback) 2.1 Thông tin đánh giá rõ ràng Thông tin đánh giá rõ ràng tác vụ người dùng đem lại liệu cách trực tiếp cho người muốn thu thập liệu Ví dụ như: nút like hay dislike trang mạng xã hội, trang chia sẻ video trực tuyến, hệ thống vote theo thang điểm (1-5 sao),… Có nhiều hệ tư vấn tiếng sử dụng liệu hệ tư vấn phim Netflix, MovieLens dựa việc thu thập ý kiến đánh giá trực tiếp người dùng (vote theo thang điểm) Tuy nhiên loại thơng tin đánh giá rõ ràng có số nhược điểm: - Khó để thu thập: người dùng xem xong nhạc hay, mua đồ ưa thích, hay đọc sách, thường mong chờ họ đánh giá xem nội dung họ Nhưng đừng mong họ làm thế, với số lượng lớn người dùng internet - Người dùng thường không quay lại để update đánh giá họ làm trước đó: sở thích thay đổi theo thời gian 2.1.1 Thơng tin đánh giá ẩn Thông tin đánh giá ẩn tác vụ mà người dùng thực website không trực tiếp yêu cầu họ phải đánh giá hay làm lên nội dung mà họ vừa xem Nói cách khác, hệ thống quan sát xem user làm mà thơi, ví dụ lịch sử duyệt web người dùng, lịch sử giao dịch mua bán, hay phức tạp ví dụ quan sát người dùng có nghe hết hát hay nghe hát lần, Hệ thống khơng u cầu người dùng phải tác động lên nội dung, mà quan sát thói quen họ hay làm website, sau thời gian đưa profile người dùng qua xây dựng hệ thống tốt để phục vụ họ Ví dụ Yifan Hu cộng [17] đưa mơ hình sử dụng ma trận hệ số cho hệ tư vấn chương trình truyền hình (TV shows), sử dụng thông tin đánh giá ẩn số lần xem tỉ lệ xem hết chương trình 2.1.2 người dùng [18], [19], [20] nghiên cứu việc xây dựng hệ tư vấn sách điện tử dựa đánh giá ấn từ hành vi đọc sách online người dùng, thơng tin thời điểm dừng đọc tỉ lệ trang đọc sách Nhược điểm lớn đánh giá ẩn thơng tin người dùng đơi lúc hồn tồn sai lệch: - Cơ A mua vài đồ Amazon khơng ta cần thích Mà mua hộ mua làm quà - Khó để biết liệu phim A xem nhiều lần, u thích phim B xem lần, hay đơn giản phim B nhiều tập Thông tin đánh giá ẩn ưu điểm dễ thu thập thu thập đa dạng thông tin, để sử dụng cần phải nghiên cứu xem xét cẩn thận, xây dựng hệ tư vấn hiệu quả, phù hợp với mục đích website Sử dụng mơ hình chủ đề ẩn LDA liệu vết duyệt web Dữ liệu vết duyệt web kiểu thông tin đánh giá ẩn, rõ ràng người dùng thích hay khơng thích nội dung url đọc, nhiên với lịch sử truy cập đủ lâu, vết duyệt web định hình sở thích người đọc, đặc biệt với website theo hướng tạp chí Mơ hình chủ đề ẩn LDA xác định độ phù hợp url với sở thích đọc người dùng, để giả định đánh giá người dùng cho url 2.2 Khái qt mơ hình chủ đề ẩn LDA Mơ hình chủ đề ẩn mơ hình xác suất phân phối chủ đề ẩn tài liệu Chúng xây dựng dựa ý tưởng tài liệu có xác suất phân phối vào chủ đề, chủ đề phân phối kết hợp từ khóa Hay nói cách khác, ý tưởng dựa việc coi tài liệu pha trộn chủ đề Biểu diễn từ tài liệu dạng phân phối xác suất có lợi ích lớn so với khơng gian vector thơng thường Sử dụng mơ hình chủ đề ẩn để biết xác suất chủ đề ẩn nội dung văn xét Xác suất biểu diễn theo vectơ thể phân bố nội dung văn chủ đề theo xác suất Từ đó, sử dụng vecto làm đặc trưng nội dung để so sánh tương đồng hai văn 2.2.1 Mơ hình LDA việc ước lượng hạng giả định cho mơ hình tư vấn Mơ hình sử dụng phân phối chủ đề tài liệu tìm LDA để làm đặc trưng nội dung cho việc xây dựng vector đặc trưng người dùng vector đặc trưng cho url đọc Giả sử xác định K chủ đề ẩn từ tập liệu học Với tài liệu t, mơ hình tính xác suất để tài liệu t thuộc vào topic i pt(i), với i=1,…,k Từ xác định vector đặc trưng nội dung từ mơ hình chủ đề ẩn LDA : 2.2.2  t  ( pt1 , pt2 , , ptk ) Vector đặc trưng người dùng phân phối xác suất chủ đề ẩn nội dung tất url mà người dùng đọc Tương tự, vector đặc trưng cho url phân phối xác suất chủ đề ẩn nội dung url Từ vết duyệt web người dùng biểu diễn dạng tập vector đặc trưng không gian chủ đề ẩn:     pi = { ui , i1 , i2 , …., ik }   Trong đó: ui vector đặc trưng cho người dùng ui, i j vector đặc trưng url ij đọc Để ước lượng hạng giả định cho cập người dùng – url, ta so sánh giống hai phân phối xác suất chúng Có thể sử dụng khoảng cách cosine (1), độ đo không gian vector, hay độ đo Jensen–Shannon (2) thước đo độ tương đồng không gian phân phối xác suất Các độ đo tương đồng có giá trị từ đến 1, với ý nghĩa giá trị lớn độ tương đồng hai vector lớn n   (1) : cos( A, B )  A.B  A B AB i 1 n i i n A B i 1 i i 1 i (2) : JSD1 , ( P1 , P2 )  H  1P1   P2    1H ( P1 )   H ( P2 )  Trong  ,  trọng số lựa chọn cho phân phối xác suất P1, P2 H(P) Shannon entropy phân phối P: H   pi log b pi (pi i giá trị xác suất phân phối xác suất P) 1    b = 2 Thông thường chọn Bài toán tư vấn nội dung website dựa vết duyệt web người dùng Với trang web Việt Nam nay, nhìn chung hệ thống gợi ý đơn giản, chưa hướng tới cá nhân người dùng, chưa đạt hiệu cao Các nội dung gợi ý thường tin mới, tin nhiều người xem, tin liên quan tới viết đọc Và vậy, với người dùng họ nhận danh sách gợi ý nhau, bị trùng lặp nội dung đọc, nội dung gợi ý chưa phù hợp với sở thích cá nhân người xem Do vậy, nhu cầu xây dựng hệ tư vấn cá nhân hóa cho website Việt Nam cần thiết, vấn đề nhiều người quan tâm Vì lí trên, luận văn hướng đến việc xây dựng mô hình hệ tư vấn cá nhân hóa website Việt nam dựa vết duyệt web người dùng website Phương pháp sử dụng tư vấn dựa cộng tác kết hợp giả định hạng item (url website) thông qua mơ hình chủ đề ẩn LDA 2.3 Phát biểu tốn Với website, ta có tập W gồm tất nội dung url website, tập U gồm tất người dùng website W = {c1, c2, …, cn} U = {u1, u2, …, um} Tập liệu vết duyệt web người dùng, P = {p1, p2, ….pm} Trong đó: pi vết duyệt web người dùng ui trang web xét pi = {(t1, i1), (t2, i2),….(tk, ik)}, k

Ngày đăng: 18/01/2020, 18:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan