Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
370,97 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MƠ HÌNH HĨA CHỦ ĐỀ NGUYỄN THỊ THU HUYỀN huyenthubka@gmail.com Chuyên ngành: Hệ thống thông tin quản lý Giảng viên hướng dẫn: Bộ môn: Viện: HÀ NỘI – 07/2022 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MƠ HÌNH HĨA CHỦ ĐỀ ĐỒ ÁN TỐT NGHIỆP Chuyên ngành: Hệ thống thông tin quản lý Chuyên sâu: Tin học Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Sinh viên thực hiện: Nguyễn Thị Thu Huyền MSSV: 20185457 Lớp: Hệ thống thông tin 01 – K63 HÀ NỘI – 07/2022 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Mục đích nội dung đồ án: Kết đạt được: Ý thức làm việc sinh viên: Hà Nội, ngày… tháng….năm 2022 Giảng viên hướng dẫn (Ký ghi rõ họ tên) Mục lục Lời cảm ơn Đặt vấn đề Danh mục hình vẽ CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 10 1.1 Hệ thống gợi ý 10 1.1.1 Hệ thống gợi ý gì? 10 1.1.2 Sự quan trọng hệ thống gợi ý .11 1.1.3 Ứng dụng 11 1.2 Mơ hình hóa chủ đề văn 13 1.2.1 Latent Semantic Allocation 13 1.2.2 LDA 15 1.3 Cơ sở lý thuyết 19 1.3.1 Cosine similarity 19 1.3.2 SVD 19 1.3.3 Tf – idf .20 CHƯƠNG 2: CÁC PHƯƠNG PHÁP GỢI Ý 23 2.1 Hệ thống gợi ý dựa nội dung 23 2.1.1 Mơ hình tổng quan 23 2.1.2 Cách thức hoạt động 28 2.1.3 Ưu điểm 29 2.1.4 Nhược điểm 29 2.2 Hệ thống gợi ý dựa người dùng – lọc cộng tác 30 2.2.1 Mơ hình tốn học 31 2.2.2 Cách thức hoạt động 37 2.2.3 Ưu điểm 38 2.2.4 Nhược điểm 38 2.3 Hệ thống gợi ý sử dụng phương pháp mơ hình hóa chủ đề 39 2.3.1 Hệ thống gợi ý dựa nội dung sử dụng mơ hình hố chủ đề 39 2.3.2 Cách thức hoạt động 39 2.3.3 Ưu điểm 40 2.3.4 Nhược điểm 40 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG GỢI Ý 41 3.1 Thu thập xử lý liệu 41 3.1.1 Thu thập 41 3.1.2 Xử lý liệu 41 3.2 Đào tạo mơ hình LDA 45 3.2.1 Xác định số lượng chủ đề cho mơ hình 45 3.2.2 Đào tạo mơ hình LDA 47 3.3 Xây dựng hệ thống gợi ý LDA 50 3.3.1 Xây dựng ma trận document - topic 50 3.3.2 Gợi ý viết 51 3.4 Kết 52 KẾT LUẬN 53 Tài liệu tham khảo 55 Lời cảm ơn Vốn dĩ đời dài chục năm cho ta vỏn vẹn vài năm xuân tuổi trẻ, mà khoảng thời gian ngắn ngủi đấy, vừa phải học tập, vừa phải lớn lên, trưởng thành, trải qua thăng trầm cảm xúc Nhưng năm tháng xn tơi có Bách Khoa bên, có Tốn Tin nhà Nếu nói đời chuyến tàu Bách Khoa điểm dừng chân mà không nỡ rời xa Vẫn nhớ ngày đầu lạ lẫm bước chân vào trường, cầm tay tờ giấy báo trúng tuyển mà lòng hân hoan vui sướng, mà khép lại chặng đường bốn năm mang tên Bách Khoa Đi qua năm tháng Bách Khoa, ta thấy tuổi trẻ đáng trân trọng Cảm ơn Bách Khoa, cảm ơn Toán Tin trang bị cho tơi hành trang để tơi bước tiếp chặng đường Đặc biệt, xin gửi lời cảm ơn đến cô TS.Nguyễn Thị Thanh Huyền tận tình hướng dẫn, bảo để em hồn thành đồ án Tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè người bạn ln bên cạnh ủng hộ, động viên, giúp tơi có thêm nhiều niềm vui, động lực để học tập hoàn thành đồ án Cảm ơn tất người! Đặt vấn đề Ngày nay, việc sử dụng Internet tất yếu sống Với Internet, truy cập thơng tin tồn giới cách nhanh chóng, dễ dàng đọc báo, viết với điện thoại thông minh hay ipad, laptop Nhu cầu tìm kiếm sản phẩm, tìm kiếm thông tin, viết ngày gia tăng Với lượng thông tin khổng lồ Internet với lượng người dùng tăng lên đáng kể, việc tìm kiếm, liên kết cung cấp cho khách hàng thông tin theo sở thích thị hiếu quan trọng Một thách thức người dùng làm để lựa chọn sản phẩm, hay tin tức đáp ứng nhu cầu tìm kiếm họ? Người dùng thường gặp vấn đề khó khăn việc tìm kiếm sản phẩm, viết lượng viết ngày nhiều, việc tìm kiếm tốn thời gian Vấn để đặt để người dùng tìm sản phẩm, viết vơ vàn lượng liệu mà họ tìm? Do đó, hệ thống gợi ý xây dựng để giải vấn đề Hệ thống gợi ý hỗ trợ người dùng tìm kiếm thơng tin cần thiết, dự đốn sở thích hay xếp hạng mà người dùng người dùng dành cho sản phẩm, viết mà người dùng xem xét khứ Từ gợi ý cho người dùng sản phẩm liên quan Với viết, việc khai thác nội dung gặp nhiều khó khăn văn có độ dài khác Các viết biểu diễn để khai thác mối quan hệ chúng cách hiệu ngày trở nên tinh vi phức tạp Các mơ hình chủ đề ẩn bước tiến quan trọng việc mơ hình hóa liệu văn Hai kĩ thuật phân tích chủ đề sử dụng mơ hình ẩn Probabilistic Latent Sematic Analysis(pLSA) Latent Dirichlet Allocation (LDA) Trong đồ án này, em xin lựa chon đề tài:” Xây dựng hệ thống gợi phương pháp mơ hình hóa chủ đề” nhằm xây dựng hệ thống, tích hợp hệ gợi ý để tối ưu hóa việc hiển thị nội dung báo phù hợp với đối tượng người đọc Danh mục hình vẽ Hình 1: Hệ thống gợi ý 10 Hình 2: Tổng quan mơ hình LSA 14 Hình 3: Ma trận documents – term 14 Hình 4: tf-idf cho giá trị ma trận trận documents – term 15 Hình 5: Phân tích ma trận gồm m documents n từ thành k topic 15 Hình 6: Mọi tài liệu bao gồm phân phối chủ đề 16 Hình 7: Mỗi chủ đề đặc trưng phân bố từ 16 Hình 8: Tài liệu với chủ đề ẩn 17 Hình 9: Ước lượng tham số cho tập liệu 17 Hình 10: Xây dựng mà trận phân phối topic 40 Hình 11: Biểu đồ Coherence score 46 Hình 12: Biểu đồ Jacar 47 Hình 13: Mơ hình tổng quan đào tạo mơ hình LDA 47 Hình 14: Phân bố topic 50 Hình 15: Ma trận documents – topics 50 Hình 16: Hệ thống gợi ý viết 51 Danh mục bảng Bảng 1: Unility Matrix biểu diễn giá trị "rating" người dùng sản phẩm 24 Bảng 2: Feature vector 26 Bảng 3: Thông tin users quan tâm tương ứng 26 Bảng 4: Mức độ quan tâm user 27 Bảng 5: Feature Vector (Thiếu nhi, Kỹ năng) 28 Bảng 6: Rating 31 Bảng 7: Tính giá trị trung bình rating user_i .32 Bảng 8: Chuẩn hóa Utility matrix 33 Bảng 9: Dự đốn giá trị rating cịn thiếu 34 Bảng 10: Quay lại giá trị trung bình rating user_i 35 Bảng 11: Giá trị trung bình rating item 35 Bảng 12: Chuẩn hóa ma trận 36 Bảng 13: Tính tốn độ tương đồng item 36 Bảng 14: Dự đốn rating cịn thiếu 36 Bảng 15: Chuẩn hóa ma trận 37 Bảng 16: Chuyển markdown sang text 42 Bảng 17: Parse HTML 44 Bảng 18: Tokenize 44 Bảng 19: Coherence Score 45 Bảng 20: Bảng jaccard similarity score 46 Bảng 21: Dictionary 48 Bảng 22: Corpus 49 Bảng 23: Topic mơ hình LDA 49 Bảng 24: Kết gợi ý số viết 52 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Hệ thống gợi ý 1.1.1 Hệ thống gợi ý gì? Hệ thống gợi ý hay Recommendation System [1] dạng hệ thống lọc thơng tin, sử dụng để dự đốn sở thích hay xếp hạng mà người dùng dành cho mục thơng tin(item) mà họ chưa xem xét tới (item báo, phim, sách, âm nhạc, …) nhằm gợi ý mục thơng tin quan tâm người dùng Hệ thống gợi ý đưa gợi ý dựa trình thu thập, xử lý phân tích liệu người dùng Trong hầu hết trường hợp, hệ thống gợi ý coi toán dự đoán việc xếp hạng sản phẩm (bài báo, phim, cuối sách, …) chưa người dùng biết đến Hệ thống gợi ý ứng dụng rõ ràng hữu dụng Khoa học liệu (Data Science) thời đại công nghệ số Chúng ta gặp ứng dụng hệ thống qua trang Amazon, Netflix, Vinabook, Tiki … Ngoài nội dung mà bạn xem, trang nói cịn hiển thị nội dung liên quan, giữ người dùng lại trang web lâu hơn, tăng số lượng khách hàng tiềm năng… Hình 1: Hệ thống gợi ý Nội dung liên quan nói gợi ý, kết tính tốn dựa việc thu thập liệu người dùng mua hàng, đưa đánh giá cá nhân dựa mối quan hệ người dùng hàng, hay 10 46 Bảng 19: Coherence Score Hình 11: Biểu đồ Coherence score Sau tính tốn liệu thu thập được, số lượng topic lựa chọn 45 cho “Coherence score” cao 0.6384 Jaccard similarity Số topic Bảng https://medium0.com/m/evaluate-topic-model-in-python-latent-dirichletallocation-lda-7d57484bb5d0 https://medium0.com/m/tags-recommendation-algorithm-using-latent-dirichlet-allocationlda-3f844abf99d7 47 Hình 12: Biểu đồ Jacar 3.2.2 Đào tạo mơ hình LDA Hình 13: Mơ hình tổng quan đào tạo mơ hình LDA 48 Trong bước này, cần xây dựng từ vựng kho văn bản, tất từ độc đáo kho văn cung cấp index số lượng tần số chúng lưu trữ Tạo tập từ vựng (Dictionary) kiểu liệu ánh xạ (mapping type) Các phần tử từ điển truy xuất qua khóa (key) Key từ đánh số thứ tự từ cho key ứng với giá trị tương ứng Mỗi key đại diện cho giá trị index … Tạo corpus: Là danh sách chứa liệu theo định dạng (thứ tự, số lần xuất hiện) Ví dụ: Input: giới_thiệu chào series terraform ansible terraform gitlab ci thiết_lập cicd infrastructure aws gitlab ci tính_năng tuyệt_vời gitlab ta use cases cicd implement gitlab ci tài_khoản gitlab ví_dụ đơn_giản ec aws thông_qua gitlab ci ok ta gitlab repository chứa code ta repository ta file code file đoạn code đơn_giản ec aws file ta file file chứa câu_lệnh ta cicd toàn_bộ docs file link giải_thích file init định_nghĩa tồn_bộ job cicd ta image chạy câu_lệnh terraform init provider ta chạy câu_lệnh plan apply plan init provider xong ta chạy câu_lệnh plan review resource ta artifacts ta output file ta truyền job job ta lưu toàn_bộ review xuất câu_lệnh plan file ta artifacts truyền job apply apply ta resource apply ta thuộc_tính gitlab ci đoạn job cần_ta approve chạy cache cache terraform state ta thuộc_tính Corpus: [(0, 1.0), (1, 1.0), (2, 1.0), (3, 8.0), (4, 1.0), (5, 2.0), 6, 5.0), (7, 5.0), (8, 1.0), (9, 4.0), (10, 2.0), (11, 7.0), (12, 4.0), (1, 1.0), (14, 1.0), (15, 1.0), (16, 49 1.0), (17, 3.0), (18, 12.0), (19, 1.0), 20, 1.0), (21, 1.0), (22, 1.0), (23, 2.0), (24, 1.0), (25, 2.0), (26, 15.0, …] Index … Thực đào tạo mơ hình LDA với dictionary corpus bên Sau đào tạo mơ hình: Bảng 23: Topic mơ hình LDA 50 51 Hình 14: Phân bố topic 3.3 Xây dựng hệ thống gợi ý LDA 3.3.1 Xây dựng ma trận document - topic Sau tạo ta thu mô hình LDA với 45 chủ đề Thực tạo ma trận phân phối 33700 viết 45 topic Thu ma trận phân phối topic tổng số viết 33700 x 45 Hình 15: Ma trận documents – topics 3.3.2 Gợi ý viết Ứng với viết người dùng lựa chọn, thực xác định phân phối chủ đề viết đó, thu vector phân phối tương ứng Thực tính tốn độ tương đồng vectơ với viết khác thông qua ma trận document-topic Độ tương đồng phân phối thực khoảng cách Jensen Shannon Khoảng cách Jensen Shannon nhỏ phân phối có độ tương đồng cao Lấy top K số có khoảng cách nhỏ nhất, truy vấn sở liệu đưa gợi ý cho người dùng 52 Hình 16: Hệ thống gợi ý viết 3.4 Kết Tiêu đề LÀM AUTOMATION TEST chút, ngành IT KHÁC ĐI! Tìm hiểu File Upload Laravel Tìm hiểu tốn OCR với CRNN CTC loss - OCR from scratch with PyTorch KẾT LUẬN Nhìn chung, mơ hình đưa gợi ý viết chủ đề, lĩnh vực liên quan, gần tới viết gốc Qua thấy mơ hình phân tích chủ đề LDA hoạt động tốt mơ hình gợi ý dựa chủ đề đáp ứng yêu cầu hệ thống gợi ý đưa vào sử dụng Tuy nhiên mơ hình cịn hạn chế liệu trình thu thập hạn chế khơng có thời gian viết bài, tác giả, thơng tin người đọc, … nên mơ 54 hình áp dụng mơ hình phân tích chủ đề đơn giản, chưa tận dụng thông tin khác liên quan nhằm kết hợp nâng cao chất lượng gợi ý Để khắc phục hạn chế phát triển mơ hình theo hướng sau: - Áp dụng phương pháp nhằm nâng cao chất lượng viết gợi ý như: tác giả, tiêu đề giống (phần 1, phần 2, …), … - Kết hợp tận dụng thơng tin khác thu thập - Áp dụng mơ hình cho tốn cụ thể nhằm đánh giá chất lượng mơ hình cách xác 55 Content - Based Filtering, 21 Cosine Similarity, 17, 18, 27 Collabroative Filtering, 28 Cold Start, 21, 36 Corpus, 16, 17, 46, 47 Coherence Score, 43, 44 Dictionary, 46, 47 Feature vector, 23, 24, 26, 27, 29 Item-Item CF, 33, 35 Item Profiles, 29 Jaccard Similarity, 44 Jensen Shannon, 49 LSA, 6, 12, 17, 37, 38 LDA, 6, 14, 47, 48, 51 56 Tài liệu tham khảo [1] Garcia, E - A Cosine Similarity Tutorial, 2015 [2] Siraj Munir, Shaukat Wasi - A Comparison of Topic Modelling Approaches for Urdu Text, 2019 [3] Bijoyan Das, Sarit Chakraborty - An Improved Text Sentiment Classification Model Using TF-IDF and Next Word Negation, 2018 [4] Thomas K Landauer, Peter W Foltz, Darrell Laham - An Introduction to Latent Semantic Analysis, 1998 [5] Ayisha Tabassum1, Dr Rajendra R Patil - A Survey on Text Pre-Processing & Feature Extraction Techniques in Natural Language Processing, 2020 [6] V Thada, Vivek Jaglan - Comparison of Jaccard, Dice, Cosine Similarity Coefficient To Find Best Fitness Value for Web Retrieved Documents Using Genetic Algorithm [7] Vũ Hữu Tiệp - Ebook Machine learning bản, 2016 [8] 2003 David M Blei, Andrew Y Ng - Latent Dirichlet Allocation, [9] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B.Kantor - Recommender Systems Handbook , 2010 [10] Stefan B Beckers - Recommander system, Duisburg Publisher, 2006 57 58 ... phổ biến 2.3 Hệ thống gợi ý sử dụng phương pháp mơ hình hóa chủ đề 2.3.1 Hệ thống gợi ý dựa nội dung sử dụng mơ hình hố chủ đề Việc sử dụng mơ hình hố chủ đề để xây dựng hệ thống gợi ý dựa nội dung... Dirichlet Allocation (LDA) Trong đồ án này, em xin lựa chon đề tài:” Xây dựng hệ thống gợi phương pháp mô hình hóa chủ đề? ?? nhằm xây dựng hệ thống, tích hợp hệ gợi ý để tối ưu hóa việc hiển thị nội dung... HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MƠ HÌNH HĨA CHỦ ĐỀ ĐỒ ÁN TỐT NGHIỆP Chuyên ngành: Hệ thống thông tin quản lý Chuyên sâu: Tin học Giảng