ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MÔ HÌNH HÓA CHỦ ĐỀ

58 3 0
ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MÔ HÌNH HÓA CHỦ ĐỀ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MƠ HÌNH HĨA CHỦ ĐỀ NGUYỄN THỊ THU HUYỀN huyenthubka@gmail.com Chuyên ngành: Hệ thống thông tin quản lý Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền _ Bộ mơn: Tốn Tin Viện: Tốn ứng dụng tin học HÀ NỘI – 07/2022 Chữ kí GVHD TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC XÂY DỰNG HỆ THỐNG GỢI Ý BẰNG PHƯƠNG PHÁP MƠ HÌNH HĨA CHỦ ĐỀ ĐỒ ÁN TỐT NGHIỆP Chuyên ngành: Hệ thống thông tin quản lý Chuyên sâu: Tin học Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Sinh viên thực hiện: Nguyễn Thị Thu Huyền MSSV: 20185457 Lớp: Hệ thống thông tin 01 – K63 HÀ NỘI – 07/2022 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Mục đích nội dung đồ án: Kết đạt được: Ý thức làm việc sinh viên: Hà Nội, ngày… tháng….năm 2022 Giảng viên hướng dẫn (Ký ghi rõ họ tên) Mục lục Lời cảm ơn Đặt vấn đề Danh mục hình vẽ CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 10 1.1 Hệ thống gợi ý .10 1.1.1 Hệ thống gợi ý gì? .10 1.1.2 Sự quan trọng hệ thống gợi ý 11 1.1.3 Ứng dụng 11 1.2 Mơ hình hóa chủ đề văn .13 1.2.1 Latent Semantic Allocation 13 1.2.2 LDA 15 1.3 Cơ sở lý thuyết 19 1.3.1 Cosine similarity 19 1.3.2 SVD 19 1.3.3 Tf – idf 20 CHƯƠNG 2: CÁC PHƯƠNG PHÁP GỢI Ý 23 2.1 Hệ thống gợi ý dựa nội dung 23 2.1.1 Mơ hình tổng quan .23 2.1.2 Cách thức hoạt động 28 2.1.3 Ưu điểm .29 2.1.4 Nhược điểm 29 2.2 Hệ thống gợi ý dựa người dùng – lọc cộng tác 30 2.2.1 Mơ hình tốn học 31 2.2.2 Cách thức hoạt động 37 2.2.3 Ưu điểm 38 2.2.4 Nhược điểm 38 2.3 Hệ thống gợi ý sử dụng phương pháp mơ hình hóa chủ đề .39 2.3.1 Hệ thống gợi ý dựa nội dung sử dụng mơ hình hố chủ đề 39 2.3.2 Cách thức hoạt động 39 2.3.3 Ưu điểm 40 2.3.4 Nhược điểm 40 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG GỢI Ý .41 3.1 Thu thập xử lý liệu 41 3.1.1 Thu thập .41 3.1.2 Xử lý liệu 41 3.2 Đào tạo mô hình LDA 45 3.2.1 Xác định số lượng chủ đề cho mơ hình 45 3.2.2 Đào tạo mơ hình LDA 47 3.3 Xây dựng hệ thống gợi ý LDA 50 3.3.1 Xây dựng ma trận document - topic 50 3.3.2 Gợi ý viết 51 3.4 Kết 52 KẾT LUẬN 53 Tài liệu tham khảo 55 Lời cảm ơn Vốn dĩ đời dài chục năm cho ta vỏn vẹn vài năm xuân tuổi trẻ, mà khoảng thời gian ngắn ngủi đấy, vừa phải học tập, vừa phải lớn lên, trưởng thành, trải qua thăng trầm cảm xúc Nhưng năm tháng xn tơi có Bách Khoa bên, có Tốn Tin nhà Nếu nói đời chuyến tàu Bách Khoa điểm dừng chân mà không nỡ rời xa Vẫn nhớ ngày đầu lạ lẫm bước chân vào trường, cầm tay tờ giấy báo trúng tuyển mà lòng hân hoan vui sướng, mà khép lại chặng đường bốn năm mang tên Bách Khoa Đi qua năm tháng Bách Khoa, ta thấy tuổi trẻ đáng trân trọng Cảm ơn Bách Khoa, cảm ơn Toán Tin trang bị cho tơi hành trang để tơi bước tiếp chặng đường Đặc biệt, xin gửi lời cảm ơn đến cô TS.Nguyễn Thị Thanh Huyền tận tình hướng dẫn, bảo để em hồn thành đồ án Tơi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè người bạn ln bên cạnh ủng hộ, động viên, giúp tơi có thêm nhiều niềm vui, động lực để học tập hoàn thành đồ án Cảm ơn tất người! Đặt vấn đề Ngày nay, việc sử dụng Internet tất yếu sống Với Internet, truy cập thơng tin tồn giới cách nhanh chóng, dễ dàng đọc báo, viết với điện thoại thông minh hay ipad, laptop Nhu cầu tìm kiếm sản phẩm, tìm kiếm thơng tin, viết ngày gia tăng Với lượng thông tin khổng lồ Internet với lượng người dùng tăng lên đáng kể, việc tìm kiếm, liên kết cung cấp cho khách hàng thông tin theo sở thích thị hiếu quan trọng Một thách thức người dùng làm để lựa chọn sản phẩm, hay tin tức đáp ứng nhu cầu tìm kiếm họ? Người dùng thường gặp vấn đề khó khăn việc tìm kiếm sản phẩm, viết lượng viết ngày nhiều, việc tìm kiếm tốn thời gian Vấn để đặt để người dùng tìm sản phẩm, viết vơ vàn lượng liệu mà họ tìm? Do đó, hệ thống gợi ý xây dựng để giải vấn đề Hệ thống gợi ý hỗ trợ người dùng tìm kiếm thơng tin cần thiết, dự đốn sở thích hay xếp hạng mà người dùng người dùng dành cho sản phẩm, viết mà người dùng xem xét khứ Từ gợi ý cho người dùng sản phẩm liên quan Với viết, việc khai thác nội dung gặp nhiều khó khăn văn có độ dài khác Các viết biểu diễn để khai thác mối quan hệ chúng cách hiệu ngày trở nên tinh vi phức tạp Các mơ hình chủ đề ẩn bước tiến quan trọng việc mô hình hóa liệu văn Hai kĩ thuật phân tích chủ đề sử dụng mơ hình ẩn Probabilistic Latent Sematic Analysis(pLSA) Latent Dirichlet Allocation (LDA) Trong đồ án này, em xin lựa chon đề tài:” Xây dựng hệ thống gợi phương pháp mơ hình hóa chủ đề” nhằm xây dựng hệ thống, tích hợp hệ gợi ý để tối ưu hóa việc hiển thị nội dung báo phù hợp với đối tượng người đọc Danh mục hình vẽ Hình 1: Hệ thống gợi ý 10 Hình 2: Tổng quan mơ hình LSA 14 Hình 3: Ma trận documents – term .14 Hình 4: tf-idf cho giá trị ma trận trận documents – term 15 Hình 5: Phân tích ma trận gồm m documents n từ thành k topic .15 Hình 6: Mọi tài liệu bao gồm phân phối chủ đề 16 Hình 7: Mỗi chủ đề đặc trưng phân bố từ 16 Hình 8: Tài liệu với chủ đề ẩn .17 Hình 9: Ước lượng tham số cho tập liệu 17 Hình 10: Xây dựng mà trận phân phối topic 40 Hình 11: Biểu đồ Coherence score .46 Hình 12: Biểu đồ Jacar 47 Hình 13: Mơ hình tổng quan đào tạo mơ hình LDA .47 Hình 14: Phân bố topic 50 Hình 15: Ma trận documents – topics 50 Hình 16: Hệ thống gợi ý viết 51 Danh mục bảng Bảng 1: Unility Matrix biểu diễn giá trị "rating" người dùng sản phẩm 24 Bảng 2: Feature vector 26 Bảng 3: Thông tin users quan tâm tương ứng .26 Bảng 4: Mức độ quan tâm user .27 Bảng 5: Feature Vector (Thiếu nhi, Kỹ năng) .28 Bảng 6: Rating 31 Bảng 7: Tính giá trị trung bình rating user_i 32 Bảng 8: Chuẩn hóa Utility matrix .33 Bảng 9: Dự đốn giá trị rating cịn thiếu .34 Bảng 10: Quay lại giá trị trung bình rating user_i 35 Bảng 11: Giá trị trung bình rating item 35 Bảng 12: Chuẩn hóa ma trận .36 Bảng 13: Tính tốn độ tương đồng item 36 Bảng 14: Dự đốn rating cịn thiếu .36 Bảng 15: Chuẩn hóa ma trận .37 Bảng 16: Chuyển markdown sang text 42 Bảng 17: Parse HTML 44 Bảng 18: Tokenize 44 Bảng 19: Coherence Score 45 Bảng 20: Bảng jaccard similarity score .46 Bảng 21: Dictionary 48 Bảng 22: Corpus 49 Bảng 23: Topic mô hình LDA 49 Bảng 24: Kết gợi ý số viết .52 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Hệ thống gợi ý 1.1.1 Hệ thống gợi ý gì? Hệ thống gợi ý hay Recommendation System [1] dạng hệ thống lọc thơng tin, sử dụng để dự đốn sở thích hay xếp hạng mà người dùng dành cho mục thơng tin(item) mà họ chưa xem xét tới (item báo, phim, sách, âm nhạc, …) nhằm gợi ý mục thơng tin quan tâm người dùng Hệ thống gợi ý đưa gợi ý dựa trình thu thập, xử lý phân tích liệu người dùng Trong hầu hết trường hợp, hệ thống gợi ý coi toán dự đoán việc xếp hạng sản phẩm (bài báo, phim, cuối sách, …) chưa người dùng biết đến Hệ thống gợi ý ứng dụng rõ ràng hữu dụng Khoa học liệu (Data Science) thời đại cơng nghệ số Chúng ta gặp ứng dụng hệ thống qua trang Amazon, Netflix, Vinabook, Tiki … Ngoài nội dung mà bạn xem, trang nói cịn hiển thị nội dung liên quan, giữ người dùng lại trang web lâu hơn, tăng số lượng khách hàng tiềm năng… Hình 1: Hệ thống gợi ý Nội dung liên quan nói gợi ý, kết tính tốn dựa việc thu thập liệu người dùng mua hàng, đưa đánh giá cá nhân dựa mối quan hệ người dùng hàng, hay 10 Bảng 16: Chuyển markdown sang text Làm liệu Tiếp theo loại bỏ thành phần không mang nhiều ý nghĩa cho câu gây nhiễu huấn luyện mơ hình - Phân tích HTML loại bỏ thẻ HTML: Bỏ thẻ phần nội dung nằm thẻ đặc biệt như: , , thẻ dùng để bọc đoạn code, command, nên khơng có nhiều ý nghĩa - Loại bỏ đường dẫn link: Trong viết xuất đường link không cung cấp nhiều thơng tin cho việc huấn luyện mơ hình Vì thế, cần loại bỏ để đảm bảo độ xác mơ hình - Loại bỏ email: Nội dung viết tác giả thường đính kèm email để người đọc liên hệ, thường khơng liên quan đến nội dung viết nên cần loại bỏ - Loại bỏ kí tự đặc biệt, icon: Các kí tự đặc biệt accs dấu câu dấu chấm, dấu phẩy, ngoặc vuông, Ta loại bỏ biểu tượng cảm xúc xuất viết để huấn luyện mơ hình - Loại bỏ số: Những số không mang ý nghĩa mặt nội dung cho việc mơ hình hóa chủ đề, cần loại bỏ chúng - Thay kí tự khoảng trắng (bao gồm \n, \t thành ' ' hay loại bỏ nhiều kí tự khoảng trắng liền nhau) - Chuyển tất ký tự hoa ký tự thường: Việc đưa liệu chữ viết thường cần thiết Bởi đặc trưng khơng có tác dụng tốn mơ hình hóa chủ đề Đưa chữ viết thường giúp giảm số lượng đặc trưng (vì máy tính hiểu hoa thường hai từ khác nhau) - Loại bỏ stopwords: Là từ xuất nhiều văn nói, văn viết khơng mang nhiều ý nghĩa, ví dụ: rằng, thì, là, mà,   44 Input Text Preprocess Giới thiệuChào bạn tới với series Terraform, trước giới tìm hiểu Ansible với Terraform Ở tìm terraform ansible terraform hiểu cách sử dụng Gitlab CI để thiết lập CI/CD cho infrastructure gitlab ci thiết lập cicd AWS infrastructure aws gitlab ci Gitlab CI tính tuyệt vời ta Gitlab, hỗ trợ ta nhiều use cases CI/CD.## Implement implement gitlab ci tài GitLab CIĐể làm u cầu người cần có tài khoản khoản gitlab ví dụ đơn gitlab trước Ở làm ví dụ đơn giản tạo EC2 giản ec aws thông qua AWS thông qua Gitlab CI Ok, ta bắt đầu nào. gitlab ci ok InitĐầu tiên phần định nghĩa cho toàn Job CI/CD ta init định nghĩa toàn dùng image hashicorp/terraform để chạy câu job cicd ta image chạy lệnh terraform.ymlimage: name: hashicorp/terraform entrypoint: câu lệnh terraform init - provider ta chạy câu lệnh "/usr/bin/env" - "PATH=/usr/local/sbin:/usr/local/bin: /usr/sbin:/usr/bin:/sbin:/bin"Tiếp theo phần init provider trước ta chạy câu lệnh plan apply ymlbefore_script: use cases cicd plan apply - terraform init … … … Bảng 17: Parse HTML Tokenize Vì tiếng việt gồm nhiều từ ghép Những từ ghép từ từ trở lên, đứng riêng lẻ từ có ý nghĩa từ đơn cấu tạo nhiều âm tiết như: kinh nghiệm, lập trình viên, giảng, thiết kế, … Xử lý từ cách nhóm từ ghép với dấu ‘_’, ví dụ như: kinh_nghiệm, lập_trình_viên, bài_giảng, thiết_kế, … Input Tokenize giới thiệu chào series terraform ansible terraform giới_thiệu chào series terraform ansible gitlab ci thiết lập cicd infrastructure aws gitlab ci tính terraform gitlab ci thiết_lập cicd tuyệt vời gitlab ta use cases cicd implement infrastructure aws gitlab ci tính_năng gitlab ci tài khoản gitlab ví dụ đơn giản ec aws thông tuyệt_vời gitlab ta use cases cicd implement qua gitlab ci ok gitlab ci tài_khoản gitlab ví_dụ đơn_giản ec aws thơng_qua gitlab ci ok init định nghĩa tồn job cicd ta image chạy câu init định_nghĩa toàn_bộ job cicd ta image lệnh terraform init provider ta chạy câu lệnh plan chạy câu_lệnh terraform init provider ta chạy 45 apply câu_lệnh plan apply … … Bảng 18: Tokenize 3.2 Đào tạo mơ hình LDA 3.2.1 Xác định số lượng chủ đề cho mơ hình Khi liệu tập hợp đoạn văn (documents), việc cần làm xác định số K topics để tiến hành phân phối sau Mỗi topics biểu nội dung khác văn ta cần biết K chọn số K hợp lý Tính “Coherence score” tập liệu với giá trị K khác nhau, Coherence score càng cao tốt Thực tạo mơ hình LDA với số lượng chủ đề là: 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65 Sau thực tính Corehence Score điểm tương đồng Jacard chủ đề cấp độ chủ đề Số topic Coherence Score 0.05783 10 0.05671 15 0.5973 20 0.6162 25 006252 30 0.6285 35 0.6234 40 0.6299 45 0.6384 50 0.6137 55 0.6203 60 0.6060 65 0.6005 46 Bảng 19: Coherence Score Hình 11: Biểu đồ Coherence score Sau tính tốn liệu thu thập được, số lượng topic lựa chọn 45 cho “Coherence score” cao 0.6384 Jaccard similarity Số topic Jacar score 0.0857 10 0.0556 15 0.0517 20 0.0372 25 0.0340 30 0.0314 35 0.0270 40 0.0265 45 0.0227 50 0.0199 55 0.0202 60 0.0192 65 0.0190 Bảng 20: Bảng jaccard similarity score https://medium0.com/m/evaluate-topic-model-in-python-latent-dirichlet-allocation-lda7d57484bb5d0 https://medium0.com/m/tags-recommendation-algorithm-using-latent-dirichlet-allocationlda-3f844abf99d7 47 Hình 12: Biểu đồ Jacar 3.2.2 Đào tạo mơ hình LDA Hình 13: Mơ hình tổng quan đào tạo mơ hình LDA 48 Trong bước này, cần xây dựng từ vựng kho văn bản, tất từ độc đáo kho văn cung cấp index số lượng tần số chúng lưu trữ Tạo tập từ vựng (Dictionary) kiểu liệu ánh xạ (mapping type) Các phần tử từ điển truy xuất qua khóa (key) Key từ đánh số thứ tự từ cho key ứng với giá trị tương ứng Mỗi key đại diện cho giá trị index key Access Ansible App Apply approve artifact … … Bảng 21: Dictionary Tạo corpus: Là danh sách chứa liệu theo định dạng (thứ tự, số lần xuất hiện) Ví dụ: Input: giới_thiệu chào series terraform ansible terraform gitlab ci thiết_lập cicd infrastructure aws gitlab ci tính_năng tuyệt_vời gitlab ta use cases cicd implement gitlab ci tài_khoản gitlab ví_dụ đơn_giản ec aws thơng_qua gitlab ci ok ta gitlab repository chứa code ta repository ta file code file đoạn code đơn_giản ec aws file ta file file chứa câu_lệnh ta cicd tồn_bộ docs file link giải_thích file init định_nghĩa toàn_bộ job cicd ta image chạy câu_lệnh terraform init provider ta chạy câu_lệnh plan apply plan init provider xong ta chạy câu_lệnh plan review resource ta artifacts ta output file ta truyền job job ta lưu toàn_bộ review xuất câu_lệnh plan file ta artifacts truyền job apply apply ta resource apply ta thuộc_tính gitlab ci đoạn job cần_ta approve chạy cache cache terraform state ta thuộc_tính Corpus: [(0, 1.0), (1, 1.0), (2, 1.0), (3, 8.0), (4, 1.0), (5, 2.0), 6, 5.0), (7, 5.0), (8, 1.0), (9, 4.0), (10, 2.0), (11, 7.0), (12, 4.0), (1, 1.0), (14, 1.0), (15, 1.0), (16, 49 1.0), (17, 3.0), (18, 12.0), (19, 1.0), 20, 1.0), (21, 1.0), (22, 1.0), (23, 2.0), (24, 1.0), (25, 2.0), (26, 15.0, …] … Index … Word Access Ansiable App Apply Approve artifacts … Tần suất 1 Bảng 22: Corpus Thực đào tạo mơ hình LDA với dictionary corpus bên Sau đào tạo mơ hình: Tên topic Topic Từ Trọng số bang 0.0583 van 0.0408 truy 0.0388 sql 0.0370 database 0.0295 … Topic Topic 45 cau 0.0223 hoc 0.0180 đung 0.0099 tra_loi 0.0097 giai_quyet 0.0084 … … … … Du_an 0.0500 Cong_viec 0.0287 Khach_hang 0.0220 Team 0.0217 Quan_ly 0.0210 … … Bảng 23: Topic mơ hình LDA 50 51 Hình 14: Phân bố topic 3.3 Xây dựng hệ thống gợi ý LDA 3.3.1 Xây dựng ma trận document - topic Sau tạo ta thu mơ hình LDA với 45 chủ đề Thực tạo ma trận phân phối 33700 viết 45 topic Thu ma trận phân phối topic tổng số viết 33700 x 45 Hình 15: Ma trận documents – topics 3.3.2 Gợi ý viết Ứng với viết người dùng lựa chọn, thực xác định phân phối chủ đề viết đó, thu vector phân phối tương ứng Thực tính tốn độ tương đồng vectơ với viết khác thông qua ma trận document-topic Độ tương đồng phân phối thực khoảng cách Jensen Shannon Khoảng cách Jensen Shannon nhỏ phân phối có độ tương đồng cao Lấy top K số có khoảng cách nhỏ nhất, truy vấn sở liệu đưa gợi ý cho người dùng 52 Hình 16: Hệ thống gợi ý viết 3.4 Kết Tiêu đề 10 từ phổ biến Kết LÀM Test, du_an, tdd, - Chuyện tình Dev - Tester AUTOMATION huong, may, - Chuyện tình Dev - Tester TEST chút, khach_hang, - Các yếu tố hình thành xây dựng nên ngành IT KHÁC cung, tien, kiem, QA ĐI! trinh_đo - Đôi điều TDD - Tầm quan trọng việc trao đổi 53 thông tin Dev Test Tìm hiểu File Laravel, tep, - Ví dụ upload nhiều files Upload Laravel luu_tru, truong, Laravel 5.5 cap_nhat, - Phân tích CVE-2019-8942 xac_thuc, wordpress hinh_anh, tai, - Mất không phút để xây dựng luu, anh multi Auth cho web site bạn với Laravel 7x - Danh sách câu lệnh Laravel - Làm để tải lên nhiều files với Laravel 5.4? Tìm hiểu toán ky_tu, rnn, - Giới thiệu Connectionist Temporal OCR với CRNN output, chuoi, Classification (CTC) (Phần 2) CTC loss - OCR ctc, text, loss, - Nhận diện text hình ảnh với from scratch with alignment, anh, CRNN+CTC PyTorch vector - Giới thiệu Connectionist Temporal Classification (CTC) (Phần 1) - Tìm hiểu Automatic Speech Recognition - Vision Transformer for image classification Bảng 24: Kết gợi ý số viết KẾT LUẬN Nhìn chung, mơ hình đưa gợi ý viết chủ đề, lĩnh vực liên quan, gần tới viết gốc Qua thấy mơ hình phân tích chủ đề LDA hoạt động tốt mơ hình gợi ý dựa chủ đề đáp ứng yêu cầu hệ thống gợi ý đưa vào sử dụng Tuy nhiên mơ hình cịn hạn chế liệu trình thu thập hạn chế khơng có thời gian viết bài, tác giả, thông tin người đọc, … nên mô 54 hình áp dụng mơ hình phân tích chủ đề đơn giản, chưa tận dụng thông tin khác liên quan nhằm kết hợp nâng cao chất lượng gợi ý Để khắc phục hạn chế phát triển mơ hình theo hướng sau: - Áp dụng phương pháp nhằm nâng cao chất lượng viết gợi ý như: tác giả, tiêu đề giống (phần 1, phần 2, …), … - Kết hợp tận dụng thơng tin khác thu thập - Áp dụng mơ hình cho tốn cụ thể nhằm đánh giá chất lượng mơ hình cách xác 55 Chỉ mục Content - Based Filtering, 21 Long Tail, 37 Cosine Similarity, 17, 18, 27 Normalize, 31, 32, 35 Collabroative Filtering, 28 Rating Prediction, 32 Cold Start, 21, 36 Corpus, 16, 17, 46, 47 Recommendation System - RS, 9, 27, 29 Sparse, 21, 31, 33, 36, 38 Coherence Score, 43, 44 SVD, 14, 18 Dictionary, 46, 47 Term, 12, 13, 14, 19, 20 Feature vector, 23, 24, 26, 27, 29 TF-IDF, 12, 14, 30, 37 Item-Item CF, 33, 35 Topic, 4, 12, 14, 15, 16, 17 Item Profiles, 29 Jaccard Similarity, 44 Utility Matrix, 21, 22, 25, 29, 31, 35 User-User CF, 33, 35 Jensen Shannon, 49 VSM, 20 LSA, 6, 12, 17, 37, 38 LDA, 6, 14, 15, 16, 17, 37, 38, 39, 45, 47, 48, 51 56 Tài liệu tham khảo [1] Garcia, E - A Cosine Similarity Tutorial, 2015 [2] Siraj Munir, Shaukat Wasi - A Comparison of Topic Modelling Approaches for Urdu Text, 2019 [3] Bijoyan Das, Sarit Chakraborty - An Improved Text Sentiment Classification Model Using TF-IDF and Next Word Negation, 2018 [4] Thomas K Landauer, Peter W Foltz, Darrell Laham - An Introduction to Latent Semantic Analysis, 1998 [5] Ayisha Tabassum1, Dr Rajendra R Patil - A Survey on Text PreProcessing & Feature Extraction Techniques in Natural Language Processing, 2020 [6] V Thada, Vivek Jaglan - Comparison of Jaccard, Dice, Cosine Similarity Coefficient To Find Best Fitness Value for Web Retrieved Documents Using Genetic Algorithm [7] Vũ Hữu Tiệp - Ebook Machine learning bản, 2016 [8] David M Blei, Andrew Y Ng - Latent Dirichlet Allocation, 2003 [9] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B.Kantor Recommender Systems Handbook , 2010 [10] Stefan B Beckers - Recommander system, Duisburg Publisher, 2006 57 58

Ngày đăng: 18/08/2022, 20:01

Tài liệu cùng người dùng

Tài liệu liên quan