1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cá nhân hóa tìm kiếm sử dụng các kỹ thuật học máy

66 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 2,19 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Cá nhân hóa tìm kiếm sử dụng kỹ thuật học máy CAO HÀ VĨNH Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Trần Hải Anh Viện: Công nghệ thông tin truyền thông HÀ NỘI, 2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Cá nhân hóa tìm kiếm sử dụng kỹ thuật học máy CAO HÀ VĨNH Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Trần Hải Anh Chữ ký GVHD Viện: Công nghệ thông tin truyền thơng HÀ NỘI, 2021 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Cao Hà Vĩnh Đề tài luận văn: Cá nhân hóa tìm kiếm sử dụng kỹ thuật học máy Chuyên ngành: Mạng máy tính An tồn thơng tin Mã số HV: CB180206 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/04/2021 với nội dung sau: • Bổ sung giới thiệu số thuật toán học để xếp hạng khác • Bổ sung tham số cài đặt, mơ tả liệu huấn luyện thuật tốn SVM • Bổ sung, chỉnh sửa hạn chế hướng phát triển phần kết luận • Chỉnh sửa định dạng chuẩn luận văn sửa lỗi tả Ngày Giáo viên hướng dẫn TS Trần Hải Anh CHỦ TỊCH HỘI ĐỒNG PGS.TS Nguyễn Linh Giang tháng năm 2021 Tác giả luận văn Cao Hà Vĩnh LỜI CẢM ƠN Để hoàn thành luận văn thạc sĩ này, trước tiên xin gửi lời cảm ơn chân thành tới người hướng dẫn tôi, TS Trần Hải Anh, người định hướng, nhiệt tình dẫn dắt, tạo điều kiện cho tơi suốt thời gian thực luân văn thạc sĩ Tôi xin gửi lời cảm ơn tới Trường Đại học Bách khoa Hà Nội, tới thầy cô Viện CNTT&TT mơn Truyền thơng & Mạng máy tính truyền đạt cho kiến thức chuyên sâu chuyên ngành suốt thời gian học tập để tơi có tảng kiến thức hỗ trợ cho tơi q trình làm luận văn thạc sĩ Luận văn tài trợ Quỹ Phát triển khoa học công nghệ Quốc gia (NAFOSTED) đề tài mã số 102.02-2019.314 Xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2021 Tác giả Cao Hà Vĩnh MỤC LỤC MỤC LỤC i DANH MỤC BẢNG BIỂU iii DANH MỤC HÌNH VẼ iv DANH MỤC THUẬT NGỮ VIẾT TẮT v LỜI NÓI ĐẦU CHƯƠNG MỞ ĐẦU 1.1 Giới thiệu Information Retrieval 1.2 Giới thiệu hệ thống công cụ tìm kiếm 1.3 Lịch sử phát triển hệ thống tìm kiếm 1.4 Kiến trúc phận cấu thành hệ thống công cụ tìm kiếm 1.5 Giới thiệu cá nhân hóa 1.5.1 Giới thiệu cá nhân hóa tìm kiếm CHƯƠNG TỔNG QUAN CÁC KỸ THUẬT TÌM KIẾM VÀ ỨNG DỤNG CÁ NHÂN HÓA CÓ SỬ DỤNG HỌC MÁY 2.1 Các mơ hình xếp hạng thơng thường 2.1.1 Mơ hình Boolean 2.1.2 Mơ hình khơng gian vector (Vector space model) 10 2.1.3 Mơ hình xác suất BM25 12 2.2 Apache Lucene, Elasticsearch kỹ thuật tìm kiếm Elasticsearch12 2.2.1 Apache Lucene 12 2.2.2 Elasticsearch kỹ thuật tìm kiếm Elasticsearch 13 2.3 Cá nhân hóa tìm kiếm (Personalized search) 19 2.3.1 Học để xếp hạng 19 2.3.2 Phương pháp Listwise 20 2.3.3 Phương pháp Pairwise thuật toán SVMRank 20 2.3.4 Xác định đặc trưng 21 2.3.5 Elasticsearch Learning to Rank 23 2.3.6 Mơ hình đặt cho hệ thống cá nhân hóa 23 CHƯƠNG PHÂN TÍCH THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG TÌM KIẾM TRÊN NỀN TẢNG MICROSOFT AZURE 25 3.1 Mơ hình tổng quan kiến trúc hệ thống 25 3.2 Thiết kế Client 27 3.2.1 Chức Index/Reindex 27 3.2.2 Chức Indexing Job 28 3.2.3 Chức Search 28 i 3.2.4 Chức Search statistics 30 3.3 Thiết kế Proxy service tích hợp Personalization service 31 3.3.1 Request authentication 31 3.3.2 Request tracking Personalization tracking 33 3.3.3 Request routing/forwarding Personalized search 38 3.4 Thiết kế Stream service Ingest Function 42 3.5 Thiết kế Runner (Crawler) 44 3.6 Thiết kế Elasticseach cluster 46 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 48 4.1 Triển khai hệ thống thử nghiệm 48 4.1.1 Mơ hình triển khai 48 4.1.2 Cấu hình thử nghiệm 49 4.2 Thử nghiệm kết 49 4.2.1 Lập mục nội dung website 49 4.2.2 Lập mục nội dung bên 51 4.2.3 Tìm kiếm 52 4.2.4 Cá nhân hóa tìm kiếm 53 KẾT LUẬN 55 Kết thực 55 Hạn chế 55 Hướng phát triển tương lai 55 ii DANH MỤC BẢNG BIỂU Bảng 2.1 Biểu diễn có không xuất doc index 10 Bảng 3.1 Mô tả số đặc trưng cho mơ hình học để xếp hạng 36 Bảng 4.1 Thống kê thời gian lập mục nội trang web 51 Bảng 4.2 Thông kê thời gian lập mục bên 51 iii DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình tham khảo kiến trúc hệ thống tìm kiếm Google, theo Stanford University Hình 1.2 Ví dụ cá nhân hóa Hình 2.1 Danh sách số sản phẩm sử dụng Elasticsearch 14 Hình 2.2 Ví dụ kiến trúc Elasticsearch cluster 15 Hình 2.3 Ví dụ mơ tả Elasticsearch shard replicas 16 Hình 2.4 Sơ đồ đơn giản hệ thống cá nhân hóa tìm kiếm 19 Hình 2.5 Mơ hình tham khảo hệ thống cá nhân hóa sử dụng Elasticsearch LTR 23 Hình 3.1 Mơ hình tổng quát hệ thống tìm kiếm 25 Hình 3.2 Kiến trúc sở hạ tầng hệ thống tìm kiếm triển khai dựa Azure 26 Hình 3.3 Sơ đồ hoạt động Index/Reindex 27 Hình 3.4 Sơ đồ hoạt động Indexing Job 28 Hình 3.5 Sơ đồ hoạt động Search 30 Hình 3.6 Sơ đồ hoạt động Search statistics 31 Hình 3.7 Sơ đồ hoạt động Request Authentication 32 Hình 3.8 Sơ đồ hoạt động Request Tracking 34 Hình 3.9 Mơ hình theo dõi lịch sử truy vấn Personalization service 35 Hình 3.10 Mơ hình học để xếp hạng Personalization service 35 Hình 3.11 Ví dụ danh sách đánh giá 36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng 37 Hình 3.13 Một kết trọng số đặc trưng sau huấn luyện SVM 37 Hình 3.14 Sơ đồ hoạt động Request routing/forwarding 41 Hình 3.15 Sơ đồ hoạt động Stream service 42 Hình 3.16 Sơ đồ hoạt động Ingest Function 43 Hình 3.17 Sơ đồ hoạt động Runner 45 Hình 3.18 Sơ đồ thiết kế Elasticseach cluster 47 Hình 4.1 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm Azure 48 Hình 4.2 Giao diện website thử nghiệm 50 Hình 4.3 Kết lần index toàn website 50 Hình 4.4 Kết thử nghiệm crawler 51 Hình 4.5 Kết thử nghiệm k6.io 52 Hình 4.6 Thống kê truy cập Kibana 52 Hình 4.7 Kết tìm kiếm ban đầu 53 Hình 4.8 Kết tìm kiếm sau truy cập vào số trang ngẫu nhiên 54 iv DANH MỤC THUẬT NGỮ VIẾT TẮT Tên thuật ngữ Diễn giải ES Elasticsearch API Giao diện lập trình ứng dụng – Application Programming Interface IR SaaS Truy xuất thông tin – Information Retrieval Phần mềm dạng dịch vụ, mơ hình điện tốn đám mây – Software as a Service SEO Tối ưu hóa cơng cụ tìm kiếm – Search Engine Optimization L2R/LTR Học để xếp hạng xếp hạng học máy – Learning to rank VM Máy ảo, trình giả lập hệ thống máy tính – Virtual Machine VMSS Một tập hợp máy áo giống có khả nhân để mở rộng quy mô – Virtual Machine scale set BM25 Một hàm tính thứ hạng sử dụng để xếp hạng văn – Best matching CRUD Bốn chức lưu trữ liên tục – Create, Read, Update, Delete v LỜI NÓI ĐẦU Đặt vấn đề - Mơ tả tốn Hầu hết người truy cập từ bỏ trang web họ nhanh chóng tìm thấy họ tìm kiếm Với khối lượng thông tin khổng lồ ngày gia tăng, menu điều hướng, đường link giới thiệu trang chủ khơng cịn đủ nữa, tìm kiếm trở nên quan trọng để định vị nội dung thơng tin Tối ưu hóa tìm kiếm làm tăng hội thu hút khách truy cập vào trang web doanh nghiệp, giữ khách truy cập khiến họ hoàn thành hành động, chẳng hạn đăng ký mua sắm Điều liên quan chặt chẽ đến tối ưu hóa cơng cụ tìm kiếm (SEO), thường gọi "quá trình cải thiện khả hiển thị nội dung trang web kết tìm kiếm." Tuy nhiên khó khăn doanh nghiệp, khả triển khai nhanh chóng chức tìm kiếm phù hợp với mục đích sử dụng doanh nghiệp Những cơng cụ tìm kiếm phổ biến Google, Bing hệ thống tìm kiếm độc quyền thương mại, mã nguồn đóng Các doanh nghiệp khơng thể tiếp cận tới giải pháp tìm kiếm độc quyền thương mại để tích hợp với hệ thống Trong tảng, thư viện tìm kiếm miễn phí mã nguồn mở lại có yêu cầu phức tạp việc tích hợp triển khai Vì việc xây dựng cơng cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khả tích hợp, cho phép nhà phát triển xây dựng trải nghiệm tìm kiếm trang web, mạng nội dung, hệ thống có dạng nội dung văn nhu cầu thực tế Điều mang đến trải nghiệm đồng tốt cho người dùng cuối, thú vị cho nhà phát triển, giảm bớt gánh nặng triển khai quản lý cho nhà quản trị, giúp chu kỳ phát triển sản phẩm ngắn tiết kiệm chi phí Giải vấn đề Luận văn đưa số giải pháp xây dựng mơ hình thực tế cơng cụ tìm kiếm có ứng dụng cá nhân hóa dạng dịch vụ, tìm hiểu kết hợp công nghệ Elasticsearch, Docker, Microservice, Cloud computing… với việc mô tả thiết kế số tính hỗ trợ việc tối ưu hóa trải nghiệm tìm kiếm người dùng cuối Luận văn đưa thiết kế mơ hình sở hạ tầng để triển khai thực tế dịch vụ tìm kiếm lên cloud, mà cụ thể hạ tầng cloud Microsoft Azure Stream service phát triển để đáp ứng nhu cầu Các yêu cầu lập mục (indexing), theo dõi (tracking), xóa hàng loạt (bulk delete) lưu trữ vào hệ thống event store để chờ tiếp nhận xử lý Elasticsearch Ingest Function serverless service thực nhiệm vụ tiếp nhận event từ event store để xử lý chuyển tiếp request/action đến service khác Ingest Function có khả điểu chình lưu lượng liệu (throttle) mà tiếp nhận, dựa mức độ tải service xử lý đằng sau Hình 3.16 Sơ đồ hoạt động Ingest Function 43 3.5 Thiết kế Runner (Crawler) Runner service thực việc kiểm tra cài đặt trình thu thập liệu (crawler), cài đặt hẹn thu thập liệu (crawler schedule) thực việc thu thập liệu từ nguồn bên nguồn liệu nội khách hàng Với tài khoản khách hàng, Runner tạo “connector” tương ứng để khởi tạo trình thu thập (crawler) cho nguồn liệu khác Các cài đặt thu thập liệu khách hàng lưu trữ trực tiếp mục đặc biệt ES cluster, theo “connector” liên tục kiểm tra cài đặt khởi chạy trình thu thập (crawler) cần thiết Crawler phần Runner, có khả duyệt tồn nội dung web, chia tách đường dẫn (child links), phân tích nội dung web từ định dạng khác (html, xml, atom, sitemaps), phân tích robots.txt, sau tiến hành tạo/cập nhật/xóa tài liệu tương ứng index ES 44 Hình 3.17 Sơ đồ hoạt động Runner 45 3.6 Thiết kế Elasticseach cluster Để tận dụng tối đa khả xử lý, mở rộng phân tán ES, việc phân tách rõ ràng server ES theo node type điểu cần thiết Theo đó, cụm ES có kiểu server ứng với node type ES: • Master node: gồm server ES cấu hình chạy master node Số lượng master node khơng đổi q trình vận hành master node bầu chọn (election) làm leader, node lại dự phòng, trường hợp leader gặp trục trặc, hệ thống tự động chuyển leader qua master node cịn lại • Data node: Azure scale set, mặc đinh ban đầu có node Đây node chứa data ES, với khả tự phân bổ dàn liệu trường hợp cho thêm bỏ bớt data node • Client node: Azure scale set, mặc định ban đầu có node Có khả scale thành nhiều node giống hệt Client node dạng stateless không chứa data, với chức điều hướng, tính tốn xử lý yêu cầu tổng hợp kết trả từ master node data node Mọi yêu cầu truy cập từ service khác tới ES thiết kế để gửi tới client node Sẽ có load balancer đứng phía trước client node vừa để cân tải cho client node, vừa để tạo endpoint cho cum ES Với mục đích vậy, client node cần có cấu hình phần cứng cao Phiên ES sử dụng đề tài luận văn phát triển thêm plugin dựa theo tài liệu phát triển plugin ES, giúp thêm số tính như: • Thống kê tìm kiếm (Search statistics) • Từ đồng nghĩa (Synonyms) • Bổ sung phân tích cho nhiều ngơn ngữ (add more Analysis) • Bổ sung Admin Index chứa metadata, cài đặt khách hàng 46 Hình 3.18 Sơ đồ thiết kế Elasticseach cluster 47 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Triển khai hệ thống thử nghiệm 4.1.1 Mơ hình triển khai Backend: hệ thống dịch vụ tìm kiếm triển khai tảng Microsoft Azure quy trình CI/CD, sử dụng Octopus Deploy dể tiến hành chạy automation test deploy lên state khác Nhiệm vụ Backend: • Xác thực, đăng ký, quản lý người đăng ký tài khoản dịch vụ tìm kiếm • Lưu trữ lập mục tài liệu mà client gửi • Kết nối tới services khác bên ngồi dịch vụ tìm kiếm Frontend: kết nối tới dịch vụ tìm kiếm thơng qua Net API Client mặc định dịch vụ, kết hợp với phần mềm Episerver CMS/Commerce phiên cho Developer để tạo liệu test Nhiệm vụ Frontend: • Kết nối tương tác với Backend • Tạo DB liệu thử nghiệm • Cung cấp thao tác sử dụng thơng thường người dùng, thao tác tìm kiếm lập mục tìm kiếm, tương tác với Backend Hình 4.1 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm Azure 48 4.1.2 Cấu hình thử nghiệm Backend: • Azure VM, VMSS SKUs: o For ES master node: nodes, Standard_F16s, 16 vCPUs, 32GiB Memory, 32 GiB OS storage (ssd), 120 GiB Log storage o For ES client node: nodes, Standard_D8s_v3, vCPUs, 32GiB Memory, 32 GiB OS storage (ssd), 120 GiB Log storage o For ES data node: nodes, Standard_D16s_v3, 16 vCPUs, 64GiB Memory, 32 GiB OS storage (ssd), 256 GiB Data storage (ssd), 120 GiB Log storage o For Proxy: nodes, Standard_D4s_v3, vCPUs, 16GiB Memory, 32 GiB OS storage (ssd), 120 GiB Log storage o For Runner: Standard_F2s_v2, vCPUs, 4GiB Memory, 16 GiB OS storage (ssd), 120 GiB Log storage o For K8S: >= 2048MiB Memory, >= CPU, autoscaling enable • OS: CentOS 7.7 • VNet: at least CIDR /22 • public Ips • Jumphost/VPN • Location: North Europe Frontend: • CPU: Intel Core I7 4700MQ/7700, cores, threads • RAM: 32GiB • OS: Windows 10 version 2004 • Storage: 128/256 GiB SSD • Location: Southeast Asia 4.2 Thử nghiệm kết 4.2.1 Lập mục nội dung website Các bước thử nghiệm: • Tạo cms/commerce website có hỗ trợ search client (trong thử nghiệm sử dựng Episerver CMS/Commerce) • Tạo 1,000+ 100,000+ contents/items index • Tiến hành index tồn website tính tốn thời gian thực 49 Hình 4.2 Giao diện website thử nghiệm Hình 4.3 Kết lần index tồn website 50 Thống kê thời gian thực thử nghiệm: Bảng 4.1 Thống kê thời gian lập mục nội trang web Lần 1,065 items 105,191 items 59s 753s 65s 724s 64s 710s Trung bình 62.7s 729s 4.2.2 Lập mục nội dung bên Các bước thử nghiệm: • Tạo cms/commerce website có hỗ trợ search client (trong thử nghiệm sử dựng Episerver CMS/Commerce) • Tạo crawler job với mục tiêu website bên với số lượng content vào khoảng 500 7000 items • Tiến hành chạy crawler job Hình 4.4 Kết thử nghiệm crawler Thống kê thời gian thực thử nghiệm: Bảng 4.2 Thông kê thời gian lập mục bên Lần 490 items 6719 items 202s 2708s 202s 2502s 201s 2929s Trung bình 201.7s 2713s 51 4.2.3 Tìm kiếm Các bước thử nghiệm: • Tạo cms/commerce website Azure, có hỗ trợ search client (trong thử nghiệm sử dựng Episerver CMS/Commerce) • Lập mục liệu website • Sử dụng k6.io – cơng cụ kiểm tra tải hiệu suất dich vụ – để tạo kịch tiến hành kiểm tra • Kịch test: mô 2500 người dùng từ địa điểm khác truy cập liên tục tới website có sử dụng chức tìm kiếm Hình 4.5 Kết thử nghiệm k6.io Hình 4.6 Thống kê truy cập Kibana 52 Kết thử nghiệm: • Thời gian thử nghiệm: 50 phút • Tổng số truy cập tới website: 252239 • Số truy cập trung bình giây (RPS): 83 • Tổng số truy vấn tìm kiếm: 96534 • Số truy vấn tìm kiếm trung bình giây (QPS): 32.2 • Đỗ trễ truy vấn tìm kiếm trung bình: 39ms 4.2.4 Cá nhân hóa tìm kiếm Các bước thử nghiệm: • Tạo cms/commerce website, có hỗ trợ search client (trong thử nghiệm sử dựng Episerver CMS/Commerce) • Cài đặt thống số cho dịch vụ Personalization • Lập mục liệu website • Tiến hành tìm kiếm, thử nghiệm truy cập vào kết tìm kiếm ngẫu nhiên • So sánh danh sách kết tìm kiếm ban đầu sau truy cập vào kết tìm kiếm Hình 4.7 Kết tìm kiếm ban đầu 53 Hình 4.8 Kết tìm kiếm sau truy cập vào số trang ngẫu nhiên So sánh kết lần tìm kiếm với nhau, thấy kết thứ thứ đẩy lên xếp thứ thứ lần tìm kiếm sau, trang người dùng truy cập hệ thống theo dõi lại để tiến hành cá nhân hóa lần tìm kiếm sau 54 KẾT LUẬN Kết thực Trong luận văn này, tác giả hướng tới mục đích tìm hiểu nghiên cứu phương pháp để xây dưng hệ thống cá nhân hóa tìm kiếm có sử dụng học máy Qua bốn chương, luận văn trình bày khái niệm, hướng tiếp cận kỹ thuật liên quan đến hệ thống tìm kiếm, cá nhân hóa, học để xếp hạng Sau ứng dụng phương pháp, kỹ thuật tìm hiểu vào thực nghiệm xây dưng hệ thống tìm kiếm, nhiên với hệ thống cá nhân hóa tích hợp dịch vụ bên ngồi Về mặt lý thuyết: • Nắm kiến thức hệ thống truy xuất thông tin, hệ thống tìm kiếm • Nắm kiến thức kỹ thuật cá nhân hóa, học để xếp hạng mơ hình ứng dụng tìm kiếm cá nhân hóa • Nắm kiến thức Elasticsearch, Elasticsearch Learning to Rank, Elasticsearch OpenDistro container, Mircrosoft Azure, … Về mặt thực hiện: • Xây dựng hệ thống dịch vụ tìm kiếm, cá nhân hóa tìm kiếm • Triển khai hệ thống thực tế tảng Microsoft Azure • Xây dựng kịch thử nghiệm tiến hành thử nghiệm dịch vụ Hạn chế Mặc dù thực việc thiết kế, xây dựng triển khai sản phẩm thực tế, hạn chế mặt thời gian, tài nguyên phát triển, ảnh hưởng yếu tố môi trường lượng mã nguồn mang tính chất “di sản” nên sản phẩm đưa cịn thiếu sót • Hệ thống cá nhân hóa chưa phát triển hồn thiện, phụ thuộc vào dịch vụ chưa hoàn toàn hướng liệu (data driven) • Q trình triển khai/mở rộng hệ thống phức tạp, nhiều thời gian • Chưa đo lường đầy đủ hiệu thuật toán thực kiểm thử • Mới triển khai hệ thống với kỹ thuật học máy SVM • Hệ thống chưa theo dõi đầy đủ nhật ký sử dụng người dùng Hướng phát triển tương lai • Tiếp tục thử nghiệm tối ưu cấu hình SVMRank, bổ sung kiểm thử độ xác cho hệ thống học máy 55 • Thử nghiệm bổ sung thêm đặc trưng người dùng để nâng cao hiệu cá nhân hố • Tham khảo thử nghiệm kỹ thuật học máy khác ListNet, ListMLE, LambdaMART, XGBoost … để so sánh nâng cao chất lượng dịch vụ • Đơn giản hóa việc triển khai dựa cơng nghệ Docker container, Kubernetes • Nâng cấp, bổ xung hệ thống theo dõi nhật ký người dùng 56 TÀI LIỆU THAM KHẢO [1] P R H S Christopher D Manning, Introduction to Information Retrieval, Cambridge University, 2009 [2] L P Sergey Brin, "The Anatomy of a Large-Scale Hypertextual Web Search Engine," Computer Networks, vol 30, pp 107-117, 1998 [3] M L H R R Radu Gheorghe, Elasticsearch in Action, Manning Publications Co, 2016 [4] E H O G Michael McCandless, Lucene in action, Manning Publications Co, 2010 [5] J Olsson, Using Elasticsearch for full-text searches on unstructured data, Uppsala University, 2019 [6] A Paro, Elasticsearch 5.x Cookbook - 3rd edition, Packt Publishing, 2017 [7] K M M L O Moh'd Alsqour, "A survey of data warehouse architectures: preliminary results," in Federated Conference on Computer Science and Information Systems 2012, 2012 [8] S Chakrabarti, "Learning to rank in vector spaces and social networks," Internet Mathematics Vol 4, No 2-3, pp 267-298, 2007 [9] "Elasticsearch Learning to Rank," [Online] Available: https://elasticsearchlearning-to-rank.readthedocs.io/en/latest/ [10] A A Prof Moses Charikar, "Lecture 16 : Approximate Nearest Neighbor Search," Stanford University, 2016 [11] D C Malvina Josephidou, "Learning to Rank: From Theory to Production at Bloomberg," 2018 [Online] Available: https://www.conferencecast.tv/talk-17378-learning-to-rank-from-theory-toproduction-malvina-josephidou-diego-ceccarelli-bloomberg [12] S Watson, "Learning "Learning to Rank"," 2019 [Online] Available: https://devconfcz2019.sched.com/event/JckY [13] "Episerver Personalization," [Online] Available: https://webhelp.episerver.com/latest/en/personalization/personalization.htm [14] R S Michael Collier, Fundamentals of Azure, Microsoft Azure Essentials, Microsoft Press, 2015 57 ... kiếm sử dụng kỹ thuật học máy Nhiệm vụ luận văn Tìm hiểu xây dựng mơ hình thực tế cơng cụ tìm kiếm có ứng dụng cá nhân hóa dạng dịch vụ, tìm hiểu khả ứng dụng học máy vào thành phần cá nhân hóa. .. hệ thống dịch vụ tìm kiếm có áp dụng cá nhân hóa Các bước thực • Tìm hiểu hệ truy suất thơng tin, cơng cụ tìm kiếm, mơ hình cơng cụ tìm kiếm bản, cá nhân hóa ứng dụng cá nhân hóa • Giới thiệu... 1.5.1 Giới thiệu cá nhân hóa tìm kiếm Tìm kiếm cá nhân hóa (personalized search) kết tìm kiếm điều chỉnh cụ thể theo sở thích cá nhân cách kết hợp thông tin cá nhân ngồi truy vấn tìm kiếm cụ thể cung

Ngày đăng: 07/12/2021, 19:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] L. P. Sergey Brin, "The Anatomy of a Large-Scale Hypertextual Web Search Engine," Computer Networks, vol. 30, pp. 107-117, 1998 Sách, tạp chí
Tiêu đề: The Anatomy of a Large-Scale Hypertextual Web Search Engine
[7] K. M. M. L. O. Moh'd Alsqour, "A survey of data warehouse architectures: preliminary results," in Federated Conference on Computer Science and Information Systems 2012, 2012 Sách, tạp chí
Tiêu đề: A survey of data warehouse architectures: preliminary results
[8] S. Chakrabarti, "Learning to rank in vector spaces and social networks," Internet Mathematics Vol. 4, No. 2-3, pp. 267-298, 2007 Sách, tạp chí
Tiêu đề: Learning to rank in vector spaces and social networks
[9] "Elasticsearch Learning to Rank," [Online]. Available: https://elasticsearch- learning-to-rank.readthedocs.io/en/latest/ Sách, tạp chí
Tiêu đề: Elasticsearch Learning to Rank
[10] A. A. Prof. Moses Charikar, "Lecture 16 : Approximate Nearest Neighbor Search," Stanford University, 2016 Sách, tạp chí
Tiêu đề: Lecture 16 : Approximate Nearest Neighbor Search
[11] D. C. Malvina Josephidou, "Learning to Rank: From Theory to Production at Bloomberg," 2018. [Online]. Available:https://www.conferencecast.tv/talk-17378-learning-to-rank-from-theory-to-production-malvina-josephidou-diego-ceccarelli-bloomberg Sách, tạp chí
Tiêu đề: Learning to Rank: From Theory to Production at Bloomberg
[12] S. Watson, "Learning "Learning to Rank"," 2019. [Online]. Available: https://devconfcz2019.sched.com/event/JckY Sách, tạp chí
Tiêu đề: Learning
[13] "Episerver Personalization," [Online]. Available: https://webhelp.episerver.com/latest/en/personalization/personalization.htm Sách, tạp chí
Tiêu đề: Episerver Personalization
[1] P. R. H. S. Christopher D. Manning, Introduction to Information Retrieval, Cambridge University, 2009 Khác
[3] M. L. H. R. R. Radu Gheorghe, Elasticsearch in Action, Manning Publications Co, 2016 Khác
[4] E. H. O. G. Michael McCandless, Lucene in action, Manning Publications Co, 2010 Khác
[5] J. Olsson, Using Elasticsearch for full-text searches on unstructured data, Uppsala University, 2019 Khác
[6] A. Paro, Elasticsearch 5.x Cookbook - 3rd edition, Packt Publishing, 2017 Khác
[14] R. S. Michael Collier, Fundamentals of Azure, Microsoft Azure Essentials, Microsoft Press, 2015 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN