ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Song Hà HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành Công nghệ Thông tin[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Song Hà HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ Thông tin Hà Nội - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Song Hà HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ Thơng tin Cán hướng dẫn: PGS.TS Hà Quang Thuỵ Cán đồng hướng dẫn: Th.S Nguyễn Thu Trang Hà Nội - 2009 HÀ NỘI - 200 (chữ hoa, 12pt, đậm, giữa) Lời cảm ơn Trước tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Nguyễn Thu Trang, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm ―Khai phá liệu‖ giúp nhiều việc thu thập xử lý liệu Cuối cùng, muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Song Hà Tóm tắt nội dung Hệ tư vấn (recommender system) trở thành lĩnh vực nghiên cứu quan trọng kể từ báo lọc cộng tác (collaborative filtering) xuất vào năm 1990 Hiện nay, quan tâm hệ tư vấn cao cần thiết ứng dụng giúp người dùng xử lý với tình trạng q tải thơng tin & đưa nội dung lời khuyên phù hợp cho cá nhân Một vài ứng dụng tiếng như: hệ tư vấn sách, CDs Amazon.com, hệ tư vấn phim MovieLens… Nhưng so với sách, phim… số lượng website bùng nổ ngày lớn nhiều Khóa luận đề xuất phương pháp xây dựng hệ thống tư vấn website dựa việc khai phá query logs máy tìm kiếm Các website tư vấn kết có dựa phân tích lựa chọn hàng nghìn người dùng trước Thực nghiệm ban đầu hệ thống cho kết tốt i Mục lục Tóm tắt nội dung i Mục lục ii Danh sách bảng iv Danh sách hình vẽ v Lời mở đầu Chương Tổng quan hệ tư vấn .3 1.1 Giới thiệu hệ tư vấn 1.2 Bài toán tư vấn .4 1.3 Phân loại hệ tư vấn 1.3.1 Phương pháp dựa nội dung 1.3.2 Phương pháp cộng tác 1.3.3 Phương pháp lai ghép 10 1.4 Sơ hệ tư vấn khóa luận 12 Chương Bài toán khai phá query log ứng dụng 14 2.1 Cấu trúc query log .14 2.2 Khai phá query log 16 2.2.1 Một số dạng thống kê 16 2.2.2 Khai phá luật .20 2.3 Ứng dụng khai phá query log .22 Chương Mơ hình .24 3.1 Các cơng trình liên quan 24 3.1.1 Phân cụm query 24 3.1.2 Phân tích chủ đề ẩn .27 3.2 Mơ hình 31 3.2.1 Mơ hình tổng quan 31 3.2.2 Phần xử lý ngoại tuyến .33 ii 3.2.3 Phần xử lý online 34 Chương Thực nghiệm đánh giá 36 4.1 Môi trường 36 4.2 Dữ liệu công cụ .36 4.3 Thực nghiệm 38 4.3.1 Lọc nội dung query .38 4.3.2 Xử lý offline 39 4.3.3 Xử lý online 41 4.4 Đánh giá 42 Kết luận định hướng 44 Tài liệu tham khảo 45 Tiếng việt 45 Tiếng Anh 45 iii Danh sách bảng Bảng Đánh giá người dùng số phim xem .5 Bảng Ba phương pháp tư vấn 12 Bảng Thống kê sơ query log AOL 16 Bảng Thống kê sơ query log AltaVista 17 Bảng Phân loại query dài MSN log 17 Bảng Những từ tìm nhiều Google 18 Bảng Phân loại chủ đề query AOL 20 Bảng Phân loại chủ đề query Excite 20 Bảng Môi trường thực nghiệm 36 Bảng 10 Một số từ khóa liên quan tới miền sản phẩm điện tử 38 Bảng 11 Tổng hợp thực nghiệm phân cụm query 41 Bảng 12 Bảng kết thực nghiệm .43 iv Danh sách hình vẽ Hình Giải thưởng triệu USD Netflix Hình Ba hội nghị ACM hệ tư vấn tổ chức châu Âu Mỹ Hình Tư vấn dựa nội dung Hình Tư vấn dựa cộng tác Hình Một phần query log AOL 14 Hình Cấu trúc log Google 14 Hình Tỉ lệ từ/query query log AltaVista 17 Hình Tỉ lệ lặp lại query log AltaVista 18 Hình Phân bố query ngày AOL 19 Hình 10 Số query phiên query log AltaVista 19 Hình 11 Khai phá luật query log .21 Hình 12 Quan hệ query click url 24 Hình 13 Quan hệ url click query 25 Hình 14 Đồ thị phân đơi query – url 25 Hình 15 Hai query có chứa từ tương tự .26 Hình 16 Tiến trình sinh văn LDA 29 Hình 17 Kí hiệu khối lặp lại 29 Hình 18 Mơ hình LDA 30 Hình 19 Sơ đồ hệ thống tư vấn website .32 Hình 20 bước xử lý ngoại tuyến 33 Hình 21 bước xử lý trực tuyến 34 Hình 22 Sử dụng quan hệ query để tính hạng url 36 Hình 23 Query log MSN .37 Hình 24 Phân bố chiều dài query MSN log .37 v Lời mở đầu Trong thời đại bùng nổ thông tin, người dùng thường bị ngập khối lượng thơng tin khổng lồ hệ tư vấn ngày có vai trị quan trọng Có nhiều hệ thống tư vấn tiếng, hầu hết tập trung vào số lĩnh vực hẹp như: sách, phim, ca nhạc…Các hệ thống thường dựa vào đánh giá chuyên gia (reviewer) với tiêu chuẩn cụ thể, dựa việc chấm điểm sản phẩm người dùng Nhưng lĩnh vực sống phong phú, số lượng chủng loại sản phẩm lớn Để có hệ tư vấn dựa chuyên gia hay tiêu chuẩn cụ thể lĩnh vực, sản phầm điều Khi cần tìm thơng tin sản phẩm đó, giải pháp hầu hết người dùng sử dụng đưa câu hỏi vào máy tìm kiếm thay tìm đến website/forum chuyên ngành Tuy nhiên, máy tìm kiếm khơng phải lúc hiệu Máy tìm kiếm đưa danh sách lựa chọn (có thể lên đến hàng triệu) khơng thể nói lựa chọn tốt Ví dụ, du khách lần đầu đến Hà Nội, muốn tìm khách sạn query: “hanoi hotel”, nhận từ Google gần hai triệu kết trả Hầu hết khách sạn danh sách kết xa lạ tự quảng cáo tốt nhất, làm cho du khách bối rối biển thông tin Khơng thể có thời gian để tìm hiểu lại khách sạn (dù 10-20 kết đầu); người khách cần lời khuyên cho trường hợp Những nhu cầu bắt gặp nhiều sống hàng ngày, người ta tìm kiếm sản phầm đơn giản đầu DVD, hãng sơn, công ty taxi …, mà khơng có thơng tin nên với họ thương hiệu Cần có phương pháp đưa gợi ý, tư vấn cho người dùng đủ tốt để áp dụng cho chủ đề đa dạng sống Một giải pháp tốt hiệu gợi ý dựa kinh nghiệm người tìm chủ đề trước Những thơng tin lưu lại log máy tìm kiếm cho biết người tìm chủ đề thường hay truy cập vào website Những website qua hai lần ―lọc‖, máy tìm kiếm người dùng (không phải ngẫu nhiên mà nhiều người dùng lại có lựa chọn) Đơi kết cịn tốt kết máy tìm kiếm trả lại Ví dụ: website tin tức lớn,được nhiều người tìm & truy cập Vietnam như: VnExpress, Vietnamnet, Dân Trí… khơng xuất top 10 tìm “vietnam news” Yahoo & Live Search (phiên MSN) Vì lí đó, khóa luận đề xuất việc xây dựng hệ thống tư vấn website cho máy tìm kiếm dựa khai phá query log Bài toán khai phá query logs toán phải xử lý khối lượng liệu lớn (lên tới hàng gigabyte) nên việc chọn thuật toán tốt hiệu thời gian khó khăn Hệ thống phát triển từ đề tài nghiên cứu khoa học hệ tư vấn website nhóm chúng tơi [1] (thuộc phịng thí nghiệm Sislab – đại học Công Nghệ) [1] tập trung vào việc thống kê website khai phá mẫu có thứ tự (tìm quy luật từ khóa query url click) để đưa tư vấn Khác với [1], hệ thống đề xuất khóa luận tập trung vào việc xác định tập website có giá trị xếp hạng lại chúng theo query người dùng đưa vào Ý tưởng hệ thống gồm ba bước: Bước một: nhóm query tương đồng vào cụm Mỗi cụm tương ứng với chủ đề Bước hai: tìm tập website (url) tốt, đại diện cho cụm Tập website gọi tập website tư vấn Bước ba: người dùng đưa vào query mới, query phân cụm Hệ thống phân tích, đưa website tập website tư vấn thích hợp với query Phần cịn lại khóa luận chia thành bốn chương: Chương Tổng quan hệ tư vấn: Trình bày nội dung hệ tư vấn (các hệ thống tiếng, mơ tả tốn tư vấn, phân loại hệ tư vấn theo phương pháp xây dựng) Giới thiệu hệ tư vấn website xây dựng khóa luận Chương Khai phá query log ứng dụng: Giới thiệu cấu trúc query log máy tìm kiếm, thơng tin khai phá, phương pháp khai phá ứng dụng việc khai phá query log Chương Hệ thống tư vấn website cho máy tìm kiếm dựa khai phá query log: Trình bày mơ hình hệ thống tư vấn website chúng tơi đưa cơng trình liên quan Chương Thực nghiệm đánh giá: Xây dựng, thử nghiệm đánh giá hệ thống với query liên quan tới miền sản phẩm điện tử Phần kết luận tổng kết nội dung khóa luận, vấn đề tồn định hướng phát triển hệ thống 3.2.2 Phần xử lý ngoại tuyến Tiền xử lý query url Phân cụm tập query Xác định tập url tư vấn Hình 20 bước xử lý ngoại tuyến 3.2.2.1 Tiền xử lý Query url đưa dạng chuẩn, thống o Query: Đưa chữ thường Ví dụ: “New York Major” “new york major” Loại bỏ từ dừng (stop word) Ví dụ: a, an, the … Loại bỏ kí tự đặc biệt Ví dụ: + - ~ ! … Đưa từ gốc (stemming) Ví dụ: ladies lady, playing play, cooked cook … Sau đó, query trùng với query có bị loại bỏ chúng khơng có ý nghĩa việc phân cụm o Url: giữ lại domain chính, bỏ giao thức đường dẫn phía sau Ví dụ: http://www.vnexpress.net/thethao/ vnexpress.net 3.2.2.2 Phân cụm tập query Query làm giàu (bổ sung thông tin) trước phân cụm Có hai cách cách làm giàu query sử dung: o Sử dụng url click: Thêm url click vào nội dung query nhằm làm rõ mục đích mà query hướng tới 33 o Sử dụng chủ đề ẩn: Xác định từ query thuộc vào chủ đề (topic) nào, qua làm rõ nội dung query Query sau bổ sung thông tin phân cụm phương pháp thông thường như: Kmean, HAC, … Ở đây, Kmean chọn độ phức tạp O(n*log n) (của HAC O(n2)) o Các query biểu diễn dạng vector trọng số từ TF o Độ tương đồng hai query tính độ đo cosin Xét query: Q = (q1 , q2,…, qn) P = (p1 , p2,…, pn); qi pi trọng số từ i query Q P.Khi độ tương tự query P Q là: 𝑛 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑃, 𝑄) = (𝑝1 − 𝑞1 )2 + (𝑝2 − 𝑞2 )2 + ⋯ + (𝑝𝑛 − 𝑞𝑛 )2 = (𝑝𝑖 − 𝑞𝑖 )2 𝑖=1 o Số cụm xác định dựa khảo sát tập query đầu vào 3.2.2.3 Xác định tập url tư vấn Mục tiêu bước chọn tập url tốt để đại diện cho cụm Một cách đơn giản chọn url click nhiều ngưỡng Ko phải ngẫu nhiên mà người dùng lại click vào url, họ chọn thấy nội dung sát với họ tìm kiếm.Vì vậy, url (website) click nhiều lần nhiều người dùng, chứng tỏ có độ tương đồng cao với nội dung, chủ đề cụm 3.2.3 Phần xử lý trực tuyến Tiền xử lý query Phân cụm query Hình 21 bước xử lý trực tuyến 34 Xếp hạng lại tập url tư vấn 3.2.3.1 Tiền xử lý query o Query : Đưa chữ thường Loại bỏ từ dừng (stop word) Loại bỏ kí tự đặc biệt Đưa từ gốc (stemming) 3.2.3.2 Phân cụm query o o Biểu diễn query dạng vector trọng số từ TF Làm giàu thông tin cho query o Phân query vào cụm có cách: Tính khoảng cách từ vector biểu diễn query tới vector tâm cụm Query phân vào cụm có khoảng cách với tâm cụm nhỏ 3.2.3.3 Xếp hạng lại tập url tư vấn o Các url tập url tư vấn xếp hạng lại (rerank) theo query Để xếp hạng url, đưa cách xác định giá trị hạng dựa vào: Độ tương đồng query q với query qi (𝑖 = 1, 𝑛) có cụm theo độ đo cosin, kí hiệu: sim(q, qi) Giả sử url u tập url tư vấn, chọn (click) người dùng sử dụng query q1, q2 hạng u tính công thức: 𝑟𝑎𝑛𝑘 (𝑢) = 1 + 𝑠𝑖𝑚(𝑞, 𝑞1 ) 𝑠𝑖𝑚(𝑞, 𝑞2 ) Các url có rank(u) cao phù hợp với query q đưa lên trước danh sách tư vấn Hình 22 mơ tả việc xếp hạng url dựa vào độ tương đồng query o Top-N url có hạng cao sử dụng để tư vấn cho người dùng 35 query q1 Query q query q4 • url u1 • url u2 • url u3 query q2 • url u2 query q3 • url u1 • url u5 • url u1 • url u3 Hình 22 Sử dụng quan hệ query để tính hạng url Chương Thực nghiệm đánh giá 4.1 Môi trường Môi trường thực nghiệm: Thành phần Chỉ số CPU Core Duo T7500 2.2Ghz RAM GB HDD 250 GB OS Vista Ultimate 64 bit Bảng Môi trường thực nghiệm 4.2 Dữ liệu công cụ o Dữ liệu: GB query logs lấy từ máy tìm kiếm MSN, với 12 triệu query & url click Các query tiếng anh 36 Hình 23 Một phần query log MSN [20] Qua khảo sát tập query logs, nhận thấy phần lớn query có độ dài từ 2-3 Query có độ dài chiếm tới 17.6 %, query có độ dài chiếm 25.9% query có độ dài chiếm 25.1% Độ dài trung bình query 2.79 30 26% 25% 25 20 18% 16% 15 10 8% 8% Độ dài Độ dài >5 Độ dài Độ dài Độ dài Độ dài Hình 24 Phân bố chiều dài query MSN log [1] o Cơng cụ: Tìm chủ đề ẩn: JGibbsLDA [22] Phân cụm: Lingpipe [23] Các thành phần khác hệ tư vấn (tiền xử lý, xác định tập url tư vấn, rerank url…): Bộ công cụ tự xây dựng 37 4.3 Thực nghiệm Để thử nghiệm, tiến hành xây dựng hệ tư vấn cho query liên quan tới miền sản phẩm điện tử vì: o o Tập 12 triệu query lớn hướng tới nhiều nội dung khác Do hạn chế độ phức tạp nên công cụ tìm chủ đề ẩn, phân cụm xử lý vài chục đến vài trăm nghìn query o Miền tri thức nhỏ cho kết phân cụm tốt (do query cụm gần hơn) o Miền sản phẩm điện tử nhiều người quan tâm Do cần có thêm bước lọc nội dung query 4.3.1 Lọc nội dung query o o Tập query logs loại bỏ trường không liên quan (trường thời gian, query ID, vị trí url danh sách kết quả), giữ lại query url click Xác định tập sản phẩm gồm loại sản phầm như: máy tính, điện thoại, ti vi, đầu cd, máy ảnh… Mỗi loại sản phẩm xác định tập keyword tương ứng Sản phẩm Từ khóa Máy tính computer laptop notebook netbook monitor lcd crt hdd ―hard disk‖ ―floppy disk‖ cdrom ―dvd drive‖ ―optical drive‖ cpu ―dual core‖ ―core duo‖ amd intel mainboard motherboard vga ―graphic card‖ ram keyboard mouse webcam linux ubuntu fedora redhat solaris ―mac os‖ ―windows xp‖ antivirus router firewwall modem adsl wifi lan wan dell ―hp computer‖ lenovo asus ―sony vaio‖ … Điện thoại mobile pda ―smart phone‖ ―cell phone‖ nokia ―samsung mobile‖ ―lg mobile‖ ―sony erricsion‖ iphone blackberry gsm cdma … Các thiết bị camera recorder nikkon kodak fujifilm ―vcd player‖ ―dvd khác player‖ tv television ―plasma tv‖ ―satellite tv‖ ―cable tv‖… Bảng 10 Một số từ khóa liên quan tới miền sản phẩm điện tử 38 o Những query chứa từ khóa trở thành tập input cho hệ thống tư vấn Sau lọc, tập kết thu gồm 2639 query 4.3.2 Xử lý offline 4.3.2.1 Tiền xử lý o Tiền xử lý với query: đưa chữ thường, loại bỏ từ dừng, loại bỏ kí tự o đặc biệt, đưa từ gốc Tiền xử lý với url: giữ lại domain (cnn.com, bbc.com…) 4.3.2.2 Phân cụm tập query o Làm giàu (bổ sung thông tin) cho query Cách 1: Làm giàu query url click Cách 2: Làm giàu query chủ đề ẩn Hai chủ đề sử dụng: Bộ 1: có sẵn, cơng bố [22], xây dựng dựa tài liệu lấy từ en.wikipedia.org - Đặc điểm tài liệu này: dài, từ vựng phong phú, đầy đủ ngữ nghĩa - Gồm 200 chủ đề, chủ đề có 200 từ Bộ 2: chúng tơi xây dựng dựa tập query có sau bước nội dung lọc miền liên quan tới sản phẩm điện tử (gồm 2639 query) Công cụ sử dụng JGibbsLDA [22] - Đặc điểm query: ngắn, ngữ nghĩa, nhập nhằng cao - Gồm 10 chủ đề, chủ đề có 100 từ o Phân cụm sử dụng Kmean (công cụ Lingpipe [23]): Dựa số lượng tập query đầu vào, chọn số cụm 10 do: Nếu số cụm độ gần query cụm giảm Nếu số cụm nhiều số lượng query cụm giảm tần suất lặp lại url thấp, dẫn đến việc không tìm url tốt để đại diện cho nội dung cụm 39 o Thực nghiệm phân cụm thực với trường hợp: Không làm giàu query Làm giàu query url click Làm giàu query chủ đề ẩn (2 bộ) Nhận xét: Khi không làm giàu thông tin cho query; chất lượng phân cụm độ gần query cụm thấp (vì query mang thông tin mặt ngữ nghĩa) độ tách rời cụm không cao Khi làm làm giàu thông tin cho query cách thêm url click vào cuối query kết đạt tốt Nó nhận dạng query khác có mục đích, query giống hướng tới mục đích khác Ví dụ: với query “sf.net” “sourcefore” sau qua bước chuyển thành “sf.net sourcefore.net” “sourcfore sourcfore.net” Rõ ràng query có mối quan hệ mật thiết với Tuy nhiên phương pháp gặp vấn đề lớn; với query mà người dùng gửi đến máy tìm kiếm khơng thể làm giàu thơng tin cho (vì khơng biết người dùng click vào url nào) dẫn đến việc phân cụm sai Khi dùng chủ để ẩn để làm giàu thông tin cho query; thực nghiệm tiến hành hai topic Một topic sinh từ văn lấy từ wikipedia.org; topic sinh trực tiếp từ query query logs Bộ topic lấy từ wikipedia dựa văn dài nhiều thông tin nên ngữ nghĩa từ topic gần tốt hẳn so với topic sinh từ query logs (do query ngắn mang thơng tin) Nhưng thực phân cụm, topic lấy từ wikipedia cho kết khơng cân xứng: có cụm có 690 query (hơn 1/4 tổng số query); cụm có từ 50-90 query (không tới 1/20 tổng số query); cụm cịn lại trung bình 300 query/cụm Ngun nhân từ tập query trùng lặp với từ topic lấy từ wikipedia nên dẫn đến trường hợp lượng lớn query khơng có thuộc tính topic để bổ sung dồn hết vào cụm Lúc topic thứ hai (lấy từ 40 query logs) ngữ nghĩa lại cho kết phân cụm tốt Với 2639 query đầu vào 10 cụm; cụm có khoảng 200-300 query Bảng tổng hợp: Bổ sung chủ đề ẩn Không làm Query giàu Bổ sung url Phân biệt được: Ưu điểm Query giống Bộ chủ đề Bộ chủ đề Wikipedia query logs Chất lượng (ngữ nghĩa) tốt Đều: cụm 200-300 query khác mục đích Query khác mục đích Nhược điểm Độ gần cụm thấp Độ tách rời cụm thấp Không thể bổ sung thông tin Xuất cụm đột biến url click cho query (700 query) cụm có 100 query/cụm Bảng 11 Tổng hợp thực nghiệm phân cụm query 4.3.2.3 Xác định tập url tư vấn Tập url tư vấn cụm tập url có số lần xuất cụm lớn ngưỡng Chọn số lần xuất trung bình url cụm Nếu < (số lần xuất trung bình url cụm thấp) đặt lại = 4.3.3 Xử lý online Sau query phân vào cụm; url tập tư vấn cụm xếp hạng lại dựa cơng thức (đã trình bày mục 3.2.3.3) Ba url có hạng cao dùng để tư vấn 𝑟𝑎𝑛𝑘 (𝑢) = 1 + 𝑠𝑖𝑚(𝑞, 𝑞1 ) 𝑠𝑖𝑚(𝑞, 𝑞2 ) 41 4.4 Đánh giá Xây dựng test gồm: 10 query, query có url mà người dùng mong muốn nhận Các query đưa vào hệ thống với vai trò query người dùng Bảng 11 kết hệ thống trả lại Độ xác hệ thống tính tỉ lệ url tư vấn trùng với url mong muốn người dùng Query Url mong muốn Url hệ thống tư (3-5 url/query) vấn (3 url/query) direct tv guide directv.com direct-tv-guide.org tv.com direct-tv-guide.org online.tvguide.com tv.com tvguide.com online.tvguide.com cell phone cellpages.com phonedirectorysearch.com directory phonedirectorysearch.com cellphoneshop.net cellphoneshop.net newyorkcellphone.com reversephonedirectory.com phoneaddressdirectory.com live tv guide tvguide.com imdb.com tvguidemagazine.com wwitv.com Độ xác hệ thống 100% 66% tv.com tvguide.com imdb.com 66% microsoft.com msdn.microsoft.com download.cnet.com en.wikipedia.org microsoft.com msdn.microsoft.com download.cnet.com 100% tv.com lcdtvbuyingguide.com reviews.cnet.com tv.com lcdtvbuyingguide.com en.wikipedia.org 66% microsoft.com 33% tvguidemagazine.com internet explorer lcd tv reviews digitaladvisor.com lcd-tv-reviews.com multimedia reviews.cnet.com 42 keyboard mobile home en.wikipedia.org en.wikipedia.org www.computerworld.com techwarelabs.com en.wikipedia.org mobilehomeworks.com mobilehomedoctor.com mobilehome.com 33% mobilehome.com 4-sale-mobilehome-park.com digital camera digitalcamera-hq.com dpreview.com mp3 player external hard drive dpreview.com kodak.com reviews.cnet.com kodak.com digicamera.com creative.com creative.com apple.com portableplayerz.com apple.com anythingbutipod.com seagate.com amazon.com pcmag.com amazon.com seagate.com wdc.com 66% 66% 66% tomshardware.com Bảng 12 Bảng kết thực nghiệm Nhận xét: Độ xác trung bình hệ thống là: 66% Đây kết tốt dù tập liệu sau lọc nhỏ, vài nghìn query 43 Kết luận định hướng o Với kết đạt được, khóa luận đóng góp: Xây dựng mơ hình hệ tư vấn website dựa khai phá kinh nghiệm người dùng Các kĩ thuật dùng: Phân cụm query logs, sử dụng phân tích chủ đề ẩn để làm giàu thông tin cho query Kĩ thuật xếp hạng website (url) tư vấn theo query đầu vào Thử nghiệm ban đầu miền liên quan tới sản phẩm điện tử cho kết tốt o Những vấn đề tồn tại: Khối lượng liệu lớn dẫn tới việc thuật toán tốt độ phức tạp cao khơng thể chạy Ví dụ HAC tốt Kmean độ phức tạp cao ( O(n2) so với O(n*logn) ) nên phương pháp sử dụng Kmean o Định hướng phát triển: Tìm cách sử dụng phương pháp phân cụm khác có hiệu cao Mở rộng miền thông tin khác ngồi sản phẩm điện tử Tích hợp hệ thống vào máy tìm kiếm 44 Tài liệu tham khảo Tiếng việt [1] Nguyễn Song Hà, Chu Anh Minh, Vũ Tiến Thành Hệ tư vấn website cho máy tìm kiếm dựa khai phá query log, Cơng trình sinh viên nghiên cứu khoa học, Đại học Công Nghệ, ĐHQGHN, 2009 [2] Lê Diệu Thu Online context advertising, Luận văn tốt nghiệp đai học, Đại học Công nghệ, ĐHQGHN, 2008 Tiếng Anh [3] ACM recommender system conference, http://recsys.acm.org [4] G.Adomavicius, A.Tuzhilin Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, 2005 [5] Agarwal G.Kabra Z.Zhang K.C.Chang Mining Structured Query Templates from Search Logs University of Illinois at Urbana Champaign research, 2008 [6] Ansari, A., S Essegaier, and R Kohli Internet recommendations systems Journal of Marketing Research, pages 363-375, 2000 [7] America Online (AOL) search engine log, 2006, http://www.aol.com [8] R.Baeza, F.Silvestri Web Query Log Mining, ACM SIGIR Conference tutorial, 2009 [9] Balabanovic, M and Y Shoham Fab: Content-based, recommendation Communications of the ACM, 40(3):66-72, 1997 collaborative [10] Basu, C., H Hirsh, and W Cohen Recommendation as classification: Using social and content-based information in recommendation In Recommender Systems Papers from 1998 Workshop Technical Report WS-98-08 AAAI Press, 1998 [11] D.Beeferman, A.Berger Agglomerative clustering of a search engine query log In Proceedings of ACM SIGKDD International Conference 2000 [12] Billsus, D and M Pazzani Learning collaborative information filters In International Conference on Machine Learning, Morgan Kaufmann Publishers, 1998 45 [13] D Blei, A Ng, and M Jordan Latent Dirichlet Allocation Journal of Machine Learning Research, 3:993-1022, January 2003 [14] Breese, J S., D Heckerman, and C Kadie Empirical analysis of predictive algorithms for collaborative filtering In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998 [15] W.B Croft Query Evolution, University of Massachusetts Amherst lecture [16] H Cui, JR Wen, JY Nie, WY Ma Query expansion by mining user logs, - IEEE transactions on knowledge and data engineering, 2003 [17] HB.Deng Introduction to Recommendation System, China University of Hongkong seminar, 2006 [18] Google Inc Search privacy, http://google.com/privacy.html [19] Google Zeitgeist, http://www.google.com/intl/en/press/zeitgeist/index.html [20] Microsoft Social Network (MSN) query log, http://www.msn.com [21] Netflix online movie rental, http://www.netflix.com [22] CT Nguyen, XH Phan, JGibbslda, A Java and Gibbs Sampling based Implementation of Latent Dirichlet Allocation, http://gibbslda.sourceforge.net/, 2007 [23] Lingpipe: suite of Java libraries for the linguistic analysis of human language, http://alias-i.com/lingpipe/ [24] G Pass, A Chowdhury, C Torgeson A picture of Search, Proceedings of the 1st international conference on Scalable Information System, 2006 [25] Popescul, A., L H Ungar, D M Pennock, and S Lawrence Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments In Proc of the 17th Conf on Uncertainty in Artificial Intelligence, Seattle, WA, 2001 [26] K.N.Rao Application Domain and Functional Classification of Recommender Systems—A Survey, Journal of Library & Information Technology, Vol 28, No 3, pp 17-35, 2008 [27] Resnick, N Iakovou, M Sushak, P Bergstrom, and J Riedl GroupLens: An open architecture for collaborative filtering of netnews In Proceedings of the 1994 Computer Supported Cooperative Work Conference, 1994 46 [28] C Silverstein, M Henzinger, H Marais, M Moricz Analysis of a Very Large AltaVista Query Log, Compaq Systems Research Center, 1998 [29] Soboroff, I and C Nicholas Combining content and collaboration in text filtering In 43 IJCAI'99 Workshop: Machine Learning for Information Filtering, 1999 [30] J.R.Wen, JY.Nie, H.Jiang Query Clustering Using User Logs ACM Transactions on Information Systems, Vol 20, No 1, January 2002 [31] Z Zhuang, S Cucerzan Re-Ranking Search Results Using Query Logs 47