-1HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG PHẠM PHƯƠNG THANH MƠ HÌNH TIN CẬY TRONG HỆ TƯ VẤN LỰA CHỌN Chuyên ngành: Truyền liệu Mạng máy tính Mã số: 60.48.15 Người hướng dẫn khoa học: PGS.TS HUỲNH QUYẾT THẮNG TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2010 -2- PHẦN MỞ ĐẦU Cơ sở khoa học thực tiễn đề tài Khả lưu trữ thông tin khổng lồ tạo bước ngoặt lớn sống người Nhưng ngược lại, nhờ khả lưu trữ lượng thông tin khổng lồ nên q trình tìm kiếm thơng tin đáp ứng nhu cầu cho người dùng thường gặp nhiều khó khăn Để giải vấn đề hệ thống thu thập lọc thông tin đời nhằm giảm thời gian tìm kiếm cung cấp thông tin chất lượng cao cho người sử dụng Và hệ “tư vấn lựa chọn tin cậy” mục tiêu hướng tới để nghiên cứu triển khai thực tế Các nghiên cứu tác giả John O’Donovan, Barry Smyth, trường Đại học Dublin, Ireland nhóm tác giả Reid Andersen cộng thuộc Viện khoa học Weizmann, Rehovot, Israel số nhóm tác giả khác liên quan đến kỹ thuật xây dựng hệ “tư vấn lựa chọn tin cậy” công bố năm 2005-2008 sở để em tiến hành nghiên cứu cải tiến số kỹ thuật sử dụng nhằm nâng cao độ tin cậy cho hệ tư vấn lựa chọn tin cậy Mục tiêu đề tài Luận văn hoàn thành với mục đích tổng hợp lý thuyết liên quan cung cấp nhìn tổng quan kỹ thuật sử dụng để xây dựng mơ hình tin cậy hệ tư vấn lựa chọn Đồng thời tìm hiểu tổng hợp lại kết chủ yếu số kỹ thuật công bố báo John O’Donovan, Barry Smyth, Reid Andersen cộng nhóm tác giả khác Tiến hành nghiên cứu thử nghiệm cải tiến kỹ thuật Tiến hành xây -3dựng khung (prototype) hệ tư vấn lựa chọn tin cậy để chứng minh hiệu cải tiến đề xuất CHƯƠNG I GIỚI THIỆU TỔNG QUAN VỀ HỆ TƯ VẤN LỰA CHỌN 1.1 Hệ tư vấn lựa chọn Theo Pemberton: “Hệ tư vấn lựa chọn định nghĩa loại hệ thống lọc có khả thích nghi, sử dụng suy luận rút từ thông tin biết người dùng để tư vấn cho họ lựa chọn mục mà họ chưa biết.” 1.2 Chức hệ tư vấn lựa chọn Các hệ tư vấn lựa chọn giải toán sau: người dùng muốn tương tác với loại mục đó, chẳng hạn muốn xem phim Khi người dùng vào website phim, tất nhiên nhiều phim, người dùng xem thử hết để xem phim hợp ý (điều tốn thời gian, tiền bạc mà có lại làm người dùng khơng hài lịng) Hệ tư vấn lựa chọn có khả dự đốn mức độ ưa thích cho phim tư vấn cho người dùng lựa chọn số phim mà cho phù hợp Như toán hệ tư vấn lựa chọn lựa chọn số mục vơ số mục sẵn có để tư vấn cho người dùng có khả dự đốn mức độ ưa thích người dùng cho mục 1.3 Phân loại hệ tư vấn lựa chọn Cách phân loại hệ tư vấn lựa chọn phổ biến dựa theo thuật toán mà chúng dùng để sinh tư vấn: hệ thống tư vấn theo -4- - 17 - nội dung (content based), hệ thống tư vấn lọc cộng tác (collaborative KẾT LUẬN filtering), hệ thống tư vấn sử dụng kết hợp hai loại thuật toán Thuật toán tư vấn theo nội dung xây dựng giả định: người ta thường muốn tìm giống trước mà người ta Báo cáo trình bày kết thực đồ án tốt nghiệp “ Mơ hình tin cậy hệ tư vấn lựa chọn” Kết đạt bao thích Hệ thống phân tích nội dung mục mà người dùng đánh giá cao, chẳng hạn phim mà người dùng xem thích, gồm tìm hiểu tổng quan hệ tư vấn lựa chọn xây dựng hệ tư vấn ứng dụng cho sinh viên Đại học Thăng Long việc lựa từ tìm đặc trưng mục Sau hệ thống lựa chọn mục mà người dùng chưa đánh giá có nội dung “gần chọn chuyên ngành hẹp nhất” với đặc trưng để tư vấn cho người dùng Thuật toán lọc cộng tác xây dựng dựa giả định người có sở thích giống q khứ có khả họ có sở thích giống 1.4 Kiến trúc hệ tư vấn lựa chọn Kiến trúc hệ tư vấn lựa chọn sau: Hệ tư vấn lựa chọn lĩnh vực Việt Nam, đặc biệt vấn đề độ tin cậy mơ hình tư vấn lựa chọn nhiều tác giả quan tâm Người thực đề tài cố gắng tìm hiểu cách toàn diện, khái quát sở, cơng nghệ lĩnh vực Trên sở đó, thực mở rộng, tiến hành nghiên cứu theo chiều sâu tìm hiểu cụ thể giải thuật mà tác giả O’donovan công bố, đồng thời đề xuất cải tiến giải thuật Trong khuôn khổ đề tài này, em tiến hành mơ tả chi tiết hai mơ hình tin cậy hệ tư vấn lựa chọn, tiến hành cài đặt kiểm thử giải thuật liệu chuẩn (MovieLens) liệu thu thập từ Đại học Thăng Long (dlThangLong) Hướng phát triển đề tài tập trung xây dựng hệ tư vấn lựa chọn ứng dụng cho sinh viên Đại học Thăng Long, hỗ trợ sinh viên việc đăng ký chuyên ngành hẹp, đồng thời giúp trình đào tạo theo tín hoạt động có hiệu - 16 - -5- thấy bạn học lớp đăng ký chuyên ngành đăng ký bạn với suy nghĩ “ học cho vui” o Một yếu tố khác vào kết học tập môn chuyên ngành sở Kết trình học phản ánh khả sinh viên phù hợp với chuyên ngành hẹp Ta lấy ví dụ, sinh viên có điểm số tốt mơn như: Lập trình Java, Phân tích thiết kế hướng đối tượng, Cơng nghệ phần mềm,… sinh viên nên theo chuyên ngành hẹp Công nghệ phần mềm Với mong muốn đó, ý tưởng xây dựng hệ thống hỗ trợ sinh viên việc lựa chọn đăng ký chuyên ngành hẹp cho phù hợp với sở thích lực sinh viên Hệ thống có tên là: “Hệ tư vấn lựa chọn chuyên ngành hẹp cho sinh viên Đại học Thăng Long” Đây hướng phát triển đề tài! Theo Zhang 2002 hệ tư vấn lựa chọn chia làm phần: Tương tác với người dùng Tạo tiểu sử người dùng Tạo tư vấn 1.5 Ứng dụng hệ tư vấn lựa chọn Phạm vi ứng dụng hệ tư vấn lựa chọn rộng Trong thương mại điện tử, hầu hết hệ thống hệ thống bán sách, giới thiệu phim, tin tức, đĩa CD ca nhạc, trang Web Kangas 2002 tổng hợp số hệ thống tư vấn lựa chọn phân loại theo ứng dụng chúng sau: -6- - 15 - Phim: Firefly, MovieCritic, MovieLens, Mangarate, Morse, CinemaScreen, Imdb - Hệ quản trị sở liệu: Access Giải thuật cho kết sau: Âm nhạc: Firefly, CdNow Sách: Amazon, Barnes&Noble Web: Webwatcher, Webdoggie, Gustos Webfilter, Webwasher, Select, Thư viện/Bảo tàng: ScienceIndex, Active Web Museum, BIRD, ChaffAway Tin tức: Shift, Infoscan, NewsSieve, Borger, RAMA, GroupLens Tài liệu: Fab Thương mại điện tử: TripMatcher (du lịch), ShopMatcher (mua bán), E-Markets Các ứng dụng khác: Restaurant recommendation system (WAP), Footprints, Jester (truyện cười), JobMatcher (việc làm), Levis (đồ jeans), Yenta (mai mối), Trabble (nhà hàng) 1.6 Một số hệ tư vấn lựa chọn thương mại Tapestry Fab Amazon MovieLens IMDB (Internet Movie Databasr) Average Max Min IError 0.938 3.489 PError 0.943 1.804 0.679 IOverest 0.865 3.833 IUderest 0.745 3.489 POverest 0.931 2.217 0.328 PUnderest 0.868 1.865 0.162 3.4 Ý tưởng xây dựng hệ tư vấn lựa chọn chuyên ngành hẹp đại học Thăng Long Đại học Thăng Long trường Đại học đào tạo bậc đại học theo hình thức tín Với hình thức đào tạo này, sinh viên chủ động định thời khóa biều Tuy nhiên nhiều sinh viên bị lúng túng việc lựa chọn mơn học cho phù hợp rút ngắn thời gian hồn thành chương trình học cách nhanh Một khó khăn mà sinh viên gặp phải sau hồn thành mơn chuyên ngành sở, sinh viên phải đứng trước việc lựa chọn chuyên ngành hẹp cho Việc lựa chọn chuyên ngành hẹp phụ thuộc nhiều vào yếu tố: o Thứ nhất, sở thích sinh viên Sinh viên muốn sau trường làm chuyên sâu phần đăng ký mơn chun ngành hẹp thuộc phần Hoặc lý - 14 - -7- cải tiến có mối tương quan không đáng kể Ngược lại, CItem CHƯƠNG II Resnick 67% số lần thử nghiệm, điều sai số tổng thể giảm đáng kể 22% MƠ HÌNH TIN CẬY TRONG HỆ TƯ VẤN LỰA CHỌN 3.3 Thử nghiệm giải thuật cho chức tư vấn lựa chọn chuyên ngành hẹp đại học Thăng Long 3.3.1 Thu thập xây dựng liệu Dữ liệu thu thập từ Phòng Đào Tạo trường Đại học Thăng Long người viết luận văn tiến hành xây dựng liệu phù hợp để phục vụ cho việc kiểm thử giải thuật công bố giải thuật đề xuất Dữ liệu xây dựng cách tiến hành thu thập liệu sinh viên tốt nghiệp, gồm: - Mã sinh viên - Tên sinh viên Điểm trung bình mơn chun ngành sở Mã mơn chun hành hẹp đăng ký Điểm tốt nghiệp Với thông tin đó, hệ tư vấn lựa chọn thực cơng việc sau: có sinh viên cần tư vấn để lựa chọn chuyên ngành hẹp Sinh viên cần cung cấp thơng tin cho hệ thống mã sinh viên, tên,… quan trọng điểm trung bình mơn chun ngành sở Hệ thống xử lý dự đoán điểm tốt nghiệp từ tư vấn cho sinh viên chuyên ngành hẹp phù hợp 3.3.2 Thử nghiệm với giải thuật Citem Tiến hành cài đặt thuật toán CItem liệu dlThangLong: - Ngơn ngữ lập trình: Java 2.1 Tổng quan mơ hình tin cậy hệ tư vấn lựa chọn Trong hầu hết nghiên cứu gần đây, định nghĩa độ tin cậy chia thành nhiều loại khác nhau, nên nhiều trường hợp khó đưa định nghĩa xác độ tin cậy Trong nghiên cứu Marsh có giới thiệu độ tin cậy theo theo hai lĩnh vực làm việc với nó: Độ tin cậy cá nhân ngữ cảnh cụ thể (Contextspecific interpersonal trust): tình trạng người dùng có tin cậy vào người mà khơng cần thiết người khác hồn cảnh cụ thể Độ tin cậy hệ thống/ khách quan (impersonal): diễn tả độ tin cậy người dùng hệ thống hay mơi trường 2.2 Các phương pháp tính tốn độ tin cậy 2.2.1 Tính toán độ tin cậy theo tiểu sử người dùng Giá trị dự đoán khoản mục i người sản xuất p cho người tiêu dùng c xác giá trị p(i) khoảng giá trị thực c(i) c theo công thức Correct (i, p, c ) p (i ) c(i ) Tập tồn tư vấn có liên quan đến người sản xuất cho trước RecSet(p) cho công thức: -8- - 13 3.2 Xây dựng đánh giá kết thử nghiệm giải thuật CItem Kết biểu diễn hình sau: RecSet ( p) {(c1 , i1 ), , (cn, in )} Và tập tư vấn xác CorrectSet(p) tập RecSet(p) xác định công thức, với giá trị i số khoản mục c giá trị dự đoán CorrectSet( p) {(ck , ik ) RecSet( p ) : Correct (ik , p, ck )} Độ tin cậy mức khoản mục TrustP nhà sản xuất tỷ lệ phần trăm tư vấn xác phân bố Ví dụ, nhà sản xuất có 100 tư vấn họ coi người tư vấn 100 lần; 40 tư vấn có khả giá trị xác, độ tin cậy mức tiểu sử người dùng 0.4 tính theo cơng thức: Trust P ( p ) CorrectSet ( p ) RecSet ( p) Với hai chiến lược dựa trọng số (WProfile WItem) phân bố sai số dự đoán cải tiến so với Resnick, cải 2.2.2 Tính tốn độ tin cậy theo khoản mục Độ tin cậy mức tiểu sử tiêu chí đo lường độ tin cậy dạng thơ coi tiểu sử tổng thể đánh giá Trên thực tế, người ta kỳ vọng tiểu sử người sản xuất cho trước đáng tin cậy trở thành giá trị dự đoán cho khoản mục cụ thể so với khoản mục khác Nhờ vậy, người ta định nghĩa hàm hình học độ tin I cậy mức khoản mục mịn so với cơng thức trên, hàm Trust dùng để tính tỷ lệ tư vấn xáccho khoản mục i {( ck , ik ) CorrectSet ( p ) : ik i} Trust I ( p , i) {(c k , ik ) RecSet ( p ) : ik i} tiến cận biên, chúng đạt 31.5% 45.9% dự đốn thử nghiệm Nói cách khác, Resnick phân bố dự đoán tốt phần lớn lần thử nghiệm Chiến lược dựa lọc (FProfile FItem) chiến lược kết hợp (CProfile CItem) thực đạt kết tốt nhiều Tất chiến lược thu kết tốt phần lớn thử nghiệm với FProfile CItem đạt 70% 67% dự đoán Chiến lược FProfile cho thấy cải tiến tổng thể đạt kết tốt dựa tỷ lệ phần trăm vượt qua Resnick, đạt 3% sai số có nghĩa so với Resnick Thậm chí FProfile phân bố dự đốn có sai số thấp Resnick 70% số lần thử nghiệm, - 12 CHƯƠNG III -92.3 Một số mơ hình tin cậy phương pháp kiểm thử 2.3.1 Mơ hình tin cậy dựa trọng số THỬ NGHIỆM, ĐÁNH GIÁ VÀ ĐỀ XUẤT XÂY DỰNG PHẦN MỀM TƯ VẤN LỰA CHỌN CHUYÊN NGÀNH HẸP CHO SINH VIÊN ĐẠI HỌC THĂNG LONG Cách đơn giản để xem xét độ tin cậy khơng thích hợp với tiến trình tư vấn kết hợp độ tin cậy độ tương tự để sinh giá trị trọng số kết hợp mà sử dụng cơng thức Resnick sau 3.1 Đề xuất cải tiến dựa giải thuật kết hợp hai mơ hình ( p(i) p ) w(c, p, i) tin cậy dựa trọng số mơ hình tin cậy dựa lọc Khi kết hợp hai mơ hình tin cậy dựa lọc dựa trọng c (i ) c pP ( i ) w (c , p , i ) pP ( i ) số ta có mơ hình Thuật tốn sử dụng mơ hình Trong đó: thuật tốn CItem Xuất phát từ cơng thức Resnick: ( p(i ) p) w(c, p, i ) c(i) c pP (i ) w(c, p, i ) ( p(i ) p) sim(c, p) c (i ) c sim(c, p) pPi Với thuật toán này, độ tương tự c, p thay trọng số c, p khoản mục i: simc, p wc, p, i Từ ta có, đánh giá người dùng c khoản mục i là: ( p(i) p)wc, p, i c(i ) c pP ( i ) pP ( i ) pP ( i ) wc, p, i pPi 2.3.2 Mô hình tin cậy dựa lọc Có thể thay lược đồ trọng số dựa độ tin cậy việc dùng độ tin cậy Có nghĩa việc lọc tiểu sử có độ ưu tiên để tư vấn, hầu hết tiểu sử có độ tin cậy cao tham gia vào tiến trình dự đốn Cơng thức sau phiên thay đổi công thức Resnick: ( p(i) p)sim(c, p ) c (i) c pPT ( i ) sim(c, p) pPT ( i ) Sự thay đổi cho phép tiểu sử người tiêu dùng tham gia vào tiến trình tư vấn giá trị tin cậy họ vượt ngưỡng (threshold) cho trước - 10 PiT { p P(i) : Trust I ( p, i ) T } - 11 Jester http://www.ieor.berkeley.edu/~goldberg/jester-data/ (Trust (p,i)), dùng thay độ tin cậy mức tiểu sử Do đó, phương pháp Resnick chuẩn áp dụng cho hầu hết tiểu Đây tập liệu truyện cười Goldberg (Goldberg et al 1999 Error! Reference source not found.) Tập liệu bao gồm 100 truyện cười, 73.421 người dùng khoảng 4,1 triệu đánh giá Điểm khác biệt Jester có mức đánh giá nhận giá trị liên tục khoảng sử có độ tin cậy cao từ -10 đến 10 Ta thấy công thức sử dụng độ tin cậy mức khoản mục I 2.3.3 Các phương pháp thử nghiệm Độ đo hiệu Độ đo chất lượng dự đoán Độ đo chất lượng N khuyến nghị tốt 2.3.4 Bộ liệu kiểm thử Khi so sánh thuật tốn thiết phải cho chúng chạy tập liệu chuẩn Những tập liệu thường dự án nghiên cứu thu thập Hiện có số tập liệu chuẩn cung cấp miễn phí sau : EachMovie http://research.compaq.com/SRC/eachmovie Đây tập liệu chuẩn phim gồm có 72.916 người dùng, 1.648 phim 2.811.983 đánh giá Mỗi người dùng đánh giá phim theo mức điểm từ tới Trong có 61.263 người dùng có đưa đánh giá có 1.623 phim có đánh giá từ người dùng MovieLens http://www.cs.umn.edu/research/grouplens/data Tập liệu MovieLens tập liệu chuẩn phim gồm có 6.040 người dùng, 3.882 phim 1.000.209 đánh giá người dùng đánh giá 20 phim Mỗi phim đánh giá theo mức điểm từ tới ... hệ tư vấn lựa chọn tin cậy để chứng minh hiệu cải tiến đề xuất CHƯƠNG I GIỚI THIỆU TỔNG QUAN VỀ HỆ TƯ VẤN LỰA CHỌN 1.1 Hệ tư vấn lựa chọn Theo Pemberton: ? ?Hệ tư vấn lựa chọn định nghĩa loại hệ. .. lịng) Hệ tư vấn lựa chọn có khả dự đốn mức độ ưa thích cho phim tư vấn cho người dùng lựa chọn số phim mà cho phù hợp Như toán hệ tư vấn lựa chọn lựa chọn số mục vô số mục sẵn có để tư vấn cho... loại hệ tư vấn lựa chọn Cách phân loại hệ tư vấn lựa chọn phổ biến dựa theo thuật toán mà chúng dùng để sinh tư vấn: hệ thống tư vấn theo -4- - 17 - nội dung (content based), hệ thống tư vấn lọc