Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
586,41 KB
Nội dung
g ờn Tr ại Đ h in ̣c K ho ́ uê ́H tê - - LỜI CÁM ƠN Lời đầu tiên, em xin chân thành gửi lời cám ơn đến toàn thể giáo viên Khoa Hệ Thống Thông Tin Kinh Tế - Đại học Kinh Tế Huế dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu để làm sở cho khóa luận Và em xin gửi lời cám ơn chân thành sâu sắc đến Tiến sĩ Nguyễn ́ uê Đình Hoa Cương, người thầy nhiệt tình hướng dẫn, quan tâm giúp đỡ em hồn thành khóa luận cách tốt ́H Em xin gửi lời cám ơn tới anh chị, bạn bè, gia đình giúp đỡ, động viên, tê tạo điều kiện thuận lợi cho em suốt trình thực hồn thành khóa luận h Mặc dù cố gắng để thực khóa luận cách tốt nhất, với vốn in kiến thức kinh nghiệm cịn thân, nên khó tránh khỏi thiếu sót, mong Tr ờn g Đ ại ho Em xin chân thành cảm ơn ! ̣c K q thầy đóng góp ý kiến, bổ sung để em hồn thành tốt Huế, Tháng năm 2017 - MỤC LỤC PHẦN I : MỞ ĐẦU 1 Lý chọn đề tài: Mục tiêu, nhiệm vụ, đối tượng phạm vi nghiên cứu: .2 2.1 Mục tiêu: 2.2 Nhiệm vụ: .2 ́ uê 2.3 Đối tượng phạm vi nghiên cứu: ́H Phương pháp nghiên cứu: .3 Nội dung đề tài: .3 tê PHẦN : NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU h CHƯƠNG 1: CƠ SỞ LÝ LUẬN in Tổng quan thuật toán K-NN ̣c K 1.1 Khái niệm thuật toán K-NN: 1.2 Lịch sử đời thuật toán K-NN: ho 1.3 Nội dung thuật toán K-NN: 1.3.1 Ưu điểm phương pháp K-NN: ại 1.3.2 Nhược điểm phương pháp K-NN: .7 Đ 1.4 Ví dụ đơn giản K-NN: Cơng thức tính TF-IDF: .8 ờn g 2.1 Khái niệm: 2.2 TF: Tr 2.3 IDF: 2.4 TF-IDF: 10 2.5 Ưu nhược điểm TF-IDF: .10 Các cơng thức tính khoảng cách: 11 3.1 Công thức tính khoảng cách euclid (metric metric Pytago ): .11 3.2 Khoảng cách Manhettan: 12 Hệ tư vấn 13 4.1 Lọc thông tin: .13 - 4.2 Khái niệm hệ tư vấn: 13 4.3 Hướng tiếp cận phương pháp lọc: 15 4.3.1 Phương pháp lọc dựa vào nhớ: 15 4.3.2 Phương pháp lọc dựa vào mơ hình: 15 4.4 Phương pháp lọc 15 4.4.1 Phương pháp lọc dựa nội dung : .15 ́ uê 4.4.1.1 Phát biểu toán lọc dựa nội dung: 16 ́H 4.4.1.2 Phương pháp Lọc nội dung dựa vào nhớ : 17 4.4.1.3 Phương pháp lọc nội dung dựa vào mơ hình : 17 tê 4.4.1.4 Điểm yếu phương pháp lọc theo nội dung : .17 h 4.4.2 Phương pháp lọc cộng tác: .18 in 4.4.2.1 Phát biểu toán lọc dựa cộng tác: 18 ̣c K 4.4.2.2 Phương pháp lọc cộng tác dựa vào nhớ: 19 4.4.2.3 Phương pháp lọc cộng tác dựa vào mơ hình: 19 ho 4.4.3 Phương pháp lọc kết hợp : 19 Các cơng trình liên quan .20 ại CHƯƠNG : CÀI ĐẶT THUẬT TOÁN K-NN ĐỂ XÂY DỰNG 24 Đ CƠ CHẾ TƯ VẤN THÔNG TIN .24 Xác định K văn ( đối tượng ) cần phân loại: 25 g Đọc nội dung văn 26 ờn Tính giá trị TF-IDF 26 Tr Tính khoảng cách từ văn cần phân loại đến toàn văn khác: 28 Lấy K văn để đưa tư vấn 29 CHƯƠNG : XÂY DỰNG THÍ NGHIỆM 38 Người dùng 38 Người dùng 43 Người dùng 47 PHẦN : KẾT LUẬN VÀ KIẾN NGHỊ 53 TÀI LIỆU THAM KHẢO 54 - DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU K-NN K-nearest neighbor TF Term frequency IDF Inverse document frequency TF-IDF Term frequency – inverse document frequency SS Semantic Similarity SF Synset frequency Tr ờn g Đ ại ho ̣c K in h tê ́H ́ Từ đầy đủ uê Từ viết tắt - DANH MỤC CÁC SƠ ĐỒ, HÌNH ẢNH Hình 1: Lưu đồ thuật tốn thuật tốn K-NN Hình : Mơ tả phương pháp K-NN ( Wikipedia 2007 ) Hình 3: Mô tả khoảng cách Euclid khoảng cách Manhattan (Wikipedia 2007) .13 Hình 4: Mơ tả cách thức hoạt động hệ tư vấn (easyrec.org 2015) .14 ́ Hình 5: Mơ tả phương pháp lọc dựa nội dụng (ongxuanhong.wordpress.com 2015).17 Hình 6: Mơ tả phương pháp lọc cộng tác 19 Tr ờn g Đ ại ho ̣c K in h tê ́H Hình 7: Lưu đồ thuật toán phương pháp K-NN 24 - DANH MỤC CÁC BIỂU ĐỒ Biểu đồ : Sơ đồ minh họa phát biểu Zipf’s law (viblo 2016) Biểu đồ 2: Độ xác lựa chọn viết 51 ́ Tr ờn g Đ ại ho ̣c K in h tê ́H uê Biểu đồ 3: Độ xác lựa chọn 10 viết 51 - DANH MỤC CÁC BẢNG Bảng 1: So sánh kết người dùng với chương trình 38 Bảng 2: So sánh kết người dùng với chương trình 40 Bảng 3: So sánh kết người dùng với chương trình 41 Bảng 4: So sánh kết người dùng với chương trình 42 ́ uê Bảng 5: So sánh kết người dùng với chương trình 43 Bảng 6: So sánh kết người dùng với chương trình 44 ́H Bảng 7: So sánh kết người dùng với chương trình 45 tê Bảng 8: So sánh kết người dùng với chương trình 46 h Bảng 9: So sánh kết người dùng với chương trình 47 in Bảng 10: So sánh kết người dùng với chương trình 48 ̣c K Bảng 11: So sánh kết người dùng với chương trình 49 Tr ờn g Đ ại ho Bảng 12: So sánh kết người dùng với chương trình 50 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương PHẦN I : MỞ ĐẦU Lý chọn đề tài: Trong thời đại ngày nay, sống phát triển không ngừng, thời gian làm việc nhiều, người bị theo tốc độ phát triển nhanh, thời gian rảnh để nghỉ ngơi đi, việc theo dõi, tìm kiếm thơng tin bị gián đoạn hạn chế thời gian, nên cịn ́ người đọc báo giấy, người chuyển sang báo mạng, đọc trực tuyến để tiết kiệm thời gian nhanh chóng tìm thơng tin liên quan cần thiết ́H Nhưng với việc bùng nổ thời đại số, việc tải thông tin chuyện xảy tê thường xuyên với tất người Việc lựa chọn thông tin hữu ích người dùng máy h tính online gặp khó khăn nghiêm trọng, gia tăng không ngừng lượng thông in tin khổng lồ đến từ hàng nghìn hàng triệu trang báo mạng, sách, tạp chí, tài liệu, tranh ̣c K ảnh, video, nhạc, kênh truyền hình cập nhập liên tục hàng ngày hàng Từ đó, để giúp người thuận tiện việc đọc báo trực tuyến không bị ho q tải thơng tin, tìm thơng tin quan tâm, nhiều phương pháp công nghệ đời để giải vấn đề Đó lọc thông tin, tư vấn cho người dùng, loại bỏ ại thông tin không phù hợp giới thiệu thơng tin thích hợp với đối tượng cụ thể Đ Việc lọc thông tin trước hết phải Phân Loại Thơng Tin từ lọc Đó g việc quan trọng Các thơng tin phân loại theo nội dung, thông ờn tin tương tự giống xếp lớp Từ dễ dàng lọc thơng tin hữu ích với đối tượng sử dụng Có nhiều phương pháp để phân loại thông tin [1] Tr phân loại với định [33], phân loại với mạng Bayesian [29], phân loại với mạng neural [34], phân loại với k phần tử lân cận gần [3] [4], phân loại với suy diễn dựa tình [35], phân loại với lý thuyết tập mờ [36] phương pháp phổ biến phân loại với k phần tử lân cận gần nhất, với độ xác cao mà dễ dàng học, kỹ thuật sử dụng trực quan Với lý đó, em chọn đề tài “ÁP DỤNG THUẬT TOÁN K - LÂN CẬN ĐỂ XÂY DỰNG CƠ CHẾ TƯ VẤN TIN TỨC ” để nghiên cứu SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Mục tiêu, nhiệm vụ, đối tượng phạm vi nghiên cứu: 2.1 Mục tiêu: - Mục tiêu tổng qt: Áp dụng thành cơng thuật tốn phân loại K-NN vào phân loại thơng tin để từ đưa tư vấn thông tin cho người sử dụng, kiểm tra độ xác thuật tốn - Mục tiêu cụ thể : ́ uê Nghiên cứu sở lý luận thuật toán K-NN lịch sử, tư tưởng, cách thực ́H hiện, công thức TF-IDF, khoảng cách Euclid, hệ tư vấn thông tin h Tiến hành kiểm tra độ xác thuật tốn tê Nghiên cứu cách cài đặt thuật toán K-NN ngôn ngữ Java in 2.2 Nhiệm vụ: ̣c K Về lý thuyết: Tìm hiểu lọc thơng tin, tư vấn tin tức ho Tìm hiểu phương pháp phân loại Tìm hiểu thuật tốn K-NN ại Tìm hiểu cách tính trọng số TF-IDF Đ Tìm hiểu cơng thức tính khoảng cách (Euclid, Manhettan) g Về thực tiễn: ờn Xây dựng cơng thức tính TF-IDF Tr Xây dựng cơng thức tính khoảng cách Xây dựng thuật tốn K-NN dựa cơng thức tính TF-IDF cơng thức tính khoảng cách Từ xây dựng phần mềm thử nghiệm 2.3 Đối tượng phạm vi nghiên cứu: Đối tượng nghiên cứu: Thuật toán K-NN áp dụng vào hệ tư vấn thông qua nội dung thông tin SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 4: So sánh kết người dùng với chương trình Tự chọn Phần mềm TP HCM Bắt kẻ đâm chết hàng xóm bạn gái Va chạm giao thông, nam niên vung dao đâm chết người Trộm xe bị phát hiện, rút dao đâm người trọng thương Những vụ trọng án khởi nguồn từ rượu, bia Can người say đánh nhau, thiếu niên mạng Trộm xe bị phát hiện, rút dao đâm người trọng thương Bị đâm chết mời rượu khơng uống Giết người rượu Tự đâm thủng bụng báo bị cướp Đi ăn trộm, đánh chén no say ngủ quên nhà chủ Can người say đánh nhau, thiếu niên mạng Hai bố tham gia hành thương binh sau va chạm giao thông Băng chuyên đột nhập nhà dân, trộm két sắt sa lưới Cãi với chú, giết cháu say rượu Cãi với chú, giết cháu say rượu Vụ vợ chồng bị chém Lời kể người chứng kiến án mạng ́H tê h Bị đâm chết mời rượu không uống in ̣c K ho ại Đ g ờn Những vụ trọng án khởi nguồn từ rượu, bia Tr 10 ́ Va chạm giao thông, nam niên vung dao đâm chết người uê Vụ vợ chồng bị chém Lời kể người chứng kiến án mạng Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80% Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 42 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Người dùng Bảng 5: So sánh kết người dùng với chương trình Tự chọn Phần mềm U20 Việt Nam 'Đối thủ ai, khơng run sợ' U20 Việt Nam tìm hội vượt qua vòng bảng U20 World Cup Chuyện ‘thái độ’ làm khổ U20 Việt Nam dự World Cup U20 Việt Nam nằm bảng với Đức, Argentina U20 Việt Nam tìm hội vượt qua vịng bảng U20 World Cup U20 Việt Nam vào bảng đấu vừa sức U20 World Cup U20 Việt Nam vào bảng đấu vừa sức U20 World Cup U20 Argentina sang đá giao hữu với U20 U23 Việt Nam Bi-a Siêu VN ngã ngựa trước cửa thiên đường Hậu vệ người Pháp tự tin bắt Vũ Minh Tuấn Cầu thủ, CĐV Brazil đánh dội sân Siêu kinh điển, siêu Messi, Liga lại mở Trận Celta Vigo – Real Madrid bị hỗn ơng trời F1, Bottas đến Mercedes Tương lai xán lạn ́H tê h Chuyện ‘thái độ’ làm khổ U20 Việt Nam dự World Cup U20 Argentina sang đá giao hữu với U20 U23 Việt Nam in ̣c K ho ại Đ g ờn Cầu thủ Juve muốn trả thù Barca Champions League Tr 10 ́ U20 Việt Nam nằm bảng với Đức, Argentina uê F1, Mexican GP Thừa thắng, xông lên Tin thể thao HOT 22 Sharapova “biết ơn” án phạt F1, Mexican GP 2015 Hưng phấn gió Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100% Chọn 10 đọc : Có 5/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 50% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 43 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 6: So sánh kết người dùng với chương trình Tự chọn Phần mềm Tennis 247 Djokovic mơ kỷ lục, sốn ngơi số từ tay Murray Tennis 247 Vô địch Úc mở rộng, Federer xin đừng giải nghệ Federer nước sau Úc mở rộng Còn người hùng Nadal chạy bị tót ghi điểm hàng phục SAO trẻ Federer có hat-trick thắng Nadal Sự tái xuất ngoạn mục Tennis 247 Murray, Federer tranh hùng Dubai Tennis 247 Murray, Federer tranh hùng Dubai Federer nước sau Úc mở rộng Còn người hùng Tin thể thao HOT 1912 Murray thu nhập khủng năm 2016 Tin HOT thể thao 42 Làng quần vợt Anh cầu cứu Sir Alex F1, Mexican GP Thừa thắng, xông lên Tin thể thao HOT 22 Sharapova “biết ơn” án phạt Siêu kinh điển, siêu Messi, Liga lại mở Nadal chạy bị tót ghi điểm hàng phục SAO trẻ Federer có hat-trick thắng Nadal Sự tái xuất ngoạn mục Chung kết kinh điển Federer – Nadal Một chương đỉnh cao F1, Mexican GP 2015 Hưng phấn gió ́H tê h Tin thể thao HOT 22 Sharapova “biết ơn” án phạt in ̣c K ho ại Đ g ờn Mayer - Nadal Bản lĩnh lúc (V1 Australian Open) Tr 10 ́ Tennis 247 Vô địch Úc mở rộng, Federer xin đừng giải nghệ uê F1, Bottas đến Mercedes Tương lai xán lạn Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80% Chọn 10 đọc : Có 6/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 60% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 44 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 7: So sánh kết người dùng với chương trình Tự chọn Phần mềm Tự làm kem kiwi đẹp mắt, ngon mát giải nhiệt Tự làm kem trái vừa ngon vừa bổ Kem xoài chanh leo thanh, mát rượi đánh tan ngày nắng gắt Kem chiên chảo - hot cho mùa hè Tự làm kem trái vừa ngon vừa bổ Cách làm kem xoài thơm ngon, đẹp mắt Kem chiên chảo - hot cho mùa hè Cách làm kem vani hộp nhà khơng cần máy Bật mí cách làm kem chiên mát lạnh cho mùa nắng Cuối tuần làm bánh su kem dâu tươi 10 ngon Huế bỏ lỡ dịp Festival 2016 Cách làm kem sữa chua dâu tây mát lạnh phút Kem xoài chanh leo thanh, mát rượi đánh tan ngày nắng gắt Khốc áo cho bánh su kem Cách làm kem xoài thơm ngon, đẹp mắt 10 Cách làm kẹo chocolate vị matcha ngào h tê ́H ́ Cách làm kem vani hộp nhà khơng cần máy Những ngon xứ Huế định phải thử du lịch mùa thu Cuối tuần làm bánh su kem dâu tươi Mặn mịi tơm chua đất cố Tr ờn g Đ ại ho ̣c K in Bật mí cách làm kem chiên mát lạnh cho mùa nắng Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100% Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 45 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 8: So sánh kết người dùng với chương trình Tự chọn Phần mềm 10 bom cán mốc doanh thu tỷ USD nhanh 10 bom có quân bội thu Disney Người đẹp & Quái vật thức cán mốc doanh thu tỷ USD Giải mã kỷ lục phịng vé vơ tiền khống hậu Fast & Furious 10 bom có quân bội thu Disney Người đẹp & Quái vật thức cán mốc doanh thu tỷ USD ́H h tê Fast & Furious mở cao lịch sử Thu 70,5 tỷ đồng, Fast phá kỷ với nửa tỷ USD lục mắt Kong Việt Nam Bom 'Kong Skull Island' thu 62 tỷ đồng sau ngày công chiếu Beauty and the Beast cán mốc tỷ USD Người đẹp _ Quái vật thắng lớn với 350 triệu USD sau ba ngày Fast & Furious Kịch tính, mãn nhãn, chưa hoàn hảo Beauty and the Beast cán mốc tỷ USD Người đẹp _ Quái vật thắng lớn với 350 triệu USD sau ba ngày Thu 70,5 tỷ đồng, Fast phá kỷ lục mắt Kong Việt Nam Fast & Furious mở cao lịch sử với nửa tỷ USD Bom Logan Mặt tối giới siêu anh hùng Fast & Furious thu 400 triệu USD sau ba ngày 10 Logan Cái kết đẹp cho hành trình thập kỷ người sói Bom Logan Mặt tối giới siêu anh hùng Tr g Đ ại ho ̣c K in ờn ́ Giải mã kỷ lục phòng vé vơ tiền khống hậu Fast & Furious Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80% Chọn 10 đọc : Có 8/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 80% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 46 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Người dùng Bảng 9: So sánh kết người dùng với chương trình Tự chọn Phần mềm Đến Huế thưởng thức đặc sản bánh gói 10 ngon Huế khơng thể bỏ lỡ dịp Festival 2016 Độc đáo chè thịt tiến vua xứ Huế Độc đáo chè thịt tiến vua xứ Huế Đợi ăn bánh canh bà Đợi lừng danh xứ Huế Những ngon xứ Huế định phải thử du lịch mùa thu Mặn mịi tơm chua đất cố 10 ngon Huế khơng thể bỏ lỡ dịp Festival 2016 Mặn mịi tôm chua đất cố đô Thỏa đam mê với bánh xứ Huế Thỏa đam mê với bánh xứ Huế Cách làm nem lụi thơm lừng, chuẩn vị Huế Đến Huế ăn cá kình đầm Chuồn Bữa ăn khoảng 140.000 đồng ngon Tơ bún bị Huế Cách làm bị viên trắng giòn, thơm ngon nhà tê ́H ́ Những ngon xứ Huế định phải thử du lịch mùa thu uê ̣c K ho ại Đ g ờn Ăn chay - nét ẩm thực độc đáo cố đô Huế Tr 10 in h Đợi ăn bánh canh bà Đợi lừng danh xứ Huế Những ăn vặt tiếng Hồng Kơng Những ăn bỏ qua du lịch Hàn Quốc Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100% Chọn 10 đọc : Có 6/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 60% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 47 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 10: So sánh kết người dùng với chương trình Tự chọn Phần mềm Bị đâm chết mời rượu khơng uống Can người say đánh nhau, thiếu niên mạng Giết người rượu Những vụ trọng án khởi nguồn từ rượu, bia Va chạm giao thông, nam niên vung dao đâm chết người Uống rượu say cầm gậy sắt đánh bị thương công an Trộm xe bị phát hiện, rút dao đâm người trọng thương Bị đâm chết mời rượu khơng uống Can người say đánh nhau, thiếu niên mạng Cãi với chú, giết cháu say rượu Những vụ trọng án khởi nguồn từ rượu, bia Án mạng từ việc bị ép uống rượu Cãi với chú, giết cháu say rượu Đâm anh ruột có rượu, lãnh án năm tù Mua sỉ… ma túy xài dần! Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn 10 Hàng chục niên mang dao, súng huyết chiến Đâm anh ruột có rượu, lãnh án năm tù Tr g Đ ại ho ̣c K in h tê ́H ́ Giết người rượu uê ờn Say rượu, đánh bố, bắn chết anh trai Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80% Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 48 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 11: So sánh kết người dùng với chương trình Tự chọn Phần mềm Năm Anh Em Siêu Nhân tái xuất hoàn hảo cho khởi đầu lý khiến anh em siêu nhân tái xuất khơng thể hồn hảo Tất tần tật siêu nhân Power Rangers phim bom tới mà bạn nên biết Nhân vật anh em siêu nhân đồng loạt thay đổi sau 20 năm Bạn biết anh em siêu nhân 2017 Tất tần tật điều thú vị phim Power Rangers đình đám vừa mắt khán giả Power Rangers - phim siêu anh hùng tuổi vị thành niên lý khiến anh em siêu nhân tái xuất khơng thể hồn hảo Tất tần tật điều thú vị phim Power Rangers đình đám vừa mắt khán giả Bạn biết anh em siêu nhân 2017 Những chi tiết fan ruột nhận anh em siêu nhân 2017 Fast & Furious Kịch tính, mãn nhãn, chưa hồn hảo Năm anh em siêu nhân đưa khán giả lên chuyến tàu tuổi thơ Phim Power Rangers khác biệt so với phiên cũ trước Điều thú vị đằng sau thương hiệu anh em siêu nhân Năm anh em siêu nhân đưa khán giả lên chuyến tàu tuổi thơ Bom Kong Skull Island Gay cấn, hoành tráng, mãn nhãn Bom Logan Mặt tối giới siêu anh hùng ́ uê ́H tê h Những chi tiết fan ruột nhận anh em siêu nhân 2017 in ̣c K ho ại Đ Tr 10 g ờn Tất tần tật siêu nhân Power Rangers phim bom tới mà bạn nên biết Nhân vật anh em siêu nhân đồng loạt thay đổi sau 20 năm Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80% Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 49 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Bảng 12: So sánh kết người dùng với chương trình Tự chọn Phần mềm Siêu kinh điển, siêu Messi, Liga lại mở Chấm điểm Real 2-3 Barca Messi che mờ tất điều rút từ chiến thắng Barca El Clasico La Liga trước vòng 21 Real đón tin vui, Barca thắng Chấm điểm Real 2-3 Barca Messi che mờ tất điểm nóng định đại chiến El Clasico Messi ghi bàn, Cris Ronaldo điên tiết đấm đá loạn xạ Real Bale trở lại, Ronaldo đấu Messi – Suarez Siêu kinh điển, siêu Messi, Liga lại mở điểm nóng định đại chiến El Clasico Messi ghi bàn, Cris Ronaldo điên tiết đấm đá loạn xạ Tin thể thao HOT 22 Sharapova “biết ơn” án phạt Khoảnh khắc ăn mừng gây sốt Messi El Clasico Ghi cú đúp, Leo Messi lập kỉ lục El Clasico Ghi cú đúp, Leo Messi lập kỉ lục El Clasico Real Bale trở lại, Ronaldo đấu Messi - Suarez ́H tê h La Liga trước vịng 21 Real đón tin vui, Barca thắng in ho ại Đ g ờn Messi Neymar đấu đá, nội Barca nguy loạn Tr 10 ́ điều rút từ chiến thắng Barca El Clasico uê ̣c K Real bị cướp penalty El Clasico Granada Barcelona Thẻ đỏ, phản lưới nhà kỷ lục Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100% Chọn 10 đọc : Có 8/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 80% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 50 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Từ kết ta có biểu đồ sau 120 100 80 ́ uê 60 Chọn lần Chọn lần Chọn lần Chọn lần ́H 40 tê 20 Người dùng Người dùng ̣c K in Người dùng h ại g Đ Chọn lần Chọn lần Chọn lần Chọn lần Tr ờn 100 90 80 70 60 50 40 30 20 10 ho Biểu đồ 2: Độ xác lựa chọn viết Người dùng Người dùng Người dùng Biểu đồ 3: Độ xác lựa chọn 10 viết SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 51 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương Nhìn vào biểu đồ ta thấy độ xác phần mềm tư vấn viết độ xác đạt khoảng 90% Đó số cao, điều chứng tỏ ưu điểm thuật toán K-NN đơn giản lại xác Tuy nhiên nhìn vào biểu đồ thứ chọn 10 viết ta thấy độ xác giảm xuống cịn khoảng 70 % Sự chênh lệch giảm xét tập huấn luyện nhỏ ́ uê (400 viết ), chưa có nhiều viết nói nội dung để lựa chọn, ́H tập liệu tăng lên, nhiều văn nói đề tài lúc lựa chọn Tr ờn g Đ ại ho ̣c K in h tê tăng độ xác phần mềm lên SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 52 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương PHẦN : KẾT LUẬN VÀ KIẾN NGHỊ Với thời đại bùng nổ thông tin nay, việc tải thông tin diễn thường xuyên liên tục với người dùng, hệ tư vấn lại hữu ích, giúp người dùng tiết kiệm thời gian lựa chọn, nên phải phát triển mạnh mẽ hơn, nhiều phương pháp hồn thiện ́ Thuật tốn K-NN thuật toán đơn giản dễ dàng sử dụng phân ́H loại đánh giá liệu, áp dụng vào nhiều lĩnh vực Tuy có nhiều phương pháp phân tê loại nhưphân loại với định, phân loại với mạng Bayesian, với ưu điểm phương pháp Phân loại với k phần tử lân cận gần sử dụng in h phổ biến Vì em chọn phương pháp K-NN để áp dụng vào hệ tư vấn thông tin ̣c K Qua trình nghiên cứu tìm hiểu em hồn thành việc áp dụng ho thuật toán K-NN vào hệ tư vấn dựa vào nội dung để tư vấn tin tức Với phần mềm ta dự đốn viết người dùng đọc từ viết người dùng đọc, từ ại ta đưa tư vấn viết cho người dùng, giúp giảm thời gian tìm kiếm thơng tin, đảm Đ bảo hài lịng người dùng Mặc dù cịn nhiều thiếu sót, nhiều trường hợp chưa xác với yêu cầu người dùng chương trình làm tốt nhiệm ờn g vụ tư vấn thời gian tốt nhất, mô hệ tư vấn bản, thực việc chuẩn hóa thuật tốn K-NN phương pháp lọc dựa vào nội dung Tr Trong thời gian tới, đề tài nghiên cứu tiếp để hồn thiện áp dụng kỹ thuật tối ưu linh động việc chọn tư vấn, phân tích từ ghép, từ đơi khơng cịn từ riêng biệt đề tài, phương pháp xử lý văn SS SF-IDF, đáp ứng yêu cầu ngày cao người dùng đưa tư vấn xác thời gian ngắn SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 53 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương TÀI LIỆU THAM KHẢO Danh mục tài liệu Tiếng Việt [1] Võ Thị Ngọc Châu (2010), Bài giảng Chương 4: Phân loại liệu, Trường đại học bách khoa Hồ Chí Minh [3] Ơng Xn Hồng (2015), Scikit-learn: K-nearest neighbors, ́ uê ongxuanhong.wordpress.com [4] Nguyễn Văn Chức (2010), Thuật toán K láng giềng gần nhất, bis.net.vn ́H [6].Vũ Tiệp Hữu (2017), Bài 6: K-nearest neighbors, machinelearningcoban.com tê [7] Tiến Phong (2012), Các phương pháp học máy (Machine Learning), bis.net.vn h [10] Vũ Dũng (2015), Chia sẻ kiến thức lập trình: Giải thuật k láng giềng gần – kNN, in laptrinha2z.blogspot.com ̣c K [11] TuanminhBot (2012), Tf–idf Wikipedia tiếng Việt [13] Dương Phạm (2016), TF-IDF ( term frequency – inverse document frequency), ho viblo.asia [14] ThitxongkhoiAWB (2008), Hệ tọa độ Descartes Wikipedia tiếng Việt ại [15] TuanminhBot (2014), Định lý Pytago Wikipedia tiếng Việt Đ [16] AlphamaBot (2008), Không gian Euclide Wikipedia tiếng Việt g [17] TuanminhBot (2009), Khoảng cách Euclid Wikipedia tiếng Việt ờn [18] Nguyễn Bình (2013), Khoảng cách (Distance) ieev.org [19] TuanminhBot (2007), Khoảng cách Manhattan Wikipedia tiếng Việt Tr [20] Đỗ Thị Liên (2013), Nghiên cứu, phát triển phương pháp lọc cộng tác dựa vào nhớ, Học viện cơng nghệ bưu viễn [21] Nguyễn Thế Tuyến (2009), Tổng quan hệ tư vấn, nttuyen.wordpress.com [22] Nguyễn Duy Phương (2011), Phát triển số phương pháp lọc thông tin cho hệ tư vấn Trường Đại học Công nghệ [23] Lê Thành Đạo (2013), Xây dưng hệ tư vấn dựa vào phương pháp lai Học viện cơng nghệ bưu viễn thơng SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 54 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương [24] Đỗ thành Nhân Trần Nguyễn Minh Thư (2013), Hệ thống gợi ý áp dụng cho trang web tổng hợp tin tức tự động Trường đại học Cần Thơ [27] Nguyễn Hùng Dũng Nguyễn Thái Nghe (2014), Hệ thống gợi ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác Trường đại học Cần Thơ [28] Nguyễn Thái Nghe (2013), Hệ thống gợi ý : Kỹ thuật ứng dụng Trường đại học Cần Thơ ́ uê [37] Vietjack, Lớp Hashmap java ́H [38] Nguyễn Đăng Khiêm (2016), Đọc toàn nội dung đọc dòng file với java tê Viblo.asia in [40] Stackoverflow, Java treemap comparator h [39] o7planning, Hướng dẫn sử dụng biểu thức quy Java ̣c K Danh Mục Tài Liệu Tiếng Anh [2] Akshay Padmanabha Christopher Williams (2016), K-nearest Neighbors, ho brilliant.org ại [5] VeniVidiVicipedia (2015), k-nearest neighbors algorithm, Wikipwdia.org Đ [8] Steinwart I Christmann A (2008), Support Vector Machines, (19) [9] Ela Pekalska (2014), Who invented the nearest neighbor rule?, 37steps.com ờn g [12] Dr DooBig (2012), tf-idf, Wikipedia.org [25] Aristides Gionis Claudio Lucchese (2012), “Harnessing the Real-Time web for news Tr personalized recommendation”, WSDM 12 Proceedings of the fifth ACMinternational conference on Web search and data mining, 153-162 [26] Michel Capelle Marnix Moerland (2012), “Semantics-Based News Recommendation”, WIMS 12 Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics, 27 [29] Jiahui Liu, Peter Dolan, Elin Ronby Pedersen (2010), “ Personalized news recommendation based on click behavior ”, IUI 10 Proceedings of the 15th international conference on Intelligent user interfaces, 31-40 SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 55 - Khóa luận tốt nghiệp GVHD : TS Nguyễn Đình Hoa Cương [30] Kam Fung Yeung, Yanyan Yang (2010), “A proactive personalized mobile news recommendation system”, Developments in E-systems Engineering (DESE),54-62 [31] Florent Garcin, Christos Dimitrakakis Boi Faltings (2013 ), “Personalized News Recommendation with Context Trees”, RecSys 13 Proceedings of the 7th ACM conference on Recommender systems, 105-112 [32] Qing Li, Jia Wang, Yuanzhu Peter Chen, Zhangxi Lin (2010), “Comments for news ́ uê recommendation in forum-based social media”, Information Sciences: an International ́H Journal archive 180 (24), 4929-4939 tê [33] A Decision Tree Based Recommender System (2010), “10th International Conference on Innovative Internet Community Systems”, Amir Gershman, Amnon in h Meisels, 170-179 [34] H.J Lee, Sung Joo Park (2007), “Expert Systems with Applications”, MONERS: A ̣c K news recommender for the mobile web, 143-150 [35] Lorraine Mcginty and Barry Smyth (2006), Case-based recommender systems, ho Cambridge University ại [36] Azene Zenebea, Anthony F Norciob (2009), “Fuzzy Sets and Systems”, Đ Representation, similarity measures and aggregation methods using fuzzy sets for Tr ờn g content-based recommender systems, 76-94 SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 56