Áp dụng thuật toán k lân cận để xây dựng cơ chế tư vấn tin tức

64 149 0
Áp dụng thuật toán k   lân cận để xây dựng cơ chế tư vấn tin tức

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THƠNG TIN KINH TẾ  tế H uế KHĨA LUẬN TỐT NGHIỆP Ki nh ĐỀ TÀI ÁP DỤNG THUẬT TOÁN K LÂN CẬN Đ ại họ c ĐỂ XÂY DỰNG CƠ CHẾ TƯ VẤN TIN TỨC Sinh viên thực hiện: Giáo viên hướng dẫn: NGÔ MINH NHẬT TS NGUYỄN ĐÌNH HOA CƯƠNG Lớp: K47 Tin Học Kinh Tế Niên khóa: 2013-2017 Huế, 2017 LỜI CÁM ƠN Lời đầu tiên, em xin chân thành gửi lời cám ơn đến toàn thể giáo viên Khoa Hệ Thống Thông Tin Kinh Tế - Đại học Kinh Tế Huế dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu để làm sở cho khóa luận Và em xin gửi lời cám ơn chân thành sâu sắc đến Tiến sĩ Nguyễn Đình Hoa Cương, người thầy nhiệt tình hướng dẫn, quan tâm giúp đỡ em hồn thành khóa luận cách tốt Em xin gửi lời cám ơn tới anh chị, bạn bè, gia đình giúp đỡ, động viên, uế tạo điều kiện thuận lợi cho em suốt q trình thực hồn thành khóa luận H Mặc dù cố gắng để thực khóa luận cách tốt nhất, với vốn kiến thức kinh nghiệm thân, nên khó tránh khỏi thiếu sót, mong Đ ại họ nh c Ki Em xin chân thành cảm ơn ! tế q thầy đóng góp ý kiến, bổ sung để em hồn thành tốt Huế, Tháng năm 2017 MỤC LỤC PHẦN I : MỞ ĐẦU 1 Lý chọn đề tài: Mục tiêu, nhiệm vụ, đối tượng phạm vi nghiên cứu: 2.1 Mục tiêu: 2.2 Nhiệm vụ: 2.3 Đối tượng phạm vi nghiên cứu: Phương pháp nghiên cứu: uế Nội dung đề tài: PHẦN : NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU H CHƯƠNG 1: CƠ SỞ LÝ LUẬN tế Tổng quan thuật toán K-NN 1.1 Khái niệm thuật toán K-NN: nh 1.2 Lịch sử đời thuật toán K-NN: 1.3 Nội dung thuật toán K-NN: Ki 1.3.1 Ưu điểm phương pháp K-NN: c 1.3.2 Nhược điểm phương pháp K-NN: họ 1.4 Ví dụ đơn giản K-NN: Công thức tính TF-IDF: ại 2.1 Khái niệm: Đ 2.2 TF: 2.3 IDF: 2.4 TF-IDF: 10 2.5 Ưu nhược điểm TF-IDF: 10 Các công thức tính khoảng cách: 11 3.1 Cơng thức tính khoảng cách euclid (metric metric Pytago ): 11 3.2 Khoảng cách Manhettan: 12 Hệ tư vấn 13 4.1 Lọc thông tin: 13 4.2 Khái niệm hệ tư vấn: 13 4.3 Hướng tiếp cận phương pháp lọc: 15 4.3.1 Phương pháp lọc dựa vào nhớ: 15 4.3.2 Phương pháp lọc dựa vào mơ hình: 15 4.4 Phương pháp lọc 15 4.4.1 Phương pháp lọc dựa nội dung : 15 4.4.1.1 Phát biểu toán lọc dựa nội dung: 16 4.4.1.2 Phương pháp Lọc nội dung dựa vào nhớ : 17 4.4.1.3 Phương pháp lọc nội dung dựa vào mơ hình : 17 uế 4.4.1.4 Điểm yếu phương pháp lọc theo nội dung : 17 H 4.4.2 Phương pháp lọc cộng tác: 18 4.4.2.1 Phát biểu toán lọc dựa cộng tác: 18 tế 4.4.2.2 Phương pháp lọc cộng tác dựa vào nhớ: 19 nh 4.4.2.3 Phương pháp lọc cộng tác dựa vào mơ hình: 19 4.4.3 Phương pháp lọc kết hợp : 19 Ki Các cơng trình liên quan 20 CHƯƠNG : CÀI ĐẶT THUẬT TOÁN K-NN ĐỂ XÂY DỰNG 24 họ c CƠ CHẾ TƯ VẤN THÔNG TIN 24 Xác định K văn ( đối tượng ) cần phân loại: 25 ại Đọc nội dung văn 26 Đ Tính giá trị TF-IDF 26 Tính khoảng cách từ văn cần phân loại đến toàn văn khác: 28 Lấy K văn để đưa tư vấn 29 CHƯƠNG : XÂY DỰNG THÍ NGHIỆM 38 Người dùng 38 Người dùng 43 Người dùng 47 PHẦN : KẾT LUẬN VÀ KIẾN NGHỊ 53 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU Từ đầy đủ K-NN K-nearest neighbor TF Term frequency IDF Inverse document frequency TF-IDF Term frequency – inverse document frequency SS Semantic Similarity SF Synset frequency Đ ại họ c Ki nh tế H uế Từ viết tắt DANH MỤC CÁC SƠ ĐỒ, HÌNH ẢNH Hình 1: Lưu đồ thuật tốn thuật tốn K-NN Hình : Mô tả phương pháp K-NN ( Wikipedia 2007 ) Hình 3: Mô tả khoảng cách Euclid khoảng cách Manhattan (Wikipedia 2007) 13 Hình 4: Mơ tả cách thức hoạt động hệ tư vấn (easyrec.org 2015) 14 Hình 5: Mơ tả phương pháp lọc dựa nội dụng (ongxuanhong.wordpress.com 2015).17 Hình 6: Mơ tả phương pháp lọc cộng tác 19 Đ ại họ c Ki nh tế H uế Hình 7: Lưu đồ thuật toán phương pháp K-NN 24 DANH MỤC CÁC BIỂU ĐỒ Biểu đồ : Sơ đồ minh họa phát biểu Zipf’s law (viblo 2016) Biểu đồ 2: Độ xác lựa chọn viết 51 Đ ại họ c Ki nh tế H uế Biểu đồ 3: Độ xác lựa chọn 10 viết 51 DANH MỤC CÁC BẢNG Bảng 1: So sánh kết người dùng với chương trình 38 Bảng 2: So sánh kết người dùng với chương trình 40 Bảng 3: So sánh kết người dùng với chương trình 41 Bảng 4: So sánh kết người dùng với chương trình 42 Bảng 5: So sánh kết người dùng với chương trình 43 Bảng 6: So sánh kết người dùng với chương trình 44 Bảng 7: So sánh kết người dùng với chương trình 45 uế Bảng 8: So sánh kết người dùng với chương trình 46 H Bảng 9: So sánh kết người dùng với chương trình 47 Bảng 10: So sánh kết người dùng với chương trình 48 tế Bảng 11: So sánh kết người dùng với chương trình 49 Đ ại họ c Ki nh Bảng 12: So sánh kết người dùng với chương trình 50 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp PHẦN I : MỞ ĐẦU Lý chọn đề tài: Trong thời đại ngày nay, sống phát triển không ngừng, thời gian làm việc nhiều, người bị theo tốc độ phát triển nhanh, thời gian rảnh để nghỉ ngơi đi, việc theo dõi, tìm kiếm thơng tin bị gián đoạn hạn chế thời gian, nên người đọc báo giấy, người chuyển sang báo mạng, đọc trực tuyến để tiết kiệm thời gian nhanh chóng tìm thơng tin liên quan cần thiết Nhưng với việc bùng nổ thời đại số, việc tải thông tin chuyện xảy uế thường xuyên với tất người Việc lựa chọn thông tin hữu ích người dùng máy H tính online gặp khó khăn nghiêm trọng, gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng nghìn hàng triệu trang báo mạng, sách, tạp chí, tài liệu, tranh tế ảnh, video, nhạc, kênh truyền hình cập nhập liên tục hàng ngày hàng nh Từ đó, để giúp người thuận tiện việc đọc báo trực tuyến không bị q tải thơng tin, tìm thơng tin quan tâm, nhiều phương pháp công nghệ Ki đời để giải vấn đề Đó lọc thơng tin, tư vấn cho người dùng, loại bỏ c thông tin không phù hợp giới thiệu thơng tin thích hợp với đối tượng cụ thể họ Việc lọc thông tin trước hết phải Phân Loại Thơng Tin từ lọc Đó việc quan trọng Các thông tin phân loại theo nội dung, thông ại tin tương tự giống xếp lớp Từ dễ dàng lọc thơng Đ tin hữu ích với đối tượng sử dụng Có nhiều phương pháp để phân loại thông tin [1] phân loại với định [33], phân loại với mạng Bayesian [29], phân loại với mạng neural [34], phân loại với k phần tử lân cận gần [3] [4], phân loại với suy diễn dựa tình [35], phân loại với lý thuyết tập mờ [36] phương pháp phổ biến phân loại với k phần tử lân cận gần nhất, với độ xác cao mà dễ dàng học, kỹ thuật sử dụng trực quan Với lý đó, em chọn đề tài “ÁP DỤNG THUẬT TOÁN K - LÂN CẬN ĐỂ XÂY DỰNG CƠ CHẾ TƯ VẤN TIN TỨC ” để nghiên cứu SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Mục tiêu, nhiệm vụ, đối tượng phạm vi nghiên cứu: 2.1 Mục tiêu: - Mục tiêu tổng quát: Áp dụng thành cơng thuật tốn phân loại K-NN vào phân loại thơng tin để từ đưa tư vấn thơng tin cho người sử dụng, kiểm tra độ xác thuật tốn - Mục tiêu cụ thể : • Nghiên cứu sở lý luận thuật toán K-NN lịch sử, tư tưởng, cách thực hiện, công thức TF-IDF, khoảng cách Euclid, hệ tư vấn thông tin H • Tiến hành kiểm tra độ xác thuật tốn uế • Nghiên cứu cách cài đặt thuật tốn K-NN ngơn ngữ Java tế 2.2 Nhiệm vụ: Về lý thuyết: nh • Tìm hiểu lọc thơng tin, tư vấn tin tức Ki • Tìm hiểu phương pháp phân loại • Tìm hiểu thuật tốn K-NN c • Tìm hiểu cách tính trọng số TF-IDF ại Về thực tiễn: họ • Tìm hiểu cơng thức tính khoảng cách (Euclid, Manhettan) Đ • Xây dựng cơng thức tính TF-IDF • Xây dựng cơng thức tính khoảng cách • Xây dựng thuật tốn K-NN dựa cơng thức tính TF-IDF cơng thức tính khoảng cách • Từ xây dựng phần mềm thử nghiệm 2.3 Đối tượng phạm vi nghiên cứu: • Đối tượng nghiên cứu: Thuật toán K-NN áp dụng vào hệ tư vấn thông qua nội dung thông tin SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 4: So sánh kết người dùng với chương trình Tự chọn Phần mềm TP HCM Bắt kẻ đâm chết hàng xóm bạn gái Va chạm giao thông, nam niên vung dao đâm chết người Va chạm giao thông, nam niên vung dao đâm chết người Trộm xe bị phát hiện, rút dao đâm người trọng thương Những vụ trọng án khởi nguồn từ rượu, bia Can người say đánh nhau, thiếu niên mạng Trộm xe bị phát hiện, rút dao đâm người trọng thương Bị đâm chết mời rượu khơng uống Tự đâm thủng bụng báo bị cướp Đi ăn trộm, đánh chén no say ngủ quên nhà chủ Hai bố tham gia hành thương binh sau va chạm giao thông Băng chuyên đột nhập nhà dân, trộm két sắt sa lưới Cãi với chú, giết cháu say rượu Cãi với chú, giết cháu say rượu Vụ vợ chồng bị chém Lời kể người chứng kiến án mạng 10 Những vụ trọng án khởi nguồn từ rượu, bia uế Giết người rượu H Bị đâm chết mời rượu không uống Đ ại họ c Ki nh tế Can người say đánh nhau, thiếu niên mạng Vụ vợ chồng bị chém Lời kể người chứng kiến án mạng Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn  Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80%  Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 42 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Người dùng Bảng 5: So sánh kết người dùng với chương trình Tự chọn Phần mềm U20 Việt Nam 'Đối thủ ai, không run sợ' U20 Việt Nam nằm bảng với Đức, Argentina U20 Việt Nam tìm hội vượt qua vòng bảng U20 World Cup Chuyện ‘thái độ’ làm khổ U20 Việt Nam dự World Cup U20 Việt Nam nằm bảng với Đức, Argentina U20 Việt Nam tìm hội vượt qua vòng bảng U20 World Cup U20 Việt Nam vào bảng đấu vừa sức U20 World Cup U20 Việt Nam vào bảng đấu vừa sức U20 World Cup Chuyện ‘thái độ’ làm khổ U20 Việt Nam dự World Cup U20 Argentina sang đá giao hữu với U20 U23 Việt Nam Bi-a Siêu VN ngã ngựa trước cửa thiên đường F1, Mexican GP Thừa thắng, xông lên Hậu vệ người Pháp tự tin bắt Vũ Minh Tuấn Tin thể thao HOT 22 Sharapova “biết ơn” án phạt Cầu thủ, CĐV Brazil đánh dội sân Siêu kinh điển, siêu Messi, Liga lại mở Trận Celta Vigo – Real Madrid bị hoãn ơng trời F1, Bottas đến Mercedes Tương lai xán lạn 10 Cầu thủ Juve muốn trả thù Barca Champions League F1, Mexican GP 2015 Hưng phấn gió H uế Đ ại họ c Ki nh tế U20 Argentina sang đá giao hữu với U20 U23 Việt Nam  Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100%  Chọn 10 đọc : Có 5/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 50% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 43 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 6: So sánh kết người dùng với chương trình Tự chọn Phần mềm Tennis 247 Djokovic mơ kỷ lục, sốn ngơi số từ tay Murray Tennis 247 Vô địch Úc mở rộng, Federer xin đừng giải nghệ Tennis 247 Vô địch Úc mở rộng, Federer xin đừng giải nghệ Federer nước sau Úc mở rộng Còn người hùng Nadal chạy bò tót ghi điểm hàng phục SAO trẻ Federer có hat-trick thắng Nadal Sự tái xuất ngoạn mục Tennis 247 Murray, Federer tranh hùng Dubai Tennis 247 Murray, Federer tranh hùng Dubai Federer nước sau Úc mở rộng Còn người hùng Tin thể thao HOT 1912 Murray thu nhập khủng năm 2016 Tin HOT thể thao 42 Làng quần vợt Anh cầu cứu Sir Alex F1, Mexican GP Thừa thắng, xông lên Tin thể thao HOT 22 Sharapova “biết ơn” án phạt Siêu kinh điển, siêu Messi, Liga lại mở Nadal chạy bò tót ghi điểm hàng phục SAO trẻ Federer có hat-trick thắng Nadal Sự tái xuất ngoạn mục Chung kết kinh điển Federer – Nadal Một chương đỉnh cao F1, Mexican GP 2015 Hưng phấn gió 10 Mayer - Nadal Bản lĩnh lúc (V1 Australian Open) F1, Bottas đến Mercedes Tương lai xán lạn H uế Đ ại họ c Ki nh tế Tin thể thao HOT 22 Sharapova “biết ơn” án phạt  Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80%  Chọn 10 đọc : Có 6/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 60% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 44 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 7: So sánh kết người dùng với chương trình Tự chọn Phần mềm Tự làm kem kiwi đẹp mắt, ngon mát giải nhiệt Cách làm kem vani hộp nhà không cần máy Tự làm kem trái vừa ngon vừa bổ Kem xoài chanh leo thanh, mát rượi đánh tan ngày nắng gắt Kem chiên chảo - hot cho mùa hè Tự làm kem trái vừa ngon vừa bổ Cách làm kem xoài thơm ngon, đẹp mắt Kem chiên chảo - hot cho mùa hè Cách làm kem vani hộp nhà không cần máy Bật mí cách làm kem chiên mát lạnh cho mùa nắng Cuối tuần làm bánh su kem dâu tươi 10 ngon Huế khơng thể bỏ lỡ dịp Festival 2016 Cách làm kem sữa chua dâu tây mát lạnh phút Kem xoài chanh leo thanh, mát rượi đánh tan ngày nắng gắt Khoác áo cho bánh su kem Những ngon xứ Huế định phải thử du lịch mùa thu Cách làm kem xoài thơm ngon, đẹp mắt Cuối tuần làm bánh su kem dâu tươi 10 Cách làm kẹo chocolate vị matcha ngào Mặn mòi tơm chua đất cố đô H uế Đ ại họ c Ki nh tế Bật mí cách làm kem chiên mát lạnh cho mùa nắng  Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100%  Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 45 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 8: So sánh kết người dùng với chương trình Tự chọn Phần mềm 10 bom cán mốc doanh thu tỷ USD nhanh Giải mã kỷ lục phòng vé vơ tiền khống hậu Fast & Furious 10 bom có quân bội thu Disney Người đẹp & Quái vật thức cán mốc doanh thu tỷ USD Giải mã kỷ lục phòng vé vơ tiền khống hậu Fast & Furious 10 bom có quân bội thu Disney Người đẹp & Quái vật thức cán mốc doanh thu tỷ USD Fast & Furious mở cao lịch sử Thu 70,5 tỷ đồng, Fast phá kỷ lục mắt Kong Việt Nam với nửa tỷ USD H uế Bom 'Kong Skull Island' thu 62 tỷ đồng sau ngày công chiếu Người đẹp _ Quái vật thắng lớn với 350 triệu USD sau ba ngày Fast & Furious Kịch tính, mãn nhãn, chưa hoàn hảo Beauty and the Beast cán mốc tỷ USD Người đẹp _ Quái vật thắng lớn với 350 triệu USD sau ba ngày Thu 70,5 tỷ đồng, Fast phá kỷ lục mắt Kong Việt Nam Fast & Furious mở cao lịch sử với nửa tỷ USD Bom Logan Mặt tối giới siêu anh hùng Fast & Furious thu 400 triệu USD sau ba ngày 10 Logan Cái kết đẹp cho hành trình thập kỷ người sói Bom Logan Mặt tối giới siêu anh hùng Đ ại họ c Ki nh tế Beauty and the Beast cán mốc tỷ USD  Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80%  Chọn 10 đọc : Có 8/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 80% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 46 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Người dùng Bảng 9: So sánh kết người dùng với chương trình Tự chọn Phần mềm Đến Huế thưởng thức đặc sản bánh gói Những ngon xứ Huế định phải thử du lịch mùa thu 10 ngon Huế khơng thể bỏ lỡ dịp Festival 2016 Độc đáo chè thịt tiến vua xứ Huế Độc đáo chè thịt tiến vua xứ Huế Đợi ăn bánh canh bà Đợi lừng danh xứ Huế Những ngon xứ Huế định phải thử du lịch mùa thu Mặn mòi tơm chua đất cố Đợi ăn bánh canh bà Đợi lừng danh xứ Huế 10 ngon Huế bỏ lỡ dịp Festival 2016 Thỏa đam mê với bánh xứ Huế Thỏa đam mê với bánh xứ Huế Cách làm nem lụi thơm lừng, chuẩn vị Huế Những ăn vặt tiếng Hồng Kông Đến Huế ăn cá kình đầm Chuồn Bữa ăn khoảng 140.000 đồng ngon Tơ bún bò Huế Cách làm bò viên trắng giòn, thơm ngon nhà Ăn chay - nét ẩm thực độc đáo cố đô Huế Những ăn khơng thể bỏ qua du lịch Hàn Quốc H Mặn mòi tơm chua đất cố đô tế nh Ki c họ ại Đ 10 uế  Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100%  Chọn 10 đọc : Có 6/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 60% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 47 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 10: So sánh kết người dùng với chương trình Tự chọn Phần mềm Say rượu, đánh bố, bắn chết anh trai Giết người rượu Bị đâm chết mời rượu khơng uống Can người say đánh nhau, thiếu niên mạng Giết người rượu Những vụ trọng án khởi nguồn từ rượu, bia Va chạm giao thông, nam niên vung dao đâm chết người Uống rượu say cầm gậy sắt đánh bị thương công an Trộm xe bị phát hiện, rút dao đâm người trọng thương Bị đâm chết mời rượu khơng uống Can người say đánh nhau, thiếu niên mạng Cãi với chú, giết cháu say rượu Án mạng từ việc bị ép uống rượu Cãi với chú, giết cháu say rượu Đâm anh ruột có rượu, lãnh án năm tù Mua sỉ… ma túy xài dần! Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn Gần 6.000 người đánh dịp Tết Sao ngày có nhiều người hãn 10 Hàng chục niên mang dao, súng huyết chiến Đâm anh ruột có rượu, lãnh án năm tù Đ ại họ c Ki nh tế H uế Những vụ trọng án khởi nguồn từ rượu, bia  Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80%  Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 48 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 11: So sánh kết người dùng với chương trình Tự chọn Phần mềm Năm Anh Em Siêu Nhân tái xuất hoàn hảo cho khởi đầu lý khiến anh em siêu nhân tái xuất khơng thể hồn hảo Nhân vật anh em siêu nhân đồng loạt thay đổi sau 20 năm Bạn biết anh em siêu nhân 2017 Tất tần tật siêu nhân Power Rangers phim bom tới mà bạn nên biết Nhân vật anh em siêu nhân đồng loạt thay đổi sau 20 năm Tất tần tật điều thú vị phim Power Rangers đình đám vừa mắt khán giả Power Rangers - phim siêu anh hùng tuổi vị thành niên lý khiến anh em siêu nhân tái xuất khơng thể hồn hảo Tất tần tật điều thú vị phim Power Rangers đình đám vừa mắt khán giả Bạn biết anh em siêu nhân 2017 Những chi tiết fan ruột nhận anh em siêu nhân 2017 Fast & Furious Kịch tính, mãn nhãn, chưa hoàn hảo Năm anh em siêu nhân đưa khán giả lên chuyến tàu tuổi thơ Phim Power Rangers khác biệt so với phiên cũ trước Điều thú vị đằng sau thương hiệu anh em siêu nhân Năm anh em siêu nhân đưa khán giả lên chuyến tàu tuổi thơ Bom Kong Skull Island Gay cấn, hoành tráng, mãn nhãn Bom Logan Mặt tối giới siêu anh hùng H Những chi tiết fan ruột nhận anh em siêu nhân 2017 tế nh Ki họ c 10 ại Đ uế Tất tần tật siêu nhân Power Rangers phim bom tới mà bạn nên biết  Chỉ chọn đọc : Ta thấy có viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 80%  Chọn 10 đọc : Có 7/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 70% SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 49 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Bảng 12: So sánh kết người dùng với chương trình Tự chọn Phần mềm Real bị cướp penalty El Clasico điều rút từ chiến thắng Barca El Clasico Siêu kinh điển, siêu Messi, Liga lại mở Chấm điểm Real 2-3 Barca Messi che mờ tất điều rút từ chiến thắng Barca El Clasico La Liga trước vòng 21 Real đón tin vui, Barca thắng Chấm điểm Real 2-3 Barca Messi che mờ tất điểm nóng định đại chiến El Clasico Messi ghi bàn, Cris Ronaldo điên tiết đấm đá loạn xạ Real Bale trở lại, Ronaldo đấu Messi – Suarez Siêu kinh điển, siêu Messi, Liga lại mở điểm nóng định đại chiến El Clasico Messi ghi bàn, Cris Ronaldo điên tiết đấm đá loạn xạ Tin thể thao HOT 22 Sharapova “biết ơn” án phạt Khoảnh khắc ăn mừng gây sốt Messi El Clasico Ghi cú đúp, Leo Messi lập kỉ lục El Clasico Ghi cú đúp, Leo Messi lập kỉ lục El Clasico Real Bale trở lại, Ronaldo đấu Messi - Suarez 10 Messi Neymar đấu đá, nội Barca nguy loạn Granada Barcelona Thẻ đỏ, phản lưới nhà kỷ lục H uế Đ ại họ c Ki nh tế La Liga trước vòng 21 Real đón tin vui, Barca thắng  Chỉ chọn đọc : Ta thấy viết người dùng chọn xuất 10 viết mà phần mềm đưa Đạt tỉ lệ xác 100%  Chọn 10 đọc : Có 8/10 viết mà phần mềm đưa trùng với viết người dùng chọn Đạt tỉ lệ xác 80% SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 50 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Từ kết ta có biểu đồ sau 120 100 Chọn lần Chọn lần Chọn lần Chọn lần 80 60 40 Người dùng Người dùng tế Người dùng H uế 20 Ki c họ ại Ch Ch Ch Ch Đ 00 90 80 70 60 50 40 30 20 10 nh Biểu đồ 2: Độ xác lựa chọn viết Người dùng Người dùng ọ ọ ọ ọ Người dùng Biểu đồ 3: Độ xác lựa chọn 10 viết SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 51 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Nhìn vào biểu đồ ta thấy độ xác phần mềm tư vấn viết độ xác đạt khoảng 90% Đó số cao, điều chứng tỏ ưu điểm thuật toán K-NN đơn giản lại xác Tuy nhiên nhìn vào biểu đồ thứ chọn 10 viết ta thấy độ xác giảm xuống khoảng 70 % Sự chênh lệch giảm xét tập huấn luyện nhỏ (400 viết ), chưa có nhiều viết nói nội dung để lựa chọn, tập liệu tăng lên, nhiều văn nói đề tài lúc lựa chọn Đ ại họ c Ki nh tế H uế tăng độ xác phần mềm lên SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 52 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp PHẦN : KẾT LUẬN VÀ KIẾN NGHỊ Với thời đại bùng nổ thông tin nay, việc tải thông tin diễn thường xuyên liên tục với người dùng, hệ tư vấn lại hữu ích, giúp người dùng tiết kiệm thời gian lựa chọn, nên phải phát triển mạnh mẽ hơn, nhiều phương pháp hoàn thiện Thuật toán K-NN thuật toán đơn giản dễ dàng sử dụng phân loại đánh giá liệu, áp dụng vào nhiều lĩnh vực Tuy có nhiều phương pháp phân uế loại nhưphân loại với định, phân loại với mạng Bayesian, với ưu H điểm phương pháp Phân loại với k phần tử lân cận gần sử dụng phổ biến Vì em chọn phương pháp K-NN để áp dụng vào hệ tư vấn thơng tin tế nh Qua q trình nghiên cứu tìm hiểu em hồn thành việc áp dụng thuật toán K-NN vào hệ tư vấn dựa vào nội dung để tư vấn tin tức Với phần mềm ta Ki dự đốn viết người dùng đọc từ viết người dùng đọc, từ c ta đưa tư vấn viết cho người dùng, giúp giảm thời gian tìm kiếm thơng tin, đảm họ bảo hài lòng người dùng Mặc dù nhiều thiếu sót, nhiều trường hợp chưa xác với u cầu người dùng chương trình làm tốt nhiệm ại vụ tư vấn thời gian tốt nhất, mô hệ tư vấn bản, thực việc Đ chuẩn hóa thuật toán K-NN phương pháp lọc dựa vào nội dung Trong thời gian tới, đề tài nghiên cứu tiếp để hồn thiện áp dụng kỹ thuật tối ưu linh động việc chọn tư vấn, phân tích từ ghép, từ đơi khơng từ riêng biệt đề tài, phương pháp xử lý văn SS SF-IDF, đáp ứng yêu cầu ngày cao người dùng đưa tư vấn xác thời gian ngắn SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 53 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp TÀI LIỆU THAM KHẢO Danh mục tài liệu Tiếng Việt [1] Võ Thị Ngọc Châu (2010), Bài giảng Chương 4: Phân loại liệu, Trường đại học bách khoa Hồ Chí Minh [3] Ông Xuân Hồng (2015), Scikit-learn: K-nearest neighbors, ongxuanhong.wordpress.com [4] Nguyễn Văn Chức (2010), Thuật toán K láng giềng gần nhất, bis.net.vn [6].Vũ Tiệp Hữu (2017), Bài 6: K-nearest neighbors, machinelearningcoban.com uế [7] Tiến Phong (2012), Các phương pháp học máy (Machine Learning), bis.net.vn H [10] Vũ Dũng (2015), Chia sẻ kiến thức lập trình: Giải thuật k láng giềng gần – kNN, tế laptrinha2z.blogspot.com [11] TuanminhBot (2012), Tf–idf Wikipedia tiếng Việt nh [13] Dương Phạm (2016), TF-IDF ( term frequency – inverse document frequency), viblo.asia Ki [14] ThitxongkhoiAWB (2008), Hệ tọa độ Descartes Wikipedia tiếng Việt c [15] TuanminhBot (2014), Định lý Pytago Wikipedia tiếng Việt họ [16] AlphamaBot (2008), Không gian Euclide Wikipedia tiếng Việt [17] TuanminhBot (2009), Khoảng cách Euclid Wikipedia tiếng Việt ại [18] Nguyễn Bình (2013), Khoảng cách (Distance) ieev.org Đ [19] TuanminhBot (2007), Khoảng cách Manhattan Wikipedia tiếng Việt [20] Đỗ Thị Liên (2013), Nghiên cứu, phát triển phương pháp lọc cộng tác dựa vào nhớ, Học viện cơng nghệ bưu viễn [21] Nguyễn Thế Tuyến (2009), Tổng quan hệ tư vấn, nttuyen.wordpress.com [22] Nguyễn Duy Phương (2011), Phát triển số phương pháp lọc thông tin cho hệ tư vấn Trường Đại học Công nghệ [23] Lê Thành Đạo (2013), Xây dưng hệ tư vấn dựa vào phương pháp lai Học viện cơng nghệ bưu viễn thơng SV: Ngơ Minh Nhật – K47 Tin Học Kinh Tế 54 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp [24] Đỗ thành Nhân Trần Nguyễn Minh Thư (2013), Hệ thống gợi ý áp dụng cho trang web tổng hợp tin tức tự động Trường đại học Cần Thơ [27] Nguyễn Hùng Dũng Nguyễn Thái Nghe (2014), Hệ thống gợi ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác Trường đại học Cần Thơ [28] Nguyễn Thái Nghe (2013), Hệ thống gợi ý : Kỹ thuật ứng dụng Trường đại học Cần Thơ [37] Vietjack, Lớp Hashmap java [38] Nguyễn Đăng Khiêm (2016), Đọc toàn nội dung đọc dòng file với java uế Viblo.asia tế [40] Stackoverflow, Java treemap comparator H [39] o7planning, Hướng dẫn sử dụng biểu thức quy Java nh Danh Mục Tài Liệu Tiếng Anh [2] Akshay Padmanabha Christopher Williams (2016), K-nearest Neighbors, Ki brilliant.org c [5] VeniVidiVicipedia (2015), k-nearest neighbors algorithm, Wikipwdia.org họ [8] Steinwart I Christmann A (2008), Support Vector Machines, (19) [9] Ela Pekalska (2014), Who invented the nearest neighbor rule?, 37steps.com ại [12] Dr DooBig (2012), tf-idf, Wikipedia.org Đ [25] Aristides Gionis Claudio Lucchese (2012), “Harnessing the Real-Time web for personalized news recommendation”, WSDM 12 Proceedings of the fifth ACMinternational conference on Web search and data mining, 153-162 [26] Michel Capelle Marnix Moerland (2012), “Semantics-Based News Recommendation”, WIMS 12 Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics, 27 [29] Jiahui Liu, Peter Dolan, Elin Ronby Pedersen (2010), “ Personalized news recommendation based on click behavior ”, IUI 10 Proceedings of the 15th international conference on Intelligent user interfaces, 31-40 SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 55 GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp [30] Kam Fung Yeung, Yanyan Yang (2010), “A proactive personalized mobile news recommendation system”, Developments in E-systems Engineering (DESE),54-62 [31] Florent Garcin, Christos Dimitrakakis Boi Faltings (2013 ), “Personalized News Recommendation with Context Trees”, RecSys 13 Proceedings of the 7th ACM conference on Recommender systems, 105-112 [32] Qing Li, Jia Wang, Yuanzhu Peter Chen, Zhangxi Lin (2010), “Comments for news recommendation in forum-based social media”, Information Sciences: an International Journal archive 180 (24), 4929-4939 uế [33] A Decision Tree Based Recommender System (2010), “10th International H Conference on Innovative Internet Community Systems”, Amir Gershman, Amnon Meisels, 170-179 tế [34] H.J Lee, Sung Joo Park (2007), “Expert Systems with Applications”, MONERS: A nh news recommender for the mobile web, 143-150 [35] Lorraine Mcginty and Barry Smyth (2006), Case-based recommender systems, Ki Cambridge University c [36] Azene Zenebea, Anthony F Norciob (2009), “Fuzzy Sets and Systems”, họ Representation, similarity measures and aggregation methods using fuzzy sets for Đ ại content-based recommender systems, 76-94 SV: Ngô Minh Nhật – K47 Tin Học Kinh Tế 56 ... Xây dựng cơng thức tính TF-IDF • Xây dựng cơng thức tính khoảng cách • Xây dựng thuật tốn K- NN dựa cơng thức tính TF-IDF cơng thức tính khoảng cách • Từ xây dựng phần mềm thử nghiệm 2.3 Đối tư ng... THUẬT TOÁN K - LÂN CẬN ĐỂ XÂY DỰNG CƠ CHẾ TƯ VẤN TIN TỨC ” để nghiên cứu SV: Ngô Minh Nhật – K4 7 Tin Học Kinh Tế GVHD : TS Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Mục tiêu, nhiệm vụ, đối tư ng... như: lịch sử từ khóa tìm kiếm, tần số lặp lại từ nh khóa, độ tư ng tự hay liên quan nghĩa từ khóa mà người dùng tìm kiếm… Trong nhiều hệ tư vấn, thơng tin ẩn đóng vai trò định k t Ki tư vấn c Tùy

Ngày đăng: 01/04/2019, 21:39

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC SƠ ĐỒ, HÌNH ẢNH

  • DANH MỤC CÁC BIỂU ĐỒ

  • DANH MỤC CÁC BẢNG

  • PHẦN I : MỞ ĐẦU

    • 1. Lý do chọn đề tài:

    • 2. Mục tiêu, nhiệm vụ, đối tượng và phạm vi nghiên cứu:

      • 2.1 Mục tiêu:

      • 2.2 Nhiệm vụ:

      • 2.3 Đối tượng và phạm vi nghiên cứu:

      • 3. Phương pháp nghiên cứu:

      • 4. Nội dung đề tài:

      • PHẦN 2 : NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU

      • CHƯƠNG 1: CƠ SỞ LÝ LUẬN

        • 1. Tổng quan về thuật toán K-NN

          • 1.1 Khái niệm thuật toán K-NN:

          • 1.2 Lịch sử ra đời thuật toán K-NN:

          • 1.3 Nội dung thuật toán K-NN:

            • 1.3.1 Ưu điểm của phương pháp K-NN:

            • 1.3.2 Nhược điểm của phương pháp K-NN:

            • 1.4 Ví dụ đơn giản về K-NN:

            • 2. Công thức tính TF-IDF:

              • 2.1 Khái niệm:

              • 2.2 TF:

              • 2.3 IDF:

              • 2.4. TF-IDF:

              • 2.5 Ưu nhược điểm của TF-IDF:

Tài liệu cùng người dùng

Tài liệu liên quan