Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,75 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGHIÊN CỨU TRA CỨU THÔNG TIN TIẾNG VIỆT VỚI PHẢN HỒI LIÊN QUAN NGUYỄN ĐỨC TOÀN Thái Nguyên, 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Đức Tồn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tơi ln ghi nhận đóng góp giúp đỡ,sự ủng hộ, hỗ trợ nhiệt tình người bên cạnh mình, nhân tơi muốn gửi lời cảm ơn sâu sắc tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Hữu Quỳnh, người dìu dắt hướng dẫn tơi suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu, Bộ phận sau Đại học, Phòng đào tạo, phịng khảo thíĐại học cơng nghệ thơng tin truyền thông – Đại học Thái Nguyên, tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo, cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CH12D qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên tơi qua khó khăn, để vững bước vượt qua vất vả, tâm hồn thành luận văn Tơi xin trân trọng cảm ơn bố mẹ, vợ, mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên giây phút khó khăn sống Tơi xin chân thành cảm ơn Ban giám hiệu, Phòng đào tạo CTHS đồng nghiệpTrường trung cấp Y tế Nam Định, người tạo điều kiện giúp đỡ tơi cơng việc học tập để tơi theo học hồn thành khóa luận tốt nghiệp Thái Nguyên, ngày tháng 06 năm 2015 MỤC LỤC Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Đặt vấn đề Mục tiêu luận văn Các đóng góp luận văn Bố cục luận văn Chƣơng : TỔNG QUAN VỀ TRA CỨU THÔNG TIN 1.1 Tra cứu thông tin 1.2 Các thành phần hệ thống tra cứu thông tin 1.3 Biểu diễn mơ hình 12 1.4 Đánh giá 19 1.5 Phản hồi liên quan tra cứu thông tin 22 1.6 Đặc điểm văn tiếng Việt 26 1.7 Kết luận chương 28 Chƣơng : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN HỒI LIÊN QUAN 30 2.1 Biểu diễn văn 30 2.2 Tần suất tần suất nghịch đảo 31 2.3 Độ tương tự 32 2.4 Kỹ thuật giảm chiều vector biểu diễn văn 34 2.5 Thuật toán Rocchio 35 2.6 Thuật toán Robertson/Sparck-Jones 38 2.7 Thuật toán Bayesian 40 2.8 Kết luận chương 44 Chƣơng ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT 45 3.1 Kiến trúc tổng quát hệ thống: 45 3.1.1 Mơ hình UseCase tổng qt: 45 3.1.2 Đặc tả UserCase: 46 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3.1.3 Biểu đồ hoạt động hệ thống: 47 3.2 Xây dựng tập liệu 48 3.2.1 Tập liệu từ dừng 49 3.2.2 Tập liệu từ chuyên ngành 50 3.2.3 Tập liệu văn huấn luyện .52 3.3 Môi trường cài đặt 52 3.3.1 Thiết kế sở liệu: 52 3.3.2 Thiết kế giao diện hệ thống: 55 3.4 Đánh giá 59 3.5 Kết luận chương 59 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH Số hiệu hình vẽ Hình 1.1 Tên hình vẽ Tổng quan hệ thống tra cứu thơng tin Cung cấp thành phần hệ thống tra cứu Hình 1.2 thơng tin Hình 1.3 Phản hồi liên quan Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.a kết truy vấn ban đầu truy vấn bike Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.b tập kết hiệu chỉnh Độ xác cải tiến nhiều Hình 1.5 Ví dụ phản hồi liên quan tập văn Số trang 10 23 24 24 25 Hình 2.1 Minh họa độ tương tự cosin 34 Hình 2.2 Ma trận ví dụ 35 Hình 2.3 35 Hình 2.5 Mơ hình giảm chiều véc tơ Truy vấn tối ưu Rocchio để tách tài liệu liên quan khơng liên quan Ứng dụng thuật tốn Rocchio‟s Hình 3.1 Biểu đồ useCase tổng quát hệ thống 46 Hình 3.2 Biểu đồ hoạt động useCase Huấn Luyện 48 Hình 3.3 Biểu đồ hoạt động useCase Phân Loại 49 Hình 3.4 Diagram hệ thống 55 Hình 3.5 Giao diện Main 56 Hình 3.6 Giao diện quản lý StopWord 56 Hình 3.7 Giao diện quản lý thuật ngữ 57 Hình 3.8 Giao diện quản lý Files huấn luyện 57 Hình 3.9 Giao diện Huấn Luyện 58 Hình 2.4 37 39 Hình 3.10 Giao diện chọn file tra cứu: benh gout 58 Hình 3.11 Kết sau tra cứu 59 Hình 3.12 Giao diện phản hồi 59 Hình 3.13 Kết sau phản hồi 60 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Đặt vấn đề Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Hằng ngày có hàng triệu văn bản, trang web đưa lên Internet, làm giàu cho hệ thống tài nguyên khổng lồ Tuy nhiên, sử dụng thông tin hệ thống thông tin khổng lồ không tổ chức khai thác nguồn tài nguyên cách hợp lí Trên thực tế, có nhiều hệ thống thực công việc theo phương pháp khác nhau, chưa đạt hiệu tối ưu phần đáp ứng yêu cầu thông tin cho người sử dụng Mỗi phương pháp khác thể điểm mạnh riêng việc lựa chọn phương pháp phụ thuộc vào mục đích, yêu cầu tiêu chí riêng đặt Tuy nhiên, việc khai thác nguồn liệu cịn tốn khó Kỹ thuật tra cứu thông tin nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin rộng tổng hợp, bao gồm thuật toán, cấu trúc liệu, sở liệu, hệ thống phân tán, tính tốn song song, tổ chức file, data mining Để nâng cao chất lượng kết tra cứu, phản hồi liên quan kết hợp vào hệ thống tra cứu thông tin Ý tưởng phản hồi liên quan (RF- Relevance Feedback) bao gồm người dùng tham gia vào trình tra cứu để cải tiến tập kết cuối Cụ thể, người dùng đưa phản hồi liên quan tài liệu tập kết ban đầu Phản hồi liên quan qua hay nhiều vòng lặp xếp Q trình sử dụng ý tưởng khó để tính truy vấn tốt khơng biết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ toàn tập tài liệu, dễ đánh giá tài liệu cụ thể Trong ngữ cảnh thế, phản hồi liên quan hiệu theo dõi nhu cầu thông tin người dùng: xem số tài liệu dẫn người dùng cải tiến hiểu thông tin mà họ tìm Vì lý tơi chọn đề tài “Nghiên cứu tra cứu thông tin tiếng Việt với phản hồi liên quan” Mục tiêu luận văn Nghiên cứu phương pháp sử dụng phản hồi liên quan để nâng cao độ xác tra cứu văn (lấy thông tin người dùng để nâng cao độ xác) Các đóng góp luận văn - Nghiên cứu số phương pháp tra cứu văn tiếng Việt - Sử dụng kỹ thuật phản hồi liên quan nhằm nâng cao hiệu hệ thống tra cứu văn tiếng Việt - Trên sở phương pháp nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương 3: Ứng dụng tra cứu thông tin văn tiếng Việt Kết luận hướng phát triển Tài liệu tham khảo Chƣơng : TỔNG QUAN VỀ TRA CỨU THÔNG TIN Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 1.1.Tra cứu thông tin Tra cứu thông tin nhánh khoa học máy tính nhằm mục tiêu lưu trữ cho phép truy cập nhanh lượng thơng tin lớn Thơng tin văn bản, đa phương tiện âm [2,3] Một hệ thống tra cứu thơng tin hệ thống lưu trữ, tra cứu mục thông tin Hiện nay, nhiều hệ thống tra cứu mục phi văn dựa tìm kiếm mơ tả văn Các mục văn thường xem tài liệu, sách, báo, Các hệ thống tra cứu thông tin thực tế lưu trữ cho phép tra cứu tài liệu thông tin văn Tuy nhiên, nhiệm vụ dễ dàng, tập tài liệu hệ thống tra cứu thông tin thường phải xử lý vài chục ngàn vài chục triệu tài liệu Thông tin người sử dụng cần Mục thông tin (văn bản) Dịch Dịch Truy vấn Biểu diễn Hệ thống tra cứu thông tin Đối sánh Sắp xếp Trả lời Hinh 1.1 Tổng quan hệ thống tra cứu thông tin Người sử dụng truy cập hệ thống tra cứu thông tin việc tạo truy vấn (gửi yêu cầu vào hệ thống) Sau hệ thống tra cứu thông tin tra cứu tất tài liệu liên quan đến yêu cầu truy vấn [2,3] Đối với mục tiêu này, pha ban đầu, tài liệu phân tích để cung cấp biểu diễn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ nội dung: trình gọi “đánh số” Lúc đầu tài liệu phân tích, đại diện mơ tả tài liệu lưu trữ, thân tài liệu lưu trữ Để biểu diễn nhu cầu thông tin, người sử dụng tạo truy vấn ngôn ngữ truy vấn hệ thống Yêu cầu truy vấn đối sánh với mục để xác định tài liệu liên quan đến người sử dụng Phản hồi truy vấn, hệ thống tra cứu thơng tin cung cấp trả lời xác danh sách phân hạng tài liệu chứa thông tin liên quan đến truy vấn Kết phụ thuộc vào mơ hình chọn hệ thống, mơ hình boolean cho trả lời xác, mơ hình khác (áp dụng lược đồ đối sánh phần) cho danh sách tài liệu phân hạng cho tài liệu tương tự xếp hạng Lược đồ hệ thống tra cứu thơng tin thể Hình 1.1 1.2.Các thành phần hệ thống tra cứu thông tin Trọng tâm hệ thống tra cứu thông tin so sánh truy vấn với tài liệu tập hợp Điều thu chức tính điểm, có đầu vào biểu diễn tài liệu truy vấn Chi tiết hàm tính điểm biểu diễn tài liệu phụ thuộc vào mơ hình tra cứu sử dụng Chuyển đổi truy vấn, từ đầu vào thành biểu diễn, thực nhập vào người dùng Với tài liệu sở liệu, chuyển đổi trình ngoại tuyến thực lần Xét tập hợp C chứa N tài liệu T thuật ngữ Mỗi tài liệu tập hợp biểu thị di tính tốn biểu diễn cho di ánh xạ chiều di di Dạng gốc dilà chuỗi từ Biểu diễn dicó thể xem chuỗi T trọng số tương ứng với mức độ thuật ngữ mô tả tài liệu Nếu tài liệu tập hợp đượcxem chuỗi trọng số, thân tài liệu biểu diễn ma trận tài liệu-thuật ngữ, Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3.2.1 Tập liệu từ dừng Bảng StopWord – từ dừng: bạn tơi vậy Vài mà chưa cần thật từ nên họ tao vậy mà Ít với thật có mày mày sau qúa vừa theo bất mặt khác cuối tớ cuối gồm đủ anh mi trừ mà bao gồm liên tiếp để lúc trước trước lúc trước nhiên liên tục sẵn sàng chị đằng sau đằng trước bên bên đâu lại cô mà mà lẫn anh bị mà phía chị tơi nhiều hồn tồn ví dụ nên vân vân cho cịn cho đồng thời hai lúc cho ba lúc làm cụ thể trời bốn năm lên số ngồi vào lúc sáu tức dù mặt mày thơi sau dù bảy tức bất chấp tự bạn trước không bạn trái dù hồi ln chẳng phải nè nên chúng bên dù tức tám chúng tơi chúng tao chúng thuộc ối chín lại tiếp tục khoảng tức khắc mặc kệ hầu hết phải mà mãi nghĩa bên trái bên phải thì mười riêng mà thơi vân vân tiếp đến nhiều chí lúc khoảng chừng cỡ Số hóa Trung tâm Học liệu - ĐHTN luôn ối trời 49 http://www.lrc-tnu.edu.vn/ mày chúng chừng thơi hay 3.2.2 Tập liệu từ chuyên ngành Bảng Từ chuyên ngành: nhớ Lĩnh vực CNTT xử lý CNTT cấu hình CNTT môn Giáo Dục chat CNTT Giáo Dục chip CNTT cao học hiệu trưởng cạnh tranh cổ đông Giáo Dục chương trình CNTT học kì chuột CNTT code Từ Từ Lĩnh vực Từ Lĩnh vực Từ giáo sư giáo trình Giáo Dục buôn bán Kinh Tế Y tế Lĩnh vực Y Tế Cổ Lĩnh vực Y Tế Giáo Dục cân đối Kinh Tế Trạm Y tế Y Tế Ruột Y Tế Y Tế Máu Y Tế Y Tế Khớp Y Tế Từ Kinh Tế Tuyến sở Gan cổ phần Kinh Tế Thận Y Tế Đỏ Y Tế Giáo Dục cổ phiếu Kinh Tế Phổi Y Tế Tấy Y Tế học phí Giáo Dục Kinh Tế Tim Y Tế học sinh Giáo Dục Kinh Tế Xương Y Tế Dinh dưỡng Cịi cương Y Tế CNTT cơng nghiệp cơng nhân CNTT học tập Giáo Dục công suất Kinh Tế Chân Y Tế Thấp Y Tế CNTT học vấn Giáo Dục công ty Kinh Tế Tay Y Tế Y Tế CNTT kết Giáo Dục đầu tư Kinh Tế Miệng Y Tế Cao Chẩn đoán đĩa từ CNTT cao đẳng Giáo Dục doanh nghiệp Kinh Tế Tai Y Tế Hô hấp Y Tế liệu CNTT khoa học Giáo Dục du lịch Kinh Tế Mũi Y Tế hệ điều hành CNTT kĩ thuật Giáo Dục gdp Kinh Tế Họng Y Tế internet CNTT giáo án Giáo Dục giá Kinh Tế Da Y Tế lan CNTT kì thi Giáo Dục dám đốc Kinh Tế Mề day Y Tế link CNTT kiến thức Giáo Dục giao dịch Kinh Tế Phù Y Tế mã CNTT Giáo Dục hàng hóa Kinh Tế Xương Y Tế mail CNTT mơn học nghiên cứu Ngừng thở Khó thở Mẩn ngứa Vết thương Băng bó Truyền Giáo Dục hội nhập Kinh Tế Ăn Y Tế Thở hình CNTT thí sinh Giáo Dục kế tốn Kinh Tế Uống Y Tế mạng CNTT sinh viên Giáo Dục Kinh Tế Chết Y Tế máy chủ CNTT Kinh Tế Hô hấp Y Tế Cận thị Y Tế máy tính CNTT tốt nghiệp thạc sĩ Kinh Tế Rách Y Tế Gày Y Tế microsoft CNTT modem CNTT công nghệ đĩa mềm đĩa quang Kinh Tế Chiều cao Cân nặng Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Giáo Dục kiểm toán kinh doanh kinh tế luận văn Giáo Dục lạm phát Kinh Tế khâu Y Tế Canxi Y Tế trung Giáo Dục lao động Kinh Tế oxi Y Tế Hộ Y Tế Giáo Dục Số hóa Trung tâm Học liệu - ĐHTN Y Tế 50 http://www.lrc-tnu.edu.vn/ học sinh ngoại vi CNTT trường Giáo Dục lợi nhuận Kinh Tế Hen xuyễn Y Tế Cấp cứu Y Tế phần mềm CNTT thực tập Giáo Dục lương Kinh Tế Chức Y Tế Sốt Y Tế thông tin CNTT Giáo Dục lương thực Kinh Tế Dạ dày Y Tế Co giật Y Tế thư từ CNTT chuyên môn thi tốt nghiệp Giáo Dục mua Kinh Tế Cấu tạo Y Tế Vệ sinh Y Tế thuật toán CNTT cử nhân Giáo Dục suất Kinh Tế đo Y Tế Sản Y Tế tin học CNTT giáo viên Giáo Dục Kinh Tế Y sỹ Y Tế Lây Y Tế CNTT gia sư Giáo Dục Kinh Tế Bệnh viện Y Tế I ốt Y Tế CNTT tiến sĩ Giáo Dục Kinh Tế Cảm cúm Y Tế Trẻ em Y Tế virus CNTT toán học Giáo Dục ngân hàng ngoại thương nhập nông nghiệp Kinh Tế Ho Y Tế viên Y Tế website CNTT Giáo Dục quản lý Kinh Tế Dịch tễ Y Tế Siro Y Tế windows CNTT Giáo Dục sản phẩm Kinh Tế Ngoại Y Tế server CNTT Giáo Dục sản xuất Kinh Tế ram CNTT đại học Giáo Dục tài Kinh Tế online CNTT giáo dục Giáo Dục tăng trưởng Kinh Tế Liều cao Y Tế toán thị trường thuế thương mại Kinh Tế Người già Y Tế Nan y Y Tế Kinh Tế Lọ Y Tế Y Tế Kinh Tế Đơng dược Y Tế Bát quối Thuốc Kinh Tế Tắc nghẽn Y Tế Xoa Y Tế tỉ giá Kinh Tế Nhiễm khuẩn Y Tế Bóp Y Tế Kinh Tế Sưng Y Tế Kinh Tế Gãy Y Tế tiêu dùng Kinh Tế Bàn tay Y Tế tín dụng Kinh Tế Bàn chân Y Tế vật tư xuất Kinh Tế Tóc Y Tế Kinh Tế Đầu Y Tế Kháng sinh Y Tế Đặc trị Y Tế Dược sỹ Điều dưỡng Y Tế trực tuyến truyền thông giảng dạy giảng đường giảng viên tiền lương tền tệ Số hóa Trung tâm Học liệu - ĐHTN Truyền nhiễm Thí nghiệm Y Tế Y Tế Y Tế Tạng phủ Thanh nhiệt Máu mủ Y học cổ truyền Bấm huyệt Thùy Động mạch Tĩnh mạch Huyết Phế quản Còi xương Béo Mỡ Trọng lượng Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 51 http://www.lrc-tnu.edu.vn/ Dân số Y Tế Tế bào Y Tế Đa khoa Y Tế AND Y Tế Dược tá Y Tế Y Tế Dược liệu Y Tế Gen Mạch máu Phế nang Bế Chuyển hóa Trao đổi chất Khơng khí Kinh lạc Khó chịu vai Kiểm nghiệm Nội Y Tế Y Tế Nhi Y Tế Bụng Y Tế Muối Y Tế Người lớn Y Tế ống Y Tế Âm dương Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 3.2.3 Tập liệu văn huấn luyện Văn huấn luyện lựa chọn nhiều lĩnh vực: Công nghệ thông tin, giáo dục, y tế, kinh tế Số lượng văn huấn luyện: 600 văn 3.3 Môi trƣờng cài đặt Môi trường cài đặt sử dụng đề tài: Ngơn ngữ lập trình C# Hệ quản trị sở liệu SQL Server 3.3.1 Thiết kế sở liệu: Bảng tbl_tudung ( Stopword) : Số hóa Trung tâm Học liệu - ĐHTN 52 http://www.lrc-tnu.edu.vn/ Bảng tbl_Tranning (Huấn luyện) : Bảng tbl_TL (Tỷ lệ) : Số hóa Trung tâm Học liệu - ĐHTN 53 http://www.lrc-tnu.edu.vn/ Bảng tbl_ketqua : Bảng tbl_File: Diagram: Hình 3.4 Diagram hệ thống Số hóa Trung tâm Học liệu - ĐHTN 54 http://www.lrc-tnu.edu.vn/ 3.3.2 Thiết kế giao diện hệ thống: Giao diện chính: Hình 3.5 Giao diện Main Giao diện quản lý từ dừng ( Stopword ): Hình 3.6 Giao diện quản lý StopWord Giao diện quản lý thuật ngữ: Số hóa Trung tâm Học liệu - ĐHTN 55 http://www.lrc-tnu.edu.vn/ Hình 3.7 Giao diện quản lý thuật ngữ Giao diện quản lý File: Hình 3.8 Giao diện quản lý Files huấn luyện Giao diện huấn luyện: Số hóa Trung tâm Học liệu - ĐHTN 56 http://www.lrc-tnu.edu.vn/ Hình 3.9 Giao diện Huấn Luyện Giao diện tra cứu văn bản: Hình 3.10 Giao diện chọn file tra cứu: benh gout Kết sau tra cứu Số hóa Trung tâm Học liệu - ĐHTN 57 http://www.lrc-tnu.edu.vn/ Hình 3.11 Kết sau tra cứu Giao diện phản hồi Hình 3.12 Giao diện phản hồi Kết sau phản hồi Số hóa Trung tâm Học liệu - ĐHTN 58 http://www.lrc-tnu.edu.vn/ Hình 3.13 Kết sau phản hồi 3.4 Đánh giá Chương trình sử dụng thuật toán TF-IDF trả kết truy vấn tương đối xác, đánh giá đạt 80% Kết hợp thuật toán phản hồi liên quan Rocchio nâng cao kết truy vấn lên 90%, Các kết trả sau phản hồi liên quan đánh giá phù hợp với mục đích truy vấn người dùng 3.5 Kết luận chƣơng Trong trình nghiên cứu đề tài, thực được: + Xây dựng tập liệu mô bao gồm: Trên 200 từ dừng Từ điển từ chuyên ngành với nhiều lĩnh vực khác Tập văn huấn luyện với nhiều lĩnh vực khác Số hóa Trung tâm Học liệu - ĐHTN 59 http://www.lrc-tnu.edu.vn/ + Cài đặt mô chương trình tra cứu văn tiếng việt với phản hồi liên quan Hệ thống sử dụng tốt với tập liệu mô xây dựng Số hóa Trung tâm Học liệu - ĐHTN 60 http://www.lrc-tnu.edu.vn/ KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận: Bản luận văn trình bày phương pháp tra cứu thơng tin sử dụng thông tin phản hồi từ người dùng, phương pháp cho kết gần với mong muốn người dùng Các kết đạt luận văn: Nghiên cứu tổng quan văn bản, văn tiếng Việt cách biểu diễn văn với Tf-IDF Nghiên cứu phản hồi liên quan tra cứu thơng tin Nghiên cứu số thuật tốn:Thuật tốn Robertson/Sparck-Jones ,Thuật toán Bayesian,đặc biệt thuật toán Rocchio Thực nghiệm tập sở liệu gồm 600văn cho kết tốt Hƣớng phát triển: Xây dựng tập liệu lớn, đáp ứng nhiều lĩnh vực truy vấn thực tế Cải tiến thuật toán nhằm nâng cao hiệu tốc độ chất lượng truy vấn truy vấn với tập liệu lớn Cải tiến giao diện đẹp thân thiện, tiện lợi với người sử dụng Số hóa Trung tâm Học liệu - ĐHTN 61 http://www.lrc-tnu.edu.vn/ TÀI LIỆU THAM KHẢO I Tài liệu tiếng Việt: Nguyễn Việt Cường (2006), luận văn thạc sĩ, Đại học công nghệ - Đại học quốc gia Hà nội II Tài liệu tiếng Anh: Daniel Jurafsky & James (2007), Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Christopher D.Maning, Prabhakar Raghavan, Hiinrich Schuitze, An Introduction to Information Retrieval, Online edition 2009, Cambridge UP D A Hull Stemming algorithms: A case study for detailed evaluation Journal of the American Society of Information Science, 47:70–84, 1996 M F Porter An algorithm for suffix stripping Program, 14:130–137, 1980 G K Zipf Human Behavior and the Principle of Least Effort AddisonWesley, 1949 G Salton and C Buckley Term-weighting approaches in automatic text retrieval Journal of Information Processing and Management, 24(5):513–523, 1988 S K M Wong and V V Raghavan Vector space model of information re-trieval: a reevaluation In Proceedings of the 7th annual international ACM SIGIR conference on Research and development in information retrieval, pages 167–185, 1984 [RSj76] S E Robertson and K Sparck-Jones Relevance weighting of search terms Journal of the American Society for Information Science, 27:129–146, 1976 10 [SJWR00] K Sparck-Jones, S Walker, and S E Robertson A probabilistic model of in-formation retrieval: development and comparative experiments Information Processing and Management, 36(6):809–840, 2000 Số hóa Trung tâm Học liệu - ĐHTN 62 http://www.lrc-tnu.edu.vn/ 11 [CMM+00] I J Cox, M L Miller, T P Minka, T V Papathomas, and P N Yianilos The Bayesian Image Retrieval System, PicHunter: Theory, Implementation and Psychophysical Experiments IEEE Transactions on Image Processing, 9(1):IEEE Transactions on Image Processing, 2000 12 Stanislaw Osinski, Dimensionality Reduction Techniques for search result clustering, Msc thesis, Department of Computer Science, The University of Sheffield, UK, 2004 Số hóa Trung tâm Học liệu - ĐHTN 63 http://www.lrc-tnu.edu.vn/ ... hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương... TỔNG QUAN VỀ TRA CỨU THƠNG TIN 1.1 Tra cứu thơng tin 1.2 Các thành phần hệ thống tra cứu thông tin 1.3 Biểu diễn mơ hình 12 1.4 Đánh giá 19 1.5 Phản hồi liên quan tra cứu thông. .. giá hệ thống tra cứu thông tin mô tả phản hồi liên quan tra cứu thông tin Ngồi chương luận văn trình bày đặc điểm văn tiếng việt Từ kiến thức tổng quan chương luận văn sử dụng để tra cứu Số hóa