1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu tra cứu thông tin tiếng việt với phản hồi liên quan

64 116 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 2,47 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGHIÊN CỨU TRA CỨU THÔNG TIN TIẾNG VIỆT VỚI PHẢN HỒI LIÊN QUAN NGUYỄN ĐỨC TOÀN Thái Nguyên, 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Đức Tồn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tơi ln ghi nhận đóng góp giúp đỡ,sự ủng hộ, hỗ trợ nhiệt tình người bên cạnh mình, nhân tơi muốn gửi lời cảm ơn sâu sắc tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Hữu Quỳnh, người dìu dắt hướng dẫn tơi suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu, Bộ phận sau Đại học, Phòng đào tạo, phòng khảo thíĐại học cơng nghệ thơng tin truyền thông – Đại học Thái Nguyên, tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo, cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CH12D qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên tơi qua khó khăn, để vững bước vượt qua vất vả, tâm hồn thành luận văn Tơi xin trân trọng cảm ơn bố mẹ, vợ, mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên giây phút khó khăn sống Tơi xin chân thành cảm ơn Ban giám hiệu, Phòng đào tạo CTHS đồng nghiệpTrường trung cấp Y tế Nam Định, người tạo điều kiện giúp đỡ tơi cơng việc học tập để tơi theo học hồn thành khóa luận tốt nghiệp Thái Nguyên, ngày tháng 06 năm 2015 MỤC LỤC Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Đặt vấn đề Mục tiêu luận văn Các đóng góp luận văn Bố cục luận văn Chương : TỔNG QUAN VỀ TRA CỨU THÔNG TIN 1.1 Tra cứu thông tin 1.2 Các thành phần hệ thống tra cứu thông tin 1.3 Biểu diễn mơ hình 12 1.4 Đánh giá 19 1.5 Phản hồi liên quan tra cứu thông tin 22 1.6 Đặc điểm văn tiếng Việt 26 1.7 Kết luận chương 28 Chương : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN HỒI LIÊN QUAN 30 2.1 Biểu diễn văn 30 2.2 Tần suất tần suất nghịch đảo 31 2.3 Độ tương tự 32 2.4 Kỹ thuật giảm chiều vector biểu diễn văn 34 2.5 Thuật toán Rocchio 35 2.6 Thuật toán Robertson/Sparck-Jones 38 2.7 Thuật toán Bayesian 40 2.8 Kết luận chương 44 Chương ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT 45 3.1 Kiến trúc tổng quát hệ thống: 45 3.1.1 Mơ hình UseCase tổng qt: 45 3.1.2 Đặc tả UserCase: 46 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3.1.3 Biểu đồ hoạt động hệ thống: 47 3.2 Xây dựng tập liệu 48 3.2.1 Tập liệu từ dừng 49 3.2.2 Tập liệu từ chuyên ngành 50 3.2.3 Tập liệu văn huấn luyện .52 3.3 Môi trường cài đặt 52 3.3.1 Thiết kế sở liệu: 52 3.3.2 Thiết kế giao diện hệ thống: 55 3.4 Đánh giá 59 3.5 Kết luận chương 59 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH Số hiệu hình vẽ Hình 1.1 Số trang Tên hình vẽ Tổng quan hệ thống tra cứu thơng tin Cung cấp thành phần hệ thống tra cứu Hình 1.2 thơng tin Hình 1.3 Phản hồi liên quan Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.a kết truy vấn ban đầu truy vấn bike Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.b tập kết hiệu chỉnh Độ xác cải tiến nhiều 10 23 24 24 Hình 1.5 Ví dụ phản hồi liên quan tập văn 25 Hình 2.1 Minh họa độ tương tự cosin 34 Hình 2.2 Ma trận ví dụ 35 Hình 2.3 35 Hình 2.5 Mơ hình giảm chiều véc tơ Truy vấn tối ưu Rocchio để tách tài liệu liên quan khơng liên quan Ứng dụng thuật tốn Rocchio‟s Hình 3.1 Biểu đồ useCase tổng quát hệ thống 46 Hình 3.2 Biểu đồ hoạt động useCase Huấn Luyện 48 Hình 3.3 Biểu đồ hoạt động useCase Phân Loại 49 Hình 3.4 Diagram hệ thống 55 Hình 3.5 Giao diện Main 56 Hình 3.6 Giao diện quản lý StopWord 56 Hình 3.7 Giao diện quản lý thuật ngữ 57 Hình 3.8 Giao diện quản lý Files huấn luyện 57 Hình 3.9 Giao diện Huấn Luyện 58 Hình 2.4 37 39 Hình 3.10 Giao diện chọn file tra cứu: benh gout 58 Hình 3.11 59 Kết sau tra cứu Hình 3.12 Giao diện phản hồi 59 Hình 3.13 Kết sau phản hồi 60 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Đặt vấn đề Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Hằng ngày có hàng triệu văn bản, trang web đưa lên Internet, làm giàu cho hệ thống tài nguyên khổng lồ Tuy nhiên, sử dụng thông tin hệ thống thông tin khổng lồ không tổ chức khai thác nguồn tài nguyên cách hợp lí Trên thực tế, có nhiều hệ thống thực công việc theo phương pháp khác nhau, chưa đạt hiệu tối ưu phần đáp ứng yêu cầu thông tin cho người sử dụng Mỗi phương pháp khác thể điểm mạnh riêng việc lựa chọn phương pháp phụ thuộc vào mục đích, yêu cầu tiêu chí riêng đặt Tuy nhiên, việc khai thác nguồn liệu tốn khó Kỹ thuật tra cứu thông tin nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin rộng tổng hợp, bao gồm thuật toán, cấu trúc liệu, sở liệu, hệ thống phân tán, tính tốn song song, tổ chức file, data mining Để nâng cao chất lượng kết tra cứu, phản hồi liên quan kết hợp vào hệ thống tra cứu thông tin Ý tưởng phản hồi liên quan (RF- Relevance Feedback) bao gồm người dùng tham gia vào trình tra cứu để cải tiến tập kết cuối Cụ thể, người dùng đ ưa phản hồi liên quan tài liệu tập kết ban đầu Phản hồi liên quan qua hay nhiều vòng lặp xếp Quá trình sử dụng ý tưởng khó để tính truy vấn tốt khơng biết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ toàn tập tài liệu, dễ đánh giá tài liệu cụ thể Trong ngữ cảnh thế, phản hồi liên quan hiệu theo dõi nhu cầu thông tin người dùng: xem số tài liệu dẫn người dùng cải tiến hiểu thông tin mà họ tìm Vì lý tơi chọn đề tài “Nghiên cứu tra cứu thông tin tiếng Việt với phản hồi liên quan” Mục tiêu luận văn Nghiên cứu phương pháp sử dụng phản hồi liên quan để nâng cao độ xác tra cứu văn (lấy thông tin người dùng để nâng cao độ xác) Các đóng góp luận văn - Nghiên cứu số phương pháp tra cứu văn tiếng Việt - Sử dụng kỹ thuật phản hồi liên quan nhằm nâng cao hiệu hệ thống tra cứu văn tiếng Việt - Trên sở phương pháp nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương 3: Ứng dụng tra cứu thông tin văn tiếng Việt Kết luận hướng phát triển Tài liệu tham khảo Chương : TỔNG QUAN VỀ TRA CỨU THƠNG TIN Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 1.1.Tra cứu thông tin Tra cứu thông tin nhánh khoa học máy tính nhằm mục tiêu lưu trữ cho phép truy cập nhanh lượng thơng tin lớn Thơng tin văn bản, đa phương tiện âm [2,3] Một hệ thống tra cứu thông tin hệ thống lưu trữ, tra cứu mục thơng tin Hiện nay, nhiều hệ thống tra cứu mục phi văn dựa tìm kiếm mơ tả văn Các mục văn thường xem tài liệu, sách, báo, Các hệ thống tra cứu thông tin thực tế lưu trữ cho phép tra cứu tài liệu thông tin văn Tuy nhiên, nhiệm vụ dễ dàng, tập tài liệu hệ thống tra cứu thông tin thường phải xử lý vài chục ngàn vài chục triệu tài liệu Thông tin người sử dụng cần Mục thông tin (văn bản) Dịch Dịch Truy vấn Biểu diễn Hệ thống tra cứu thông tin Đối sánh Sắp xếp Trả lời Hinh 1.1 Tổng quan hệ thống tra cứu thông tin Người sử dụng truy cập hệ thống tra cứu thông tin việc tạo truy vấn (gửi yêu cầu vào hệ thống) Sau hệ thống tra cứu thơng tin tra cứu tất tài liệu liên quan đến yêu cầu truy vấn [2,3] Đối với mục tiêu này, pha ban đầu, tài liệu phân tích để cung cấp biểu diễn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ nội dung: trình gọi “đánh số” Lúc đầu tài liệu phân tích, đại diện mơ tả tài liệu lưu trữ, thân tài liệu lưu trữ Để biểu diễn nhu cầu thông tin, người sử dụng tạo truy vấn ngôn ngữ truy vấn hệ thống Yêu cầu truy vấn đối sánh với mục để xác định tài liệu liên quan đến người sử dụng Phản hồi truy vấn, hệ thống tra cứu thông tin cung cấp trả lời xác danh sách phân hạng tài liệu chứa thông tin liên quan đến truy vấn Kết phụ thuộc vào mơ hình chọn hệ thống, mơ hình boolean cho trả lời xác, mơ hình khác (áp dụng lược đồ đối sánh phần) cho danh sách tài liệu phân hạng cho tài liệu tương tự xếp hạng Lược đồ hệ thống tra cứu thơng tin thể Hình 1.1 1.2.Các thành phần hệ thống tra cứu thông tin Trọng tâm hệ thống tra cứu thông tin so sánh truy vấn với tài liệu tập hợp Điều thu chức tính điểm, có đầu vào biểu diễn tài liệu truy vấn Chi tiết hàm tính điểm biểu diễn tài liệu phụ thuộc vào mô hình tra cứu sử dụng Chuyển đổi truy vấn, từ đầu vào thành biểu diễn, thực nhập vào người dùng Với tài liệu sở liệu, chuyển đổi trình ngoại tuyến thực lần Xét tập hợp C chứa N tài liệu T thuật ngữ Mỗi tài liệu tập hợp biểu thị di tính tốn biểu diễn cho di ánh xạ chiều di di Dạng gốc dilà chuỗi từ Biểu diễn dicó thể xem chuỗi T trọng số tương ứng với mức độ thuật ngữ mô tả tài liệu Nếu tài liệu tập hợp đượcxem chuỗi trọng số, thân tài liệu biểu diễn ma trận tài liệu-thuật ngữ, 3.2.1 Tập liệu từ dừng Bảng StopWord – từ dừng: bạn tơi vậy Vài mà chưa cần thật từ nên họ tao vậy mà Ít với thật có mày mày sau qúa vừa theo bất mặt khác cuối tớ cuối đủ mi trừ mà hoàn toàn gồm anh bao gồm liên tiếp ví dụ để nhiều nên vân vân cho lúc trước trước lúc trước nhiên liên tục sẵn sàng chị đằng sau đằng trước bên bên đâu lại mà mà lẫn cho đồng thời hai anh bị mà phía lúc cho ba lúc làm cụ thể trời bốn năm lên số tơi ngồi vào lúc sáu tức dù mặt mày thơi sau dù bảy tức bất chấp tự bạn trước khơng bạn trái dù hồi chẳng phải nè chúng thơi vân vân tiếp đến bên dù lại tiếp tục phải mà mãi nghĩa chị chúng tơi chúng tao chúng bên trái bên phải chí lúc nhiều nên tức luôn ối trời tám thuộc ối chín khoảng tức khắc mặc kệ hầu hết thì mười riêng mà khoảng chừng cỡ mày chúng thơi chừng hay 3.2.2 Tập liệu từ chuyên ngành Bảng Từ chuyên ngành: nhớ Lĩnh vực CNTT xử lý CNTT cấu hình CNTT môn Giáo Dục chat CNTT Giáo Dục chip CNTT cao học hiệu trưởng cạnh tranh cổ đông Giáo Dục chương trình CNTT học kì Giáo Dục chuột CNTT học phí Giáo Dục code CNTT học sinh Giáo Dục CNTT học tập Giáo Dục CNTT học vấn CNTT đĩa từ Từ Từ Lĩnh vực Từ Lĩnh vực Từ giáo sư giáo trình Giáo Dục bn bán Kinh Tế Y tế Lĩnh vực Y Tế Cổ Lĩnh vực Y Tế Giáo Dục cân đối Kinh Tế Trạm Y tế Y Tế Ruột Y Tế Y Tế Máu Y Tế Y Tế Khớp Y Tế Từ Kinh Tế Tuyến sở Gan cổ phần Kinh Tế Thận Y Tế Đỏ Y Tế cổ phiếu Kinh Tế Phổi Y Tế Tấy Y Tế Kinh Tế Tim Y Tế Kinh Tế Xương Y Tế công suất Kinh Tế Chân Y Tế Thấp Y Tế Giáo Dục công ty Kinh Tế Tay Y Tế Y Tế kết Giáo Dục đầu tư Kinh Tế Miệng Y Tế Cao Chẩn đoán CNTT cao đẳng Giáo Dục doanh nghiệp Kinh Tế Tai Y Tế Hô hấp Y Tế liệu CNTT khoa học Giáo Dục du lịch Kinh Tế Mũi Y Tế hệ điều hành CNTT kĩ thuật Giáo Dục gdp Kinh Tế Họng Y Tế internet CNTT giáo án Giáo Dục giá Kinh Tế Da Y Tế lan CNTT kì thi Giáo Dục dám đốc Kinh Tế Mề day Y Tế link CNTT kiến thức Giáo Dục giao dịch Kinh Tế Phù Y Tế mã CNTT Giáo Dục hàng hóa Kinh Tế Xương Y Tế mail CNTT mơn học nghiên cứu Ngừng thở Khó thở Mẩn ngứa Vết thương Băng bó Truyền Giáo Dục hội nhập Kinh Tế Ăn Y Tế Thở hình CNTT thí sinh Giáo Dục kế toán Kinh Tế Uống Y Tế mạng CNTT sinh viên Giáo Dục Kinh Tế Chết Y Tế máy chủ CNTT Kinh Tế Hô hấp Y Tế Cận thị Y Tế máy tính CNTT tốt nghiệp thạc sĩ Kinh Tế Rách Y Tế Gày Y Tế microsoft CNTT modem CNTT công nghệ đĩa mềm đĩa quang công nghiệp cơng nhân Kinh Tế Dinh dưỡng Còi cương Chiều cao Cân nặng Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Giáo Dục kiểm toán kinh doanh kinh tế luận văn Giáo Dục lạm phát Kinh Tế khâu Y Tế Canxi Y Tế trung Giáo Dục lao động Kinh Tế oxi Y Tế Hộ Y Tế Giáo Dục Y Tế học sinh ngoại vi CNTT trường Giáo Dục lợi nhuận Kinh Tế Hen xuyễn Y Tế Cấp cứu Y Tế phần mềm CNTT thực tập Giáo Dục lương Kinh Tế Chức Y Tế Sốt Y Tế thông tin CNTT Giáo Dục lương thực Kinh Tế Dạ dày Y Tế Co giật Y Tế thư từ CNTT chuyên môn thi tốt nghiệp Giáo Dục mua Kinh Tế Cấu tạo Y Tế Vệ sinh Y Tế thuật toán CNTT cử nhân Giáo Dục suất Kinh Tế đo Y Tế Sản Y Tế tin học CNTT giáo viên Giáo Dục Kinh Tế Y sỹ Y Tế Lây Y Tế CNTT gia sư Giáo Dục Kinh Tế Bệnh viện Y Tế I ốt Y Tế CNTT tiến sĩ Giáo Dục Kinh Tế Cảm cúm Y Tế Trẻ em Y Tế virus CNTT toán học Giáo Dục Kinh Tế Ho Y Tế viên Y Tế website CNTT Siro Y Tế windows CNTT server CNTT ram CNTT online CNTT trực tuyến truyền thông giảng dạy giảng đường giảng viên ngân hàng ngoại thương nhập nông nghiệp Giáo Dục quản lý Kinh Tế Dịch tễ Y Tế Giáo Dục sản phẩm Kinh Tế Ngoại Y Tế Giáo Dục sản xuất Kinh Tế đại học Giáo Dục tài Kinh Tế giáo dục Giáo Dục tăng trưởng Kinh Tế Liều cao Y Tế Kinh Tế Người già Y Tế Kinh Tế Lọ Y Tế Kinh Tế Đông dược Y Tế Bát quoái Thuốc Kinh Tế Tắc nghẽn Y Tế Xoa Y Tế Kinh Tế Nhiễm khuẩn Y Tế Bóp Y Tế Kinh Tế Sưng Y Tế Kinh Tế Gãy Y Tế tiêu dùng Kinh Tế Bàn tay Y Tế tín dụng Kinh Tế Bàn chân Y Tế vật tư xuất Kinh Tế Tóc Y Tế Kinh Tế Đầu Y Tế Kháng sinh Y Tế Đặc trị Y Tế Dược sỹ Điều dưỡng Y Tế toán thị trường thuế thương mại tỉ giá tiền lương tền tệ Số hóa Trung tâm Học liệu - ĐHTN Truyền nhiễm Thí nghiệm Y Tế Y Tế Y Tế Tạng phủ Thanh nhiệt Máu mủ Y học cổ truyền Nan y Bấm huyệt Thùy Động mạch Tĩnh mạch Huyết Phế quản Còi xương Béo Mỡ Trọng lượng Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 51 http://www.lrc-tnu.edu.vn/ Dân số Y Tế Tế bào Y Tế Đa khoa Y Tế AND Y Tế Dược tá Y Tế Y Tế Dược liệu Y Tế Gen Mạch máu Phế nang Bế Chuyển hóa Trao đổi chất Khơng khí Kinh lạc Khó chịu vai Kiểm nghiệm Nội Y Tế Y Tế Nhi Y Tế Bụng Y Tế Muối Y Tế Người lớn Y Tế ống Y Tế Âm dương Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 3.2.3 Tập liệu văn huấn luyện Văn huấn luyện lựa chọn nhiều lĩnh vực: Công nghệ thông tin, giáo dục, y tế, kinh tế Số lượng văn huấn luyện: 600 văn 3.3 Môi trường cài đặt Môi trường cài đặt sử dụng đề tài: Ngơn ngữ lập trình C# Hệ quản trị sở liệu SQL Server 3.3.1 Thiết kế sở liệu: Bảng tbl_tudung ( Stopword) : 52 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Bảng tbl_Tranning (Huấn luyện) : Bảng tbl_TL (Tỷ lệ) : 53 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Bảng tbl_ketqua : Bảng tbl_File: Diagram: Hình 3.4 Diagram hệ thống 54 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3.3.2 Thiết kế giao diện hệ thống: Giao diện chính: Hình 3.5 Giao diện Main Giao diện quản lý từ dừng ( Stopword ): Hình 3.6 Giao diện quản lý StopWord Giao diện quản lý thuật ngữ: 55 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Hình 3.7 Giao diện quản lý thuật ngữ Giao diện quản lý File: Hình 3.8 Giao diện quản lý Files huấn luyện Giao diện huấn luyện: 56 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Hình 3.9 Giao diện Huấn Luyện Giao diện tra cứu văn bản: Hình 3.10 Giao diện chọn file tra cứu: benh gout Kết sau tra cứu 57 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Hình 3.11 Kết sau tra cứu Giao diện phản hồi Hình 3.12 Giao diện phản hồi Kết sau phản hồi 58 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Hình 3.13 Kết sau phản hồi 3.4 Đánh giá Chương trình sử dụng thuật tốn TF-IDF trả kết truy vấn tương đối xác, đánh giá đạt 80% Kết hợp thuật toán phản hồi liên quan Rocchio nâng cao kết truy vấn lên 90%, Các kết trả sau phản hồi liên quan đánh giá phù hợp với mục đích truy vấn người dùng 3.5 Kết luận chương Trong trình nghiên cứu đề tài, thực được: + Xây dựng tập liệu mô bao gồm: Trên 200 từ dừng Từ điển từ chuyên ngành với nhiều lĩnh vực khác Tập văn huấn luyện với nhiều lĩnh vực khác + Cài đặt mô chương trình tra cứu văn tiếng việt với phản hồi liên quan Hệ thống sử dụng tốt với tập liệu mô xây dựng KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN  Kết luận: Bản luận văn trình bày phương pháp tra cứu thơng tin sử dụng thông tin phản hồi từ người dùng, phương pháp cho kết gần với mong muốn người dùng Các kết đạt luận văn: Nghiên cứu tổng quan văn bản, văn tiếng Việt cách biểu diễn văn với Tf-IDF Nghiên cứu phản hồi liên quan tra cứu thông tin Nghiên cứu số thuật toán:Thuật toán Robertson/Sparck-Jones ,Thuật toán Bayesian,đặc biệt thuật toán Rocchio Thực nghiệm tập sở liệu gồm 600văn cho kết tốt  Hướng phát triển: Xây dựng tập liệu lớn, đáp ứng nhiều lĩnh vực truy vấn thực tế Cải tiến thuật toán nhằm nâng cao hiệu tốc độ chất lượng truy vấn truy vấn với tập liệu lớn Cải tiến giao diện đẹp thân thiện, tiện lợi với người sử dụng TÀI LIỆU THAM KHẢO I Tài liệu tiếng Việt: Nguyễn Việt Cường (2006), luận văn thạc sĩ, Đại học công nghệ - Đại học quốc gia Hà nội II Tài liệu tiếng Anh: Daniel Jurafsky & James (2007), Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Christopher D.Maning, Prabhakar Raghavan, Hiinrich Schuitze, An Introduction to Information Retrieval , Online edition 2009, Cambridge UP D A Hull Stemming algorithms: A case study for detailed evaluation Journal of the American Society of Information Science, 47:70–84, 1996 M F Porter An algorithm for suffix stripping Program, 14:130–137, 1980 G K Zipf Human Behavior and the Principle of Least Effort AddisonWesley, 1949 G Salton and C Buckley Term-weighting approaches in automatic text retrieval Journal of Information Processing and Management, 24(5):513–523, 1988 S K M Wong and V V Raghavan Vector space model of information re-trieval: a reevaluation In Proceedings of the 7th annual international ACM SIGIR conference on Research and development in information retrieval, pages 167–185, 1984 [RSj76] S E Robertson and K Sparck-Jones Relevance weighting of search terms Journal of the American Society for Information Science, 27:129–146, 1976 10 [SJWR00] K Sparck-Jones, S Walker, and S E Robertson A probabilistic model of in-formation retrieval: development and comparative experiments Information Processing and Management, 36(6):809–840, 2000 + 11 [CMM 00] I J Cox, M L Miller, T P Minka, T V Papathomas, and P N Yianilos The Bayesian Image Retrieval System, PicHunter: Theory, Implementation and Psychophysical Experiments IEEE Transactions on Image Processing, 9(1):IEEE Transactions on Image Processing, 2000 12 Stanislaw Osinski, Dimensionality Reduction Techniques for search result clustering, Msc thesis, Department of Computer Science, The University of Sheffield, UK, 2004 ... hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương... TỔNG QUAN VỀ TRA CỨU THƠNG TIN 1.1 Tra cứu thơng tin 1.2 Các thành phần hệ thống tra cứu thông tin 1.3 Biểu diễn mơ hình 12 1.4 Đánh giá 19 1.5 Phản hồi liên quan tra cứu thông. .. quan tra cứu thơng tin Ngồi chương luận văn trình bày đặc điểm văn tiếng việt Từ kiến thức tổng quan chương luận văn sử dụng để tra cứu Chương : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN HỒI LIÊN

Ngày đăng: 11/01/2019, 16:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Daniel Jurafsky & James (2007), Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Sách, tạp chí
Tiêu đề: Daniel Jurafsky & James (2007)
Tác giả: Daniel Jurafsky & James
Năm: 2007
3. Christopher D.Maning, Prabhakar Raghavan, Hiinrich Schuitze, An Introduction to Information Retrieval , Online edition 2009, Cambridge UP Sách, tạp chí
Tiêu đề: AnIntroduction to Information Retrieval
4. D. A. Hull. Stemming algorithms: A case study for detailed evaluation.Journal of the American Society of Information Science, 47:70–84, 1996 Sách, tạp chí
Tiêu đề: Stemming algorithms: A case study for detailed evaluation."Journal of the American Society of Information Science
5. M. F. Porter. An algorithm for suffix stripping. Program, 14:130–137, 1980 Sách, tạp chí
Tiêu đề: An algorithm for suffix stripping
6. G. K. Zipf. Human Behavior and the Principle of Least Effort. Addison- Wesley, 1949 Sách, tạp chí
Tiêu đề: Human Behavior and the Principle of Least Effort
7. G. Salton and C. Buckley. Term-weighting approaches in automatic text retrieval. Journal of Information Processing and Management, 24(5):513–523, 1988 Sách, tạp chí
Tiêu đề: Term-weighting approaches in automatic textretrieval
8. S. K. M. Wong and V. V. Raghavan. Vector space model of information re-trieval: a reevaluation. In Proceedings of the 7th annual international ACM SIGIR conference on Research and development in information retrieval, pages 167–185, 1984 Sách, tạp chí
Tiêu đề: Vector space model of informationre-trieval: a reevaluation
9. [RSj76] S. E. Robertson and K. Sparck-Jones. Relevance weighting of search terms. Journal of the American Society for Information Science, 27:129–146, 1976 Sách, tạp chí
Tiêu đề: Relevance weighting ofsearch terms
10. [SJWR00]. K. Sparck-Jones, S. Walker, and S. E. Robertson. A probabilistic model of in-formation retrieval: development and comparative experiments. Information Processing and Management, 36(6):809–840, 2000 Sách, tạp chí
Tiêu đề: Aprobabilistic model of in-formation retrieval: development andcomparative experiments
1. Nguyễn Việt Cường (2006), luận văn thạc sĩ, Đại học công nghệ - Đại học quốc gia Hà nội.II. Tài liệu tiếng Anh Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w