Nghiên cứu tra cứu thông tin tiếng việt với phản hồi liên quan

65 196 0
Nghiên cứu tra cứu thông tin tiếng việt với phản hồi liên quan

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tác giả luận văn Nguyễn Đức Toàn LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tôi ghi nhận đóng góp giúp đỡ,sự ủng hộ, hỗ trợ nhiệt tình người bên cạnh mình, nhân muốn gửi lời cảm ơn sâu sắc tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Hữu Quỳnh, người dìu dắt hướng dẫn suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu, Bộ phận sau Đại học, Phòng đào tạo, phòng khảo thíĐại học công nghệ thông tin truyền thông – Đại học Thái Nguyên, tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo, cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CH12D qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên qua khó khăn, để vững bước vượt qua vất vả, tâm hoàn thành luận văn Tôi xin trân trọng cảm ơn bố mẹ, vợ, mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên giây phút khó khăn sống Tôi xin chân thành cảm ơn Ban giám hiệu, Phòng đào tạo CTHS đồng nghiệpTrường trung cấp Y tế Nam Định, người tạo điều kiện giúp đỡ công việc học tập để theo học hoàn thành khóa luận tốt nghiệp Thái Nguyên, ngày tháng 06 năm 2015 MỤC LỤC PHẦN MỞ ĐẦU Đặt vấn đề Mục tiêu luận văn Các đóng góp luận văn Bố cục luận văn Chương : TỔNG QUAN VỀ TRA CỨU THÔNG TIN 1.1 Tra cứu thông tin 1.2 Các thành phần hệ thống tra cứu thông tin 1.3 Biểu diễn mô hình 11 1.4 Đánh giá 18 1.5 Phản hồi liên quan tra cứu thông tin 22 1.6 Đặc điểm văn tiếng Việt 26 1.7 Kết luận chương 29 Chương : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN HỒI LIÊN QUAN 30 2.1 Biểu diễn văn 30 2.2 Tần suất tần suất nghịch đảo 31 2.3 Độ tương tự 32 2.4 Kỹ thuật giảm chiều vector biểu diễn văn 34 2.5 Thuật toán Rocchio 36 2.6 Thuật toán Robertson/Sparck-Jones 39 2.7 Thuật toán Bayesian 41 2.8 Kết luận chương 45 Chương ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT 46 3.1 Kiến trúc tổng quát hệ thống: 46 3.1.1 Mô hình UseCase tổng quát: 46 3.1.2 Đặc tả UserCase: .47 3.1.3 Biểu đồ hoạt động hệ thống: .48 3.2 Xây dựng tập liệu 49 3.2.1 Tập liệu từ dừng .50 3.2.2 Tập liệu từ chuyên ngành .51 3.2.3 Tập liệu văn huấn luyện 53 3.3 Môi trường cài đặt 53 3.3.1 Thiết kế sở liệu: 54 3.3.2 Thiết kế giao diện hệ thống: .56 3.4 Đánh giá 60 3.5 Kết luận chương 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC HÌNH Số hiệu hình vẽ Hình 1.1 Tên hình vẽ Tổng quan hệ thống tra cứu thông tin Cung cấp thành phần hệ thống tra cứu Hình 1.2 thông tin Hình 1.3 Phản hồi liên quan Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.a kết truy vấn ban đầu truy vấn bike Phản hồi liên quan tìm kiếm ảnh - người dùng xem Hình 1.4.b tập kết hiệu chỉnh Độ xác cải tiến nhiều Hình 1.5 Ví dụ phản hồi liên quan tập văn Số trang 10 23 24 24 25 Hình 2.1 Minh họa độ tương tự cosin 34 Hình 2.2 Ma trận ví dụ 35 Hình 2.3 35 Hình 2.5 Mô hình giảm chiều véc tơ Truy vấn tối ưu Rocchio để tách tài liệu liên quan không liên quan Ứng dụng thuật toán Rocchio’s Hình 3.1 Biểu đồ useCase tổng quát hệ thống 46 Hình 3.2 Biểu đồ hoạt động useCase Huấn Luyện 48 Hình 3.3 Biểu đồ hoạt động useCase Phân Loại 49 Hình 3.4 Diagram hệ thống 55 Hình 3.5 Giao diện Main 56 Hình 3.6 Giao diện quản lý StopWord 56 Hình 3.7 Giao diện quản lý thuật ngữ 57 Hình 3.8 Giao diện quản lý Files huấn luyện 57 Hình 3.9 Giao diện Huấn Luyện 58 Hình 2.4 37 39 Hình 3.10 Giao diện chọn file tra cứu: benh gout 58 Hình 3.11 Kết sau tra cứu 59 Hình 3.12 Giao diện phản hồi 59 Hình 3.13 Kết sau phản hồi 60 PHẦN MỞ ĐẦU Đặt vấn đề Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Hằng ngày có hàng triệu văn bản, trang web đưa lên Internet, làm giàu cho hệ thống tài nguyên khổng lồ Tuy nhiên, sử dụng thông tin hệ thống thông tin khổng lồ không tổ chức khai thác nguồn tài nguyên cách hợp lí Trên thực tế, có nhiều hệ thống thực công việc theo phương pháp khác nhau, chưa đạt hiệu tối ưu phần đáp ứng yêu cầu thông tin cho người sử dụng Mỗi phương pháp khác thể điểm mạnh riêng việc lựa chọn phương pháp phụ thuộc vào mục đích, yêu cầu tiêu chí riêng đặt Tuy nhiên, việc khai thác nguồn liệu toán khó Kỹ thuật tra cứu thông tin nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin rộng tổng hợp, bao gồm thuật toán, cấu trúc liệu, sở liệu, hệ thống phân tán, tính toán song song, tổ chức file, data mining Để nâng cao chất lượng kết tra cứu, phản hồi liên quan kết hợp vào hệ thống tra cứu thông tin Ý tưởng phản hồi liên quan (RF- Relevance Feedback) bao gồm người dùng tham gia vào trình tra cứu để cải tiến tập kết cuối Cụ thể, người dùng đưa phản hồi liên quan tài liệu tập kết ban đầu Phản hồi liên quan qua hay nhiều vòng lặp xếp Quá trình sử dụng ý tưởng khó để tính truy vấn tốt toàn tập tài liệu, dễ đánh giá tài liệu cụ thể Trong ngữ cảnh thế, phản hồi liên quan hiệu theo dõi nhu cầu thông tin người dùng: xem số tài liệu dẫn người dùng cải tiến hiểu thông tin mà họ tìm Vì lý chọn đề tài “Nghiên cứu tra cứu thông tin tiếng Việt với phản hồi liên quan” Mục tiêu luận văn Nghiên cứu phương pháp sử dụng phản hồi liên quan để nâng cao độ xác tra cứu văn (lấy thông tin người dùng để nâng cao độ xác) Các đóng góp luận văn - Nghiên cứu số phương pháp tra cứu văn tiếng Việt - Sử dụng kỹ thuật phản hồi liên quan nhằm nâng cao hiệu hệ thống tra cứu văn tiếng Việt - Trên sở phương pháp nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương 3: Ứng dụng tra cứu thông tin văn tiếng Việt Kết luận hướng phát triển Tài liệu tham khảo Chương : TỔNG QUAN VỀ TRA CỨU THÔNG TIN 1.1.Tra cứu thông tin Tra cứu thông tin nhánh khoa học máy tính nhằm mục tiêu lưu trữ cho phép truy cập nhanh lượng thông tin lớn Thông tin văn bản, đa phương tiện âm [2,3] Một hệ thống tra cứu thông tin hệ thống lưu trữ, tra cứu mục thông tin Hiện nay, nhiều hệ thống tra cứu mục phi văn dựa tìm kiếm mô tả văn Các mục văn thường xem tài liệu, sách, báo, Các hệ thống tra cứu thông tin thực tế lưu trữ cho phép tra cứu tài liệu thông tin văn Tuy nhiên, nhiệm vụ dễ dàng, tập tài liệu hệ thống tra cứu thông tin thường phải xử lý vài chục ngàn vài chục triệu tài liệu Hinh 1.1 Tổng quan hệ thống tra cứu thông tin Người sử dụng truy cập hệ thống tra cứu thông tin việc tạo truy vấn (gửi yêu cầu vào hệ thống) Sau hệ thống tra cứu thông tin tra cứu tất tài liệu liên quan đến yêu cầu truy vấn [2,3] Đối với mục tiêu này, pha ban đầu, tài liệu phân tích để cung cấp biểu diễn nội dung: trình gọi “đánh số” Lúc đầu tài liệu phân tích, đại diện mô tả tài liệu lưu trữ, thân tài liệu lưu trữ Để biểu diễn nhu cầu thông tin, người sử dụng tạo truy vấn ngôn ngữ truy vấn hệ thống Yêu cầu truy vấn đối sánh với mục để xác định tài liệu liên quan đến người sử dụng Phản hồi truy vấn, hệ thống tra cứu thông tin cung cấp trả lời xác danh sách phân hạng tài liệu chứa thông tin liên quan đến truy vấn Kết phụ thuộc vào mô hình chọn hệ thống, mô hình boolean cho trả lời xác, mô hình khác (áp dụng lược đồ đối sánh phần) cho danh sách tài liệu phân hạng cho tài liệu tương tự xếp hạng Lược đồ hệ thống tra cứu thông tin thể Hình 1.1 1.2.Các thành phần hệ thống tra cứu thông tin Trọng tâm hệ thống tra cứu thông tin so sánh truy vấn với tài liệu tập hợp Điều thu chức tính điểm, có đầu vào biểu diễn tài liệu truy vấn Chi tiết hàm tính điểm biểu diễn tài liệu phụ thuộc vào mô hình tra cứu sử dụng Chuyển đổi truy vấn, từ đầu vào thành biểu diễn, thực nhập vào người dùng Với tài liệu sở liệu, chuyển đổi trình ngoại tuyến thực lần Xét tập hợp C chứa N tài liệu T thuật ngữ Mỗi tài liệu tập hợp biểu thị di tính toán biểu diễn cho di ánh xạ chiều didi Dạng gốc dilà chuỗi từ Biểu diễn dicó thể xem chuỗi T trọng số tương ứng với mức độ thuật ngữ mô tả tài liệu Nếu tài liệu tập hợp đượcxem chuỗi trọng số, thân tài liệu biểu diễn ma trận tài liệu-thuật ngữ, mục dòng j cột i biểu thị quan trọng thuật ngữ j với tài liệu i Điền mục đơn lẻ ma trận phụ thuộc vào mô hình tra cứu cụ thể sử dụng Ngay bước tiền xử lý hoàn thành, hệ thống sẵn sàng chấp nhận yêu cầu người dùng Người dùng gửi truy vấn đến hệ thống, hệ thống chuyển đổi truy vấn thành biểu diễn thích hợp, biểu diễn so sánh với biểu diễn tài liệu tập liệu Quá trình sinh phân hạng mà tài liệu có điểm cao đặt phía (top) Sử dụng ngưỡng, mặt điểm cực tiểu truy vấn số kết mong muốn cố định, số tài liệu phân hạng nhận diện kết tập S Tập kết danh sách tài liệu ứng viên mà có khả đáp ứng truy vấn người dùng Một tập kết tra cứu tiếp tục trả lại người dùng dạng tập D hiển thị Cỡ tập D yêu cầu ràng buộc cỡ vật lý hình, sở thích người dùng, Quy ước, D xây dựng việc lấy tài liệu phân hạng S Thuật ngữ “tìm kiếm” sử dụng để mô tả vòng đời truy vấnphân hạng-hiển thị Bằng việc kiểm tra tài liệu D, người dùng tìm thấy cô/anh tìm Truy vấn người dùng giải thành công kết thúc “phiên tìm kiếm” Tuy nhiên, 3.2.1 Tập liệu từ dừng Bảng StopWord – từ dừng: bạn vậy Vài mà chưa cần thật từ nên họ tao vậy mà Ít với thật có mày mày sau qúa vừa theo bất mặt khác cuối tớ cuối gồm đủ anh mi trừ mà bao gồm liên tiếp để lúc trước trước lúc trước nhiên liên tục sẵn sàng chị đằng sau đằng trước bên bên đâu lại cô mà mà lẫn anh bị mà phía nhiều hoàn toàn ví dụ nên vân vân cho vì cho đồng thời hai lúc cho ba lúc làm cụ thể trời bốn năm lên ôi số vào lúc sáu tức dù mặt mày sau dù bảy tức bất chấp tự bạn trước không bạn trái dù hồi chẳng phải nè nên chúng bên dù tức tám thuộc ối chín khoảng tức khắc mặc kệ hầu hết chị chúng tao vân vân tiếp đến lại tiếp tục bên trái bên phải nhiều chí lúc luôn ối trời 50 chúng mày chúng phải mà mãi nghĩa khoảng chừng cỡ chừng thì mười hay riêng mà 3.2.2 Tập liệu từ chuyên ngành Bảng Từ chuyên ngành: nhớ Lĩnh vực CNTT xử lý CNTT cấu hình CNTT môn Giáo Dục chat CNTT Giáo Dục chip CNTT cao học hiệu trưởng cạnh tranh cổ đông Giáo Dục chương trình CNTT học kì Giáo Dục chuột CNTT học phí Giáo Dục code CNTT học sinh Giáo Dục CNTT học tập Giáo Dục CNTT học vấn CNTT đĩa từ Từ Từ Lĩnh vực Từ Lĩnh vực Từ giáo sư giáo trình Giáo Dục buôn bán Kinh Tế Y tế Lĩnh vực Y Tế Cổ Lĩnh vực Y Tế Giáo Dục cân đối Kinh Tế Trạm Y tế Y Tế Ruột Y Tế Y Tế Máu Y Tế Y Tế Khớp Y Tế Từ Kinh Tế Tuyến sở Gan cổ phần Kinh Tế Thận Y Tế Đỏ Y Tế cổ phiếu Kinh Tế Phổi Y Tế Tấy Y Tế Kinh Tế Tim Y Tế Kinh Tế Xương Y Tế công suất Kinh Tế Chân Y Tế Thấp Y Tế Giáo Dục công ty Kinh Tế Tay Y Tế Y Tế kết Giáo Dục đầu tư Kinh Tế Miệng Y Tế Cao Chẩn đoán CNTT cao đẳng Giáo Dục doanh nghiệp Kinh Tế Tai Y Tế Hô hấp Y Tế liệu CNTT khoa học Giáo Dục du lịch Kinh Tế Mũi Y Tế hệ điều hành CNTT kĩ thuật Giáo Dục gdp Kinh Tế Họng Y Tế internet CNTT giáo án Giáo Dục giá Kinh Tế Da Y Tế lan CNTT kì thi Giáo Dục dám đốc Kinh Tế Mề day Y Tế link CNTT kiến thức Giáo Dục giao dịch Kinh Tế Phù Y Tế mã CNTT Giáo Dục hàng hóa Kinh Tế Xương Y Tế mail CNTT môn học nghiên cứu Ngừng thở Khó thở Mẩn ngứa Vết thương Băng bó Truyền Giáo Dục hội nhập Kinh Tế Ăn Y Tế Thở hình CNTT thí sinh Giáo Dục kế toán Kinh Tế Uống Y Tế mạng CNTT sinh viên Giáo Dục kiểm Kinh Tế Chết Y Tế công nghệ đĩa mềm đĩa quang công nghiệp công nhân Kinh Tế Dinh dưỡng Còi cương Chiều cao Cân Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 51 toán Giáo Dục kinh doanh kinh tế Kinh Tế Rách Y Tế Gày Y Tế luận văn trung học Giáo Dục lạm phát Kinh Tế khâu Y Tế Y Tế Giáo Dục lao động Kinh Tế oxi Y Tế CNTT trường Giáo Dục lợi nhuận Kinh Tế Hen xuyễn Y Tế Canxi Hộ sinh Cấp cứu phần mềm CNTT thực tập Giáo Dục lương Kinh Tế Chức Y Tế Sốt Y Tế thông tin CNTT Giáo Dục lương thực Kinh Tế Dạ dày Y Tế Co giật Y Tế thư từ CNTT Giáo Dục mua Kinh Tế Cấu tạo Y Tế Vệ sinh Y Tế thuật toán CNTT cử nhân Giáo Dục suất Kinh Tế đo Y Tế Sản Y Tế tin học CNTT giáo viên Giáo Dục Kinh Tế Y sỹ Y Tế Lây Y Tế CNTT gia sư Giáo Dục Kinh Tế Bệnh viện Y Tế I ốt Y Tế CNTT tiến sĩ Giáo Dục Kinh Tế Cảm cúm Y Tế Trẻ em Y Tế virus CNTT toán học Giáo Dục Kinh Tế Ho Y Tế viên Y Tế website CNTT Siro Y Tế windows CNTT server CNTT ram CNTT online CNTT máy chủ CNTT máy tính CNTT microsoft CNTT modem CNTT ngoại vi trực tuyến truyền thông tốt nghiệp thạc sĩ nặng chuyên môn thi tốt nghiệp giảng dạy giảng đường giảng viên Giáo Dục ngân hàng ngoại thương nhập nông nghiệp Kinh Tế Hô hấp Y Tế Cận thị Y Tế Y Tế Y Tế Giáo Dục quản lý Kinh Tế Dịch tễ Y Tế Giáo Dục sản phẩm Kinh Tế Ngoại Y Tế Giáo Dục sản xuất Kinh Tế đại học Giáo Dục tài Kinh Tế giáo dục Giáo Dục tăng trưởng Kinh Tế Liều cao Y Tế Kinh Tế Người già Y Tế Kinh Tế Lọ Y Tế Kinh Tế Đông dược Y Tế Bát quoái Thuốc Kinh Tế Tắc nghẽn Y Tế Xoa Y Tế Kinh Tế Nhiễm khuẩn Y Tế Bóp Y Tế Kinh Tế Sưng Y Tế Kinh Tế Gãy Y Tế tiêu dùng Kinh Tế Bàn tay Y Tế tín dụng Kinh Tế Bàn chân Y Tế toán thị trường thuế thương mại tỉ giá tiền lương tền tệ Truyền nhiễm Thí nghiệm Y Tế Y Tế Tạng phủ Thanh nhiệt Máu mủ Y học cổ truyền Nan y Bấm huyệt Thùy Động mạch Tĩnh mạch Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 52 vật tư xuất Kinh Tế Tóc Y Tế Huyết Phế quản Còi xương Béo Y Tế Kinh Tế Đầu Y Tế Kháng sinh Y Tế Đặc trị Y Tế Dược sỹ Điều dưỡng Dân số Y Tế Y Tế Y Tế Mỡ Trọng lượng Tế bào Đa khoa Y Tế AND Y Tế Dược tá Y Tế Y Tế Dược liệu Y Tế Gen Mạch máu Phế nang Bế Chuyển hóa Trao đổi chất Không khí Kinh lạc Khó chịu vai Kiểm nghiệm Nội Y Tế Y Tế Y Tế Nhi Y Tế Bụng Y Tế Muối Y Tế Người lớn Y Tế ống Y Tế Âm dương Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế Y Tế 3.2.3 Tập liệu văn huấn luyện Văn huấn luyện lựa chọn nhiều lĩnh vực: Công nghệ thông tin, giáo dục, y tế, kinh tế Số lượng văn huấn luyện: 600 văn 3.3 Môi trường cài đặt Môi trường cài đặt sử dụng đề tài: Ngôn ngữ lập trình C# Hệ quản trị sở liệu SQL Server 53 3.3.1 Thiết kế sở liệu: Bảng tbl_tudung ( Stopword) : Bảng tbl_Tranning (Huấn luyện) : Bảng tbl_TL (Tỷ lệ) : 54 Bảng tbl_ketqua : Bảng tbl_File: Diagram: Hình 3.4 Diagram hệ thống 55 3.3.2 Thiết kế giao diện hệ thống: Giao diện chính: Hình 3.5 Giao diện Main Giao diện quản lý từ dừng ( Stopword ): Hình 3.6 Giao diện quản lý StopWord 56 Giao diện quản lý thuật ngữ: Hình 3.7 Giao diện quản lý thuật ngữ Giao diện quản lý File: Hình 3.8 Giao diện quản lý Files huấn luyện 57 Giao diện huấn luyện: Hình 3.9 Giao diện Huấn Luyện Giao diện tra cứu văn bản: Hình 3.10 Giao diện chọn file tra cứu: benh gout 58 Kết sau tra cứu Hình 3.11 Kết sau tra cứu Giao diện phản hồi Hình 3.12 Giao diện phản hồi 59 Kết sau phản hồi Hình 3.13 Kết sau phản hồi 3.4 Đánh giá Chương trình sử dụng thuật toán TF-IDF trả kết truy vấn tương đối xác, đánh giá đạt 80% Kết hợp thuật toán phản hồi liên quan Rocchio nâng cao kết truy vấn lên 90%, Các kết trả sau phản hồi liên quan đánh giá phù hợp với mục đích truy vấn người dùng 3.5 Kết luận chương Trong trình nghiên cứu đề tài, thực được: + Xây dựng tập liệu mô bao gồm: Trên 200 từ dừng Từ điển từ chuyên ngành với nhiều lĩnh vực khác 60 Tập văn huấn luyện với nhiều lĩnh vực khác + Cài đặt mô chương trình tra cứu văn tiếng việt với phản hồi liên quan Hệ thống sử dụng tốt với tập liệu mô xây dựng 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN  Kết luận: Bản luận văn trình bày phương pháp tra cứu thông tin sử dụng thông tin phản hồi từ người dùng, phương pháp cho kết gần với mong muốn người dùng Các kết đạt luận văn:  Nghiên cứu tổng quan văn bản, văn tiếng Việt cách biểu diễn văn với Tf-IDF  Nghiên cứu phản hồi liên quan tra cứu thông tin  Nghiên cứu số thuật toán:Thuật toán Robertson/Sparck-Jones ,Thuật toán Bayesian,đặc biệt thuật toán Rocchio  Thực nghiệm tập sở liệu gồm 600văn cho kết tốt  Hướng phát triển: Xây dựng tập liệu lớn, đáp ứng nhiều lĩnh vực truy vấn thực tế Cải tiến thuật toán nhằm nâng cao hiệu tốc độ chất lượng truy vấn truy vấn với tập liệu lớn Cải tiến giao diện đẹp thân thiện, tiện lợi với người sử dụng 62 TÀI LIỆU THAM KHẢO I Tài liệu tiếng Việt: Nguyễn Việt Cường (2006), luận văn thạc sĩ, Đại học công nghệ - Đại học quốc gia Hà nội II Tài liệu tiếng Anh: Daniel Jurafsky & James (2007), Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition Christopher D.Maning, Prabhakar Raghavan, Hiinrich Schuitze, An Introduction to Information Retrieval, Online edition 2009, Cambridge UP D A Hull Stemming algorithms: A case study for detailed evaluation Journal of the American Society of Information Science, 47:70–84, 1996 M F Porter An algorithm for suffix stripping Program, 14:130–137, 1980 G K Zipf Human Behavior and the Principle of Least Effort AddisonWesley, 1949 G Salton and C Buckley Term-weighting approaches in automatic text retrieval Journal of Information Processing and Management, 24(5):513–523, 1988 S K M Wong and V V Raghavan Vector space model of information re-trieval: a reevaluation In Proceedings of the 7th annual international ACM SIGIR conference on Research and development in information retrieval, pages 167–185, 1984 [RSj76] S E Robertson and K Sparck-Jones Relevance weighting of search terms Journal of the American Society for Information Science, 27:129–146, 1976 10 [SJWR00] K Sparck-Jones, S Walker, and S E Robertson A probabilistic model of in-formation retrieval: development and 63 comparative experiments Information Processing and Management, 36(6):809–840, 2000 11 [CMM+00] I J Cox, M L Miller, T P Minka, T V Papathomas, and P N Yianilos The Bayesian Image Retrieval System, PicHunter: Theory, Implementation and Psychophysical Experiments IEEE Transactions on Image Processing, 9(1):IEEE Transactions on Image Processing, 2000 12 Stanislaw Osinski, Dimensionality Reduction Techniques for search result clustering, Msc thesis, Department of Computer Science, The University of Sheffield, UK, 2004 64 ... hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Bố cục luận văn Chương 1: Tổng quan tra cứu thông tin Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan Chương... 1.5 Phản hồi liên quan tra cứu thông tin 22 1.6 Đặc điểm văn tiếng Việt 26 1.7 Kết luận chương 29 Chương : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN HỒI LIÊN QUAN ... Chương 3: Ứng dụng tra cứu thông tin văn tiếng Việt Kết luận hướng phát triển Tài liệu tham khảo Chương : TỔNG QUAN VỀ TRA CỨU THÔNG TIN 1.1 .Tra cứu thông tin Tra cứu thông tin nhánh khoa học

Ngày đăng: 15/04/2017, 20:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan