1. Trang chủ
  2. » Giáo Dục - Đào Tạo

XÂY DỰNG HỆ THỐNG TƯ VẤN BÀI VIẾT TRÊN FORUM CHO NGƯỜI DÙNG TRÊN CƠ SỞ CÔNG NGHỆ WEB

52 441 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • KHOA CÔNG NGHỆ THÔNG TIN

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC HÌNH VẼ

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1: TỔNG QUAN VỀ FORUM VÀ HỆ THỐNG TƯ VẤN BÀI VIẾT TRÊN FORUM

  • 1.1. Tổng quan về forum

    • 1.1.1. Forum và những đặc điểm của nó

    • 1.1.2. Một số thành phần cơ bản của forum

      • 1.1.2.1. Người dùng

      • 1.1.2.2. Bài viết

      • 1.1.2.3. Bình luận

    • 1.1.3. Mối quan hệ giữa các thành phần trong forum

      • 1.1.3.1. Người dùng – người dùng (user – user)

      • 1.1.3.2. Người dùng – bài viết (user – post)

      • 1.1.3.3. Người dùng – bình luận (user – comment)

      • 1.1.3.4. Bài viết – bình luận (post – comment)

  • 1.2. Hệ thống tư vấn bài viết trên forum

    • 1.2.1. Tổng quan về một hệ tư vấn

    • 1.2.2. Một số phương pháp tư vấn thông dụng

    • 1.2.3. Phương pháp tư vấn bài viết dựa trên nội dung

  • CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH BÀI VIẾT, TƯ VẤN TRẢ LỜI DỰA TRÊN NỘI DUNG

  • 2.1. Nguyên tắc chung

    • 2.1.1. Bài toán tư vấn bài viết dựa trên nội dung

    • 2.1.2. Hướng giải quyết

  • 2.2. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau

    • 2.2.1. Câu hỏi đơn giản (factual-base)

      • Hình 2.1. Kiến trúc cho xử lý các câu hỏi factual-base

    • 2.2.2. Câu hỏi định nghĩa (definition question)

    • 2.2.3. Câu hỏi phức tạp, có ràng buộc về thời gian

  • 2.3. Một số phương pháp xác định loại câu hỏi

    • 2.3.1. Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý NN tự nhiên

    • Hình 2.2. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên

      • Hình 2.3. Ánh xạ từ trọng tâm vào Wordnet

    • 2.3.2. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ

    • Hình 2.4. Mô hình Snowball

  • CHƯƠNG 3: PHÁT TRIỂN HỆ THỐNG TRẢ LỜI, TƯ VẤN

  • BÀI VIẾT TRÊN DIỄN ĐÀN

  • 3.1. Hệ thống trả lời, tư vấn bài viết trên diễn đàn

  • 3.2. Phân tích hệ thống trả lời, tư vấn bài viết trên diễn đàn

    • 3.2.1. Đặc tả hệ thống

    • 3.2.2. Sơ đồ chức năng hệ thống

    • Hình 3.1. Sơ đồ chức năng

    • 3.2.3. Biểu đồ Use-case tổng quát

    • Hình 3.2. - Biểu đồ Use-case tổng quát

    • 3.2.4. Biểu đồ phân rã chức năng

    • Hình 3.3. Biểu đồ phân rã chức năng Quản trị Users

  • - Biểu đồ phân rã chức năng Đặt câu hỏi

    • Hình 3.4. Biểu đồ phân rã chức năng Đặt câu hỏi

    • Hình 3.5. Biểu đồ phân rã chức năng trả lời câu hỏi

    • 3.2.5. Biểu đồ tuần tự

    • Hình 3.6. Biểu đồ tuần tự đăng ký User

    • Hình 3.7. Biểu đồ tuần tự đặt câu hỏi

  • - Biểu đồ tuần tự trả lời câu hỏi

    • Hình 3.8. Biểu đồ tuần tự trả lời câu hỏi

    • 3.3. Nền tảng cài đặt hệ thống

    • 3.3.1. Các công cụ sử dụng

      • 3.3.1.1. Ngôn ngữ HTML

      • 3.3.1.2. Ngôn ngữ Javascript

      • 3.3.1.3. Ngôn ngữ truy vấn SQL

      • 3.3.1.4. Công cụ phpMyAdmin (Xampp)

  • 3.4. Giao diện chương trình

    • 3.4.1. Giao diện chính chương trình

    • Hình 3.9. Giao diện chính chương trình

    • 3.4.2. Giao diện viết bài/đặt câu hỏi

    • Hình 3.10. Giao diện viết bài/đặt câu hỏi

    • 3.4.3. Giao diện tư vấn/trả lời bài biết

    • Hình 3.11. Giao diện tư vấn/trả lời bài viết

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Nội dung

MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ LỜI MỞ ĐẦU 1 CHƯƠNG 1: TỔNG QUAN VỀ FORUM VÀ HỆ THỐNG TƯ VẤN BÀI VIẾT TRÊN FORUM 3 1.1. Tổng quan về forum 3 1.1.1. Forum và những đặc điểm của nó 3 1.1.2. Một số thành phần cơ bản của forum 4 1.1.3. Mối quan hệ giữa các thành phần trong forum 6 1.2. Hệ thống tư vấn bài viết trên forum 7 1.2.1. Tổng quan về một hệ tư vấn 7 1.2.2. Một số phương pháp tư vấn thông dụng 8 1.2.3. Phương pháp tư vấn bài viết dựa trên nội dung 12 CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH BÀI VIẾT, TƯ VẤN TRẢ LỜI DỰA TRÊN NỘI DUNG 14 2.1. Nguyên tắc chung 14 2.1.1. Bài toán tư vấn bài viết dựa trên nội dung 14 2.1.2. Hướng giải quyết 15 2.2. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau 17 2.2.1. Câu hỏi đơn giản (factualbase) 17 2.2.2. Câu hỏi định nghĩa (definition question) 20 2.2.3. Câu hỏi phức tạp, có ràng buộc về thời gian 21 2.3. Một số phương pháp xác định loại câu hỏi 22 2.3.1. Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý NN tự nhiên 22 2.3.2. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 24 CHƯƠNG 3: PHÁT TRIỂN HỆ THỐNG TRẢ LỜI, TƯ VẤN 27 BÀI VIẾT TRÊN DIỄN ĐÀN 27 3.1. Hệ thống trả lời, tư vấn bài viết trên diễn đàn 27 3.2. Phân tích hệ thống trả lời, tư vấn bài viết trên diễn đàn 27 3.2.1. Đặc tả hệ thống 27 3.2.2. Sơ đồ chức năng hệ thống 28 3.2.3. Biểu đồ Usecase tổng quát 28 3.2.4. Biểu đồ phân rã chức năng 29 3.2.5. Biểu đồ tuần tự 30 3.3. Nền tảng cài đặt hệ thống 32 3.4. Giao diện chương trình 38 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41  

1 TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ KIỀU TRANG XÂY DỰNG HỆ THỐNG VẤN BÀI VIẾT TRÊN FORUM CHO NGƯỜI DÙNG TRÊN SỞ CÔNG NGHỆ WEB Chuyên ngành : Công nghệ thông tin Mã ngành : D480201 NGƯỜI HƯỚNG DẪN: TS HÀ MẠNH ĐÀO HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan sản phẩm nghiên cứu thân, xuất phát từ yêu cầu toán phát sinh công việc để hình thành hướng nghiên cứu thực hướng dẫn giáo viên hướng dẫn TS.Hà Mạnh Đào Mọi tham khảo sử dụng đồ án trích dẫn nguồn tài liệu báo cáo danh mục tài liệu tham khảo Các chép không hợp lệ, vi phạm quy chế nhà trường, xin hoàn toàn chịu trách nhiệm Hà Nội, ngày tháng năm 2016 Người cam đoan LỜI CẢM ƠN Để hoàn thành đồ án này, em xin chân thành cảm ơn thầy khoa Công nghệ thông tin – Trường Đại học Tài nguyên Môi trường Hà Nội dạy dỗ em suốt bốn năm học vừa qua Em xin gửi lời cảm ơn chân thành tời thầy TS Hà Mạnh Đào người trực tiếp hướng dẫn bảo tận tình em trình làm đồ án Em đặc biệt cảm ơn thầy truyền đạt cho em nhiều kiến thức kinh nghiệm qúa trình làm đồ án Em xin cảm ơn thầy tạo cho em điều kiện làm đồ án tốt Cuối cùng, em vô cảm ơn tất thành viên gia đình, tất bạn bè; người cho em động viên nhiệt tình trình làm đồ án Hà Nội, tháng 06 năm 2016 Nguyễn Thị Kiều Trang MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt CF CBF Từ đầy đủ Collaborative Filtering Content-Based Filtering CBR LDA Conten-Based Recommandation Latent Dirichlet Allocation LSA MAP pLSA Latent Semantic Analysis Mean Average Precision Probabilistic Latent Semantic Analysis SVM TF-IDF Support Vector Machine Term Frequently – Invert Document Frequently VSM Vector Space Model DANH MỤC HÌNH VẼ Hình 2.1 Kiến trúc cho xử lý câu hỏi factual-base Hình 2.2 Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên Hình 2.3 Ánh xạ từ trọng tâm vào Wordnet Hình 2.3 Mô hình Snowball Hình 3.2 Biểu đồ Use-case tổng quát Hình 3.3 Biểu đồ phân rã chức Quản trị Users Hình 3.4 Biểu đồ phân rã chức Đặt câu hỏi Hình 3.5 Biểu đồ phân rã chức trả lời câu hỏi Hình 3.6 Biểu đồ đăng ký User Hình 3.7 Biểu đồ đặt câu hỏi Hình 3.8 Biểu đồ trả lời câu hỏi Hình 3.9 Giao diện chương trình Hình 3.10 Giao diện viết bài/đặt câu hỏi Hình 3.11 Giao diện vấn/trả lời viết LỜI MỞ ĐẦU Ngày nay, với phổ biến mạng Internet máy tính cá nhân, hệ thống trang web trở thành công cụ hữu hiệu để thu thập thông tin nhiều nguồn thông tin hệ thống trang web như: website, blog, mạng xã hội, forum… Sự kiện quan trọng qua trình phát triển hệ thống web đời hệ thống web2.0 Đây hệ thống web mà nội dung tạo người dùng điểm đặc sắc Tuy nhiên, bùng nổ nguồn thông tin tạo người dùng đặt thách thức với việc tìm kiếm thu thập thông tin ích hệ thống Web Bởi hàng tỷ người dùng sử dụng internet ngày, lượng thông tin mà họ tạo vô lớn từ đoạn status, tweet mạng xã hội, hình ảnh, đoạn video trang chia sẻ ảnh, video, đến viết forum Một tác vụ quan trọng việc tìm kiếm thu thập thông tin việc vấn nội dung cần thiết cho người dùng internet Nhiệm vụ việc vấn đưa cho người dùng danh sách đối tượng mà người dùng quan tâm từ tập hợp đối tượng hỗn độn từ trang web Đã nhiều nghiên cứu thực để tìm phương pháp vấn hiệu Một số phương pháp tìm cho kết tốt như: phương pháp lọc cộng tác, phương pháp lọc theo nội dung, phương pháp lọc dựa tri thức phương pháp lai phương pháp Hiện chưa nghiên cứu cụ thể cho vấn đề vấn viết cho người dung forum, forum trước nguồn thông tin quan trọng phổ biến hệ thống website Ứng dụng kết trên, Đồ án xây dựng phương pháp vấn viết cho người dùng forum dựa nội dung, bên cạnh viết ứng dụng vấn viết cho người dùng forum Do đó, nhiệm vụ cụ thể đồ án xây dựng phương pháp vấn viết cho người dùng forum: phân tích toán để hiểu việc cần làm, sau lựa chọn phương pháp vấn thích hợp cho hệ vấn cho viết, tiếp đến thu thập thông tin huấn luyện liệu, cuối tính toán đánh giá độ xác phương pháp vấn Kết đồ án xây dựng hệ thống vấn viết cho người dùng triển khai hệ thống thành ứng dụng cụ thể web application window application Nội dung đồ án gồm chương: Chương – Tổng quan forum hệ thống vấn viết forum: nội dung chương đưa nhìn qua thành phần forum, từ xây dựng nên ý tưởng hệ vấn viết forum lựa chọn phương pháp vấn sử dụng cho hệ thống Chương – Phương pháp phân tích viết, vấn trả lời câu hỏi diễn đàn Chương – Phát triển hệ thống trả lời, vấn viết diễn đàn CHƯƠNG 1: TỔNG QUAN VỀ FORUMHỆ THỐNG VẤN BÀI VIẾT TRÊN FORUM 1.1 Tổng quan forum 1.1.1 Forum đặc điểm nhiều cách nhìn nhận khác forum người nói forum bảng tin, hay bảng thông báo Trong người lại cho forum danh sách thảo luận hay nhóm thảo luận Tuy nhiên mô tả forum sau: forum nơi trang thảo luận trực tuyến, người dùng tạo thảo luận (hay gọi thread) cách đăng đoạn tin lên forum, đăng ý kiến bình luận vào thảo luận khác Một forum cấu trúc dạng Trong đó, forum lại bao gồm nhiều subforum, subforum chứa nhiều chủ đề khác Mỗi chủ đề lại chứa nhiều thread khác nhau, thread bình luận nhiều người dùng Tùy vào forumngười dùng bình luận tạo thread cần phải đăng nhập vào hệ thống hay không Hầu hết forum yêu cầu người dùng đăng nhập trước tạo thread viết bình luận vào thread Tùy vào mức độ truy nhập người dùng, thread đăng người dùng cần phải chấp nhận người quản lý forum hay không Người dùng bình luận vào thread thời điểm khác nhau, mà không cần thiết tất người dùng phải online Forum nhiều điểm khác biệt so với website khác như: - So với hòm thư điện tử: hai trang web chứa danh sách thảo luận người dùng, nhiên hòm thư điện tử tự động gửi phản hồi tới người tham gia thảo luận Trong đó, forum yêu cầu người dùng phải truy cập vào trang forum để đọc toàn 10 thread phản hồi viết Do người dùng bỏ lỡ - phản hồi thread mà họ quan tâm So với wiki: hai nguồn thông tin quan trọng internet Tuy nhiên wiki cho phép người dùng sửa nội dung (kể nội dung người khác viết) Trong thao tác nội dung forum - giới hạn người quản lý trang web người đăng nội dung So với phòng chat trao đổi tin nhắn: hai thảo luận hai hay nhiều người chủ đề Tuy nhiên, forum khác phòng chat chỗ người dùng online đồng thời lúc để gửi nhận phản hồi, phản hồi đăng lên forum đọc tất người dùng kể thảo luận kết thúc Một forum cấu tạo nên từ nhiều thành phần khác như: người dùng, viết bình luận Phần trình bày thành phần mối quan hệ chúng 1.1.2 Một số thành phần forum 1.1.2.1 Người dùng Đối tượng người dùng đối tượng cần xem xét để đưa vấn cho họ Người dùng số thông tin ích sau: Tên Người dùng: Thành phần giúp ta phân biệt người dùng với Đây phần tử định danh cho người dùng Số viết người dùng: Thành phần ích để đánh giá độ tin cậy báo Nếu người dùng đăng nhiều kinh nghiệm mức độ hấp dẫn báo cáo Bài viết cuối cùng(PostID): thành phần chứa ID viết cuối mà người dùng viết Sở thích người thay đổi theo thời gian, viết cuối ích xác định sở thích người dùng 38 3.3 Nền tảng cài đặt hệ thống Tùy vào tảng mà công cụ để làm trò chơi khác chẳng hạn dotNet, Flash hay HTML Thấy lợi ích phát triển trò chơi web so với tảng khác tính dễ sử dụng cho người dùng người phát triển, không tốn nơi lưu trữ tài nguyên người dùng hoạt động tảng máy tính lẫn di động nên chọn HTML công cụ để phát triển trò chơi Sử dụng HTML dễ sử dụng, không phức tạp lại linh động Hơn phát triển trò chơi web biết đến nhiều hơn, nhiều người quan tâm đến Ngoài HTML sử dụng công cụ hỗ trợ thêm php, javascript hay SQL 3.3.1 Các công cụ sử dụng 3.3.1.1 Ngôn ngữ HTML HTML (HyperText Markup Language hay “Ngôn ngữ Đánh dấu Siêu văn bản”), ngôn ngữ đánh dấu thiết kế để tạo nên trang web với mẩu thông tin trình bày World Wide Web a) Cấu trúc HTML Đây tiêu đề trang web Đây nội dung trang Web 39 + Mỗi trang Web trình bày liệu cấu trúc HTML Cấu trúc bắt đầu thẻ kết thúc thẻ + Cặp thẻ chứa thành phần cho phần “head” trang web + Cặp thẻ chứa phần nội dung xuất bên trang Web b) Các thành phần HTML - Thẻ tiêu đề HTML cung cấp hệ thống thẻ tiêu đề với kích thước khác với cú pháp (Trong i thay số từ 1-6) - Đoạn văn Trong HTML, để định dạng đoạn văn bản, ta dùng thẻ

đoạn văn bản

- Thẻ liên kết Để liên kết trang Web với hay liên kết đến địa Internet Email địa tệp tin nội bộ, sử dụng thẻ liên kết Thẻ dùng mà phải kèm theo địa muốn liên kết tới - Thẻ hình ảnh Trong HTML, để chèn hình ảnh ta sử dụng thẻ - Thẻ div span 40 - Hai thẻ cho phép phân chia khu vực hay vùng, phân chia giúp cho trình duyệt hiểu rõ vùng bố cục trang web - thể chứa hầu hết thẻ HTML/XHTML - Một số thẻ không chứa bên trong: - Thẻ form thẻ input Trong HTML, thẻ form thẻ input giúp tạo biểu mẫu giúp người dùng nhập nội dung chuyển liệu đến server Để tạo form HTML, dùng cặp thẻ Để tạo thành phần input, dùng thẻ Trong thẻ số thuộc tính quan trọng cần lưu ý: -type: định nghĩa kiểu thẻ input (text, password, hidden, submit, button) - name: định nghĩa tên thẻ input - value: định nghĩa giá trị mặc định cho thẻ input Giá trị người dùng thay đổi sau Thuộc tính không bắt buộc 3.3.1.2 Ngôn ngữ Javascript - JavaScript lần xuất phiên Netscape 2.0 vào năm 1995 JavaScript lúc chủ yếu thiết kế để giúp đỡ việc tích hợp trang HTML với Java Applet - dạng ứng dụng Java nhúng trang web Tuy nhiên, nhà phát triển nhanh chóng nhận sức mạnh tiềm tàng thực nhanh chóng, JavaScript sử dụng để bổ sung tính tương tác cho website -phần lớn trường hợp không cần đến hỗ trợ Java 41 - thể chèn lệnh Javascript vào tài liệu HTML theo cách sau đây: + Nhúng câu lệnh trực tiếp vào tài liệu cách sử dụng thẻ + Mã Javascript nhúng vào tài liệu HTML thẻ thể nhúng nhiều script vào tài liệu, script nằm thẻ Khi trình duyệt gặp phải thẻ đó, đọc dòng gặp thẻ đóng Cú pháp sau: + Liên kết file nguồn Javascript với tài liệu HTML: File liên kết với tài liệu HTML Thuộc tính SRC (source) thẻ dùng để file chứa đoạn mã JavaScript mà cần sử dụng Khi xác định file nguồn, ta dùng tên đường dẫn tương đối tuyệt đối thuộc tính SRC 3.3.1.3 Ngôn ngữ truy vấn SQL - SQL (Structured Query Language - ngôn ngữ truy vấn mang tính cấu trúc) loại ngôn ngữ máy tính phổ biến để tạo, sửa, lấy liệu từ hệ quản trị sở liệu quan hệ Ngôn ngữ phát triển vượt xa so với mục đích ban đầu để phục vụ hệ quản trị sở liệu đối tượng-quan hệ Nó tiêu chuẩn ANSI/ISO - Câu lệnh select Được sử dụng để lấy liệu từ nhiều bảng sở liệu Những từ khóa liên quan tới SELECT bao gồm: 42 FROM dùng để định liệu lấy từ • bảng nào, bảng quan hệ với WHERE dùng để xác định ghi lấy • ra, áp dụng với GROUP BY GROUP BY dùng để kết hợp ghi giá trị • liên quan với thành phần tử tập hợp nhỏ ghi HAVING dùng để xác định ghi nào, kết • từ từ khóa GROUP BY, lấy ORDER BY dùng để xác định liệu lấy • xếp theo cột - Câu lệnh insert • Câu lệnh SQL INSERT (có nghĩa thêm) dùng để thêm liệu vào bảng sở liệu quan hệ • Câu lệnh insert cấu trúc sau: INSERT INTO table (column1, [column2, ]) VALUES (value1, [value2, ]) • Số lượng cột số lượng giá trị câu lệnh phải - Câu lệnh update Câu lệnh SQL UPDATE thay đổi hay cập nhật liệu hay nhiều hàng bảng liệu Tùy theo điều kiện mà số hàng hay tất hàng bảng bị thay đổi Câu lệnh UPDATE cấu trúc sau: UPDATE table_name SET column_name = value [column_name = val ue ] [WHERE condition] 43 - Câu lệnh delete Câu lệnh SQL DELETE xóa nhiều hàng bảng liệu Nếu thực câu lệnh DELETE với điều kiện số hàng thỏa điều kiện bị xóa đi, ngược lại tất hàng bị xóa hết DELETE FROM table_name WHERE condition 3.3.1.4 Công cụ phpMyAdmin (Xampp) - phpMyAdmin công cụ nguồn mở miễn phí viết PHP dự định để xử lý quản trị MySQL thông qua trình duyệt web Nó thực nhiều tác vụ tạo, sửa đổi xóa bỏ sở liệu, bảng, trường ghi; thực báo cáo SQL; quản lý người dùng cấp phép - Các tính cung cấp chương trình bao gồm: + Giao diện web + Quản lý sở liệu MySQL + Nhập liệu từ CSV SQL + Xuất liệu sang định dạng khác nhau: CSV, SQL, XML, PDF (thông qua thư viện TCPDF), ISO/IEC 26300 - OpenDocument văn bảng tính, Word, Excel, LaTeXvà định dạng khác + Quản lý nhiều máy chủ + Tạo truy vấn phức tạp cách sử dụng Query-by-example (QBE) + Tìm kiếm tổng quan sở liệu tập hợp + Chuyển đổi liệu lưu trữ thành định dạng cách sử dụng tập hợp chức xác định trước, hiển thị liệu BLOB hình ảnh tải liên kết 44 3.4 Giao diện chương trình 3.4.1 Giao diện chương trình Hình 3.9 Giao diện chương trình 3.4.2 Giao diện viết bài/đặt câu hỏi Hình 3.10 Giao diện viết bài/đặt câu hỏi 45 3.4.3 Giao diện vấn/trả lời biết Hình 3.11 Giao diện vấn/trả lời viết 46 KẾT LUẬN Nguồn thông tin từ forum nguồn thông tin vô dồi ích cho người dùng forum nói riêng người dùng internet nói chung Việc hệ thống với số lượng lớn forum tồn suốt thời gian dài, bất chấp đời phát triển số nguồn thông tin khác, thấy tầm quan trọng forum Tuy nhiên số lượng viết lớn nên việc tìm đọc viết theo ý muốn khó khăn cho người dùng sử dụng forum Đôi người dùng tốn nhiều thời gian để tìm viết cần đọc lúc tìm viết giá trị viết không lúc đăng Từ cần phải hệ thống giúp người dùng dễ dàng tìm viết muốn tìm kiếm thời gian ngắn Tuy nhiên, chưa nhiều nghiên cứu tìm hiểu vấn đề Do đó, đồ án phát triển hệ thống vấn, trả lời viết cho người dùng forum Trong phạm vi đồ án này, em nghiên cứu phát triển hệ thống vấn, trả lời viết forum Do thời gian kiến thức hạn chế đồ án nhiều thiếu sót Kính mong Quý thầy góp ý để đồ án em hoàn thiện hơn! 47 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hồ Bảo, Lương Chi Mai Về xử lý tiếng Việt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Tiên tiến Nhật [2] Nguyễn Thị Hương Thảo Phân lớp phân cấp Taxonomy văn Web ứng dụng Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006 [3] Hà Quang Thụy & nhóm khai phá liệu ứng dụng Bài giảng khai phá liệu 2007 [4] Nguyễn Minh Tuấn Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 [5] Nguyễn Cẩm Máy Vector Hỗ trợ (SVMs) Phương pháp Nhân.2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa kho văn tiếng Việt Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ, 2009 Tài liệu tiếng Anh [7] Eugene Agichtein, Luis Gravano Snowball: Extracting Relations from Large Plain-Text Collections In Proceedings of the Fifth ACM International Conference on Digital Libraries, 2000 48 [8] AskMSR: Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin Question Answering Using the Worldwide Web Microsoft Research In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, PaloAlto, California, March 2002 [9] Matthew W Bilotti, Boris Katz, and Jimmy Lin What Works Better for Question Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul 2004) [10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, ChinYew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002 [11] Sergey Brin (Computer Science Department, Stanford University) Extracting Patterns and Relations from the World Wide Web In WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT’98, 1998 [12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft Research One Microsoft Way Redmond) Data-Intensive Question Answering In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001 [13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization Final version 2000 49 [14] Kadri Hacioglu, Wayne Ward 2003 Question Classification with Support Vector Machines Association for and Error Correcting Codes The Computational Linguistics on Human Language Technology, vol 2, tr.28–30 [15] Sanda M Harabagiu, Marius A Paşca, Steven J Maiorano Experiments with open-domain textual Question Answering International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics – Volume 1, 2000, tr 292 - 298 [16] Phan Xuan Hieu JTextPro: A Java-based Text Processing Toolkit jtextpro.sourceforge.net/ [17] Wesley Hildebr, Boris Katz, Jimmy Lin Answering Definition Questions Using Web Knowledge Bases Book: Natural Language Processing – IJCNLP, 2005 [18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y The Use of External Knowledge in Factoid QA Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16 [19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran A Question/Answer Typology with Surface Text Patterns In Proceedings of the second international conference on Human Language Technology Research 2002 [20] Zhiheng Huang, Marcus Thint, Zengchang Qin Question Classification using Head Words and their Hypernyms ACL 2008 [21] Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, tr 137-142 50 [22] Thorsten Joachims Learning to Classify Text using Support Vector Machines Kluwer 2002 [23] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti Enhanced Answer Type Inference from Questions using Sequential Models The conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005 [25] Xin Li, Dan Roth Learning Question Classifiers COLING'02, Aug, 2002 [26] Xin Li, Dan Roth Learning question classifiers: the role of semantic information Natural Language Engineering, Volume 12 , Issue , September 2006, tr 229 – 249 [27] Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 [28] George A Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database 1998 [29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard Goodrum, Roxana Girju and Vasile Rus The Structure and Performance of an Open- Domain Question Answering System In Proceedings of the 38th Annual Meeting of the Association for Comoutational Linguistics (ACL-2000), 2000 51 [30] N.F Noy and McGuinness, D.L Ontology Development 101: A Guide to Creating Your First Ontology SMI Technical report SMI-20010880 , Stanford University, 2001 [31] Robinson, W P., Rackstraw, S J A Question of Answers (Vol I) Boston: Routledge & Kegan Paul 1972 [32] Robinson, W P., Rackstraw, S J A Question of Answers (Vol II) Boston: Routledge & Kegan Paul, 1972 [33] E Saquete, P Martınez-Barco, R Mu˜noz, J.L Vicedo Splitting Complex Temporal Questions for Question Answering Systems ACL 2004 [34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira Experiments with Query Expansion in the RAPOSA (FOX) Question Answering System In The Cross- Language Evaluation Forum (CLEF), 2008 [35] Mihai Surdeanu Question Answering Techniques and Systems TALP Research Center Dep Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya [36] Nguyen Tri Thanh Study on Acquiring and Using Linguistic Semantic Information for Search System Doctor thesis, Japan Advanced Institute of Science anf Technology, 2008 [37] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [38] Ellen M Voorhees The TREC-8 Question Answering Track Report Paper presented at the Eighth Text REtrieval Conference (TREC 8) 52 Gaithersburg, MD, 1999 November 16-19 http://trec.nist.gov/pubs/trec8/papers/qa_report.pdf [39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External Resources for Question Answering School of Computing, National University of Singapore [40] Liu Yi, Zheng Y F One-against-all multi-Class SVM classification using reliability measures Proceedings of the 2005 International Joint Conference on Neural Networks Montreal,Canada, 2005 [41] Dell Zhang, Wee Sun Lee Question Classification using Support Vector Machines The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32 ... tính cá nhân, hệ thống trang web trở thành công cụ hữu hiệu để thu thập thông tin Có nhiều nguồn thông tin hệ thống trang web như: website, blog, mạng xã hội, forum… Sự kiện quan trọng qua trình... Latent Semantic Analysis Mean Average Precision Probabilistic Latent Semantic Analysis SVM TF-IDF Support Vector Machine Term Frequently – Invert Document Frequently VSM Vector Space Model DANH MỤC... người dùng nhìn thấy viết Nó nằm trang danh sách viết forum Nhiều người dùng bị hấp dẫn đọc tiêu đề vào đọc báo Số lượng bình luận: Đây thành phần nằm trang danh sách báo Nó cho thấy số lượng

Ngày đăng: 05/07/2017, 21:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w