1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu

89 949 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • DANH MỤC HÌNH

  • DANH MỤC CÁC BẢNG

  • CÁC TỪ VIẾT TẮT

  • LỜI NÓI ĐẦU

  • Chương 1: MÔ HÌNH PHÁT TRIỂN

  • 1. Mục đích và phạm vi của đề tài:

    • 1.1. Mục đích và yêu cầu:

    • 1.2. Phạm vi phát triển đề tài:

  • 2. Mô hình phát triển bài toán:

    • 2.1. Xây dựng mô hình bài toán:

    • 2.2. Các hướng tiếp cận của bài toán:

    • 2.3. Môi trường phát triển:

  • Chương 2: CƠ SỞ LÝ THUYẾT CỦA BÀI TOÁN

  • 1 Giới thiệu:

  • 3. Tìm hiểu các kỹ thuật phát triển:

    • 3.1. Các ứng dụng liên quan xử lý tiếng việt:

      • 1 Đặc trưng cấu trúc ngữ pháp tiếng việt:

      • 2 Các bước xử lý tài liệu tiếng việt:

      • 3 Giải pháp tách từ:

    • 3.2. Kỹ thuật phát triển hệ tư vấn gợi ý (Recommender System)

      • 4 Giới thiệu hệ tư vấn gợi ý (RS – Recommender System)

      • 5 Phương pháp dựa trên nội dung (Content_based Methods)

      • 6 Phương pháp lọc cộng tác:

      • 7 Các phương pháp lai (Hybrid Recommendation Approach):

      • 8 Kết luận:

    • 3.3. Kỹ thuật đánh giá độ tương đồng giữa các tài liệu:

      • 9 Mô hình không gian vector (VSM_Vector Space Model)

      • 10 Phân tích ngữ nghĩa tiềm ẩn (LSA_Latent Semantic Analysis):

      • 11 Phân tích ngữ nghĩa tiềm ẩn dựa trên mô hình xác suất (PLSA_Probabilistic Latent Analysis)

    • 3.4. Kỹ thuật phân nhóm người dùng:

    • 3.5. Kết hợp kỹ thuật lọc dựa trên nội dung và lọc cộng tác:

  • Chương 3: PHÂN TÍCH THIẾT KẾ HỆ THỐNG

  • 1 Giới thiệu tổng quan:

    • 3.6. Giới thiệu ứng dụng:

    • 3.7. Các yêu cầu của ứng dụng:

      • 12 Yêu cầu về chức năng:

      • 13 Yêu cầu về giao diện:

  • 4. Phân tích ứng dụng:

    • 4.1. Phân tích chức năng:

      • 14 Mô tả bài toán:

      • 15 Xác định đối tác và các Use_case trong hệ thống

      • 16 Activity Diagram:

      • 17 Use_case Diagram

    • 4.2. Phân tích hành vi

    • 4.3. Class Diagram:

  • 5. Thiết kế ứng dụng

    • 5.1. Thiết kế cơ sở dữ liệu

      • 18 Biểu đồ quan hệ thực thể:

      • 19 Mô tả các thực thể

    • 5.2. Thiết kế giao diện:

      • 20 Sơ đồ Website:

      • 21 Giao diện tìm kiếm và tư vấn

      • 22 Giao diện các tìm kiếm mở rộng

      • 23 Giao diện quản lý tài liệu

  • 6. Cài đặt và thử nghiệm

  • 7. Đánh giá:

    • 7.1. Dữ liệu đầu vào:

    • 7.2. Phân nhóm dữ liệu:

  • Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

  • 2 Kết luận:

    • 7.3. Về mặt nghiên cứu:

    • 7.4. Về mặt ứng dụng:

  • 8. Hướng phát triển:

    • 8.1. Mở rộng kỹ thuật phân nhóm dữ liệu:

    • 8.2. Kỹ thuật tư vấn dựa trên thông tin người dùng:

  • TÀI LIỆU THAM KHẢO:

Nội dung

LỜI CẢM ƠN Đầu tiên, xin gửi lời cám ơn đến giáo viên hướng dẫn: TS Lê Thanh Hương tận tình hướng dẫn hoàn thành luận văn Xin cám ơn tập thể thầy cô khoa Công Nghệ Thông Tin trường Đại Học Bách Khoa Hà Nội truyền tải cho kiến thức tảng để phát triển hoàn thành luận văn Tôi kính lời tri ân đến Thầy Cô khoa Công Nghệ Thông Tin trường Đại học Khoa Học Tự Nhiên TP.HCM TS Hồ Bảo Quốc, Th.s Nguyễn Hoàng Tú Anh góp ý cho trình hoàn thành đề tài tốt nghiệp Và cuối cùng, xin gửi lời cám ơn đến người thân gia đình, bạn bè, đồng nghiệp động viên, hỗ trợ nhiều mặt để hoàn thành luận văn Tp Hồ Chí Minh, tháng 03/2010 Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương MỤC LỤC Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương DANH MỤC HÌNH Hình 1.1_ Mô hình phát triển toán Hình 1.2_ Mô hình xử lý tài liệu Hình 2.1_ Ma trận tương quan từ khóa tài liệu Hình 2.2_ Mô hình biểu diễn độ tương đồng cosine tài liệu câu truy vấn Hình 2.3_ Mô hình ma trận giảm chiều Hình 2.4_ Mô hình đồ họa PLSA Hình 2.5_ Minh họa người dùng lựa chọn đối tượng Hình 2.6_ Cơ sở liệu đánh giá đối tượng người dùng Hình 3.1_ Mô hình hệ thống Hình 3.2_ Activity Diagram Use-case Search & Recommend Hình 3.3_ Activity Diagram Use-case Document Management Hình 3.4_ Use-case Diagram hệ thống Hình 3.5_ Sequence Diagram Use-case Search & Hình 3.6_ Class Diagram Use-case Search & Recommend Document Management Hình 3.7_ Biểu đồ quan hệ thực thể Hình 3.8_Giao diện bắt đầu tìm kiếm Hình 3.9_Giao diện hiển thị kết tìm kiếm Hình 3.10_Giao diện hiển thị tài liệu tương đồng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hình 3.11_Giao diện quản lý tài liệu Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hướng dẫn khoa học: TS Lê Thanh Hương Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương DANH MỤC CÁC BẢNG Bảng 2.1_ Các kỹ thuật phát triển hệ tư vấn gợi ý Bảng 2.2_ So sánh hai mô hình VSM LSA Bảng 2.3_ So sánh hai mô hình LSA PLSA Bảng 3.1_ Bảng mô tả thông tin tài liệu Bảng 3.2_ Bảng mô tả thông tin nhà xuất Bảng 3.3_ Bảng mô tả thông tin tác giả Bảng 3.4_ Bảng mô tả mối quan hệ tác giả tài liệu Bảng 3.5_ Bảng mô tả thông tin chủ đề Bảng 3.6_ Bảng mô tả thông tin danh mục cấp Bảng 3.7_ Bảng mô tả thông tin danh mục cấp Bảng 3.8_ Bảng mô tả thông tin người dùng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương CÁC TỪ VIẾT TẮT EM_ Expectation Maximization LDA_ Latent Dirichlet Allocation LSA_ Latent Semantic Analysis PLSA_ Probabilistic Latent Semantic Analysis RDF_ Resource Description Framework RS_ Recommender System SVD_ Singular Value Decomposition TEM_ Tempered Expectation Maximization TF-IDF_ Term Frequency/ Inverse Document Frequency VSM_ Vector Space Model Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương LỜI NÓI ĐẦU Word wide web tràn ngập với số lượng lớn thông tin có cấu trúc cấu trúc, lại thay đổi liên tục Điều ảnh hưởng sâu sắc đến nhiều khía cạnh sống: thay đổi cách giao tiếp, làm việc, mua sắm, giải trí… Tuy nhiên, lượng thông tin dư thừa từ nguồn khác việc tự động lưu hệ thống, việc chép nội dung từ nhiều trang web khác nhau, chí lời bình luận từ blog, báo chí, diễn đàn, mạng xã hội… trở thành thách thức lớn cho việc tìm kiếm thông tin có hiệu quả, chất lượng Điều làm cho lượng lớn tri thức bị chôn vùi hàng tỷ trang web Web mining khám phá thông tin có giá trị (tri thức) phù hợp với quan tâm người dùng cách tự động trở thành vấn đề quan trọng quan tâm Trước đây, để tìm kiếm thông tin, người dùng gõ từ khoá (keyword) vào ô tìm kiếm Và họ nhận nhiều thông tin liên quan đến từ khoá Chẳng hạn, nguời dùng gõ từ khoá “bún bò” kết mà họ nhận là: cách nấu bún bò, địa bán bún bò, hay văn hoá ẩm thực bún bò, chí thông tin liên quan đến từ “bún” “bò”… người dùng bị rối rắm mớ thông tin Điều dẫn đến tượng thắt cổ chai gây khó khăn cho việc tìm kiếm, rút trích bảo trì thông tin Bởi máy tính dùng thiết bị gửi nhận thông tin, chúng hỗ trợ giới hạn việc truy xuất xử lý thông tin Vì vậy, người dùng phải đảm trách việc xử lý lọc thông tin cho phù hợp với nhu cầu Để khắc phục vấn đề này, kỹ thuật xử lý ngữ nghĩa nội dung tài liệu phát triển giúp máy tính “hiểu” nội dung chứa đựng bên trang web Mặt khác, thực tế vấn đề diễn tả tập từ ngữ đặc Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương trưng hay gọi tập từ khoá Do đó, thay máy tính phải xem xét toàn nội dung tài liệu cần tìm kiếm dựa tập từ khoá đặc trưng cho nội dung Hơn nữa, việc xác định đặc trưng nội dung tài liệu giúp dễ dàng đánh giá độ tương đồng tài liệu Vì tiết kiệm thời gian có thông tin gợi ý nhanh chóng xác từ hệ thống Bên cạnh đó, nhận cộng đồng xã hội hình thành nhóm có chung sở thích mối quan tâm khía cạnh Do đó, việc thống kê thói quen sử dụng người dùng hỗ trợ việc đưa gợi ý nhanh chóng xác Các kỹ thuật khai phá xử lý thông tin đứng trước thách thức với số lượng thông tin lớn thay đổi liên tục Việc xử lý ngữ lý ngữ nghĩa nội dung tài liệu, hướng vào mối quan tâm người dùng hướng nghiên cứu xu Và lý chọn đề tài “xây dựng hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu” để làm luận văn tốt nghiệp Với mục tiêu xây dựng ứng dụng với kỹ thuật xử lý ngữ nghĩa kết hợp phân tích thói quen sử dụng người dùng nhằm đưa gợi ý phù hợp với vấn đề người dùng quan tâm, bố cục luận văn sau:  Chương 1: Mô hình phát triển  Chương 2: Cơ sở lý thuyết toán  Chương 3: Xây dựng ứng dụng  Chương 4: Kết luận hướng phát triển Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hướng dẫn khoa học: TS Lê Thanh Hương Với thời gian thực luận văn có giới hạn, chắn tránh khỏi sai sót Kính mong góp ý quý Thầy Cô, anh chị đồng nghiệp để xây dựng ứng dụng hoàn thiện TP Hồ Chí Minh, Ngày 01 tháng 03 năm 2010 Người thực Nguyễn Thị Khiêm Hòa Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 10 Hướng dẫn khoa học: TS Lê Thanh Hương Chương 1: MÔ HÌNH PHÁT TRIỂN Mục đích phạm vi đề tài: 1.1 Mục đích yêu cầu: Word wide web chứa kho tri thức khổng lồ dạng tài liệu thô mà người hiểu Vì vậy, cần có công cụ để khai thác thông tin cách có hiệu Nghĩa là, làm để xử lý tự động ngữ nghĩa tài liệu? Và làm để máy tính “hiểu” người dùng muốn quan tâm đến điều gì? Với mục tiêu tìm kiếm tài liệu cách nhanh chóng xác phục vụ cho việc nghiên cứu, chọn đề tài “xây dựng hệ thống tư vấn gợi ý tìm kiếm thông tin” Nhằm nghiên cứu tìm hiểu phương pháp phân tích ngữ nghĩa tài liệu tiếng việt, kết hợp phân tích đánh giá từ cộng đồng người dùng đối tượng cần tìm, giúp cho việc tìm kiếm nhanh chóng xác Từ mục tiêu vừa đưa ra, yêu cầu cần phải tìm hiểu để đạt mục tiêu gồm: - Lọc xử lý định dạng khác tài liệu tiếng việt - Tìm kiếm gợi ý tài liệu dựa ngữ nghĩa đánh giá người sử dụng đối tượng có hệ thống - Xây dựng ứng dụng minh hoạ tính thực tiễn hướng nghiên cứu 1.2 Phạm vi phát triển đề tài: Nội dung tài liệu tri thức mà người thu thập đọc tài liệu Làm để máy tính “hiểu” ngữ nghĩa tài liệu? Thực tế, máy tính nhận dạng khuôn mẫu Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu  75 Hướng dẫn khoa học: TS Lê Thanh Hương Tên bảng: Authors Lưu trữ thông tin tác giả có hệ thống # FieldName Au_ID Au_Name Au_Address Au_Phone Au_Email Data Type Int NULL Primar ? NOT NULL Nvarchar(10 NOT 0) NULL Nvarchar(10 NULL 0) Varchar(20) NULL Varchar(100 NULL ) y Key Note Yes No No No No Bảng 3.3_Bảng mô tả thông tin tác giả  Tên bảng: Doc_Au Lưu trữ thông tin liên hệ tác giả tài liệu # FieldName Data Type Au_ID Int Doc_ID Int NULL Primar ? NOT NULL NOT NULL y Key Yes Yes Bảng 3.4_Bảng mô tả mối quan hệ tác giả tài liệu Học viên thực hiện: Nguyễn Thị Khiêm Hòa Note Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu  76 Hướng dẫn khoa học: TS Lê Thanh Hương Tên bảng: Subjects Lưu trữ thông tin chủ đề thuộc danh mục cấp # FieldName Sub_ID Sub_Name SCa_ID Data Type Int NULL Primar ? NOT NULL Nvarchar(10 NOT 0) Int NULL NOT NULL y Key Note Yes No No Bảng 3.5_Bảng mô tả thông tin chủ đề  Tên bảng: SubCategories Lưu trữ thông tin danh mục cấp thuộc danh mục cấp # FieldName SCa_ID Sca_Name Cat_ID Data Type Int NULL Primar ? NOT NULL Nvarchar(10 NOT 0) Int NULL NOT NULL Bảng 3.6_Bảng mô tả thông tin danh mục cấp Học viên thực hiện: Nguyễn Thị Khiêm Hòa y Key Yes No No Note Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu  77 Hướng dẫn khoa học: TS Lê Thanh Hương Tên bảng: Categories Lưu trữ thông tin danh mục cấp # FieldName Cat_ID Cat_Name Data Type Int NULL Primar ? NOT NULL Nvarchar(10 NOT 0) NULL y Key Note Yes No Bảng 3.7_Bảng mô tả thông tin danh mục cấp  Tên bảng: Users Lưu trữ thông tin người dùng có hệ thống # FieldName User_ID UserName Pass Job Email Birthday Học viên thực hiện: Nguyễn Thị Khiêm Hòa Data Type Int NULL Primar ? NOT NULL Nvarchar(50 NOT ) NULL Nvarchar(50 NOT ) NULL Varchar(50) NULL Varchar(100 NULL ) Date/time NULL y Key Yes No No No No No Note Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu User_type 78 Hướng dẫn khoa học: TS Lê Thanh Hương Nvarchar(20 NOT ) NULL Bảng 3.8_Bảng mô tả thông tin người dùng 5.2 Thiết kế giao diện: 20 Sơ đồ Website: 21 Giao diện tìm kiếm tư vấn Hình 3.8_Giao diện bắt đầu tìm kiếm Học viên thực hiện: Nguyễn Thị Khiêm Hòa No Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 79 Hướng dẫn khoa học: TS Lê Thanh Hương Hình 3.9_Giao diện hiển thị kết tìm kiếm Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 22 80 Hướng dẫn khoa học: TS Lê Thanh Hương Giao diện tìm kiếm mở rộng Hình 3.10_ Giao diện hiển thị tài liệu tương đồng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 23 81 Hướng dẫn khoa học: TS Lê Thanh Hương Giao diện quản lý tài liệu Hình 3.11_ Giao diện quản lý tài liệu Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 82 Hướng dẫn khoa học: TS Lê Thanh Hương Cài đặt thử nghiệm Hệ thống phát triển Visual Studio 2005 với công nghệ ASP.net ngôn ngữ lập trình C# Toàn sở liệu hệ thống quản trị hệ quản trị SQL Server 2005 Toàn hệ thống thử nghiệm hoàn thiện Vấn đề hệ thống đưa lời gợi ý để tìm kiếm tài liệu cho đạt hiệu tốt Để làm chức hệ thống phải phân lớp liệu để đưa tài liệu có độ tương đồng cao với tài liệu chọn câu truy vấn Trước hết, tài liệu vào hệ thống hệ thống tự động phân tài liệu vào phân loại (subject) cụ thể dựa tập tài liệu mẫu phân loại trước Thuật toán tìm xác suất lớn tài liệu thuộc phân loại: Max_z =0; Tich = 1; for k = to K //K:số phân loại có hệ thống //Tính P(zk| d, wj) { for j = to M //M: số keyword có tài liệu d { Tính P(zk|d,wj); Huấn luyện EM(P(zk|d,wj)); Tich = Tích × P(zk|d,wj); } Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 83 Hướng dẫn khoa học: TS Lê Thanh Hương Nếu Tich > Max_z { Max_z = Tich; Ghi nhận vị trí k; } } Kết luận: k phân loại tài liệu d Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 84 Hướng dẫn khoa học: TS Lê Thanh Hương Đánh giá: Để hệ thống đáp ứng chức tư vấn tìm kiếm với độ xác cao hệ thống phụ thuộc vào số yếu tố sau: 7.1 Dữ liệu đầu vào: Để phân nhóm tài liệu tốt cần liệu mẫu chuẩn Việc cần can thiệp chuyên gia lĩnh vực Và để tự động hóa việc tiền xử lý tài liệu cần công cụ tách từ loại bỏ stop word rút trích tập từ khóa đặc trưng Trong giới hạn mặt thời gian nên luận văn kế thừa module có sẵn, thực tách từ, loại bỏ stopword dựa từ điển Tuy nhiên thực nghiệm cho thấy việc xây dựng từ điển đòi hỏi chuẩn xác cho lĩnh vực Tuy nhiên số lượng từ từ điển đầy đủ hiệu hệ thống giảm xuống (do không gian tìm kiếm lớn) 7.2 Phân nhóm liệu: Bài toán nghiên cứu thuật toán phân nhóm liệu thuật toán PLSA Độ phức tạp thuật toán là: O(I.K(| V| + |W| + |C|) Trong đó, I số lần lặp huấn luyện thuật toán EM; K số phân loại có hệ thống; V kích thước từ vựng; W số từ khóa có hệ thống C số tài liệu có hệ thống Do số lượng tài liệu có hệ thống tăng độ phức tạp thuật toán lớn Tuy nhiên, để tăng tốc độ hệ thống thực việc huấn luyện liệu offline Khi tài liệu thuộc phân loại việc tìm tài liệu tương đồng vấn đề xử lý cục Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Học viên thực hiện: Nguyễn Thị Khiêm Hòa 85 Hướng dẫn khoa học: TS Lê Thanh Hương Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 86 Hướng dẫn khoa học: TS Lê Thanh Hương Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận: Sự bùng nổ thông tin internet ảnh hưởng lớn đến vấn đề sống Nó mang đến nhiều mối lợi lớn đồng thời thách thức không nhỏ việc khai thác tiềm sẵn có bên Khai thác web dựa ngữ nghĩa hay dựa mối quan tâm người dùng tóm gọn toán phân nhóm liệu để đưa gợi ý phù hợp với nhu cầu người dùng Trong giới hạn thời gian nên luận văn đạt kết sau: 7.3 Về mặt nghiên cứu: Trong thời gian nghiên cứu tìm hiểu số vấn đề liên quan, đạt số kết sau: - Các vấn đề liên quan đến xử lý ngôn ngữ như: tách từ, kỹ thuật lọc tập từ khóa đặc trưng cho nội dung tài liệu - Nắm số kỹ thuật phân tích ngữ nghĩa tài liệu để phân nhóm tài liệu có độ tương đồng cao - Kỹ thuật phân nhóm liệu dựa xác suất phương pháp học máy hướng nghiên cứu có nhiều ứng dụng không phân nhóm tài liệu có độ tương đồng với mà phân nhóm người dùng, phân nhóm sản phẩm … đem lại lợi nhuận cao cho thương mại điện tử phát triển Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 7.4 87 Hướng dẫn khoa học: TS Lê Thanh Hương Về mặt ứng dụng: Do tâm vào việc huấn luyện liệu để có kết thực nghiệm ban đầu, cho nên, ứng dụng cài đặt giao diện chính, tổ chức sở liệu tương đối đơn giản Thực việc cài đặt thuật toán PLSA cho việc phân nhóm tài liệu có nội dung tương đồng vào phân loại tài liệu Hướng phát triển: 8.1 Mở rộng kỹ thuật phân nhóm liệu: Như đề cập phần sở lý thuyết thuật toán PLSA không phân nhóm tài liệu dựa độ tương đồng mặt nội dung, mà áp dụng việc phân nhóm người dùng chọn sản phẩm việc mua bán mạng Ở đề cập đến thuật toán PLSA bản, kỹ thuật phân nhóm liệu có giám sát (supervised) Dựa sở toán học xác suất thống kê, việc huấn luyện liệu để phân nhóm mở rộng kỹ thuật thành học máy bán giám sát (semi-supervised) học không giám sát (unsupervised) Kỹ thuật áp dụng nhiều lĩnh vực khác như: thương mại điện tử, mạng xã hội … 8.2 Kỹ thuật tư vấn dựa thông tin người dùng: Trong thương mại điện tử nhiều cộng đồng xã hội khác internet, thông tin người dùng thu thập trực tiếp gián tiếp Việc xây dựng công cụ để thu thập thông tin để tư vấn xác vấn đề mà người dùng cần mối lợi lớn khai thác web tạo cho người dùng cảm giác thoải mái tham gia mạng internet Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 88 Hướng dẫn khoa học: TS Lê Thanh Hương TÀI LIỆU THAM KHẢO: Tài liệu nghiên cứu PLSA: [1] “Information Retrieval” – Lê Thanh Hương –Slide [2] “An Introduction to Latent Semantic Analysis” –Thomas K Landauer, Peter W.Folts–Principter – 1998 [3] “Matrix Decomposition Methods in Information Retrieval” –Thomas Hofmann – slide – www.cs.brown.edu/people/th- 2000 [4] “Probabilistic Latent Semantic Analysis” –Thomas Hofmann – Uncertainity in AI, UAI’99 Stockholm [5] “Probabilistic Latent Semantic Analysis” –Shuguang Wang [6] “Probabilistic Latent Semantic Analysis” –Thomas Hofmann –Slide27/03/2007 [7] “Latent Semantic Variable Models” –Thomas Hofmann –Slide –Intelligent Systems Group, Technical University of Darmstadt, Germany–2005 [8] Learning the similarity of Documents: An Information – Geometric Approach to Document Retrieval and Categorization –Thomas Hofmann – Department of Computer Science – Brown University, Providence, RI [9] Opinion Integration Through Semi-supervised Topic modeling – Yue Lu & Chengxiang Zhai –Departmentof Computer Science – University of Illinois at Urbana– Champaign [10] CS601R: Advanced NLP-Lecture #28: Probabilistic Latent Semantic Indexing (PLSI) – 2008 Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 89 Hướng dẫn khoa học: TS Lê Thanh Hương [11] “Singular Value Decomposition (SVD) A Fast Track Tutorial” –Dr Edel Garcia – First Publisher – 2006 Tài liệu tìm hiểu hệ thống tư vấn gợi ý RS: [1] “Toward_the_Next_GenerationofRecommender_Systems_state-of-the-art2005” –Gediminas Adomavicius and Alexander Tuzhilin – IEEE – 2005 [2] “Recommander system” – Stefan B Beckers – Duisburg Publisher – 2006 [3] “Web Recommendation Technique based on PLSA – Guandong Xu, Yanchun Zhang, Xiaofang Zhou – Springer Verlag Berlin Heidelberg – 2005 Tài liệu tìm hiểu lọc cộng tác: [1] “A Collaborative Filtering Algorithm and Evaluation Metric” –MatthewR McLaughlin and Jonathan L HerlockerOregon Univer Publisher – 2004 [2] “Experiments in Collaborative Filtering with Aspect Model” – Ben Marlin – University of Toronto [3] “Collaborative Filtering via Gaussian PLSA” – ThomasHofmann – SIGIR 2003 [4] “Towards Content Trust of Web Resources” –YolandaGil and Donovan Artz – Marina Del Rey publisher – 2000 [5] “Customization of a generic search engineby adding user categories” – JayMadkaiker – University of Texas – 2006 Học viên thực hiện: Nguyễn Thị Khiêm Hòa [...]... toán Client Browser Nhập câu tìm kiếm Trang tìm kiếm Trang hiển thị kết quả tìm kiếm Trang chi tiết nội dung tài liệu Danh sách tài liệu Các tài liệu gợi ý theo nội dung và sự quan tâm user Câu tìm kiếm Kết quả tìm kiếm Chọn một tài liệu Kết quả gợi ý Tách câu tìm kiếm thành các từ khoá tìm Cậpkiếm nhật tần suất được chọn của tài liệu Tìm kiếm theo từ khoá Tìm kiếm tài liệu tư ng đồng nội dung và sự quan... tập trung nghiên cứu vấn đề này nên tôi kế thừa các kết quả nghiên cứu đã có cho việc tách từ và rút trích đặc trưng của tài liệu Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 3.2 19 Hướng dẫn khoa học: TS Lê Thanh Hương Kỹ thuật phát triển hệ tư vấn gợi ý (Recommender System) 4 Giới thiệu hệ tư vấn gợi ý (RS – Recommender System) Hệ tư vấn gợi ý là một hệ thống... để có một hệ tư vấn gợi ý tốt hơn có khả năng ứng dụng trong các ứng dụng phức tạp hơn như các dịch vụ tài chính thì các kỹ thuật này cần mở rộng hơn Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 32 Hướng dẫn khoa học: TS Lê Thanh Hương Có thể tóm tắt các kỹ thuật tư vấn gợi ý trong bảng sau: Các cách tiếp cận trong hệ tư vấn gợi ý Kỹ thuật tư vấn gợi ý Heuristic_based... thành phần Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 33 Hướng dẫn khoa học: TS Lê Thanh Hương - Kết hợp kỹ thuật heuristic trong một phương pháp như của phương pháp còn lại - Xây dựng mô hình là một thành phần hợp nhất hai của phương pháp phương pháp còn lại Bảng 2.1_ Các kỹ thuật phát triển hệ tư vấn gợi ý Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 3.3 34... phạm vi thời gian nghiên cứu có hạn nên tôi tập trung nghiên cứu các vấn đề sau: - Phân tích ngữ nghĩa tiềm ẩn của nội dung tài liệu nhằm đánh giá độ tư ng đồng nội dung giữa các tài liệu, đáp ứng nhu cầu tìm kiếm của người dùng nhanh và chính xác Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 15 Hướng dẫn khoa học: TS Lê Thanh Hương - Hệ tư vấn gợi ý (RS_Recommender... hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 13 Hướng dẫn khoa học: TS Lê Thanh Hương Mô hình xử lý tài liệu nhằm khai thác nội dung của tài liệu trong quá trình tìm kiếm Tài liệu Phân tích từ khoá đặc trưng cho nội dung Từ khoá đặc trưng cho nội dung So sánh độ tư ng đồng nội dung Các tài liệu tư ng đồng nội dung Hình 1.2 Mô hình xử lý một tài liệu Khi rút trích được tập... các gợi ý Các hệ tư vấn lọc cộng tác không có các lỗi như hệ tư vấn dựa trên nội dung Đặc biệt, khi hệ thống lọc cộng tác sử dụng các gợi ý của nhiều người dùng giải quyết bất cứ nội dung hay đối tư ng nào, ngay cả những vấn đề không tư ng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 30 Hướng dẫn khoa học: TS Lê Thanh Hương đồng trước đó Tuy nhiên, các hệ lọc... lý ngôn ngữ tiếng Việt tự động trên máy tính Việc gợi ý tìm kiếm trên máy tính bằng tiếng Anh cũng đã có một số ứng dụng đã tồn tại trên mạng hiện nay như tìm kiếm sách trên amazon.com, tìm kiếm phim trên movies.com hay tìm kiếm CDs… Tuy nhiên, hiện nay vẫn chưa có một amazon Việt Nam để giúp cho việc tìm kiếm tài liệu nghiên cứu Vì vậy, việc ứng dụng xử lý tiếng Việt trong xây dựng một hệ tư vấn gợi. .. số tài liệu có thể được gợi ý và n i là số tài liệu có xuất hiện từ khoá k i Gọi TFij là tần số xuất hiện của từ khoá ki trong tài liệu dj Gọi fij là số lần xuất hiện của từ khoá k j trong tài liệu dj Ta có: TFij = fij max f z zj (TFij: tần suất thuật ngữ) với (max)zfzj là số lần xuất hiện của từ khoá k z trong tài liệu dj Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên. . .Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 11 Hướng dẫn khoa học: TS Lê Thanh Hương tài liệu theo một phương pháp nào đó chứ không hiểu ngữ nghĩa thật sự của tài liệu Hiện nay, người ta nghiên cứu và phát triển thế hệ web có ngữ nghĩa Có hai hướng khác nhau trong việc nghiên cứu này: Một là, phát triển một hệ thống web hoàn toànmới với chuẩn siêu dữ liệu RDF (Resource Description

Ngày đăng: 15/08/2016, 16:03

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w