1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng trích rút thông tin trong việc cải thiện chất lượng hệ gợi ý

52 223 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ──────── Nguyễn Công Hoàn ỨNG DỤNG TRÍCH RÚT THÔNG TIN TRONG VIỆC CẢI THIỆN CHẤT LƢỢNG HỆ GỢI Ý Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Lê Thanh Hƣơng HÀ NỘI - 2016 Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT LỜI CAM ĐOAN Tôi – Nguyễn Công Hoàn – cam kết luận văn tốt nghiệp công trình nghiên cứu thân hướng dẫn PGS TS Lê Thanh Hương Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày theo kiến thức tổng hợp cá nhân Kết nghiên cứu luận văn chưa công bố công trình khác Trong trình làm luận văn, có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Các kết nêu luận văn trung thực, chép toàn văn công trình khác Hà Nội, ngày 24 tháng 10 năm 2016 Tác giả Nguyễn Công Hoàn Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Hệ gợi ý, dạng hệ thống lọc thông tin, đưa thông tin phù hợp cho người dùng cách dựa vào liệu hành vi khứ cộng đồng để dự đoán thông tin tương lai mà người dùng quan tâm Hệ gợi ý chứng minh ý nghĩa to lớn là: giúp cho người dùng đối phó với tình trạng tải thông tin Hiện nay, hệ gợi ý trở thành công cụ mạnh mẽ phổ biến nhiều dịch vụ khác nhau, ví dụ: gợi ý công việc, gợi ý báo khoa học, gợi ý dịch vụ số Giống hệ gợi ý nói chung, hệ gợi ý công việc có khả đưa danh sách công việc đáp ứng mong muốn người tìm việc, danh sách ứng viên đáp ứng yêu cầu nhà tuyển dụng cách sử dụng kỹ thuật gợi ý; ví dụ, kỹ thuật gợi ý dựa nội dung kỹ thuật gợi ý lọc cộng tác Trích rút thông tin đề cập đến việc tự động trích rút thông tin có cấu trúc thực thể, quan hệ thực thể, thuộc tính mô tả thực thể từ nguồn liệu cấu trúc Điều cho phép dạng truy vấn phong phú, phức tạp có kết tốt từ nguồn liệu khổng lồ Luận văn tập trung vào việc đề xuất cách cải thiện chất lượng hệ gợi ý công việc, cách áp dụng thêm trích rút thông tin vào phương pháp gợi ý cụ thể Hiện thông tin mô tả công việc, liên quan đến chuyên ngành kinh nghiệm mà công việc yêu cầu mô tả dạng text Các phương pháp gợi ý thông thường chưa lấy thông tin để phục vụ cho việc gợi ý Luận văn hỗ trợ trích rút thông tin để cải thiện chất lượng hệ gợi ý Nội dung luận văn tổ chức thành chương sau:  Chƣơng I: Giới thiệu toán hệ gợi ý cách tiếp cận để giải toán  Chƣơng II: Giới thiệu toán hệ gợi ý công việc phương pháp gợi ý để giải toán gợi ý công việc Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT  Chƣơng III: Trình bày tổng quan trích rút thông tin module nhận dạng thực thể Các phương pháp tiếp cận giải toán nhận dạng thực thể  Chƣơng IV: Mô tả kiến trúc hệ gợi ý công việc áp dụng phương pháp trích rút thông tin kết hợp với phương pháp hồi quy chủ đề cộng tác  Chƣơng V: Kết luận, đánh giá định hướng phát triển Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn vô hạn đến tập thể thầy cô giáo trường Đại Học Bách Khoa Hà Nội, trang bị cho em nhiều kiến thức quý báu, cần thiết cho việc hoàn thành luận văn Các thầy cô gương mẫu mực tác phong làm việc nghiên cứu để em noi theo Em xin gửi lời cảm ơn chân thành tới PGS.TS Lê Thanh Hương ThS Phạm Minh Chuẩn tận tình hướng dẫn em từ ngày đầu nhận đề tài bảo cho em suốt trình làm luận văn Xin gửi lời cảm ơn tới anh-chị-em, lớp 14BCNTT, động viên lúc khó khăn nhiệt tình trao đổi tài liệu, kiến thức chuyên môn kinh nghiệm lúc làm luận văn Cuối c ng, em muốn gửi lời cảm ơn sâu s c đến cha mẹ, gia đình tất bạn bè, người kịp thời động viên giúp đ em vượt qua khó khăn sống Học Viên Nguyễn Công Hoàn Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT MỤC LỤC Bảng từ viết tắt Danh mục hình Danh mục bảng 10 Mở đầu 11 Chƣơng I Bài toán hệ gợi ý cách tiếp cận để giải toán 13 Cơ sở lý thuyết 13 Cách thức hoạt động hệ gợi ý 13 Các phương pháp gợi ý 15 Nhận xét cách tiếp cận 18 Chƣơng II Bài toán hệ gợi ý công việc 20 Phát biểu toán hệ gợi ý công việc 20 Các phương pháp gợi ý áp dụng cho toán gợi ý công việc 24 2.1 Phương pháp phân tích ma trận 24 2.2 Phương pháp phân tích chủ đề ẩn (LDA – Latent Dirichlet Allocation) 25 2.3 Phương pháp kết hợp LDA lọc cộng tác 26 Đề xuất áp dụng phương pháp sử dụng trích rút thông tin vào hệ gợi ý 28 Tổng kết chương 28 Chƣơng III Tổng quan trích rút thông tin hƣớng tiếp cận 30 Tổng quan hệ thống trích rút thông tin 30 Khái niệm nhận dạng thực thể cách tiếp cận 31 2.1 Cách tiếp cận học máy để giải toán nhận dạng thực thể 32 2.2 Cách tiếp cận thủ công 33 2.2.1 Tổng quan GATE 34 2.2.2 Module JAPE GATE 35 Tổng kết chương 36 Chƣơng IV Mô hình hệ thống kết thực nghiệm 38 Mô hình hệ gợi ý công việc có sử dụng module nhận dạng thực thể 38 Module nhận dạng thực thể mô hình kiến trúc 39 2.1 Các liệu có cấu trúc mô tả công việc 39 2.2 Trích rút lĩnh vực chuyên ngành 39 2.3 Trích rút yêu cầu kinh nghiệm 41 2.4 Đánh giá 44 Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT Thử nghiệm hệ thống 45 3.1 Kịch thử nghiệm 45 3.2 Phương pháp đánh giá 45 3.3 Kết thực nghiệm 47 Tổng kết chương 49 Chƣơng V Kết luận định hƣớng phát triển 50 Kết luận 50 Định hướng phát triển 50 Tài liệu tham khảo 51 Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT Bảng từ viết tắt Viết tắt Tiếng Anh Tiếng Việt Recommender System Hệ gợi ý User Người dùng, đối tượng sử dụng hệ gợi ý Item Trong hệ gợi ý, item tương ứng với thông tin đối tượng, cụ thể văn bản, sản phẩm, dịch vụ lưu trữ, thông tin hóa Recommendation Đề xuất, gợi ý – kết đầu hệ thống gợi ý, dạng danh sách items Collaborative Filter Phương pháp dự đoán độ phù hợp sản phẩm với người dùng dựa thông tin từ cộng đồng người dùng Topic Modeling Phương pháp mô hình chủ đề CTR Collaborative Topic Regression Phương pháp hồi quy chủ đề cộng tác, phương pháp kết hợp phương pháp lọc cộng tác mô hình chủ đề IE Information Extraction Trích rút thông tin NER Named Entity Recognition Nhận dạng thực thể CF Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT Danh mục hình Hình 1.1: Hoạt động hệ gợi ý 14 Hình 1.2: Các thành phần hệ gợi ý 15 Hình 1.3: Gợi ý dựa lọc cộng tác 16 Hình 1.4: Gợi ý dựa nội dung 17 Hình 2.1: Thông tin cá nhân người dùng 20 Hình 2.2: Thông tin công việc 20 Hình 2.3: Lịch sử ứng tuyển công việc người dùng 21 Hình 2.4: Mô hình tổng quát hệ gợi ý công việc 22 Hình 2.5: Hai nhiệm vụ hệ gợi ý công việc 23 Hình 2.6: Mô hình đồ thị CTR 27 Hình 3.1: Kiến trúc hệ thống trích rút thông tin 31 Hình 3.2: Quá trình học máy 32 Hình 3.3: Kiến trúc GATE 35 Hình 4.1: Kiến trúc hệ gợi ý cộng việc sử dụng nhận dạng thực thể 38 Hình 4.2: Thông tin công việc 39 Hình 4.3: So sánh CTR CTR + NER trường hợp ma trận 47 Hình 4.4: So sánh CTR CTR + NER trường hợp ma trận 48 Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT Danh mục bảng Bảng 1.1: Các phương pháp gợi ý 18 Bảng 1.2: Đánh giá số phương pháp gợi ý 19 Bảng 4.1: Kết thực nghiệm trường hợp ma trận 47 Bảng 4.2: Kết thực nghiệm trường hợp ma trận 48 Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 10 Chƣơng IV Mô hình hệ thống kết thực nghiệm Mô hình hệ gợi ý công việc có sử dụng module nhận dạng thực thể Khi áp dụng nhận dạng thực thể vào hệ gợi ý, hệ gợi ý công việc có thành phần sau: Hình 4.1: Kiến trúc hệ gợi ý cộng việc sử dụng nhận dạng thực thể Cụ thể chức thành phần sau: - Thông tin công việc thông tin ngƣời dùng: đầu vào hệ gợi ý công việc - Tiền xử lý: Chuẩn hóa lại liệu liên quan đến công việc Cụ thể: xóa thẻ html, chuẩn hóa dòng tr ng - Nhận dạng thực thể: sử dụng JAPE GATE để đưa thực thể mong muốn Cụ thể thông tin: lĩnh vực, chuyên ngành, yêu cầu kinh nghiệm từ nội dung mô tả công việc Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 38 - Hậu xử lý: với mong muốn đánh giá mức độ cải thiện chất lượng hệ gợi ý áp dụng phương pháp nhận dạng thực thể Tôi đề xuất có bước hậu xử lý nhằm tăng độ xác thông tin trích rút ra, tập hợp lại tập từ khóa đặc trưng (tập từ vựng) - Sử dụng phƣơng pháp hồi quy chủ đề cộng tác: Thực phương pháp hồi quy chủ đề cộng tác (CTR) để đưa danh sách gợi ý cho người dùng - Đƣa tập gợi ý: đưa kết danh sách công việc phù hợp với người dùng Module nhận dạng thực thể mô hình kiến trúc 2.1 Các liệu có cấu trúc mô tả công việc Như trình bày phần – Chƣơng II, thông tin công việc mô tả sau: Hình 4.2: Thông tin công việc Theo Hình 4.2, thông tin phạm vi địa lý mô tả liệu có cấu trúc, sử dụng thông tin City, State, Country, ZipCode Khi ứng tuyển công việc, yếu tố thời hạn ứng tuyển yếu tố quan trọng, đặc biệt công việc mang tính thời vụ Người dùng ứng tuyển công việc chưa đến hạn hạn Trong thông tin công việc, thông tin ngày b t đầu đăng tuyển (StartDate) ngày kết thúc đăng tuyển (EndDate) sử dụng để lọc thu gọn phạm vi danh sách công việc đưa cho người dùng 2.2 Trích rút ĩnh vực chuyên ngành Theo quan sát tôi, nhà đăng tuyển đưa thông tin lĩnh vực chuyên ngành trường Title, Description Requirements Tôi thực việc Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 39 trích rút thông tin lĩnh vực chuyên ngành công việc trường Tôi xây dựng thủ công từ điển lĩnh vực công việc (Jobs.lst), tiến hành so khớp với từ có từ điển Ví dụ mẫu lĩnh vực công việ có Title: In-Home Sales Professionals, SALES CONSULTANTS, Electricians, PROJECT MANAGER, Account Development Executive Ví dụ mẫu lĩnh vực có trường mô tả công việc: - If you have experience in healthcare, inside sales, outside sales, customer service, management, insurance sales, or financial services, this sales opportunity may be for you Jobs.lst Administrator Advisor Agriculture Secretary Ambassador Ambassadors Attorney General C.E.O C.F.O CEO CFO Cabinet Member Cabinet Minister Candidate Catholic deacon Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 40 Chairman Of The Board Chairman of The Board Chairman of the Board Chancellor of the Exchequer Chief Engineer Chief Executive Chief Executive Officer Chief Financial Officer Chief Information Officer Chief Inspector Chief Operating Officer Chief Scientist Chief Secretary Commerce Secretary Commissar Commissioner Communist 2.3 Trích rút yêu cầu kinh nghiệm Thông tin yêu cầu kinh nghiệm nhà tuyển dụng đặt phần mô tả công việc (Description), phần yêu cầu (Requirements) Tôi thực trích rút trường để lấy thông tin yêu cầu kinh nghiệm a Một số mẫu trích rút yêu cầu kinh nghiệm ĩnh vực cụ thể: experience + with|in + N Ví dụ: Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 41 - Graduate of an accredited nursing program (LPN or RN) Two+ years of experience in patient care coordination role in home care - experience in implementation management and/or project coordination - Must Requirements: years Maintenance Management experience in a Machining, Injection Molding or Die Casting plant experience + V + with|in + N Ví dụ: - experience working with some technology oriented projects, multiple projects simultaneously, highly detail oriented N[+] + experience Ví dụ: - Additional Knowledge & Skills: SQLserver experience is a plus Disaster Recovery experience - backup recovery, scheduling and configuring SQL backups to disk - 5+ years of outside sales background B2B sales experience Polished and professional demeanor Networking skills - Must have Acme/CNC Manufacturing experience N + V + experience Ví dụ: - 5+ years of outside sales background B2B sales experience Polished and professional demeanor Networking skills N/N + V + experience Ví dụ: Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 42 - Requirements: years telemarketing/inside sales experience in an outbound sales environment experience + V + N Ví dụ: - Computer skills with experience using Microsoft Office products Các ngoại lệ: Khi sử dụng tập luật để dò tìm đối sánh mẫu trên, có số ngoại lệ mà tập luật trích rút mong muốn Ví dụ: - Liệt kê nhiều yêu cầu kinh nghiệm: Must have solid HTML, XHTML, PHP, JavaScript, CSS and Dreamweaver experience and the ability and desire to expand current technical skill-set Chỉ trích rút Dreamweaver experience, kết trích rút mong muốn HTML, XHTML, PHP, JavaScript, CSS and Dreamweaver experience b Mẫu trích rút số năm kinh nghiệm: number[+|plus] + [year|years|month|months] Ví dụ: - 5+ years Telecom construction and installation management - Minimum high school diploma, Bachelor’s degree preferred Minimum experience of years in customer service or leadership position - Requirements: Accounting or Finance degree plus years of analysis experience with an oil Text number[+|plus] + [year|years|month|months] Ví dụ: - Graduate of an accredited nursing program (LPN or RN) Two+ years of experience in patient care coordination role in home care Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 43 - plus one year related experience or equivalent combination Number – number + [year|years|month|months] Ví dụ: Qualifications include: Minimum – years experience in workers - compensation and claims Number to number + [year|years|month|months] Ví dụ: to years of detailed process analysis and/or exposure Number or more + [year|years|month|months] Ví dụ: - Skills and Attributes: or more years experience in corporate office as administrative assistant Các ngoại lệ: Trong trình viết mô tả cho nội dung công việc, nhà tuyển dụng viết t t, sử dụng cách viết không quy tập luật lấy thông tin số năm kinh nghiệm Ví dụ: - Sử dụng cách viết t t: yr experience in automated medical billing system - Sử dụng cách viết không quy: Must have a minimum of five (5) years experience in supervising a network team 2.4 Đánh giá Trong trình thực luận văn, thử nghiệm trích rút số nội dung khác, cụ thể: trích rút đề xuất mức lương nhà tuyển dụng, trích rút thông tin yêu cầu trường đại học mà ứng viên tốt nghiệp Nhưng áp dụng vào hệ thống kết không cao Vì vậy, trình bày chi tiết việc Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 44 trích rút thông tin lĩnh vực chuyên ngành, yêu cầu kinh nghiệm trình bày Thử nghiệm hệ thống 3.1 Kịch thử nghiệm Để đánh giá hệ thống, luận văn sử dụng tập liệu trích rút từ tập liệu mẫu https://www.kaggle.com/c/job-recommendation/data Dữ liệu gồm liệu cá nhân người dùng tập ứng tuyển họ, người dùng có tập công việc ứng tuyển trước đây, công việc thường có thông tin tiêu đề, yêu cầu kĩ năng, mô tả công việc, ngày b t đầu, kết thúc tuyển dụng Dữ liệu mẫu loại bỏ người dùng có tập ứng tuyển 8, tiền xử lý để có tập liệu 4705 người dùng 4207 công việc Mỗi công việc gồm tên, miêu tả công việc, yêu cầu công việc Những từ dừng loại bỏ, sau d ng phương pháp tf-idf để chọn danh sách từ có độ quan trọng cao sử dụng trích rút thông tin để bổ sung thêm vào danh sách này, cuối dùng từ để làm tập từ vựng cho mô hình CTR 3.2 Phƣơng pháp đánh giá Hai số thường d ng để đánh giá hiệu hoạt động hệ thống gợi ý Precision (độ xác) Recall (độ phủ) Xét:  liệu học, gồm t ví dụ học xác định cụ thể đánh giá người d ng sản phẩm  tập liệu kiểm tra  tập liệu kiểm tra   f tập sản phẩm hệ thống gợi ý đưa cho trường hợp người dùng  tập sản phẩm mà người dùng Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT thực ưu tiên 45 Hay: Độ í ả ả ẩ ẩ đ đú đ đú ả ẩ đ Các số đánh giá độ xác (Precision) độ phủ (Recall) cao hệ thống gợi ý xác Như nêu trước, đánh giá không ch c ch n Nó nói lên người dùng không thích công việc công việc Điều gây khó khăn cho việc tính toán độ xác (P) danh sách xếp hạng dự đoán Trong tài liệu “Collaborative Topic Modeling for Recommending Scientific Articles” [18] tác giả Chong Wang David M Blei, có nhận định tương tự khó khăn gặp phải tính toán độ xác (P) Do đó, luận văn này, tập trung đánh giá hệ thống gợi ý công việc đánh giá theo độ phủ (R) Với người d ng, định nghĩa độ phủ recall@M Độ phủ cho toàn hệ thống tính độ phủ trung bình từ tất người dùng Độ phủ xác định theo kiểu hướng người dùng Chúng ta xem xét độ phủ theo kiểu hướng công việc để kiểm tra hiệu dự đoán hệ thống công việc cụ thể Đối với công việc j, xem xét nhóm người dùng thích công việc tỷ lệ chủ đề công việc người dùng mà có công việc xuất top M công việc gợi ý Cách đánh giá sức dự đoán hệ thống tập công việc lựa chọn Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 46 3.3 Kết thực nghiệm Như trình bày phần 1, mô hình kiến trúc hệ gợi ý công việc có sử dụng module nhận dạng thực thể, kết module nhận dạng thực thể đóng vai trò bổ sung đầu vào cho phương pháp hồi quy chủ đề cộng tác (CTR) Cụ thể sau nhận dạng thực thể module JAPE công cụ GATE, thực hậu xử lý tay để có tập từ vựng cho phương pháp CTR Để đánh giá hiệu việc áp dụng trích rút thông tin toán gợi ý công việc, tiến hành thực nghiệm phương pháp hồi quy chủ đề cộng tác (CTR) với tập từ vựng thông thường (tập từ vựng xử lý loại bỏ từ dừng), phương pháp hồi quy chủ đề cộng tác có áp dụng nhận dạng thực thể (CTR + NER) tập từ vựng bổ sung thêm qua module nhận dạng thực thể, liệu chuẩn bị Và kết hai phương pháp thử nghiệm liệu Bảng 4.1: Kết thực nghiệm trƣờng hợp ma trận Recall@M 50 100 150 200 CTR 42% 58% 62% 65% CTR + NER 50% 60% 65% 70% Hình 4.3: So sánh CTR CTR + NER trƣờng hợp ma trận Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 47 Bảng 4.2: Kết thực nghiệm trƣờng hợp ma trận Recall@M 50 100 150 200 CTR 18% 28% 33% 39% CTR + NER 25% 33% 39% 48% Hình 4.4: So sánh CTR CTR + NER trƣờng hợp ma trận Đánh giá: Về mặt tổng quan, phương pháp hồi quy chủ đề cộng tác (CTR) sử dụng module nhận dạng thực thể (CTR + NER), có hiệu tốt phương pháp hồi quy chủ đề cộng tác thông thường Điều cho thấy, thông tin liên quan trực tiếp đến nội dung công việc mà trình bày dạng text, đặc biệt thông tin kinh nghiệm, chuyên ngành, lĩnh vực có ý nghĩa quan trọng định chọn công việc người dùng Tuy nhiên hiệu hệ gợi ý sử dụng phương pháp nhận dạng thực thể phụ thuộc nhiều vào chất lượng thông tin mà module nhận dạng thực thể đưa Trong luận văn này, bước hậu xử lý giải tạm thời vấn đề này, nhiên triển khai thực tế, bước hậu xử lý thực tốn Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 48 Tổng kết chƣơng Chương này, trình bày mô hình hệ gợi ý công việc áp dụng phương pháp nhận dạng thực thể Bên cạnh đó, thực nghiệm hệ gợi ý sử dụng phương pháp hồi quy chủ đề cộng tác so sánh hệ thống sau áp dụng thêm module nhận dạng thực thể Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 49 Chƣơng V Kết luận định hƣớng phát triển Kết luận Luận văn thực vấn đề sau:  Hệ thống hóa vấn đề lý thuyết hệ gợi ý Trình bày, phân tích, đánh giá số hướng tiếp cận để giải toán hệ gợi ý  Với toán hệ gợi ý công việc, luận văn hệ thống trình bày phương pháp tiếp cận để giải toán, cụ thể: phương pháp phân tích ma trận, phương pháp phân tích chủ đề ẩn – LDA, phương pháp LDA kết hợp lọc cộng tác (CTR)  Hệ thống hóa số vấn đề lý thuyết trích rút thông tin Trình bày, phân tích, đánh giá số hướng tiếp cận để giải module nhận dạng thực thể  Đề xuất cách áp dụng phương pháp nhận dạng thực thể kết hợp với phwog pháp hồi quy chủ đề cộng tác (CTR), nhằm nâng cao chất lượng hệ gợi công việc  Các thử nghiệm đánh giá cho thấy hệ thống luận văn đề xuất cho hiệu tốt tập liệu hệ thống, từ hứa hẹn triển khai ứng dụng thực tế Định hƣớng phát triển Trong tương lai, hướng phát triển hệ thống bao gồm:  Thực thử nghiệm hệ thống tập liệu lớn hơn, phong phú để có nhìn xác hệ thống  Áp dụng hoàn toàn việc trích rút thông tin không cần tiền xử lý tay  Triển khai hệ thống ứng dụng thực tế cụ thể để đánh giá khả ứng dụng thực tiễn hệ thống  Triển khai hệ thống với liệu tiếng Việt Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 50 Tài liệu tham khảo [1] ACE 2004 Annotation Guidelines for Entity Detection and Tracking [2] Chinchor, N A Overview of MUC-7/MET-2 [3] Le Thanh Huong, Tran Duc Khanh Artificial Intelligence [4] Le Thanh Huong Information Extraction [5] Nguyen Nhat Quang Knowledge Engineering [6] Pham Minh Chuan, Le Thanh Huong, Tran Dinh Khang, Cao Xuan Bach, Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); 2014 [7] Zhou GuoDong, lI JunHui, QIAN LongHua, ZHU, Qiaoming Semi- Supervised Learning for Relation Extraction, pages 3-5 [8] Culotta, A & Sorensen, J (2004) “Dependency tree kernels for relation extraction,” in Proceedings of the 42nd Meeting of the Association for Computational Linguistics (ACL’04), Main Volume, pp 423–429, Barcelona, Spain, July 2004 [9] LIU Yi, ZHENG Y F One-against-all multi-Class SVM classification using reliability measures.Proceedings of the 2005 International Joint Conference on Neural Networks Montreal, Canada, 2005 [10] JasonWeston, Support Vector Mchine Tutorial Slides [11] D Blei, A Ng, and M Jordan Latent Dirichlet allocation Journal of Machine Learning Research, 3:993–1022, January 2003 [12] Chong Wang, David M Blei, “Collaborative Topic Modeling for Recommending Scientific Articles”, Computer Science Department, Princeton University,Princeton, NJ, 08540 , USA [13] David Blei and John Lafferty Text Mining: Classification, Clustering, and Applications Srivastava, A and Sahami, M., Eds, Taylor & Francis, London, England, 2009 [14] Andriy Mnih, Ruslan Salakhutdinov, “Probabilistic matrix factorization”, Department of Computer Science, University of Toronto, King’s College Rd, M5S 3G4, Canada Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 51 [15] Bracha Shapira, Francesco Ricci, Lior Rokach, Paul B.Kantor , “Recommender Systems Handbook”, Springer, 13 Dec 2010 [16] Emmanouil Vozalis, Konstatinos G.Margaritis, “Analysis of Recommender System Algorithms” [17] Learning Representations of Text using Neural Networks Tom ´ a ˇ s Mikolov Joint work with Ilya Sutskever, Kai Chen, Greg Corrado, Jeff Dean, Quoc Le, Thomas Strohmann In Google Research NIPS Deep Learning Workshop 2013 [18] Wang And M Blei, ―Collaborative Topic Modeling for Recommending Scientific Articles‖, InProceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '11, pp 448-456 ACM, 2011 [19] Developing Language Processing Components with GATE Version (a User Guide) Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 52 ... trích rút thông tin để cải thiện chất lượng hệ gợi ý Trong chương này, sâu trình bày trích rút thông tin, module nhận dạng thực thể cách áp dụng vào hệ gợi ý công việc Tổng quan hệ thống trích rút. .. sử dụng thêm phương pháp trích rút thông tin, cụ thể module nhận dạng thực thể hệ thống trích rút thông tin Những thông tin trích rút bổ sung vào tập từ vựng đầu cho hệ gợi ý, nhằm cải thiện chất. .. mà công việc yêu cầu mô tả dạng text Các phương pháp gợi ý thông thường chưa lấy thông tin để phục vụ cho việc gợi ý Luận văn hỗ trợ trích rút thông tin để cải thiện chất lượng hệ gợi ý Nội dung

Ngày đăng: 25/07/2017, 21:56

Xem thêm: Ứng dụng trích rút thông tin trong việc cải thiện chất lượng hệ gợi ý

Mục lục

    Chương I. Bài toán hệ gợi ý và các cách tiếp cận để giải quyết bài toán

    Chương II. Bài toán hệ gợi ý công việc

    Chương III. Tổng quan về trích rút thông tin và các hƣớng tiếp cận

    Chương IV. Mô hình hệ thống và kết quả thực nghiệm

    Chương V. Kết luận và định hướng phát triển

    Tài liệu tham khảo

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w