Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
1,5 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ──────── Nguyễn Cơng Hồn ỨNG DỤNG TRÍCH RÚT THƠNG TIN TRONG VIỆC CẢI THIỆN CHẤT LƢỢNG HỆ GỢI Ý Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Lê Thanh Hƣơng HÀ NỘI - 2016 Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT LỜI CAM ĐOAN Tơi – Nguyễn Cơng Hồn – cam kết luận văn tốt nghiệp cơng trình nghiên cứu thân hướng dẫn PGS TS Lê Thanh Hương Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo kiến thức tổng hợp cá nhân Kết nghiên cứu luận văn chưa công bố cơng trình khác Trong q trình làm luận văn, tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Các kết nêu luận văn trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 24 tháng 10 năm 2016 Tác giả Nguyễn Cơng Hồn Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP Hệ gợi ý, dạng hệ thống lọc thông tin, đưa thơng tin phù hợp cho người dùng cách dựa vào liệu hành vi khứ cộng đồng để dự đốn thơng tin tương lai mà người dùng quan tâm Hệ gợi ý chứng minh ý nghĩa to lớn là: giúp cho người dùng đối phó với tình trạng q tải thơng tin Hiện nay, hệ gợi ý trở thành công cụ mạnh mẽ phổ biến nhiều dịch vụ khác nhau, ví dụ: gợi ý cơng việc, gợi ý báo khoa học, gợi ý dịch vụ số Giống hệ gợi ý nói chung, hệ gợi ý cơng việc có khả đưa danh sách công việc đáp ứng mong muốn người tìm việc, danh sách ứng viên đáp ứng yêu cầu nhà tuyển dụng cách sử dụng kỹ thuật gợi ý; ví dụ, kỹ thuật gợi ý dựa nội dung kỹ thuật gợi ý lọc cộng tác Trích rút thơng tin đề cập đến việc tự động trích rút thơng tin có cấu trúc thực thể, quan hệ thực thể, thuộc tính mô tả thực thể từ nguồn liệu khơng có cấu trúc Điều cho phép dạng truy vấn phong phú, phức tạp có kết tốt từ nguồn liệu khổng lồ Luận văn tập trung vào việc đề xuất cách cải thiện chất lượng hệ gợi ý cơng việc, cách áp dụng thêm trích rút thông tin vào phương pháp gợi ý cụ thể Hiện thông tin mô tả công việc, liên quan đến chuyên ngành kinh nghiệm mà công việc yêu cầu mô tả dạng text Các phương pháp gợi ý thông thường chưa lấy thông tin để phục vụ cho việc gợi ý Luận văn hỗ trợ trích rút thơng tin để cải thiện chất lượng hệ gợi ý Nội dung luận văn tổ chức thành chương sau: Chƣơng I: Giới thiệu toán hệ gợi ý cách tiếp cận để giải toán Chƣơng II: Giới thiệu tốn hệ gợi ý cơng việc phương pháp gợi ý để giải toán gợi ý cơng việc Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT Chƣơng III: Trình bày tổng quan trích rút thơng tin module nhận dạng thực thể Các phương pháp tiếp cận giải tốn nhận dạng thực thể Chƣơng IV: Mơ tả kiến trúc hệ gợi ý công việc áp dụng phương pháp trích rút thơng tin kết hợp với phương pháp hồi quy chủ đề cộng tác Chƣơng V: Kết luận, đánh giá định hướng phát triển Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn vô hạn đến tập thể thầy cô giáo trường Đại Học Bách Khoa Hà Nội, trang bị cho em nhiều kiến thức quý báu, cần thiết cho việc hoàn thành luận văn Các thầy cô gương mẫu mực tác phong làm việc nghiên cứu để em noi theo Em xin gửi lời cảm ơn chân thành tới PGS.TS Lê Thanh Hương ThS Phạm Minh Chuẩn tận tình hướng dẫn em từ ngày đầu nhận đề tài bảo cho em suốt trình làm luận văn Xin gửi lời cảm ơn tới anh-chị-em, lớp 14BCNTT, động viên lúc khó khăn ln nhiệt tình trao đổi tài liệu, kiến thức chuyên môn kinh nghiệm lúc làm luận văn Cuối c ng, em muốn gửi lời cảm ơn sâu s c đến cha mẹ, gia đình tất bạn bè, người kịp thời động viên giúp đ em vượt qua khó khăn sống Học Viên Nguyễn Cơng Hồn Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT MỤC LỤC Bảng từ viết tắt Danh mục hình Danh mục bảng 10 Mở đầu 11 Chƣơng I Bài toán hệ gợi ý cách tiếp cận để giải toán 13 Cơ sở lý thuyết 13 Cách thức hoạt động hệ gợi ý 13 Các phương pháp gợi ý 15 Nhận xét cách tiếp cận 18 Chƣơng II Bài toán hệ gợi ý công việc 20 Phát biểu toán hệ gợi ý công việc 20 Các phương pháp gợi ý áp dụng cho tốn gợi ý cơng việc 24 2.1 Phương pháp phân tích ma trận 24 2.2 Phương pháp phân tích chủ đề ẩn (LDA – Latent Dirichlet Allocation) 25 2.3 Phương pháp kết hợp LDA lọc cộng tác 26 Đề xuất áp dụng phương pháp sử dụng trích rút thơng tin vào hệ gợi ý 28 Tổng kết chương 28 Chƣơng III Tổng quan trích rút thông tin hƣớng tiếp cận 30 Tổng quan hệ thống trích rút thơng tin 30 Khái niệm nhận dạng thực thể cách tiếp cận 31 2.1 Cách tiếp cận học máy để giải toán nhận dạng thực thể 32 2.2 Cách tiếp cận thủ công 33 2.2.1 Tổng quan GATE 34 2.2.2 Module JAPE GATE 35 Tổng kết chương 36 Chƣơng IV Mơ hình hệ thống kết thực nghiệm 38 Mơ hình hệ gợi ý cơng việc có sử dụng module nhận dạng thực thể 38 Module nhận dạng thực thể mô hình kiến trúc 39 2.1 Các liệu có cấu trúc mơ tả công việc 39 2.2 Trích rút lĩnh vực chuyên ngành 39 2.3 Trích rút yêu cầu kinh nghiệm 41 2.4 Đánh giá 44 Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT Thử nghiệm hệ thống 45 3.1 Kịch thử nghiệm 45 3.2 Phương pháp đánh giá 45 3.3 Kết thực nghiệm 47 Tổng kết chương 49 Chƣơng V Kết luận định hƣớng phát triển 50 Kết luận 50 Định hướng phát triển 50 Tài liệu tham khảo 51 Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT Bảng từ viết tắt Viết tắt Tiếng Anh Tiếng Việt Recommender System Hệ gợi ý User Người dùng, đối tượng sử dụng hệ gợi ý Item Trong hệ gợi ý, item tương ứng với thông tin đối tượng, cụ thể văn bản, sản phẩm, dịch vụ lưu trữ, thông tin hóa Recommendation Đề xuất, gợi ý – kết đầu hệ thống gợi ý, dạng danh sách items Collaborative Filter Phương pháp dự đoán độ phù hợp sản phẩm với người dùng dựa thông tin từ cộng đồng người dùng Topic Modeling Phương pháp mơ hình chủ đề CTR Collaborative Topic Regression Phương pháp hồi quy chủ đề cộng tác, phương pháp kết hợp phương pháp lọc cộng tác mô hình chủ đề IE Information Extraction Trích rút thơng tin NER Named Entity Recognition Nhận dạng thực thể CF Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT Danh mục hình Hình 1.1: Hoạt động hệ gợi ý 14 Hình 1.2: Các thành phần hệ gợi ý 15 Hình 1.3: Gợi ý dựa lọc cộng tác 16 Hình 1.4: Gợi ý dựa nội dung 17 Hình 2.1: Thơng tin cá nhân người dùng 20 Hình 2.2: Thơng tin cơng việc 20 Hình 2.3: Lịch sử ứng tuyển cơng việc người dùng 21 Hình 2.4: Mơ hình tổng qt hệ gợi ý công việc 22 Hình 2.5: Hai nhiệm vụ hệ gợi ý công việc 23 Hình 2.6: Mơ hình đồ thị CTR 27 Hình 3.1: Kiến trúc hệ thống trích rút thơng tin 31 Hình 3.2: Quá trình học máy 32 Hình 3.3: Kiến trúc GATE 35 Hình 4.1: Kiến trúc hệ gợi ý cộng việc sử dụng nhận dạng thực thể 38 Hình 4.2: Thông tin công việc 39 Hình 4.3: So sánh CTR CTR + NER trường hợp ma trận 47 Hình 4.4: So sánh CTR CTR + NER trường hợp ma trận 48 Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT Danh mục bảng Bảng 1.1: Các phương pháp gợi ý 18 Bảng 1.2: Đánh giá số phương pháp gợi ý 19 Bảng 4.1: Kết thực nghiệm trường hợp ma trận 47 Bảng 4.2: Kết thực nghiệm trường hợp ma trận 48 Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 10 Chƣơng IV Mơ hình hệ thống kết thực nghiệm Mơ hình hệ gợi ý cơng việc có sử dụng module nhận dạng thực thể Khi áp dụng nhận dạng thực thể vào hệ gợi ý, hệ gợi ý cơng việc có thành phần sau: Hình 4.1: Kiến trúc hệ gợi ý cộng việc sử dụng nhận dạng thực thể Cụ thể chức thành phần sau: - Thông tin công việc thông tin ngƣời dùng: đầu vào hệ gợi ý cơng việc - Tiền xử lý: Chuẩn hóa lại liệu liên quan đến cơng việc Cụ thể: xóa thẻ html, chuẩn hóa dịng tr ng - Nhận dạng thực thể: sử dụng JAPE GATE để đưa thực thể mong muốn Cụ thể thông tin: lĩnh vực, chuyên ngành, yêu cầu kinh nghiệm từ nội dung mô tả công việc Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 38 - Hậu xử lý: với mong muốn đánh giá mức độ cải thiện chất lượng hệ gợi ý áp dụng phương pháp nhận dạng thực thể Tôi đề xuất có bước hậu xử lý nhằm tăng độ xác thơng tin trích rút ra, tập hợp lại tập từ khóa đặc trưng (tập từ vựng) - Sử dụng phƣơng pháp hồi quy chủ đề cộng tác: Thực phương pháp hồi quy chủ đề cộng tác (CTR) để đưa danh sách gợi ý cho người dùng - Đƣa tập gợi ý: đưa kết danh sách công việc phù hợp với người dùng Module nhận dạng thực thể mô hình kiến trúc 2.1 Các liệu có cấu trúc mơ tả cơng việc Như trình bày phần – Chƣơng II, thông tin cơng việc mơ tả sau: Hình 4.2: Thơng tin cơng việc Theo Hình 4.2, thơng tin phạm vi địa lý mô tả liệu có cấu trúc, sử dụng thông tin City, State, Country, ZipCode Khi ứng tuyển công việc, yếu tố thời hạn ứng tuyển yếu tố quan trọng, đặc biệt cơng việc mang tính thời vụ Người dùng ứng tuyển công việc chưa đến hạn hạn Trong thông tin công việc, thông tin ngày b t đầu đăng tuyển (StartDate) ngày kết thúc đăng tuyển (EndDate) sử dụng để lọc thu gọn phạm vi danh sách công việc đưa cho người dùng 2.2 Trích rút ĩnh vực chuyên ngành Theo quan sát tôi, nhà đăng tuyển đưa thơng tin lĩnh vực chuyên ngành trường Title, Description Requirements Tôi thực việc Học viên thực hiện: Nguyễn Công Hồn – CB140095, Lớp 14BCNTT 39 trích rút thơng tin lĩnh vực chuyên ngành công việc trường Tôi xây dựng thủ công từ điển lĩnh vực công việc (Jobs.lst), tiến hành so khớp với từ có từ điển Ví dụ mẫu lĩnh vực cơng việ có Title: In-Home Sales Professionals, SALES CONSULTANTS, Electricians, PROJECT MANAGER, Account Development Executive Ví dụ mẫu lĩnh vực có trường mô tả công việc: - If you have experience in healthcare, inside sales, outside sales, customer service, management, insurance sales, or financial services, this sales opportunity may be for you Jobs.lst Administrator Advisor Agriculture Secretary Ambassador Ambassadors Attorney General C.E.O C.F.O CEO CFO Cabinet Member Cabinet Minister Candidate Catholic deacon Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 40 Chairman Of The Board Chairman of The Board Chairman of the Board Chancellor of the Exchequer Chief Engineer Chief Executive Chief Executive Officer Chief Financial Officer Chief Information Officer Chief Inspector Chief Operating Officer Chief Scientist Chief Secretary Commerce Secretary Commissar Commissioner Communist 2.3 Trích rút yêu cầu kinh nghiệm Thông tin yêu cầu kinh nghiệm nhà tuyển dụng đặt phần mô tả công việc (Description), phần yêu cầu (Requirements) Tôi thực trích rút trường để lấy thông tin yêu cầu kinh nghiệm a Một số mẫu trích rút yêu cầu kinh nghiệm ĩnh vực cụ thể: experience + with|in + N Ví dụ: Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 41 - Graduate of an accredited nursing program (LPN or RN) Two+ years of experience in patient care coordination role in home care - experience in implementation management and/or project coordination - Must Requirements: years Maintenance Management experience in a Machining, Injection Molding or Die Casting plant experience + V + with|in + N Ví dụ: - experience working with some technology oriented projects, multiple projects simultaneously, highly detail oriented N[+] + experience Ví dụ: - Additional Knowledge & Skills: SQLserver experience is a plus Disaster Recovery experience - backup recovery, scheduling and configuring SQL backups to disk - 5+ years of outside sales background B2B sales experience Polished and professional demeanor Networking skills - Must have Acme/CNC Manufacturing experience N + V + experience Ví dụ: - 5+ years of outside sales background B2B sales experience Polished and professional demeanor Networking skills N/N + V + experience Ví dụ: Học viên thực hiện: Nguyễn Cơng Hoàn – CB140095, Lớp 14BCNTT 42 - Requirements: years telemarketing/inside sales experience in an outbound sales environment experience + V + N Ví dụ: - Computer skills with experience using Microsoft Office products Các ngoại lệ: Khi sử dụng tập luật để dị tìm đối sánh mẫu trên, có số ngoại lệ mà tập luật khơng thể trích rút mong muốn Ví dụ: - Liệt kê nhiều yêu cầu kinh nghiệm: Must have solid HTML, XHTML, PHP, JavaScript, CSS and Dreamweaver experience and the ability and desire to expand current technical skill-set Chỉ trích rút Dreamweaver experience, kết trích rút mong muốn HTML, XHTML, PHP, JavaScript, CSS and Dreamweaver experience b Mẫu trích rút số năm kinh nghiệm: number[+|plus] + [year|years|month|months] Ví dụ: - 5+ years Telecom construction and installation management - Minimum high school diploma, Bachelor’s degree preferred Minimum experience of years in customer service or leadership position - Requirements: Accounting or Finance degree plus years of analysis experience with an oil Text number[+|plus] + [year|years|month|months] Ví dụ: - Graduate of an accredited nursing program (LPN or RN) Two+ years of experience in patient care coordination role in home care Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 43 - plus one year related experience or equivalent combination Number – number + [year|years|month|months] Ví dụ: Qualifications include: Minimum – years experience in workers - compensation and claims Number to number + [year|years|month|months] Ví dụ: to years of detailed process analysis and/or exposure Number or more + [year|years|month|months] Ví dụ: - Skills and Attributes: or more years experience in corporate office as administrative assistant Các ngoại lệ: Trong trình viết mơ tả cho nội dung cơng việc, nhà tuyển dụng viết t t, sử dụng cách viết khơng quy tập luật khơng thể lấy thơng tin số năm kinh nghiệm Ví dụ: - Sử dụng cách viết t t: yr experience in automated medical billing system - Sử dụng cách viết khơng quy: Must have a minimum of five (5) years experience in supervising a network team 2.4 Đánh giá Trong q trình thực luận văn, tơi thử nghiệm trích rút số nội dung khác, cụ thể: trích rút đề xuất mức lương nhà tuyển dụng, trích rút thơng tin u cầu trường đại học mà ứng viên tốt nghiệp Nhưng áp dụng vào hệ thống kết khơng cao Vì vậy, tơi trình bày chi tiết việc Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 44 trích rút thơng tin lĩnh vực chuyên ngành, yêu cầu kinh nghiệm trình bày Thử nghiệm hệ thống 3.1 Kịch thử nghiệm Để đánh giá hệ thống, luận văn sử dụng tập liệu trích rút từ tập liệu mẫu https://www.kaggle.com/c/job-recommendation/data Dữ liệu gồm liệu cá nhân người dùng tập ứng tuyển họ, người dùng có tập cơng việc ứng tuyển trước đây, công việc thường có thơng tin tiêu đề, u cầu kĩ năng, mô tả công việc, ngày b t đầu, kết thúc tuyển dụng Dữ liệu mẫu loại bỏ người dùng có tập ứng tuyển 8, tiền xử lý để có tập liệu 4705 người dùng 4207 công việc Mỗi công việc gồm tên, miêu tả công việc, yêu cầu công việc Những từ dừng loại bỏ, sau d ng phương pháp tf-idf để chọn danh sách từ có độ quan trọng cao sử dụng trích rút thơng tin để bổ sung thêm vào danh sách này, cuối dùng từ để làm tập từ vựng cho mơ hình CTR 3.2 Phƣơng pháp đánh giá Hai số thường d ng để đánh giá hiệu hoạt động hệ thống gợi ý Precision (độ xác) Recall (độ phủ) Xét: liệu học, gồm t ví dụ học xác định cụ thể đánh giá người d ng sản phẩm tập liệu kiểm tra tập liệu kiểm tra f tập sản phẩm hệ thống gợi ý đưa cho trường hợp người dùng tập sản phẩm mà người dùng Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT thực ưu tiên 45 Hay: Độ í ả ả ẩ ẩ đ đú đ đú ả ẩ đ Các số đánh giá độ xác (Precision) độ phủ (Recall) cao hệ thống gợi ý xác Như nêu trước, đánh giá không ch c ch n Nó nói lên người dùng khơng thích cơng việc khơng biết cơng việc Điều gây khó khăn cho việc tính tốn độ xác (P) danh sách xếp hạng dự đoán Trong tài liệu “Collaborative Topic Modeling for Recommending Scientific Articles” [18] tác giả Chong Wang David M Blei, có nhận định tương tự khó khăn gặp phải tính tốn độ xác (P) Do đó, luận văn này, tơi tập trung đánh giá hệ thống gợi ý công việc đánh giá theo độ phủ (R) Với người d ng, định nghĩa độ phủ recall@M Độ phủ cho tồn hệ thống tính độ phủ trung bình từ tất người dùng Độ phủ xác định theo kiểu hướng người dùng Chúng ta xem xét độ phủ theo kiểu hướng cơng việc để kiểm tra hiệu dự đốn hệ thống công việc cụ thể Đối với cơng việc j, xem xét nhóm người dùng thích cơng việc tỷ lệ chủ đề cơng việc người dùng mà có cơng việc xuất top M cơng việc gợi ý Cách đánh giá sức dự đoán hệ thống tập công việc lựa chọn Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 46 3.3 Kết thực nghiệm Như trình bày phần 1, mơ hình kiến trúc hệ gợi ý cơng việc có sử dụng module nhận dạng thực thể, kết module nhận dạng thực thể đóng vai trị bổ sung đầu vào cho phương pháp hồi quy chủ đề cộng tác (CTR) Cụ thể sau nhận dạng thực thể module JAPE công cụ GATE, thực hậu xử lý tay để có tập từ vựng cho phương pháp CTR Để đánh giá hiệu việc áp dụng trích rút thơng tin tốn gợi ý công việc, tiến hành thực nghiệm phương pháp hồi quy chủ đề cộng tác (CTR) với tập từ vựng thông thường (tập từ vựng xử lý loại bỏ từ dừng), phương pháp hồi quy chủ đề cộng tác có áp dụng nhận dạng thực thể (CTR + NER) tập từ vựng bổ sung thêm qua module nhận dạng thực thể, liệu chuẩn bị Và kết hai phương pháp thử nghiệm liệu Bảng 4.1: Kết thực nghiệm trƣờng hợp ma trận Recall@M 50 100 150 200 CTR 42% 58% 62% 65% CTR + NER 50% 60% 65% 70% Hình 4.3: So sánh CTR CTR + NER trƣờng hợp ma trận Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 47 Bảng 4.2: Kết thực nghiệm trƣờng hợp ma trận Recall@M 50 100 150 200 CTR 18% 28% 33% 39% CTR + NER 25% 33% 39% 48% Hình 4.4: So sánh CTR CTR + NER trƣờng hợp ma trận Đánh giá: Về mặt tổng quan, phương pháp hồi quy chủ đề cộng tác (CTR) sử dụng module nhận dạng thực thể (CTR + NER), có hiệu tốt phương pháp hồi quy chủ đề cộng tác thông thường Điều cho thấy, thông tin liên quan trực tiếp đến nội dung cơng việc mà trình bày dạng text, đặc biệt thông tin kinh nghiệm, chuyên ngành, lĩnh vực có ý nghĩa quan trọng định chọn công việc người dùng Tuy nhiên hiệu hệ gợi ý sử dụng phương pháp nhận dạng thực thể phụ thuộc nhiều vào chất lượng thông tin mà module nhận dạng thực thể đưa Trong luận văn này, bước hậu xử lý giải tạm thời vấn đề này, nhiên triển khai thực tế, bước hậu xử lý thực tốn Học viên thực hiện: Nguyễn Công Hoàn – CB140095, Lớp 14BCNTT 48 Tổng kết chƣơng Chương này, tơi trình bày mơ hình hệ gợi ý công việc áp dụng phương pháp nhận dạng thực thể Bên cạnh đó, thực nghiệm hệ gợi ý sử dụng phương pháp hồi quy chủ đề cộng tác so sánh hệ thống sau áp dụng thêm module nhận dạng thực thể Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 49 Chƣơng V Kết luận định hƣớng phát triển Kết luận Luận văn thực vấn đề sau: Hệ thống hóa vấn đề lý thuyết hệ gợi ý Trình bày, phân tích, đánh giá số hướng tiếp cận để giải toán hệ gợi ý Với toán hệ gợi ý công việc, luận văn hệ thống trình bày phương pháp tiếp cận để giải tốn, cụ thể: phương pháp phân tích ma trận, phương pháp phân tích chủ đề ẩn – LDA, phương pháp LDA kết hợp lọc cộng tác (CTR) Hệ thống hóa số vấn đề lý thuyết trích rút thơng tin Trình bày, phân tích, đánh giá số hướng tiếp cận để giải module nhận dạng thực thể Đề xuất cách áp dụng phương pháp nhận dạng thực thể kết hợp với phwog pháp hồi quy chủ đề cộng tác (CTR), nhằm nâng cao chất lượng hệ gợi công việc Các thử nghiệm đánh giá cho thấy hệ thống luận văn đề xuất cho hiệu tốt tập liệu hệ thống, từ hứa hẹn triển khai ứng dụng thực tế Định hƣớng phát triển Trong tương lai, hướng phát triển hệ thống bao gồm: Thực thử nghiệm hệ thống tập liệu lớn hơn, phong phú để có nhìn xác hệ thống Áp dụng hồn tồn việc trích rút thơng tin khơng cần tiền xử lý tay Triển khai hệ thống ứng dụng thực tế cụ thể để đánh giá khả ứng dụng thực tiễn hệ thống Triển khai hệ thống với liệu tiếng Việt Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 50 Tài liệu tham khảo [1] ACE 2004 Annotation Guidelines for Entity Detection and Tracking [2] Chinchor, N A Overview of MUC-7/MET-2 [3] Le Thanh Huong, Tran Duc Khanh Artificial Intelligence [4] Le Thanh Huong Information Extraction [5] Nguyen Nhat Quang Knowledge Engineering [6] Pham Minh Chuan, Le Thanh Huong, Tran Dinh Khang, Cao Xuan Bach, Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); 2014 [7] Zhou GuoDong, lI JunHui, QIAN LongHua, ZHU, Qiaoming Semi- Supervised Learning for Relation Extraction, pages 3-5 [8] Culotta, A & Sorensen, J (2004) “Dependency tree kernels for relation extraction,” in Proceedings of the 42nd Meeting of the Association for Computational Linguistics (ACL’04), Main Volume, pp 423–429, Barcelona, Spain, July 2004 [9] LIU Yi, ZHENG Y F One-against-all multi-Class SVM classification using reliability measures.Proceedings of the 2005 International Joint Conference on Neural Networks Montreal, Canada, 2005 [10] JasonWeston, Support Vector Mchine Tutorial Slides [11] D Blei, A Ng, and M Jordan Latent Dirichlet allocation Journal of Machine Learning Research, 3:993–1022, January 2003 [12] Chong Wang, David M Blei, “Collaborative Topic Modeling for Recommending Scientific Articles”, Computer Science Department, Princeton University,Princeton, NJ, 08540 , USA [13] David Blei and John Lafferty Text Mining: Classification, Clustering, and Applications Srivastava, A and Sahami, M., Eds, Taylor & Francis, London, England, 2009 [14] Andriy Mnih, Ruslan Salakhutdinov, “Probabilistic matrix factorization”, Department of Computer Science, University of Toronto, King’s College Rd, M5S 3G4, Canada Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 51 [15] Bracha Shapira, Francesco Ricci, Lior Rokach, Paul B.Kantor , “Recommender Systems Handbook”, Springer, 13 Dec 2010 [16] Emmanouil Vozalis, Konstatinos G.Margaritis, “Analysis of Recommender System Algorithms” [17] Learning Representations of Text using Neural Networks Tom ´ a ˇ s Mikolov Joint work with Ilya Sutskever, Kai Chen, Greg Corrado, Jeff Dean, Quoc Le, Thomas Strohmann In Google Research NIPS Deep Learning Workshop 2013 [18] Wang And M Blei, ―Collaborative Topic Modeling for Recommending Scientific Articles‖, InProceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '11, pp 448-456 ACM, 2011 [19] Developing Language Processing Components with GATE Version (a User Guide) Học viên thực hiện: Nguyễn Cơng Hồn – CB140095, Lớp 14BCNTT 52 ... mà công việc yêu cầu mô tả dạng text Các phương pháp gợi ý thông thường chưa lấy thông tin để phục vụ cho việc gợi ý Luận văn hỗ trợ trích rút thông tin để cải thiện chất lượng hệ gợi ý Nội dung... Luận văn tập trung vào việc đề xuất cách cải thiện chất lượng hệ gợi ý công việc, cách áp dụng thêm trích rút thơng tin vào phương pháp gợi ý cụ thể Hiện thông tin mô tả công việc, liên quan đến... tải thông tin Hiện nay, hệ gợi ý trở thành công cụ mạnh mẽ phổ biến nhiều dịch vụ khác nhau, ví dụ: gợi ý công việc, gợi ý báo khoa học, gợi ý dịch vụ số Giống hệ gợi ý nói chung, hệ gợi ý cơng