- Xây dựng giải pháp tìm kiếm: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ thống sẽ phân tích và so khớp với bộ câu hỏi có sẵn để đưa ra câu trả lời, nếu không có trong bộ câu hỏi thì
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRẦN LỆ THỦY
HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU
LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRẦN LỆ THỦY
HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU
LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS ĐỖ VĂN NHƠN
Trang 4Lời cảm ơn
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến PGS.TS Đỗ Văn Nhơn, người thầy đã tận tình hướng dẫn và có những lời khuyên, những đóng góp rất quý báu, giúp cho tôi định hướng và hoàn thành được luận văn
Tôi xin chân thành cảm ơn quý thầy cô trường Đại học Công nghệ thông tin đã chỉ dạy cho tôi nhiều kiến thức bổ ích trong suốt thời gian học tập tại trường
Cho tôi được gửi lòng biết ơn trân trọng đến những người lãnh đạo cơ quan, đã tạo điều kiện thuận lợi để tôi công tác và học tập
Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý kiến quý báu, qua đó giúp tôi hoàn thiện đề tài này
Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo cáo nghiên cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài
Luận văn đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh khỏi thiếu sót
Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô và các bạn
Một lần nữa tôi xin chân thành cảm ơn!
Tp Hồ Chí Minh, ngày 28 tháng 11 năm 2017
Học viên thực hiện
Trần Lệ Thuỷ
Trang 5Lời cam đoan
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi, các kết quả đưa ra trong luận văn có được qua quá trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn- Thầy PGS-TS Đỗ Văn Nhơn
Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, các bài báo-tạp chí khoa học, các nghiên cứu, các website được liệt kê
trong danh mục các tài liệu tham khảo
Tp Hồ Chí Minh, ngày 28 tháng 11 năm 2017
Người cam đoan
Trần Lệ Thuỷ
Trang 6Mục lục
MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN i
DANH MỤC HÌNH VẼ, ĐỒ THỊ i
DANH MỤC BẢNG i
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN 4
1.1 Tình hình nghiên cứu và ứng dụng liên quan: 4
1.2 Mục tiêu đề tài 4
1.3 Đối tượng và phạm vi nghiên cứu 9
1.4 Phương pháp nghiên cứu 10
1.5 Ý nghĩa của đề tài 10
1.6 Bố cục của đề tài 11
Chương 2 - CƠ SỞ LÝ THUYẾT 12
2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin 12
2.1.1 Khái niệm về tìm kiếm thông tin 12
2.1.2 Cấu trúc của một hệ thống truy tìm thông tin 12
2.2 Các mô hình và phương pháp tìm kiếm thông tin 16
2.2.1 Truy hồi thông tin theo hướng thống kê 16
2.2.1.1 Mô hình Boolean 17
2.2.1.2 Mô hình Boolean cải tiến (Advanced Boolean Model ) 17
2.2.1.3 Mô hình không gian Vector(Vector Space Model) 18
2.2.1.4 Latent Semantic Indexing - LSI 21
2.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm 22
2.2.3 Đánh giá một hệ thống tìm kiếm thông tin 24
2.3 Ontology 25
2.3.1.Định nghĩa 25
2.3.2 Các thành phần của ontology 25
2.3.3 Phân loại ontology 26
Trang 7Mục lục
2.3.4 Vai trò của Ontology 26
2.3.5 Các ứng dụng dựa trên Ontology 27
2.4 Thư viện hỗ trợ tìm kiếm văn bản Lucene 27
CHƯƠNG 3 - PHÂN TÍCH, THIÊT KẾ HỆ THỐNG 31
3.1 Các chức năng của hệ thống 31
3.1.1 Mục tiêu ứng dụng 31
3.1.2 Chức năng của hệ thống 31
3.2 Kiến trúc tổng quan của hệ hống 34
3.3 Mô hình cơ sở dữ liệu phục vụ việc lưu trữ 35
3.4 Thiết kế xử lý 43
3.4.1 Chức năng tìm kiếm theo câu hỏi 43
3.4.2 Chức năng tìm kiếm theo từ khóa 46
3.4.2 Chức năng tìm kiếm theo chủ đề 47
CHƯƠNG 4 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 49
4.1 Cài đặt hệ thống 49
4.1.1 Nền tảng công nghệ 49
4.1.2 Giao diện chương trình 49
4.2 Dữ liệu và kết quả thử nghiệm 55
4.3 Đánh giá: 64
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65
5.1 Kết quả đạt được của luận văn 65
5 2 Hạn chế và hướng phát triển 65
Trang 8Danh mục hình vẽ, đồ thị
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh 7
Hình 2 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin 13
Hình 2 2: Quy trình đánh chỉ mục 15
Hình 3 1: Các chức năng chính của chương trình 31
Hình 3 2: Biểu đồ Usecase của tác nhân Người quản lý 33
Hình 3 3: Biểu đồ Usecase của tác nhân Người sử dụng 34
Hình 3 4: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin 35
Hình 3 5: Mô hình thực thể kết hợp 36
Hình 3 6: Lược đồ cơ sở dữ liệu 37
Hình 3 7: Ví dụ mô tả nội dung của table Nghề 38
Hình 3 8: Ví dụ mô tả nội dung của table hệ đào tạo 39
Hình 3 9: Ví dụ mô tả nội dung của table tài liệu 40
Hình 3 11: Ví dụ mô tả nội dung của table câu hỏi 40
Hình 3 12: Ví dụ mô tả nội dung của table Trả lời 41
Hình 3 14: Lưu đồ thuật toán tìm kiếm theo câu hỏi 43
Hình 3 15: Lưu đồ thuật toán tìm kiếm theo từ khóa 46
Hình 3 16: Các bước thực hiện tìm kiếm nội dung theo chủ đề 48
Hình 4 1: Màn hình đăng nhập hệ thống 49
Hình 4 2: Các chức năng của menu File 50
Hình 4 3: Các chức năng của menu Quản trị 50
Hình 4 4: Các chức năng của menu Quản lý tài liệu 50
Hình 4 5: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 51
Hình 4 6: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 52
Hình 4 7: Màn hình tiếp tìm kiếm kết quả theo chuyên mục 53
Trang 9DANH MỤC BẢNG
Bảng 3 1: Mô tả bảng NGHE 37
Bảng 3 2: Mô tả bảng TUKHOA 38
Bảng 3 3: Mô tả bảng HEDAOTAO 38
Bảng 3 4: Mô tả bảng TAILIEU 39
Bảng 3 5: Mô tả bảng CAUHOI 40
Bảng 3 6: Mô tả bảng TRALOI 41
Bảng 3 7: Mô tả bảng Từ khóa tài liệu 41
Bảng 3 8: Mô tả bảng Từ khóa câu hỏi 42
Bảng 3 9: Minh họa cho câu hỏi chính xác 44
Bảng 3 10: Danh sách câu hỏi kèm câu trả lời minh họa cho câu hỏi có nội dung gần với câu truy vấn 44
Bảng 4 1: Diễn giải màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 51
Bảng 4 2: Diễn giải màn hình tìm kiếm thông tin theo từ khóa của câu hỏi trong bộ câu hỏi 52
Bảng 4 3: Diễn giải màn hình tìm kiếm thông tin theo chuyên mục 53
Bảng 4 4: Diễn giải màn hình tiếp nhận từ khóa và tìm kiếm kết quả theo tài liệu 54 Bảng 4 5: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung chính xác câu hỏi thuộc bộ câu hỏi và kết quả 55
Bảng 4 6: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung gần với câu hỏi thuộc bộ câu hỏi và kết quả 57
Bảng 4 7: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả 59
Bảng 4 8: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với độ ưu tiên ( score) >=200 61
Bảng 4 9: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với độ ưu tiên ( score) >=300 63
Trang 10Mở đầu
MỞ ĐẦU
Nghề nghiệp là phương tiện đảm bảo cuộc sống vật chất và tinh thần của con người, nghề nghiệp vững vàng sẽ đem lại niềm vui và hạnh phúc cho con người Để thành công trong cuộc đời, trong sự nghiệp con người cần phải biết lựa chọn cho mình một nghề phù hợp nhất
Trên thực tế có rất nhiều người thất nghiệp hay làm việc không đúng chuyên môn là khá phổ biến, họ thấy khó khăn trong việc đáp ứng yêu cầu của nghề, không cảm thấy hứng thú, gắn bó với nghề
Việc chọn ngành nghề của số này phần lớn là do định hướng của bố mẹ, theo đuôi bạn bè, cho nên thường dẫn đến việc chọn sai nghề Đây là một nguyên nhân rất quan trọng dẫn đến việc hao phí thời gian, tiền bạc của gia đình, nhà trường và không phát huy hết các khả năng tiềm ẩn của người học
Qua số liệu khảo sát từ năm 2010-2016 tại Trường Cao đẳng nghề Tỉnh Bà Rịa – Vũng Tàu, đã cho chúng ta thấy một số khó khăn hiện nay đối với nhà trường như:
Số lượng học sinh bỏ học không giảm, có năm tăng cao hơn năm trước
Học sinh thay đổi nghề sau khi nhập học cao
Với kết quả phân tích, đánh giá số liệu trên, nhà Trường đã rút ra được một trong những nguyên nhân chính là do khả năng nhận thức và tự đánh giá về năng lực, tính cách, sở thích bản thân của người học còn nhiều hạn chế, chưa hiểu rõ được bản chất của từng ngành nghề phải làm những gì, những yêu cầu của nghề dẫn đến việc người học chọn nghề không phù hợp với bản thân
Để khắc phục các khó khăn trên, về phía nhà Trường, cũng đã cố gắng nâng cao chất lượng tư vấn hướng nghiệp khi học sinh đăng ký học, nhưng kết quả vẫn chưa khả quan Các hạn chế tồn tại của công tác tư vấn hướng nghiệp khi triển khai là:
Trang 11Mở đầu
Số lượng cán bộ tư vấn ít , đa số là làm công tác kiêm nhiệm, không được đào tạo bài bản về tư vấn hướng nghiệp, mỗi người chuyên về một ngành nghề nhất định, không am hiểu hết về tất cả các nghề đào tạo của nhà trường, ….Nên dẫn đến trong qua trình tư vấn hướng nghiệp, tư vấn tuyển sinh chưa trả lời một cách thỏa đáng các câu hỏi chuyên sâu về ngành nghề cho phụ huynh và học sinh như: yêu cầu của nghề đối với người lao động (sứa khỏe, trình độ, sở trường….), nội dung học, cơ hội việc làm,… mà chỉ mới cung cấp một số thông tin cơ bản về chỉ tiêu tuyển sinh, tên ngành nghề nên chất lượng tư vấn không cao
Thông tin về các ngành nghề của nhà trường chưa được lưu trữ một cách bài bản, có hệ thống, dẫn đến việc nghiên cứu khai phá tri thức chưa có điều kiện thực hiện Việc tư vấn hướng nghiệp hoàn toàn dựa trên tri thức của cán bộ tư vấn trực tiếp
Hậu quả của những vấn đề nêu trên là:
Về phía nhà trường: Tốn kém về thời gian, nhân lực cho công tác tuyển sinh
và đào tạo; Khả năng đào tạo bị đánh giá thấp khi năng lực làm việc của người học không cao; Số lượng tuyển sinh không đảm bảo chỉ tiêu; Kế hoạch đào tạo bị ảnh hưởng khi xếp lớp
Về phía gia đình và bản thân người học: Tốn kém về chi phí và thời gian khi theo học; Năng lực của người học không được phát huy tối đa khi đi học; Khi ra trường làm việc không hiệu quả; Tìm kiếm việc làm khó khăn
Để góp phần tăng cường chất lượng của công tác tư vấn hướng nghiệp cho
người học khi tuyển sinh, đạt được mục tiêu là:
- Nâng cao số lượng và chất lượng tuyển sinh
- Giảm thiểu số lượng học sinh bỏ học
- Giảm thiểu số lượng học sinh thay đổi nghề khi nhập học
- Quảng bá các nghề nhà Trường đang đào tạo
Trang 13Chương 1 – Tổng quan
CHƯƠNG 1 TỔNG QUAN 1.1 Tình hình nghiên cứu và ứng dụng liên quan:
Năm 2012, Luận văn Thạc sĩ của Nguyễn Thị Thanh Hà tại Đại học Đà Nẵng
về đề tài “Xây dựng hệ chuyên gia tư vấn hướng nghiệp cho học sinh trường trung học phổ thông “ [1] đã xây dựng hệ chuyên gia tư vấn và hướng nghiệp cho học
sinh phổ thông tại trường phổ thông trung học Hùng Vương, Quy Nhơn dùng cho đối tượng là các học sinh tốt nghiệp phổ thông trung học chọn lựa nghề nghiệp bằng các trắc nghiệm Jonh Holland sử dụng thuật toán suy diễn tiến trong hệ chuyên gia
để đo mức độ phù hợp của học sinh với nghề nghiệp
Cùng năm đó, Luận văn Thạc sĩ của Huỳnh Tấn Dựng tại Đại học Đà Nẵng
về đề tài “Ứng dụng công nghệ tri thức xây dựng hệ thống hỗ trợ hỏi đáp trong tư vấn tuyển sinh đào tạo”[2] đã ứng dụng công nghệ tri thức để xây dựng hệ thống
hỏi đáp về tuyển sinh tại trường Cao đẳng Kỹ thuật Y tế II về mức độ phù hợp của một cá nhân với nghề nghiệp cũng dựa trên trắc nghiệm Jonh Holland dành cho đối tượng sử dụng là học sinh và phụ huynh quan tâm đến định hướng nghề nghiệp
Năm 2016, Luận văn Thạc sĩ của Phạm Thị Trúc Mai với đề tài “Xây dựng
hệ thống hỗ trợ tư vấn tuyển sinh cho trường Đại học Trà Vinh “ [3] đã thiết kế giải
pháp tư vấn tuyển sinh cho trường Đại học Trà Vinh dựa trên sự phân tích sâu hai
cơ sở lý thuyết chọn nghề nghiệp là lý thuyết cây nghề nghiệp và lý thuyết mật mã Holland cùng với mô hình kiến trúc của hệ chuyên gia đã phần nào giúp ích được các em học sinh, thí sinh, phụ huynh có thêm công cụ trong việc chọn nghề nghiệp cho tương lai một cách nhanh chóng, hài lòng và có cơ sở khoa học hơn
Tuy nhiên, hầu hết các nghiên cứu, ứng dụng trên đều dành cho đối tượng
là học sinh tốt nghiệp phổ thông trung học Sử dụng công nghệ tri thức, xử lý văn bản, hệ chuyên gia,… cùng với bộ trắc nghiệm lý thuyết nghề nghiệp của Jonh Holland để tư vấn cho người học trong chọn lựa nghề nghiệp phù hợp theo tính cách, năng lực bẩm sinh của cá nhân
1.2 Mục tiêu đề tài
Trang 14Chương 1 – Tổng quan
Xã hội ngày càng phát triển, vấn đề năng suất và hiệu quả lao động ngày càng trở nên quan trọng Con người là chủ thể hoạt động nên chính con người quy định ở chừng mực đáng kể năng suất và hiệu quả của hoạt động lao động nghề nghiệp Tuy nhiên, khả năng của con người rất khác nhau và thế giới nghề nghiệp cũng vô cùng phong phú, đa dạng, mỗi nghề đòi hỏi những khả năng khác nhau ở người lao động
Ví dụ: các nghề trong lĩnh vực nghệ thuật cần trước hết óc thẩm mỹ, tưởng tượng nghệ thuật và khả năng tư duy hình ảnh Các nghề tiện, nguội, phay, bào… thuộc lĩnh vực cơ khí đòi hỏi khả năng ước lượng bằng mắt kích thước của các vật thể, cảm giác nhạy bén của đầu ngón tay về độ nhẵn bề mặt của vật thể Các nghề thêu, ren… trong lĩnh vực thủ công mỹ nghệ truyền thống cần đến sự khéo léo của các ngón tay, thị giác tốt, tính kiên trì, tỉ mỉ, khả năng phân biệt và phối hợp màu sắc tốt… Những người đạt năng suất, chất lượng và hiệu quả lao động cao ở một nghề nào đó thường là những người có sự phù hợp với nghề đã chọn về mặt tâm sinh lý
Sự phù hợp nghề là tập hợp những đặc điểm tâm sinh lý bảo đảm cho con người đạt kết quả cao trong lao động nghề nghiệp
Như vậy, vấn đề đặt ra là muốn có hiệu quả lao động nghề nghiệp cao thì phải tuyển chọn được những người có sự phù hợp nghề ở mức độ cần thiết vào học hay làm việc ở nghề tương ứng
Tư vấn nghề được hiểu là việc đối chiếu những yêu cầu của nghề, yêu cầu của thị trường lao động với hứng thú, khuynh hướng và năng lực của học sinh, cùng với học sinh hình thành quyết định nên chọn nghề nào cho phù hợp với bản thân, sớm
đề phòng được hiện tượng chán nghề, đổi nghề hoặc bỏ nghề sau này
Trang 15Chương 1 – Tổng quan
- Tư vấn chẩn đoán nhằm làm bộc lộ hứng thú, thiên hướng, năng lực và những phẩm chất nghề chuyên biệt của con người trên cơ sở nghiên cứu và đo đạc (nhân trắc) con người một cách toàn diện Mục đích của tư vấn chẩn đoán là xác định trong những lĩnh vực hoạt động nào con người có thể lao động thành công nhất, tức là đem lại lợi ích tối đa cho xã hội, đồng thời đưa lại niềm vui và sự hài lòng cho bản thân người lao động
- Tư vấn y học nhằm làm bộc lộ sự phù hợp giữa trạng thái sức khỏe với yêu cầu của nghề mà một người lựa chọn Nếu như người đó mắc một trong những chứng bệnh thuộc loại chống chỉ định của nghề thì người cán bộ tư vấn sẽ khuyên nên chọn một nghề khác gần gũi với thiên hướng và hứng thú, đồng thời phù hợp với trạng thái sức khỏe của người đó Chẳng hạn, những người rối loạn sắc giác sẽ không được chọn những ngành giao thông vận tải, thông tin tín hiệu, v.v…
- Tư vấn hiệu chỉnh được tiến hành trong trường hợp ý định nghề nghiệp của con người không phù hợp với khả năng và năng lực thực tế của họ Trong trường hợp này, kế hoạch nghề nghiệp của cá nhân cần được xem xét và uốn nắn lại cho phù hợp với tình hình Ví dụ, trên cơ sở những cứ liệu thu được khi nghiên cứu nhân cách con người, cán bộ tư vấn sẽ khuyên thanh thiếu niên nên chọn một nghề khác phù hợp hơn với những đặc điểm tâm sinh lý của mình
Theo đề án phân luồng học sinh sau khi tốt nghiệp trung học cơ sở hiện nay thì số lượng học sinh tốt nghiệp trung học cơ sở đi học nghề ngày một tăng cao, vì vậy số lượng học sinh tốt nghiệp trung học cơ sở đăng ký học nghề tại Trường Cao đẳng nghề hàng năm cũng tăng lên đáng kể
Hàng năm số lượng tuyển sinh hệ trung cấp của nhà trường ( dành cho đối tượng tốt nghiệp trung học cơ sở) luôn luôn cao gần gấp đôi học sinh hệ Cao đẳng nhưng tỷ lệ nghỉ, bỏ học giữa chừng của đối tượng này cũng cao hơn nhiều, có năm lên đến hơn 30% [4]
Mặt khác những nghề đang đào tạo tại trường đều thuộc nhóm nghề kỹ thuật, có những nghề nếu nghe qua thì sẽ thấy giống nhau nên nếu làm trắc nghiệm
Trang 16Chương 1 – Tổng quan
Holand như các ứng dụng trên sẽ chưa thực sự hiệu quả đối với đối tượng học sinh đăng ký vào trường vì mỗi ngành nghề lại có những yêu cầu cụ thể hơn
Ngoài ra trong quá trình tư vấn tuyển sinh, có những câu hỏi của phụ huynh
và học sinh chuyên sâu về từng ngành nghề cụ thể mà nhân viên tư vấn chưa nắm rõ
để trả lời
Vì vậy, với yêu cầu đặt ra là tìm kiếm thông tin từ các nghề thuộc nhóm nghề Điện, Cơ khí dữ liệu thu thập được, cần áp dụng các phương pháp khai thác thông tin trên dữ liệu để trả lời các truy vấn Những mục tiêu mà luận văn cần giải
quyết gồm:
- Xây dựng mô hình tổ chức biểu diễn thông tin và giải pháp lưu trữ các thông tin về ngành nghề đang đào tạo tại nhà trường thuộc khoa Điện và Cơ khí như: yêu cầu của nghề đối với người lao động (sức khỏe, trình độ, sở trường….), nội dung học, cơ hội việc làm,…
- Xây dựng giải pháp tìm kiếm: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ thống sẽ phân tích và so khớp với bộ câu hỏi có sẵn để đưa ra câu trả lời, nếu không
có trong bộ câu hỏi thì sẽ so sánh sự tương đồng của từ khóa trong câu truy vấn với các tài liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản khi tìm thấy
Mục tiêu của đề tài được mô tả tổng quan như sau:
Hình 1 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh
Trong đó:
+ Đầu vào: các câu hỏi, từ khóa
+ Chương trình: Là hệ thống xử lý câu truy vấn, tìm kiếm câu trả lời hoặc các tài liệu bằng phương pháp tìm kiếm từ khóa
Câu hỏi, từ
khóa Chương trình Câu trả lời, tài liệu
Trang 17Câu hỏi: Nghề Cắt gọt kim loại khác nghề Chế tạo khuôn mẫu như thế nào?
+ Đầu ra: Câu hỏi này có trong bộ câu hỏi đã được thu thập, vì vậy sẽ hiển thị câu
trả lời
Câu trả lời:
Nghề chế tạo khuôn mẫu: Ngoài học gia công cắt gọt kim loại (nghề cắt
gọt kim loại) thì phải học kiến thức về kết cấu khuôn (khuôn ép nhựa, khuôn dập, khuôn kim loại…), học thiết kế khuôn và gia công chế tạo khuôn Muốn gia công chế tạo khuôn được thì phải học các modul giống như trong nghề cắt gọt kim loại (vd: tiện, phay, cnc, mài…), chuyên sâu vào các máy chuyên gia công làm khuôn như phay cnc hoặc phay cơ,mài Nghề chế tạo khuôn mẫu ra trường vào làm các công ty gia công chế tạo khuôn hoặc gia công chế tạo các chi tiết khuôn…
Nghề cắt gọt kim loại: Phạm vi rộng hơn (không học các kiến thức chuyên
về khuôn mẫu như kết cấu khuôn hay thiết kế khuôn) Đối với nghề này phải học toàn bộ các máy công cụ chuyên gia công cắt gọt kim loại như mài, tiện, phay, …Nghề cắt gọt kim loai ra trường có thể phục vụ cho nghề chế tạo khuôn mẫu và vào làm các công ty gia công cơ khí chính xác … Thường đứng máy lập trình gia công Không có kiến thức khuôn nên không thể vào làm thiết kế hay lắp ráp khuôn được
Trang 18Chương 1 – Tổng quan
+ Đầu ra: Hiển thị danh sách các câu hỏi, tài liệu gần với câu hỏi nhập vào
Danh sách câu hỏi gần với câu truy vấn Trả lời
Trường có thi tuyển không? Trường xét tuyển theo học bạ
Trường xét tuyển học bạ hay kết quả thi
THPT quốc gia ?
Trường xét tuyển theo học bạ
Có phải thi tuyển đầu vào không? Trường xét tuyển theo học bạ, không
phải thi đầu vào?
Trường hợp 3:
+ Đầu vào:
Từ khóa: Cắt gọt kim loại
+ Đầu ra: Danh sách các tài liệu liên quan đến nghề “ cắt gọt kim loại”
1.3 Đối tượng và phạm vi nghiên cứu
+ Đối tượng nghiên cứu:
Các đối tượng nghiên cứu trong luận văn này là:
− Văn bản hành chính, mô tả, yêu cầu của các ngành nghề đang được đào tạo tại trường thuộc khoa Điện và Cơ khí
− Lưu trữ thông tin bằng Cơ sở dữ liệu quan hệ
− Các phương pháp tìm kiếm theo từ khóa, ngữ nghĩa của từ khóa
− Các công cụ hỗ trợ, thuật toán, ngôn ngữ lập trình liên quan đến việc cài đặt các mô hình
+ Phạm vi:
Trang 19Chương 1 – Tổng quan
Phạm vi về ngành nghề: Các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được
đào tạo tại trường Cao Đẳng nghề Tỉnh BR - VT, ngành nghề khác không thuộc phạm vi nghiên cứu của chương trình
Phạm vi về người dùng: Chương trình hỗ trợ cho các nhân viên tư vấn tuyển sinh tại
Phòng đào tạo của Trường chưa có kiến thức chuyên sâu về các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được đào tạo để trả lời tư vấn tuyển sinh
Phạm vi chương trình: Hỗ trợ nhân viên tư vấn có được thông tin cần thiết trên cơ
sở dữ liệu lưu trữ về các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được đào tạo tại trường để trả lời tư vấn tuyển sinh
1.4 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết:
- Nghiên cứu về khái niệm, các cách biểu diễn và lưu trữ tri thức
- Thu thập thống kê dữ liệu về các ngành nghề đào tạo, các dữ liệu cần thiết về tuyển sinh: câu hỏi cần tư vấn, chế độ, quy định liên quan đến đào tạo nghề
Phương pháp khảo sát, phân tích, đánh giá:
Khảo sát hiện trạng tư vấn tuyển sinh tại trường để từ đó tiếp cận và xây dựng đề tài Thu thập các câu hỏi về tuyển sinh nhất là các câu hỏi mà nhân viên tư vấn còn lúng túng vướng mắc trong quá trình trả lời tư vấn để làm tiền đề cho giai đoạn thiết kế đưa vào thực nghiệm Phân tích các phương pháp, giải thuật liên quan đến việc tổ chức và lưu trữ thông tin, tìm kiếm thông tin
Phương pháp nghiên cứu thực nghiệm:
Xây dựng bộ câu hỏi và câu trả lời tương ứng, xây dựng chương trình tìm kiếm thông tin dựa trên từ khóa và khái niệm ngữ nghĩa; triển khai thử nghiệm trên
cơ sở dữ liệu thực tế tại Trường Cao đẳng nghề Tỉnh BR – VT
1.5 Ý nghĩa của đề tài
Trang 20Chương 1 – Tổng quan
Luận văn nghiên cứu cách biểu diễn, lưu trữ thông tin và kỹ thuật tìm kiếm để khắc phục các hạn chế đang tồn tại giúp:
- Tiết kiệm thời gian, công sức trong công tác tư vấn tuyển sinh
- Giảm thiểu tình trạng nghỉ học trong quá trình học do chọn sai nghề
- Phát huy năng lực và trí tuệ của người học
1.6 Bố cục của đề tài
Chương 1: Tổng quan Giới thiệu tổng quan về luận văn, ý nghĩa khoa học và thực
tiễn, mục tiêu nghiên cứu, những đóng góp của đề tài, đối tượng và phạm vi nghiên cứu, nội dung nghiên cứu, bố cục của luận văn
Chương 2: Cơ sở lý thuyết Trong chương này giới thiệu về thực trạng hiện tại về
lĩnh vực mà đề tài đang nghiên cứu, các nghiên cứu liên quan, hướng tiếp cận, giới thiệu các ưu và nhược điểm của phương pháp nghiên cứu liên quan đến đề tài
Chương 3: Phân tích, Thiết kế hệ thống Thực hiện việc phân tích, thiết kế cơ sở
dữ liệu, các phương pháp thiết kế xử lý dữ liệu
Chương 4: Cài đặt thử nghiệm và đánh giá Hệ thống cho phép tra cứu, tìm kiếm
tài liệu trong kho lưu trữ theo nhiều chức năng như dựa trên từ khóa và trên CSDL lưu trữ Tiến hành thực nghiệm đánh giá kết quả
Chương 5: Kết luận kết quả đạt được và hướng phát triển Kết luận về những hạn
chế của đề tài và hướng phát triển trong tương lai
Trang 21Chương 2 – Cơ sở lý thuyết
Chương 2 - CƠ SỞ LÝ THUYẾT
Chương 2 trình bày cơ sở lý thuyết của Luận văn liên quan đến vấn đề tìm kiếm thông tin
2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin
2.1.1 Khái niệm về tìm kiếm thông tin
Tìm kiếm thông tin (Information Retrieval - IR) là tìm kiếm tài nguyên (thường là các tài liệu – documents) trên một tập các dữ liệu phi cấu trúc (thường là các văn bản dạng Text) được lưu trữ trên máy tính nhằm thỏa mãn nhu cầu về thông tin
2.1.2 Cấu trúc của một hệ thống truy tìm thông tin
Hầu hết các hệ thống tìm kiếm thông tin (gọi tắt là hệ thống IR) là hệ thống truy tìm tài liệu để truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữ liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin của người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên quan đó Tài liệu là các mẫu văn bản, hình ảnh, âm thanh, video Có hai khái niệm quan trọng luôn đề cập đến đó là tài liệu và câu truy vấn
Hệ thống thông tin bao gồm một tập hợp các yếu tố thông tin, một tập các yêu cầu và một vài cơ chế tìm kiếm để quyết định yếu tố thông tin nào liên quan đến các yêu cầu Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu có được từ
sự so sánh trực tiếp Nhưng trên thực tế, sự liên quan giữa các câu truy vấn và tài liệu xác định không phải được quyết định trực tiếp mà gián tiếp bằng cách: các tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ chỉ mục trước khi xác định mức
độ liên quan Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu và hệ thống sẽ tìm trong các tập chỉ mục để tìm ra các tài liệu liên quan, sau đó sắp xếp các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng
Trang 22Chương 2 – Cơ sở lý thuyết
Hình 2 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin
Cơ bản một hệ thống tìm kiếm thông tin luôn có ba thành phần như sau:
Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ tìm kiếm
đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ liệu, thành phần này được quản lý bởi môđun thu thập dữ liệu, môđun này sẽ thực hiện một số chức năng chính như: Quản lý kết nối tới nguồn cần thu thập, quản lý chi tiết đến từng loại (đối tượng) dữ liệu cần thu thập Sau đó thực hiện thu thập dữ liệu theo từng loại dữ liệu này Thiết lập và quản lý các kết nối tới nguồn dữ liệu cần thu
Thu thập dữ
CSDL thu thập
DB
Dữ liệu nguồn
Đánh chỉ mục Quản trị
Hiển thị kết quả theo thứ hạng
Xử lý chuối tìm kiếm
User
Giao diện tìm kiếm
Index 2 File
Index 1
Trang 23Chương 2 – Cơ sở lý thuyết
thập, mỗi kết nối sẽ tương ứng với một nguồn dữ liệu, đại diện là một CSDL, và một CSDL có thể có một hoặc nhiều đối tượng dữ liệu cần thu thập Mỗi đối tượng
dữ liệu cần quản lý các thông tin đặc tả như: Nhóm các bảng (table) liên quan đến đối tượng dữ liệu cần thu thập, tại mỗi table phải chỉ ra các trường (field) đại diện cho table đó, quan hệ giữa các table và khoá quan hệ giữa các table Việc quản lý các thông tin đặc tả của từng đối tượng dữ liệu để phục vụ việc xây dựng các câu truy vấn (query) dữ liệu nguồn cần thu thập
Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ
liệu, sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của từng máy tìm kiếm cụ thể, thực hiện đánh chỉ mục dữ liệu này lưu vào các File index Giai đoạn này là phân tích tài liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung của tài liệu Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn, các chỉ mục trong cách làm này tồn tại trước và độc lập với tài liệu Cách thứ hai, lập chỉ mục là rút trích các chỉ mục từ chính nội dung của tài liệu (free text) Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mụcThành phần (môđun) này sẽ thực hiện các chức năng chính như: Tiền xử lý dữ liệu cần đánh index: Thực hiện loại bỏ các từ dư thừa, vô nghĩa, tách dữ liệu thành các từ, cụm từ,
xử lý Tiếng Việt có dấu và Tiếng Việt không dấu Phân tích và xác định các từ, cụm
từ thích hợp có khả năng đại diện cho nội dung của tài liệu Thực hiện đánh index cho dữ liệu sau khi thu thập dữ liệu lần đầu Sau một thời gian dữ liệu nguồn có sự thay đổi, bộ phận thu thập tiếp tục quá trình thu thập dữ liệu và bộ phận đánh chỉ mục sẽ tiến hành đánh chỉ mục, cập nhật file index, cập nhật quá trình đánh index, cập nhật lại kết quả và quá trình đánh index dữ liệu phục vụ công tác tra cứu, tìm kiếm và phân tích khi cần thiết Xếp hạng (ranking) cho tài liệu theo tần suất xuất hiện của các từ chỉ mục trong tài liệu, tần suất nghịch đảo của tài liệu, số term (field) trong câu truy vấn tìm thấy trong tài liệu
Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept) Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt
Trang 24Chương 2 – Cơ sở lý thuyết
Hình 2 2: Quy trình đánh chỉ mục
Thành phần Tìm kiếm dữ liệu: nhu cầu thông tin của người sử dụng được đưa
vào hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn trong Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan (relevance), sau đó kết hợp với thông tin xếp hạng (Rank) để xếp hạng kết quả tìm kiếm và trả về kết quả tốt nhất lên đầu cho người dùng
Trong những năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi và cải tiến, xu hướng tìm kiếm hiện nay đang dịch chuyển từ mang tính chất cú pháp (syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm kiếm trên từ khóa (keyword) trở thành tìm kiếm trên khái niệm (concept) Các phương pháp truy hồi thông tin dựa trên khái niệm và ngữ nghĩa nhắm đến việc mô phỏng một ở một mức độ giới hạn khả năng hiểu về ý nghĩa của từ, cụm từ hay văn bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ Trong đó
Tách dữ liệu thành các từ,
cụm từ
Tính trọng số và loại bỏ những từ có trọng số thấp
Trang 25Chương 2 – Cơ sở lý thuyết
nổi bật là hướng tiếp cận sử dụng ontology về tri thức của từng lĩnh vực để biểu diễn, xử lý nội dung và ý nghĩa của các tài liệu
Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm
− Hệ thống tìm kiếm thông tin dựa trên từ khóa: Hệ thống sử dụng một danh sách các từ khóa (keywords) hay thuật ngữ (term) để biểu diễn nội dung tài liệu và câu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo từ a, an, the,…), nghĩa là hệ thống giả định nếu một câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn để trả về cho người dùng Các mô hình tìm kiếm được sử dụng như mô hình Boolean, mô hình không gian vector, các
mô hình xác suất, mô hình LSI
− Hệ thống tìm kiến thông tin dựa trên khái niệm hay ngữ nghĩa: Nội dung của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc khái niệm Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên
và công nghệ ontology
2.2 Các mô hình và phương pháp tìm kiếm thông tin
2.2.1 Truy hồi thông tin theo hướng thống kê
Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean), Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models) Ý tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ (keyphrase) biểu thị một khái niệm khoa học
Trang 26Chương 2 – Cơ sở lý thuyết
2.2.1.1 Mô hình Boolean
Định nghĩa mô hình truy hồi Boolean (Boolean retrieval model): là mô hình cho việc truy hồi thông tin Trong đó chúng ta có thể đặt ra bất kỳ truy vấn dưới dạng một biểu thức Boolean của các term, các term kết hợp với các phép toán AND,
OR, và NOT Mô hình này xem mỗi tài liệu như là một tập các từ (words) Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức phức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy
Ví dụ: Để trả lời câu truy vấn Brutus AND Caesar AND NOT Calpurnia, chúng ta đi theo vector cho Brutus, Caesar và Calpurnia từ đầu đến cuối và có kết quả so bit như sau: 110100 AND 110111 AND 101111 = 100100 Kết quả này cho biết cột 1 và cột 4 bật bit 1 Như thế tương ứng với kết quả trả về là quyển sách Antony and Cleopatra và quyển Hamlet
Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức phức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy
2.2.1.2 Mô hình Boolean cải tiến (Advanced Boolean Model )
Thậm chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc sai, “tất cả hoặc không có gì” (all – or – nothing) dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan hoặc là không có tài liệu nào Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bởi toán tử OR, một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng không được xem là tốt hơn
so với một tài liệu chỉ chứa một term Tương tự, trong trường hợp với toán tử AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp giống như một tài liệu không chứa term nào Từ những hạn chế nêu trên, nhiều mô hình Boolean mở rộng đã được nghiên cứu phát triển nhằm sắp hạng kết quả trả về Những mô hình này sử dụng nhiều toán tử Boolean mở rộng khác Ví dụ, một toán
tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng từ 0 đến 1
Trang 27Chương 2 – Cơ sở lý thuyết
(thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình)
Ưu điểm của mô hình Boolean:
• Đơn giản, dễ hiểu, dễ cài đặt và sử dụng
• Mối quan hệ giữa các term hay thứ tự giữa chúng không được xét đến
• Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và câu truy vấn
• Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn Boolean
Nhằm khắc phục những hạn chế trong mô hình Boolean, một mô hình mới đã được đề xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy vấn thay thế cho việc so khớp chính xác theo cách tiếp cận Boolean
2.2.1.3 Mô hình không gian Vector(Vector Space Model)
Trong mô hình không gian vector, văn bản được thể hiện là các vector của các term Term này tiêu biểu cho các từ (word) và các cụm từ (keyphrase) Khi một từ được chọn làm term, thì khi đó mỗi từ trong bộ từ vựng trở thành một chiều độc lập trong mô hình không gian vector Bất kỳ văn bản nào cũng có thể được thể hiện bằng vector trong không gian với số chiều rất lớn Nếu một term thuộc một văn bản thì nhận giá trị khác không trong vector văn bản, cùng với chiều tương ứng cho
Trang 28Chương 2 – Cơ sở lý thuyết
term đó Bởi vì bất kỳ văn bản nào cũng chứa một tập hợp các term trong hạn định (bộ từ vựng hàng triệu term) cho nên hầu hết các vector văn bản thì rất thưa thớt
Để gán điểm số cho một tài liệu (document) từ câu truy vấn, thì mô hình vector sẽ đo độ tương đồng giữa vector truy vấn và vector tài liệu Cho nên ý tưởng then chốt của giải pháp này là: xem các tài liệu và câu truy vấn là các vector trong không gian có số chiều cao Góc giữa 2 vector được dùng như một tiêu chuẩn để đánh giá sự khác nhau giữa các vector
Với mô hình không gian vector: các tài liệu và câu truy vấn được thể hiện là các vector có trọng số Sử dụng phép toán trên không gian vector để tính toán độ đo tương tự giữa câu truy vấn và các văn bản hoặc các từ khóa biểu diễn, kết quả sau khi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn
Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài liệu D có chiều là các đặc trưng fi F Một tài liệu d được biểu diễn như một vector ( 1 , 2 , )
w là trọng số của đặc trưng fi trong tài liệu d
và n = |F| Tương tự, câu truy vấn cũng được biểu diễn trong cùng một không gian tài liệu như một vector ( 1 , 2 , )
Trang 29Chương 2 – Cơ sở lý thuyết
Trong đó, d
f
tf là tần số xuất hiện của đặc trưng f trong tài liệu d, N là số tài liệu
có trong bộ sưu tập và Nf là số tài liệu mà f xuất hiện
Sau khi đã biểu diễn tập tài liệu và câu truy vấn thành các vector trong không gian tài liệu, bước tiếp theo là tính toán độ tương quan (giống nhau) giữa chúng bằng cách sử dụng các độ đo sau:
- Inner-product (hoặc dot-product): , d q
n n
=+Trong đó: d là vector document, qlà vector truy vấn, n là số term chung của 2
vector d1và d2, n1 là số term khác 0 trong d1, n2 là số term khác 0 trong d2, N là tổng
số term trong không gian vector, z là số term không xuất hiện trong cả d1 và d2 (N –
z là số term có xuất hiện trong d1 hoặc d2 hoặc cả hai)
❑ Nhận xét về ưu điểm và khuyết điểm của mô hình không gian vector
* Ưu điểm:
− Đơn giản, dễ hiểu, dễ cài đặt
− Hệ thống đánh trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm
− Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tương đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thể được dùng để xếp hạng các tài liệu trả về
Trang 30Chương 2 – Cơ sở lý thuyết
− Chiến lược so trùng một phần cho phép trả về các tài liệu phù hợp nhất, thỏa mãn với thông tin truy vấn của người dùng
− Mức độ trùng khớp có thể được dùng để xếp hạng các tài liệu, thứ bậc của việc xếp hạng cho biết tài liệu có thỏa mãn với thông tin người dùng hay không
− Tính được mức độ tương đồng giữa một câu truy vấn và mỗi tài liệu, nhưng chỉ thực hiện một lần mà thôi nên không cho ra nhiều ngữ nghĩa
* Khuyết điểm:
− Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn nhiều không gian lưu trữ, vì mỗi term là một chiều và tổng các term là từ điển mà đồng thời từ điển thì lưu trữ trên bộ nhớ nên tốn nhiều không gian lưu trữ
− Không cho biết nghĩa rộng hơn hoặc hẹp hơn so với term đang tìm, chỉ cho biết độ đo giữa vector tài liệu và vector truy vấn có liên quan với nhau hay không
− Các từ khóa biểu diễn được xem là độc lập với nhau
− Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn không gian lưu trữ
2.2.1.4 Latent Semantic Indexing - LSI
Latent Semantic Indexing( LSI ) là phương pháp tạo chỉ mục tự động dựa trên khái niệm để khắc phục hai hạn chế tồn tại trong mô hình không gian vector chuẩn (VSM) cũng như các mô hình Boolean và xác suất: synoymy và polysemy Với synoymy, nhiều từ có thể được sử dụng để biểu diễn một khái niệm, vì vậy hệ thống không thể trả về những tài liệu liên quan đến câu truy vấn của người dùng khi
họ sử dụng những từ trong câu truy vấn đồng nghĩa với những từ trong tài liệu Với polysemy, một từ có thể có nhiều nghĩa, vì vậy hệ thống có thể trả về những tài liệu
không liên quan với những gì mà người dùng mong muốn có được Điều nầy thực tế
rất thường xảy ra bởi vì các tài liệu được viết bởi rất nhiều tác giả, với cách dùng từ rất khác nhau Trong LSI, không gian tài liệu được thay thế bởi một không gian tài liệu có chiều thấp hơn gọi là không gian k (k - space) hay không gian LSI, trong đó mỗi chiều là một khái niệm độc lập (nghĩa là không có tương quan với nhau) đại
Trang 31Chương 2 – Cơ sở lý thuyết
diện cho một nhóm các term cùng biểu diễn cho một thông tin ngữ nghĩa Mô hình LSI sử dụng chỉ mục khái niệm (conceptual index) được tạo ra bởi phương pháp thống kê thay cho việc sử dụng các từ chỉ mục đơn
Mô hình LSI dựa trên giả thiết là có các ngữ nghĩa tiềm ẩn (latent semantic)
trong việc sử dụng từ: có nhiều từ biểu diễn cho một khái niệm và một khái niệm có
thể được biểu diễn bởi nhiều từ Và mô hình này sử dụng phân tích SVD (Singular Value Decomposition) ma trận term – document A để phát hiện ra các quan hệ ngữ
nghĩa tiềm ẩn đó Mô hình LSI, mở rộng của mô hình không gian vector, sử dụng
phép chiếu trực giao ma trận biểu diễn tập văn bản có hạng r vào không gian k chiều, trong đó k<< r Việc chọn hệ số k tối ưu cho mô hình LSI vẫn còn là bài toán chưa có lời giải tổng quát Cho tới hiện tại việc chọn k cho mô hình LSI chỉ thực
hiện dựa trên các phương pháp thử nghiệm
2.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm
Trong phần trước, chúng ta đã tìm hiểu về các phương pháp truy hồi thông tin theo hướng tiếp cận thống kê Theo hướng tiếp cận này thì một tài liệu thường được biểu diễn dưới dạng một tập hợp các từ khóa độc lập nhau Tuy đã được áp dụng phổ biến trong nhiều ứng dụng khác nhau, việc biểu diễn này vẫn luôn tồn tại hạn chế lớn như: chưa xem xét đến hình thái của từ, thứ tự của các từ hay vị trí xuất hiện của từ trong tài liệu và nhất là các mối quan hệ ngữ nghĩa giữa chúng Vì vậy, hướng tiếp cận truy hồi thông tin dựa trên ngữ nghĩa cố gắng khắc phục các hạn chế này
Hệ thống tìm kiếm thông tin dựa trên khái niệm sử dụng khái niệm để lập chỉ mục và có hai nhiệm vụ chính đó là: rút trích toàn bộ các khái niệm hay ngữ nghĩa
có trong cơ sở dữ liệu của các tài liệu và lập chỉ mục cho các tài liệu dựa trên các khái niệm này
Các cấu trúc khái niệm có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thể được tạo thủ công, bán tự động hoặc tự động, chúng có thể khác nhau ở các dạng biểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Các kiểu cấu trúc
Trang 32Chương 2 – Cơ sở lý thuyết
khái niệm phổ biến: cây khái niệm phân cấp (conceptual taxonomy), nguốn tri thức
về lĩnh vực (domain ontology), mạng ngữ nghĩa (semantic linguistic network of concept), các đồ thị khái niệm (conceptual graphs), từ điển từ vựng (thesaurus), mô hình tiên đoán (predictive model) và vector ngữ cảnh (context vector)
Hệ thống tìm kiếm thông tin dựa trên khái niệm có thể áp dụng cho văn bản và ứng dụng cho tìm kiếm hình ảnh và truy vấn thông tin đa ngôn ngữ Việc tìm kiếm hình ảnh dựa trên khái niệm rất có ý nghĩa Khi một người dùng tìm kiếm hình ảnh,
sẽ chú ý ý nghĩa (nội dung) của hình ảnh đó là gì hơn là hình ảnh đó có màu sắc, hay
độ lớn như thế nào Tuy nhiên, việc lập chỉ mục khái niệm cho hình ảnh khó khăn hơn rất nhiều so với lập chỉ mục văn bản
Hệ thống dựa trên khái niệm rút trích khái niệm từ câu truy vấn và so trùng với tập chỉ mục đã được lập của các tài liệu để tìm ra các tài liệu có liên quan Việc so trùng câu truy vấn với tập chỉ mục của tài liệu thường được thực hiện qua 02 cách phổ biến, đó là:
- So trùng khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục với các khái niệm của câu truy vấn dựa trên từ khóa (theo phương pháp truyền thống)
- So trùng giữa cấu trúc khái niệm của cây truy vấn với cấu trúc khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục
Có nhiều công trình nghiên cứu xây dựng một hệ thống tìm kiếm thông tin dựa trên khái niệm nhưng chỉ hỗ trợ một lĩnh vực nhất định trong những ứng dụng cụ thể, nhất định Việc xây dựng một hệ thống tìm kiếm thông tin dựa trên khái niệm là vấn đề rất khó và chưa có lời giải tối ưu, đồng thời cần có sự can thiệp của của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ khi xây dựng một cơ sở tri thức do đó tốn nhiều chi phí để xây dựng và bảo trì Cho đến nay thì những kết quả đạt được theo cách tiếp cận này vẫn chưa có sự cải thiện đáng kể so với các phương pháp thống kê kể trên Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉ nắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền thống Hơn
Trang 33Chương 2 – Cơ sở lý thuyết
nữa, những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong quá trình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiến trình tìm kiếm
2.2.3 Đánh giá một hệ thống tìm kiếm thông tin
Hiệu quả của một hệ truy tìm thông tin có thể được đánh giá theo các tiêu chuẩn sau:
− Để đánh giá hiệu quả truy tìm của hệ thống, người ta sử dụng đến hai độ đo
cơ bản là độ chính xác (precision) và độ bao phủ (recall) Những độ đo này đo sự thỏa mãn của người dùng với các tài liệu mà hệ thống tìm thấy Cho S là tập các tài liệu được tìm thấy (liên quan hệ thống) Cho U là tập các tài liệu liên quan đánh giá của người dùng Khi đó, độ chính xác và độ bao phủ sẽ được định nghĩa như sau:
Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có liên quan đến câu truy vấn của người dùng trên tổng số các tài liệu tìm thấy của hệ thống
Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh giá
là liên quan người dùng trên tổng số các tài liệu có liên quan theo người dùng
− Hiệu quả thực thi của hệ thống (Execution efficiency) được đo bởi thời gian thực hiện thủ tục tìm kiếm các văn bản liên quan đến câu truy vấn được cho
Trang 34Chương 2 – Cơ sở lý thuyết
− Hiệu quả lưu trữ được đo bởi dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu (cả bộ nhớ ngoài lưu trữ dữ liệu chỉ mục và bộ nhớ RAM khi hệ thống thực thi)
2.3 Ontology
Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽ trong thời gian gần đây Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên, công nghệ tri thức, các hệ thống trao đổi, tích hợp thông tin cho đến biểu diễn và quản lý tri thức
3- Ontology là biểu diễn của tri thức trong một lĩnh vực nào đó
4- Định nghĩa của Gruber vào năm 2008:
- Trong ngữ cảnh khoa học máy tính và thông tin: Ontology được định nghĩa
là một tập hợp các yếu tố (lớp, thuộc tính, mối quan hệ) cơ bản dùng để mô hình hóa một lĩnh vực tri thức
- Trong ngữ cảnh của các hệ thống cơ sở dữ liệu: Ontology có thể được xem
như là một mức trừu tượng của các mô hình dữ liệu, tương tự cho các mô hình phân cấp và quan hệ nhưng dùng để mô hình hóa tri thức về các cá thể, các thuộc tính và
các mối quan hệ của chúng đến các cá thể khác
2.3.2 Các thành phần của ontology
Ontology được xây dựng thường có các thành phần cơ bản sau: Các lớp (class) (tương ứng với các concept – khái niệm), các thuộc tính (property hay role, slot), các quan hệ (relation), các thực thể hay thể hiện (instance), các hàm (function), các tiền
đề (Axioms)
Trang 35Chương 2 – Cơ sở lý thuyết
2.3.3 Phân loại ontology
Về cơ bản có các loại ontology sau: Ontology biểu diễn tri thức (Knowledge representation Ontology), Ontology tổng quát (Generic Ontology), Metadata ontology, Ontology lĩnh vực, Ontology tác vụ (Tast Ontology), Ontology lĩnh vực – tác vụ (Domain – Tast Ontology), Ontology ứng dụng (Application Ontology), Ontology chỉ mục (Index Ontology), Ontology hỏi và trả lời (Tell and Ask Ontology)
Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữ tri thức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khi ontology tác vụ, ontology lĩnh vực – tác vụ liên quan đến tri thức giải quyết vấn đề Tất cả các ontology này có thể kết hợp với nhau để xây dựng lên một ontology mới
Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạp của mô hình biểu diễn ontology: Lightweight ontology chứa các khái niệm, phân cấp khái niệm, mối quan hệ giữa các khái niệm và các thuộc tính mô tả khái niệm; Heavyweight ontology bổ sung vào lighweight ontology các tiền đề, hàm và ràng buộc
2.3.4 Vai trò của Ontology
− Chia sẻ sự hiểu biết chung giữa các ứng dụng và con người, hiểu biết về cấu trúc thông tin giữa con người và các tác tử
− Cho phép sử dụng lại tri thức Ví dụ, nếu một nhóm nghiên cứu đã phát triển các ontology, nhóm khác có thể sử dụng lại cho ứng dụng của họ
− Làm rõ lĩnh vực quan tâm, đưa ra các giả thiết rõ ràng về miền: tạo điều kiện thay đổi khi tri thức về lĩnh vực thay đổi, các đặc tả rõ ràng về miền tri thức sẽ giúp cho người mới dễ tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quan tâm
− Phân tách hay tách rời tri thức lĩnh vực với tri thức xử lý: có thể hình dung một tác vụ tạo một tài liệu học tập từ nhiều thành phần theo đặc tả thì độc lập với chương trình ứng dụng làm nhiệm vụ này
− Phân tích tri thức: Phân tích hình thức của các khái niệm, cần thiết cho việc tái sử dụng và mở rộng ontology Muốn kế thừa hay sử dụng một ontology ta phải
Trang 36Chương 2 – Cơ sở lý thuyết
phân tích và tìm hiểu các khái niệm và quan hệ giữa chúng trong ontology đó
2.3.5 Các ứng dụng dựa trên Ontology
Hiện nay nhu cầu về ontology ngày càng tăng cao và ontology không những phục vụ cho nhu cầu chia sẻ tri thức đơn thuần mà còn được áp dụng vào nhiều lĩnh vực khác nhau như các hệ thống quản lý tri thức, rút trích thông tin, thương mại điện
tử, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, cơ sở dữ liệu, quản lý thông tin đa ngôn ngữ, khai phá tri thức, học máy, trong công nghệ phần mềm, trong kiến trúc đa tác
tử hay trong các hệ thống bảo mật, … Ontology cung cấp nguồn thông tin giàu ngữ nghĩa giúp cho các hệ thống thực hiện các tác vụ với kết quả tốt hơn
Trong thương mại điện tử, ontology được sử dụng để mô tả các sản phẩm khác nhau và được ứng dụng vào việc định vị và tìm kiếm sản phẩm tự động với các thông tin có sẵn Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng Ngoài
ra, ontology còn có công dụng giúp cho các hệ thống tự động giao tiếp với nhau dễ dàng Các trang web hoạt động như là cổng thông tin chung, có nhiệm vụ thực hiện các biến đổi trên ontology giữa bên bán và bên mua
Hiện nay đã có nhiều hệ thống hỗ trợ giáo dục được xây dựng theo cách tiếp cận sử dụng ontology và các công nghệ Web có ngữ nghĩa Dựa trên các tính năng của hệ thống mà ta có thể phân loại chúng thành ba nhóm chủ yếu sau: Các hệ thống chia sẻ tài nguyên giáo dục trực tuyến: GEM - Gateway to Educational Materials (thegateway.org), Connexions (cnx.rice.edu); Các mạng chia sẻ ngang hàng về tài nguyên giáo dục: POOL - Portal for Online Objects in Learning , Edutella (www.edutella.org); các hệ thống Elearning dựa trên ontology: PIP - Personalized Instruction Planner, TANGRAM
Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3 mục đích: (i) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong ứng dụng; (ii) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (iii) xây dựng các chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu
2.4 Thư viện hỗ trợ tìm kiếm văn bản Lucene
Trang 37Chương 2 – Cơ sở lý thuyết
Năm 1998, Doug Cutting – từng là nhân viên của Excite, Yahoo, và đang làm việc tại Apache Software Foundation - đã bắt đầu tiến hành xây dựng thư viện tìm kiếm thông tin mã nguồn mở Lucene với mục tiêu phát triển nó thành một thư viện tìm kiếm tài liệu hoàn chỉnh, cho phép các nhà phát triển ứng dụng dễ dàng tích hợp chức năng tìm kiếm vào hệ thống của mình Lucene là một thư viện tìm kiếm thông tin có khả năng xử lý và khả năng mở rộng ở mức cao, cho phép chúng ta có thể tích hợp vào các ứng dụng Lucene là một dự án mã nguồn mở và nguyên thuỷ được phát triển bằng ngôn ngữ Java, ngày nay Lucene được phát triển bằng nhiều ngôn ngữ khác nhau như Delphi, Perl, C#, C++, Python, Ruby và PHP…
Để có thể sử dụng Lucene, ta cần phải có sẵn dữ liệu Dữ liệu có thể là tập hợp các tập tin dạng PDF, Word hay là các trang web HTML; hoặc là dữ liệu lưu trong các hệ quản trị CSDL như MS SQL Server hay MySQL Dùng Lucene, ta có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau này có thể thực hiện thao tác tìm kiếm toàn văn trên dữ liệu đó Nó cũng cho phép người dùng kế thừa và phát triển
để phù hợp với nhiều ngôn ngữ khác nhau
Lucene cho phép tạo chỉ mục và tìm kiếm trên ứng dụng của ta Các IR Library là các search engines chứ không phải các web search engine
Dùng Lucene, có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau này
bao gồm:
Lucene coi mỗi đối tượng cần đánh chỉ mục là một Document Mỗi Document có thể có nhiều Field, mỗi Field tương ứng một thuộc tính của đối tượng cần đánh chỉ mục Ví dụ, muốn tìm kiếm các trang web ở dạng HTML Như vậy đối tượng cần đánh chỉ mục là trang HTML, các thuộc tính có thể là nơi lưu trữ (host), đường dẫn, tiêu đề, metadata và nội dung của chính trang web
Với mỗi Field, có thể chọn giữa đánh chỉ mục hay không đánh chỉ mục Nếu chọn đánh chỉ mục, có thể tìm kiếm trên Field đó Các Field không đánh chỉ mục thường là các Field không quan trọng trong quá trình tìm kiếm và phục vụ chủ yếu
Trang 38Chương 2 – Cơ sở lý thuyết
cho nhu cầu trình bày kết quả trả về
Cần phải tự xây dựng các hàm công cụ để chuyển đổi dữ liệu ban đầu thành dữ liệu mô tả trong Document Ví dụ, nếu dữ liệu ban đầu của bạn là tập tin PDF hay Word, phải có các hàm để đọc hiểu các định dạng này và chuyển về dạng chuỗi văn bản tương ứng Thao tác đánh chỉ mục khá phức tạp Trước hết dữ liệu văn bản sẽ được phân tích thành các từ khóa, đồng thời loại bỏ các từ không dùng đến (stop words, trong tiếng Anh các từ như a, an, the là các stop words), sau đó các từ khóa sẽ được dùng để tạo inverted index (chỉ mục nghịch đảo) và lưu thành các phân đoạn (segments) dạng thuận tiện cho việc tìm kiếm sau này
Sau khi dữ liệu đã được đánh chỉ mục, có thể thực hiện tìm kiếm trên chúng Tìm kiếm toàn vẹn cho phép tìm kiếm theo danh sách các từ khóa cùng với các toán tử luận lí (AND, OR, NOT)
Ví dụ, có thể chỉ định: “Trường Cao đẳng Nghề” NOT (“Khoa Điện” AND
“Khoa Cơ khí”) cho câu truy vấn Ngoài ra điểm nổi bật khác của tìm kiếm toàn văn là cho phép xếp hạng các kết quả trả về tùy vào độ tương đồng (relevance) giữa câu truy vấn và kết quả tìm kiếm
Thành phần cốt lõi của Lucene
Nhóm 1: Lập chỉ mục
IndexWriter: là thành phần trung tâm của tiến trình lập chỉ mục Lớp này tạo
chỉ mục mới và thêm các tài liệu vào chỉ mục đã có (IndexWriter như một đối tượng cho ta cách truy cập đến chỉ mục, nhưng không cho đọc và tìm kiếm)
Directory: cho biết vị trí của Lucene index
Analyzer: trích xuất các token từ văn bản (dạng text), đồng thời nó loại bỏ
stopword (a, an, the, in, on)
Document: thể hiện một tập hợp các Field (chunk of data) Ví dụ: trang web,
thông điệp email, tập tin văn bản
Trang 39Chương 2 – Cơ sở lý thuyết
Field: là một mẩu dữ liệu (piece of data) mà nó được dùng để truy vấn trong
suốt quá trình tìm kiếm từ chỉ mục
Nhóm 2: Tìm kiếm
IndexSearcher: tìm kiếm từ chỉ mục đã được lập bởi IndexWriter (hay nói
cách khác là IndexSearcher mở index đã được tạo IndexWriter để đọc)
Term: là một đơn vị (unit) cho tìm kiếm Tương tự như Field, nó là một chuỗi
tên trường và giá trị
Query: chứa các phương thức truy tìm, nó bao gồm các lớp (TermQuery,
BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery, SpanQuery)
Hits: chứa các con trỏ đến các kết quả tìm kiếm
Lucene không phải là một ứng dụng hay một máy tìm kiếm hoàn chỉnh để người dùng có thể sử dụng ngay, đây chỉ là một thư viện, nó cung cấp các thành phần quan trọng nhất của một máy tìm kiếm đó là tạo chỉ mục và truy vấn Chính vì chỉ cung cấp các thành phần quan trọng trong việc tạo chỉ mục nên người dùng rất linh hoạt trong việc ứng dụng vào sản phẩm của mình, cũng như có một số cải tiến cho phù hợp hơn