1. Trang chủ
  2. » Luận Văn - Báo Cáo

HỆ hỗ TRỢ VIỆC tư vấn TUYỂN SINH tại TRƯỜNG CAO ĐẲNG NGHỀ TỈNH bà rịa – VŨNG tàu

78 201 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 8,08 MB

Nội dung

- Xây dựng giải pháp tìm kiếm: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ thống sẽ phân tích và so khớp với bộ câu hỏi có sẵn để đưa ra câu trả lời, nếu không có trong bộ câu hỏi thì

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



TRẦN LỆ THỦY

HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI

TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU

LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



TRẦN LỆ THỦY

HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI

TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU

LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS ĐỖ VĂN NHƠN

Trang 4

Lời cảm ơn

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến PGS.TS Đỗ Văn Nhơn, người thầy đã tận tình hướng dẫn và có những lời khuyên, những đóng góp rất quý báu, giúp cho tôi định hướng và hoàn thành được luận văn

Tôi xin chân thành cảm ơn quý thầy cô trường Đại học Công nghệ thông tin đã chỉ dạy cho tôi nhiều kiến thức bổ ích trong suốt thời gian học tập tại trường

Cho tôi được gửi lòng biết ơn trân trọng đến những người lãnh đạo cơ quan, đã tạo điều kiện thuận lợi để tôi công tác và học tập

Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý kiến quý báu, qua đó giúp tôi hoàn thiện đề tài này

Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo cáo nghiên cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài

Luận văn đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh khỏi thiếu sót

Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô và các bạn

Một lần nữa tôi xin chân thành cảm ơn!

Tp Hồ Chí Minh, ngày 28 tháng 11 năm 2017

Học viên thực hiện

Trần Lệ Thuỷ

Trang 5

Lời cam đoan

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi, các kết quả đưa ra trong luận văn có được qua quá trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn- Thầy PGS-TS Đỗ Văn Nhơn

Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, các bài báo-tạp chí khoa học, các nghiên cứu, các website được liệt kê

trong danh mục các tài liệu tham khảo

Tp Hồ Chí Minh, ngày 28 tháng 11 năm 2017

Người cam đoan

Trần Lệ Thuỷ

Trang 6

Mục lục

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN i

DANH MỤC HÌNH VẼ, ĐỒ THỊ i

DANH MỤC BẢNG i

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN 4

1.1 Tình hình nghiên cứu và ứng dụng liên quan: 4

1.2 Mục tiêu đề tài 4

1.3 Đối tượng và phạm vi nghiên cứu 9

1.4 Phương pháp nghiên cứu 10

1.5 Ý nghĩa của đề tài 10

1.6 Bố cục của đề tài 11

Chương 2 - CƠ SỞ LÝ THUYẾT 12

2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin 12

2.1.1 Khái niệm về tìm kiếm thông tin 12

2.1.2 Cấu trúc của một hệ thống truy tìm thông tin 12

2.2 Các mô hình và phương pháp tìm kiếm thông tin 16

2.2.1 Truy hồi thông tin theo hướng thống kê 16

2.2.1.1 Mô hình Boolean 17

2.2.1.2 Mô hình Boolean cải tiến (Advanced Boolean Model ) 17

2.2.1.3 Mô hình không gian Vector(Vector Space Model) 18

2.2.1.4 Latent Semantic Indexing - LSI 21

2.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm 22

2.2.3 Đánh giá một hệ thống tìm kiếm thông tin 24

2.3 Ontology 25

2.3.1.Định nghĩa 25

2.3.2 Các thành phần của ontology 25

2.3.3 Phân loại ontology 26

Trang 7

Mục lục

2.3.4 Vai trò của Ontology 26

2.3.5 Các ứng dụng dựa trên Ontology 27

2.4 Thư viện hỗ trợ tìm kiếm văn bản Lucene 27

CHƯƠNG 3 - PHÂN TÍCH, THIÊT KẾ HỆ THỐNG 31

3.1 Các chức năng của hệ thống 31

3.1.1 Mục tiêu ứng dụng 31

3.1.2 Chức năng của hệ thống 31

3.2 Kiến trúc tổng quan của hệ hống 34

3.3 Mô hình cơ sở dữ liệu phục vụ việc lưu trữ 35

3.4 Thiết kế xử lý 43

3.4.1 Chức năng tìm kiếm theo câu hỏi 43

3.4.2 Chức năng tìm kiếm theo từ khóa 46

3.4.2 Chức năng tìm kiếm theo chủ đề 47

CHƯƠNG 4 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 49

4.1 Cài đặt hệ thống 49

4.1.1 Nền tảng công nghệ 49

4.1.2 Giao diện chương trình 49

4.2 Dữ liệu và kết quả thử nghiệm 55

4.3 Đánh giá: 64

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65

5.1 Kết quả đạt được của luận văn 65

5 2 Hạn chế và hướng phát triển 65

Trang 8

Danh mục hình vẽ, đồ thị

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 1 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh 7

Hình 2 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin 13

Hình 2 2: Quy trình đánh chỉ mục 15

Hình 3 1: Các chức năng chính của chương trình 31

Hình 3 2: Biểu đồ Usecase của tác nhân Người quản lý 33

Hình 3 3: Biểu đồ Usecase của tác nhân Người sử dụng 34

Hình 3 4: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin 35

Hình 3 5: Mô hình thực thể kết hợp 36

Hình 3 6: Lược đồ cơ sở dữ liệu 37

Hình 3 7: Ví dụ mô tả nội dung của table Nghề 38

Hình 3 8: Ví dụ mô tả nội dung của table hệ đào tạo 39

Hình 3 9: Ví dụ mô tả nội dung của table tài liệu 40

Hình 3 11: Ví dụ mô tả nội dung của table câu hỏi 40

Hình 3 12: Ví dụ mô tả nội dung của table Trả lời 41

Hình 3 14: Lưu đồ thuật toán tìm kiếm theo câu hỏi 43

Hình 3 15: Lưu đồ thuật toán tìm kiếm theo từ khóa 46

Hình 3 16: Các bước thực hiện tìm kiếm nội dung theo chủ đề 48

Hình 4 1: Màn hình đăng nhập hệ thống 49

Hình 4 2: Các chức năng của menu File 50

Hình 4 3: Các chức năng của menu Quản trị 50

Hình 4 4: Các chức năng của menu Quản lý tài liệu 50

Hình 4 5: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 51

Hình 4 6: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 52

Hình 4 7: Màn hình tiếp tìm kiếm kết quả theo chuyên mục 53

Trang 9

DANH MỤC BẢNG

Bảng 3 1: Mô tả bảng NGHE 37

Bảng 3 2: Mô tả bảng TUKHOA 38

Bảng 3 3: Mô tả bảng HEDAOTAO 38

Bảng 3 4: Mô tả bảng TAILIEU 39

Bảng 3 5: Mô tả bảng CAUHOI 40

Bảng 3 6: Mô tả bảng TRALOI 41

Bảng 3 7: Mô tả bảng Từ khóa tài liệu 41

Bảng 3 8: Mô tả bảng Từ khóa câu hỏi 42

Bảng 3 9: Minh họa cho câu hỏi chính xác 44

Bảng 3 10: Danh sách câu hỏi kèm câu trả lời minh họa cho câu hỏi có nội dung gần với câu truy vấn 44

Bảng 4 1: Diễn giải màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi 51

Bảng 4 2: Diễn giải màn hình tìm kiếm thông tin theo từ khóa của câu hỏi trong bộ câu hỏi 52

Bảng 4 3: Diễn giải màn hình tìm kiếm thông tin theo chuyên mục 53

Bảng 4 4: Diễn giải màn hình tiếp nhận từ khóa và tìm kiếm kết quả theo tài liệu 54 Bảng 4 5: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung chính xác câu hỏi thuộc bộ câu hỏi và kết quả 55

Bảng 4 6: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung gần với câu hỏi thuộc bộ câu hỏi và kết quả 57

Bảng 4 7: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả 59

Bảng 4 8: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với độ ưu tiên ( score) >=200 61

Bảng 4 9: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với độ ưu tiên ( score) >=300 63

Trang 10

Mở đầu

MỞ ĐẦU

Nghề nghiệp là phương tiện đảm bảo cuộc sống vật chất và tinh thần của con người, nghề nghiệp vững vàng sẽ đem lại niềm vui và hạnh phúc cho con người Để thành công trong cuộc đời, trong sự nghiệp con người cần phải biết lựa chọn cho mình một nghề phù hợp nhất

Trên thực tế có rất nhiều người thất nghiệp hay làm việc không đúng chuyên môn là khá phổ biến, họ thấy khó khăn trong việc đáp ứng yêu cầu của nghề, không cảm thấy hứng thú, gắn bó với nghề

Việc chọn ngành nghề của số này phần lớn là do định hướng của bố mẹ, theo đuôi bạn bè, cho nên thường dẫn đến việc chọn sai nghề Đây là một nguyên nhân rất quan trọng dẫn đến việc hao phí thời gian, tiền bạc của gia đình, nhà trường và không phát huy hết các khả năng tiềm ẩn của người học

Qua số liệu khảo sát từ năm 2010-2016 tại Trường Cao đẳng nghề Tỉnh Bà Rịa – Vũng Tàu, đã cho chúng ta thấy một số khó khăn hiện nay đối với nhà trường như:

Số lượng học sinh bỏ học không giảm, có năm tăng cao hơn năm trước

Học sinh thay đổi nghề sau khi nhập học cao

Với kết quả phân tích, đánh giá số liệu trên, nhà Trường đã rút ra được một trong những nguyên nhân chính là do khả năng nhận thức và tự đánh giá về năng lực, tính cách, sở thích bản thân của người học còn nhiều hạn chế, chưa hiểu rõ được bản chất của từng ngành nghề phải làm những gì, những yêu cầu của nghề dẫn đến việc người học chọn nghề không phù hợp với bản thân

Để khắc phục các khó khăn trên, về phía nhà Trường, cũng đã cố gắng nâng cao chất lượng tư vấn hướng nghiệp khi học sinh đăng ký học, nhưng kết quả vẫn chưa khả quan Các hạn chế tồn tại của công tác tư vấn hướng nghiệp khi triển khai là:

Trang 11

Mở đầu

Số lượng cán bộ tư vấn ít , đa số là làm công tác kiêm nhiệm, không được đào tạo bài bản về tư vấn hướng nghiệp, mỗi người chuyên về một ngành nghề nhất định, không am hiểu hết về tất cả các nghề đào tạo của nhà trường, ….Nên dẫn đến trong qua trình tư vấn hướng nghiệp, tư vấn tuyển sinh chưa trả lời một cách thỏa đáng các câu hỏi chuyên sâu về ngành nghề cho phụ huynh và học sinh như: yêu cầu của nghề đối với người lao động (sứa khỏe, trình độ, sở trường….), nội dung học, cơ hội việc làm,… mà chỉ mới cung cấp một số thông tin cơ bản về chỉ tiêu tuyển sinh, tên ngành nghề nên chất lượng tư vấn không cao

Thông tin về các ngành nghề của nhà trường chưa được lưu trữ một cách bài bản, có hệ thống, dẫn đến việc nghiên cứu khai phá tri thức chưa có điều kiện thực hiện Việc tư vấn hướng nghiệp hoàn toàn dựa trên tri thức của cán bộ tư vấn trực tiếp

Hậu quả của những vấn đề nêu trên là:

Về phía nhà trường: Tốn kém về thời gian, nhân lực cho công tác tuyển sinh

và đào tạo; Khả năng đào tạo bị đánh giá thấp khi năng lực làm việc của người học không cao; Số lượng tuyển sinh không đảm bảo chỉ tiêu; Kế hoạch đào tạo bị ảnh hưởng khi xếp lớp

Về phía gia đình và bản thân người học: Tốn kém về chi phí và thời gian khi theo học; Năng lực của người học không được phát huy tối đa khi đi học; Khi ra trường làm việc không hiệu quả; Tìm kiếm việc làm khó khăn

Để góp phần tăng cường chất lượng của công tác tư vấn hướng nghiệp cho

người học khi tuyển sinh, đạt được mục tiêu là:

- Nâng cao số lượng và chất lượng tuyển sinh

- Giảm thiểu số lượng học sinh bỏ học

- Giảm thiểu số lượng học sinh thay đổi nghề khi nhập học

- Quảng bá các nghề nhà Trường đang đào tạo

Trang 13

Chương 1 – Tổng quan

CHƯƠNG 1 TỔNG QUAN 1.1 Tình hình nghiên cứu và ứng dụng liên quan:

Năm 2012, Luận văn Thạc sĩ của Nguyễn Thị Thanh Hà tại Đại học Đà Nẵng

về đề tài “Xây dựng hệ chuyên gia tư vấn hướng nghiệp cho học sinh trường trung học phổ thông “ [1] đã xây dựng hệ chuyên gia tư vấn và hướng nghiệp cho học

sinh phổ thông tại trường phổ thông trung học Hùng Vương, Quy Nhơn dùng cho đối tượng là các học sinh tốt nghiệp phổ thông trung học chọn lựa nghề nghiệp bằng các trắc nghiệm Jonh Holland sử dụng thuật toán suy diễn tiến trong hệ chuyên gia

để đo mức độ phù hợp của học sinh với nghề nghiệp

Cùng năm đó, Luận văn Thạc sĩ của Huỳnh Tấn Dựng tại Đại học Đà Nẵng

về đề tài “Ứng dụng công nghệ tri thức xây dựng hệ thống hỗ trợ hỏi đáp trong tư vấn tuyển sinh đào tạo”[2] đã ứng dụng công nghệ tri thức để xây dựng hệ thống

hỏi đáp về tuyển sinh tại trường Cao đẳng Kỹ thuật Y tế II về mức độ phù hợp của một cá nhân với nghề nghiệp cũng dựa trên trắc nghiệm Jonh Holland dành cho đối tượng sử dụng là học sinh và phụ huynh quan tâm đến định hướng nghề nghiệp

Năm 2016, Luận văn Thạc sĩ của Phạm Thị Trúc Mai với đề tài “Xây dựng

hệ thống hỗ trợ tư vấn tuyển sinh cho trường Đại học Trà Vinh “ [3] đã thiết kế giải

pháp tư vấn tuyển sinh cho trường Đại học Trà Vinh dựa trên sự phân tích sâu hai

cơ sở lý thuyết chọn nghề nghiệp là lý thuyết cây nghề nghiệp và lý thuyết mật mã Holland cùng với mô hình kiến trúc của hệ chuyên gia đã phần nào giúp ích được các em học sinh, thí sinh, phụ huynh có thêm công cụ trong việc chọn nghề nghiệp cho tương lai một cách nhanh chóng, hài lòng và có cơ sở khoa học hơn

Tuy nhiên, hầu hết các nghiên cứu, ứng dụng trên đều dành cho đối tượng

là học sinh tốt nghiệp phổ thông trung học Sử dụng công nghệ tri thức, xử lý văn bản, hệ chuyên gia,… cùng với bộ trắc nghiệm lý thuyết nghề nghiệp của Jonh Holland để tư vấn cho người học trong chọn lựa nghề nghiệp phù hợp theo tính cách, năng lực bẩm sinh của cá nhân

1.2 Mục tiêu đề tài

Trang 14

Chương 1 – Tổng quan

Xã hội ngày càng phát triển, vấn đề năng suất và hiệu quả lao động ngày càng trở nên quan trọng Con người là chủ thể hoạt động nên chính con người quy định ở chừng mực đáng kể năng suất và hiệu quả của hoạt động lao động nghề nghiệp Tuy nhiên, khả năng của con người rất khác nhau và thế giới nghề nghiệp cũng vô cùng phong phú, đa dạng, mỗi nghề đòi hỏi những khả năng khác nhau ở người lao động

Ví dụ: các nghề trong lĩnh vực nghệ thuật cần trước hết óc thẩm mỹ, tưởng tượng nghệ thuật và khả năng tư duy hình ảnh Các nghề tiện, nguội, phay, bào… thuộc lĩnh vực cơ khí đòi hỏi khả năng ước lượng bằng mắt kích thước của các vật thể, cảm giác nhạy bén của đầu ngón tay về độ nhẵn bề mặt của vật thể Các nghề thêu, ren… trong lĩnh vực thủ công mỹ nghệ truyền thống cần đến sự khéo léo của các ngón tay, thị giác tốt, tính kiên trì, tỉ mỉ, khả năng phân biệt và phối hợp màu sắc tốt… Những người đạt năng suất, chất lượng và hiệu quả lao động cao ở một nghề nào đó thường là những người có sự phù hợp với nghề đã chọn về mặt tâm sinh lý

Sự phù hợp nghề là tập hợp những đặc điểm tâm sinh lý bảo đảm cho con người đạt kết quả cao trong lao động nghề nghiệp

Như vậy, vấn đề đặt ra là muốn có hiệu quả lao động nghề nghiệp cao thì phải tuyển chọn được những người có sự phù hợp nghề ở mức độ cần thiết vào học hay làm việc ở nghề tương ứng

Tư vấn nghề được hiểu là việc đối chiếu những yêu cầu của nghề, yêu cầu của thị trường lao động với hứng thú, khuynh hướng và năng lực của học sinh, cùng với học sinh hình thành quyết định nên chọn nghề nào cho phù hợp với bản thân, sớm

đề phòng được hiện tượng chán nghề, đổi nghề hoặc bỏ nghề sau này

Trang 15

Chương 1 – Tổng quan

- Tư vấn chẩn đoán nhằm làm bộc lộ hứng thú, thiên hướng, năng lực và những phẩm chất nghề chuyên biệt của con người trên cơ sở nghiên cứu và đo đạc (nhân trắc) con người một cách toàn diện Mục đích của tư vấn chẩn đoán là xác định trong những lĩnh vực hoạt động nào con người có thể lao động thành công nhất, tức là đem lại lợi ích tối đa cho xã hội, đồng thời đưa lại niềm vui và sự hài lòng cho bản thân người lao động

- Tư vấn y học nhằm làm bộc lộ sự phù hợp giữa trạng thái sức khỏe với yêu cầu của nghề mà một người lựa chọn Nếu như người đó mắc một trong những chứng bệnh thuộc loại chống chỉ định của nghề thì người cán bộ tư vấn sẽ khuyên nên chọn một nghề khác gần gũi với thiên hướng và hứng thú, đồng thời phù hợp với trạng thái sức khỏe của người đó Chẳng hạn, những người rối loạn sắc giác sẽ không được chọn những ngành giao thông vận tải, thông tin tín hiệu, v.v…

- Tư vấn hiệu chỉnh được tiến hành trong trường hợp ý định nghề nghiệp của con người không phù hợp với khả năng và năng lực thực tế của họ Trong trường hợp này, kế hoạch nghề nghiệp của cá nhân cần được xem xét và uốn nắn lại cho phù hợp với tình hình Ví dụ, trên cơ sở những cứ liệu thu được khi nghiên cứu nhân cách con người, cán bộ tư vấn sẽ khuyên thanh thiếu niên nên chọn một nghề khác phù hợp hơn với những đặc điểm tâm sinh lý của mình

Theo đề án phân luồng học sinh sau khi tốt nghiệp trung học cơ sở hiện nay thì số lượng học sinh tốt nghiệp trung học cơ sở đi học nghề ngày một tăng cao, vì vậy số lượng học sinh tốt nghiệp trung học cơ sở đăng ký học nghề tại Trường Cao đẳng nghề hàng năm cũng tăng lên đáng kể

Hàng năm số lượng tuyển sinh hệ trung cấp của nhà trường ( dành cho đối tượng tốt nghiệp trung học cơ sở) luôn luôn cao gần gấp đôi học sinh hệ Cao đẳng nhưng tỷ lệ nghỉ, bỏ học giữa chừng của đối tượng này cũng cao hơn nhiều, có năm lên đến hơn 30% [4]

Mặt khác những nghề đang đào tạo tại trường đều thuộc nhóm nghề kỹ thuật, có những nghề nếu nghe qua thì sẽ thấy giống nhau nên nếu làm trắc nghiệm

Trang 16

Chương 1 – Tổng quan

Holand như các ứng dụng trên sẽ chưa thực sự hiệu quả đối với đối tượng học sinh đăng ký vào trường vì mỗi ngành nghề lại có những yêu cầu cụ thể hơn

Ngoài ra trong quá trình tư vấn tuyển sinh, có những câu hỏi của phụ huynh

và học sinh chuyên sâu về từng ngành nghề cụ thể mà nhân viên tư vấn chưa nắm rõ

để trả lời

Vì vậy, với yêu cầu đặt ra là tìm kiếm thông tin từ các nghề thuộc nhóm nghề Điện, Cơ khí dữ liệu thu thập được, cần áp dụng các phương pháp khai thác thông tin trên dữ liệu để trả lời các truy vấn Những mục tiêu mà luận văn cần giải

quyết gồm:

- Xây dựng mô hình tổ chức biểu diễn thông tin và giải pháp lưu trữ các thông tin về ngành nghề đang đào tạo tại nhà trường thuộc khoa Điện và Cơ khí như: yêu cầu của nghề đối với người lao động (sức khỏe, trình độ, sở trường….), nội dung học, cơ hội việc làm,…

- Xây dựng giải pháp tìm kiếm: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ thống sẽ phân tích và so khớp với bộ câu hỏi có sẵn để đưa ra câu trả lời, nếu không

có trong bộ câu hỏi thì sẽ so sánh sự tương đồng của từ khóa trong câu truy vấn với các tài liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản khi tìm thấy

Mục tiêu của đề tài được mô tả tổng quan như sau:

Hình 1 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh

Trong đó:

+ Đầu vào: các câu hỏi, từ khóa

+ Chương trình: Là hệ thống xử lý câu truy vấn, tìm kiếm câu trả lời hoặc các tài liệu bằng phương pháp tìm kiếm từ khóa

Câu hỏi, từ

khóa Chương trình Câu trả lời, tài liệu

Trang 17

Câu hỏi: Nghề Cắt gọt kim loại khác nghề Chế tạo khuôn mẫu như thế nào?

+ Đầu ra: Câu hỏi này có trong bộ câu hỏi đã được thu thập, vì vậy sẽ hiển thị câu

trả lời

Câu trả lời:

Nghề chế tạo khuôn mẫu: Ngoài học gia công cắt gọt kim loại (nghề cắt

gọt kim loại) thì phải học kiến thức về kết cấu khuôn (khuôn ép nhựa, khuôn dập, khuôn kim loại…), học thiết kế khuôn và gia công chế tạo khuôn Muốn gia công chế tạo khuôn được thì phải học các modul giống như trong nghề cắt gọt kim loại (vd: tiện, phay, cnc, mài…), chuyên sâu vào các máy chuyên gia công làm khuôn như phay cnc hoặc phay cơ,mài Nghề chế tạo khuôn mẫu ra trường vào làm các công ty gia công chế tạo khuôn hoặc gia công chế tạo các chi tiết khuôn…

Nghề cắt gọt kim loại: Phạm vi rộng hơn (không học các kiến thức chuyên

về khuôn mẫu như kết cấu khuôn hay thiết kế khuôn) Đối với nghề này phải học toàn bộ các máy công cụ chuyên gia công cắt gọt kim loại như mài, tiện, phay, …Nghề cắt gọt kim loai ra trường có thể phục vụ cho nghề chế tạo khuôn mẫu và vào làm các công ty gia công cơ khí chính xác … Thường đứng máy lập trình gia công Không có kiến thức khuôn nên không thể vào làm thiết kế hay lắp ráp khuôn được

Trang 18

Chương 1 – Tổng quan

+ Đầu ra: Hiển thị danh sách các câu hỏi, tài liệu gần với câu hỏi nhập vào

Danh sách câu hỏi gần với câu truy vấn Trả lời

Trường có thi tuyển không? Trường xét tuyển theo học bạ

Trường xét tuyển học bạ hay kết quả thi

THPT quốc gia ?

Trường xét tuyển theo học bạ

Có phải thi tuyển đầu vào không? Trường xét tuyển theo học bạ, không

phải thi đầu vào?

Trường hợp 3:

+ Đầu vào:

Từ khóa: Cắt gọt kim loại

+ Đầu ra: Danh sách các tài liệu liên quan đến nghề “ cắt gọt kim loại”

1.3 Đối tượng và phạm vi nghiên cứu

+ Đối tượng nghiên cứu:

Các đối tượng nghiên cứu trong luận văn này là:

− Văn bản hành chính, mô tả, yêu cầu của các ngành nghề đang được đào tạo tại trường thuộc khoa Điện và Cơ khí

− Lưu trữ thông tin bằng Cơ sở dữ liệu quan hệ

− Các phương pháp tìm kiếm theo từ khóa, ngữ nghĩa của từ khóa

− Các công cụ hỗ trợ, thuật toán, ngôn ngữ lập trình liên quan đến việc cài đặt các mô hình

+ Phạm vi:

Trang 19

Chương 1 – Tổng quan

Phạm vi về ngành nghề: Các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được

đào tạo tại trường Cao Đẳng nghề Tỉnh BR - VT, ngành nghề khác không thuộc phạm vi nghiên cứu của chương trình

Phạm vi về người dùng: Chương trình hỗ trợ cho các nhân viên tư vấn tuyển sinh tại

Phòng đào tạo của Trường chưa có kiến thức chuyên sâu về các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được đào tạo để trả lời tư vấn tuyển sinh

Phạm vi chương trình: Hỗ trợ nhân viên tư vấn có được thông tin cần thiết trên cơ

sở dữ liệu lưu trữ về các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được đào tạo tại trường để trả lời tư vấn tuyển sinh

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết:

- Nghiên cứu về khái niệm, các cách biểu diễn và lưu trữ tri thức

- Thu thập thống kê dữ liệu về các ngành nghề đào tạo, các dữ liệu cần thiết về tuyển sinh: câu hỏi cần tư vấn, chế độ, quy định liên quan đến đào tạo nghề

Phương pháp khảo sát, phân tích, đánh giá:

Khảo sát hiện trạng tư vấn tuyển sinh tại trường để từ đó tiếp cận và xây dựng đề tài Thu thập các câu hỏi về tuyển sinh nhất là các câu hỏi mà nhân viên tư vấn còn lúng túng vướng mắc trong quá trình trả lời tư vấn để làm tiền đề cho giai đoạn thiết kế đưa vào thực nghiệm Phân tích các phương pháp, giải thuật liên quan đến việc tổ chức và lưu trữ thông tin, tìm kiếm thông tin

Phương pháp nghiên cứu thực nghiệm:

Xây dựng bộ câu hỏi và câu trả lời tương ứng, xây dựng chương trình tìm kiếm thông tin dựa trên từ khóa và khái niệm ngữ nghĩa; triển khai thử nghiệm trên

cơ sở dữ liệu thực tế tại Trường Cao đẳng nghề Tỉnh BR – VT

1.5 Ý nghĩa của đề tài

Trang 20

Chương 1 – Tổng quan

Luận văn nghiên cứu cách biểu diễn, lưu trữ thông tin và kỹ thuật tìm kiếm để khắc phục các hạn chế đang tồn tại giúp:

- Tiết kiệm thời gian, công sức trong công tác tư vấn tuyển sinh

- Giảm thiểu tình trạng nghỉ học trong quá trình học do chọn sai nghề

- Phát huy năng lực và trí tuệ của người học

1.6 Bố cục của đề tài

Chương 1: Tổng quan Giới thiệu tổng quan về luận văn, ý nghĩa khoa học và thực

tiễn, mục tiêu nghiên cứu, những đóng góp của đề tài, đối tượng và phạm vi nghiên cứu, nội dung nghiên cứu, bố cục của luận văn

Chương 2: Cơ sở lý thuyết Trong chương này giới thiệu về thực trạng hiện tại về

lĩnh vực mà đề tài đang nghiên cứu, các nghiên cứu liên quan, hướng tiếp cận, giới thiệu các ưu và nhược điểm của phương pháp nghiên cứu liên quan đến đề tài

Chương 3: Phân tích, Thiết kế hệ thống Thực hiện việc phân tích, thiết kế cơ sở

dữ liệu, các phương pháp thiết kế xử lý dữ liệu

Chương 4: Cài đặt thử nghiệm và đánh giá Hệ thống cho phép tra cứu, tìm kiếm

tài liệu trong kho lưu trữ theo nhiều chức năng như dựa trên từ khóa và trên CSDL lưu trữ Tiến hành thực nghiệm đánh giá kết quả

Chương 5: Kết luận kết quả đạt được và hướng phát triển Kết luận về những hạn

chế của đề tài và hướng phát triển trong tương lai

Trang 21

Chương 2 – Cơ sở lý thuyết

Chương 2 - CƠ SỞ LÝ THUYẾT

Chương 2 trình bày cơ sở lý thuyết của Luận văn liên quan đến vấn đề tìm kiếm thông tin

2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin

2.1.1 Khái niệm về tìm kiếm thông tin

Tìm kiếm thông tin (Information Retrieval - IR) là tìm kiếm tài nguyên (thường là các tài liệu – documents) trên một tập các dữ liệu phi cấu trúc (thường là các văn bản dạng Text) được lưu trữ trên máy tính nhằm thỏa mãn nhu cầu về thông tin

2.1.2 Cấu trúc của một hệ thống truy tìm thông tin

Hầu hết các hệ thống tìm kiếm thông tin (gọi tắt là hệ thống IR) là hệ thống truy tìm tài liệu để truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữ liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin của người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên quan đó Tài liệu là các mẫu văn bản, hình ảnh, âm thanh, video Có hai khái niệm quan trọng luôn đề cập đến đó là tài liệu và câu truy vấn

Hệ thống thông tin bao gồm một tập hợp các yếu tố thông tin, một tập các yêu cầu và một vài cơ chế tìm kiếm để quyết định yếu tố thông tin nào liên quan đến các yêu cầu Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu có được từ

sự so sánh trực tiếp Nhưng trên thực tế, sự liên quan giữa các câu truy vấn và tài liệu xác định không phải được quyết định trực tiếp mà gián tiếp bằng cách: các tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ chỉ mục trước khi xác định mức

độ liên quan Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu và hệ thống sẽ tìm trong các tập chỉ mục để tìm ra các tài liệu liên quan, sau đó sắp xếp các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng

Trang 22

Chương 2 – Cơ sở lý thuyết

Hình 2 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin

Cơ bản một hệ thống tìm kiếm thông tin luôn có ba thành phần như sau:

Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ tìm kiếm

đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ liệu, thành phần này được quản lý bởi môđun thu thập dữ liệu, môđun này sẽ thực hiện một số chức năng chính như: Quản lý kết nối tới nguồn cần thu thập, quản lý chi tiết đến từng loại (đối tượng) dữ liệu cần thu thập Sau đó thực hiện thu thập dữ liệu theo từng loại dữ liệu này Thiết lập và quản lý các kết nối tới nguồn dữ liệu cần thu

Thu thập dữ

CSDL thu thập

DB

Dữ liệu nguồn

Đánh chỉ mục Quản trị

Hiển thị kết quả theo thứ hạng

Xử lý chuối tìm kiếm

User

Giao diện tìm kiếm

Index 2 File

Index 1

Trang 23

Chương 2 – Cơ sở lý thuyết

thập, mỗi kết nối sẽ tương ứng với một nguồn dữ liệu, đại diện là một CSDL, và một CSDL có thể có một hoặc nhiều đối tượng dữ liệu cần thu thập Mỗi đối tượng

dữ liệu cần quản lý các thông tin đặc tả như: Nhóm các bảng (table) liên quan đến đối tượng dữ liệu cần thu thập, tại mỗi table phải chỉ ra các trường (field) đại diện cho table đó, quan hệ giữa các table và khoá quan hệ giữa các table Việc quản lý các thông tin đặc tả của từng đối tượng dữ liệu để phục vụ việc xây dựng các câu truy vấn (query) dữ liệu nguồn cần thu thập

Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ

liệu, sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của từng máy tìm kiếm cụ thể, thực hiện đánh chỉ mục dữ liệu này lưu vào các File index Giai đoạn này là phân tích tài liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung của tài liệu Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn, các chỉ mục trong cách làm này tồn tại trước và độc lập với tài liệu Cách thứ hai, lập chỉ mục là rút trích các chỉ mục từ chính nội dung của tài liệu (free text) Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mụcThành phần (môđun) này sẽ thực hiện các chức năng chính như: Tiền xử lý dữ liệu cần đánh index: Thực hiện loại bỏ các từ dư thừa, vô nghĩa, tách dữ liệu thành các từ, cụm từ,

xử lý Tiếng Việt có dấu và Tiếng Việt không dấu Phân tích và xác định các từ, cụm

từ thích hợp có khả năng đại diện cho nội dung của tài liệu Thực hiện đánh index cho dữ liệu sau khi thu thập dữ liệu lần đầu Sau một thời gian dữ liệu nguồn có sự thay đổi, bộ phận thu thập tiếp tục quá trình thu thập dữ liệu và bộ phận đánh chỉ mục sẽ tiến hành đánh chỉ mục, cập nhật file index, cập nhật quá trình đánh index, cập nhật lại kết quả và quá trình đánh index dữ liệu phục vụ công tác tra cứu, tìm kiếm và phân tích khi cần thiết Xếp hạng (ranking) cho tài liệu theo tần suất xuất hiện của các từ chỉ mục trong tài liệu, tần suất nghịch đảo của tài liệu, số term (field) trong câu truy vấn tìm thấy trong tài liệu

Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept) Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt

Trang 24

Chương 2 – Cơ sở lý thuyết

Hình 2 2: Quy trình đánh chỉ mục

Thành phần Tìm kiếm dữ liệu: nhu cầu thông tin của người sử dụng được đưa

vào hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn trong Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan (relevance), sau đó kết hợp với thông tin xếp hạng (Rank) để xếp hạng kết quả tìm kiếm và trả về kết quả tốt nhất lên đầu cho người dùng

Trong những năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi và cải tiến, xu hướng tìm kiếm hiện nay đang dịch chuyển từ mang tính chất cú pháp (syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm kiếm trên từ khóa (keyword) trở thành tìm kiếm trên khái niệm (concept) Các phương pháp truy hồi thông tin dựa trên khái niệm và ngữ nghĩa nhắm đến việc mô phỏng một ở một mức độ giới hạn khả năng hiểu về ý nghĩa của từ, cụm từ hay văn bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ Trong đó

Tách dữ liệu thành các từ,

cụm từ

Tính trọng số và loại bỏ những từ có trọng số thấp

Trang 25

Chương 2 – Cơ sở lý thuyết

nổi bật là hướng tiếp cận sử dụng ontology về tri thức của từng lĩnh vực để biểu diễn, xử lý nội dung và ý nghĩa của các tài liệu

Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm

− Hệ thống tìm kiếm thông tin dựa trên từ khóa: Hệ thống sử dụng một danh sách các từ khóa (keywords) hay thuật ngữ (term) để biểu diễn nội dung tài liệu và câu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo từ a, an, the,…), nghĩa là hệ thống giả định nếu một câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn để trả về cho người dùng Các mô hình tìm kiếm được sử dụng như mô hình Boolean, mô hình không gian vector, các

mô hình xác suất, mô hình LSI

− Hệ thống tìm kiến thông tin dựa trên khái niệm hay ngữ nghĩa: Nội dung của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc khái niệm Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên

và công nghệ ontology

2.2 Các mô hình và phương pháp tìm kiếm thông tin

2.2.1 Truy hồi thông tin theo hướng thống kê

Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean), Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models) Ý tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ (keyphrase) biểu thị một khái niệm khoa học

Trang 26

Chương 2 – Cơ sở lý thuyết

2.2.1.1 Mô hình Boolean

Định nghĩa mô hình truy hồi Boolean (Boolean retrieval model): là mô hình cho việc truy hồi thông tin Trong đó chúng ta có thể đặt ra bất kỳ truy vấn dưới dạng một biểu thức Boolean của các term, các term kết hợp với các phép toán AND,

OR, và NOT Mô hình này xem mỗi tài liệu như là một tập các từ (words) Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức phức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy

Ví dụ: Để trả lời câu truy vấn Brutus AND Caesar AND NOT Calpurnia, chúng ta đi theo vector cho Brutus, Caesar và Calpurnia từ đầu đến cuối và có kết quả so bit như sau: 110100 AND 110111 AND 101111 = 100100 Kết quả này cho biết cột 1 và cột 4 bật bit 1 Như thế tương ứng với kết quả trả về là quyển sách Antony and Cleopatra và quyển Hamlet

Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức phức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy

2.2.1.2 Mô hình Boolean cải tiến (Advanced Boolean Model )

Thậm chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc sai, “tất cả hoặc không có gì” (all – or – nothing) dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan hoặc là không có tài liệu nào Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bởi toán tử OR, một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng không được xem là tốt hơn

so với một tài liệu chỉ chứa một term Tương tự, trong trường hợp với toán tử AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp giống như một tài liệu không chứa term nào Từ những hạn chế nêu trên, nhiều mô hình Boolean mở rộng đã được nghiên cứu phát triển nhằm sắp hạng kết quả trả về Những mô hình này sử dụng nhiều toán tử Boolean mở rộng khác Ví dụ, một toán

tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng từ 0 đến 1

Trang 27

Chương 2 – Cơ sở lý thuyết

(thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình)

Ưu điểm của mô hình Boolean:

• Đơn giản, dễ hiểu, dễ cài đặt và sử dụng

• Mối quan hệ giữa các term hay thứ tự giữa chúng không được xét đến

• Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và câu truy vấn

• Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn Boolean

Nhằm khắc phục những hạn chế trong mô hình Boolean, một mô hình mới đã được đề xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy vấn thay thế cho việc so khớp chính xác theo cách tiếp cận Boolean

2.2.1.3 Mô hình không gian Vector(Vector Space Model)

Trong mô hình không gian vector, văn bản được thể hiện là các vector của các term Term này tiêu biểu cho các từ (word) và các cụm từ (keyphrase) Khi một từ được chọn làm term, thì khi đó mỗi từ trong bộ từ vựng trở thành một chiều độc lập trong mô hình không gian vector Bất kỳ văn bản nào cũng có thể được thể hiện bằng vector trong không gian với số chiều rất lớn Nếu một term thuộc một văn bản thì nhận giá trị khác không trong vector văn bản, cùng với chiều tương ứng cho

Trang 28

Chương 2 – Cơ sở lý thuyết

term đó Bởi vì bất kỳ văn bản nào cũng chứa một tập hợp các term trong hạn định (bộ từ vựng hàng triệu term) cho nên hầu hết các vector văn bản thì rất thưa thớt

Để gán điểm số cho một tài liệu (document) từ câu truy vấn, thì mô hình vector sẽ đo độ tương đồng giữa vector truy vấn và vector tài liệu Cho nên ý tưởng then chốt của giải pháp này là: xem các tài liệu và câu truy vấn là các vector trong không gian có số chiều cao Góc giữa 2 vector được dùng như một tiêu chuẩn để đánh giá sự khác nhau giữa các vector

Với mô hình không gian vector: các tài liệu và câu truy vấn được thể hiện là các vector có trọng số Sử dụng phép toán trên không gian vector để tính toán độ đo tương tự giữa câu truy vấn và các văn bản hoặc các từ khóa biểu diễn, kết quả sau khi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn

Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài liệu D có chiều là các đặc trưng fiF Một tài liệu d được biểu diễn như một vector ( 1 , 2 , )

w là trọng số của đặc trưng fi trong tài liệu d

và n = |F| Tương tự, câu truy vấn cũng được biểu diễn trong cùng một không gian tài liệu như một vector ( 1 , 2 , )

Trang 29

Chương 2 – Cơ sở lý thuyết

Trong đó, d

f

tf là tần số xuất hiện của đặc trưng f trong tài liệu d, N là số tài liệu

có trong bộ sưu tập và Nf là số tài liệu mà f xuất hiện

Sau khi đã biểu diễn tập tài liệu và câu truy vấn thành các vector trong không gian tài liệu, bước tiếp theo là tính toán độ tương quan (giống nhau) giữa chúng bằng cách sử dụng các độ đo sau:

- Inner-product (hoặc dot-product): , d q

n n

=+Trong đó: d là vector document, qlà vector truy vấn, n là số term chung của 2

vector d1và d2, n1 là số term khác 0 trong d1, n2 là số term khác 0 trong d2, N là tổng

số term trong không gian vector, z là số term không xuất hiện trong cả d1 và d2 (N –

z là số term có xuất hiện trong d1 hoặc d2 hoặc cả hai)

❑ Nhận xét về ưu điểm và khuyết điểm của mô hình không gian vector

* Ưu điểm:

− Đơn giản, dễ hiểu, dễ cài đặt

− Hệ thống đánh trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm

− Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tương đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thể được dùng để xếp hạng các tài liệu trả về

Trang 30

Chương 2 – Cơ sở lý thuyết

− Chiến lược so trùng một phần cho phép trả về các tài liệu phù hợp nhất, thỏa mãn với thông tin truy vấn của người dùng

− Mức độ trùng khớp có thể được dùng để xếp hạng các tài liệu, thứ bậc của việc xếp hạng cho biết tài liệu có thỏa mãn với thông tin người dùng hay không

− Tính được mức độ tương đồng giữa một câu truy vấn và mỗi tài liệu, nhưng chỉ thực hiện một lần mà thôi nên không cho ra nhiều ngữ nghĩa

* Khuyết điểm:

− Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn nhiều không gian lưu trữ, vì mỗi term là một chiều và tổng các term là từ điển mà đồng thời từ điển thì lưu trữ trên bộ nhớ nên tốn nhiều không gian lưu trữ

− Không cho biết nghĩa rộng hơn hoặc hẹp hơn so với term đang tìm, chỉ cho biết độ đo giữa vector tài liệu và vector truy vấn có liên quan với nhau hay không

− Các từ khóa biểu diễn được xem là độc lập với nhau

− Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn không gian lưu trữ

2.2.1.4 Latent Semantic Indexing - LSI

Latent Semantic Indexing( LSI ) là phương pháp tạo chỉ mục tự động dựa trên khái niệm để khắc phục hai hạn chế tồn tại trong mô hình không gian vector chuẩn (VSM) cũng như các mô hình Boolean và xác suất: synoymy và polysemy Với synoymy, nhiều từ có thể được sử dụng để biểu diễn một khái niệm, vì vậy hệ thống không thể trả về những tài liệu liên quan đến câu truy vấn của người dùng khi

họ sử dụng những từ trong câu truy vấn đồng nghĩa với những từ trong tài liệu Với polysemy, một từ có thể có nhiều nghĩa, vì vậy hệ thống có thể trả về những tài liệu

không liên quan với những gì mà người dùng mong muốn có được Điều nầy thực tế

rất thường xảy ra bởi vì các tài liệu được viết bởi rất nhiều tác giả, với cách dùng từ rất khác nhau Trong LSI, không gian tài liệu được thay thế bởi một không gian tài liệu có chiều thấp hơn gọi là không gian k (k - space) hay không gian LSI, trong đó mỗi chiều là một khái niệm độc lập (nghĩa là không có tương quan với nhau) đại

Trang 31

Chương 2 – Cơ sở lý thuyết

diện cho một nhóm các term cùng biểu diễn cho một thông tin ngữ nghĩa Mô hình LSI sử dụng chỉ mục khái niệm (conceptual index) được tạo ra bởi phương pháp thống kê thay cho việc sử dụng các từ chỉ mục đơn

Mô hình LSI dựa trên giả thiết là có các ngữ nghĩa tiềm ẩn (latent semantic)

trong việc sử dụng từ: có nhiều từ biểu diễn cho một khái niệm và một khái niệm có

thể được biểu diễn bởi nhiều từ Và mô hình này sử dụng phân tích SVD (Singular Value Decomposition) ma trận term – document A để phát hiện ra các quan hệ ngữ

nghĩa tiềm ẩn đó Mô hình LSI, mở rộng của mô hình không gian vector, sử dụng

phép chiếu trực giao ma trận biểu diễn tập văn bản có hạng r vào không gian k chiều, trong đó k<< r Việc chọn hệ số k tối ưu cho mô hình LSI vẫn còn là bài toán chưa có lời giải tổng quát Cho tới hiện tại việc chọn k cho mô hình LSI chỉ thực

hiện dựa trên các phương pháp thử nghiệm

2.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm

Trong phần trước, chúng ta đã tìm hiểu về các phương pháp truy hồi thông tin theo hướng tiếp cận thống kê Theo hướng tiếp cận này thì một tài liệu thường được biểu diễn dưới dạng một tập hợp các từ khóa độc lập nhau Tuy đã được áp dụng phổ biến trong nhiều ứng dụng khác nhau, việc biểu diễn này vẫn luôn tồn tại hạn chế lớn như: chưa xem xét đến hình thái của từ, thứ tự của các từ hay vị trí xuất hiện của từ trong tài liệu và nhất là các mối quan hệ ngữ nghĩa giữa chúng Vì vậy, hướng tiếp cận truy hồi thông tin dựa trên ngữ nghĩa cố gắng khắc phục các hạn chế này

Hệ thống tìm kiếm thông tin dựa trên khái niệm sử dụng khái niệm để lập chỉ mục và có hai nhiệm vụ chính đó là: rút trích toàn bộ các khái niệm hay ngữ nghĩa

có trong cơ sở dữ liệu của các tài liệu và lập chỉ mục cho các tài liệu dựa trên các khái niệm này

Các cấu trúc khái niệm có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thể được tạo thủ công, bán tự động hoặc tự động, chúng có thể khác nhau ở các dạng biểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Các kiểu cấu trúc

Trang 32

Chương 2 – Cơ sở lý thuyết

khái niệm phổ biến: cây khái niệm phân cấp (conceptual taxonomy), nguốn tri thức

về lĩnh vực (domain ontology), mạng ngữ nghĩa (semantic linguistic network of concept), các đồ thị khái niệm (conceptual graphs), từ điển từ vựng (thesaurus), mô hình tiên đoán (predictive model) và vector ngữ cảnh (context vector)

Hệ thống tìm kiếm thông tin dựa trên khái niệm có thể áp dụng cho văn bản và ứng dụng cho tìm kiếm hình ảnh và truy vấn thông tin đa ngôn ngữ Việc tìm kiếm hình ảnh dựa trên khái niệm rất có ý nghĩa Khi một người dùng tìm kiếm hình ảnh,

sẽ chú ý ý nghĩa (nội dung) của hình ảnh đó là gì hơn là hình ảnh đó có màu sắc, hay

độ lớn như thế nào Tuy nhiên, việc lập chỉ mục khái niệm cho hình ảnh khó khăn hơn rất nhiều so với lập chỉ mục văn bản

Hệ thống dựa trên khái niệm rút trích khái niệm từ câu truy vấn và so trùng với tập chỉ mục đã được lập của các tài liệu để tìm ra các tài liệu có liên quan Việc so trùng câu truy vấn với tập chỉ mục của tài liệu thường được thực hiện qua 02 cách phổ biến, đó là:

- So trùng khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục với các khái niệm của câu truy vấn dựa trên từ khóa (theo phương pháp truyền thống)

- So trùng giữa cấu trúc khái niệm của cây truy vấn với cấu trúc khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục

Có nhiều công trình nghiên cứu xây dựng một hệ thống tìm kiếm thông tin dựa trên khái niệm nhưng chỉ hỗ trợ một lĩnh vực nhất định trong những ứng dụng cụ thể, nhất định Việc xây dựng một hệ thống tìm kiếm thông tin dựa trên khái niệm là vấn đề rất khó và chưa có lời giải tối ưu, đồng thời cần có sự can thiệp của của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ khi xây dựng một cơ sở tri thức do đó tốn nhiều chi phí để xây dựng và bảo trì Cho đến nay thì những kết quả đạt được theo cách tiếp cận này vẫn chưa có sự cải thiện đáng kể so với các phương pháp thống kê kể trên Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉ nắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền thống Hơn

Trang 33

Chương 2 – Cơ sở lý thuyết

nữa, những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong quá trình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiến trình tìm kiếm

2.2.3 Đánh giá một hệ thống tìm kiếm thông tin

Hiệu quả của một hệ truy tìm thông tin có thể được đánh giá theo các tiêu chuẩn sau:

− Để đánh giá hiệu quả truy tìm của hệ thống, người ta sử dụng đến hai độ đo

cơ bản là độ chính xác (precision) và độ bao phủ (recall) Những độ đo này đo sự thỏa mãn của người dùng với các tài liệu mà hệ thống tìm thấy Cho S là tập các tài liệu được tìm thấy (liên quan hệ thống) Cho U là tập các tài liệu liên quan đánh giá của người dùng Khi đó, độ chính xác và độ bao phủ sẽ được định nghĩa như sau:

Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có liên quan đến câu truy vấn của người dùng trên tổng số các tài liệu tìm thấy của hệ thống

Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh giá

là liên quan người dùng trên tổng số các tài liệu có liên quan theo người dùng

− Hiệu quả thực thi của hệ thống (Execution efficiency) được đo bởi thời gian thực hiện thủ tục tìm kiếm các văn bản liên quan đến câu truy vấn được cho

Trang 34

Chương 2 – Cơ sở lý thuyết

− Hiệu quả lưu trữ được đo bởi dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu (cả bộ nhớ ngoài lưu trữ dữ liệu chỉ mục và bộ nhớ RAM khi hệ thống thực thi)

2.3 Ontology

Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽ trong thời gian gần đây Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên, công nghệ tri thức, các hệ thống trao đổi, tích hợp thông tin cho đến biểu diễn và quản lý tri thức

3- Ontology là biểu diễn của tri thức trong một lĩnh vực nào đó

4- Định nghĩa của Gruber vào năm 2008:

- Trong ngữ cảnh khoa học máy tính và thông tin: Ontology được định nghĩa

là một tập hợp các yếu tố (lớp, thuộc tính, mối quan hệ) cơ bản dùng để mô hình hóa một lĩnh vực tri thức

- Trong ngữ cảnh của các hệ thống cơ sở dữ liệu: Ontology có thể được xem

như là một mức trừu tượng của các mô hình dữ liệu, tương tự cho các mô hình phân cấp và quan hệ nhưng dùng để mô hình hóa tri thức về các cá thể, các thuộc tính và

các mối quan hệ của chúng đến các cá thể khác

2.3.2 Các thành phần của ontology

Ontology được xây dựng thường có các thành phần cơ bản sau: Các lớp (class) (tương ứng với các concept – khái niệm), các thuộc tính (property hay role, slot), các quan hệ (relation), các thực thể hay thể hiện (instance), các hàm (function), các tiền

đề (Axioms)

Trang 35

Chương 2 – Cơ sở lý thuyết

2.3.3 Phân loại ontology

Về cơ bản có các loại ontology sau: Ontology biểu diễn tri thức (Knowledge representation Ontology), Ontology tổng quát (Generic Ontology), Metadata ontology, Ontology lĩnh vực, Ontology tác vụ (Tast Ontology), Ontology lĩnh vực – tác vụ (Domain – Tast Ontology), Ontology ứng dụng (Application Ontology), Ontology chỉ mục (Index Ontology), Ontology hỏi và trả lời (Tell and Ask Ontology)

Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữ tri thức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khi ontology tác vụ, ontology lĩnh vực – tác vụ liên quan đến tri thức giải quyết vấn đề Tất cả các ontology này có thể kết hợp với nhau để xây dựng lên một ontology mới

Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạp của mô hình biểu diễn ontology: Lightweight ontology chứa các khái niệm, phân cấp khái niệm, mối quan hệ giữa các khái niệm và các thuộc tính mô tả khái niệm; Heavyweight ontology bổ sung vào lighweight ontology các tiền đề, hàm và ràng buộc

2.3.4 Vai trò của Ontology

− Chia sẻ sự hiểu biết chung giữa các ứng dụng và con người, hiểu biết về cấu trúc thông tin giữa con người và các tác tử

− Cho phép sử dụng lại tri thức Ví dụ, nếu một nhóm nghiên cứu đã phát triển các ontology, nhóm khác có thể sử dụng lại cho ứng dụng của họ

− Làm rõ lĩnh vực quan tâm, đưa ra các giả thiết rõ ràng về miền: tạo điều kiện thay đổi khi tri thức về lĩnh vực thay đổi, các đặc tả rõ ràng về miền tri thức sẽ giúp cho người mới dễ tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quan tâm

− Phân tách hay tách rời tri thức lĩnh vực với tri thức xử lý: có thể hình dung một tác vụ tạo một tài liệu học tập từ nhiều thành phần theo đặc tả thì độc lập với chương trình ứng dụng làm nhiệm vụ này

− Phân tích tri thức: Phân tích hình thức của các khái niệm, cần thiết cho việc tái sử dụng và mở rộng ontology Muốn kế thừa hay sử dụng một ontology ta phải

Trang 36

Chương 2 – Cơ sở lý thuyết

phân tích và tìm hiểu các khái niệm và quan hệ giữa chúng trong ontology đó

2.3.5 Các ứng dụng dựa trên Ontology

Hiện nay nhu cầu về ontology ngày càng tăng cao và ontology không những phục vụ cho nhu cầu chia sẻ tri thức đơn thuần mà còn được áp dụng vào nhiều lĩnh vực khác nhau như các hệ thống quản lý tri thức, rút trích thông tin, thương mại điện

tử, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, cơ sở dữ liệu, quản lý thông tin đa ngôn ngữ, khai phá tri thức, học máy, trong công nghệ phần mềm, trong kiến trúc đa tác

tử hay trong các hệ thống bảo mật, … Ontology cung cấp nguồn thông tin giàu ngữ nghĩa giúp cho các hệ thống thực hiện các tác vụ với kết quả tốt hơn

Trong thương mại điện tử, ontology được sử dụng để mô tả các sản phẩm khác nhau và được ứng dụng vào việc định vị và tìm kiếm sản phẩm tự động với các thông tin có sẵn Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng Ngoài

ra, ontology còn có công dụng giúp cho các hệ thống tự động giao tiếp với nhau dễ dàng Các trang web hoạt động như là cổng thông tin chung, có nhiệm vụ thực hiện các biến đổi trên ontology giữa bên bán và bên mua

Hiện nay đã có nhiều hệ thống hỗ trợ giáo dục được xây dựng theo cách tiếp cận sử dụng ontology và các công nghệ Web có ngữ nghĩa Dựa trên các tính năng của hệ thống mà ta có thể phân loại chúng thành ba nhóm chủ yếu sau: Các hệ thống chia sẻ tài nguyên giáo dục trực tuyến: GEM - Gateway to Educational Materials (thegateway.org), Connexions (cnx.rice.edu); Các mạng chia sẻ ngang hàng về tài nguyên giáo dục: POOL - Portal for Online Objects in Learning , Edutella (www.edutella.org); các hệ thống Elearning dựa trên ontology: PIP - Personalized Instruction Planner, TANGRAM

Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3 mục đích: (i) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong ứng dụng; (ii) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (iii) xây dựng các chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu

2.4 Thư viện hỗ trợ tìm kiếm văn bản Lucene

Trang 37

Chương 2 – Cơ sở lý thuyết

Năm 1998, Doug Cutting – từng là nhân viên của Excite, Yahoo, và đang làm việc tại Apache Software Foundation - đã bắt đầu tiến hành xây dựng thư viện tìm kiếm thông tin mã nguồn mở Lucene với mục tiêu phát triển nó thành một thư viện tìm kiếm tài liệu hoàn chỉnh, cho phép các nhà phát triển ứng dụng dễ dàng tích hợp chức năng tìm kiếm vào hệ thống của mình Lucene là một thư viện tìm kiếm thông tin có khả năng xử lý và khả năng mở rộng ở mức cao, cho phép chúng ta có thể tích hợp vào các ứng dụng Lucene là một dự án mã nguồn mở và nguyên thuỷ được phát triển bằng ngôn ngữ Java, ngày nay Lucene được phát triển bằng nhiều ngôn ngữ khác nhau như Delphi, Perl, C#, C++, Python, Ruby và PHP…

Để có thể sử dụng Lucene, ta cần phải có sẵn dữ liệu Dữ liệu có thể là tập hợp các tập tin dạng PDF, Word hay là các trang web HTML; hoặc là dữ liệu lưu trong các hệ quản trị CSDL như MS SQL Server hay MySQL Dùng Lucene, ta có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau này có thể thực hiện thao tác tìm kiếm toàn văn trên dữ liệu đó Nó cũng cho phép người dùng kế thừa và phát triển

để phù hợp với nhiều ngôn ngữ khác nhau

Lucene cho phép tạo chỉ mục và tìm kiếm trên ứng dụng của ta Các IR Library là các search engines chứ không phải các web search engine

Dùng Lucene, có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau này

bao gồm:

Lucene coi mỗi đối tượng cần đánh chỉ mục là một Document Mỗi Document có thể có nhiều Field, mỗi Field tương ứng một thuộc tính của đối tượng cần đánh chỉ mục Ví dụ, muốn tìm kiếm các trang web ở dạng HTML Như vậy đối tượng cần đánh chỉ mục là trang HTML, các thuộc tính có thể là nơi lưu trữ (host), đường dẫn, tiêu đề, metadata và nội dung của chính trang web

Với mỗi Field, có thể chọn giữa đánh chỉ mục hay không đánh chỉ mục Nếu chọn đánh chỉ mục, có thể tìm kiếm trên Field đó Các Field không đánh chỉ mục thường là các Field không quan trọng trong quá trình tìm kiếm và phục vụ chủ yếu

Trang 38

Chương 2 – Cơ sở lý thuyết

cho nhu cầu trình bày kết quả trả về

Cần phải tự xây dựng các hàm công cụ để chuyển đổi dữ liệu ban đầu thành dữ liệu mô tả trong Document Ví dụ, nếu dữ liệu ban đầu của bạn là tập tin PDF hay Word, phải có các hàm để đọc hiểu các định dạng này và chuyển về dạng chuỗi văn bản tương ứng Thao tác đánh chỉ mục khá phức tạp Trước hết dữ liệu văn bản sẽ được phân tích thành các từ khóa, đồng thời loại bỏ các từ không dùng đến (stop words, trong tiếng Anh các từ như a, an, the là các stop words), sau đó các từ khóa sẽ được dùng để tạo inverted index (chỉ mục nghịch đảo) và lưu thành các phân đoạn (segments) dạng thuận tiện cho việc tìm kiếm sau này

Sau khi dữ liệu đã được đánh chỉ mục, có thể thực hiện tìm kiếm trên chúng Tìm kiếm toàn vẹn cho phép tìm kiếm theo danh sách các từ khóa cùng với các toán tử luận lí (AND, OR, NOT)

Ví dụ, có thể chỉ định: “Trường Cao đẳng Nghề” NOT (“Khoa Điện” AND

“Khoa Cơ khí”) cho câu truy vấn Ngoài ra điểm nổi bật khác của tìm kiếm toàn văn là cho phép xếp hạng các kết quả trả về tùy vào độ tương đồng (relevance) giữa câu truy vấn và kết quả tìm kiếm

Thành phần cốt lõi của Lucene

Nhóm 1: Lập chỉ mục

IndexWriter: là thành phần trung tâm của tiến trình lập chỉ mục Lớp này tạo

chỉ mục mới và thêm các tài liệu vào chỉ mục đã có (IndexWriter như một đối tượng cho ta cách truy cập đến chỉ mục, nhưng không cho đọc và tìm kiếm)

Directory: cho biết vị trí của Lucene index

Analyzer: trích xuất các token từ văn bản (dạng text), đồng thời nó loại bỏ

stopword (a, an, the, in, on)

Document: thể hiện một tập hợp các Field (chunk of data) Ví dụ: trang web,

thông điệp email, tập tin văn bản

Trang 39

Chương 2 – Cơ sở lý thuyết

Field: là một mẩu dữ liệu (piece of data) mà nó được dùng để truy vấn trong

suốt quá trình tìm kiếm từ chỉ mục

Nhóm 2: Tìm kiếm

IndexSearcher: tìm kiếm từ chỉ mục đã được lập bởi IndexWriter (hay nói

cách khác là IndexSearcher mở index đã được tạo IndexWriter để đọc)

Term: là một đơn vị (unit) cho tìm kiếm Tương tự như Field, nó là một chuỗi

tên trường và giá trị

Query: chứa các phương thức truy tìm, nó bao gồm các lớp (TermQuery,

BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery, SpanQuery)

Hits: chứa các con trỏ đến các kết quả tìm kiếm

Lucene không phải là một ứng dụng hay một máy tìm kiếm hoàn chỉnh để người dùng có thể sử dụng ngay, đây chỉ là một thư viện, nó cung cấp các thành phần quan trọng nhất của một máy tìm kiếm đó là tạo chỉ mục và truy vấn Chính vì chỉ cung cấp các thành phần quan trọng trong việc tạo chỉ mục nên người dùng rất linh hoạt trong việc ứng dụng vào sản phẩm của mình, cũng như có một số cải tiến cho phù hợp hơn

Ngày đăng: 23/12/2018, 06:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Thị Thanh Hà ( 2012) , Xây dựng hệ chuyên gia tư vấn hướng nghiệp cho học sinh trường trung học phổ thông, Luận văn Thạc sĩ , Trường Đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Xây dựng hệ chuyên gia tư vấn hướng nghiệp cho học sinh trường trung học phổ thông
[2] Huỳnh Tấn Dựng ( 2012), Ứng dụng công nghệ tri thức xây dựng hệ thống hỗ trợ hỏi đáp trong tư vấn tuyển sinh đào tạo, Luận văn Thạc sĩ , Trường Đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Ứng dụng công nghệ tri thức xây dựng hệ thống hỗ trợ hỏi đáp trong tư vấn tuyển sinh đào tạo
[3] Phạm Thị Trúc Mai (2016), Xây dựng hệ thống hỗ trợ tư vấn tuyển sinh cho trường Đại học Trà Vinh, Luận văn Thạc sĩ , Trường Đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Xây dựng hệ thống hỗ trợ tư vấn tuyển sinh cho trường Đại học Trà Vinh
Tác giả: Phạm Thị Trúc Mai
Năm: 2016
[5] Bộ Công thương, Bộ tiêu chuẩn kỹ năng nghề Quốc gia đối với các nghề thuộc lĩnh vực công nghiệp, 2011 Sách, tạp chí
Tiêu đề: Bộ tiêu chuẩn kỹ năng nghề Quốc gia đối với các nghề thuộc lĩnh vực công nghiệp
[7] Hồ Hữu Hiếu ( 2014), Hệ thống hỗ trợ lãnh đạo quản lý, điều hành tại sở thông tin và truyền thông tỉnh Đồng Nai, Luận văn Thạc sĩ, Trường Đại học Công nghệ thông tin Tp.HCM Sách, tạp chí
Tiêu đề: Hệ thống hỗ trợ lãnh đạo quản lý, điều hành tại sở thông tin và truyền thông tỉnh Đồng Nai
[8] Phan Văn Út ( 2015), Kỹ thuật nâng cao hiệu quả tra cứu sách tại thư viện trường Cao Đẳng Kinh Tế Công Nghệ TP.HCM, Luận văn Thạc sĩ, Trường Đại học Quốc tế Hồng Bàng Sách, tạp chí
Tiêu đề: Kỹ thuật nâng cao hiệu quả tra cứu sách tại thư viện trường Cao Đẳng Kinh Tế Công Nghệ TP.HCM
[9] Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Nghiên cứu ứng dụng mã nguồn mở Lucence để xây dựng phần mềm tìm kiếm thông tin trên văn bản, Tạp chí khoa học công nghệ, Đại học Đà Nẵng, số 4(39), 2010 Sách, tạp chí
Tiêu đề: Nghiên cứu ứng dụng mã nguồn mở Lucence để xây dựng phần mềm tìm kiếm thông tin trên văn bản
[10] Michael McCandless, Erik Hatcher, Otis Gospodnetic, Lucene in action, 2010 Sách, tạp chí
Tiêu đề: Lucene in action
[11] Nguyễn Thái Nghe và Trương Quốc Định, Hệ thống hỗ trợ tư vấn tuyển sinh đại học, Tap chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin (2015): 152-159 Sách, tạp chí
Tiêu đề: Hệ thống hỗ trợ tư vấn tuyển sinh đại học
Tác giả: Nguyễn Thái Nghe và Trương Quốc Định, Hệ thống hỗ trợ tư vấn tuyển sinh đại học, Tap chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Công nghệ Thông tin
Năm: 2015
[12] Nhon V. Do, Ontology COKB for designing knowledge-based systems. New Trends in Software Methodologies, Tools and Techniques, H. Fujita et al. (Eds.).IOS Press, 2014 Sách, tạp chí
Tiêu đề: Ontology COKB for designing knowledge-based systems
[4] Trường Cao đẳng nghề Tỉnh BR-VT, Báo cáo tổng kết năm học 2010 – 2011, 2011 – 2012, 2012 – 2013, 2013-2014, 2014-2015, 2015-2016 Khác
[6] Quy chế tuyển sinh (08/2007/QĐ-BLĐTBXH ngày 26 tháng 3 năm 2007) Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w