1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm

8 65 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 744,88 KB

Nội dung

Ngân hàng câu hỏi trắc nghiệm là thành phần cốt lõi trong hệ thống đánh giá để đảm bảo chất lượng đào tạo trong các tổ chức giáo dục. Các nghiên cứu hiện nay mới chỉ tập trung chủ yếu vào phương pháp tạo ra các đề thi từ ngân hàng câu hỏi có sẵn, mà chưa chú trọng đến việc cần đảm bảo không trùng lặp nội dung các câu hỏi trong ngân hàng câu hỏi.

Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh 17 ỨNG DỤNG VÀ CẢI TIẾN HỆ SỐ TƯƠNG ĐỒNG COSINE TRONG XÂY DỰNG VÀ QUẢN LÝ NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM USING AND IMPROVING COSINE SIMILARITY ALGORITHM FOR BUILDING AND MANAGING QUESTION BANK Phạm Văn Tính, Nguyễn Thị Phương Trâm Trường Đại học Nông Lâm TP.HCM, Việt Nam Ngày soạn nhận 9/4/2019, ngày phản biện đánh giá 15/4/2019, ngày chấp nhận đăng 03/5/2019 TÓM TẮT Ngân hàng câu hỏi trắc nghiệm thành phần cốt lõi hệ thống đánh giá để đảm bảo chất lượng đào tạo tổ chức giáo dục Các nghiên cứu tập trung chủ yếu vào phương pháp tạo đề thi từ ngân hàng câu hỏi có sẵn, mà chưa trọng đến việc cần đảm bảo không trùng lặp nội dung câu hỏi ngân hàng câu hỏi Khi số lượng câu hỏi ngân hàng câu hỏi tăng lên đồng thời việc quản lý nội dung câu hỏi trở lên khó khăn Trùng lặp nội dung câu hỏi điều khó tránh khỏi Trong nghiên cứu ứng dụng hệ số tương đồng Cosine đề xuất cải tiến giải thuật tính hệ số tương đồng Cosine cách đánh trọng số từ khóa chính, dùng để phát trùng lặp nội dung câu hỏi đề thi hay ngân hàng câu hỏi nhằm đảm bảo đề thi phát sinh xác Từ khóa: Phát trùng lặp nội dung; Đương đồng văn bản; Hệ số tương đồng Cosine; Hệ số tương đồng Cosine có trọng số; Ngân hàng câu hỏi ABSTRACT The bank of multiple-choice questions is a core component of the evaluation system to ensure the quality of training in educational institutions The current research focuses only on the method of creating the exam from the prepared question bank, but it does not focus on the prevention of duplicate material in the question bank As the number of questions in the question bank increases, the management of questions contents become more difficult and the duplication of question content becomes unavoidable In this study, we propose using and improving the Cosine similarity algorithm by weighting the keywords (shingles) used to detect the duplicate content of questions in the exams or in question bank to ensure that exams are generated more accurately Keywords: Near Duplicate Detection; Text similarity; Cosine similarity; Weighted Cosine Similarity; Question bank GIỚI THIỆU Lợi lớn thi trắc nghiệm tính xác chi phí đề, chấm thi thấp Sự nhầm lẫn khả gian lận trình chấm thấp Đặc biệt với trợ giúp máy tính hình thức thi trắc nghiệm áp dụng rộng rãi đánh giá môn học Hiện Bộ môn Mạng máy tính truyền thơng có 8/12 mơn học sử dụng hình thức thi trắc nghiệm Trong trình tổ chức thi trắc nghiệm ghi nhận nhiều trường hợp có câu hỏi giống đề thi Liên quan đến thi trắc nghiệm, nghiên cứu tập trung chủ yếu vào phương pháp tạo đề thi từ ngân hàng câu hỏi có sẵn, mà chưa trọng đến việc cần đảm bảo không trùng lặp nội dung câu hỏi ngân hàng câu hỏi [1]-[3] Trong nghiên cứu tập trung giải vấn đề trùng 18 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh lặp nội dung ngân hàng câu hỏi nói chung đề thi nói riêng ứng dụng hệ số tương đồng Cosine đồng thời đề xuất cải tiến giải thuật tính hệ số tương đồng Cosine cách đánh trọng số từ khóa PHÁT HIỆN TRÙNG LẶP NỘI DUNG Về tổng quan, phát trùng lặp tài liệu xác định thơng qua việc tính hệ số tương đồng (similarity) tài liệu Hệ số tương đồng có giá trị từ đến Giá trị tiến đến hai tài liệu giống ngược lại giá trị gần hai tài liệu khác Giống Khác Khác hồn tồn Giống hồn tồn Hình Ý nghĩa hệ số tương đồng 2.1 Các bước xác định trùng lặp nội dung Bước 1: Loại bỏ từ dừng (stop words) từ không chứa thông tin Bước 2: Tách tài liệu thành shingle (k-gram w-gram) Bước 3: Biểu diễn tài liệu thành tập hợp shingle hay thành vector tần suất Đây phương pháp vector hóa văn hay nói cách khác biểu diễn tài liệu thành vector Bước 4: Tính hệ số tương đồng tài liệu Bước 5: Đánh giá hệ số tương đồng để đưa kết luận 2.2 Một số khái niệm Stop words: Từ dừng từ không chứa thơng tin hay có thơng tin chung chung cần phải loại bỏ trước tính tốn hệ số tương đồng Khơng có danh sách từ dừng tổng quát Tùy vào ngôn ngữ mà danh sách từ dừng khác Trong tiếng Việt stop words từ đơn (là, mà, v.v) hay cụm từ (đến nỗi, có thể, v.v) Shingle: Văn (tài liệu) tổ hợp ký tự hay từ Trật tự ký tự hay từ có ảnh hưởng đến tương đồng văn ví dụ câu “Tơi ăn cơm” khác với “Cơm ăn tơi” câu có từ giống hệt Shingling phương pháp thể tài liệu thành tập hợp chuỗi (Shingle) bao gồm trật tự ký tự tài liệu Nói cách khác Shingle k-gram ký tự hay w-gram từ Ví dụ tài liệu “I went to work” tập hợp 2-shingle ký tự {“I ”, “ w”, “we”, “en”, “nt”, “t ”, “ t”, “to”, “o ”, “ w”, “wo”, “or”, “rk} tập hợp 2-shingle từ (word) {“I went”,”went to”,”to work”} Thông thường phát trùng lặp nội dung sử dụng w-shingle với hệ số w lựa chọn từ 2-10 Hệ số tương đồng: thành phần xử lý văn Nó có vai trị quan trọng nghiên cứu ứng dụng liên quan đến văn như: phân loại văn bản, tìm kiếm chủ đề, phát loại bỏ trùng lặp nội dung, tạo trả lời câu hỏi v.v Tìm giống từ hay shingle lại phần việc xác định độ tương đồng văn bản, sở dùng để xác định tương đồng câu văn, đoạn văn hay tài liệu văn Độ tương đồng văn ứng dụng việc phát trùng lặp câu hỏi ngân hàng đề thi, phát đạo văn, chép nội dung báo khoa học hay luận văn tốt nghiệp sinh viên [4]-[6] Sự tương đồng từ xem xét hai phương diện: từ vựng (lexical) ngữ nghĩa (semantic) Các từ tương đồng dạng từ vựng có chuỗi ký tự giống Các từ tương đồng dạng ngữ nghĩa có chuỗi ký tự khác có ý nghĩa giống Ví dụ: “Bắp” “Ngô” giống ngữ nghĩa lại khác xa từ vựng Rất nhiều giải thuật tính hệ số tương đồng phương diện từ vựng (Term-Based) sử dụng như: Jaccard similarity, Euclidean Distance, Dice's Coefficient, Cosine Similarity Trong số Cosine Similarity sử dụng rộng rãi Các giải thuật dựa việc phân tích chuỗi thành Shingle sau tính độ tương đồng cách so sánh Shingle thành phần [7] Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh HỆ SỐ TƯƠNG ĐỒNG COSINE Cosine similarity số phổ biến dùng để xác định tính tương đồng hai đoạn văn bản, ứng dụng tìm kiếm nội dung trùng lặp Các văn biểu diễn theo mơ hình khơng gian vector DocA có shingle phân biệt “1”, “3”, “5” Mỗi shingle xuất lần DocB có shingle phân biệt “1”, “2”, “3” Trong shingle “1” xuất lần, “2” xuất lần “3” xuất lần VectorA = {(“1”,1), (“3”,1), (“5”,1)} VectorB = {(“1”,4),(“2”,2),(“3”,1)} DocA Bước – Chuẩn hóa VectorA, VectorB thành vector có độ dài độ dài SetAB hợp tập hợp SetA SetB Trong SetA SetB tập hợp shingle DocA DocB: DocB 𝜃 Cosine similarity = Cos() SetAB = SetA  SetB = {“1”, “2”, “3”, “5”} có phần tử Hình Hệ số tương đồng Cosine Không gian vector hay số chiều vector có kích thước tổng số shingle văn Giá trị phần tử vector tần số xuất shingle tương ứng văn Hệ số tương đồng Cosine giá trị hàm Cosine góc hai vector biểu diễn hai văn cần so sánh VectorA = {(“1”,1), (“2”,0), (“3”,1), (“5”,1)} đơn giản A= 1 VectorB = {(“1”,4), (“2”,2), (“3”,1), (“5”,0)} đơn giản B= Bước – Tính hệ số tương đồng Cosine theo công thức (1) 1*  *  1*  1* Hệ số tương đồng Cosine tính theo cơng thức [10]: Cosine Similarity  Cos  θ      n n A Bi i 1 i i 1 i A  n 19 A.B A.B (1) i 1 i B Trong đó:  Ai Bi phần tử vector A B tài liệu DocA DocB [4],[5],[10] Để hiểu rõ cách tính, xét ví dụ tính độ tương đồng tài liệu A, B sau: DocA: “Ba Một Năm” - “315” DocB: “Một Hai Ba Một Hai Một Một” “1231211” Các bước thực Bước – Biểu diễn tài liệu thành vector tần suất shingle 1   02  12  12  *  42  22  12  02   0.6299 3* 21 Trong trường hợp đánh giá trùng lặp nội dung quy mô lớn, cần phải so sánh với số lượng tài liệu lớn, kích thước tài liệu lớn trường hợp xác định đạo văn kỹ thuật lấy giá trị băm đặc trưng tài liệu SimHash MinHash [8]-[9] sử dụng rộng rãi đơn giản, tốc độ xử lý nhanh không gian lưu trữ - đoạn văn cần giá trị băm 64 -128 bits Tuy nhiên phương pháp có độ xác khơng cao phù hợp với tài liệu dài Với tài liệu khác hoàn tồn SimHash thường cho giá trị khoảng 0.5 kết mong đợi phải Để thấy rõ độ xác SimHash Cosine xét ví dụ sau: Trường hợp 1: Hai đoạn văn ngắn khác hoàn toàn: V1 = “Hai đoạn văn bất kỳ” 20 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh V2 = “Có nội dung khác nhau” Trường hợp 2: Hai đoạn văn gần giống nhau: V3 = “Mặt trời mọc phía đơng” A) 80 V4 = “Mặt trời lặn phía tây” Bảng So sánh SimHash Cosine SimHash Cosine Chú thích Trường hợp (V1,V2) 0.508 0.0 Simhash cho kết sai Trường hợp (V3,V4) 0.766 0.667 Theo kết từ bảng 1, SimHash cho kết sai trường hợp Hai tài liệu nói khác hoàn toàn SimHash cho kết 0.508 Cosine cho kết 0.0 CẢI TIẾN PHƯƠNG PHÁP TÍNH HỆ SỐ TƯƠNG ĐỒNG COSINE Khác với văn thông thường, ngân hàng câu hỏi, câu hỏi thường có nội dung ngắn đặc biệt nhiều câu hỏi có nội dung tương tự mặt từ vựng Trong thực tế đề thi bao gồm nhiều phần Mỗi phần có câu hỏi thuộc chương (phần) câu hỏi thường có nội dung giống Khi ứng dụng hệ số tương đồng Cosine với giá trị ngưỡng từ 0.9-0.95 để kiểm tra nội dung câu hỏi ngân hàng có bị trùng lặp (đã tồn tại) hay khơng 8/8 ngân hàng câu hỏi phát có trùng lặp nhiên kiểm tra lại phương pháp thủ cơng khơng tìm thấy trùng lặp Hãy xem xét câu hỏi (cặp câu hỏi chủ đề) trích từ ngân hàng câu hỏi mơn học “Mạng máy tính bản” sau: Câu 1: Trên Internet, phần mềm người dùng sử dụng cổng đích để kết nối đến mày chủ SMTP? A) 80 B) 110 C) 25 D) 404 Câu 2: Trên Internet, phần mềm người dùng sử dụng cổng đích để kết nối đến mày chủ POP3? B) 110 C) 25 D) 404 Với cách tính thơng thường câu hỏi có hệ số tương đồng Cosine = 0.95 Tương tự, xét câu hỏi khác thuộc ngân hàng câu hỏi môn “Nhập môn hệ điều hành” Câu 3: Trên hệ điều hành Linux đĩa cứng ký hiệu had, hdb…và primary partition đĩa cứng đánh số A) B) đến C) trở lên D) Tất sai Câu 4: Trên hệ điều hành Linux đĩa cứng ký hiệu had, hdb…và extended partition đĩa cứng đánh số A) B) đến C) trở lên D) Tất sai Hệ số tương đồng Cosine câu hỏi (câu câu 4) 0.978 Nếu theo kết tính hệ số tương đồng Cosine kết luận cặp câu hỏi giống thực tế câu hỏi khác hoàn toàn Trong cặp câu hỏi (1,2) người đề nói tới cổng kết nối giao thức khác SMTP POP3, cặp câu hỏi (3,4) người đề muốn nói tới phân vùng (primary partition) phân vùng mở rộng (extended partition) chia ổ đĩa cứng Mặc dù hệ số tương đồng Cosine đủ tốt áp phổ biến ứng dụng khai thác văn bản, chưa hoàn tồn phù hợp cho tốn ngân hàng câu hỏi số từ câu hỏi số câu hỏi có nhiều từ giống Để cải thiện độ xác, Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh tài liệu [11] nhóm tác giả đề xuất “Khoảng cách tương đồng Cosine có trọng số” (Distance Weighted Cosine Similarity) thực chất kết hợp phương pháp đo: Hamming Distance Cosine Similarity, chưa thể chủ ý người đề Vì chúng tơi đề xuất cải tiến giải thuật tính hệ số tương đồng Cosine để phục vụ cho mục đích 4.1 Phương pháp đánh trọng số cho hệ số tương đồng Cosine Với câu hỏi đề thi người biên soạn định nghĩa từ khóa (nếu cần) trọng số tương ứng thể dụng ý Từ biểu diễn thành vector mức độ quan trọng (Vector of Shingle Importance) shingle tài liệu Mặc định shingle có trọng số Các từ có trọng số >1 Giả sử vector trọng số shingle tập hợp shingle phân biệt tài liệu A B W Hệ số tương đồng Cosine có trọng số tính theo cơng thức đề xuất sau: Weighted Cosine (A,B,W) =   n i 1 i n   A * Wi * n i 1 i B * Wi  (2) Trong đó:  Ai Bi phần tử thứ i vector A B tài liệu DocA DocB  Wi phần tử thứ i vector trọng số tài liệu A Xét lại ví dụ trình bày mục 3: DocA: “3 5” DocB: “1 1” 4.1.1 Trường hợp 1- từ khóa nằm hai tài liệu Giả sử từ khóa “1” có mức độ quan trọng Bước – Tạo Vector trọng số người dùng định nghĩa VectorU = {(“1”,5)} Bước - Chuẩn hóa Vector trọng số cho tất từ thuộc A  B Trọng số mặc định cho tất shingle 1: VectorW (“5”,1)} = (“2”,1), {(“1”,5), (“3”,1), Bước Tính hệ sơ tương đồng Cosine cải tiến theo công thức (2) Weighted Cosine  A, B, W   2 2 1* 4*  0* 21* 1*41**1*51 2 1 * 00* 1* * 12  1* 1* 12  1* 1*15 *0 5* 1 0* *11* * 14 **5 1 *1 11 **11 0**1  *  22 22 22 22 22 22 22 2 2 2 2 * 101 101  0.966  0.966 27* 405 27 * 405 4.1.2 Trường hợp - có tài liệu khơng chứa từ khóa Giả sử từ khóa “2” có mức độ quan trọng Từ khóa khơng có DocA có DocB Bước – Tạo Vector trọng số người dùng định nghĩa VectorU = {(“2”,5)} A * Bi * Wi i 1 i 21 Bước - Chuẩn hóa Vector trọng số cho tất từ thuộc A  B Trọng số mặc định cho tất shingle 1: VectorW={(“1”,1), (“2”,5), (“3”,1), (“5”,1)} Bước Tính hệ sơ tương đồng Cosine cải tiến theo công thức (2) Weighted Cosine  A, B, W   2 2 2 1* 4*  0* 2* 2 1* 1*  1* 0*21 1* *  * *  1* 1*  1* * 2 2 2 2 2 2 2 2 *21  02 * 21 * 2 * 12 * 42 * 2 * 25  * 12  2* 2 2 *  * 1 * 1 * * *  * 1 *    0.267  3* 117  0.267 3* 117     Như hai văn có nhiều từ khóa quan trọng giống có nghĩa hệ số tương đồng gần 1.0, ngược lại văn khơng chứa từ khóa quan trọng khác nghĩa hệ số tương đồng gần 0.0 22 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh Bảng So sánh hệ số tương đồng Cosine Cosine có trọng số Cosine Weighted Cosine Weighted Cosine Trường hợp Trường hợp 0.6299 Hệ số tương đồng Cosine hệ số tương đồng Cosine cải tiến ứng dụng để xây dựng phần mềm quản lý ngân hàng câu hỏi thi trắc nghiệm chức chính: 0.966 0.267 Áp dụng phương pháp tính hệ số Cosine cải tiến cho cặp câu hỏi ví dụ nói trên: Câu hỏi 1: CH1 = “Trên Internet, phần mềm người dùng sử dụng cổng đích để kết nối đến mày chủ SMTP? ” VectorWCH1 = {(“cổng đích”,5), (“SMTP”,10)} Câu hỏi 2: CH2 = “Trên Internet, phần mềm người dùng sử dụng cổng đích để kết nối đến mày chủ POP3? ” VectorWCH2 = {(“cổng đích”,5), (“POP3”,10)} Câu hỏi 3: CH3 = “Trên hệ điều hành Linux đĩa cứng ký hiệu had, hdb…và primary partition đĩa cứng đánh số “ VectorWCH3 = {(“hệ điều hành Linux”, 5), (“đĩa cứng”, 5), (“primary partition”, 10)} Câu hỏi 4: CH4 = “Trên hệ điều hành Linux đĩa cứng ký hiệu had, hdb…và extended partition đĩa cứng đánh số ” VectorWCH4 = {(“hệ điều hành Linux”,5), (“đĩa cứng”,5), (“extended partition”,10)} Bảng So sánh hệ số tương đồng Cosine Cosine cải tiến Khơng trọng số Có trọng số Dụng ý (CH1, CH2) 0.950 0.542 (khác hơn) Khác (CH3, CH4) 0.977 0.776 (khác hơn) Khác Kết bảng (bảng 3) cho thấy phương pháp tính hệ số Cosine cải tiến làm gia tăng khác biệt hay tương đồng theo dụng ý người dùng ỨNG DỤNG HỆ SỐ TƯƠNG ĐỒNG COSINE VÀ HỆ SỐ TƯƠNG ĐỒNG COSINE CẢI TIẾN TRONG XÂY DỰNG NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM Tạo ngân hàng câu hỏi từ đề thi trắc nghiệm cũ có sẵn Thêm câu hỏi vào ngân hàng câu hỏi Đánh giá, kiểm tra đề thi sau phát sinh Các bước thực hiện: Bước 1: Dùng hệ số tương đồng cosine với ngưỡng 0.9 để tạo ngân hàng câu hỏi từ đề thi có sẵn thêm câu hỏi vào ngân hàng Nếu hệ số tương đồng câu hỏi thêm vào so với tất câu hỏi ngân hàng nhỏ ngưỡng (=0.9) kiểm tra tay định nghĩa thêm từ khóa quan trọng (theo mục – hệ số tương đồng Cosine cải tiến) Bước 3: Các đề thi sau phát sinh dùng hệ số tương đồng Cosine cải tiến với ngưỡng 0.95 để kiểm tra đảm bảo khơng có trùng lặp Kết áp dụng phương pháp cho 100 câu hỏi ngân hàng câu hỏi mơn “Mạng máy tính bản” sau: - Bước 1: Với ngưỡng tương đồng 0.90 có 35 câu hỏi tương tự chia thành nhóm với số lượng câu hỏi nhóm là: 19, 9, 7; Với ngưỡng tương đồng 0.95 24 câu hỏi tương tự chia thành nhóm với số lượng câu hỏi nhóm là: 5, 8, 6, - Bước 3: Sau áp dụng phương pháp đánh trọng số cho 24 câu hỏi nhóm, số lượng câu hỏi tương đồng Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh Áp dụng tương tự với 80 câu hỏi ngân hàng câu hỏi môn “Nhập môn hệ điều hành” Với ngưỡng tương đồng 0.90 0.95 có câu hỏi tương tự chia thành nhóm với số lượng câu hỏi nhóm là: 4, Sau áp dụng phương pháp đánh trọng số cho câu hỏi số lượng câu hỏi tương đồng Hình Các nhóm câu hỏi tương đồng mơn Mạng máy tính Hình Các nhóm câu hỏi tương đồng môn Nhập môn hệ điều hành Bằng phương pháp đánh trọng số từ quan trọng tính hệ số Cosine cải tiến giúp xác định xác hơn, phân biệt rõ tương đồng hay khác biệt hai văn theo dụng ý người dùng, đồng thời làm giảm ảnh hưởng yếu tố từ vựng giúp độ xác tiến gần mặt ngữ nghĩa KẾT LUẬN VÀ KIẾN NGHỊ Hệ số tương đồng Cosine tính dựa vào tần số xuất shingle tài liệu, khơng đánh giá 23 xác hai đoạn văn tương tự ngữ nghĩa khác từ vực, hay trường hợp ngược lại hai văn giống từ vực (hệ số Cosine lớn) lại khác dụng ý (ví dụ cặp câu hỏi nói trên) Nói cách khác sử dụng hệ số tương đồng Cosine khó thể dụng ý tác giả, mà điều đặc biệt quan trọng việc xác định trùng lặp câu hỏi ngân hàng câu hỏi, câu hỏi thuộc nhóm chủ đề tương tự nhau, khác vài từ khóa Với cải tiến cơng thức tính hệ số tương đồng Cosine áp dụng phương pháp đánh trọng số từ khóa sử dụng xây dựng ngân hàng hỏi thi trắc nghiệm nhược điểm nói khắc phục, đặc biệt đảm bảo việc thêm câu hỏi vào ngân hàng câu hỏi khơng bị trùng lặp nội dung Theo cơng thức tính hệ số Cosine cải tiến (2) tác động trọng số đến kết phụ thuộc vào giá trị trọng số cao hay thấp vào độ lớn tài liệu (số chiều hay kích thước vector tần suất) Với trường hợp vector tần suất có kích thước nhỏ việc tăng giảm giá trị trọng số có ảnh hướng lớn tới kết Ngược lại, với vector tần suất lớn việc tăng giảm giá trị trọng số lại có ảnh hướng nhỏ tới kết Vì tùy vào trường hợp cụ thể linh hoạt sử dụng phương pháp đánh trọng số giá trị tuyệt đối ví dụ hay tương đối dùng tỷ lệ phần trăm Do câu hỏi ngân hàng câu hỏi thường ngắn (kích thước vector tần suất nhỏ) dễ dàng xác định từ khóa quan trọng nên khuyến nghị sử dụng phương pháp đánh trọng số tuyệt giá trị trọng số giao động từ đến 10 Sau thử nghiệm ngân hàng câu hỏi thuộc mơn mạng máy tính truyền thơng xin đề xuất từ khóa dùng để nhận diện câu hỏi chung có trọng số 5, từ khóa đặc trưng riêng cho câu hỏi nhóm 10 Ngồi kết hợp tính độ tương đồng cấp độ sử dụng hệ số Cosine cải tiến có trọng số để xác định khơng trùng lặp sau dùng hệ số Cosine thơng thường để tự động phân loại nhóm câu hỏi chủ đề 24 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 53 (07/2019) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh TÀI LIỆU THAM KHẢO [1] Yildirim M., Heuristic optimization methods for generating test from a question bank, Advances in Artificial Intelligence, pp 1218-1229 (2007) [2] Yildirim M., A genetic algorithm for generating test from a question bank, Computer Applications in Engineering Education, Vol.18, No 2, pp 298 – 305 (2010) [3] Toan Bui, Tram Nguyen, Bay Vo, Thanh Nguyen, Witold Pedrycz, Václav Snásel: Application of Particle Swarm Optimization to Create Multiple-Choice Tests J Inf Sci Eng 34(6): 1405-1423 (2018) [4] Anand Rajaraman, Jure Leskovec,and Jeffrey D Ullman,Mining of Massive Datasets, Cambridge University Press, 2014 [5] Felix Naumann, Melanie Herschel, An Introduction to Duplicate Detection, Morgan & Claypool, 2010 [6] Lavanya Pamulaparty, C.V Guru Rao, M Sreenivasa Rao, A NEAR-DUPLICATE DETECTION ALGORITHM TO FACILITATE DOCUMENT CLUSTERING, International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.4, No.6, November 2014 [7] Wael H Gomaa, Aly A Fahmy, A Survey of Text Similarity Approaches, International Journal of Computer Applications (0975 – 8887) Volume 68 – No.13, April 2013 [8] Anshumali Shrivastava,Ping Li, In Defense of MinHash Over SimHash, Artificial Intelligence and Statistics pp 886-894 (2014) [9] Henzinger Monika, Finding near-duplicate web pages: a large-scale evaluation of algorithms, Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2006 [10] Pratap Dangeti, Statistics for Machine Learning, Packt Publishing, 2017 [11] Li, Baoli: Distance Weighted Cosine Similarity Measure for Text Classification In IDEAL 2013 proceedings 10.1007/978-3-642-41278-3_74, 2013 Tác giả chịu trách nhiệm viết: Phạm Văn Tính Trường Đại học Nơng Lâm TP HCM Email: pvtinh@hcmuaf.edu.vn ... hệ số Cosine cải tiến làm gia tăng khác biệt hay tương đồng theo dụng ý người dùng ỨNG DỤNG HỆ SỐ TƯƠNG ĐỒNG COSINE VÀ HỆ SỐ TƯƠNG ĐỒNG COSINE CẢI TIẾN TRONG XÂY DỰNG NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM... sánh hệ số tương đồng Cosine Cosine có trọng số Cosine Weighted Cosine Weighted Cosine Trường hợp Trường hợp 0.6299 Hệ số tương đồng Cosine hệ số tương đồng Cosine cải tiến ứng dụng để xây dựng. .. ngân hàng câu hỏi từ đề thi có sẵn thêm câu hỏi vào ngân hàng Nếu hệ số tương đồng câu hỏi thêm vào so với tất câu hỏi ngân hàng nhỏ ngưỡng (

Ngày đăng: 02/11/2020, 13:13

HÌNH ẢNH LIÊN QUAN

Bảng 1. So sánh SimHash và Cosine - Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm
Bảng 1. So sánh SimHash và Cosine (Trang 4)
Bảng 2. So sánh hệ số tương đồng Cosine và Cosine có trọng số - Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm
Bảng 2. So sánh hệ số tương đồng Cosine và Cosine có trọng số (Trang 6)
Hình 4. Các nhóm câu hỏi tương đồng môn Nhập môn hệ điều hành  - Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm
Hình 4. Các nhóm câu hỏi tương đồng môn Nhập môn hệ điều hành (Trang 7)
Hình 3. Các nhóm câu hỏi tương đồng môn Mạng máy tính  - Ứng dụng và cải tiến hệ số tương đồng Cosine trong xây dựng và quản lý ngân hàng câu hỏi trắc nghiệm
Hình 3. Các nhóm câu hỏi tương đồng môn Mạng máy tính (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w