Mã Nội dung ISS Tf * Idf Số KýTự 17 Tuy nhiên, khi nhập điểm của học sinh vào các hệ thống quản lý điểm thì
việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều
29
Việc áp dụng cơng nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt sẽ gặp khó khăn nhất định do sự đa dạng và phức tạp trong ngữ âm tiếng Việt
46.52041 0.2925 144
Ta thấy ở phương pháp ISS câu 36 và 19 không mang thông tin cụ thể, không mô tả được nghiên cứu cái gì, những điểm thuận lợi, khó khăn là gì.
Cịn ở phương pháp Tf * Idf câu 17 và 29 mang thông tin cụ thể, rõ ràng về lý do thực hiện đề tài.
Qua đó có thể thấy phương pháp Tf * Idf theo quan niệm này vẫn có mức độ
chính xác cao hơn một chút so với phương pháp ISS.
Tiếp tục so sánh kết quả rút trích với việc đánh giá câu theo quan niệm của
Makoto[15] và R.C. Balabantara [23].
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Thấy rõ hơn qua bảng sau : Thấy rõ hơn qua bảng sau :
Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara
Mã Nội dung ISS Tf * Idf Số Ký Tự
37
Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau
103.58163 0.40142 176
10
Sau khi nghiên cứu, chúng tơi đã tích hợp thành cơng cơng nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hồn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn
113.88776 0.39502 240
11
Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập
điểm vào các hệ thống quản lý điểm khác nhau
120.46939 0.3499 269
7
Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập điểm vào
hệ thống đều thực hiện bằng tay thơng qua bàn phím, vì vậy khi nhập điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các giáo viên
96.60204 0.33713 226
166
Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm
Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như trước nay của
giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập
điểm của học sinh
100.10204 0.30802 315
56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần mềm
hỗ trợ nhập điểm 100.42857 0.28082 92
29 Việc áp dụng cơng nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt sẽ gặp
khó khăn nhất định do sự đa dạng và phức tạp trong ngữ âm tiếng Việt 46.64286 0.27685 144
162 Phần mềm hỗ trợ đọc lại điểm đã nhận dạng được, giúp người sử dụng biết khi
nhập sai 98.69388 0.26215 84
12 Tuy nhiên, phần mềm VSMark vẫn hoạt động chưa tốt trong môi trường tạp âm
nhiều, chúng tôi sẽ tiếp tục phát triển và khắc phục trong những phiên bản sau 74.94898 0.24866 152
43 Sphinx-4: công cụ nhận dạng giọng nói viết bằng ngơn ngữ java, có tính linh
Ta thấy:
- So với kết quả của ISS thì số câu kết quả giống nhau :
37,10,11,7,166,56, 162. Tỷ lệ giống nhau là 70%.
- So với kết quả của đánh giá câu theo quan niệm thơng thường thì số câu kết quả giống nhau : 37,10,11,7,166,56,29,162. Tỷ lệ giống nhau là 80%.
Xét tiếp phần khác nhau của kết quả theo quan niệm thông thường :
Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara
Mã Nội dung ISS Tf * Idf Số Ký Tự
9
Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở chun về cơng nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngồi tiếng Anh là ngơn ngữ chính Sphinx cịn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngơn ngữ khác trong đó có tiếng Việt
105.36735 0.38862 308
17
Tuy nhiên, khi nhập điểm của học sinh vào các hệ thống quản lý điểm thì hầu hết đều được giáo viên thực hiện bằng tay thơng qua bàn phím, cơng việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều
68.13265 0.33912 277
Và kết quả theo quan niệm Makoto và R.C. Balabantara :
Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara
Mã Nội dung ISS Tf * Idf Số Ký Tự
12
Tuy nhiên, phần mềm VSMark vẫn hoạt động chưa tốt trong môi trường tạp âm nhiều, chúng tôi sẽ tiếp tục phát triển và khắc phục trong những phiên bản sau
74.94898 0.24866 152
43 Sphinx-4: cơng cụ nhận dạng giọng nói viết bằng ngơn ngữ java, có tính linh
hoạt cao, độ tin cậy tốt, thích hợp cho các hệ thống yêu cầu độ chính xác cao 71 0.24146 153 Cả hai quan niệm đều cho ra kết quả là các câu có hàm lượng thơng tin cao theo
đúng các tiêu chí rút trích. Tuy nhiên có thể thấy được theo quan niệm của Makoto và
bên trong nó.
Xét tiếp kết quả của quan niệm Makoto và R.C. Balabantara (Ngoài 10 câu cao điểm nhất) :
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara
Mã Nội dung ISS Tf * Idf Số Ký Tự
40 Các công cụ hỗ trợ trong hệ thống nhận dạng giọng nói Sphinx, bao gồm 68.58163 0.22212 69
41 Pocketsphinx: công cụ nhận dạng giọng nói nhỏ gọn viết bằng ngơn ngữ
C, thích hợp cho các hệ thống nhúng 49.17347 0.22133 104
15 Ở nước ta hiện nay, tại các trường học việc quản lý điểm của từng học
sinh hầu hết đều được tin học hóa 29.9898 0.2196 103
46 Sphinx3: công cụ nhận dạng bằng ngôn ngữ C, nền tảng ra đời của
Sphinx-4. 49.30612 0.21428 73
65 Thư viện hỗ trợ nhận dạng giọng nói Sphinx4-beta6. 42.29592 0.21255 50
28
Việc nghiên cứu nhận dạng giọng nói tiếng Việt chưa có nhiều thành tựu
đáng kể và chưa đưa ra được các thư viện hổ trợ cho quá trình xây dựng ứng dụng
56.76531 0.20617 150
159 Tốc độ nhận dạng nhanh, có hỗ trợ đọc một dãy điểm liên tục 42.42857 0.20448 59
Đến lúc này ta thấy được khuyết điểm của quan niệm Makoto và R.C.
Balabantara cho việc xử lý tiếng Việt, qua các câu kết quả tiếp theo từ câu thứ 11 đến câu 17 đã xếp hạng giảm dần theo điểm tf*idf thì các câu chứa ít từ sẽ khơng mang
nghĩa đầy đủ hay không chứa nhiều thông tin.
Chính vì thế để đạt được kết quả tốt hơn thì ta sẽ chọn lựa sử dụng phương
pháp kết hợp độ đo cục bộ và toàn cục (Tf * Idf) với quan niệm câu càng chứa nhiều từ có độ quan trọng cao thì câu đó càng có độ quan trọng cao.
4.3.3. Đánh giá từ phía người đọc
Để đánh giá khách quan hơn, đề tài đã khảo sát kết quả dưới sự đánh giá của 6
người, tất cả đều học tập và làm việc trong lĩnh vực công nghệ thông tin.
Số lượng tài liệu khảo sát bao gồm 5 tài liệu trong lĩnh vực cơng nghệ thơng tin. Trong đó :
• Tài liệu 1 : Xây dựng hệ thống mô phỏng phịng máy dùng trong quản
lý hỏng hóc, sửa chữa của tác giả Nguyễn Minh Sơn và Phan Thị
Hường. (D1)
• Tài liệu 2 : Hệ thống điều khiển Robot di chuyển tự động theo mục tiêu
màu ứng dụng Board DE2 của tác giả Vũ Đức Lung, Trần Ngọc Đức
và Lê Phước Phát Đạt Đức.(D2)
• Tài liệu 3 : Enrichment Computer Science Bibliography của tác giả Đỗ Văn Tiến, Nguyễn Phước Cường và Huỳnh Ngọc Tín.(D3)
• Tài liệu 4 : Build social networking location-based services on Windows Phone 7 environments của tác giả Đoàn Ngọc Nam, Trần Lễ
Nhơn, Phạm Thi Vương.(D4)
• Tài liệu 5 : Một số vấn đề về xử lý ngữ nghĩa trong dịch tự động ngôn
ngữ tự nhiên của tác giả Trương Xuân Nam và Hồ Sỹ Đàm(D5)
Sau q trình khảo sát, kết quả rút trích của 6 người tham gia và hệ thống rút trích ý chính (EMIS) được thể hiện qua bảng sau :