Đánh giá kết quả thực nghiệm từ hai công thức sử dụng

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 82 - 89)

Trong báo cáo cũng như trong chương trình, đề tài sử dụng cả hai công thức

để đánh giá độ quan trọng cho từng câu. Đây là hai công thức đã có từ trước, việc quyết định công thức nào phù hợp với bài toán rút trích này hoặc công thức nào cho độ

chính xác cao hơn sẽ được thực nghiệm qua chương trình. Bên cạnh đó với công thức tính độ đo cục bộ và toàn cục đề tài cũng xét kết quảđánh giá câu theo hai quan niệm nhưđã đề cập ở phần trước là quan niệm thông thường và quan niệm của Makoto[15]. Sau đây là kết quả xử lý cũng với bài báo trên mà hai công thức mang lại :

• 10 câu có điểm ISS cao nhất (Chỉ tính các câu trong tập câu không chứa ngữ

Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS

Mã Nội dung ISS Tf * Idf Số Ký Tự

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập điểm vào các hệ thống quản lý điểm khác nhau

120.30612 0.5849 269

10

Sau khi nghiên cứu, chúng tôi đã tích hợp thành công công nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hoàn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.70408 0.41853 240

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở

chuyên về công nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngoài tiếng Anh là ngôn ngữ chính Sphinx còn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngôn ngữ khác trong đó có tiếng Việt

105.36735 0.38862 308

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích

ứng với nhiều giọng nói khác nhau

103.46939 0.49294 176

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần

mềm hỗ trợ nhập điểm 100.34694 0.2967 92

166

Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như

trước nay của giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập điểm của học sinh

99.92857 0.38475 315

162 Phần mềm hỗ trợđọc lại điểm đã nhận dạng được, giúp người sử dụng biết

khi nhập sai 98.63265 0.27983 84

7

Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập

điểm vào hệ thống đều thực hiện bằng tay thông qua bàn phím, vì vậy khi nhập điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các giáo viên

96.44898 0.36117 226

36 Sau khi nghiên cứu, chúng tôi đã hoàn thành phần mềm hỗ trợ nhập điểm

19 Việc xây dựng phần mềm sử dụng giọng nói tự nhiên khi nhập điểm có

những thuận lợi và khó khăn nhất định 79.56122 0.13699 104

• 10 câu có điểm Tf * Idf cao nhất (Chỉ tính các câu trong tập câu không chứa ngữ nhấn mạnh) với quan niệm câu có nhiều từ quan trọng thì là câu quan trọng:

Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường

Mã Nội dung ISS Tf * Idf Số Ký Tự

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập điểm vào các hệ thống quản lý điểm khác nhau

120.30612 0.5849 269

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau

103.46939 0.49294 176

10

Sau khi nghiên cứu, chúng tôi đã tích hợp thành công công nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hoàn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.70408 0.41853 240

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở

chuyên về công nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngoài tiếng Anh là ngôn ngữ chính Sphinx còn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngôn ngữ khác trong đó có tiếng Việt

105.36735 0.38862 308

166

Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như trước nay của giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập điểm của học sinh

99.92857 0.38475 315

7

Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập điểm vào hệ thống đều thực hiện bằng tay thông qua bàn phím, vì vậy khi nhập

điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các giáo viên

96.44898 0.36117 226

hết đều được giáo viên thực hiện bằng tay thông qua bàn phím, công việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần

mềm hỗ trợ nhập điểm 100.34694 0.2967 92

29 Việc áp dụng công nghệ nước ngoài vào nhận dạng giọng nói tiếng Việt sẽ

gặp khó khăn nhất định do sựđa dạng và phức tạp trong ngữ âm tiếng Việt 46.52041 0.2925 144

162 Phần mềm hỗ trợđọc lại điểm đã nhận dạng được, giúp người sử dụng biết

khi nhập sai 98.63265 0.27983 84

Qua kết quả trên ta thấy được ở cả hai công thức các câu được rút trích có

điểm số cao trong 10 câu là : 11, 10, 9, 37, 56, 166, 162, 7.

Cả hai phương pháp này đều đánh giá cao giống nhau 8/10 câu, tỷ lệ 80%. Thực nghiệm các tài liệu khác, kết quả dao động trong khoảng từ 70% - 90%. Như vậy ta thấy không có sự sai khác nào quá lớn trong việc sử dụng các phương pháp này, các câu mà hai phương pháp này đánh giá cao đều mang các tiêu chí như đã đề ra và có hàm lượng thông tin cao.

Ta xét tiếp các câu khác nhau trong hai phương pháp : - Phương pháp ISS :

Bảng 4. 5 Kết quả khác nhau của ISS

Mã Nội dung ISS Tf * Idf Số KýTự

36 Sau khi nghiên cứu, chúng tôi đã hoàn thành phần mềm hỗ trợ nhập điểm

sử dụng giọng nói tiếng Việt 93.85714 0.20237 98

19 Việc xây dựng phần mềm sử dụng giọng nói tự nhiên khi nhập điểm có

những thuận lợi và khó khăn nhất định 79.56122 0.13699 104 - Phương pháp Tf * Idf (Quan niệm thông thường):

Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường

Mã Nội dung ISS Tf * Idf Số KýTự

17 Tuy nhiên, khi nhập điểm của học sinh vào các hệ thống quản lý điểm thì

việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều

29

Việc áp dụng công nghệ nước ngoài vào nhận dạng giọng nói tiếng Việt sẽ gặp khó khăn nhất định do sựđa dạng và phức tạp trong ngữ âm tiếng Việt

46.52041 0.2925 144

Ta thấy ở phương pháp ISS câu 36 và 19 không mang thông tin cụ thể, không mô tảđược nghiên cứu cái gì, những điểm thuận lợi, khó khăn là gì.

Còn ở phương pháp Tf * Idf câu 17 và 29 mang thông tin cụ thể, rõ ràng về lý do thực hiện đề tài.

Qua đó có thể thấy phương pháp Tf * Idf theo quan niệm này vẫn có mức độ

chính xác cao hơn một chút so với phương pháp ISS.

Tiếp tục so sánh kết quả rút trích với việc đánh giá câu theo quan niệm của Makoto[15] và R.C. Balabantara [23].

Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Thấy rõ hơn qua bảng sau :

Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara

Mã Nội dung ISS Tf * Idf Số Ký Tự

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau

103.58163 0.40142 176

10

Sau khi nghiên cứu, chúng tôi đã tích hợp thành công công nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hoàn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.88776 0.39502 240

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập

điểm vào các hệ thống quản lý điểm khác nhau

120.46939 0.3499 269

7

Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập điểm vào hệ thống đều thực hiện bằng tay thông qua bàn phím, vì vậy khi nhập điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các giáo viên

96.60204 0.33713 226

166

Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm

Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như trước nay của giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập

điểm của học sinh

100.10204 0.30802 315

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần mềm

hỗ trợ nhập điểm 100.42857 0.28082 92

29 Việc áp dụng công nghệ nước ngoài vào nhận dạng giọng nói tiếng Việt sẽ gặp

khó khăn nhất định do sựđa dạng và phức tạp trong ngữ âm tiếng Việt 46.64286 0.27685 144

162 Phần mềm hỗ trợđọc lại điểm đã nhận dạng được, giúp người sử dụng biết khi

nhập sai 98.69388 0.26215 84

12 Tuy nhiên, phần mềm VSMark vẫn hoạt động chưa tốt trong môi trường tạp âm

nhiều, chúng tôi sẽ tiếp tục phát triển và khắc phục trong những phiên bản sau 74.94898 0.24866 152

43 Sphinx-4: công cụ nhận dạng giọng nói viết bằng ngôn ngữ java, có tính linh

Ta thấy:

- So với kết quả của ISS thì số câu kết quả giống nhau :

37,10,11,7,166,56, 162. Tỷ lệ giống nhau là 70%.

- So với kết quả của đánh giá câu theo quan niệm thông thường thì số câu kết quả giống nhau : 37,10,11,7,166,56,29,162. Tỷ lệ giống nhau là 80%.

Xét tiếp phần khác nhau của kết quả theo quan niệm thông thường :

Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara

Mã Nội dung ISS Tf * Idf Số Ký Tự

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở

chuyên về công nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngoài tiếng Anh là ngôn ngữ chính Sphinx còn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngôn ngữ khác trong đó có tiếng Việt

105.36735 0.38862 308

17

Tuy nhiên, khi nhập điểm của học sinh vào các hệ thống quản lý điểm thì hầu hết đều được giáo viên thực hiện bằng tay thông qua bàn phím, công việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều

68.13265 0.33912 277

Và kết quả theo quan niệm Makoto và R.C. Balabantara :

Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara

Mã Nội dung ISS Tf * Idf Số Ký Tự

12

Tuy nhiên, phần mềm VSMark vẫn hoạt động chưa tốt trong môi trường tạp âm nhiều, chúng tôi sẽ tiếp tục phát triển và khắc phục trong những phiên bản sau

74.94898 0.24866 152

43 Sphinx-4: công cụ nhận dạng giọng nói viết bằng ngôn ngữ java, có tính linh

hoạt cao, độ tin cậy tốt, thích hợp cho các hệ thống yêu cầu độ chính xác cao 71 0.24146 153 Cả hai quan niệm đều cho ra kết quả là các câu có hàm lượng thông tin cao theo

đúng các tiêu chí rút trích. Tuy nhiên có thể thấy được theo quan niệm của Makoto và R.C. Balabantara thì các câu ít từ hơn cũng có thể chứa những thông tin quan trọng

bên trong nó.

Xét tiếp kết quả của quan niệm Makoto và R.C. Balabantara (Ngoài 10 câu cao điểm nhất) :

Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara

Mã Nội dung ISS Tf * Idf Số Ký Tự

40 Các công cụ hỗ trợ trong hệ thống nhận dạng giọng nói Sphinx, bao gồm 68.58163 0.22212 69

41 Pocketsphinx: công cụ nhận dạng giọng nói nhỏ gọn viết bằng ngôn ngữ

C, thích hợp cho các hệ thống nhúng 49.17347 0.22133 104

15 Ở nước ta hiện nay, tại các trường học việc quản lý điểm của từng học

sinh hầu hết đều được tin học hóa 29.9898 0.2196 103

46 Sphinx3: công cụ nhận dạng bằng ngôn ngữ C, nền tảng ra đời của

Sphinx-4. 49.30612 0.21428 73

65 Thư viện hỗ trợ nhận dạng giọng nói Sphinx4-beta6. 42.29592 0.21255 50

28

Việc nghiên cứu nhận dạng giọng nói tiếng Việt chưa có nhiều thành tựu

đáng kể và chưa đưa ra được các thư viện hổ trợ cho quá trình xây dựng

ứng dụng

56.76531 0.20617 150

159 Tốc độ nhận dạng nhanh, có hỗ trợđọc một dãy điểm liên tục 42.42857 0.20448 59

Đến lúc này ta thấy được khuyết điểm của quan niệm Makoto và R.C. Balabantara cho việc xử lý tiếng Việt, qua các câu kết quả tiếp theo từ câu thứ 11 đến câu 17 đã xếp hạng giảm dần theo điểm tf*idf thì các câu chứa ít từ sẽ không mang nghĩa đầy đủ hay không chứa nhiều thông tin.

Chính vì thế để đạt được kết quả tốt hơn thì ta sẽ chọn lựa sử dụng phương pháp kết hợp độ đo cục bộ và toàn cục (Tf * Idf) với quan niệm câu càng chứa nhiều từ có độ quan trọng cao thì câu đó càng có độ quan trọng cao.

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 82 - 89)