.12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 79)

4.3. Đánh giá kết quả

4.3.1. Đánh giá kết quả xử lý tổng quát

Về các thành phần quan trọng :

Chương trình rút trích các phần quan trọng như đã quy định ban đầu là : - Chủ đề (Tên tài liệu)

- Tóm tắt - Kết luận

- Cấu trúc tài liệu (Mục lục)

Qua hình 4.12 ta có thể thấy kết quả xử lý cho tài liệu này là chính xác với các phần được rút trích đầy đủ như quy định.

Về việc xử lý đánh giá câu:

Lọc theo tỷ lệ 4.21 % kết quả cho ra 8 câu :

Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21%

câu Nội dung

8

Để khắc phục những khó khăn trong việc nhập điểm bằng tay như trên, chúng tôi đã nghiên cứu và phát

triển một công cụ hỗ trợ cho các giáo viên trong việc nhập điểm, sử dụng giọng nói để thay thế cho việc nhập điểm bằng tay

18

Vì thế, việc đưa ra một giải pháp để thay thế cho việc nhập điểm bằng tay là một nhu cầu khách quan, chúng tôi đã đưa ra giải pháp sử dụng giọng nói tự nhiên để thay thế cho việc nhập điểm bằng tay như trước nay

22 Đơn giản, dễ sử dụng, việc sử dụng giọng nói tự nhiên để nhập điểm rất gần gũi với cuộc sống hằng ngày,

vì vậy người sử dụng sẽ dễ dàng tiếp thu và sử dụng

47 Chúng tôi đã sử dụng các công cụ Sphinx4-beta6. SphinxTrain-1.0.7. CMUclmtk-0.7 và ngơn ngữ lập trình Java để hồn thành phần mềm VSMark

55 Xác định các yêu cầu đặt ra trong quá trình nhập điểm của các phần mềm quản lý điểm

67 Ngôn ngữ lập trình Java với nền Java Runtime JDK1.6.0 với cơng cụ hỗ trợ lập trình NetBean IDE 6.9.1

75 Tiến hành thử nghiệm phần mềm trên 2 môi trường khác nhau: mơi trường văn phịng n tĩnh và mơi trường có nhiều tạp âm (tiếng gió, tiếng trị chuyện)

117 Tiến hành thử nghiệm trên hai đối tượng sử dụng khác nhau, một đối tượng đã thu âm trong cơ sở dữ liệu, một đối tượng chưa thu âm

Lọc theo tỷ lệ 7 % kết quả cho ra 13 câu :

Bảng 4. 2 Lọc kết quả theo tỷ lệ 7%

câu Nội dung

8

Để khắc phục những khó khăn trong việc nhập điểm bằng tay như trên, chúng tôi đã nghiên cứu và phát

triển một công cụ hỗ trợ cho các giáo viên trong việc nhập điểm, sử dụng giọng nói để thay thế cho việc nhập điểm bằng tay

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở chuyên về công nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngồi tiếng Anh là ngơn ngữ chính Sphinx cịn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngơn ngữ khác trong đó có tiếng Việt

10

Sau khi nghiên cứu, chúng tôi đã tích hợp thành cơng cơng nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hồn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng

điểm số và xuất ra các vị trí mong muốn

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và

đảm bảo chính xác khi nhập điểm vào các hệ thống quản lý điểm khác nhau

18

Vì thế, việc đưa ra một giải pháp để thay thế cho việc nhập điểm bằng tay là một nhu cầu khách quan, chúng tôi đã đưa ra giải pháp sử dụng giọng nói tự nhiên để thay thế cho việc nhập điểm bằng tay như trước nay

22 Đơn giản, dễ sử dụng, việc sử dụng giọng nói tự nhiên để nhập điểm rất gần gũi với cuộc sống hằng ngày,

vì vậy người sử dụng sẽ dễ dàng tiếp thu và sử dụng

37 Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau

47 Chúng tôi đã sử dụng các công cụ Sphinx4-beta6. SphinxTrain-1.0.7. CMUclmtk-0.7 và ngơn ngữ lập trình Java để hồn thành phần mềm VSMark

55 Xác định các yêu cầu đặt ra trong quá trình nhập điểm của các phần mềm quản lý điểm

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần mềm hỗ trợ nhập điểm 67 Ngôn ngữ lập trình Java với nền Java Runtime JDK1.6.0 với cơng cụ hỗ trợ lập trình NetBean IDE 6.9.1

75 Tiến hành thử nghiệm phần mềm trên 2 môi trường khác nhau: mơi trường văn phịng n tĩnh và mơi trường có nhiều tạp âm (tiếng gió, tiếng trị chuyện)

một đối tượng chưa thu âm

Thật khó để đánh giá các tiêu chí như đã đề cập ở chương 3 khi chưa có một ứng dụng đánh giá tóm tắt văn bản tiếng Việt, vì thế để có cái nhìn khách quan hơn về

tính đúng đắn của hệ rút trích ta xem xét các tiêu chí với cái nhìn của người đọc như : - Câu phải chứa thông tin cụ thể

- Lý do thực hiện đề tài - Phương pháp thực hiện - Kết quả

Đây cũng là những tiêu chí mà người dùng quan tâm khi muốn tìm ý chính

trong một tài liệu khoa học.

Qua các tiêu chí trên ta thấy :

- Các câu đều chứa thông tin cụ thể, không mơ hồ. - Lý do thực hiện đề tài : câu số 8, 18, 22

- Phương pháp thực hiện : câu số 9, 10, 47, 55, 56, 67,75,117 - Kết quả : câu số 11, 37

Như vậy số câu mang các tiêu chí như trên là 13/13 câu, tỷ lệ là 100%.

Qua đó ta thấy kết quả trên có thể là cơ sở để người dùng tham khảo đưa ra

quyết định, tỷ lệ trên thay đổi theo số lượng câu (hay tỷ lệ rút trích) mà người dùng

chọn ban đầu, tỷ lệ này có thể thay đổi để người dùng có thể tham khảo thêm nhiều

câu hơn đến khi nào đưa ra quyết định hay nhận biết được nội dung chính của tài liệu.

4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng

Trong báo cáo cũng như trong chương trình, đề tài sử dụng cả hai cơng thức để đánh giá độ quan trọng cho từng câu. Đây là hai cơng thức đã có từ trước, việc

quyết định công thức nào phù hợp với bài tốn rút trích này hoặc cơng thức nào cho độ chính xác cao hơn sẽ được thực nghiệm qua chương trình. Bên cạnh đó với cơng thức tính độ đo cục bộ và toàn cục đề tài cũng xét kết quả đánh giá câu theo hai quan niệm như đã đề cập ở phần trước là quan niệm thông thường và quan niệm của Makoto[15]. Sau đây là kết quả xử lý cũng với bài báo trên mà hai cơng thức mang lại :

• 10 câu có điểm ISS cao nhất (Chỉ tính các câu trong tập câu không chứa ngữ nhấn mạnh) :

Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS

Mã Nội dung ISS Tf * Idf Số Ký Tự

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập điểm vào các hệ thống quản lý điểm khác nhau

120.30612 0.5849 269

10

Sau khi nghiên cứu, chúng tơi đã tích hợp thành cơng cơng nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hồn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.70408 0.41853 240

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở chuyên về công nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngồi tiếng Anh là ngơn ngữ chính Sphinx cịn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngôn ngữ khác trong đó có tiếng Việt

105.36735 0.38862 308

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích

ứng với nhiều giọng nói khác nhau

103.46939 0.49294 176

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần

mềm hỗ trợ nhập điểm 100.34694 0.2967 92

166

Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như trước nay của giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập điểm của học sinh

99.92857 0.38475 315

162 Phần mềm hỗ trợ đọc lại điểm đã nhận dạng được, giúp người sử dụng biết

khi nhập sai 98.63265 0.27983 84

7

Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập điểm vào hệ thống đều thực hiện bằng tay thơng qua bàn phím, vì vậy khi nhập điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các giáo viên

96.44898 0.36117 226

36 Sau khi nghiên cứu, chúng tôi đã hoàn thành phần mềm hỗ trợ nhập điểm

19 Việc xây dựng phần mềm sử dụng giọng nói tự nhiên khi nhập điểm có

những thuận lợi và khó khăn nhất định 79.56122 0.13699 104

• 10 câu có điểm Tf * Idf cao nhất (Chỉ tính các câu trong tập câu khơng chứa ngữ nhấn mạnh) với quan niệm câu có nhiều từ quan trọng thì là câu quan trọng:

Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường

Mã Nội dung ISS Tf * Idf Số Ký Tự

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập điểm vào các hệ thống quản lý điểm khác nhau

120.30612 0.5849 269

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau

103.46939 0.49294 176

10

Sau khi nghiên cứu, chúng tơi đã tích hợp thành cơng cơng nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hồn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.70408 0.41853 240

9

Với các công cụ trong bộ phần mềm Sphinx, một phần mềm mã nguồn mở chun về cơng nghệ nhận dạng giọng nói do đại học Carnegie Mellon University nghiên cứu và phát triển, ngồi tiếng Anh là ngơn ngữ chính Sphinx cịn hỗ trợ tốt khả năng huấn luyện nhận dạng đối với một số ngơn ngữ khác trong đó có tiếng Việt

105.36735 0.38862 308

166

Tuy có những thiếu sót nhất định, nhưng phần mềm có khả năng ứng dụng vào thực tế (đã sử dụng thử nghiệm tại trường PTCS Phước Mỹ, và THCS Hàm Đức), phần mềm có thể thay thế cho việc nhập điểm bằng tay như trước nay của giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi trong công việc nhập điểm của học sinh

99.92857 0.38475 315

7

Đặc điểm chung của các phần mềm quản lý điểm hiện nay là việc nhập điểm

vào hệ thống đều thực hiện bằng tay thơng qua bàn phím, vì vậy khi nhập

điểm với số lượng nhiều dể gây sự nhàm chán, mệt mỏi và nhầm lẫn cho các

giáo viên

96.44898 0.36117 226

hết đều được giáo viên thực hiện bằng tay thơng qua bàn phím, cơng việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều

56 Tạo khả năng thích ứng với các hệ thống quản lý điểm khác nhau cho phần

mềm hỗ trợ nhập điểm 100.34694 0.2967 92

29 Việc áp dụng cơng nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt sẽ

gặp khó khăn nhất định do sự đa dạng và phức tạp trong ngữ âm tiếng Việt 46.52041 0.2925 144

162 Phần mềm hỗ trợ đọc lại điểm đã nhận dạng được, giúp người sử dụng biết

khi nhập sai 98.63265 0.27983 84

Qua kết quả trên ta thấy được ở cả hai công thức các câu được rút trích có điểm số cao trong 10 câu là : 11, 10, 9, 37, 56, 166, 162, 7.

Cả hai phương pháp này đều đánh giá cao giống nhau 8/10 câu, tỷ lệ 80%.

Thực nghiệm các tài liệu khác, kết quả dao động trong khoảng từ 70% - 90%. Như vậy ta thấy khơng có sự sai khác nào quá lớn trong việc sử dụng các phương pháp này, các câu mà hai phương pháp này đánh giá cao đều mang các tiêu chí như đã đề ra và có

hàm lượng thơng tin cao.

Ta xét tiếp các câu khác nhau trong hai phương pháp : - Phương pháp ISS :

Bảng 4. 5 Kết quả khác nhau của ISS

Mã Nội dung ISS Tf * Idf Số KýTự 36 Sau khi nghiên cứu, chúng tơi đã hồn thành phần mềm hỗ trợ nhập điểm

sử dụng giọng nói tiếng Việt 93.85714 0.20237 98

19 Việc xây dựng phần mềm sử dụng giọng nói tự nhiên khi nhập điểm có

những thuận lợi và khó khăn nhất định 79.56122 0.13699 104

- Phương pháp Tf * Idf (Quan niệm thông thường):

Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường

Mã Nội dung ISS Tf * Idf Số KýTự 17 Tuy nhiên, khi nhập điểm của học sinh vào các hệ thống quản lý điểm thì

việc này dễ gây ra sự nhàm chán, mệt mõi và nhầm lẫn cho giáo viên trong quá trình nhập điểm, nhất là khi nhập điểm với số lượng nhiều

29

Việc áp dụng công nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt sẽ gặp khó khăn nhất định do sự đa dạng và phức tạp trong ngữ âm tiếng Việt

46.52041 0.2925 144

Ta thấy ở phương pháp ISS câu 36 và 19 không mang thông tin cụ thể, không mô tả được nghiên cứu cái gì, những điểm thuận lợi, khó khăn là gì.

Cịn ở phương pháp Tf * Idf câu 17 và 29 mang thông tin cụ thể, rõ ràng về lý do thực hiện đề tài.

Qua đó có thể thấy phương pháp Tf * Idf theo quan niệm này vẫn có mức độ

chính xác cao hơn một chút so với phương pháp ISS.

Tiếp tục so sánh kết quả rút trích với việc đánh giá câu theo quan niệm của

Makoto[15] và R.C. Balabantara [23].

Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara Thấy rõ hơn qua bảng sau : Thấy rõ hơn qua bảng sau :

Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara

Mã Nội dung ISS Tf * Idf Số Ký Tự

37

Phần mềm có khả năng hỗ trợ cho hầu hết các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng đạt sắp sĩ 100% và có khả năng thích ứng với nhiều giọng nói khác nhau

103.58163 0.40142 176

10

Sau khi nghiên cứu, chúng tơi đã tích hợp thành cơng cơng nghệ nhận dạng giọng nói của Sphinx vào ứng dụng của mình, và đã hồn thành phần mềm VSMark có khả năng chuyển đổi giọng nói thành các từ dạng điểm số và xuất ra các vị trí mong muốn

113.88776 0.39502 240

11

Phần mềm Vsmark có khả năng hỗ trợ nhập điểm cho tất cả các phần mềm quản lý điểm hiện nay với độ chính xác khi nhận dạng giọng nói đạt được gần 100% sẽ giúp giáo viên cảm thấy dễ dàng, đơn giản và đảm bảo chính xác khi nhập

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 79)

Tải bản đầy đủ (PDF)

(99 trang)