Giai đoạn rút trích cơ sở

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 51 - 61)

Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt

3.2. Mơ hình rút trích ý chính của văn bản khoa học

3.2.1.3. Giai đoạn rút trích cơ sở

Đối với bài báo khoa học

Trong giai đoạn này hệ thống sau khi phân tích văn bản qua các giai đoạn tách câu và tách từ sẽ thực hiện việc rút trích những phần có sẵn trong bài báo. Đây được

xem là những phần quan trọng sau khi khảo sát hơn 200 bài báo khoa học trong cùng lĩnh vực. Qua đó thực hiện phương pháp rút trích dựa trên vị trí (Position-Based).

gồm những phần nào.

Theo như tài liệu [25] thì các phần của một bài báo khoa học bao gồm : - Tựa đề (Title)

- Tóm tắt (Abstract) - Đặt vấn đề (Introdution)

- Vật liệu (Materials) và phương pháp (Methods) - Kết quả (Results)

- Bàn luận (Discussion)

- Lời cảm ơn (Acknowledgement) - Tài liệu tham khảo (Reference)

Bảng 3.4 Các thành phần trong bài báo khoa học

Cấu trúc gồm các phần như trên gọi là cấu trúc IMRaD (Introduction, Methods, Results and Discussion),

- Introduction : What did you start ? Why ? - Methods : What did you do ?

- Results : What did you find ?

Đây là một chuẩn cấu trúc khi đề cập đến việt xem xét một bài báo khoa học,

chuẩn này xuất phát từ những năm 1940 bởi các tạp chí trong lĩnh vực y học và sinh học, sau đó lan rộng qua các lĩnh vực khoa học xã hội, khoa học giáo dục, các lĩnh vực kỹ thuật,... Chuẩn này cũng giống như các chuẩn thông dụng ngày nay như IEEE, ASME,…

Theo đúng quy tắc thì các thành phần trong bài báo theo chuẩn sẽ được trình bày như sau :

• Tựa đề ( Title ) :

- Tựa đề được viết ở trang đầu, canh lề chính giữa, khơng gạch dưới,

khơng in nghiêng.

- Bên dưới là tên và nơi làm việc của từng tác giả - Tiêu đề không ngắn quá, tối đa khoảng 20 chữ

- Bắt đầu bằng một động từ hoặc một danh động từ hoặc một danh từ bất

định hàm chứa một sự thực hiện.

• Tóm tắt (Abstract) :

- Độc lập với các phần khác, chỉ đứng một mình và xuất hiện một lần

trong bài báo. Nằm dưới phần thơng tin tác giả.

- Tóm tắt phải nêu lên các vấn đề như : mục tiêu chính, các phương pháp thực hiện, tổng kết các kết quả quan trọng, nói rõ những kết luận nỗi bật và kết quả của nó.

- Tóm tắt thường khoảng từ 100 đến 300 từ.

- Khơng có tham chiếu đến hình ảnh, bảng biểu hoặc nguồn tham khảo. • Đặt vấn đề (Introduction) :

- Nằm dưới phần tóm tắt

- Cung cấp những thông tin như : định nghĩa vấn đề, những gì đã được làm để giải quyết vấn đề, tóm lược những kết quả trước đã được cơng

bố, mục tiêu của nghiên cứu này.

• Phương pháp nghiên cứu (Materials and Methods) :

- Đây là phần quan trọng nhất trong bài báo khoa học

- Nhưng đây cũng là phần dài nhất bao gồm cả những diễn giãi vấn đề - Nêu ra đối tượng nghiên cứu và phương pháp nghiên cứu.

• Kết quả

- Phải có biểu đồ, bảng số liệu được diễn đạt một cách ngắn gọn, rõ ràng. - Trong phần này khơng có bình luận về kết quả

• Bàn luận (Discussion)

- Bao gồm 6 yếu tố :

o Tóm lược giả thiết, mục tiêu, kết quả chính.

o So sánh kết quả với các nghiên cứu trước

o Giải thích kết quả bằng cách đề ra mơ hình mới hay kết quả mới

o Khái quát hóa và ý nghĩa của kết quả

o Bàn qua những ưu điểm và khuyết điểm

o Kết luận sao cho người đọc có thể lĩnh hội một cách dễ dàng. - Cụ thể trả lời cho 6 câu hỏi :

o Phát hiện chính là gì ?

§ Phát biểu những phát hiện chính; đặt những phát hiện này vào bối cảnh của các nghiên cứu trước đây

§ Mở đầu phần thảo luận bằng cách tóm tắt bối cảnh, giả

thuyết, mục tiêu và phát hiện chính của nghiên cứu.

§ Là một đoạn văn tóm tắt những ý chính trong phần dẫn

nhập và kết quả để một lần nữa nhấn mạnh rằng giả

thuyết đã được minh chứng. Kết quả phải đo được bằng

con số để nhấn mạnh.

o Kết quả có nhất quán với nghiên cứu trước ?

§ Giải thích tại sao khơng nhất qn. Có phải do vấn đề địa phương, con người; hoặc do chẩn đốn, đo

§ lường, phân tích, v.v…

§ So sánh kết quả của nghiên cứu với các nghiên cứu trước.

§ Cịn phải phải giải thích tại sao kết quả của nghiên cứu khác (hay không nhất quán) với nghiên cứu trước.

o Giải thích tại sao có kết quả như trong nghiên cứu, mối liên hệ

đó có phù hợp với giả thuyết ?

§ Bàn về cơ chế của mối liên hệ một cách thuyết phục bằng cách sử dụng các nghiên cứu trước hay đề ra giả thuyết

mới; hoặc căn cứ những điều của thực tế đã xãy ra, ...

§ Phải giải thích những kết quả có thể giải thích bằng kiến thức hiện hành.

§ Có thể trích dẫn các nghiên cứu khác và hệ thống hóa thơng tin để giải thích kết quả của nghiên cứu mình.

o Ý nghĩa của kết quả nghiên cứu là gì ?

§ Nhằm khái quát hóa (generallization). Đặt kết quả của

nghiên cứu vào bối cảnh lớn hơn, và so sánh với các nghiên cứu trước đây.

§ Và giải thích ý nghĩa của kết quả.

§ Cần phải bàn về khả năng mà những phát hiện của nghiên cứu có thể áp dụng cho một quần thể khác hay khơng.

§ Có thể bàn về giá trị kinh tế

o Phát hiện đó có khả năng sai lầm không; điểm mạnh và khiếm

khuyết của nghiên cứu là gì ?

§ Xem xét những yếu tố như: Thiếu khách quan trong đo

lường, trong thu thập số liệu, Số lượng đối tượng ít, cách chọn mẫu có vấn đề, Các yếu tố khác chưa xem xét đến, Phân tích chưa đầy đủ,V.v...

o Kết luận có phù hợp với dữ kiện hay khơng ?

§ Kết luận phải rõ ràng, nhưng không nên đi ra ngồi

khn khổ của dữ kiện.

§ Phải cơ động, nhưng chuyển tải được kết quả và ý nghĩa của nghiên cứu.

§ Chỉ cần 1 câu (khơng cần cả 1 đoạn văn) • Cảm ơn (Acknowledgement) :

- Người viết cảm ơn những người đã cộng tác nghiên cứu với mình hoặc những đề tài dự án có hỗ trợ kinh phí cho việc thực hiện; những tổ

chức hỗ trợ các phương tiện nghiên cứu, v.v... • Tài liệu tham khảo (Reference) :

- Trình bày theo thứ tự, tên tác giả, tác phẩm, năm tháng, nơi xuất bản v.v...

- Không phân loại tài liệu Internet, tiếng Anh,tiếng Việt

Nếu chỉ xét các bài báo đúng theo chuẩn như trên thì vấn đề trở nên đơn giản, tuy nhiên qua khảo sát chỉ có một số phần là ln ln có, cịn một số phần có thể tùy biến về tên đề mục, vị trí hay thứ tự có thể thay đổi tùy theo cách viết của tác giả.

Khảo sát về sự xuất hiện của các phần theo quy định có trong 200 bài báo : Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học

Tên thành phần Số lượng bài báo chứa thành phần Tỷ lệ Tựa đề 200 100% Tóm tắt 192 96% Đặt vấn đề 188 94% Vật liệu và phương pháp 197 98.5% Kết quả 156 78% Bàn luận 200 100% Lời cảm ơn 35 17.5%

Tài liệu tham khảo 200 100%

Bảng trên chỉ đề cập đến sự xuất hiện nội dung của các thành phần theo quy định, tuy nhiên vấn đề phức tạp ở việc những thành phần đó xuất hiện với những tên

gọi khác nhau tùy theo tác giả bài báo đặt. Ví dụ như không nhất thiết lúc nào cũng là “Kết quả” mà có thể là “Kết luận”, “Kết quả và đánh giá”, “Kết luận và hướng phát triển”,...với thành phần Phương pháp còn phức tạp hơn khi tác giả các bài báo có thể chia thành nhiều mục khác nhau chứ không nhất thiết phải nằm trong một mục. Trong khi hướng tiếp cận của đề tài theo hướng cấu trúc và thống kê không quan tâm đến

ngữ nghĩa nên hướng giải quyết ở đây của đề tài là tương ứng với mỗi phần ta xây

dựng các tập ngữ nhận dạng tương ứng, đề tài chỉ xây dựng các tập cho các phần có tỷ lệ xuất hiện cao nhất và ít có tính biến động về tên gọi nhất như : Tựa đề, Tóm tắt, bàn

luận, Tài liệu tham khảo. Từ các tập ngữ nhận dạng đó ta có thể xác định vị trí của

thành phần quan trọng trong văn bản mà ta muốn rút trích. Cịn các thành phần cịn lại sẽ áp dụng việc tính độ quan trọng của câu và cụm từ gợi ý nhấn mạnh để xét câu quan trọng trong tập câu kết quả.

Đối với toàn văn báo cáo

Khác với bài báo khoa học, cấu trúc của toàn văn đa dạng và phức tạp hơn rất nhiều. Tồn văn trình bày tồn bộ các nội dung của đề tài, bao gồm nội dung phụ như các trang bìa, mục lục, danh mục hình ảnh, các từ viết tắt, lời cảm ơn, tài liệu tham khảo, phụ lục…và các nội dung chính như giới thiệu, tổng quan, phương pháp thực hiện, nội dung thực hiện, kết quả, kết luận…

a. Thứ tự các thành phần

Theo như [3] thì cấu trúc của một toàn văn được sắp xếp như sau : - Tên đề tài

- Lời cam đoan - Lời cảm ơn - Mục lục

- Danh mục các chữ viết tắt - Danh mục các bảng

- Danh mục các hình (gồm sơ đồ, đồ thị, biểu đồ, hình vẽ, ảnh) - Đặt vấn đề

- Tổng quan tài liệu

- Vật liệu và phương pháp nghiên cứu - Kết quả và thảo luận

- Kết luận và đề nghị - Tài liệu tham khảo - Phụ lục (nếu có)

- Nhận xét có dấu xác nhận của cơ sở thực hiện khoá luận (trường hợp sinh viên thực hiện khố luận tại cơ sở ngồi Trường)

Hoặc theo [4] cấu trúc một luận văn được sắp xếp theo thứ tự như sau : - Các trang bìa, gồm:

§ Bìa cứng in chữ nhũ vàng đủ dấu tiếng Việt (có thể khơng có trong tài liệu điện tử)

§ Trang phụ bìa (có thể khơng có trong tài liệu điện tử) - Lời cảm ơn

- Lời cam đoan - Tóm tắt luận văn

- Mục lục: được đặt ở ngay sau lời cam đoan - Danh mục các chữ viết tắt (nếu có)

- Danh mục bảng - Danh mục biểu đồ - Danh mục hình

- Mở đầu (từ đây đánh số trang theo chữ số A rập: 1, 2, 3, .....) - Chương 1

- Chương 2 - Chương 3 - Chương ......

- Kết luận (kết thúc đánh số trang)

- Danh mục tài liệu tham khảo: Chỉ bao gồm các tài liệu được trích dẫn, sử dụng và được đề cập tới để bàn luận trong luận văn; trình bày theo đúng quy định và không được đánh số trang.

- Phụ lục: (nếu có)

Tuy có quy định cụ thể như vậy nhưng hầu hết các toàn văn đều trình bày có sự sai khác so với quy định, và tên gọi cho các chương cũng thay đổi tùy theo nội dung

đề tài hay ý tưởng của tác giả. Điều đó gây nhiều trở ngại trong việc phân tích văn bản

trước khi rút trích.

b. Chi tiết trình bày

phải trình bày rõ ràng, mạch lạc, sạch sẽ, khơng được tẩy xóa; luận văn phải đánh số trang, đánh số bảng biểu, hình vẽ, đồ thị.

Luận văn sử dụng bảng mã Unicode, font chữ Times New Roman cỡ 13 hoặc 14 của hệ soạn thảo Winword hoặc tương đương; mật độ chữ bình thường, không được nén hoặc kéo dãn khoảng cách giữa các chữ; dãn dòng đặt ở chế độ 1,5 lines; lề trên 2,5 cm; lề dưới 2 cm; lề trái 3,5cm; lề phải 2 cm. Số trang được đánh ở giữa, phía trên

đầu mỗi trang, chỉ ghi số trang, khơng ghi thêm chữ phía trước .

c. Tiểu mục

Các tiểu mục của luận văn được trình bày và đánh số thành nhóm chữ số, nhiều nhất gồm bốn chữ số với số thứ nhất chỉ số chương (Ví dụ 1.1.2.1: chỉ tiểu mục 1, nhóm tiểu mục 2, mục 1 chương 1).

Luận văn in đậm mục số, chữ và tên phần/mục. Phần/mục sau phải so le với phần mục liền trước 1 tab (0,5-1 cm) và tuân theo nguyên tắc đánh số ma trận. Các báo cáo được trình bày và đánh số thành nhóm chữ số, nhiều nhất gồm 4 chữ số, chữ số thứ nhất là chỉ số chương. Tại mỗi nhóm tiểu mục phải có ít nhất 2 tiểu mục.

Ví dụ : 1.1 1.1.1 1.1.2 1.1.2.1 1.1.2.2 1.2 1.3 d. Bảng, biểu đồ, hình vẽ, phương trình

Việc đánh số bảng, biểu đồ, hình vẽ, phương trình phải gắn với số chương; ví dụ Hình 3.4 có nghĩa là hình thứ 4 trong chương 3.

Mọi bảng, biểu đồ lấy từ các nguồn khác phải được trích dẫn đầy đủ, ví dụ “Nguồn: Bộ Tài chính 1996”.

Nguồn được trích dẫn phải được liệt kê chính xác trong Danh mục Tài liệu tham khảo.

Tên bảng được đặt trên bảng biểu. Tên biểu đồ, hình vẽ được đặt phía dưới của biểu đồ, hình vẽ đó.

Chú thích (legend) ảnh, biểu đồ, bảng biểu được bố trí nằm phía dưới ảnh, biểu

đồ và bảng biểu

Khi đề cập đến các bảng biểu và hình vẽ thì phải nêu rõ số của hình và bảng biểu đó. Ví dụ: “… được nêu trong Bảng 2.1” hoặc “xem hình 2.1”; khơng được viết “được nêu trong bảng dưới đây” 3.2.6. Phương pháp áp dụng cho giai đoạn phân lớp câu

e. Trích dẫn

Trích dẫn trong bài viết bao gồm các thông tin sau: - Tên tác giả/tổ chức

- Năm xuất bản tài liệu

- Trang tài liệu trích dẫn (nếu có)

Có 2 cách chủ yếu trình bày trích dẫn trong bài viết:

Trong ngoặc đơn.

Ví dụ: Yếu tố C có ảnh hưởng mạnh nhất đến sản lượng nền kinh tế quốc dân

(Nguyễn Văn A, 2009)

Tên tác giả là thành phần của câu, năm xuất bản đặt trong ngoặc đơn.

Ví dụ: Nguyễn Văn A (2009) cho rằng yếu tố C có ảnh hưởng mạnh nhất đến

sản lượng nền kinh tế quốc dân.

Số trang tài liệu trích dẫn có thể được đưa vào trong trường hợp bài viết trích dẫn nguyên văn một đoạn nội dung của tài liệu tham khảo.

Ví dụ: Nguyễn Văn A (2009, tr.19) nêu rõ “yếu tố C có ảnh hưởng mạnh nhất

đến sản lượng nền kinh tế quốc dân”

f. Phụ lục

nội dung của Luận văn, như: số liệu, mẫu biểu, tranh ảnh,… Nếu luận văn sử dụng

những câu trả lời cho một bảng câu hỏi thì bảng câu hỏi mẫu này phải được đưa vào

phụ lục ở dạng nguyên bản đã dùng để điều tra, thăm dị ý kiến; khơng được tóm tắt

hoặc sửa đổi. Các tính tốn mẫu trình bày tóm tắt trong các bảng biểu cũng cần nêu trong Phụ lục của luận văn. Phụ lục không được dày hơn phần chính của luận văn.

g. Kết luận về rút trích tồn văn

Do nội dung từng phần trong toàn văn thường dài hơn trong bài báo khoa học, chính vì thế việc rút tồn bộ một phần quan trọng nào đó trong tồn văn sẽ làm cho độ rút gọn( độ nén) không cao, trong khi các ý quan trọng có thể nằm rãi rác ở nhiều phần khác nhau trong tồn văn. Do đó thay vì rút phần quan trọng chương trình sẽ đánh giá tất cả các câu sau khi đã tiền xử lý, loại bỏ các câu, các phần dư thừa như hình ảnh, bảng biểu, giải thích, thuật tốn, mã nguồn, phụ lục….từ đó dùng các cơng thức tính độ quan trọng của câu để rút trích ra được các ý chính.

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 51 - 61)

Tải bản đầy đủ (PDF)

(99 trang)