3. Lý thuyết và phương pháp nghiên cứu
3.6. Phương pháp sử dụng cộng nghệ thông tin vào chương trình xử lý tư liệu
loại, xử lý nguồn tư liệu văn học dân gian truyền thống bằng một chương trình xử lý không truyền thống lắm. Ở những thao tác này, chúng tôi có tham khảo cách phân loại của các công trình nghiên cứu trước đây của tác giả Vũ Ngọc Phan, Vũ Minh Giang và Vũ Văn Quân,…
Các câu ca dao, tục ngữ được chọn để trích dẫn vào trong nội dung của đề tài thì chúng tôi không viết lại nguồn của từng câu ở cuối câu trích dẫn. Vì nguồn tư liệu trích dẫn trong nội dung đề tài, chúng tôi đã đưa vào cột nguồn ở phần phụ lục của đề tài. Ví dụ: Ăn trông nồi, ngồi trông hướng [454, tr157, tập I tn]; Tiếng ai như
tiếng xứ Đoài //Ăn cơm thì ít ăn khoai thì nhiều [1003, tr 2271, tập II cd].
Ở đây chúng tôi đã kết hợp sử dụng cả phương pháp phân tích định lượng và định tính thông qua các số liệu đã thống kê được. Còn về nội dung thì đã được xác định thành các vấn đề và tổ hợp vấn đề mà dưới đây sẽ được lần lượt đề cập đến ở từng chương nội dung. Các mặt khác như vấn đề thể loại, hình thức nghệ thuật, cấu trúc, ngữ nghĩa của ca dao, tục ngữ không phải là đối tượng quan tâm của chúng tôi ở đề tài này.
3.6. Phương pháp sử dụng cộng nghệ thông tin vào chương trình xử lý tưliệu liệu
Chương trình này giúp tác giả đề tài có được một giao diện để nhập các câu
văn bản1, biên tập và tra cứu chúng theo các yêu cầu nhất định. Chương trình được thiết kế dựa theo phần mềm quản trị cơ sở dữ liệu Access của Microsoft Office. Một chương trình được thiết kế trong Access luôn đòi hỏi tính chặt chẽ về quan hệ dữ
liệu, nếu tổ chức mối quan hệ dữ liệu không đúng logic thì hệ quả sẽ xảy ra theo các
hệ quả sau:
Chương trình có thể không thực thi.
Chương trình thực thi không ổn định, có thể gây ra lỗi. Số liệu thống kê có thể không chính xác.
Ngược lại, nếu cơ sở dữ liệu (CSDL) được tổ chức tốt, các mối quan hệ ràng buộc hợp logic thì kết quả thu được là đáng tin cậy (xem cụ thể ở phần phụ lục 1 Khái niệm “câu văn bản” ở đây được hiểu là một hoặc một tập hợp các câu ca dao - tục ngữ được lựa chọn để làm căn cứ nghiên cứu.
minh họa chương trình xử lý ngữ liệu). Chương trình không những giúp người sử dụng tránh mắc sai lầm khi phân loại dữ liệu qua hệ thống bẫy lỗi, mà còn giúp người sử dụng thực hiện rất nhiều yêu cầu mà thông thường rất khó thực hiện được bằng tay.
* Tổ chức kho lưu trữ tư liệu
Đơn vị lưu trữ là câu văn bản (câu/ đơn vị ca dao, tục ngữ) . Mỗi một câu văn bản sẽ được làm giàu bằng việc gán thêm các thông tin về phân loại chủ đề, các tiểu chủ đề, nguồn gốc của văn bản hoặc tài liệu được trích dẫn ra. Các câu văn bản được phân loại theo 4 chủ đề: ăn uống, mặc, ở, đi lại. Mỗi chủ đề lại được phân ra theo các chủ đề con. Trong mỗi chủ đề con lại được tiếp tục phân ra thành các chủ đề con khác nữa.
Quan hệ giữa chủ đề với câu văn bản là quan hệ một - nhiều, cụ thể là: a) Mỗi câu văn bản đều mang một ID (identity) duy nhất trong CSDL. Thí dụ câu: “Ai chẳng muốn ăn của ngon, mặc đồ tốt” có IDsentence = 396, và được lưu trữ 1 lần duy nhất trong Bảng 1. Các câu văn bản được phân loại theo 4 chủ đề như ở Bảng 2. Ở cột IDtopic trong Bảng 3, câu có IDsentence = 396 được phân loại thuộc chủ đề ăn uống nên nó có IDtopic = 1, nó lại được phân loại thuộc chủ đề
mặc nên nó có IDtopic = 2. Tương tự, câu có IDsentence = 2127 “Ăn cơm hom nằm giường hòm, đắp chiếu Hới” được phân loại thuộc chủ đề ăn uống nên nó có
IDtopic = 1, nó lại được phân loại thuộc chủ đề ở nên có IDtopic = 3. Câu có IDsentence = 3222 “Thuyền ai lên xuống bến sông // Phải duyên, phải vợ phải
chồng thì vô” thuộc chủ đề đi lại nên có IDtopic = 4.
Bảng 1: Nội dung
IDsentence Context
396 Ai chẳng muốn ăn của ngon, mặc đồ tốt 2127 Ăn cơm hom nằm giường hòm, đắp chiếu Hới 3222 Thuyền ai lên xuống bến sông
Phải duyên, phải vợ phải chồng thì vô Bảng 2: Chủ đề
1 Ăn uống
2 Mặc
3 Ở
4 Đi lại
Bảng 3: Phân loại theo chủ đề
IDsentence IDtopic 396 1 396 2 2127 1 2127 3 3222 4
Chúng ta thấy rằng, câu có IDsentence = 396 xuất hiện một lần duy nhất trong Bảng 1, nhưng nó lại xuất hiện 2 lần trong Bảng 3 là vì nó được phân loại thuộc 2 chủ đề ăn uống và mặc. Tương tự, câu có IDsentence = 2127 xuất hiện 1 lần trong Bảng 1, nhưng nó lại xuất hiện 2 lần trong Bảng 3 là vì nó được phân loại thuộc 2 chủ đề ăn uống và ở.
b) Nếu câu văn bản ở 1 chủ đề được phân loại tiếp thuộc chủ đề nhỏ hơn thì nó được lưu trữ như Bảng 4.
Bảng 4: Phân loại theo cấp độ của chủ đề
IDsentence IDtopic IDlevel_1 Ghi chú
396 1 102 kinh nghiệm ăn uống
396 2 201 phẩm chất tốt
2127 1 102 kinh nghiệm ăn uống
2127 3 301 điều kiện tốt
3222 4 401 đường thuỷ
Ở Bảng 4, câu có IDsentence = 396 thuộc chủ đề ăn uống được phân thành loại kinh nghiệm ăn uống (IDlevel_1 = 102). Câu này cũng thuộc chủ đề mặc và
được phân thành loại phẩm chất tốt (IDlevel_1 = 201). Tương tự, câu có IDsentence = 3127 thuộc chủ đề ăn uống được phân thành loại kinh nghiệm ăn uống (IDlevel_1 = 102). Câu này cũng thuộc chủ đề ở và được phân thành loại điều kiện tốt (IDlevel_1 = 301). Câu có IDsentence = 3222 thuộc chủ đề đi lại được phân thành loại đường thuỷ (IDlevel_1 = 401).
Mối quan hệ giữa Bảng 1 - Bảng 3 - Bảng 4, và giữa Bảng 2 - Bảng 3 - Bảng 4 kiểu như vậy được gọi là quan hệ một - nhiều.
Việc cấp mã ID là do chương trình tự động thực hiện, người sử dụng chỉ quan tâm mỗi một việc là làm sao phân loại cho đúng chủ đề mà thôi. Toàn bộ quy trình phân loại đều được hiển thị rõ ràng trên Form làm việc trực quan.
Tiểu kết
Các khái niệm cơ bản đã dẫn dắt vấn đề nghiên cứu của đề tài tập trung vào ngả đường chính là văn hóa, không gian văn hóa, người Việt - đồng bằng Bắc Bộ, các thành tố văn hóa trong đó đặc biệt là thành tố văn hóa đảm bảo đời sống (ăn, mặc, ở và đi lại). Đề tài bước đầu đã những phân tích, giải thích nhằm giới thuyết phạm vi nghiên cứu cả về không gian lẫn thời gian. Nó tạo nên một sợi dây xuyên suốt, nhất quán về hướng tiếp cận và phương pháp nghiên cứu trên cơ sở của lý thuyết nghiên cứu khu vực học.
Trọng tâm của đề tài là lấy không gian văn hóa làm đối tượng nghiên cứu, khai thác nguồn tư liệu vốn rất truyền thống là văn học dân gian ca dao, tục ngữ nhưng lại áp dụng lý thuyết, phương pháp với việc định dạng đối tượng theo hướng tiếp cận mới. Ứng dụng công nghệ thông tin vào việc xử lý tư liệu bằng phương pháp định lượng tầng bậc, vừa tiết kiệm được trí lực vừa mang lại độ xác thực cao.
Nguồn sử liệu và các công trình nghiên cứu có liên quan được thực hiện rất nhiều, trải rộng trên các lĩnh vực như thể loại ngôn ngữ, thơ ca, vần điệu, hình tượng… nhưng nghiên cứu tổng thể về không gian văn hóa nói chung, thành tố văn hóa đảm bảo đời sống (ăn, mặc ở và đi lại) nói riêng của nhân dân được gửi gắm vào đó vẫn còn là mảnh đất khai hoang, chúng tôi tiếp tục khám phá ở các phần nội dung sau để thấy được sự quan tâm của người Việt đồng bằng Bặc Bộ đến các vấn đề đó như thế nào?
Chương 2