Nghiên cứu độ tin cậy người chấm của giáo sinh tiếng Anh Việt Nam trong đánh giá kĩ năng viết môn tiếng Anh (Exploring the Rater Reliability of Vietnamese EFL Pre-Service Teachers in Rating EFL Writing)

Tổng quan
Nhu cầu thực tiễn
Đánh giá ngôn ngữ là một quá trình luôn phát triển và cũng đầy thách thức đối với nhiều giáo viên (Dương & Phạm, 2023). Tuy nhiên, đây thực sự là một khía cạnh thiết yếu trong giảng dạy ngôn ngữ thứ hai, vì nó cung cấp cho giáo viên những thông tin cần thiết về năng lực và khả năng hiểu của học sinh để đưa ra các quyết định khác nhau về điểm mạnh và điểm yếu, điểm số, cũng trình độ thông thạo của học sinh và việc xếp lớp (Hyland, 2003). Một trong những lĩnh vực thu hút sự quan tâm lớn từ các nhà nghiên cứu là kiểm tra đánh giá kỹ năng viết, mà theo Huot (1990), là một “lĩnh vực có nhiều vấn đề” (tr. 237). Đây là một lĩnh vực phong phú để nghiên cứu vì các nhà nghiên cứu và giáo dục đang nỗ lực cải thiện các mô hình hiện có và phát triển những mô hình mới (Dương, 2019). Nhiều phương pháp đánh giá kỹ năng viết đã được áp dụng trong suốt lịch sử, tuy nhiên hiện nay, hình thức đánh giá sản phẩm viết của học sinh (ví dụ: bài luận viết, hồ sơ viết, v.v.) ngày càng trở nên phổ biến. Tuy nhiên, mối quan ngại đặt ra là việc chấm điểm các bài viết này có thể chịu ảnh hưởng bởi nhiều yếu tố, làm suy giảm độ tin cậy của phương pháp đánh giá và dẫn đến sự thiếu công bằng.

Trong số các yếu tố ảnh hưởng đến sự nhất quán của kết quả đánh giá, người chấm (raters) là đối tượng nhận được nhiều sự quan tâm nhất, vì tính nhất quán của người chấm có thể được điều chỉnh và cải thiện thông qua các phương pháp như đào tạo người chấm và sử dụng thang điểm (Fahim & Bijani, 2001; Hyland, 2003; Andrade, Du & Wang, 2008). Sau khi tổng quan các tài liệu hiện có, Saal, Downey và Lahey (1980) đã xác định bốn loại lỗi chấm điểm, bao gồm nghiêm khắc hoặc dễ dãi, hiệu ứng hào quang (halo), xu hướng trung bình, và giới hạn phạm vi chấm điểm. Trong số đó, mức độ nghiêm khắc của người chấm là yếu tố được nhiều học giả nghiên cứu sâu rộng. Các nghiên cứu này đã xem xét mức độ nghiêm khắc thể hiện qua tương tác giữa người chấm và các tiêu chí trong thang đánh giá (Wigglesworth, 1993; Caban, 2003; Schaefer, 2008), cũng như giữa người chấm và các yếu tố cá nhân (Barkaoui, 2010; Song & Caruso, 1996; Weigle, 1994). Phần lớn các nghiên cứu nêu trên đã sử dụng Mô hình Rasch nhiều thành tố (Many-Facet Rasch Measurement – MFRM) (Linacre, 1989). Công cụ này giúp điều tra sự tương tác giữa sự thay đổi của người chấm với các yếu tố khác, qua đó giải thích các lỗi tồn tại trong quá trình đánh giá. Bên cạnh đó, một số nghiên cứu khác tập trung vào độ tin cậy của người chấm, bao gồm độ tin cậy giữa các người chấm (inter-rater) và độ tin cậy nội tại của người chấm (intra-rater) thông qua các phương pháp phân tích khác nhau. Các phương pháp này bao gồm sử dụng hệ số tương quan như Pearson (Mukminatien, Yaniafari, El Khoiri & Ariyanto, 2021) và Spearman (Isnawati, 2014), Thuyết Tổng quát hóa (Generalizability Theory) (Liao, Hunt & Chen, 2010; Mancar & Gülleroğlu, 2022) cũng như các mô hình dựa trên Rasch (Elder, Barkhuizen, Knoch & Von Randow, 2007).

Mặc dù đã có nhiều nghiên cứu về độ tin cậy và mức độ nghiêm khắc của người chấm trong việc chấm điểm, các nghiên cứu liên quan đến các vấn đề này trong bối cảnh đào tạo giáo viên tiếng Anh tại Việt Nam vẫn còn rất hạn chế. Bên cạnh đó, mặc dù có nhu cầu xác định những lỗi tiềm ẩn trong đánh giá của các giáo viên tương lai để cải thiện thực hành đánh giá của họ và hỗ trợ người thiết kế khóa học giảng dạy tiếng Anh, vấn đề lỗi chấm điểm – đặc biệt là mức độ nghiêm khắc của người chấm trong nhóm sinh viên sư phạm tiếng Anh – vẫn chưa được nghiên cứu nhiều. Các nghiên cứu hiện tại chủ yếu tập trung vào lỗi chấm điểm và mức độ nghiêm khắc của giáo viên đang công tác (Wigglesworth, 1993; Schaefer, 2008; Barkaoui, 2010; Kang & Veitch, 2016). Sinh viên sư phạm thường chỉ còn một đến hai năm nữa là bước vào nghề dạy học, tuy nhiên họ thường thiếu kinh nghiệm trong việc đánh giá kỹ năng viết cũng như hiểu biết sâu về các khái niệm liên quan đến kiểm tra đánh giá viết. Điều này có thể dẫn đến những lỗi gây ảnh hưởng đến thực hành giảng dạy và sự công bằng trong lớp học.

Do đó, nghiên cứu này được thực hiện nhằm giải quyết những khoảng trống đó bằng cách khảo sát độ tin cậy và mức độ nghiêm khắc của một nhóm sinh viên sư phạm trong việc đánh giá kỹ năng viết tiếng Anh như một ngoại ngữ (EFL). Nghiên cứu có thể đóng góp vào việc xây dựng các thực hành đánh giá công bằng và hiệu quả hơn trong giảng dạy tiếng Anh, đặc biệt là đối với một nhóm đối tượng hiện đang bị xem nhẹ trong lĩnh vực nghiên cứu này.

Tổng quan tài liệu công trình nghiên cứu liên quan
Các nghiên cứu đo lường độ tin cậy của người chấm
Nhiều nghiên cứu đã được thực hiện để điều tra vấn đề độ tin cậy của người chấm bằng nhiều công cụ phân tích khác nhau. Phần lớn các nghiên cứu này chủ yếu tập trung vào độ tin cậy giữa các người chấm (inter-rater reliability), trong khi một số nghiên cứu cũng xem xét độ tin cậy trong cùng một người chấm (intra-rater reliability). Nhiều phương pháp phân tích dữ liệu đã được sử dụng, trong đó phổ biến nhất là việc sử dụng các hệ số tương quan để tính toán chỉ số độ tin cậy. Ví dụ, Mukminatien và cộng sự (2021) đã tính toán độ tin cậy giữa các người chấm bằng cách tương quan điểm số của hai người chấm, và độ tin cậy trong cùng một người chấm bằng cách tương quan điểm số của mỗi người chấm qua hai lần chấm khác nhau bằng hệ số tương quan Pearson. Tương tự, Rouhiathar & Howard (2024) áp dụng phương pháp tương tự, trong khi Isnawati (2014) sử dụng hệ số tương quan Spearman.

Lý thuyết tổng quát hóa (Generalizability Theory hay G-theory) cũng được sử dụng rộng rãi trong nghiên cứu về độ tin cậy của người chấm. Các nhà nghiên cứu như Liao, Hunt & Chen (2010) đã áp dụng G-theory kết hợp với ANOVA và tương quan Pearson để đánh giá toàn diện độ tin cậy của người chấm trong việc chấm bài viết EFL, sử dụng các hình thức chấm như chấm tổng thể (holistic) và chấm phân tích (analytic). Tương tự, Mancar và Gulleroglu (2022) sử dụng khung lý thuyết G-theory với thống kê Kappa và hệ số alpha của Krippendorff để đánh giá độ tin cậy giữa các người chấm.

Trong khi đó, Elder và cộng sự (2007) sử dụng mô hình dựa trên Rasch để đánh giá sự khác biệt về mức độ nghiêm khắc giữa các người chấm (tức là độ tin cậy giữa các người chấm) và tính nhất quán (tức là độ tin cậy trong cùng người chấm) thông qua các chỉ số phù hợp (fit statistics) cho từng người chấm. Mục tiêu của nghiên cứu là đánh giá hiệu quả của chương trình đào tạo người chấm trực tuyến và kết quả cho thấy chương trình này giúp tăng sự đồng thuận giữa các người chấm cũng như giảm sự không nhất quán và thiên vị trong việc chấm điểm.

Không có gì ngạc nhiên khi kết quả của các nghiên cứu này có sự khác biệt lớn do các yếu tố khác nhau liên quan đến đặc điểm của người tham gia, bao gồm kinh nghiệm và nhận thức về viết EFL. Trong khi một số nghiên cứu như Hansson, Svensson, Strandberg, Troein và Beckman (2014) báo cáo độ tin cậy cao giữa và trong người chấm — nhờ vào việc sử dụng tiêu chí đánh giá đặc thù cho thể loại bài viết (Mukminatien et al., 2021), đào tạo chấm điểm có cấu trúc (Saxton, Belanger & Becker, 2012), hoặc thảo luận trước khi chấm điểm (Hansson et al., 2014) — thì các nghiên cứu khác lại cho thấy mức độ tin cậy thấp hoặc trung bình do thiếu kinh nghiệm hoặc số lượng người chấm lớn. Tuy nhiên, một điểm chung được ghi nhận trong hầu hết các nghiên cứu là vai trò quan trọng của đào tạo người chấm đúng cách trong việc nâng cao độ tin cậy giữa và trong người chấm.

Dựa trên nền tảng đó, nghiên cứu này kế thừa cách tiếp cận của Elder et al. (2007) bằng cách sử dụng mô hình Rasch để tính toán các chỉ số phù hợp và sử dụng thang đo logit nhằm phân tích mức độ nghiêm khắc và khoan dung của người chấm. Tuy nhiên, phần mềm ACER ConQuest được sử dụng thay vì Facets (Linacre, 2001) vì ngoài các chỉ số độ tin cậy của người chấm, phần mềm này còn có thể cung cấp chỉ số phân biệt (discrimination indices) và điểm tương quan điểm nhị phân (point-biserial) giúp đánh giá mức độ áp dụng thang điểm của người chấm trong đánh giá viết EFL.

Các nghiên cứu đo lường mức độ nghiêm khắc của người chấm
Một trong những hướng nghiên cứu phổ biến nhất về mức độ nghiêm khắc là xem xét tương tác giữa người chấm và thang điểm trong đánh giá viết và nói. Trong hình thức chấm phân tích, thang điểm thường gồm nhiều tiêu chí như ngữ pháp, cơ học, hay nội dung. Người chấm thể hiện sự thiên vị trong tương tác này khi điểm số của họ cho các tiêu chí quá khoan dung hoặc quá nghiêm khắc (He, Gou, Chien, Chen & Chang, 2013). Nhiều nghiên cứu đã phân tích khía cạnh này trong cả đánh giá kỹ năng nói (Caban, 2003; Wigglesworth, 1993) và kỹ năng viết (Saeidi, Yousefi & Baghayei, 2013; Schaefer, 2008; Shin, 2010) và cho thấy một số tiêu chí bị chấm nghiêm khắc hơn những tiêu chí khác. Trong số các nghiên cứu này, Schaefer (2008) nổi bật như một công trình tiên phong khi sử dụng phần mềm Facets và MFRM để phân tích mức độ nghiêm khắc của người chấm. Nghiên cứu này bao gồm 40 người chấm chấm 40 bài viết và đánh giá mức độ hoạt động của thang điểm cũng như sự thiên vị tiềm tàng trong tương tác giữa người chấm với các tiêu chí chấm điểm và người viết. Thang điểm gồm sáu tiêu chí cho thấy hoạt động ổn định với nhóm người chấm này. Đáng chú ý, Schaefer (2008) phát hiện rằng có xu hướng nghiêm khắc hơn đối với những người viết có năng lực cao, đặc biệt ở tiêu chí Nội dung và/hoặc Tổ chức, trong khi lại khoan dung hơn ở tiêu chí Ngôn ngữ và/hoặc Chính tả và Quy ước viết, và ngược lại.

Một hướng nghiên cứu khác về mức độ nghiêm khắc của người chấm là tương tác giữa người chấm và nền tảng cá nhân của họ. Nhiều nghiên cứu đã xem xét kinh nghiệm chấm và giảng dạy viết cũng như mức độ quen thuộc với thang điểm. Weigle (1994) phát hiện rằng những người chấm mới (tức là chưa từng chấm bài viết) thường nghiêm khắc hơn so với những người chấm có kinh nghiệm và đã quen với thang điểm. Kết quả này phần nào giống với phát hiện của Song và Caruso (1996), rằng người chấm có nhiều năm kinh nghiệm giảng dạy và chấm điểm tổng thể có xu hướng chấm nhẹ tay hơn. Tuy nhiên, một số nhà nghiên cứu khác như Barkaoui (2010) và Ahmadi Shirazi (2019) lại phát hiện điều ngược lại, khi người chấm ít kinh nghiệm lại có xu hướng chấm nhẹ hơn so với người chấm dày dặn kinh nghiệm.

Một khía cạnh khác của nền tảng cá nhân là nền tảng ngôn ngữ của người chấm. Trong nhiều nghiên cứu, người ta thấy nền tảng ngôn ngữ (ví dụ: người bản ngữ hay không) không liên quan đáng kể đến sự thiên vị trong đánh giá viết và nói, hoặc nếu có thì cũng không đáng kể (Son, 2010; Rahayu, 2017; Ahmadi Shirazi, 2019). Tuy nhiên, nhiều nghiên cứu khác lại cho rằng nền tảng ngôn ngữ của người chấm có ảnh hưởng nhất định đến cách họ chấm điểm, dù không phải lúc nào cũng thể hiện qua mức độ nghiêm khắc hay khoan dung.

Nghiên cứu về người chấm trong đánh giá kỹ năng viết trong bối cảnh EFL tại Việt Nam
Cho đến nay, số lượng nghiên cứu về độ tin cậy và mức độ nghiêm khắc của người chấm trong đánh giá kỹ năng viết tại Việt Nam còn rất hạn chế. Các nghiên cứu hiện có chủ yếu tập trung vào thực hành, nhận thức, khó khăn và độ tin cậy của giáo viên trong việc đánh giá viết tiếng Anh như một ngoại ngữ (EFL). Mặc dù không trực tiếp đề cập đến các hiệu ứng và thiên vị của người chấm, Nguyễn (2016) đã nghiên cứu độ tin cậy và nguyên nhân dẫn đến sự khác biệt về điểm số giữa 10 người chấm khác nhau. Kết quả cho thấy phần lớn người chấm có độ tin cậy trong bản thân khá cao, trong khi độ tin cậy giữa các người chấm đạt mức chấp nhận được ở 4/5 bài viết được chọn. Cô cũng tìm ra rằng các yếu tố gây ra sự bất đồng trong điểm số bao gồm phong cách đọc của người chấm, phương pháp chấm điểm (ví dụ: có người chú ý tất cả tiêu chí, có người chỉ tập trung vào 1–2 tiêu chí), và việc so sánh với bài viết trước.

Về thực hành đánh giá kỹ năng viết, Trương & Nguyễn (2020) phát hiện giáo viên thường dựa vào các tiêu chí đánh giá và ưu tiên yếu tố ngôn ngữ khi chấm bài viết, tuy nhiên lại ít sử dụng đánh giá đồng đẳng và tự đánh giá để cải thiện kỹ năng viết của học sinh. Về nhận thức đối với đánh giá kỹ năng viết, Nguyễn và Trương (2021) ghi nhận các nhận thức tích cực về mục đích của đánh giá viết trong EFL — nhằm điều chỉnh và cải thiện dạy và học — cũng như sự ưa chuộng các hình thức đánh giá thay thế và đánh giá hình thành. Tuy nhiên, mặc dù có nhận thức tích cực, giáo viên lại có hiểu biết hạn chế về các phương pháp đánh giá thay thế. Các trở ngại khác được Trương và Nguyễn (2020) nêu ra bao gồm trình độ tiếng Anh của học sinh còn thấp, sĩ số lớp học đông, áp lực từ chương trình học và các kỳ thi, cũng như thời lượng dạy học không đủ.

Ý nghĩa khoa học
Nghiên cứu này hy vọng sẽ đóng góp cho lĩnh vực đánh giá kỹ năng viết tiếng Anh như một ngoại ngữ (EFL) cả về mặt lý thuyết lẫn thực tiễn.

Về mặt lý thuyết, nghiên cứu nhằm làm phong phú thêm kho tàng tài liệu hiện có về độ tin cậy và mức độ nghiêm khắc của người chấm trong đánh giá kỹ năng viết EFL bằng cách sử dụng MFRM để khảo sát nhóm người chấm là sinh viên sư phạm tiếng Anh — một nhóm đối tượng còn ít được nghiên cứu trong lĩnh vực này. Nghiên cứu sẽ đặt nền tảng cho các nghiên cứu sau này về nguyên nhân của các lỗi chấm điểm và mức độ nghiêm khắc, cũng như các chiến lược khác nhau để giải quyết hiện tượng này. Ngoài ra, nghiên cứu còn hướng đến việc mở đường cho các nghiên cứu về mức độ nghiêm khắc (hay phân tích độ thiên vị) của người chấm trong bối cảnh giảng dạy tiếng Anh tại Việt Nam — một lĩnh vực còn chưa được khám phá nhiều — cũng như việc ứng dụng MFRM như một công cụ để phân tích sự thiên vị của người chấm.

Về mặt thực tiễn, nghiên cứu này mong muốn cung cấp thông tin hữu ích cho các giảng viên đào tạo người chấm về những lỗi chấm điểm hiện tại và nguy cơ xảy ra hiện tượng nghiêm khắc trong chấm điểm, từ đó giúp họ xây dựng các chương trình đào tạo hiệu quả hơn nhằm giảm thiểu lỗi và nâng cao độ tin cậy trong đánh giá kỹ năng viết. Hơn nữa, riêng đối với sinh viên sư phạm, việc phân tích độ tin cậy và mức độ nghiêm khắc của người chấm sẽ mang lại những hiểu biết có giá trị cho các nhà thiết kế chương trình đào tạo giáo viên tiếng Anh, giúp họ xây dựng các học phần về đánh giá — đặc biệt là đánh giá kỹ năng viết — một cách hiệu quả hơn, từ đó nâng cao hiểu biết sư phạm của sinh viên về một khía cạnh thiết yếu trong giảng dạy tiếng Anh.

Trường Đại học Ngoại ngữ – ĐHQGHN

Trường Đại học Ngoại ngữ – ĐHQGHN

Nghiên cứu độ tin cậy người chấm của giáo sinh tiếng Anh Việt Nam trong đánh giá kĩ năng viết môn tiếng Anh (Exploring the Rater Reliability of Vietnamese EFL Pre-Service Teachers in Rating EFL Writing)