智能作文评价效果研究

时间：2022-07-16 20:30:02 来源：网友投稿

下面是小编为大家整理的智能作文评价效果研究,供大家参考。

智能作文评价效果研究

　智能作文评价的效果研究作

　者：

　刘淑君/李艳/杨普光/李小丽/高红芳

　作者简介：

　刘淑君，浙江大学教育学院博士研究生，研究方向：智能教育、语文教育等；李艳（通讯作者），博士，浙江大学教育学院教授，博士生导师，研究方向：数字化学习、远程教育、信息技术教育、科技教育、媒介教育、智能教育、教育创新传播（浙江杭州 310028）；杨普光，郑州外国语学校，研究方向：语文教学（河南郑州 450001）；李小丽，浙江大学教育学院附属学校，研究方向：语文教学（浙江杭州 310013）；高红芳，杭州市萧山区金惠初中，研究方向：语文教学（浙江杭州 311202）。

　原发信息：

　《开放教育研究》(沪)2021 年第 20213 期第 73-84 页

　内容提要：

　本研究以智能作文评价系统为研究对象，选取 149 篇中学生作文为样本，从评分有效性、反馈类型与层次和反馈精准度等三方面进行了智能评价作文的比较研究，结果发现：（1）智能作文评价与教师作文评分有较高的一致性和显著相关性，评分效度良好；（2）相较于教师评价作文，智能作文评价的表扬型反馈占比较高，直接反馈和提问反馈占比较低；两种作文评价中的高阶写作技能反馈占比都高于低阶写作技能反馈；（3）两种作文评价的反馈精确度基本持平，智能作文评价的反馈召回率要高于教师作文评价，二者的召回率都有较大的提升空间。比较可知，智能作文评价作为传统教师作文评价的有益补充，为个性化的作文教学指导提供了可能，两种作文评价的反馈信息各有侧重，教师和智能作文评价系统的优势互补、人机协同有望突破传统写作教学的困境。

　关

　键

　词：

　智能作文评价/评分有效性/反馈类型与层次/反馈精准度/人机协同

　期刊名称：

　《高中语文教与学》复印期号：

　2021 年 10 期

　近年来，智能技术的教育应用方兴未艾。研究显示，人工智能技术具有促进学生知识理解和迁移的巨大潜力，对未来的人才结构变革带来全新的影响（舒越等，2018；顾小清，2021）。人工智能教育应用的一个重要领域是写作教学。调研发现，国外英语智能作文评价系统的实践和研究起步较早，研究成果丰富。相比而言，中文智能作文评价起步较晚，需要更多实证研究回应教育者和学习者的质疑。在此背景下，本研究选取“IN课堂语文作文人机批改系统”作为智能作文评价的平台，尝试通过人机作文评价的多维度比较检验智能作文评价的有效性，并为其推广和应用提供依据和建议。

　二、研究目的与问题

　本研究的目的是验证智能作文评分的有效性，并从反馈类型与层次和反馈精准度等方面展开人机作文评价的比较研究。研究问题有以下三项：

　（1）智能作文评分的有效性如何？包括：智能作文评分与教师作文评分的一致性与相关性如何？作文长度对二者评分的预测程度是否有差异？

　（2）智能作文评价和教师作文评价的反馈类型与层次各有什么特点？

　（3）智能作文评价和教师作文评价的反馈精准度表现如何？

　三、研究对象与评价规则

　（一）研究对象

　本研究以智能作文评价结果作为研究对象，选取国内较成熟、使用范围较广的智能作文评价系统——IN 课堂语文作文智能批改（简称 IN 课堂）作为智能作文评价工具。该系统受国家语委语言智能研究中心指导研发而成，是一个交互式的智能作文批改和反馈平台，于 2018 年投入应用。它从语料库中挖掘打分细则、评级参数、偏误规则及常用范式，不仅可以给学生作文即时提供反馈分数，还能生成句段点评并提出建议，也支持教师建立虚拟班级、推送作文题、人机协同批改等操作，同时能为师生积累写作过程数据（IN 课堂智能教育平台，2020）。

　本研究选取 Z 初中和 W 高中各两个班的学生作文作为评价样本，分别由语文老师各自布置作文题目（见下页表 1），学生当堂完成，共得到149 篇作文样本（初中 81 篇，高中 68 篇），初中和高中的写作文体分别为记叙文和议论文。研究者将全部作文样本用于智能作文评分有效性的研究，并选取其中 101 篇的人机批改信息作为作文反馈类型与层次的分析内容（另外 48 篇因完成时间较晚，错过集中批改期，故未纳入分析），最后，从全部样本中随机抽取 20 篇作文检验智能作文评价的反馈精准度。

　（二）作文评价规则

　研究者（曾教中学语文，目前在读教育博士）分别与 A 教师（初中语文教师）和 B 教师（高中语文教师）合作完成初中、高中作文的评分。评

　分者首先研习作文评分标准，随后选六份作文试评，对评分差异较大的样本深入交流，对评分标准达成一致理解后，再各自独立评分。之后，研究者和 B 教师分别对 101 篇初中、高中作文精批细改，以文内批注和文末总评的形式进行反馈。

　IN 课堂采用中高考作文评分标准对中学生作文评分。为了保证评分标准的一致性，教师依据评分者所在地区的中考作文评分标准和卷面分值，从内容、结构、表达、立意等方面评分，满分 40 分；高中作文评分遵循语文高考全国卷的评分标准和卷面分值，兼顾内容、表达、发展三个维度，满分 60 分。为了便于数据分析，研究者以满分 60 分为标准，对初中作文成绩按比例折算。

　四、数据收集与分析过程

　（一）评分有效性的数据收集与分析

　本研究从两方面验证智能作文评分的有效性：一方面分析智能作文评分和教师作文评分的一致性和相关性，另一方面比较文章长度对两种作文评分的预测程度。IN 课堂对作文样本的评分构成智能作文评分数据；研究者分别与 A 教师和 B 教师合作完成初中、高中的作文评分，由此得到两组教师作文评分，取两者均值作为教师作文评分数据。文章长度的衡量指标是文章字数，借助 word 文档的字数统计功能获得。

　在统计智能作文评分和教师作文评分一致性时，本研究援引前人文献常用的精确一致和相邻一致两个衡量指标（Liu & Kunnan，2016）。精

　确一致指两个评分完全相同。相邻一致指两个评分等级相近。由中高考阅卷程序和相关文献可知，作文满分 60 分时，两位教师评分差在六分内取两者均值作为最终得分，大于等于六分时会发起三评或仲裁（佟威等，2020）。因此，研究者将分差小于六分的评分界定为相邻一致，分差大于等于六分的评分界定为评分差异。评分一致性指精确一致项与相邻一致项之和除以总样本数。

　智能作文评分与教师作文评分的相关性分析借助 SPSS23 软件完成。研究还以作文长度为自变量，分别以智能作文评分和教师作文评分为因变量进行一元回归分析，验证作文长度对智能作文评分和教师作文评分的预测程度。

　（二）反馈类型与层次的数据收集与分析

　本研究选取初中 52 篇、高中 49 篇用于反馈类型与层次的分析与比较。IN 课堂的机器评阅信息构成智能作文反馈信息；研究者和 B 教师对初中和高中作文的精批细改形成教师的作文反馈信息。两类反馈信息都被录入 Excel 文档，接着被拆分为有独立意义的信息单位，即反馈单元。遵循前人文献反馈单元的拆分操作程序（Cho et al.，2006；Hayes & Berninger，2010），先抽取五篇作文的反馈信息，研究者和 B 教师分别进行单元拆分，比对拆分结果，对不一致处协商达成共识。随后，研究者完成全部作文反馈信息的拆分工作，B 教师再对拆分后的反馈单元进行核对检查。通过以上拆分，本研究共得到 2911 个作文反馈单元，包括1955 个智能作文反馈单元和 956 个教师作文反馈单元。

　本研究借鉴威尔逊等（Wilson & Gzik，2016）提出的作文反馈信息分类方法，并根据国内作文批阅习惯对其略作调整，比如，将“拼写、大小写”合并为“错别字”，将“语法、句子结构”合并为“句式语法”等，最终编制了适用于国内中学作文的反馈信息编码表（见下页表 2）。该编码表将用于智能作文反馈信息的分析与比较。

　研究者先与 B 教师交流编码方案，确认其符合中学写作评价习惯；再随机抽取 300 个反馈单元，各自背靠背完成编码。一致性计算发现，反馈类型的编码一致性为 0.91，表示反馈类型的编码一致性高；反馈层次的编码一致性为 0.70，表明反馈层次的编码一致性有待改进。对编码分歧项目协商一致后，研究者进一步明确“内容选材”“结构构思”“写作特色”的编码范围。然后研究者和 B 教师再抽取 100 个反馈单元进行背对背编码，反馈类型的编码一致性达到 0.98，反馈层次的编码一致性为 0.81，表明反馈类型和反馈层次编码的一致性比较理想。研究者完成所有反馈单元的编码工作后，由 B 教师抽取 15%的反馈单元进行二次编码验证，二者反馈类型的编码一致性达到 0.96，反馈层次的编码一致性达到 0.80。

　（三）反馈精准度的数据收集与分析

　本部分随机抽取 20 篇作文作为反馈精准度的研究样本。精确度和召回率是广泛应用于信息检索和机器学习领域的度量指标，欧美研究者首先将其应用于智能作文反馈精准度的评估（Liu & Kunnan，2016）。本研究的精确度指系统正确识别项数除以全部识别项数（正确识别项+错误识

　别项），召回率指正确识别项数除以文本实际错误项数。人机作文评价反馈精准度的检验都使用这两个指标以便互相比较。作文高阶写作技能反馈往往指向主题立意、结构构思等，不宜进行是非判断，因此本研究只关注低阶写作技能的直接反馈信息，它们客观性较强，可以判断正误，更适合精确度和召回率的计算和分析。

　已有研究常把教师作文反馈信息作为检验智能作文反馈精准度的标准，但这种检验标准的客观性易引起质疑（Hoang & Kunnan，2016；Dikli & Bleyle，2014）。为了建立科学的反馈检验标准，研究者与两位教师合作对 20 篇作文样本进行错误标注，程序如下：A 教师、B 教师分别检查初中、高中作文样本，用粗体字全面标注错误点；研究者逐字检验文本内容及相关标注，用斜体字补充或纠正；最后，研究者分别与两位教师交流初中、高中作文的标注信息，用下划线补充标注遗漏信息。这一标准将用来检验智能作文反馈的精准度。

　对 20 篇样本的人机作文反馈信息分别进行梳理和筛选后，研究者对指向低阶写作技能的直接反馈信息进行正误判断，并根据错误类型统计，计算智能作文反馈的精确度和召回率，并从人机比较的角度进行解释。

　五、研究发现

　（一）评分有效性

　教师作文评分 1、教师作文评分 2、教师作文评分均值和智能作文评分的 Kolmogorov-Smirnov（K-S）检验显著性都大于 0.05，说明四类

　评分的数据符合正态分布。因此，后续研究可以对其进行相关性和线性回归等统计和分析。

　结果显示，智能作文评分与教师作文评分均值之间精确一致的项数（12 项）略低于两组教师评分之间的项数（14 项），智能作文评分与教师作文评分均值之间具有相邻一致的项数（118 项）略高于两组教师评分之间的项数（114 项）。从整体看，智能作文评分与教师作文评分的一致性为 87.25%，略高于两组教师评分均值之间的一致性（85.90%）。可见，两种作文评价方式在评分方面具有比较高的契合度。

　皮尔逊相关分析显示，两组教师评分之间的相关系数为 0.64，智能作文评分与教师作文评分均值的相关系数为 0.63，且二者都在 0.01 水平上具有显著性。可见，智能作文评分与教师作文评分均值之间和两组教师评分之间都具有强相关性，且相关系数基本持平。

　为了检验文章长度对智能作文评分和教师作文评分的预测程度是否有差异，本研究以作文长度为自变量，分别以两种作文评分为因变量进行一元线性回归分析。回归方程的拟合度越接近 1，意味着自变量对因变量的预测程度越高。研究者以作文长度为自变量、智能作文评分为因变量进行一元线性回归分析，结果显示，调整后（判断方程拟合度的指标）等于 0.35，方差分析表明该回归方程具有统计学意义（F=79.99，p＜0.05）。回归方程系数为 0.03（t=8.94，p＜0.01），常量为 26.13（t=13.65，p＜0.01），两者都具有显著性，且标准化残差 P-P 图近似正态性分布，符合回归分析的前提。智能作文评分与作文长度之间的回归

　方程可以列为：y=26.13+0.03x。可以理解为，作文字数每增加 1，智能作文评分会上浮 0.03，且作文长度对智能作文评分的预测程度为 35%。

　同样的，以作文长度为自变量、教师评分均值为因变量进行一元线性回归分析，调整后为 0.29，系数为 0.02（t=7.80，p＜0.01），常量为 34.11（t=24.20，p＜0.01），且回归关系具有统计学意义（F=60.79，p＜0.01）。从标准化残差图看，数据基本上沿着对角线或对角线方向分布，满足回归模型的正态性假设。因此，教师作文评分与文章长度之间的一元回归方程为：y=34.11+0.02x。由此可知，作文字数每增加 1，教师作文评分会上浮 0.02，作文长度对教师作文评分的预测程度为 29%。

　由此可知，智能作文评分与教师作文评分都在一定程度上受到作文长度的影响，回归方程的拟合度分别为 0.35 和 0.30。这说明，文章长度对智能作文评分与教师作文评分的预测度分别为 35%和 30%，前者略高于后者，但两者相差不多，都处于合理范围内。

　（二）反馈类型与层次比较

　智能作文评价和教师作文评价在反馈类型上各有侧重。智能作文评价反馈信息占比最高的是表扬（77.70%），远高于该反馈类型在教师作文评价中的占比（24.58%）；直接反馈（15.65%）和提问反馈（0）低于两者在教师作文评价中的比例（53.14%、16.11%）。教师作文评价反馈信息占比最高的是直接反馈（53.14%），信息反馈（6.17%）最欠缺。

　从反馈类型特点看，智能作文评价呈现“直接+信息”反馈的组合特点，教师作文评价常出现“直接+提问”的反馈组合。观察发现，在智能作文评价反馈信息中，直接反馈后通常紧跟信息反馈，且两者内容密切相关；教师作文评价反馈信息中，直接反馈后往往进行提问，提问内容和直接反馈内容相呼应。

　两种作文评价方式的反馈层次呈现以下特点：（1）两种作文评价的高阶写作技能反馈占比都高于低阶写作技能反馈，智能作文评价的高阶反馈占比（74.37%）低于教师作文评价（81.07%）。（2）低阶写作技能反馈信息中，智能...