机器评分测试失败
性别执行委员会批准,2013年4月
(一)电脑无法测量的准确性,推理,充足的证据,明智、道德立场,令人信服的论点,有意义的组织,清晰,和你的文章的真实性。如果这是真的我不相信电脑将能够衡量公平我完整的功能和品位。——阿卡什,学生
[H]噢可以反馈电脑给匹配的仔细考虑评论老师叶子边缘或结束时你的论文吗?——Pinar,学生
(反应纽约时报学习网络博客,
“你会怎么想电脑评分你的论文吗?“2013年4月5日)
写作是一种高度复杂的能力开发多年的实践中,在一个广泛的任务和背景,丰富的,有意义的反馈。学生必须有这种持续的经验来满足高等教育的要求,21世纪的劳动力的需求,公民参与的挑战,实现完整的,有意义的生活。
《共同核心州立标准》(ccs)扫描成单独的教室,他们带来了写学生的教育的重要性。写作老师发现的许多方面ccs鼓掌;然而,我们必须勤奋的开发评估系统,富人不威胁的可能性,多方面的写作教学方法提倡ccs。有效的写作评估需要考虑写作的本质,培养学生写作能力的方法,教师的角色在促进发展。
研究1学生写作的评价一致表明,高风险编写测试改变写作的正常情况下否认学生机会去思考,阅读,与他人交谈,解决真正的观众,开发思想,随着时间的推移和修改他们的新兴文本。通常,这些测试的结果会影响教师的生活,学校的命运,或者学生的教育机会。在这样的情况下,勉强受孕,人工测试的形式开始颠覆注意其他写作目的和品种发展在教室里。最终,测试侵蚀卓越的基础写作教学,导致学生不准备满足他们的需求,继续教育和未来的职业。特别是在从高中过渡到大学,学生生病时曾编写经验是由测试忽略更加复杂和多样的类型和使用的写作中发现高等教育。
请注意:(1)所有引用研究广泛支持的工作记录附在该报告中注释的参考书目。参考书目是来自身体的独立和行业研究,支持其他机器评分,评论等专业人员对机器的学生论文得分高风险评估请愿活动。
这些担忧,越来越多地由家长、老师、学校管理人员、学生和公众的成员——由使用machine-scoring系统加强阅读和评价学生的写作。满足结果的共同核心州立标准,各种财团,私营企业和测试机构提出使用电脑对学生写作的评估。的吸引力是显而易见的:一旦设定,机器可能会减少人类劳动的相关成本否则阅读、解释和评估我们的学生的写作。然而,当我们考虑什么是失去,因为机器评分,假定储蓄变成重要的新成本——学生,我们的教育机构和社会。原因如下:
- 计算机无法识别或结交法官这些元素,我们最好的写作(逻辑、清晰、准确性、思想与一个特定的主题,创新风格,有效吸引观众,不同形式的组织类型的劝说,证据质量,幽默或讽刺,和有效的重复使用,等等)。使用电脑来“读”和评估学生的写作(1)否认学生的机会有什么但有限的功能在他们的写作;和(2)迫使教师忽视写作教学中最重要的是为了什么教什么是最不重要的。
- 电脑使用不同,粗糙的方法比人类读者来评判学生的写作。例如,一些系统评估词汇的复杂性通过测量平均长度的单词和频率的单词用于文本的语料库;或者他们评估思想的发展通过计算每段句子的长度和数量。
- 计算机程序文件写入到非常具体的提示,减少对教师的激励开发创新和创意写作的场合,即使对于评估。
- 计算机日益恶化时得分随着写作的长度增加,引人注目的测试厂商设计较短的写作任务,不代表所需的写作作业的范围和种类为更复杂的写作准备的学生在大学里会遇到。
- 电脑评分支持最客观,写“表面”的特性(语法、拼写、标点符号),但是问题在这些领域通常是由测试条件和最容易纠正在正常的写作条件有时间修改和编辑。特权表面特征不成比例的处罚那些可能的非本地的讲英语的人在那台机器评分未能识别的发展路径。
- 结论计算机可以得分以及人类是人类训练的结果分数像电脑(例如,被告知不要做出判断信息的准确性)。
- 电脑评分系统可以“博弈”,因为他们很穷在处理人类语言,进一步削弱他们评估的有效性和分离的学生写作能力的基础上,但他们是否知道的,可以使用machine-tricking策略。
- 电脑评分歧视学生不熟悉使用技术来编写或完成测试。进一步,机器评分缺点学区缺乏资金来为每个学生提供技术工具和倾斜技术收购对设备需要满足测试要求。
- 电脑计分删除从书面交流的目的——创建通过一个复杂的人工交互,社会重要的系统的意义,并将一条消息发送给学生写作是不值得他们的时间,因为不值得阅读的教学和评估他们的人。
有什么其他办法吗?
与其他专业组织在一起,英语教师全国委员会建立了研究型写作有效教学和评估指南等阅读和写作的评估标准(启ed, 2009)成功在高中写作框架(2011)性别对写作的教学信念(2004),21世纪课程和评估框架(2008,2013)。在最广泛的意义上,这些指导方针认为好的评估支持教学和学习。具体来说,高质量的评估实践
- 鼓励学生成为从事文化学习,反思自己的阅读和写作在生产力方面,并设定各自的素养的目标;
- 产生高质量的,有用的信息告知教师课程,指导,评估过程本身;
- 平衡需要总结性评估(对学生工作的质量做出最终判断)需要评估的形成(参与正在进行的,进程内判断学生知道和能做什么,和接下来教);
- 认识到文化在当今社会的复杂性和反映,通过全面丰富,真实的,多样的写作教学;
- 在其核心,有经验的专业人士参与教学写作,了解学生的素质发展,熟悉当前素质教育的研究。
有效的实践制定这些研究原则,包括项目组合评估;老师评估小组;平衡的评估计划,涉及更多的本地化(教室),以评估设计和由任课教师;和“审计”团队的教师,教师教育者,和写作专家访问地区检查样品的学生工作,并取得了他们的课程。我们这里简要关注投资组合,因为丰富的奖学金支持,积极的经验,许多教育者、学校和学区已经与他们。
参与团队教师在评价投资组合的构建、地区或州一级荣誉有潜力ccs的具有挑战性的期望,同时也反映出我们知道有效的评估实践。投资组合提供了机会
- 跨多个事件,看看学生写作捕获随着时间的增长,同时避免“一天一个测试”的局限性;
- 看写的范围在一群学生同时保护每个学生的个性的写作;
- 审查学生写作通过多个镜头,包括内容的准确性和使用资源;
- 评估学生写作的背景下当地的价值观和目标以及国家标准。
正如组合为评估提供多种类型的数据,他们也允许学生学习由于参与评估过程,很少与更传统的一次性评估相关的东西。学生对自己的写作,了解如何识别和描述它的增长,和其他人——人类读者如何解释他们的工作。鼓励反射和目标设定过程会导致进一步的学习除了评估经验。
同样,教师成长为管理和评分项目组合评估的结果,很少与更传统的一次性评估相关的东西。这个嵌入式专业发展包括学习更多关于写作技巧的典型水平发现在一个特定水平的教育方法来识别和描述书面写作和增长质量。写作的讨论集合样品和标准评估写作有助于共同投资在所有教师参与写作所有学生的增长。进一步,当投资组合包括一个广泛的工件从学习和写作经验,教师评估投资组合学习课堂教学新思路以及方法来设计更复杂的方法评估学生的日常工作。
几个州,如肯塔基州、内布拉斯加、佛蒙特州和加利福尼亚州进行大型项目组合评估项目的发展,利用团队协作工作的教师评估学生的工作样本。而不是大力投资评估的目标计划,不能满足ccs,各种立法团体,私人企业,教育机构可以直接这些资金到精炼这些新兴项目组合评估系统。这项投资也将支持教师专业发展和提高课堂的教学质量,machine-scored写作提示无法提供的东西。
接下来是什么
2010年,联邦政府授予3.3亿美元两个联盟的国家”为教师提供持续的反馈过程中,衡量学校的年增长率,和超越狭隘的集中泡沫测试”(美国教育部)。此外,这些评估需要对齐新标准的学习英语和数学。这已经被证明是一个艰巨的任务,但它是可以实现的。结合现有国家教育进展评估(NAEP)的评估结构评估学校系统性能与正在进行的项目组合评估学生学习的教育者,我们可以成本效益评估编写不依赖的缺陷machine-scoring方法。通过这样做,我们可以同时加深学生和教育者在教室学习,同时促进基层创新水平。对时间和金钱的成本的一小部分建造的新一代机器评估,我们可以投资于严格的评估和教学过程,充实,而不是中断,高质量的教学。我们的学生和他们的家庭应得,研究基地支持它,识字教育工作者和管理者会欢迎它。
工作引用
美国教育部。”美国教育部长邓肯宣布赢家的竞争提高学生评估”。(2010年9月2日;检索到4月11日,2013)。
带注释的书目
以下机器的注解书目essay-length写作的评分和评价是基于2012年出版的书目在杂志的写作评估编制5 (Richard Haswell,惠特尼·唐纳利,海丝特维姬,佩吉·奥尼尔和艾伦Schendel)。
参考书目的编制审查最近的奖学金是机器评分的文章,也称为自动作文评分(AES),埃里克和CompPile等使用数据库。条目被选为他们的注意力转向机得分的文章和发表在同行评议的场所(异常指出)。我们也努力覆盖的广度问题解决的研究没有过于冗余。我们避免了出版物,他非常专注于高技术方面的评估。最早的研究——比如埃利斯页面的1966块φδKappan,“论文评分的紧迫性电脑”——不包括因为许多最近条目提供一个审查的早期发展机器评分。
参考书目由出版日期,最近出现第一个条目。条目已经摘自出版JWA参考书目由星号表示。
Klobucar,安德鲁,迪恩,保罗,艾略特,诺伯特,Raminie, Chaitanya,表示,佩里& Rudniy,亚历克斯。(2012)。自动作文评分和寻找有效的写作评估。在查尔斯Bazerman et al。(Eds)。国际写作研究进展:文化、地方、措施(页103 - 119)。柯林斯堡有限公司:WAC清算所与客厅出版社。
本章报告一个ETS和新泽西理工学院的科研合作,使用标准,综合教学和评估系统,包括自动作文评分。”研究的目的是探索自动作文评分的方法可能适合一个更大的生态作为一个家庭中评估技术支持数字化的发展加强识字”(105)。该研究使用来自多个写作的分数措施包括SAT-W,学期开始即兴作文得分标准,写一篇文章在一个扩展的时间线得分由教员,学期末的投资组合,和课程的成绩。研究人员比较分数和得出结论,当嵌入,AES可以作为“一个早期预警系统为教师和学生。”作者还指出担心过度依赖AES可能导致固定误差和表面特性,比如长度。
佩雷尔曼,莱斯。(2012)。建构效度、长度、分数和时间在整体评分写作评估:针对自动作文评分(AES)。在查尔斯Bazerman et al。(Eds)。国际写作研究进展:文化、地方、措施(页121 - 150)。柯林斯堡有限公司:WAC清算所与客厅出版社。
访问的批判写作任务(定时即兴)和自动作文评分的过程。作者认为,尽管“整个企业的自动化论文得分声称各种构想效度,它使用的措施大大不能代表任何合理的实际构造的写作能力”(p . 121)。他解释说长度如何影响得分:简短的即兴曲,长度与分数,但是一旦更多的时间给写和主题是提前知道,分数减少长度的影响。他还解释了AES不同于整体得分尽管正在生成一个数字,因为这个数字是由一组分析的措施。这些单独的措施(例如,字长,句子长度、语法、和力学)是不一样的构造要度量(写作能力)。主要是ETS AES项目讨论e-rater2.0系统因为ETS已经比其他AES开发者更加透明。佩雷尔曼利用自己的AES的研究,许多ETS技术报告和同行评议的研究使他的论点。
布里奇曼,布伦特,特拉帕尼,凯瑟琳&伊戈尔,领袖。(2012)。比较人类和机器评分的文章:差异,性别,种族,和国家。应用教育测量25 (1):27-40。*
两项研究报告比较人类和机器评分的某些群体。写作样本的数据检查得分为高风险的考试,研究生入学考试(GRE)和英语作为外语的测试基于互联网的形式(新托福)得分e-rater,一个自动作文评分程序。这项研究使用了一个庞大的美国和国际考生。作者,都隶属于教育考试服务,认为这里的研究报告的基础上早期作品Chodrow Burstein(2004)的三个方面:(1)它使用最新版本的e-rater考虑到micro-features;(2)样本包括美国国内子组和更全面的国际考生;和(3)标识”的一些特性,似乎有助于人类和机器之间的差异分数”(29)。作者总结说,“人类和之间的区别e-rater分数为各种种族和语言或国家子组通常不大,他们足够大,他们不应该忽视”(38)。文章,稍微偏离主题往往会得到更高的分数e-rater。他们还解释说,“看来,对于某些团体,组织良好和发达的文章,“但有缺陷的“语法、用法和力学,往往会得到更高的分数e-rater比人类得分手”(39)。
应对,比尔,产生何等,玛丽,McCarthey,莎拉,Vojak,科琳&克莱恩,索尼娅。(2011)。技术媒介写作评估:原则和流程。电脑和组成28日,79 - 96。
本文并不特别关注机器评分但主张更全面的方法与技术写作的评估。有意义的评估,作者认为,“应该位于一个knowledge-making实践,得出明确的社会认知、元认知,解决多模式的文本,是“学习”,不只是学习的,是无处不在的”(p . 81 - 82)。技术更广泛的定义不仅仅是项目得分机器尽管它包括方式,这些类型的项目可能被整合在一个更全面的方法。这幅画是一个作者的其他文章的同样的问题电脑和组成(见下文)。
Vojak,科琳,克莱恩,索尼娅,应付,比尔,McCarthey,莎拉&产生何等玛丽(2011)。新空间和老地方:写作的分析评估软件。电脑和组成28日,97 - 111。
一个17岁的系统回顾计算机编写评估程序,这两个分数或率论文以及那些提供技术媒介评估。项目包括等标准,我的访问!Essayrater、MyCompLab项目论文平地机和校准同行审查。写作分析定调为“一个社会活动”“功能和形式上多样化”,认为它是“一种价值主导型的活动可以以多种形式传达”(p . 98)。作者综述了各种组件的每个程序,考虑到其组件等主要目的,底层的基本算法,反馈机制、类型/写作形式推广,从事写作过程的机会。他们还为每个程序识别的优点和缺点。尽管本文认为超过AES,它包括它的这一更大行动的一部分合并技术在各种形式的写作评价,无论是造型还是总结性。作者得出的结论是,项目做帮助提高考试成绩,但他们“在很大程度上忽视的潜在技术”的写作的三个基本理解,他们确定了促进而不是一个“窄视图,符合系统要求在测试和问责制的时代。“他们”发现的公式化的方法,非特异性的反馈,正确识别错误,强调写作语法和标点符号等结构,并倾向于价值长度在内容,项目认为,成功的学生作家会重现传统,纯粹的书面语言通用结构”(108)。
尼尔,Michael r . (2011)。写作评估和数字文本和技术的革命。纽约:师范学院出版社。*
彻底审查后应对机器评分组成学者(页65 - 74),这本书认为,机械化由机器评分是一种“误导”,我们的教学社区,部分串通一气:“一路走来我们失去了的想法如何以及为什么人们读和写在有意义的修辞的情况下,“注意,然而,那台机器评分是“廉价,机械化解决一个问题,我们没有机会帮助定义”(p . 74)。
艾略特,斯科特。(2011)。Computer-graded散文充满了缺陷。代顿每日新闻(5月24日)。*
描述了记者如何教育考试服务的测试e-rater通过提交两篇论文,一个他最好的努力,一个旨在满足计算机程序的偏爱“长段落、过渡词和词汇官僚将爱”等废话也充满了“国王理查德•西蒙斯shoe-eating电视闯入者,外星人和绿色沼泽蟾蜍。”E-rater给了第一篇5分(1到6的规模)和无意义的文章得分为6。一个英语老师给了第一篇6 + 1,第二个在相同的规模。斯沃茨丰富的教育考试服务解释说,“我们很长一段路从电脑阅读的东西。“这不是一个同行评议的出版物,但它提供了一个有用的视角AES的局限性。
Dikli Semire。(2010)。自动作文评分反馈的性质。印花棉布的杂志28(1),99 - 134。
反馈他们的写作的研究收到的十二个成人英语学习者从我的访问!,一个自动作文评分(AES)计划使用Intellimetric系统和教师的反馈。这个项目不是得分论文而是给学生提供反馈。该研究使用案例研究方法包括观察,采访学生,考试的短信。学生被分成两组:一组六收到反馈的计算机系统和一个老师。AES的反馈和教师广泛不同的长度,可用性、冗余和一致性。研究人员报道,我的访问!提供更多的比老师的反馈,但它并不可用,这是高度冗余的,通用的,但一致的。AES系统没有使用正面强化,没有连接在个人层面上的学生。研究者得出结论,AES程序不符合非原生语言使用者的需求。
Byrne罗克珊,唐,迈克尔,Truduc约翰&唐,马修。(2010)。eGrader,软件应用程序,自动评分,学生论文:postscript的道德的复杂性。杂志的系统学、控制论和信息学8(6),每次30 - 35 . *
提供了一个简短的概述三个商用自动作文评分(项目论文成绩、Intellimetric和服务e-rater)以及eGrader。eGrader不同于其他人,因为它运行在客户端电脑;需要很少的人力培训;成本效益;,不需要一个巨大的数据库。虽然股票这些其他AES应用程序进程,差异包括关键字搜索网页的基准数据。作者用33论文比较eGrader结果与人类的法官。之间的相关性分数比较与其他AES的应用程序。在课堂使用,然而,教师“发现了一个令人不安的模式”:“机器算法无法检测的想法并不包含在阅读或Web基准文件尽管表达的想法是有密切关系的论文问题。“最终,作者决定不使用机器”的读者,因为他们无法检测等细微之处写讽刺,比喻,双关,内涵和其他修辞设备”和“似乎惩罚这些学生我们要培养,那些认为在原始或不同的方面和写作。”
Crusan,黛博拉。(2010)。评估在第二语言课堂。MI安阿伯:密歇根大学出版社。*
有兴趣的英语是第二语言的教学,作者测试了培生教育的聪明的论文评估员,发现诊断“模糊的和无益的”(p . 165)。例如,国际能源机构说介绍是“缺失、未开发的或可预测的。这是它吗?”(p . 166)。她一章机器评分(页156 - 179)比较所有主要writing-analysis软件,与一个特别强烈的看有利的学习是我的访问!(基于IntelliMetric),发现反馈成问题的,部分是因为它可以由管理员和错误的使用它会导致教师的“技术程度”(p . 170)。警告说,这个计划,“如果使用,应该小心使用和持续老师监督和干预”(p . 178)。
麦科里,道格。(2010)。编写测试得分机器可以处理广泛和开放以及人类的读者?评估写15(2),118 - 129。*
调查声称机器评分的文章赞同人类的得分手。认为这项研究支持这一论断是基于有限,限制写作任务,比如那些用于GMAT,但2005年的一项研究报道NAEP显示自动作文评分(AES)不可靠更开放的任务。麦科里报告研究结果比较两个machine-scoring应用程序的结果的人类读者的写作部分澳大利亚扩展测试(AST),已专门鼓励考生确定一个问题并使用起草和修订提出的观点。它没有规定一种形式或类型,甚至这个问题。它被设计来反映课堂实践,而不是促进分级和两分协议,根据麦科里。评分过程,也不同于那些通常用于大规模的测试在美国,包括四个读者得分散文在10分制。后结果的对比分析,人类的分数和分数的AES应用,麦科里认为机器评分不能分开放,比人类更可靠的读者广泛的写作任务。
Herrington,安妮和莫兰,查尔斯。(2009)。写作、评估和新技术。在玛丽·c·Paretti &卡特里娜鲍威尔(Eds)。书面评估(评估的学科,卷。4)(第177 - 159页)。塔拉哈西,TN:协会机构人员。*
Herrington和莫兰反对教育工作者和顾问”,主要或完全依赖于标准化的评估程序或使用自动化,外部开发编写评估程序”(p . 177)。他们提交了一篇写的莫兰教育考试服务标准,发现程序是“模糊,一般具有误导性,往往大错特错”(p . 163)。例如,八个问题标准发现在语法、用法和力学,八个都是虚假的旗帜。爱德华·布伦特的作者也批评SAGrader,找到免费的软件的分析反应为内容写课程一般有帮助如果合理使用方法;但他们严重问题大学生学习评估的能力来识别有意义的学习成果,特别是现在CLA采取教育考试服务的e-rater论文得分为CLA的“还原”基于任务的提示(p。171)。
Scharber,卡桑德拉,德克斯特,莎拉和里德尔,埃里克。(2008)。学生的经验与一个自动化论文得分手。杂志的技术,学习和评估7(1)检索4/1/2013从http://www.jtla.org。
研究探讨了职前英语教师的经验与自动作文评分(AES)在网上形成反馈,基于案例课程。收集的数据包括post-assignment调查、用户日志的学生行为的情况下,instructor-assigned成绩最后的论文,和采访四个选择学生。ETIPS使用的课程,全面的在线系统,包括一个AES选择造型的反馈。例”是多媒体、网络、在线教学资源,提供学习机会。实践教学决策技能与技术集成和实现”(p。6)。25的34个学生同意参与这项研究,和十三25同意接受采访,有四个选择通过立意抽样矩阵。调查结果显示,“大多数学生没有强大的正面评级分配给任何方面的得分手”但却发现AES有用在创作自己的反应,但他们并没有多少信心在其评估。在回应一个开放式问题是他们使用AES,作者报道的两个最频繁的反应学生”,他们试图请然后击败得分手”(n = 16)他们“得分手然后放弃了使用”(n = 9) (p。14)。从这四个案例研究,作者得出的结论是,“形成性反馈的性质给这些学生的ETIPS得分手不够成熟让他们知道具体的修订,使他们的答案”(p。28)。
Shermis,马克D。,Shneyderman, Aleksandr & Attali, Yigal. (2008). How important is content in the ratings of essay assessments?在教育评估:原则、政策和实践15(1),91 - 105。
EBSCO文摘:本研究的目的是检查在多大程度上“内容”占方差自动作文评分的分数分配协议。具体假设,某些写作体裁会比其他人更强调内容。数据来自1668年论文校准在两个年级(6和8)使用“e-rater(TM)”,一个自动作文评分引擎与现有的有效性和可靠性。”E-rater“v 2.0的评分算法12变量分为“内容”(分数分配给论文与相似的词汇;相似的词汇分数最高的文章)和“非内容性”(语法、用法、力学、样式和话语结构)相关的组件。论文按类型分类:有说服力,说明的,描述性的。分析表明,由于年级主要有显著影响,F (1653) = 58.71, p小于0.001,和流派F (1653) = 20.57, p小于0.001。品位和类型并没有显著的交互作用。八年级学生平均得分要明显高于六年级学生,和描述性的文章被评为显著高于列为说服力或解释性。据预期,提示了“内容”与最低的内容比例方差有说服力的文章,其次是解释性和描述性。内容约占0 - 6%的总体方差当所有预测变量。它占了大约35 - 58%的总体方差“内容”变量时仅被用于预测方程。(包含9表2数据和2笔记。)
陈,曾经选择Chi-Fen艾米丽和程,尤金。(2008)。超出了设计的自动写作评价:教学实践和感知学习在英语写作课程的有效性。学习语言和技术12(2),94 - 112。*
如何有效地使用自然的课堂调查我的访问!为ESL学生在台湾工作。发现计算机反馈是最有用的在起草和修改之后,但只有与人类同伴反馈学生和教师。当学生试图使用我的访问!自己,他们常常沮丧,他们的学习是有限的。一般来说,老师和学生都认为软件及其负面的反馈。
王,金浩&布朗,米歇尔·史泰龙。(2008)。自动作文评分与人工评分:相关性研究。技术和教师教育的当代问题8(4)*
在为数不多的经验以外的机器与人工评分进行比较测试公司本身,小王和布朗训练独立评委分数学生论文所得分IntelliMetric在WritePlace +。学生们报名参加了一个先进的基础写作课程在德克萨斯州南部Hispanic-serving大学。在全局或整体的层面上,人类和机器之间的相关性分数只有厚。五个维度的关注、开发、组织、力学、相关性和句子结构,范围从0。06 . 21。这些惨淡的machine-human相关行业研究结果的普遍性问题,,小王和布朗指出,出现相同的人口的作家机器和评级机构都是训练有素的。IntelliMetric成绩也没有相关性(幅)与分数,学生以后实现human-scored文章末考试,而两个人评分显著相关(.35点)。
Wohlpart,詹姆斯,林赛,查克&随处克雷格。(2008)。计算机软件的可靠性评分论文:创新人文课程。电脑和组成25(2),203 - 223。*
认为佛罗里达海岸大学的通识教育课程理解视觉和表演艺术,在网上教两个大的部分。使用聪明的论文评估员得分的两篇短文模块考试的一部分。四阅读,使用四点整体规模、教师读者实现精确的协议和两个独立的读者只有49岁,61年,49岁,57%的时间。国际能源机构的分数与人类最后的成绩(取得有时四阅读后)的64%。后来老师阅读有差异的文章,他们的分数几乎总是走向国际能源机构得分。与论文仍有差异,得分高了78%国际能源机构。教师是“说服”的使用国际能源机构是一个“成功。“注意,作者不调查统计趋均数回归的部分可能在这些结果。
和记黄埔,Dougal。(2007)。评估计算机化的文章标记为11岁的英国国家课程评估。英国教育技术杂志》上38(6),977 - 989。
本研究探讨“电脑程序可以复制人类标记”(p . 980)和“差异计算机和人类的标记,并试图确定这些“的原因(p。981)。它使用e-rater和600年的一个子集论文收集的一部分国家教育研究基金会的工作用英语在发展中国家课程评估。的比较e-rater分数与人类读者显示,“e-rater分数几乎经常同意人类读者两个人类读者同意对方,更紧密地与读者的平均值”(p . 981)。确定差异的原因,讨论的标记的文本收到不符分数和研究者确认三个差异的原因,他被称为人类友好,中性,和计算机友好。基于研究结果的分析,作者得出的结论是,“即使是最复杂的程序,例如e-rater,基地评估维度,仍然可以错过重要的一篇文章的内在品质,如是否活泼或行人”(988)。
詹姆斯,辛迪·l . (2007)。验证计算机评分系统来评估写作和将学生作文课程。评估写作11(3),167 - 178。*
比较分数的ACCUPLACER在线WritePlacer +(使用IntelliMetric)与学生的论文成绩由“未经训练的”汤普森河大学教师,然后比较这两组的成功预测通过或失败在写作入门课程和一门课程在文学和组成。ACCUPLACER期间管理类的第一个星期。机器和人类之间的相关性分数(从.40点)低于人类之间(从.45 .80)。机器和人类的分数占的成分的变化和文学课程的成功(机:16%和5%;人类:26%和9%)。IntelliMetric只有18 nonsuccessful的一个学生,和人类只有6人。
爱立信,帕特丽夏Freitag & Haswell,理查德·h·(Eds)。(2006)。机得分的学生论文:真理和后果。洛根,UT:犹他州立大学出版社。*
一个17岁的编译原始论文的教师组成讨论教育的影响评估方法和商业计算机essay-rating软件如大学董事会WritePlacer +采取行动的e-Write,ETS的e-rater,测量,Inc .)项目论文成绩(挂钩),以及论文的反馈软件如有利学习的我的访问!ETS的标准。地址很多写作的得分机器问题:历史理解的技术(肯·s·麦卡利斯特和爱德华·m·白;理查德Haswell;鲍勃广泛);调查能力的机械“读”学生写作(帕特丽夏·f·爱立信;克里斯·m·安森;埃德蒙·琼斯;威廉·康登);学生是如何反应的讨论机器评分(安妮Herrington &查尔斯·莫兰);可怜的有效性的分析将学生得分机器生产(Richard n . Matzen Jr .)和科琳索伦森; William W. Ziegler; Teri T. Maddox); a comparison of machine scores on student essays with writing-faculty evaluations (Edmund Jones); a discussion of how writers can compromise assessment by fooling the computer (Tim McGee); the complicity of the composition discipline with the methods and motives of machine scoring (Richard Haswell); writing instructors’ positive uses of some kinds of computer analysis, such as word-processing text-checkers and feedback programs (Carl Whithaus); an analysis of the educational and political ramifications of using automated grading software in a WAC content course (Edward Brent & Martha Townsend); and an analysis of commercial promotional material of software packages (Beth Ann Rothermel). Includes a 190-item bibliography of machine scoring of student writing spanning the years 1962-2005 (Richard Haswell), and a glossary of terms and products.
威尔逊,穿着俗艳的美女。(2006)。道歉,桑德拉·西斯内罗斯:ETS的电脑写作评估了马克。反思学校20.(3)*
威尔逊教育考试服务的测试批判的一部分标准提供“诊断反馈”,通过发送桑德拉·西斯内罗斯的“我的名字,”章的房子在芒果街。批判发现问题在重复,句子语法,句子长度、组织和发展。威尔逊又重写“我的名字”批判的建议,需要添加一个介绍,论文观点,得出结论,270字,把它变成一个冗长,单调,公式化的五段式散文。
Horkay Sandene,布伦特,南希,班纳特兰迪·艾略特,艾伦,南希,科布市,詹姆斯,卡普兰,布鲁斯和橙色,安德烈亚斯。(2005)。第二部分:在线写作评估。在线评估在数学和写作:报告NAEP技术为基础的评估项目,研发系列。生均2005 - 457)。美国教育部,国家教育统计中心。华盛顿特区:美国政府印刷办公室。
而不是传统的同行评议的出版物,NAEP研究报告被认为是高质量的学术来源;它描述了2002年在线写作研究的结果国家样本的八年级学生在线写作和比较结果这些学生采取传统的纸笔测试的格式。这份报告是一个全面的比较,其中包括论文使用的机器评分e-rater2.0,一个分段AES(37-44页。)。研究”的结果显示,自动评分的文章反应不同意的分数获得由人类读者。“此外,AES”生产意味着,生活质量得分显著高于“比授予人类读者,读者“相互同意“在更高的利率比AES分数之间的协议和那些由人类的读者。在排序的文章,再次人类读者和AES不同意人类读者一样以相同的利率。
Penrod,黛安娜。(2005)。在收敛成分:新媒体对写作的影响的评估。新泽西州Mahwah:劳伦斯Erlbaum。*
认为,因为写作和写作评估相互交织,因为写作和写作标准快速变化在数字技术的影响下,机器评分不能跟上:“当前推动传统的评估标准与计算机技术融合在智能论文评估员等形式,E-rater,和其他软件程序提供了一种建立客观标准的错觉,似乎没完没了地重复跨越时间和空间”(p . 164)。
Shermis,马克D。,Burstein, Jill & Leacock, Claudia. (2005). Applications of computers in assessment and analysis of writing. In Charles A. MacArthur, Steve Graham & Jill Fitzgerald (Eds.),手册的写作研究(页403 - 416)。纽约:吉尔福德出版社。*
回顾作者所说的“自动作文评分”(AES)从测试的角度。有一个短暂的历史发展最成功的软件,非常明智的讨论的信度和效度的研究AES(尽管有效性是限制与其他评估学生论文相关性),一个有用的埃利斯页面的不同方法的解释项目论文成绩(挂钩),ETS的e-rater有利的IntelliMetric和托马斯·蓝和彼得Foltz的聪明的论文评估员,和一个短的讨论电脑等关键反馈程序标准和c-rater。作者得出结论,教师需要了解的技术是如何工作的,因为“AES保证的未来,在某种程度上,更加强调测试的美国学生”(p . 414)。
Whithaus,卡尔。(2005)。教学和评价写作时代的电脑和高风险测试。Mahwah新泽西:劳伦斯Erlbaum。*
这本书的大的论点是,数字技术改变了一切的方式写作是或应该被教。包括评估写作。Whithaus批评高风险写评价,鼓励学生“形状材料放在前面(他们)成一个预定的形式”(11页),而不是鼓励思考如何为不同的目的和不同的观众交流,通过不同的形式。他认为,如果任务是再现已知事实,然后系统等项目论文成绩(挂钩)或聪明的论文评估员(国际能源机构)可能是合适的;但是如果任务是现在的新东西,然后建设电子组合使一个更好的匹配。表明使用e-portfolios创建强大的教学和评估之间的联系在一个时代,学生被教导要使用多通道形式的通信。认为得分包等e-Write或e-rater和驱动的算法,如潜在语义分析或多元回归可数性状可以评估可再生的知识或“死亡”文本格式如5-paragraph文章(p。121),但不能公正评估的内在品质多媒体和多通道写博客、即时通讯、或者e-portfolios,生产是认知和上下文,评估应该位于和分布式(由多个读者判断)。使这本书是特别有用的扩展分析当代学生文本。
Cheville,朱莉。(2004)。自动评分技术和不断增长的误差影响。英语杂志93(4)47-52。*
研究的理论基础和实际后果标准自动评分项目,教育考试服务中心仍在发展中。Cheville批评基于ETS所提供的信息的邀请参加一个试点研究。对比计算语言学的框架标准与位置植根于语言和语言发展的社会建构。链接程序的开发与高风险的大规模评估运动和“私人利益的力量威胁基本信仰和实践基础过程指令”,所以真正的问题——“教育陷入困境的结构”(51页)将仍然存在。
Burstein吉尔和马库斯,丹尼尔。(2003)。机器学习方法识别学生论文的论点和结论语句。电脑和人文37,455 - 467。*
解释了一个机器可以写出好文章的评价标准(组织)许多教师认为不能实证测量。认为essay-based话语分析系统可以可靠地识别论点和结论语句在学生写作。探索如何系统推广跨类型和年级水平和前所未有的响应系统没有训练。得出结论,研究应继续在这个紧要关头,因为机器学习的方法来识别论点和结论优于位置基本算法语句。
马克·d·& Burstein Shermis,吉尔(Eds)。(2003)。自动作文评分:一个跨学科的视角。Mahwah新泽西:劳伦斯Erlbaum。*
十三个原始essay-chapters计算机程序分析的发展和成绩“免费”或essay-like话语。这本书的大部分文件和促进当前计算机的文本分析方法,评分软件,或方法来验证:艾利斯巴顿页面项目论文成绩(挂钩);斯科特·艾略特在IntelliMetric;托马斯·k·蓝& Darrell Laham彼得·w·Foltz聪明的论文评估员;吉尔Burstein上e-rater;克罗夫特利亚s Larkey & w·布鲁斯在二元分类器作为文本分析的统计方法;格雷戈里·j·齐泽克&伯大尼a页面统计方法计算人机评定等级的可靠性和一致性;盖z基斯研究验证一些项目相关的人类和机器的比例;马克·d·Shermis &凯瑟琳·e·丹尼尔斯在使用尺度和题目比较人类和机器的分数;克劳迪娅里柯克&马丁Chodorow错误检测程序的准确性ALEK(词汇知识的评估);吉尔Burstein &丹尼尔Marcu计算机算法识别精度的“论文声明”在一个开放的文章。虽然章节是高度信息——基于数据和记录\缺席是得分机器的使用和影响的研究或在实际课堂反馈。引入认为“写作教师对技术的发展至关重要,因为他们告诉我们如何自动化论文评价是对学生最有利的”(十五),但没有沿着这条线的新信息。
迈克尔·m·威廉姆森(2003)。自动评分的有效性:序言的持续讨论机器评分学生写作。杂志的写作评估,1(2),85 - 104。*
评论写作考试理论和研究的历史,特别注意发展有效性的定义。认为英语研究者和理论家的研究应该阅读和理解话语的社区教育测量。理论家和研究者的批评自动得分时,他们必须考虑到观众的地址,他们必须了解测量的话语社区而不是只编写的英语学习理论。认为共同点之间存在两个社区的时候,写作老师需要承认有效性理论的复杂性,考虑自动得分的可能性和存在的问题,而不是只关注他们可能认为这种新技术带来的威胁。指出,有一个分裂的方式写作评估是专业人士讨论,美国心理协会和美国教育研究协会讨论评估明显技术的方式和英语教师全国委员会和学院组成与沟通组织会议讨论写作评估教学和学习评估的一个方面。威廉姆森指出,美国心理协会和地区的会员是更大的比性别和预备,和写作的研究人员会了解更多关beplay体育软件于评估讨论发生在APA和中小城镇圈。
权力,Donald E。,Burstein, Jill, Chodorow, Martin S., Fowles, Mary E. & Kukich, Karen. (2002). Comparing the validity of automated and human scoring of essays.教育计算研究杂志》上26(4),407 - 425。*
作者比较e-rater成绩与学生的自我报告的写作能力,写作成就,成绩在writing-intensive课程,和其他“non-test”变量,并发现人类的评级比论文相关的专家e-rater评级,虽然两人都低。他们的结论是,e-rater分数是“不如那些有效的分配由训练有素的读者”(p . 421),但只有假设“non-test”变量是有效的写作技巧。
Shermis,马克·d·&巴雷拉,费利西亚。(2002)。自动作文评分电子组合。评估更新14(4),1 - 11 . *
提供了一个更新的资助基金的改进高等教育(FIPSE),探讨了使用自动作文评分(AES)电子组合。认为,大量的e-portfolios需要使用AES评价系统。提出了数据显示三个AES系统的有效性:项目论文等级(挂钩)、IntelliMetric和聪明的论文评估员(IEA)。报道称,项目人员创建国家规范文档;规范可以通过自动化的软件在线一段五年。
Shermis,马克D。,Mzumara, Howard R., Olson, Jennifer & Harrington, Susanmarie. (2001). On-line grading of student essays: PEG goes on the world wide web.高等教育评估和评价26(3),247 - 260。*
描述了两个研究使用项目论文成绩(挂钩)软件的学生进入大学写作课程。在第一项研究中,学生的论文被用来创建一个得分模式的软件;第二,成绩提供的挂钩和人类读者比较。认为,挂钩因为电脑评分和评级机构的工作成绩有很高的相关性;此外,挂钩是一种有效的、低成本的方式可能发生失事的写作评估位置。作者指出,一个好的作家虽然可以愚弄系统通过提交一个荒谬的文章,这篇文章并没有解决其他潜在的问题与学生论文的得分机器。事实上,它指出如何结束挂钩的使用可以扩大超出放置评估分级的论文在2000年写等项目,促进更多的写作6 - 12年级。
Herrington,安妮和莫兰,查尔斯。(2001)。当机器阅读我们学生的写作?大学英语,63 (4),480 - 499。*
提供了一个简短的历史组成的反应机领域的得分和检查两个项目现在大量销售在全国范围内:Intellimetric,WritePlacer +平台聪明的论文评估员。Herrington得分和莫兰每个提交工作计划和讨论不同的结果。认为机器评分不把写作当作一种修辞作者和读者之间的相互作用。质疑声称公司效率和可靠性作为主要依据营销他们的程序。认为机器评分可能发送消息给学生,人类的阅读是不可靠的,无关紧要的,和可替换的,语言的表面特征比内容更重要,读者和文本之间的相互作用,破坏作品的教学目标的消息。
权力,Donald E。,Burstein, Jill C., Chodorow, Martin, Fowles, Mary E. & Kukich, Karen. (2001).掘根e-rater:具有挑战性的自动作文评分的有效性(GRE的报告,98 - 08 - bp)。*
报告的写作专家的一项研究中,语言学家、语言测试专家和计算机软件专家鼓励编写和提交论文,他们相信技巧e-rater给更高或更低比论文应得的分数。人类读者取得论文e-rater。研究发现,读者同意得分的一个另一个在一个点规模92%的时间,e-rater和读者同意在一个对方65%的时间。此外,e-rater更有可能给的分数比给低于必要的分数。一些论文鉴于得分最高(6)e-rater但是非常低的分数由人类的读者是那些重复整个段落或关键短语使用的问题,但仅仅同意写作提示,而不是分析它,作为指导。论文收入低于合理的分数是那些包括微妙的想法或频繁的文学典故之间的转换。得出结论,e-rater不应使用没有人类的得分手和培养人类还能做的更多得分方面的写作呢e-rater俯瞰。这是一个由ETS技术报告,所以不是同行评议的出版物,但它提供了有用的洞察AES。
布雷特·d·琼斯(1999)。英语作文课堂Computer-rated论文。教育计算研究学报,20(2),169 - 186。*
报告的一项研究旨在确定初中和高中老师会用电脑可用的学生写作如果他们评级。讨论潜在的计算机评价论文帮助教师反馈学生的文章。评论反馈学生发现最有帮助的类型,表明,教师没有足够的时间来提供这种类型的反馈,并认为项目论文成绩(挂钩)能够评价一篇文章的整体质量,因此留下更多的时间为教师提供更具体的和基于内容的反馈学生的论文。强调,挂钩评级不给资料为什么写的是弱(例如、内容组织、风格、力学、创造力),但提醒教师需要关注的区域。
海伦,惠廷顿,戴夫和狩猎。自由文本响应的计算机评估方法。(1999)。学报》第三届计算机辅助评估会议(页207 - 219)。英国拉夫堡:拉夫堡大学。*
提供清晰、简短描述的许多机器评分软件程序操作,包括项目论文成绩(挂钩)潜在语义分析(文理学院),微软的自然语言处理工具,和教育测试服务的e-rater。还描述了两个,可能有益的,软件项目:Panlingua,基于的假设是一种通用语言,有反映在几个层面上理解和知识,将映射到软件程序的大脑理解语言/想法,和词汇概念结构(LCS),基于机器的想法”必须能够获取语言信息——比如意义,和对象和对象之间的关系在sentences-whilst仍然处理许多类型的特定于语言的细节,诸如语法和散度”(p。10)。指出,有许多重要的限制所有这些软件计划但他们持有的承诺,在一起,代表了占主导地位的思考如何构建软件的方式来解决复杂的写作任务的评分。
Breland,亨特m (1996)。计算机辅助写作评估:科学与人文的政治。在爱德华·m·怀特,威廉·d·鲁茨和桑德拉Kamusikiri (Eds)。评估的写作:政治、政策、实践(页249 - 256)。纽约:现代语言协会。*
简要回顾了开发基于计算机的评价写的“科学家”,这种方法的电阻的“人文。“地址贝尔实验室等项目作家的工作台以及作者”的教育考试服务的研究WordMAP程序。得出结论,尽管许多写作老师仍然反对关注错误和力学描述计算机的方法,一个“一定的标准化,特别是写作力学,是一个重要的组成部分,写作和写作评估,”和否认这个事实“不好写指令”(p . 256)。
Huot,布莱恩a (1996)。电脑和评价:理解两种技术。电脑和组成、13(2),231 - 243。*
检查问题和使用评估技术的可能性,并认为我们必须决定使用任何技术基于良好的理论和研究。包括文献综述计算机得分。认为评估实践的理论假设和计算机实践教学和交流,特别关注关于电脑的争论不作价值判断和价值负载的工具。检查机器的有效性和可靠性参数得分和使用计算机的理论影响的评估和应对学生写作。
布洛克,马克n (1995)。计算机化的文本分析:根和研究。计算机辅助语言学习8(2 - 3),227 - 258。*
关注电脑文本分析程序,如作家的工作台、编辑和批判,为作家提供反馈,以便及时修正。解释这些程序功能的方式,总结了他们如何发展,对他们的有效性和评价研究。识别文本”的“独家关注表面特性的“最严重的限制”计算机的文本分析,因为它引导学生从意义(p。236)。认为有益的关于这些项目的写作艾滋病是“最好的有争议的,在最坏的情况只是不真实的”(p . 254)。描述了程序是如何用于提供反馈作家和对比使用这样项目年级写作。
由性别工作组写作
评估
北卡州立大学的克里斯·安森(椅子)
斯科特•Filkins香槟单位4个校区,伊利诺斯州
特洛伊希克斯,中央密歇根大学
佩吉·奥尼尔,马里兰洛约拉大学
凯瑟琳·米切尔皮尔斯,克莱顿学区,密苏里州
Maisha韦恩,威斯康辛大学
这一立场声明可能是打印、复制和
传播未经许可的
性别。