介绍

本文件提供了一套标准,以指导有关扫盲教与学评估的决策。在过去的30年里,研究在我们对语言、学习和快速变化的社会的复杂识字需求的理解方面产生了革命性的变化。本文件中提出的标准旨在反映我们在理解方面的这些进步。

本文件的读者很可能在读写能力和评估方面有共同的经历。例如,在我们上学的时候,老师指导我们去理解一篇文章的正确意思,这样我们就能回答那些已经知道正确意思的人提出的问题,或者回答已经确定了正确答案的测试(通常是多项选择)。为了发展评估实践,在日益复杂的社会中为学生服务,我们必须超越我们自己的学校历史的限制,以更复杂的方式理解语言、读写能力和评估。读写能力不仅包括阅读和写作,还包括一系列相关的语言活动。它不仅仅是一套技能,更具有社会性,也更个人化。

理解语言的需要尤其重要。语言不仅是评价的对象,而且是评价过程的一部分。因此,任何关于读写能力评估的讨论都必须包括对语言的讨论——它是什么,它是如何学习的,以及它与评估的关系。在说明我们的评估标准之前,我们将概述评估的含义,以及我们如何理解语言及其与评估的关系。

评估的性质

多年来,知识、课程和评估的传播观占主导地位,似乎满足了我们的社会、政治和经济需求。知识被认为是“在外面”某个地方的静态实体,所以教育的关键问题是,你如何把知识从外面带入学生的头脑?相应的评估问题是,什么才能证明知识真的存在于他们的头脑中?从传播的角度来看,在制定评估程序和业务之前,制定明确教学内容的教育标准是有意义的。

20世纪20年代,关于学校教育基本目的的观念开始从强调知识的传播转变为更复杂的培养独立和协作学习以及解决问题的能力。在当今的后工业社会,这种转变越来越突出,对具有良好沟通能力和解决问题和合作能力的工人的需求不断扩大。致力于自主学习的课程是建立在这样一个前提之上的,即探究,而不仅仅是知识的传播,是教与学的基础。

这种从知识传播到探究作为学校主要目标的转变对评估有重要影响。在知识传播框架中,静态知识测试可以作为评估工具。学生是主要负责的参与者(无论他们是否有知识),其次是教师。政策制定者,包括学校董事会成员,受托人,或董事,是评估数据的主要接受者。调查框架改变了评估的角色和参与者的角色。在这个框架内,评估是探索教育环境和教育社区的参与者如何支持学生学习成为独立和合作的思考者和问题解决者的过程。这种探索包括对教学环境、学习过程和成果的检查,以及所有参与者(学生、教师、管理人员、家长和董事会成员)履行支持探究义务的程度。
这样的评估不仅考察了学习过程,还考察了学习的背景。

与知识传播相比,探究强调不同的知识过程和类型。例如,它重视识别问题的能力,并在试图解决问题时产生多种不同的观点。探究型立场认为,尽管知识和语言可能会随着时间而变化,但对各级学习者(学生、教师、家长、管理人员和政策制定者)能够解决新问题、产生新知识和发明新的语言实践的需求将保持不变。探究视角将提出问题和解决问题作为教育界所有参与者的目标。例如,查询重视如何利用不同来源的信息来解决特定的问题。它重视探索教师如何促进所有学生的批判性思维。这就提出了一个问题,为什么在当前的学校环境中,我们的社会会优先考虑某些群体的知识和文化遗产。

探究符合多元文化社会的需要,在多元文化社会中,重视和发现文化多样性的力量至关重要。它还尊重提出问题和产生多种解决方案的承诺。不同的利益相关者和文化团体对问题提供了不同的答案和新的视角。尊重学习者之间的差异可以丰富课程,减少有问题的课程狭窄的可能性。

就像探究原则重视差异一样,差异原则也重视对话而不是背诵作为主要的话语模式。在背诵中,假定一个人,即老师,拥有答案,而其他人,即学生,与老师互动,并试图揭示老师的知识。在对话中,教育环境中的所有利益相关者(学生、家长、教师、专家、管理人员和政策制定者)在谈判课程、标准和评估时都有发言权。探究和学习都不被视为学生和教师的专属领域;两者都是学校社区所有成员的主要关注点。例如,管理人员会问自己一些尖锐的问题,他们所建立的结构是否支持员工发展、教师反思和学生学习。学校董事会成员会问自己,他们是否达到了他们为自己和学校设定的标准,为教师和学生提供了保证学习机会所需的资源。

因此,质量评估取决于建立条件的过程,使教室、学校和社区成为探究的中心,学生、教师和学校社区的其他成员可以单独或合作地调查他们自己的学习。评估的责任并没有不成比例地落在学生和教师身上(这在今天的学校里经常是这样);相反,所有那些探究教育实践的性质和有效性的人都有责任调查他们所扮演的角色。学校社区的不同成员有不同但相互作用的兴趣、角色和责任,而评估是一种媒介,让所有人都能探索他们所学到的东西,以及他们是否履行了对学校社区的责任。

语言的本质

语言很像一个活的有机体。它不能像机器一样由零件组装而成,它是不断变化的。就像一个活的有机体,它只存在于与他人的互动中,存在于社会的相互依赖中。语言是一种符号系统,我们通过它来表达和理解世界和我们自己。语言并不包含意义;相反,意义是在使用语言的社会关系中构建的。个人在他们的社会关系、个人历史和集体记忆中理解语言。为了理解哪怕是一个单词,人们也会考虑当时的情境以及他们与说话者或作者的关系。

举个例子,家庭这个词经常被使用,好像社会所有成员都同意它的意思。然而,这个词在不同的语境中可能有不同的含义,无论是文化的、情景的还是个人的。对于一个中年白人来说,她的父母带着两个孩子搬到了全国各地,她自己也重复了这一经历,家庭可能是指她成长的核心家庭结构,她在其中抚养自己的孩子。对于来自不同文化背景的人——也许是非裔美国人或亚裔美国人——这个词可能会让人联想到住在一起或住得很近的祖父母、阿姨、叔叔和堂兄妹。所以,意思可能因人而异,就像在这种情况下,意思附加在单词上家庭可能会因个人在家庭中的经历或曾经共事过的家庭而有所不同。因此,在文化和个人历史不一致的程度上,个体对明显相似的语言有不同的理解。因此,当我们试图标准化测试时(让每个人都一样),我们做出了一个脆弱的假设,即所有学生都会从我们的指导语言和个别项目的语言中得出相同的含义。

不同的文化也有不同的方式来代表世界,自己,和他们的意图用语言。例如,在任何特定的文化群体中,人们有不同的问候方式,这取决于场合(例如,商务会议、葬礼、约会)以及他们彼此之间的关系。我们自己的语言实践来自我们的文化经验,但它们也是形成文化的集体实践的一部分。的确,人们使用语言来理解世界和生活的不同方式是不同文化群体的主要区别特征。

与此同时,随着我们的使用,语言也在不断变化。单词获得了不同的含义,新的语言结构和用法出现在人们延伸和拉动语言以获得新的含义的过程中。因此,个人对语言的理解因时代、社会环境、个人视角和文化群体的不同而不同。

识字的本质

读写能力的性质也在不断变化。如今,许多孩子在线阅读的时间比线下阅读的时间多。他们正在成长为一个数字世界,在这个世界里,相对较少的阅读和写作涉及纸张,大多数阅读和写作涉及图像和印刷,而写作(正式的和不正式的,后者包括电子邮件、文本、Facebook帖子等)正变得与阅读相等,甚至取代阅读,成为一种主要的识字活动。随着新形式的互联网通信技术(ICT)的产生,识字工具正在迅速变化,包括(在撰写本文时)公告栏、网络编辑器、博客、虚拟世界和像Ning和MySpace这样的社交网站。数字技术的使用也改变了读写能力的社会实践,语言的发展也是如此。新的文学实践通过日复一日地存在于所谓的媒介圈中而得以学习和完善。例如,与手机生活在一起导致了短信,这改变了人们对写作和写作的看法,而频繁使用Web 2.0网站,如视频分享服务YouTube,赋予了视觉模式特权,并塑造了对其他意义创造模式的关注和便利。孩子们在学校结束时所接触到的文化知识在他们刚开始时是无法想象的。

在线阅读和写作改变了阅读、写作和理解的意义。扫盲实践现在包括创造和使用多模态文本(广义的)。创建多模态文本需要了解不同数字工具的属性和局限性,以便决定如何最好地服务于一个人的意图。例如,参与社交网站需要新的读写习惯;新的扫盲实践塑造了用户如何被感知以及他们如何构建身份。这导致了需要评估的新领域,包括年轻人如何使用数字工具和虚拟空间创建和增强多重身份。我们现在需要关注的是教学和评估学生如何接受印刷出来的观点,并将其用视频剪辑呈现给其他观众。同样地,我们必须关注以一种形式(例如印刷)呈现的思想并将其转录或转换为另一种形式(例如数字视频)所涉及的立场和实践,我们必须考虑特定模式所提供的可能性和限制,以及它与其他模式在特定目的和情况下的可取性之间的关系。儿童在线上和线下使用不同的理解策略,对两者的评估显示了他们读写能力发展的不同情况。在线读者通过选择超文本和互文链接,实际上构建了他们所阅读的文本以及他们所表达的意义。 New multimodal texts require new critical media literacies, linked to classical critical literacy notions of how media culture is created, appropriated, and subsequently colonizes the broader notions of culture—for example, how youth culture is defined by and used to define what youths do, what they buy, and with whom they associate.

在学校教育中占主导地位的识字定义,以及目前大多数测试系统所坚持的识字定义,已经不适用于高度网络化的新信息时代。如果不能帮助所有学生获得这个年龄段的读写能力,对他们和社会都没有好处。不教授必要的技能、策略、性格和社会实践,就等于剥夺了孩子们在新的全球社会中充分参与经济、社会和政治的机会。不评估这些能力将导致课程忽视和缺乏信息来告知教学。

语言的学习

当孩子们来到学校时,他们已经学会了至少一种语言,并掌握了他们将会使用的大部分语言结构。通过社会互动,使用他们从出生起就在周围听到的语言,他们已经在不知不觉中形成了基本的语法规则和词汇,这些规则赋予了他们所看到的世界意义。尽管如此,我们在学校教语言的时候,好像孩子们来到我们的教室时,语言能力很少或根本没有。事实远非如此。孩子可以要求、要求、解释、叙述、说服和表达意见。他们把叙述自己人生历史的能力带到学校。他们是远在上学之前就用语言创造意义的作者。

当儿童在社会交往中习得语言时,特别是在与语言不同或更复杂的人交往时,他们在不同的目的和不同的社会场合中灵活地使用语言。学习第二种语言或方言大致与学习第一种语言相似,因为学习任何一种语言都需要精通其基础上的社会关系。儿童在没有明确的规则和语法知识或指导的情况下也能流利地使用语言。这意味着,语法和规则是作为分析语言的工具而传授的。即使是对英语有相当熟练的成年人,也很少能说清楚语法或语言规则。尽管这是不言自明的事实,但我们在学校里谈论评估和教学时,却常常把事实并非如此。

此外,尽管我们假装不是这样,但语言并不是按简单的等级顺序习得的。

在某些方面,学校在语言习得中发挥的作用并不大,大部分都发生在学校之外。在学校里,我们必须学会以一种保护和尊重个性的方式教授语言,同时我们让学生学会如何成为学习社区中负责任和反应灵敏的成员。换句话说,我们必须尊重他们自己对语言的解释,包括他们阅读和听到的文本,但我们必须帮助他们了解,意义是与他们生活和工作的学习社区的其他成员协商的。为了参与谈判,他们必须了解并能够掌握他们所生活的文化的语言实践和谈判手段。他们必须了解在不同的社会环境中被认可的语言惯例,以及遵守或违反这些惯例的后果。

尽管我们大部分的语言都是在校外学习的,但学习语言是所有学校教育的基础,而不仅仅是语言艺术的基础。例如,在科学课上,我们用语言了解世界。因此,为了学习科学,我们必须学习我们用来获取科学知识的语言,这种语言对课程有重要的影响。如果在科学方面的阅读和写作中,语言是冷静和疏远的,那么这是学生构建科学知识的一部分,是他们通过科学与世界联系的方式的一部分。

语言的评估

我们对语言和语言学习的描述对语言的评估具有重要的意义,首先因为它是评估的对象(被评估的东西),其次因为它是评估的媒介(我们通过和利用它进行评估的手段)。语言艺术和评估政策和实践的教学成果应该反映我们对语言及其习得的了解。例如,假设只有一种正确的方法来写一篇有说服力的文章,这是一种可疑的做法。劝说别人买房和劝说别人去约会是两码事。说服处于较弱地位的人与说服处于较强地位的人是不一样的——也就是说,说服实践因情境、目的和文化群体而异。同样,文本可以(也应该)从不同的角度来解读,这必须被视为一个确定的目标——不被假装不同的评估实践所扰乱。根据我们对语言的了解,通过多项选择测试断言一段文字只有一种含义是不可接受的。

此外,在某种程度上,评估实践只使特定文化群体的意义和语言实践合法化,这些实践是文化压迫行为。当我们的评估给予一种写作高于另一种的地位时——例如,说明性写作高于叙事性写作——我们正在对代表世界的特定方式的合法性做出非常有力的控制声明。这些陈述往往反映在课堂实践中。

当我们试图记录学生的语言发展时,我们在一定程度上参与了这种发展。例如,如果我们决定某些技能是“基本的”,而有些技能是“高级的”,并且前者需要在后者之前获得,这个决定会影响我们组织教室、计划教学、分组学生以及与他们讨论阅读和写作的方式。我们教识字的方式,我们安排课程的方式,我们给学生分组的方式,甚至我们安排教室的方式都对他们的学习有影响。

评估语言

因为它涉及到语言,评估是一个解释的过程。就像我们为阅读和写作的文本构建意义一样,我们也根据学生提供给我们的许多“文本”构建“阅读”或解释。这些评估文本的形式包括学生所写的文章、他们对文学作品的回应、他们完成的各种作业和项目、他们对讨论的贡献、他们在不同环境下的行为、他们在课堂上或会议上提出的问题、他们在语言使用方面的表现或演示,以及对他们语言能力的测试。两个不同的人评估一个学生的阅读或写作,他或她的文学发展,可能会用不同的词来描述它。

在课堂上,教师评估学生的写作和阅读,并对阅读过的作家的作品做出评价。这种课堂评估的语言成为识字课堂社区的语言,从而成为学生评估自己阅读和写作的语言。如果课堂评估的语言意味着对任何特定文本都有几种解释,那么学生在评估自己的解释时就会获得信心,并重视课堂上的多样性。另一方面,如果课堂评估的语言意味着阅读和写作可以简化为一个简单的质量连续体,那么学生将只根据自己在这个连续体中相对于其他学生的位置来评估自己的读写能力,而不会对自己的阅读和写作实践进行有效的反思。

当老师写成绩单时,他们面临着语言上的困难。他们必须在严格的时间、空间和格式限制下,找到能够代表学生文化发展的词语。他们还必须在可能阅读报告的家长、学生和管理人员之间的不同关系和文化背景下完成这一点。一些教师面临着将关于每个学生发展的广泛而复杂的知识简化为一个单词或字母。这种情况使他们面临非常困难的道德困境。事实上,教师对学生的读写能力了解得越多,这项任务就变得越困难。

但不仅仅是课堂评估具有解释性。公众从提供的数据中“阅读”学生、教师和学校。父母根据他们自己的教育经历、信仰和价值观来理解考试分数、成绩单评分或评论。考试成绩看起来可能是“科学的”和“客观的”,但它也必须被解释,这总是一个主观的和有价值的过程。

随着时间的推移,人们讨论学生读写能力发展的术语也发生了变化。例如,在近代史上,被认为识字有困难的学生被贴上了不同的标签,如基本作家、补救读者、弱势群体、学习障碍、差等生、挣扎学生或智障读者。这些不同的术语可能会产生截然不同的后果。被描述为“学习障碍”的学生通常与那些同样识字但被描述为“补救读者”的学生受到截然不同的对待和教学。

此外,评估本身是许多讨论的对象,讨论的语言也很重要。例如,教师的观察经常被描述为非正式的和主观的,与被认为是“正式的”和“客观的”测试结果形成对比。在使用这些术语的讨论中构建的知识与在教师观察被描述为“直接记录”和测试结果被描述为“间接估计”的讨论中构建的知识完全不同。

评估术语随着不同的小组根据不同的目的和情况的变化而变化。最近关于评估的讨论已经改变了一些以前可以合理预测的词汇的使用方式,这与我们在本文末尾所包含的词汇表的简单性相违背。例如,“规范引用”一词曾经意味着一个学生的评估数据,通常是测试数据,与其他被认为相似的学生的数据进行比较。对学生写作的一种参照规范的解释可能会断言,它“与该国20%的同龄学生的写作一样好”。类似地,标准参照评估这个术语曾经仅仅意味着学生的表现是根据特定的表现水平来解释的——要么满足标准,要么不满足。然而,最近,这些术语是如何使用的变得不那么清楚了。标准与规范之间的界限已被打破。例如,criterion最近的意思是“维度”或“有价值的特征”。Norm的用法与此大致相同。但即使在早期(也是更常见的)意义上,大多数标准的标准参照测试是通过找出一组学生在测试中的表现,然后根据一个学生通过或不通过测试的合理点来制定标准。

换句话说,评估绝不仅仅是一个技术过程。评估总是具有代表性和解释性的,因为它涉及到代表儿童的发展。评估实践塑造了我们看待孩子的方式,他们如何看待自己,以及他们如何参与未来的学习。评估是社会的,由于其后果,也是政治的。与其他此类具有社会后果的实践一样,有必要制定标准,从业人员可以根据这些标准来判断其实践的责任。

如何使用本文档

在接下来的内容中,每个标准都以带有简短解释性段落的陈述形式呈现。然后对标准进行了详细的扩展。本文以案例研究结束,说明了该标准在大规模和课堂评估中的含义。

该标准的核心前提是质量评估是一个探究的过程。它需要收集信息和设置条件,使教室、学校和社区成为探究的中心,学生、教师和学校社区的其他成员可以单独或合作地检查他们的学习和改进实践的方法。

标准1

学生的兴趣在评估中是最重要的。

各级的评估经验,无论是形成性的还是总结性的,对学生都有影响。评估可能会改变他们受教育的机会,增加或减少他们学习的动机,引发他们对自己和他人的积极或消极的感觉,并影响他们对识字、受过教育或成功的理解。评估仅仅服务于“平均”学生的福祉是不够的;我们必须让评估服务于每一个学生,而不是伤害每一个学生。

以下评估方法最有可能符合学生的兴趣。首先,评估必须鼓励学生参与识字学习,以富有成效的方式反思自己的阅读和写作,并设定各自的识字目标。通过这种方式,学生参与并对自己的学习负责,并能更好地协助教师集中教学。然而,一些评估实践,例如那些包括学生的公开比较,往往会产生威胁和防御的条件,限制学生的参与和他们对自己的表现进行有效反思的能力。英语学习者面临着双重障碍,因为他们的考试成绩往往既反映了他们对一门学科的知识,又反映了他们对英语语言的知识。在这种情况下,建设性的反思尤其困难。因此,评估应该强调学生能做什么,而不是他们不能做什么。例如,如果管理得当,档案评估可以是反思性的,让学生参与到自己的学习中,并帮助教师重新调整教学重点。

服务于学生兴趣的评估可能包括许多学生在校外创建的多模态文本,因为它们是为学生建立的目的而构建的——例如,他们如何根据自己的兴趣、最近的事件或新朋友更新他们的MySpace页面。他们在学校里创造的大多数文本都是为了老师设定的目的。如果我们为他们提供更多的机会来选择文本(无论是印刷的还是多模态的)和工具(例如Web 2.0工具),我们就有可能对他们的读写实践进行更有效的评估。

第二,评估必须提供有用的信息,以便进行反思。这些信息必须既具体又及时。关于学生知识、技能、策略和态度的具体信息有助于教师、家长和学生更深思熟虑地设定目标和计划教学。关于学生的困惑、适得其反的策略和局限性的信息,也可以帮助学生和教师反思和学习学生的阅读和写作,只要这些信息是在明确描述他们可以做什么的背景下提供的。同样重要的是,评估应提供及时的资料。如果不立即提供信息,就不太可能被使用,也不太可能有用,因为需求、兴趣和愿望通常会随着时间的推移而变化。在任何一种情况下,影响和促进学习的机会都可能被错过。

第三,评估必须提供高质量的信息。当任务太难或太容易时,当学生不理解任务或不能遵循指示时,或者当他们太急于能够做到最好,甚至是他们的典型工作时,信息的质量就会受到怀疑。在这种情况下,学生不能尽最大努力或展示他们所知道的。例如,研究人员发现,修改或简化测试项目的语言始终能提高英语学习者的成绩,而且不会牺牲测试的严谨性。要求学生花费时间和精力在不能产生高质量、有用信息的评估任务上,会导致学生失去宝贵的学习时间。这种损失不符合他们的利益,因此构成无效的做法。

值得注意的是,许多课堂水平的评估也未能满足为学生服务的标准。无论任何特定评估的来源或动机是什么,州、学区、学校和教师必须证明评估实践如何对学生个体有益,而不是有害。

这一标准规定,如果一种评估方法不符合任何学生个人的利益,无论这种方法是用于个人或团体的管理或决策(就像用于向教师施加问责压力的测试一样),那么这种方法对该学生无效。那些负责要求评估的人有责任证明这些评估实践是如何对学生个体有益的,而不是有害的。

传统上,由小组管理的机器评分考试并没有鼓励学生建设性地反思他们的阅读和写作,没有提供具体和及时的反馈,而且通常也没有提供关于学生的高质量信息。因此,它们似乎不太可能为学生的最大利益服务。然而,如果他们能够为学生提供及时、高质量的信息,情况就不必如此。

评估工具或程序本身并不是本标准的唯一考虑因素。它们的使用环境也同样重要。事实上,对学生来说,最有成效和最有力的评估可能是发生在课堂日常活动中的形成性评估。要最大限度地提高这些课程对学生的价值,并将它们对任何一个学生造成损害的可能性降至最低,可能需要在员工发展方面进行投资,并创造条件,使教师能够反思自己的实践。类似地,当教师在课堂教学方法方面有专长时,通过作品集进行评估可能会很有效,但当在高风险的多项选择测试中有表现压力时,就不行了。这并不是说在课堂上满足这一标准的投资组合评估在高风险评估(如问责性评估)的背景下也不能满足这一标准。

标准2

教师是最重要的评价主体。

大多数教育评估都是在教室里进行的,老师和学生互相交流。教师在课堂上设计、分配、观察、协作和解释学生的作业。他们为互动赋予意义,并评估他们在这些设置中接收和创建的信息。简而言之,教师是评估信息的主要代理人,而不是被动的消费者。主要影响学生学习的是他们持续的、形成性的评估。本标准承认教师的关键作用以及伴随这一作用的后果和责任。

无论他们使用测试、工作样本、讨论还是持续观察,教师都能理解学生的阅读和写作发展。他们阅读这些不同的文本,口头的和书面的,学生写的,是为了建立对学生作为有文化的个体的理解。他们对学生阅读或写作的理解通过口头或书面评论传达给学生,并转化为课堂上的教学决策(例如,后续作业,分组教学)。由于这些重要的后果,教师必须意识到并考虑他们作为评估者的角色。

这项责任需要相当多的专门知识。首先,除非教师能够认识到学生各方面表现的重要性,例如某种特定的错误或行为,否则他们将无法相应地调整教学。他们必须知道在孩子的识字行为中应该注意哪些标志。这需要对阅读和写作的技能和过程有深入的了解,并对自己的读写实践有充分的了解。因此,教师本身就是读者和作者,从内到外理解这些过程是很重要的。教师在阅读和写作方面的知识越多,对学生的读写行为越能观察,他们的评估就越有成效。尤其重要的是,与英语学习者一起工作的教师必须掌握必要的特定知识和技能,以识别学生的熟练程度,并帮助他们完全识字。

其次,教师必须有系统评估的程序,以确保每个学生都能从教学中获得最佳收益。

第三,由于需要这种水平的专业知识,而且形成性评估的质量对教学质量有很强的影响,提高教师的评估专业知识需要持续的专业发展、指导和进入专业学习社区。培养这样的社区必须是改进评估的优先事项。教师需要在公共论坛上与同行分享、讨论和批评自己的工作时感到安全。这些条件鼓励学习和减少个人偏见影响所必需的多角度参与。

第四,作为评估的代理人,教师必须有责任对学生的成就和进步做出和分享判断。它们不能服从他人或其他工具。与此同时,其他人必须信任和支持教师的判断。当学校社区的组织方式为评估过程带来多种视角,并反对任何固有的偏见时,这种信任和支持就会得到培养(参见标准5).

第五,课堂上的大部分评估信息都是在学生的阅读和写作讨论中提供的。例如,当学生就一本书进行对话时,老师可以听到他们理解的过程。除非教师能在孩子们之间引发这样的对话,否则这些信息根本无法获得。

与标准化考试的制定者不同,教师在进行有效评估方面处于独特的地位。因为他们最接近学生的学习,他们有机会随着时间的推移进行许多详细的观察。例如,使用课堂组合可以降低学生“糟糕的一天”表现会不适当地影响教师对该学生整体素养的结论的可能性。课堂组合还允许在更多样化和更具代表性的情况下进行更广泛的观察,从而增加评估的有效性。教师可以根据个别学生、教学计划和社区期望的特点调整评估,也可以使用评估来反映他们自己教学实践的有效性。

从表面上看,商业测试似乎提供了教师课堂评估可能缺乏的客观性。事实上,我们对语言的理解表明,不可能构建一个公正的读写能力测试。较少偏见的评估曲目的基础是教师的学习知识和读写能力。这种评估能力的基础是对学生个人和阅读、写作的深入而多样的知识。教师对读写能力的总体发展了解得越多,更重要的是,对个别学生的读写能力发展了解得越多,他们就越能深刻地理解学生的读写实践,也就越能更好地提供适当的教学。

教师的知识不能被标准化的考试所取代。任何一次性的评估程序都无法捕捉到教师所拥有的信息的深度和广度。即使进行了广泛使用的商业测试,教师也必须充分利用他们对考试内容和学生个体的全部知识,以理解这种测试提供的有限信息。一个对读者和作者所使用的技巧范围了解甚多的老师将能够为学生和其他听众提供关于学习的具体的、有重点的反馈。事实上,学生们从老师的反馈中了解了自己和读写能力,这是任何标准化测试都无法提供的。大多数标准化考试都是在学生之间进行比较,而教师的评论可以是具体的、个性化的,可以清楚地了解每个学生的特殊优势和劣势。然后,学生们可以在自我评估中使用这些反馈。当学生能够进行自我评价时,他们更有可能掌握自己的识字学习。

标准的3

评估的首要目的是改善教与学。

评估在教育环境中用于各种目的,例如跟踪学习情况,诊断阅读和写作困难,确定项目的资格,评估项目,评估教学,以及向他人报告。所有这些目的的基础是改善教与学的基本关切。在美国,用考试来问责是很常见的,但最终的目标仍然是改善教与学。同样,我们使用评估来确定特殊教育服务的资格,但目标是为特定的学生提供更合适的教学和更好的学习。在这两种情况下,如果教学和学习没有改善,评估实践是无效的。

如果一个教育评估实践被认为是有效的,它必须告知教学并导致教学和学习的改进。这样,评估问题就变成了设定条件之一,使教室和学校成为探究的中心,学生和教师在这里调查并改进自己的学习和教学实践,无论是个人还是作为学习团体。这反过来要求教师、学校和学区不仅要利用评估来反思学习和教学,而且要不断地、批判性地检查评估过程本身及其与教学的关系。无论评估程序提供的数据多么详尽和精确,它的解释、使用或使用的背景都可能使其在改善教与学方面变得无用或更糟。例如,在使用非常有用的评估数据进行指责的环境中,可能会导致防御,而不是解决问题和提高学习能力。

确保评估能改善教与学,不是简单地设计工具以产生更高质量的数据的技术问题。至少同样重要的是进行评估的条件和评估实践所产生的气氛。有时,我们选择的语言框架评估分散了我们从这个标准。我们认为,人们普遍表达的对“更高标准”的需要,更应该表达为对更高质量教学的需要,因为如果没有更高质量的教学,更高的标准就意味着剥夺更多的学生获得课程和机会的机会。因此,评估的核心功能不是证明是否进行了教学或学习,而是提高教学和学习的质量,从而增加社会所有成员获得全面和批判性素养的可能性。

标准4

评估必须反映并允许对课程和教学进行批判性的探究。

良好的教育实践始于重视复杂读写能力的课程、培养复杂读写能力的教学实践和充分反映复杂读写能力的评估。为了使评估能够对课程和教学进行有效的探究,它必须反映课程的复杂性以及学校的教学实践。这一点尤其重要,因为评估会影响教学、学习和政策。反映扫盲贫乏观点的评估将导致课程减少和教学扭曲,不能有效地解决问题或改进教学。因为评估塑造了教学,评估的利害关系越高,它就越重要,它反映了这种完整的复杂性。

对课程、教学和评估的批判性探究在各个层次都很重要。决策者,不少于教师和学生,必须清楚地了解课程和教学实践,以便做出明智的决定。基于严格限制或扭曲的信息或未经检验的假设的决策将是糟糕的决策。

两大问题困扰着对课程、教学和评估的研究。首先,许多地区指导课程的阅读和写作标准往往是碎片化的,而不是体现其复杂性。他们还经常忽略读写能力的重要方面,如自主学习、质疑作者的偏见、观点转换、多种读写能力、围绕读写能力的社会互动、元认知策略和读写能力倾向。此外,即使标准更接近于代表复杂识字的这些特征,高风险评估也很少涉及难以衡量的标准,而是选择使用廉价的测试格式来关注更容易和更方便的评估内容。例如,那些在许多内容标准中强调写作清晰、关注听众、生动的语言、修订和对主张的有力支持的教师,很少在高风险测试中充分反映这些品质,或者他们发现这些标准是通过侧重于机制或惯例的项目来评估的。同样,在课堂教学中被敦促形成观点并支持自己观点的学生,也需要进行相应的评估,而不是通过不允许创造性或发散性思维的测试。

第二个相关的问题是评估对教学的影响。参见标准7).与高风险测试相关的压力以及某些形式的进度监测将注意力集中在实施具体的课程计划、干预或教学方法上。教学实践应该受到质疑,比如为那些表现略低于标准分数的学生(“泡泡孩子”)提供额外支持,但不为那些明显低于标准分数的学生提供额外支持,或者努力提高阅读率而不考虑理解能力。还必须考虑其他衡量学习机会的措施,如教师获得持续专业发展的机会,以及学校与当地社区联系的资源的可用性。

与教师和学生一样,政策制定者和管理者也有责任理解全面和批判性读写能力的复杂性和重要性,以及培养这种能力的教学性质。他们必须认识到,考试虽然有时是必要的,但往往不是捕捉教与学微妙之处的最佳评估程序。他们必须认识到测试结果所掩盖或未能评估的内容,以及它们所揭示的内容。为了公众利益,他们不能让考试分数透露超出他们能力范围的信息。数百项研究表明,父母的教育水平或社会经济地位等非学校因素对学生成绩的影响比学校因素更大。没有充分反映复杂的读写能力模型的测试向教师和学生传递了一种误导性的信息,即社会所重视的阅读和写作类型。

总而言之,如果不对具体评估和课程之间的联系进行批判性的调查,就很难知道一项评估是否充分代表了读写能力,甚至很难知道它是否代表了它所打算代表的标准的有效衡量。

标准5

评估必须认识和反映阅读和写作在智力和社会方面的复杂性,以及学校、家庭和社会在读写能力发展中的重要作用。

读写能力是复杂的、社会性的、不断变化的。今天高中毕业生的文化水平在他们刚开始上学时是难以想象的。在学校之外,学生生活并将继续在媒体文化中工作,这些实践与目前在学校发生的不同(甚至在学校媒体中心的设置中)。学生需要掌握文字处理器、博客、维基、Web浏览器、即时消息、listservs、公告板、虚拟世界、视频编辑器、演示软件和许多其他识字工具和实践的能力。传统的、简单的识字定义并不能帮助学生为现在的识字生活做好准备——更不用说未来了。因此,阅读和写作不能有效地作为一组孤立的、独立的任务或事件来评估。为了教学和评估的目的,收集有关学生使用的材料、任务和媒体的具体信息是至关重要的。此外,我们需要评估实践是如何被用来参与更广泛的媒体文化,以及更广泛的文化是如何将某些实践的地位赋予其他实践的(例如,在语言艺术课上,发短信与写段落摘要的对比)。

无论哪种媒介,识字都是社会性的,涉及作者和读者就意义、目的和语境进行协商。识字练习现在很少是单独的认知行为。此外,文化实践在不同的社会和文化背景以及不同的媒体中也有所不同。学生在一个环境中的行为可能完全不能代表他们在另一个环境中的行为。对于英语学习者来说尤其如此,他们在课堂上可能缺乏流利的表达能力,但在家庭和社区中可能是活跃的贡献者。

在学校环境中,教学和评估应被视为高度互动的过程。例如,学习情况的各个方面与文化和家庭环境相互作用,影响学生的学习和动机。这些社会情境塑造了教师和学生的目的,影响了学习情境中存在的条件和约束,并影响了学生从事阅读和写作活动的动机。在学校教育的社会背景下,影响学习和表现的因素有很多。这些因素包括活动类型、管理效率、分组模式、教师和学生的期望和信念、课堂互动和课堂环境。此外,与教学相关的因素,如内容、任务和材料,都影响识字学习。

评估工作的质量和适当性在很大程度上取决于对这些复杂性的考虑程度。如果评估对学生的读写能力产生不完整或扭曲的描述,那么评估的质量就会很低。文本的特征、任务、情境和目的都会对学生的表现产生影响,在任何给定的评估情境中,只有阅读和写作的某些方面会被捕捉到。正式的测试需要比现在的测试要复杂得多。能够容纳多种反应、不同类型的文本和任务以及态度和动机指标的测试,对于全面了解读写能力成就都是必不可少的。在可能的情况下,评估必须明确用于评估目的的文本、任务和情境的类型,并注意到学生的表现是否以及何时因文本质量、任务类型或情境的变化而得到改善。

为了达到这一标准,我们必须减少对一次性评估实践的依赖,而更加重视对持续课堂表现的评估,假设课堂课程能够充分开发识字学习的复杂性。最后,在解释和报告评估信息时,应包括关于评估任务和文本以及教学情况的描述性信息。考虑到所涉及的任务的复杂性,将阅读和写作成绩降低到一个字母或数字的等级是不可接受的。

标准6

评估必须公平公正。

我们生活在一个多元文化的社会,法律承诺人人享有平等权利。我们的学校社区必须努力确保所有学生,无论他们的文化、种族、宗教、语言和经济背景如何不同,都能接受公平公正的教育。评估在确保公平和公平方面发挥着重要作用,首先是因为它与课程、教学和学习密切相关,其次是因为评估提供了一种看似公正的方式来决定谁应该和谁不应该获得教育机构和资源。因此,为了公平起见,评估必须尽可能避免基于种族、性别、国籍、宗教、社会经济状况、性取向或残疾的偏见。此外,评估必须帮助我们面对学校教育中存在的偏见。

在过去,标准化考试被视为一种避免教师评价中文化和个人偏见的手段。然而,正如不可能消除教师的偏见一样,也不可能对阅读或写作进行公正的测试。语言本身包含着不同文化的社会习俗。此外,词语在不同的文化中有不同的含义,在文化、经济和地理不同的情况下,生活经历的差异可能相当极端。因此,学生们对所阅读的文本的解读、他们觉得舒服的写作主题以及他们对不同形式的评估的反应方式都存在巨大差异。高风险测试对课程的扭曲效应在人口亚群体中的分布也不均匀。在美国,有大量贫困学生的城市学校比更富裕的郊区学校更容易受到高风险考试缩小课程范围的压力。

尽管存在不可避免的偏差,但当必须使用测试时,应尽可能多地控制偏差。在可能的情况下,评估应该用一种不会影响个人表现的语言来完成。评估实践不应贬低方言的文化差异。学生有权学习主流文化的语言,因为这是权力的语言。然而,学生不应该因为使用母语而在评估中受到惩罚,因为没有特别要求他们使用特殊的方言。评估还必须考虑到基础语言和学术语言之间的差异,以及学生需要熟练掌握每种语言的时间长度。

偏见经常出现在评估和它们所代表的课程中。例如,所有学生都应该学习和评估来自其他文化的文学作品和知识。如果做不到这一点,就会产生文化偏见。然而,由于评估的结果,还有其他的偏见经常发生。那些一开始在读写能力习得方面不如其他学生成功的学生,往往会发现他们的课程缩水,变得不那么吸引人,也不那么拓展思维。这种形式的偏见通常也与学校之间的经济差异有关,它通过降低学生获得读写能力的广度和复杂性来延续这些差异。允许对课程进行批判性调查的评估是这种常见但可避免的不平等的重要解药,也有助于使制度偏见变得清晰和公开。

大多数偏见都是我们的文化背景带来的观点的一部分,所以我们往往不会注意到自己的偏见。我们必须努力让考试行业、政策制定者、管理人员和教师——所有负责创建和解释考试的人——反映和尊重我们社会的多样性。与此同时,在评估问题上采用多种观点尤其重要(见标准8)。认真对待测试偏见的一种方法是确保在公共测试的构建中充分和多样化地代表文化、种族、语言和经济上不同的群体。通过这种方式,测试偏差应该变得明显,并且一旦识别出来,就更容易减少。消除偏见的第二个重要方法是在考试后向公众开放。消除偏见的第三种方法是确保不使用单一的评估来做出重要的教育决策(见标准8)。

不适当的评估也会加剧学校教育的不公平。例如,大规模的、以课堂为中心的评估实践,往往会导致学生被安排在不同的教学环境或项目中,目的是在学生和课程之间产生更好的匹配。这导致了一个重大的股权问题。一方面,更好的教学匹配是可能的,但另一方面,教师和学生本身的期望可能会有所不同,甚至可能会降低。一旦学生们被系统地分配到不同的课程,在随后的经历和工作中,不平衡的机会不仅是可能的,而且是很有可能的。

评估的其他用途也会产生不公平。例如,在个别地区或特定地区的不同学校环境中,关于使用考试的外部压力往往不同。这在大城市尤其普遍。同样,在一些地区的报纸上,一种常见的做法是按地区、学校甚至教室来报道学生的平均考试成绩。由于个人和企业不愿意搬到学校考试成绩较低的地区,这些社区的税基和经济资源受到侵蚀,结果是经济压力大的学校系统变得更加严重。教师的压力也增加了,这造成了更大的教师流失,使高需求学校的教师队伍缺乏经验。

在评估时,我们必须确保关注相关的能力。例如,应制定规定,确保对第二语言学习者的评估方式允许他们展示他们知道什么和能做什么,同时考虑到发展基础语言和学术语言所需的时间。对于被归类为阅读障碍的学生来说,情况就不那么明朗了。在美国的一些州,对这些学生大声朗读他们的阅读评估被认为是合适的。这种做法似乎是公平的,但是它使得有效的查询不可能,因为评估不再代表结构“阅读”。

我们还必须记住,虽然考核在确保公平和公平方面发挥着重要作用,但公平的目标不能完全依赖于考核。任何评估实践都无法弥补教育经历上的差异,这种差异是由极端贫困和极端富裕的明显不平等条件引起的。

标准7

评估程序的结果是确定评估有效性的首要和最重要的考虑因素。

测试、检查表、观察时间表和其他评估不能脱离其使用环境进行评估。如果设计了一种完全可靠和全面的读写能力测试,但使用它会占用孩子们三周的学习时间,并占用一半的年度教学材料预算,我们将不得不权衡这些后果与使用该测试所获得的价值。如果它的使用导致教师围绕数据建立一个富有成效的学习社区,并在他们的教学中做出重要的改变,我们也必须权衡这些后果。该标准基本上主张“环境影响”预测,以及对评估实践的后果进行仔细、持续的分析。这一标准的责任在于整个学校社区,以确保评估不会以对学校和学生产生负面影响的方式使用。任何对教与学没有积极贡献的评估程序都不应使用。

通过断言程序不能在其使用的上下文中进行评估,该标准将评估、教学和学习重新放在一起。它断言,简单地设计一个更详细或更复杂的测试本身不会产生更有效的评估。如果一个评估程序对学校社区、学校社区的部分或个人有不利的动机后果,那么该程序是无效的。

评估的不良后果可能以多种方式出现,例如以下例子:

  • 评估技术非常公开地只重视狭窄范围的读写活动或非常控制的阅读和写作形式(与更批判性的读写能力相反),这迫使学生的课程范围缩小。通过高风险的问责测试,这种情况在美国经常发生。课堂评估实践也有同样的效果,有时是高风险测试实践的结果。例如,当课堂评估侧重于工作表和多项选择测试时,当对学生写作的评估反馈侧重于拼写和语法而不是学生的思维、实质内容或组织时,当课堂评估集中于阅读速度时,就会发生这种情况。
  • 制度强制的商业评估减少了教师进行更具指导性的信息评估的可用学校资源。
  • 注重排名或评分而不是表现的报告程序会将学习者的注意力从学习过程中转移开,将他们对识字习得的概念简化为简单的线性连续,破坏协作学习社区,使学生和教师产生防御性,从而抑制学习。

谈论评估的不同目的并引用评估必须与预期目的相匹配的原则是很常见的。实际上,这在很大程度上被忽视了。测试发布者声称他们的测试是有效的,而不管测试的用途是什么。根据我们所了解到的,由教师、管理人员和政策制定者制定的考试影响学生课程决策的方式,在这个标准的框架内,“用户小心”的态度是不可接受的。如果评估被用于高风险的目的,例如让人们公开问责,那么它们应该完全一致,而不是简单地描述用于向教师和学生提供课堂进步知识的评估程序。他们必须认识到当今社会读写能力的复杂性(见标准5),并反映出课程。

当我们选择评估实践时,这个标准对我们的优先级有影响。例如,当教师观察并记录学生的口头阅读行为,并将这些信息用于指导教学时,从技术意义上讲,这些数据可能不像标准参照测试那样可靠。然而,在教师专业知识的背景下,他们更有可能产生富有成效的后果。通常评估是选择技术测量属性,而不是为学生和教师的生产性后果的可能性。

标准的8

评估过程应该涉及多个角度和数据来源。

完美的评估和完美的评估员并不存在。每个参与评估的人对阅读和写作的教与学的解释都是有限的。同样,每个文本和每个评估程序都有其自身的局限性和偏见。尽管我们不能完全消除来自人员或测试的这些偏见和限制,但我们可以尝试确保它们保持平衡,并且所有涉众都意识到它们。决策越重要,寻求不同的观点和独立的数据来源就越重要。例如,关于专业安排或资格的决定对学生的生活和学习有深远的影响。这样的决定太重要了,不能基于单一的测量、评估工具或观点来做出。

由于读写能力及其习得的复杂性(见标准5),在评估阅读和写作时,对多种指标的需求尤其重要。单一的衡量方法可能会对个人或群体产生误导或错误。例如,定时的作文写作测试可以大大低估英语学习者在自然条件下的写作能力,因此,基于这种测试结果做出的教学决策将阻碍他们的教育进步。另一方面,多个数据源可以在解决问题时进行三角测量。数据来源可以包括在不同情况下或由不同的人在不同时间进行的观察,或来自不同评估工具的数据。然而,来自多个同类评估工具的数据(例如,一系列标准化测试)将不符合这一标准,因为这些测试通常反映了类似和狭隘的识字观点。同样,即使是新的数据也可以用旧的眼光来看待。除非有不同的观点和价值观来对待数据,否则我们的理解可能无法扩展。即使是最丰富的一组数据也可以通过有限的视角简化为仅仅的惯例。

从更统计的角度来看,当有多个机会观察阅读和写作时,评估数据解释的可靠性可能会提高。遵守这一标准还将大大提高读写能力评估过程的有效性,因为对读写能力的多个方面进行抽样,可以更接近阅读、写作、听力和口语过程发生时和在现实生活中使用时的复杂性。

然而,寻求多个角度和数据来源并不仅仅是为了减少单个数据源的偏差或错误。相反,它利用了不同评估视角所提供的理解深度,以及它们所产生的对话和学习。两位具有不同文化或语言背景的教师可能会以不同的方式解读学生的读写能力发展,每种方式都提供了一个重要的视角。的确,由于识字学习在本质上也是社会性的,这两位教师的不同解读将导致不同的发展。对这些不同观点的探索不仅会导致对特定学生发展的更有成效的理解,而且还会增强对其他学生发展的可能解释的意识,以及发展意味着什么。

标准9

评估必须以当地学校学习社区为基础,包括家庭和社区成员的积极和必要的参与。

教师是评价的主要代理人,课堂是最重要的评价实践场所,而最有效的评价单位是当地学校的学习社区。首先,社区的集体经验和价值观可以为创新和多元视角提供一个传声筒,以提供深入的理解,并对抗个人和文化偏见。第二,各方参与评估鼓励它们之间建立合作和承诺的关系,而不是敌对的关系。第三,因为语言学习不局限于学校里发生的事情,所以评估必须超越学校课程。

当地学校的学习社区也比学区、县、州、省或国家等更大的单位更适合作为评估的基础。这些较大的单元不能提供学习社区所必需的关系可能性和承诺。与待解决问题的距离和参与者之间的距离降低了参与感和承诺感的可能性,并增加了评估仅仅成为一种指责手段的可能性。

在学校社区作为探究中心的情况下,视角的多样性不仅可以作为单个教室和教师的增长来源,而且可以作为教师、管理人员以及更广泛的利益相关者的增长来源。观点的多样性带来了深入的理解和富有成效的问题解决,面对面的参与带来了对评估问题的个人知识以及个人投资。如果教师能够做出明智的评估,并能很好地表达出来,这在很大程度上是因为他们参与了关于学生阅读、写作和学习的对话,并得到了更大的社区的支持。为了让学校社区有效地做到这一点,有必要进行自我检查,并将与社区一起学习作为优先事项。

为了发挥探究中心的作用,学校必须与社区建立信任关系。这种关系通常通过社区的所有成员参与、平衡权力和承认不同的观点来发展。因为在大型学校的背景下建立这样的关系几乎是不可能的(其等级结构阻碍了反思、讨论和询问所必需的开放性),可管理的校内学校成为一种值得考虑的重要可能性。

学校有责任帮助家庭和社区成员了解评估过程,以及在详细描绘学习情况时有用的工具范围,包括学生个人是如何学习的,以及学校是如何努力支持学习的。这一教育过程的一部分还必须是帮助家庭和当地社区了解最有效和最适当地使用各种评估工具,包括大规模标准化成绩测试。

必须有这样一种风气,即教育者也是学习者,特别是关于他们在学生学习和学校运作中所扮演的角色。为了让教育工作者从他人的角度学习,学校社区负有特别的责任,以确保其所有成员都充分参与评估过程。由于文化差异、语言障碍或他们自己的教育经历,许多父母和照顾者不愿意表达他们的担忧。学校社区有责任创造条件和评估程序,使人们能够舒服地这样做。

随着家庭更全面地参与学校和评估,他们对孩子的发展更了解,也更能观察到。这种参与使他们能够更加支持孩子的学习和教师的努力,并引导他们更清楚地表达他们对孩子进步的担忧。当家庭密切参与评估过程时,他们就不太可能让文化或种族偏见干扰他们确定孩子学习情况和学校表现的努力。此外,当管理人员、家庭和公众一起参与评估问题时,信任关系可能会演变。有了信任关系,学校社区的成员可以面对局限性和弱点,也可以认识到他们的课程和评估的优势。

家长和照顾者对孩子的学习情况非常了解,并有一个重要的视角来加入当地关于评估的对话。学校必须让家长和当地社区参与对话,讨论他们对孩子们使用阅读和写作的方式的目标,以及阅读和写作在社区中的使用方式。当家长和当地社区密切参与学习评估时,他们能够更好地理解所报告的评估信息,并能够更好地支持儿童的识字学习。

标准的10

教育界的所有利益相关者——学生、家庭、教师、管理人员、政策制定者和公众——必须在评估信息的制定、解释和报告中有平等的发言权。

本标准中提到的每个组成部分在评估中都有利害关系。学生们之所以担心,是因为他们的识字学习、他们对自己是有文化的人的概念,以及他们随后的生活和职业质量都处于危险之中。教师对学生的理解、他们的专业实践和知识、他们对自己作为教师的看法,以及他们的工作生活质量和社会地位都处于危险之中。家庭显然对孩子的学习、幸福和教育未来有投资。公众在教育上投资,在一定程度上是对未来的投资,并与保持投资的质量有利害关系。投资管理涉及管理人员和政策制定者。评估总是充满价值的,在民主社会中,参与评估的各方的持续参与是必要的。当任何一个角度缺失,沉默,或特权高于其他,评估画面是扭曲的。

最接近学习过程的利益相关者——家庭、教师、学生和当地社区——最熟悉孩子学习的细节,也最适合观察和记录构成学习的微小但重要的步骤。这些在学习过程中的亲密参与者可以了解到孩子随着时间的推移而成长的信息,孩子如何在学习过程中发展技能,从而在未来学到更多的知识,以及孩子如何在新情况下应用之前的知识。根据大多数国家的公法,政策制定者有责任确保公平和防止地方不公正。

然而,当政策制定者制定了推动当地评估和教学过程的实践时,其他利益相关者的声音很容易被压制,评估就会被那些很少与学生或教师定期接触的人制定的程序所主导。政策总是优待某些形式的读写能力,而不是其他形式的读写能力,但今天优待的形式通常排除了孩子们越来越多地使用的类型和方式——网页、社交网站、短信等等——这些都是学校以外越来越多的要求。如果评估的内容和方式能适应学生对非印刷媒体的兴趣,就有可能获得更多关于传统评估、甚至大规模评估的有效数据。

当笼统的评估工具,如国家规范的、国家规定的标准化成绩测试,被置于其他评估形式之上时,家庭、教师和学生的重要观点就被压制了。在这种情况下,评估变成了学生和学校的事情,而不是与学校和当地社区的共享对话。当对学校进行评估时,就会形成一种敌对关系,教师和学校管理人员专注于如何以牺牲学习为代价提高考试分数。当笼统的评估工具与惩罚性后果相结合,以努力让学校对高标准负责时,评估对话就演变成一场“我们对他们”的比赛,学习者是输家。

对这种感觉的普遍反应是拒绝评估程序的价值和可信度。与此同时,控制评估的人和感觉被评估控制的人之间的关系出现了破裂。相比之下,各个参与者在评估过程中感受到的所有权越多,他们就越重视自己和他人在评估过程中的利益,质量评估的可能性就越大。

新技术要求我们改变对识字的定义,并为评估和报告学生学习信息提供了新的机会。电子档案、数据仓库、基于网络的评估工具和其他数字创新应该促使所有利益相关者进行深思熟虑的对话,以确保评估信息继续为教学提供信息,并反映当地社区的价值观、学生和教师的需求以及更大社会的需求。

标准11

家庭必须作为积极和重要的参与者参与评估过程。

在许多学校,家庭都站在学校社区的边缘,有些人感到绝望、无助和不受欢迎。然而,家庭对孩子在学校的进步了解得越多,他们就越能为这种进步做出贡献。如果教师要了解如何最好地帮助来自不同文化背景的孩子,家庭是一个特别重要的资源。家庭必须成为并得到帮助成为评估过程的积极参与者。

今天的公共教育的特点是学区之间的资金资源不平等,家庭对学校活动各方面的参与不平等。第一个特点主要是各学区在设施、资源、教学质量、学习质量和有利于有效教与学的健康环境方面的不平衡。第二个条件在很大程度上导致了生产性学校和非生产性学校之间的差异。可以说,最有效的学校在管理和活动的各个方面都有家庭的高度积极参与。然而,经济状况和家庭参与密切相关。

家庭参与评估与课程、教学和学习密不可分,包括以下内容:

  • 父母和其他照顾者应该了解评估。由于他们自己的教育背景,许多家庭认为成绩单成绩和多项选择考试的测试结果是衡量孩子的表现、知识基础和成就的最有成效和最有信息量的衡量标准。他们需要了解评估的各种可能性,这些可能性对理解和帮助孩子的发展有什么帮助,以及各种评估形式的使用和误用。
  • 家庭应该积极参与评估过程和学校社区治理的所有其他方面。
  • 家庭对他们孩子的发展和情况有宝贵的知识,可以帮助评估过程。在所有学校社区中,分享这些知识是很重要的,也是值得鼓励的。
  • 家庭应该设法对孩子的成长有更多的了解。

仅仅纳税并不构成家庭参与子女教育。教师需要家庭对孩子的了解,学校社区需要家庭为解决学校问题(包括评估)带来的多样化视角。家庭和学校都有责任让家庭参与进来。家庭必须设法参与其中,学校必须组织起来,将家庭纳入评估和员工发展计划,并积极寻求家庭的参与。对于经常被整个社会,特别是被学校系统边缘化的家庭来说,这一点尤其重要。新家庭可能需要额外的支持,以帮助他们了解学校文化和期望,并使他们能够获得经济和社会服务。

让家庭参与评估过程包括让他们参与员工发展或社区学习项目,在这些项目中他们学习更多的阅读和写作。它还包括在学校和家庭之间使用沟通和报告程序,使家庭能够以富有成效的方式与孩子谈论他们的阅读和写作。让家庭参与制订新的报告程序是必不可少的,因为他们是这种报告的主要读者。

学校社区的规模和性质将对家庭参与学校的便利程度和增加家庭参与所需的资源产生影响。因此,这一标准意味着为学校提供充分和公平的资金。

案例研究1和2

全国教育监测

评估的一个重要功能是监测全国青少年教育的变化,以便各利益相关者,包括教育工作者、公众及其代表,能够采取任何必要的行动,提高教育质量。下面的案例研究提供了两个例子,美国的国家教育进展评估(NAEP)和新西兰的国家教育监测项目(NEMP)。在对这两种国家评估的描述之后,表1比较了它们满足(或不满足)评估标准的方式。

案例1:美国国家教育进步评估

NAEP是一项广泛的测试,涵盖了设计者认为合适的教育领域,包括数学、阅读、科学、写作、艺术、公民学、经济学、地理和美国历史。这项测试对于单个学生来说太大了,然后被分解成更小的重叠测试。自1969年以来,这些测试每四年对具有代表性的9岁、13岁和17岁学生进行一次。四年周期被认为是适当的,因为短期的系统性变化被认为相对不太可能。

这些测试包括多项选择题和扩展答案题,由专门为此目的聘用和培训的人员管理。抽样系统的设计是为了在全国范围内具有代表性,但在结构上故意不允许在州、学区或城市之间进行比较。这种比较被认为可能会增加所涉及的利害关系,从而鼓励人们从事诸如“应试教育”之类的活动,这将影响结果在多大程度上能够有效地反映总体成就。

NAEP结果以比例分数(0-300或0-500,取决于主题)的形式呈现给公众,并通过国家报告卡以5%的百分比呈现。媒体和政客们关注的是业绩的得失。这些数字仍然相对抽象,因为只有一小部分物品被公开供公众审查。这项长期趋势评估测试的项目结构自1971年以来一直是一致的,因此可以随着时间进行直接比较。参与是强制性的,抽样包括公立和私立学校,尽管2004年私立学校的样本太小而无法报告。

1990年,政客们认为各州之间进行比较是个好主意,于是把精力转移到开发第二次NAEP测试上。这第二次考试,现在被称为“主要NAEP”,只在公立学校的4年级、8年级和12年级进行。它允许州与州之间进行比较,并在试行的基础上对大城市地区进行比较。它每两年进行一次,大约每十年改变一次,以反映课程的变化。考试内容包括科学、数学、阅读和写作。它们都是用英语管理的。一些学生因为各种原因被排除在外。虽然参加州级测试是自愿的,但2001年的《不让一个孩子掉队法案》(No Child Left Behind Act)要求获得“第一标题”资助的州参加阅读和数学测试。测试项目包括多项选择题、扩展答案和简答问题,结果以缩放分数表现水平和由切割分数确定的成就类别(基本、精通和高级)报告。这些都是由媒体向公众报道的,尽管似乎大多数收到信息的人都不知道缩放分数或类别的含义(即,“精通”意味着什么)。

案例2:新西兰国家教育监测项目

NEMP在四年周期内对全国学生进行抽样,以评估全国课程的15个不同领域:艺术、音乐、口语、听力、视觉、健康和体育、科学、阅读、写作、数学、信息技能、图表、表格和地图、社会研究和技术。知识、技能、动机和态度都要进行评估。评估包括涉及学校课程之外的材料的项目,以便监测国家课程中任何变化的影响。学生在两个关键的过渡时期进行英语评估,第4年(8 - 9岁)和第8年(12-13岁)。在Mäori Medium设置中,仅在第8年进行评估。在评估任务的设计和管理中,要考虑到语言、文化、性别、能力和残疾方面的一系列差异。实际上没有例外。

几乎所有项目都是基于学生的表现,要求学生在训练有素的教师考试管理员的支持下,在五天内完成三到四个小时的任务。任务的选择是有意义的和愉快的,以确保学生的最佳参与和他们的能力的最佳图景。任务形式包括与教师-管理员一对一工作,四人小组合作工作,以及独立完成一系列实践活动或纸笔任务。有些活动被录像,并用规则打分。所有的物品都经过仔细的操作。

在NEMP中,读写能力被视为一种社会活动和一种认知活动。例如,其中一项任务是让一组四年级的学生担任图书馆委员会。给他们一套书,他们必须单独选择,然后集体选择图书馆应该购买哪些书。录像事件的评分标准包括合作过程和个人表现。

学校参与是自愿的;如果一所学校被多次选中或无法参加给定的测试,它将被最具可比性的学校所取代。因为有积极的经历,所以很少有人会换掉。该考试由一组从学校借调来的教师进行管理,他们经过培训,在六周的考试管理期后返回教学岗位。教师参与任务的开发、项目的试验、任务的管理和反应的分析,他们报告说,这种经验提供了极好的专业发展,他们回国后与学校分享这些经验。

结果以国家表现和按人口统计(如种族、性别、学校规模和特点)分组表现的形式向公众和教育工作者报告。报告结果的格式不同,以适应广泛的受众,但通常情况下,他们报告的项目类型,并引用具体的例子。公布大约三分之二的项目是为了保持透明度,此外,教师可以使用这些项目来查看他们的学生与全国样本的比较情况。

表1。与IRA-NCTE评估标准相关的国家监测案例1和2分析

案例研究3和4

学校和课堂评估:美国对干预的反应

在美国,从1975年开始,联邦政府为被认为是“残疾儿童”的教育拨出了资金。由于无法学习阅读或写作而被视为残疾的儿童被归类为学习障碍,因为预期成绩(基于智力测量)与学术测试的实际成绩之间存在差异。

这个过程中出现了几个问题。首先,被归类为学习障碍的儿童数量急剧增加。其次,不成比例的少数族裔学生被如此归类。第三,过了很长一段时间,才认为这种差异足以将这些儿童分类,并从为他们预留的财政资源中受益。在联邦《残疾人教育法》(IDEA)的重新授权中,引入了一种替代方案来解决这些问题。分配给特殊教育的资金的15%可以用于干预项目,旨在防止将儿童归类为学习障碍。前提是,在可以假定有限的成绩是由学习障碍造成之前,应尝试教学干预,以排除教学不足的可能性。

法律的实际要求很少。它要求长期监测儿童的学习情况,以确定教学是否有效(“以数据为基础的文件,以合理的时间间隔重复评估成绩,反映在教学期间对学生进步的正式评估”)。它要求教学干预是“科学的,以研究为基础的”——这一定义非常广泛。最后,它要求,为了将一个孩子归类为学习障碍,必须有程序和一个委员会(包括孩子的父母),一个相关的课堂老师,以及“至少一个有资格对孩子进行个别诊断检查的人”。

研究人员和学区以不同的方式来解决这个问题。干预反应(RTI)方法的一个家族侧重于使用干预来识别学习障碍的学生。另一类方法主要集中在防止学生需要被归类为学习障碍。下面这些案例中分别列举了这两种方法的例子,表2列出了两者的比较分析。

案例3:识别焦点

实施RTI的一种方法是使用基本早期识字动态指标(DIBELS)筛查儿童的潜在困难,以选择那些有阅读失败风险的儿童。这些孩子得到了额外的教学关注。为了确保不遗漏可能需要帮助的孩子,我们从一年级中期开始监测孩子的阅读进度,每周测量一次每个孩子在一分钟内准确阅读年级文章的单词数。文章段落标准化、规范参照,强调可靠性。在幼儿园和二年级的前半段,通过测量孩子们把一个单词分解成不同发音的速度,以及给一个字母命名和发音的速度,来监测他们的进步。训练有素的助手、特殊教育教师和学校心理学家完成大部分评估,以限制课堂教师所需的测试时间。每年年底,学生们都要接受一次全面的标准化阅读测试。八周后,如果学生的阅读速度和准确性没有得到足够的提高,或者没有得到足够的提高,就会由一位训练有素的教师助手进行小组教学。对于语速和准确性仍未提高的学生,扫盲专家会在一个较小的小组中对他们进行强化干预,增加时间。这些干预被称为层次,课堂教学是第1层,连续的干预是第2层和第3层。

根据联邦What Works Clearinghouse网站的说法,教学干预是基于一项实验研究中显示的项目,该项目可以有效地提高儿童阅读单词的速度和准确性。该项目是一个标准化的干预包,有一系列的材料和脚本教学格式。15分钟用于语音、单词识别和拼写规则和不规则单词;五分钟学习字母名称、字母发音和单词族模式;根据之前教过的声音和单词阅读10分钟的短文(3到4个单词到40个以上)。在十分钟的课程中,学生们会提出综合了字面和推理思维的理解问题,并教授如何找到答案。教师由学校心理学家监督,以确保他们忠实地执行该计划,也就是说,按照脚本。

在开始新的干预阶段之前,一个由学校心理学家指导的委员会,包括一名课堂老师、一名家长(或代理人)、校长和一名特殊教育教师,开会决定根据评估结果,下一阶段是否合适。通过阅读速度和准确性的图表和规范,家长可以随时了解情况。那些没有从这些干预中受益的学生由委员会转介到特殊教育进行个别指导(第4层),并被归类为学习障碍。不能从有效的教学形式中受益被视为学习障碍的证据。

案例4:预防重点

这种RTI方法还涉及到指令层、筛选层和监视层。在进入幼儿园时,孩子们会接受字母知识的筛选,那些知识有限的孩子从一开始就会得到额外的教学支持,因为他们假设有限的字母知识反映了有限的识字历史。通过商定的一系列指标(包括注明日期的文字)监测进展情况;字母记录,用于记录在课堂学习和一对一会议中注意到的字母、声音和相关单词的累积知识;幼儿阅读过程的记录(策略和准确性);图书难度等级数据;还有轶事记录。其中一些数据在一年级和二年级被判断写作的标准所取代,包括来自阅读的写作。通过书本讨论(小团体、大团体和个人)来评估理解能力。

这些作品集在每月一次的年级合作会议上进行审查,会议由一名识字教练主持,他有20%的时间被指定用于此类行政工作。教练是学校提高教学质量以减少额外干预需求的承诺的一部分。在每个季度末,孩子们的学习情况在由识字教练和校长领导的年级会议上进行评估,以达到年级结束的期望。这些会议包括教学计划。

核心课堂项目有差异化的小组教学,课堂教师为最低层次的群体提供额外的支持。学校有一名训练有素的识字教练,他有60%的时间与教师一起改善一级教学。第2层是由学生需求决定的小组规模、时间和教师专业知识的小规模干预,但框架与第1层和第3层一致。每一个都专注于支持意义创造和独立的互动。第三层是在一年级进行1:1的阅读恢复干预,在高年级进行1:2的小组或阅读/写作会议。(根据研究和联邦What Works Clearinghouse网站,阅读恢复是一项实验研究显示的项目,可以有效提高儿童的理解能力,更准确地阅读和拼写,并减少成为学习障碍的儿童数量。)小组干预由阅读恢复教师和接受过该方法培训的特殊教育教师进行,识字教练花20%的时间教授这些干预措施。第四层包括,作为转诊过程的一部分,由专家教练对第三层的教学互动进行仔细检查,并尝试改变那些没有充分加快处理较难文本能力的学生的教学互动。

在一年级开始时,那些在班级中排名后一半的孩子使用早期识字成绩观察调查进行评估,这是一种标准化的程序,提供了有关识字概念、知识和过程的指导有用的信息。该评估用于将学生分配到第二层或第三层。干预教师对写作、文字作业和阅读过程进行日常记录,课堂教师继续积累儿童写作作品集和阅读运行记录。在每个年级结束时都有一个综合评估。

在开始新的干预阶段之前,由校长和识字教练指导,包括课堂老师和家长(或代理人)在内的一个委员会开会审查进展和下一步。家长通过对所有学生的半年报告和干预教师使用例如写作和文本级别的例子每月的描述性反馈来了解进展情况。

表2。与IRA-NCTE评估标准相关的学校和课堂案例3和4的分析

评核术语表

阅读和写作评估领域的变化产生了各种各样的新术语,以及现有术语的新用法。本术语表的目的是明确在读写能力评估讨论中经常使用的术语的含义。

问责制

这个词至少在过去十年里一直主导着教育改革。从最好的意义上说,它意味着共同承担不断改进教育实践和短期和长期教育后果的责任,如学生学习和学生发展的社会质量。政策制定者、研究人员、管理人员、家庭、社区成员、教师和学生都负有这一责任。然而,问责制往往侧重于教师和学生的短期责任,这样,当通过高风险测试衡量的成绩发生变化时,主要是教师和学生经历后果。当教师和学生只对短期结果负责时,比如考试中可以衡量的东西,长期目标,尤其是那些不容易在考试中衡量的目标,往往会被忽视。当只有社区的一小部分人感到有责任改善教育时,教育就不会得到很好的服务,很可能会出现倦怠。类似的情况是,如果孩子没有健康保险(因此不寻求定期医疗保健),而且他的家庭饮食、锻炼和互动模式不在医生的控制之下,医生就会对孩子的身心健康负责。

聚合

在评估中,汇总是收集数据的过程,目的是做出更一般的陈述。例如,学区通常会将所有学生的考试成绩相加,以得出该学区学生的平均成绩。这一过程消除了地区内各种文化群体、学校和学生之间的所有差异,以便做出总体陈述。即使是个别学生的考试成绩也是将该学生在考试中所回答的所有项目汇总起来,从而对该学生的“能力”做出总体陈述的结果。“分解”分数也很常见,以了解各组在大组中的表现,或调查学生在阅读各个子领域的表现(例如,单词识别,词汇量,理解)。

围绕着聚合存在着强大的紧张关系,一方面反映了对学生、教师和学校进行一般性陈述的必要性,另一方面反映了在这个过程中剥离个人表现和情况的细节的问题。并不是每个人都同意减少学生或学校数量是合理的,更不用说这样做的目的或理由了。人们经常认为,管理人员需要高度聚合的数据来做出规划和预算决策。然而,无论是在教育领域还是在工业领域,管理员在面对汇总数据时做出的决策与面对个人和情况数据时做出的决策不同。决策需要考虑这两种数据的平衡。

真实的评价

为了使评估被认为是真实的,它必须包括能够很好地反映真实世界活动的任务。这个术语源于这样一种认识,即广泛使用的评估工具通常不能很好地反映识字的人在阅读、写作和说话时的实际情况。例如,真实评估的逻辑表明,仅仅识别语法元素或校对潜在的缺陷并不能产生可接受的写作能力衡量标准。写作评估任务应该反映出学生在学校以外的生活中所期望的受众和目的,以及这些条件所带来的真正挑战。同样,阅读很短的文章和回答数量有限的多项选择题并不能很好地衡量有文化的人通常在阅读时做了什么。真正的阅读评估采用了反映现实世界阅读实践和挑战的任务。评估的真实性很大程度上取决于评估任务测量它所要测量的东西的程度——一个构念有效性的问题。

标准参照评价

我们为特定目的进行评估。当我们想知道孩子们在一个特定的领域知道什么,能做什么,特别是他们是否在特定的任务中表现在一个定义的水平时,我们选择标准参考评估。选择标准参照评估中的项目,是因为它们区分一个人(或群体)知道什么、能做什么,以及谁已经达到或没有达到标准的表现水平。他们之所以被选中,并不是因为他们在决定谁比谁更好时,会在个体之间进行区别对待。真正衡量一项特定技能的项目不会因为每个人都做对了而从评估中取消。例如,驾驶考试旨在确定一个人是否有足够的知识和能力可以上路,而不是一个司机是否比另一个司机更有成就。

为了被标准引用,测试必须清楚地定义进入可接受性能的特征。在读写能力方面,标准参照评估通常将学生在特定任务中的表现与既定基准进行比较。这些基准或标准可以表示为定义成就水平的数值范围。例如,80-85分可能意味着在从不满意到优秀的各级成绩中表现良好。基于标准的评估也可以包括写作的整体评分,例如,评分是基于一套预先设定的标准。

课程

我们可以认为课程有三个组成部分:(1)预想的课程,(2)制定的课程,(3)经验的课程。设想的课程是学生作为教学和参与课堂活动的结果的预期熟练程度。制定的课程是每天在教室中将设想的课程付诸实践的尝试。经验课程是学习者在课堂中对制定的课程的理解,因此,它是在该课堂的语言中构建的。例如,有可能打算教一个特定的课程(例如,作者的观点),但学生没有学到这一课——要么是因为教得不好(例如,建模、实践、支持不足),要么是因为学生的经验不支持学习(例如,他们没有提供材料和经验来邀请视角)。再举个例子,如果一个班级的大部分阅读材料都包含种族或性别的刻板印象,那么这很可能会反映在学生的学习中。相比之下,学生可能会从更均衡的阅读材料中构建关于人际关系的不同知识。然而,学生从这些作品中构建的知识和态度受到教师谈论它们的方式、教师和其他学生相互回应的方式以及小组讨论的性质的强烈影响。最终,我们关注的是经验丰富的课程,这就是为什么学生必须成为我们的主要课程信息提供者。然而,设想的、制定的和经验的课程之间的差异是推动课程探究和评估过程的原因。

基于课程的评估

这种测量形式的发展是为了帮助教师评估学生在学习阅读方面的增长速度。最初的想法是将评估嵌入到课程中,这样不仅不会占用教学时间,而且不会分散教师对更大教学图景的注意力。口头阅读CBM起源于特殊教育,衡量孩子在一分钟内从标准化文本中准确阅读的字数(尽管在拼写和写作方面也有类似的衡量标准)。CBM假设一个代理变量,阅读速度和准确性(通常被错误地称为“口语阅读流利性”),是对阅读成就的更大结构的有效估计,并且使用这种估计对教学有积极的指导作用。

因为这些评估现在使用的是标准化的文本和单词列表,而不是课程的一部分,基于课程的术语不再特别适用。其他评估通常不属于基于课程的范畴,如儿童阅读记录和为作品集收集的学生作业证据,更明显是基于课程的,因为它们是在孩子们在实际的课堂课程范围内进行的。

股本

公平问题围绕着读写能力评估。测试最初是作为一种控制职位选择中的裙带关系的手段,提供了一个独立的选择角度来维护公平。但是仅仅通过测试并不能保证公平。那些控制评估过程的人控制着什么重要,什么有价值。正如我们在本书的引言中指出的那样,语言和读写能力评估充满了文化问题和偏见。虽然不能通过评估来保证公平,但必须在评估和教育中坚持不懈地追求公平。它更有可能通过多个独立的视角来实现,而不是通过使用单一的视角。

传统上,考试的实施、结果的公布以及考试对教学的影响几乎没有考虑到文化、经济或性别平等等问题。但许多公平问题会影响评估,使比较变得困难,而且往往无效。由于传统考试往往反映狭隘的文化价值观,有着不同背景和关注点的学生和学校往往没有得到公平的评估。

公平要求确保那些面临类似评估的人有相似的教育经历,特别是在认证或看门的情况下。获得良好的指导、适当的材料和丰富的学习机会是至关重要的。教育工作者越来越意识到评估结果与安全、健康和福利支持水平之间的联系,以及身体可及性。

形成性评价

形成性评估,通常被称为学习评估,是在教学前和教学中为指导教学而进行的评估。评估是指导教学的依据。形成性评估包括师生会议、听取学生书本讨论、记录孩子的口头阅读、检查学生的写作作品等等。虽然这些评估可能是标准化的,但它们往往不是。要形成,评估必须影响教学。

高风险测试

这些考试对那些被认为对考试成绩负责的人以及学生都有重大影响。例如,决定一个人是否被军队、大学或教育项目录取的考试对考生个人有重大影响。然而,更广泛的人群也会受到影响。在今天的美国,学生的考试成绩不仅被用来决定孩子是否进入下一个年级,而且还影响到教育资源的分配,以及学校是否可以继续运营。通常情况下,当地新闻媒体会公布学校的考试成绩,当家庭根据当地学校的表现来决定在哪里买房时,房产的价值就会受到影响。当主要的结果——如教师工资的调整——与学生的考试成绩挂钩时,教师会在教学中强调考试所衡量的内容,并减少对考试未涵盖的领域的强调。这对课程的广度产生了影响,从而影响了学生的生活。

国家英语教师委员会和国际阅读协会都有关于高风险测试的立场声明。两个组织都建议在可能的情况下尽量减少风险,不要依赖单一的措施,特别是在风险很高的情况下。

调查

探究的过程始于一个真正的问题,即一个能激励提问者坚持不懈地寻求答案的问题。真正的问题很少在一开始就有很好的构思或结构。相反,结构是通过探究的过程出现的。探究不仅仅是提出和回答问题。这是一种与世界和他人互动的方式。交流和社会关系在询问中扮演着重要的角色,因为提问者寻求同伴和更有知识的人的建议和专业知识,分享他们的发现,反思调查的结果,并接受新出现的问题。

在传统的课堂学习观点中,教师传递信息。他们问孩子们已经知道答案的问题,学生们也要证明他们知道正确的答案。这种方法并没有很成功地帮助所有学生成为社会所需要的具有批判性、创造性和社会责任感的公民。而在探究型课堂中,学生与教师的关系则截然不同。老师和同学是帮助学生回答自己问题的资源。社区关系是不同的。教学基于对个人意义重大的课题的持续研究。

作为探究的评估涉及同样的原则。它要求教师提出有关课堂教学的问题,并利用评估数据和学习社区的资源寻求这些问题的答案。

多通道读写

几个世纪以来,书一直是交流的中心媒介,主要通过写作方式在纸上表达。今天,屏幕正在成为主要的通信媒介,越来越依赖于图像的模式。模式是用于通信和表示的资源。例如演讲、舞蹈、手势、音乐、雕塑、摄影和写作。人类可能会通过单一的方式来表达自己,比如写作,但随着频率的增加,我们会结合各种方式来交流。这就产生了多模态文本,例如结合了文字、图像、音乐和运动的PowerPoint演示文稿或YouTube视频,或者将印刷和图像合并在一起的广告。今天和未来的学习者需要获得这种多模式读写能力。

Norm-Referenced评估

当我们想知道一个孩子相对于其他孩子在特定领域的表现如何时,我们使用规范参考评估。选择规范参考评估中的项目是因为它们区分了个体,而不是评估一个人(或群体)知道什么和能做什么。为了进行规范参考评估,评估实践需要标准化,测试项目的选择必须集中在最大限度地扩大个体之间的差异。真正衡量一项特定技能但所有学生都正确的项目不会被使用,因为它不会区分谁比谁好。

参照标准的解释是基于与其他标准的比较,通常会产生一个排名。例如,对学生写作的规范参考解释可能会断言,该样本“与全国该年级20%的学生一样好”。

规范参照测试是大规模测试中最普遍的形式,在这种测试中,一大群学生参加测试,分数被分组,并与其他分数进行关联解释。换句话说,任何学生或群体(学校、地区、州或国家)的分数只有在与所有其他类似实体(例如,学校对学校、地区对地区、州对州)的分数相关时才有意义。为了进行这样的比较,我们必须假设“其他一切都是平等的”,这很少是合理的。国家标准参照测试假设我们社会中的所有学生都有类似的文化和课程经历。这些测试的使用通常也忽略了课程、文化、性别、种族、经济环境、每个学生的资助等方面的差异。

这种评估的主要优点是线性比额表的简单性。这种量表的诱惑也是主要的缺点,因为分数看起来很容易解释和客观。然而,这个分数过于简化了读写能力和评估的复杂性。不幸的是,标准参照考试成绩往往成为决定安置和晋升的最重要标准,这对学生和教师的生活有巨大的影响。

绩效评估

基于绩效的评估是指涉及某一特定技能的展示的评估,通常是完成该技能特定表现的过程。例如,绩效评估可以包括一些复杂的活动,如团队协作编写和制作戏剧。基于表现的评估概念与真实评估概念有关,因为它产生于人们认识到多项选择测试和其他复杂技能评估的局限性,以及从这些评估中难以推断复杂技能。

项目组合评估

作品集评估方法使用代表学生发展的系统和多方面的工作集合。例如,作品集可能包括一系列的写作作品、读书日志、自我反思、小组项目和多媒体作品。由于内容的性质,档案袋是基于课程和表现的。大多数作品集评估的主要重点是学生的参与和自我评估或反思的发展。然而,在某些应用程序中,作品集还可以包括老师和家长的观察。

可靠性

从广义上讲,可靠性是一组结果或解释随时间、跨任务和在解释者之间可泛化的程度的指标。换句话说,这是一种特殊的概括性。例如,新形式的识字评估提出了一个普遍的担忧,即不同的考官在评估复杂的回答和使用复杂的评分标准时,是否会对学生的表现得出类似的结论(评估是否会在不同的考官之间推广)。从对复杂的学生写作样本进行评分的经验表明,当人们在应用特定标准方面接受了良好的训练时,可以获得很高的一致性。

另一个可靠性的例子是,如果一个学生第二天再参加考试,假设他没有学到新的东西,那么他在考试中获得的分数是否会保持不变——换句话说,他的成绩是否会随着时间的推移而普遍化。一般来说,我们收集的学生作业样本越多,评估就越可靠和一致。

可靠性只在有效性的范围内是重要的——评估衡量它应该衡量的东西的程度,并导致有用的、有意义的结论和后果。可靠性并不能保证高质量的评估。在设计糟糕的测试或琐碎技能测试中,有可能获得一致的分数。事实上,可靠性是最容易在低级技能上获得的。

总结性评估

总结性评估,通常被称为学习评估,是一种事后评估,我们回顾学生所学到的东西,比如期末或年终考试。最常见的形式是期末标准化考试,不过在课堂上,我们也会在一个单元结束时评估学生的学习情况。这些评估可能是统一的或标准化的。

有效性

从历史上看,有效度量的一个常见定义是度量它所要度量的构造。这被称为构念效度。例如,如果我们声称一项评估衡量阅读流利性,但它只衡量速度和准确性,而不包括语调等方面,那么该测试的构念效度就很差。

更近期的效度概念包括对评估实践后果的检验——后果效度。例如,一个测试可能具有优秀的结构有效性作为解码能力的衡量标准。但是,如果将其作为调整教师工资的依据,导致过分强调课程的解码,这将不是一个有效的评估过程。换句话说,一个有效的评估程序不能对孩子产生消极或误导的后果。因此,有效评估实践的有效定义应该是反映和支持有价值的课程。

阅读和写作的评估标准NCTE/IRA联合工作组的评估

全国英语教师委员会和国际阅读协会感谢评估联合工作组的以下成员为阅读和写作评估标准所做的工作,修订版。

彼得·约翰斯顿(主席)
纽约奥尔巴尼大学

彼得Afflerbach
马里兰大学帕克分校

桑德拉案发
洛杉矶联合学区,加州

凯瑟琳·米切尔·皮尔斯
密苏里州克莱顿的Wydown中学

伊丽莎白·斯伯丁
内华达大学,拉斯维加斯

阿尔弗雷德·w·塔图姆
伊利诺伊大学芝加哥分校

希拉·w·瓦伦西亚
华盛顿大学西雅图分校