考试是以标准程序和方式考核学生特定范畴知识的方法。于古代中国古希腊,老师评估学生是根据其行为表现,并无固定“标准答案”。历史上首次大规模应用考试是在600年之中国隋朝,及后发展为科举制度

学校定期考试

2007年,奥·韦恩(Au Wayne)执行的一项定性研究表明,标准化考试缩小了课程范围,鼓励以教师作为中心的教学,而不是以学生作为中心的学习。

学校定期考试会影响教给学生的内容,其特点如下:

  • 为教师提供指引:标准化考试使得教师能够查看该国的学生与其他学生相比的表现。如果有必要,还能帮助教师修改教学方法,以帮助学生达到标准。[1]
  • 让学生看到自己的进度:学生有机会反思自己的成绩,看到自己的优势和劣势。[1]
  • 向父母提供有关其子女的信息:分数可以使父母了解自己的孩子与全国其他同龄人相比在学业上的表现。[2]
  • 让政府知道哪些方面需要改进:人人参加的考试可以帮助政府确定学生最学不懂的内容。利用这些信息,政府可以实施解决问题的解决方案,使学生能够在专业的环境中学习和成长。[1]

标准化测试的主要优点之一是可以凭经验记录结果;因此,可以说考试分数具有相对的有效性可靠性,并且其结果具有可推广性和可复制性。[3] 这通常使用学校成绩单上的成绩进行对比,成绩是由每个老师打分数的。可能很难考虑学校之间的教育文化差异、指定教师课程的难度,教学风格的差异以及影响打分的技术和偏见。在该学校里,当学校试图对来自全国或世界各地的学生进行比较时,标准化考试对于高等教育的录取目的就非常有用了。此类国际标准测试的例子包括国际数学和科学研究的趋势(TIMMS英语Trends in International Mathematics and Science Study)和国际阅读能力研究进展(PIRLS)。据推测,这些考试的实施会根据诸如通用核心国家标准(CCSS)之类的标准在世界顶级国家/地区的考试安排方式而改变。

TIMMS中表现最好的国家(“ A+国家”)可以通过三个指标来衡量:重点、连贯性和严格性。重点定义为每个年级涵盖的主题数;其构想每个年级涵盖的主题越少,对每个主题的关注就越多。连贯性的定义与一系列遵循数学的自然发展或逻辑结构的主题有关。CCSSM与当前国家标准和A+国家标准进行比较。平均而言,涵盖主题的平均数量最多,当前国家标准的重点就最少。[4]通用核心标准旨在通过帮助教育者专注于学生需要学习的内容来解决这一差异,而不是被无关紧要的主题分心。他们鼓励教育材料从以浅的方式涵盖广泛的题目,从而过度到更深层次的几个科目。[5]

标准化考试还消除了教师在打分时的偏见。研究表明,教师在评估学生时会创造出一种自我满足的预期,给予他们预期将获得更高分数的学生高分,并给予那些他们预期挂科的学生较低的成绩。[6]

另一个优点是聚合性。精心设计的标准化测试可以评估个人对知识或技术领域的掌握程度,这些知识或技能在某种程度上的聚合可以提供有用的内容。也就是说,尽管单个评估的准确性可能不足以用于实际目的,但由于增加了样本量,从而降低了误差,因此班级、学校、公司分支机构或其他团体的平均分数可能会提供有用的信息。

大学入学考试

作为申请的一部分的考试成绩以及其他支持材料:例如个人陈述、GPA和推荐信均被大学评估。研究高等教育主题的学者内森·昆赛尔注意到,在大学入学考试中,SAT、CAT和其他客观考试“帮助焦头烂额的录取官将大量的申请人分类进行进一步评估。虽然高分不能保证录取,低分也不能否定一切,但学校会认真地对待考试成绩。” [7]

研究表明,这些考试不仅可以预测一年级之后的成绩,还可以预测学生可以选择的课程难度。科学家进行的纵向研究表明,考试成绩较高的学生更有可能走上充满挑战的大学之旅。[8] 测试还指示大学以外学生的成就,包括教师评估、研究成就、获得学位、综合考试成绩和专业执照。[9]

由于GPA在各个学校之间甚至在同一所学校的两个学生中都存在差异,因此测试分数提供的通用衡量标准会更有用。

由于存在许多其他有关因素,因此关于考试是否能证明工作和人生的长期成功这一问题存在争议,但是诸如阅读、写作和数学等基本能力都与工作表现有关。 2007年的一项纵向研究表明,即使考虑到受教育的机会的问题,主要的人生成就(例如出版小说或专利技术)也与考试成绩相关。甚至有大量证据表明,这些技能与有效的领导力和工作中的创造成就有关。在现代信息经济中,能够阅读和理解文本并具有强大的定量推理能力至关重要。[9]

许多论点表明,在某种程度上考试中测试的技能很有用。但是,2008年发表在《心理学》英语Psychological Science杂志上的一项出色的纵向研究调查了在13岁时分数在前1%的学生。二十年后,他们都取得了非常高的成就,收入很高,且获得了会让任何父母感到自豪的重大奖项、职业成就。[10]

招生官依靠申请材料的组合,包括推荐信、面试、学生论文、GPA、考试和个人陈述来全面评估学生。但是,这些材料的大多数并不能保证将来会取得成功。传统面试和推荐信的问题非常普遍,以至于许多学校正在寻找更好的选择。 [11]

考试成绩与社会阶层之间存在相关性,但标准化考试和大学学习的成功并不仅仅取决于阶级。研究表明,“即使在控制社会经济阶层一致时,考试也是有效的。无论家庭背景如何,考试成绩良好和高中成绩优异的学生在大学中的成绩总是要好于考试成绩较低和高中成绩较差的学生。” [12]

关于社会阶级和标准化考试的另一个批评是,只有富人才能接受考试准备和辅导。但是,“研究人员进行了实验研究和受控实地研究相结合的方法来测试该问题。他们普遍得出的结论是,考试准备带来的收益更多是在5到20分的数量级上,而不是某些考试辅导公司所声称的100到200分。” [13]

非常重要的是,许多人认为考试会阻碍录取的多样性,因为与其他充分代表群体相比,少数族裔的测试分数较低。2012年的一项研究着眼于那些录取考试对申请人是非必须的学校,并将其与使用考试分数的学校进行比较。结果表明:“考试非必须的学校正在录取越来越多样化的学生群体。但是,需要测试的学校也是如此。” [52] ”[14]

反对者声称,标准化考试是对智力和表现的误用和非批判性判断,但支持者认为,这并不是标准化测试的负面评价,而是对设计不良的测试制度的批评。支持者认为测试应该并且已经将教育资源集中在教育的最重要方面,即传授一组预先定义的知识和技能,而其他方面则不太重要,或者应该被添加到考试方案中。

证据表明,黑人和西班牙裔学生的平均得分低于白人和亚裔。因此,数学和阅读标准考试(例如SAT)受到进步人士不断升级的攻击。然而,由纳波利塔诺女士委托并于2020年发布的一份详尽的加州大学教师代表协会报告发现,考试并没有歧视性,并且在保护教育质量方面发挥着重要作用。[15]

该报告表明,加剧的分数夸大使得标准测试尤为重要,尤其是在富裕的高中里。[15]

加州大学意图放弃大学入学考试中的SAT和ACT等标准考试,并简单地制定主观且自定义的考试,例如论文和额外课程,这对不熟悉该过程的学生非常不利。无须测试的录取可能会更加倾向于人脉浓厚的人。[16]

加州大学教师代表协会于2020年1月发布的一份228页的报告建议加州大学系统仍将标准化考试作为招生要求。 [15] 该报告解释了关于标准化的数学和阅读测试对预测大学表现毫无用处的误读。根据来自加州大学系统学生的数据,该报告得出结论,“目前,考试成绩比高中平均成绩能更好预测了一年级的GPA。” [15]报告继续说:分数还可以很好地预测大学的GPA总分和学生毕业的可能性。报告补充说,尽管“考试成绩的预测能力有所提高,但高中成绩的预测能力却有所下降。” [15]

考试成绩使加州大学“从代表性偏低的群体中挑选更有可能获得更高成绩并能按时毕业的学生。” [15] 报告指出,“ SAT的初衷是确定来自相对权贵圈子之外的学生,他们有可能在大学获得成功。”  [15]

缺点和批评

有效性,功效和预测能力

许多人认为,过度使用和误用这些测试会缩小课程范围,从而损害教学。根据公平测试组织英语FairTest的说法,当标准化考试是审核的主要因素时,学校使用考试来狭隘地制定课程和教授重点。审核给执行带来巨大压力,这可能导致对标准化测试的误用和误解。[17] 公平测试组织表示,滥用考试的负面后果包括缩小课程范围、为考试而教学、迫使学生离开学校、迫使教师退出专业领域以及破坏学生的参与度和学校氛围。批评者说,“为考试而教学”不利于高阶段学习。它改变了教师的授课方式,并严重限制了学生们多年来学习其他内容的数量。[18] 尽管可以在不让其内容确定课程和教学的情况下使用标准化测试,但通常,不会教授未不会测试的内容,并且如何测试该主题通常成为如何教该主题的模板。在1995年4月发表于《教育与心理测量》上的“元分析”中,托德·莫里森和梅兰妮·莫里森对进入几乎所有美国硕士或博士学位课程所需的测试——研究生成绩考试(GRE)进行了二十多个有效性研究。这项研究覆盖了过去30多年中的5,000多名应试者。作者发现,GRE成绩仅占研究生院成绩变化的6%。作者写道,“从预测的角度来看,GRE几乎没有用”。关于法学院入学考试(LSAT)的重复研究发现了相同的问题。 SAT的创建者——教育考试服务中心(ETS)现在声称SAT不是“能力”测试,而是对“成熟能力”的评估。[19]

不加以批判地使用标准化考试成绩来评估教师和学校的表现是不合适的,因为学生的成绩受以下三方面的影响:学生在学校学什么、在校外学习什么以及学生的先天智力[20] 学校只能控制这三个因素之一。有人提出了使用增值模型通过统计控制先天能力和校外背景因素来应对这种批评。[21] 在解读考试成绩的增值系统中,分析人员根据学生先前的考试成绩、第一语言或社会经济状况等因素估算每个学生的预期成绩。根据推测,学生的预期分数与实际分数之间的差异主要是由于老师的努力。

些老师认为标准考试只能衡量学生当前的知识,而不能反映学生从学年初开始的进步。[22] 有些内容不是学生的常规教学内容,而是由专业人员决定的,这些内容决定了学生在不同年龄段应了解的知识。此外,教师们认为最好的考试编写者和引导者是他们自己。他们辩称说,老师最了解学生能够使他们学习更长的时间或继续进行常规课程的能力、实力和需求。

著名的反对者

凯茜·戴维森英语Cathy Davidson在她的著作《现在看到了》中批评了标准化测试。她将我们的青年描述为“装配线上的装配工孩子”,这意味着将标准化测试用作“一刀切”式的教育模型的一部分。她还批评了现在测试的技能的狭隘性,并将没有这些技能的儿童标记为失败品或残疾学生。 [23] 在当今的学校变革中,广泛而有组织的作弊行为已成为一种日益增长的文化。 [24]

教育理论家比尔·艾尔斯英语Bill Ayers评论了标准化考试的局限性,并写道:“标准化考试无法衡量主动性、创造力、想象力、概念性思维、好奇心、努力、讽刺、判断力、承诺、细微差别、善意、道德反思或其他许多有价值的性格和属性。它们可以衡量和计算的是孤立的技能、特定的事实和功能、内容知识、学习中最不有趣和最不重要的方面。”[25]在著作《国家的耻辱》英语The Shame of the Nation中,乔纳森·科佐尔英语Jonathan Kozol认为,接受标准化考试的学生是“认知断头”的受害者。在与市区内许多学校的孩子交谈之后,科佐尔意识到了这一点,这些孩子没有时间、时间段和历史事件的空间记忆。尤其是在资金短缺和有严格审查政策的学校中,学校取消了艺术、历史和地理等科目,仅仅为了专注于授权考试竞赛。[26]

老师对学生成绩的高低有严重影响。在某些情况下,他们的整个职业生涯都取决于学生的考试水平。老师薪水的一半将取决于他/她的学生在考试中的表现。[18] 成绩不佳的学校最终将被关闭或缩小规模,这直接影响到行政管理,从而导致诸如威胁、作弊和信息钻探等提高分数的危险策略。[18]

测试与少数族裔

国家公平与开放测试中心主任蒙蒂·尼尔声称,以英语为第二语言、有残疾或来自低收入家庭的学生因考试成绩而被拒发文凭,这是不公平和有害的。例如,在1970年代末期,当美国开始进行毕业考试时,一场诉讼推迟了许多黑人学生在毕业考试中使用适合的考试材料的机会,因为他们之前上的是依法种族隔离的学校。尼尔认为:“资源匮乏的学校与考试的相互影响最有力地打击了有色人种。”尼尔说:“他们不成比例地被拒绝颁发文凭或升职,而他们就读的学校最有可能在考试中表现不佳,并面临诸如重组之类的制裁。[27]

在《进步杂志》中,芭芭拉·米纳通过分析三本不同的书籍来阐明标准化测试的弊端。琳达·麦克尼尔是莱斯大学教育中心的联合主任和教育系教授,在她的《学校改革的矛盾:标准化考试的教育成本》一书中写道:“教育标准化会损害教学,从长远来看,它按种族和阶级重新定义了教育。”麦克尼尔认为,基于考试的教育改革为有色人种的学生提出了更高的标准,米纳表示,麦克尼尔 “展示了考试的改革如何将权力集中在公司和政治精英的手中,这在企业和保守派对教育改革的影响日益增加的时期尤其令人恐惧。”这种以考试为基础的改革使学习变得陈腐,尤其是对于有色人种的学生而言。[28]

学生和教育者层面

学生本身也批评测试,测试虽然标准化,但对每个学生都不公平。一些学生是“不良应试者”,这意味着他们考试时会变得紧张而且不能专心。因此,虽然考试是标准的并且本应该提供公平的结果,但参加考试的人处于劣势,无法证明自己的知识,因为没有其他考试方法可以让学生证明自己的知识和解决问题的能力。

一些学生患有考试焦虑症。考试焦虑症也适用于标准化考试,那些通常没有考试焦虑的学生经常会在风险如此之高的情况下感到巨大的考试压力。高风险的标准化测试包括SAT、PARCC和ACT之类的考试,在这些考试中,成绩优异是及格或大学录取所必须的。

标准化考试是一种广泛衡量学生和学校教育水平的方法。从幼儿园到高三,学生参加所需的考试。在这段时间内,平均每个学生参加112项标准化考试,相当于每年10次考试。以这种速度,平均测试量大约占总课堂时间的2.3%。[29] 以这种情况,平均测试量大约占总课堂时间的2.3%。[30] 尽管标准化测试旨在改善教育体系,但它们对学生和教师产生了许多负面影响

标准化测试不仅给学生带来压力,也给老师带来压力。新泽西州州长克里斯·克里斯蒂提出了关于新泽西州教育改革的建议,该改革不仅要求教师“为考试而教书”,还要求将他们的学生的成绩与其薪水和工作保障挂钩。改革提出基于绩效的薪酬,这取决于学生在标准化考试中的表现以及他们的学业成就。但是,学生会因认知、发展和心理能力的不同而有所差异,因此这对学生考试中有困难的老师来说是不公平的。[31]

成本

标准化测试的管理成本很高。据报道,美国每年在这些测试上花费约17亿美元。[32]据报道, 在2001年3家公司(哈考特教育测量,CTB 麦格劳-希尔和河滨出版社)设计了州一级所进行测试的96%。[33]

各地情况

香港

香港,公开考试报考考生最多的是香港中学文凭考试(DSE),属于升学考试,是升读大学的重要考试;亦有小五、小六的呈分试,该试影响升中。

马来西亚

马来西亚会以多种统一化的考试来评定学生的学术资格以及其能力。马来西亚所有国立的中小学的学生(7岁至18岁)一年之内就必须面对至少5次的强制性全科考试,而这些考试的成绩都会全部记录在马来西亚国家教育部的系统里以作为日后升学和学术资格的参考。废除了小学1,2,3年级已不再考试及分班。2020年,马来西亚教育部取消小六检定考试和中三考试(中三评估)。2021年,马来西亚教育部高级部长莫哈末拉兹废除了小六检定考试。虽说马来西亚教育部废除了小六鉴定考试,却拥有了Ujian Pengesanan Literasi Bahasa Melayu (UPLBM),意思是马来文识字考试。最后,马来西亚教育部高级部长莫哈末拉兹在2022年6月2日的发布会中表示中三考试将会永久废除,已成该国的教育历史。

参见

参考

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.