课题研究的国内外现状
(一)国外研究。关于学生学业评价的研究,科学的研究成果和可资借鉴的经验在国际上已经不乏先例。
1、学生能力国际评价项目(PISA)[①]
PISA是联合国经济合作与发展组织(OECD)策划的一项国际性学生学业质量比较研究项目。PISA2006测试参与国家和地区已达58个,PISA2009有68个国家/地区参与,参与PISA的国家/地区国民生产总值占到世界经济的90%。测试旨在评估OECD成员国15岁学生(相当于初中毕业)在完成义务教育后,是否掌握参与社会工作所需的知识和技能,是否拥有终身学习所必备的基础。
PISA测试的内容主要包括学生的阅读能力、数学能力和科学能力。三者组成一个循环体,在每一次评估中,只对其中一个主要领域作深入评估。通过PISA2000、PISA2003、PISA2006世界范围的大规模评价实践,PISA在阅读、数学、科学三个领域逐步建立和完善了学生素养评价量表,评价义务教育结束阶段15岁学生接触、处理、整合和评价信息的能力,想象性思考的能力,假设和发现能力以及有效传达思想和主见的能力。PISA还包含有学生问卷和学校问卷,目的是测量学生和学校分别在社会、文化、经济以及教育方面的特征。因此PISA 的分析框架中包含了个体、教学、学校以及教育体制四个分析层面,从个体学习者、教学、学校及教育体制四个层面进行分析,同时从社会、文化、经济以及教育因素等方面考察学生和学校的特征。
PISA目的不是指导教师如何进行教学,而是向公众、政策制定者和教育者提供学生在各个学科方面的能力的描述性信息,并对各参加国的教育质量进行横向比较。在学生选取上,PISA通过分层抽样的方法对各国的学校进行抽样,并用矩阵的方法将全部试题拆分成13套纸笔测验,每个学生只需完成其中的一份测验。PISA使用教育测量项目反应理论(RT)中的Rasch模型,将试题的建构校准和学生能力素养的评估统一到同一量尺上,使用Rasch模型可以克服依据经典测量理论建立的评测工具之缺点,建立一个具备等距量尺,涵盖完整难易度,可进行横、纵向比较的多维度评测量表。
PISA国际比较比平均分数排名所包含的意义丰富,超越了简单的平均得分排名,它告诉各个国家/地区,与其他国家/地区相比教育成效和课程设置的优势和劣势是什么。PISA不仅关注各个群体的一般表现状况,而且关心各个群体内部学生成绩的分布。
2、美国《学生评价标准》(The Student Evaluation Standards)
《学生评价标准》是由JCSEE(Joint Committee on Standards for Educational
Evaluation教育评价标准联合委员会)编制,经ANSI(American on National Standards
Institute美国国家标准协会)批准通过的第一套,也是唯一获得ANSI批准的学生教育评价国家标准。
《学生评价标准》包括28条标准,分为四大类及其他分类资料,每一条标准都含有“标准陈述”、“含义解释”、“使用指南”、“常见错误”、“案例介绍”和“相关文献”等六个部分,以方便标准的使用。《学生评价标准》的四大分类分别为适切性标准(Propriety Standards)、效用性标准(Utility Standards)、可行性标准(Feasibility Standards)和精确性标准(Accuracy Standards)。适切性标准确保学生评价实施的合法性和合理性,充分考虑被评学生以及其他相关人员的利益,包括7条标准;效用性标准确保学生评价的有效性,有效的学生评价能提供及时的信息,并具有一定的影响力,包括7条标准;可行性标准有助于确保学生评价按计划实施,具有可操作性、圆融性及可靠性等特征,包括3条标准;精确性标准确保学生评价为学生学习及其表现提供正确的信息,准确的信息决定准确的解释、有说服力的结论及适当的跟踪,包括11条标准。[②]
美国教育者同样高度重视考试,不过尽管公众高度关注年度大型考试,尤其是在联邦法案《不让一个孩子落后》重申考试的重要性、要求所有学生参加年度大型考试之后,但考试对学生学习的促进作用非常有限,这是由于考试的频率(年度),以及关注范围宽泛,难以促进学生的日常学习。这样看来《学生评价标准》产生的“考试”背景与我国当下存在的“考试”问题有着迥然不同的境遇,有着千年考选文化传统的中国在“考试”上的突出问题恰恰在于考试频率太高:除了期中、期末和升学考试之外,各种以测验、测试、检测、诊断、强化训练等为名目的考试令人应接不暇,在有些区域和学校甚至以“课后作业”的形式成为学生每天要面对的内容;考试覆盖范围不仅宽泛且细密:阶段性检测、单元目标检验、每课一测、专题检验、模拟测试等,再加上期中、期末和学生自己选做的各种试题,考试覆盖范围可谓令人惊叹;考试功能被过度强化:不仅“以考评教、以分评学”的现象普遍存在,通过考试来体现的升学率还成为评价学校办学质量高低的最重要标准、成为行政部门教育政绩的衡量标准。就此来说,我国学生学业质量的监测有必要吸收《学生评价标准》某些合理内核,比如专业人员在学生学业质量评价要素上达成某种程度的共识并研制出科学、可行的评价标准等。
同样,PISA关于义务教育学生学业质量国际比较研究中在严密的分析框架、先进的教育测量理论、科学的教育统计方法、多维度的评测量表、规范的测量流程等方面的科学做法亦是值得我们学习和借鉴的。
(二)国内研究。长期以来,我国义务教育学生的学业质量评价受到应试教育的影响和干扰,学业质量评价主要在学生的考试分数和升学率上做文章,使学业评价的价值观和实践操作遭受严重的扭曲;一千多年的考选文化传统在公众的心中根深蒂固,教育评价制度的创新困难重重,这给我国学生学业质量评价的改进和发展形成了重大阻碍,当前我国学生学业评价已经严重滞后于国际先进水平;由于受传统的影响,我国教育研究具有长于思辨研究、短于科学论证和乐于质的探索、疏于量的考证的特点,在包括教育评价在内的教育教学研究上,科学化水平亟需提高。近几年,这种情况有所变化,包括学业质量监测在内教育评价研究的系统性、规范性和科学程度正在提升,学业质量评价的科学研究正方兴未艾。
1、2006PISA中国试测研究项目
2006年10月教育部考试中心引进并启动了学生能力国际评价PISA2006中国试测研究项目,天津和北京、潍坊三个城市一起参加了2006年PISA在中国大陆地区的试点性测试研究,其中天津共有50所学校的1700多名学生参加了最终的测试,在测验实施的规范化、操作性、精细度以及流程的严密度上深受启发。[③]
2、“建立义务教育阶段学生学业质量分析、反馈与指导系统”项目[④]
2003年教育部基础教育课程教材发展中心设立了“建立义务教育阶段学生学业质量分析与指导系统”项目,自2004年以来上海市、辽宁省、江苏省、天津市、甘肃省、福建省、青岛市、海口市、深圳市南山区、新疆克拉玛依市等十个省/市先后实施了这一项目,迄今为止已经形成了抽样测试和非抽样测试两套测评模型,建立了一套省、市、区/县三级报告反馈系统,开发了学校、班级、学生个体反馈报告生成程序。
2006年9月,江苏省参加了由教育部基础教育司、基础教育课程教材发展中心和项目组召开的“建立义务教育阶段学生学业质量分析、反馈与指导系统”项目协调会。省教育厅从本省基础教育发展的实际出发,深感建立学业质量分析与指导系统对基础教育发展转向内涵发展、过程优化的重大意义,把开展这项工作作为一个难得的机遇,主动争取国家项目组的支持,在全省迅速、全面地推开。2006年底,教育厅组织了覆盖全省13个地市、106个区县的抽样测试,并且决定,今后每两年组织一次测试,每一次投入600万左右的专项经费。学业质量分析与指导系统的建立为新课程背景下的教学管理与指导工作带来了全新的内涵,它的意义正得到印证,实施过程中的关键环节也逐渐趋于明晰。
“建立义务教育阶段学生学业质量分析、反馈与指导系统”项目在实施过程中采用了国际通用的标准和程序,在数据处理上应用了试题等值技术,项目反应理论、多层线性分析、回归分析、因素分析、相关分析等统计理论和技术,从而保证了测试工具的信度、效度和区分度,增强了测试结果的科学性。
项目构建了严密的测试流程,以为小学三年级和中学八年级学生为主要测试对象,在测试内容上三年级测试语文、数学两个学科,八年级测试语文、数学、英语、科学四个学科。项目的学科测试框架是以课程标准为依据,以常模为基准,以促进学生的能力发展为核心,着重考查影响学生未来发展的重要素养和能力。
该项目还使用学生、教师和校长问卷对学生学习背景信息、教师教学相关情况及学校管理相关内容等进行调查。学生问卷包括学生基本情况、学校环境、学习压力、师生关系、学习动机、自信心、学习方法等。教师问卷的内容包括教师基本情况、教师教学方法、教师对学校教学管理的评价、教师教学观念和教师专业发展等。校长问卷的内容包括校长及学校基本情况、校长教学领导力、办学自主权、国家课程开设情况和对教师的专业支持。
项目组为参加抽样测试的地区提供省、市、区/县三级反馈报告,分析三年级学生八年级学生在各测试科目上的表现,及各地方关注的地区和群体差异。报告的主要内容如下:学生在各学科不同水平上的人数比例;学生在各学科上得分分布情况;不同群体学生在各学科上的表现;学生在各学科各内容领域和能力维度上的表现;学生在每道测试题上的作答情况;典型试题分析;问卷调查结果分析及其与学生学业成绩的关联。
项目组为参加非抽样测试的地区和学校提供学校、班级、学生三类反馈报告,这三类报告分别以地区、学校和班级为背景描述学校、班级、学生在各学科测试上的表现,其中,班级和学生报告中还给出了每名学生在各学科的总体及其各内容领域和能力维度上所处的水平。
教育部“建立义务教育阶段学生学业质量分析、反馈与指导系统”项目的实施给全国义务教育学业质量监测带来了新的生机和希望,也给我们改进、改善当下义务教育学业质量监测中存在的各种突出问题提供了可资借鉴的经验和典范,尤其是江苏省测试的实施,更是赋予江苏的区域义务教育学业质量监测以强大的推动。但不可否认的是,教育部、乃至各省级的项目测试虽然已经有了几个年头的实践探索,但毕竟还处于初期阶段,很多想法还不能大胆付诸实践、有些评价距离教育教学的现实需要还很远、有些做法还未能立足于教育教学的现实问题,而对于学业质量监测变革早就迫在眉睫的义务教育来说,学业质量监测研究的需要是多方位、多层次的,在这种省、部级项目已经先行启动的情形下,(地级)市、区/县级的学业质量监测及其研究更为迫切、也更能贴近义务教育学业质量监测的现实需求。
(3)其他研究。目前,我国不少(地级)市、区/县都已经筹建了学业质量监测中心,不少教育行政部门下发了学业质量监测的相关文件,学业质量监测研究正在兴起,但就当前所看到的研究状况来说,各地多以呈现、宣传监测成果和成效为主,而在监测内容、测量理论、抽样方法、分析框架等关于学业质量监测本身的创新研究却鲜有耳闻。
近几年关于学业质量/水平监测/评价的反思研究论文,常常见诸于相关教育教学的报刊杂志上,这些反思性论文从各个不同的视角和研究立场指出了我国当前学业质量/水平监测/评价中存在的问题与不足以及需要加强关注的相关领域:学业水平考试存在缺乏学业标准、考试内容选择的思路混乱、试题编制和组卷不遵循基本的教育测量原理、分类决策的过程不科学、分数报道不能提供有用信息五大问题,追溯问题的缘由则存在现行的教育行政管理机制制约了考试的科学化发展、我国没有教育和心理测量标准、教育考试机构专业化程度较低、课程标准与学业水平考试的要求不相适应、教育和心理测量方面的教育水平偏低等问题[⑤];学业评价需要处理好日常评价与期中、期末评价,低年级评价与高年级评价,等第制评价、百分制评价和评语式评价,学生自评、互评与他评,知识、技能评价与情感态度价值观评价等几对关系[⑥];测查是否会给学生带来不必要的压力及负担,如何平衡及处理高、低利害的影响,如何抽测、跨年比较及评价,可否测查基本教学以外的内容及道德水平、学习兴趣等[⑦]。
另有关于学业质量分析的内涵,学业评价的原则与方法,学业评价数据的解读与使用,学业评价的范式、模式,描述性评价,表现性评价,等级评价制度等方面的研究。[⑧]通过这些研究为我们展示了学业评价近今年的研究状况及其中需要改善或是加强关注的领域和问题。
[①]孔祥娟、田园、李勇﹒PISA2006天津试测的实施及其启示[J]﹒考试研究,2007(10)﹒84-91﹒;王蕾﹒PISA 对大规模教育质量的评价解读[J]﹒考试研究,2009(7)﹒46-59﹒
[④] 项目组﹒“建立中小学学生学业质量分析、反馈与指导系统”项目介绍[J]﹒基础教育课程﹒2009(7)﹒49-52﹒;张民生﹒课改需要促进学业质量提升的评价系统——建立学业质量测评系统的重大意义与价值[J]﹒基础教育课程,2009(7)﹒47-48﹒;董洪亮﹒建立学生学业质量分析与指导系统:意义与关键——以江苏省的实践为例[J]﹒基础教育课程﹒2008(2)﹒7-9﹒
[⑧] 详见:刘坚、刘红云、张珊珊﹒数据能告诉我们什么——兼谈学业质量分析的内涵及要点[J]﹒人民教育,2008(12)﹒36-39﹒;崔允漷、夏雪梅﹒学生学业成就评价处在十字路口——兼谈评价范式的转移[J]﹒教育发展研究,2006(



