北京PTE学术英语考试评分
来源:教育联展网 编辑:佚名 发布时间:2022-01-07
英语语言能力测试越来越被大学、高等教育机构、政府部门和其他组织所需要,其目的是准确衡量国际学生在学术环境中的沟通技能。为了满足这一需求,培生开发了 PTE学术英语考试(PTE Academic) 。该测试能可靠地测量非英语母语,且希望在以英语为主要教学语言的机构学习的考生其阅读、写作、听力和口语能力。
AI自动评分可靠性验证
PTE学术英语考试于2009年在全球推广,此外,Pearson考试中心向全球提供PTE学术英语考试服务。Pearson VUE是管理电子化评测和认证委员会的全球领导者,提供从测试开发到测试交付再到数据管理的一整套服务。
作为教育出版和评估领域的**领导者,Pearson将运用其几项自主专利技术来自动评估考生在PTE 学术英语考试上的表现。世界各地的学术机构,企业和政府机构都选择Pearson的自动评分技术来测量学生、员工或申请人的能力。使用口语和写作自动评分技术的Pearson客户包括2008年财富20强企业中的8家;2008年印度BPO公司15强中的11家;美国、德国和荷兰政府;世界体育组织,如FIFA国际足联(世界杯组织者)和亚运会;主要航空公司和航空学校;和一流大学和语言学校。
大范围的现场实地测试项目曾被用来检测PTE学术英语考试各项性能,并评估其有效性的,同时获得优化自动评分引擎所需的数据。该项目历时超过18个月,测试数据来自21个国家中38座城市的1万多名参加PTE学术英语考试现场实地测试的考生。这些考生来自158个不同的国家,讲着126种不同的母语,包括(但不限于)粤语、法语、古吉拉特语、希伯来语、印地语、印度尼西亚语、日语、韩语、普通话、马拉地语、波兰语、西班牙语、乌尔都语、越南语、泰米尔语、泰卢固语、泰语和土耳其语。现场实地测试的数据被用于优化PTE学术英语考试中写作和口语部分的自动评分引擎
为什么使用自动评分
研究表明,在很多方面上,自动评分结果比人工更具分析性和客观性。与易受各种因素影响的人工评分不同,自动评分系统会更公正。 这意味着自动评分系统不会被与语言无关的因素而“分散注意力”,例如考生的外表,性格或肢体语言(如口语面试中可能发生的那样)。这种公正性意味着考生可以确信,评分是单独依据他们的语言水平表现来评判,并且认可考试的合作伙伴也可以确信考生的分数是“普适的”—即便考生在北京,布鲁塞尔或百慕大,他们仍然会取得同样的分数。
此外,自动评分允许某一语言样本的个体特征(口语或写作)被独立分析,因此 语言中某个方面的不足并不会影响其他方面的评分。 而人工评分者常会表现出从语言的一个方面到另一个方面有“判断转移”。例如,有些考生的语法非常差,但因为他们表达得流畅而被评为精通级。相反的是,自动评分可以客观地评估不同的语言技能。
在自动评分技术开发时,Pearson进行了“有效性研究”,用以确保机器所给出的分数与老练的人工评分者给出的分数相当。 在有效性研究中,人工评分者和自动评分系统对同一组新的考生回答(机器从未见过的)进行评分。在Pearson的有效性研究中,当人工评分与机器自动评分进行对比时,人们发现它们是相似的。 事实上,人工评分和自动评分之间的差异非常小,通常小于两个人工评分者之间的差异。 在写作和口语评分中均是如此。
研究表明,PTE学术英语考试的自动评分技术可与那些受过培训的,且只考虑相关语言技能的,细心的人类专家相媲美。 这意味着自动化系统在评估考生的语言技能时会“像人”一样“行动”,但又具备机器的精确性、一致性和客观性。
写作英语技能评分技术
PTE学术英语考试的写作部分使用Intelligent Essay Assessor TM (IEA)进行评分,这是一种自动评分工具 ,由Pearson**先进的Knowledge Analysis TechnologiesTM(KAT TM )引擎提供支持。基于20多年的研究和开发,KAT引擎**检查整个段落来自动评估文本的含义。与熟练的人工评分者一样精准,KAT引擎运用一种自有的,名为潜在语义分析(Latent Semantic Analysis, LSA)的数学方法来准确地评估写作。使用LSA(一种**分析大量相关文本来得出单词和段落的语义相似性的方法), KAT引擎“理解”文本的含义与人类所理解的大致相同。
被调整后的IEA可理解和评估任何学科领域的文本,包括用于离题响应的内置检测器,或可能需要提交给人类阅读者的其他情况。由独立研究员和Pearson进行的研究表明,IEA在知识评估和基于知识的推理上的可靠性。IEA的开发已超过十年,它已用于评估数百万篇论文,包括对小学,中学和大学水平的写作评分,以及评估军事领导技能。
IEA与PTE学术英语考试
IEA(Intelligent Essay Assessor)自动评估考生的写作技能和知识,并且可以受训为各种写作特征打分,人们可以信赖这个评分。 它运用事先由人类阅读专家评分并给的回复作为指导,对考生所应答的整体内容进行评估。
PTE学术英语考试中,要求考生写200-300字的论文以及50-70字的总结。当答案被提交进行评分时,系统会评估答案的含义以及写作技术等方面。系统将考试答案与大量事先受训的答案进行比较,计算相似性,并基于内容分配分数,部分依据将答案归类在**有相似性的受训答案类别中。对写作技术方面进行评分的方法大致相同。系统评估考生答案中的每个写作特征(语法、结构和连贯性等),将其与大量事先受训的答案进行比较,然后根据该特征对答案进行排序。
对于IEA的训练,在现场实地测试中收集了超过5万份写作地答复(包括作文和总结)。这些写作答复在许多单项特征被给予评分,包括内容、形式要求、语法、词汇、一般语言范围、拼写、衍变、结构和连贯性。所有考生在现场实地测试中的答案,首先由两名人工评分者评分,当前两名评分者意见不统一时,还有第三名人工评分者再次打分。这些人工评分者的评分作为训练IEA的资料被输入其中。
由于考生的写作的答案被随机分配给来自澳大利亚、英国和美国的200多名评分者,这台自动评分系统接受了丰富且具有国际视角的评分训练。评分结果去除了主观倾向性。依据以上各个写作单项特征的得分,可以**对所有写作特征单项的总和,给到每个考生写作表现的总体衡量标准。这个衡量标准由人工评分者和系统生成的分数组成。总分和两组人工评分者评分的相关系数为0.87。人工评分者与系统自动生成评分的相关系数为0.88。PTE学术英语考试写作量表的信赖度为0.89。
上一篇:北京学习PTE考的优势和劣势 下一篇:北京POT与PTE学术英语培训