阿卡索学习网

【深度揭秘|全集】托福口语机器评分11大扣分点!——Speech Rater

后台-系统设置-扩展变量-手机广告位-内容正文顶部

托福口语task1真题_托福口语真题_托福口语真题

10年前,也就是2009年无老师在中国大陆,第1个爆料了ETS开始使用作文自动评分系统e-Rater。

去年无老师全球首爆托福考试严惩作文模板。

前几天无老师又独家爆料了,ETS即将对于现行的托福考试进行改革,很多无花果风声鹤唳,因此无老师又专门发一篇文章,告诉各位无花果,托福大型的改革,通常是提前两年通知,两年后才能正式实行,也就是最早也要在2021年才能正式实行。同时无老师手里,也掌握了2013年ETS进行内部测试的试题,无老师接下来会找时间再提前爆料一下。

托福的教研,应该先研究标准,这些托福考试的标准,全都藏在ETS的官方研究论文之中,今天咱们就从ETS的官方研究论文当中,深度解读一下ETS的Speech Rater!这些论文是很有价值的,无老师10年前研究e-Rater论文的成果,直到今天对于托福考生也极有指导意义,历久弥新!

10年前的2009年,无老师系统的总结了e-Rater运营机制,今天再来权威的解读一下,托福口语最新的自动人工智能评分系统Speech Rater!

Speech Rater,是在去年2018年第一届中国托福年会首爆,无老师被邀请在本届年会第一排就坐。下面是当时第一手照片。

托福口语真题_托福口语真题_托福口语task1真题

本次无老师的解读,是有目的性的,是直接帮助各位无花果高度浓缩了ETS的官方论文,取其精华,把论述部分全都扔掉,直接把Speech Rater核心拿分点,直接送到各位无花果的面前,听无老师,得托福口语满分,就这么简单!

托福口语task1真题_托福口语真题_托福口语真题

我们直接忽略这份报告当中前面的22页,因为前面的22页全都是实验细节的剖析,对考生指导意义有限。我们直接从最终的核心实验说起,也就是从23页最核心的内容讲起。

在23页这张表当中,一共列出了整整20条,会影响最终托福口语分数的核心评分标准。

在这20条当中,ETS将其分为两大类,第一大类是Delivery——表达;第二大类是Language use——语言的使用。估计看这两大类的名字,你想直接撞南墙,具体在说什么根本看不懂。没事,继续往下看你就懂了。

第一大类Delivery——表达,又分为4个层面

1 Fluency——流畅度

2 Pronunciation——发音

3 Prosody——韵律

4 Rhythm——节奏

第二大类是Language use——语言的使用,分为两个层面

1 Grammar——语法

2 Vocabulary——词汇量

其实当各位无花果看到这里的时候,就已经开始有感觉了,相比于刚才的表达和语言使用这两个词,非常显然,流畅度、发音、韵律、节奏以及语法和词汇量,就让各位无花果很容易理解,ETS到底想要点什么了。

随着无老师解读的层层深入,很显然,高潮要来了!

在这份官方的研究报告当中,ETS非常关键的列出了这里面每一个细项的得分点,与最终总分的相关系数,换句话说,这就意味着这里面每一个得分点,到底多大程度上,会影响最终的得分。

托福口语task1真题_托福口语真题_托福口语真题

右面这一整排系数相加,它们的总和为1,这也就意味着,在这张表格当中已经列出了,所有最终会影响托福口语得分的每一个影响因素,并且还给出了每一个影响因素的权重。右面给出的权重越高,那么也就会越影响最终的得分,给出的影响权重越低,说明相关性就越低,他们对于最终得分的影响也就越低。

最终在这里,无老师用黄底标出了,所有的影响系数在0.05以上的影响因素。影响系数在0.05以上的,占据了整个表格20项当中的11项,而这里面尤其是第1项Mean silence duration平均沉默时长,影响因素最大,它是所有20项影响因素当中,唯一一项超过的0.1的影响因素,达到了0.119,这就意味着我们在托福口语考试当中,不适当的停顿,其实是最为伤害我们分数的影响因素,而且停顿时间越长,停顿次数越多,就会使我们的分数越底!

位居影响因素第二的Score point with the highest word CVA similarity score。影响因素指数达到了0.99,无老师将这段英语,翻译成各位无花果可以理解的中国话,这段话说的意思就是,你使用的单词的相似性,反过来说也就是,你的单词量越大,进行的同意替换越多,他们的分数也就越高;相反的,如果你总用相同的单词,而不进行同意替换,那么你得到的分数就越低。

位居第三的影响因素Speaking rate in words per second,影响指数达到了0.97。这个影响因素指的是,你的“语速”。也就是在正常情况下,你的语速越高,你得到的分数也就越高,你说话越慢,你最终得到的分数也就越低。但是请注意,这并不意味着,你要像机关枪一样一刻不停的说,而是应该有正常的句内、以及句子之间的停顿。

如上的三条核心影响因素,影响指数相加已经达到了0.315,是最影响我们托福口语得分的3条因素。

托福口语本次引入自动评分系统,其实ETS已经蓄谋已久,这从ETS这份官方报告当中就可以看出,其实现在所使用的引擎已经是5.0版本的引擎,而这份引擎的第1版,其实在2008年就已经开发完成。光看这个时间,就让我们对ETS肃然起敬,这本来应该是谷歌这样的公司才应该投入的项目,竟然小小的ETS,这么早就开始做投入和沉淀了。

从官方提供的研究报告来看,Speech Rater第1代版本非常的原始,所使用的数据库也非常的小,一共就十几个样本,而且这些样本很多的数据,也不是机器自动分析和读取,而是要人工来进行输入,并且在最早期1.0版本的时候,电脑也只能判断 (pronunciation发音, fluency流畅, vocabulary词汇量, and grammar语法.) 这4个领域,但是到现在的5.0版本,仅大类就分为了6类,毫无疑问,分析的维度也大大的提升。当然在ETS眼中看来,人类的考官做得更多,人类的考官要从如下

Delivery :pronunciation, rhythm, intonation, rate of speech, pause structure, fluidity

Language Use:vocabulary and grammar

Topic Development:content and coherence

3个大领域,10个小领域,分别来进行考量和评分。

但是在最新的5.0引擎当中,就像无老师前面所展示的,最新版的引擎已经极为接近于真人阅卷者进行了评分托福口语真题,在ets官方所发布的资料当中,真人评分和机器评分的相关系数已经达到了0.81,换句话说也就是,ETS在告诉大家:我们这套系统已经做得挺好了,敢拿出来给你们看一看了。

接下来,我们再来看另外8个重要的影响因素。

很显然在这里排名第4位的影响因素,就是Total acoustic model score for all words with model trained on native data,看了这段生涩的语言,说实话无老师也有点要吐了。这个名词,还真有点不是特别好解释。总而言之,这个其实涉及到ETS在评分过程当中具体的一个流程,也就是在Speech Rater进行评分的时候,其实有一个关键性的步骤,就是让机器来识别,考生本人所说的英语是否是地道的英语,这个主要是从发音和节奏来进行判断,就是当你的口语越接近于地道的发音,那么你的分数越高,反之亦然。这个影响系数达到了0.081,因此也就有了下面第2条影响因素,Total acoustic model score with model trained on nonnative data。

如上的4条,是所有的影响系数高于0.07的影响因素,接下来所列出的7条,影响系数全都低于0.07且高于0.05,这也就意味着对于最终分数的影响,没有前面4条影响那么大,但是同时也比较重要。

其中4条高于0.06的影响因素分别是,

Average of chunk length in seconds——平均意群的长度

No.repetitions——重复程度

Score point with the highest grammatical similarity score——语法的相似程度

Total no. different lexical types——词汇的多样性

Average of chunk length in seconds——平均意群的长度,归属大类Fluency——流畅:影响因子0.066,

托福口语task1真题_托福口语真题_托福口语真题

这意味着,句子如果全都是三个词托福口语真题,类似于I like you的简单句,那么得分一定会偏低,但是如果能多用一些固定搭配、或者一些修饰性的成分,使得这个句子一方面不脱离口语化,不会像书面语那么复杂,同时句式的内容也可以比较丰富和饱满,那么得分就会提高。当然这一条的解读还可以有很多的层次,无老师在此就先不一一展开了。

No.repetitions——重复程度,归属大类Fluency——流畅:影响系数0.061。

把重复程度放在流畅程度当中,说实话有点奇怪,既然放在流畅程度这个大类当中,估计在这里面所表述的是,你是否会出现结巴的情况,也就是会连续反复同一句话。

Score point with the highest grammatical similarity score——语法的相似程度,归属大类Grammar——语法,影响系数0.062。

这一条的指向性就非常的明显了,要求考生增加自己句式的丰富性和多样性,而不要都使用相同的句式模型,比如说不要整篇全是I think或者I like,亦或者全都是There be句式。

Total no. different lexical types——词汇的多样性,归属大类——词汇量,影响系数0.061。这一条的指向性也很明显,就是要求考生增加自己用词的多样性。与前面一条Score point with the highest word CVA similarity score,指向性比较类似。只是从不同的角度来描述。

而影响系数位于0.05~0.06之间的,一共有3项分别是:

No.disfluencies——不流畅的数量,

No.silences per second——每秒的沉默数量

SD of power——对于这个名词的理解,无老师不能确定,“SD”这个名词,在论文当中也没有做过特别详细的解释,通过前后文感觉意思表达的是句子的长度。“SD of power”在这里表达的意思或许是“重音”,亦或者音量的大小。

No.disfluencies——不流畅的数量,归属大类Fluency——流畅,影响系数0.056

显然流畅程度,是ETS很在意的

No.silences per second——每秒的沉默数量,归属大类Fluency——流畅,影响系数0.056

其实这一条与第1条,平均沉默市场关联性很强,也告诉我们除了正常的抑扬顿挫之外,不应该有非常长的句子之间的停顿,这代表着你语言不连贯,对于语言不够熟悉。

如上的11条,是整个托福口语评分当中,在Speech Rater看来,最为关键的影响因素,最终影响你分数高低的核心的,影响因子就是如上的11条.

但是这并不是故事的全部!

托福口语自动评分系统Speech Rater先天的问题,简单来说就是上梁不正下梁歪!

首先我们来看ETS官方公布的,托福口语自动评分系统,与人工评分的相关性,是在0.81.

说实话,单纯的拿这么一个系数摆在我们的面前托福口语真题,我们是没有感觉的,这个系数到底是高还是低,我们根本就无从比较。但是实际上我们是有一个非常重要的参照系的,这个就是托福作文的自动评分系统e-Rater。

其实考过托福的无花果都知道有一件事情,就是托福口语和作文,作为托福考试的主观题,其实是可以申请复议的,也就是你认为考官的评分有问题,确定真实的成绩要么是太高,要么是太低,那么你就可以申请复议。

当你申请复议之后,ETS会重新安排资深考官,对于你的口语或者作文分数进行打分,当然他不会知道你原来的分数,独立对于你的分数进行评分。如果复议之后,这个分数波动的多,那就说明他们评分的一致性比较低,如果复议之后,这个分数波动的比较小,那么就说明他们评分的一致性比较高。

而无老师曾经做过复议成功率的统计,托福作文复议的成功率,提分的10%,降分的10%,不变的占80%。而托福口语复议的成功率,提分的20%,降分的20%,不变的占60%。

这就意味着托福口语,本身的评分的稳定性,其实都不如托福作文评分的稳定性,不同的考官或者说自身的考官,有可能跟新手考官的评分是不一样的。而托福作文评分的稳定性就比较好,哪怕进行复议之后大多数情况下,复议出来的分数与原来的分数其实是一致的。

这就意味着,整个托福口语自动评分系统Speech Rater,他们评分的根基,也就是ETS口语的分数评分标准稳定性,相比于托福作文来说,本身就不好。当然这个不是说托福口语,是一个非常差的评分体系,其实从世界上两大语言考试托福和雅思来说,托福口语和作文的整个评分的稳定性,其实是远好于雅思的口语和作文的。

雅思口语和作文就是因为评分的稳定性不高,人为因素影响太大,评分的高低与考官的自身素质,有极大的关联关系。中国大陆的所有雅思考场组织的相对较好,考官素质比较高,相对稳定,但是东南亚的很多考官,以及海外的很多考场组织的不是很严密,考官水平也是参差不齐。因此有很多中国的考生到海外进行雅思考试,就是为了钻这个空子,其他国家的考官给一个更高的分数。而且哪怕是中国内部的雅思考官,在私下讨论的时候也经常,对于相同的案例,大家给出的分数是不一样的。也就是在组织相对较好的中国,雅思口语和作文评分的稳定性,其实都不及托福考试口语和作文评分的稳定性。

因此在这里我们说托福的稳定性不好,是相比于托福作文评分的稳定性不够好,但是比雅思口语和作文评分的稳定性是要更高的。接下来我们回头再来说托福口语评分的问题。

在这里面我们已经非常清楚,托福口语评分的稳定性,本来就不及托福作文评分的稳定性。那么我们应该知道托福作文在采用e-Rater自动评分之后,也仍然保留了人工评分,也就是机器e-Rater与人工同时进行评分,两者分数相同或者相近的话,就给出分数。如果机器和人工评分不一致或者差距比较大的话,则交给更有经验的评分官来进行评分。

换句话说也就是,在评分体系更稳定的托福作文当中,人工评分其实也参与到了每一个细节当中,而且最终的决定权也在人工手中。

那么托福口语本身评分的稳定性,就不如托福作文评分的稳定性,那么就说明托福口语自动评分系统,带来的不确定性其实就更大,如果直接用托福口语自动评分系统Speech Rater来进行评分的话,人工的不稳定性,再加上机器评分的不稳定性,那么偏差有可能就是非常大的,复议的成功率有可能会达到40%提升,40%下降,20%不变。

而每名托福考生都交了1900块钱的考试费,每一个人的嘱托都非常重要,每一个成绩的公正性也非常重要,如果会产生这么大的偏差的话,ETS评分的公正性就不在了。因此在真正的使用当中【深度揭秘|全集】托福口语机器评分11大扣分点!——Speech Rater,托福口语自动评分系统Speech Rater在10年之内都不可能掌握主要决定权,要知道托福作文自动评分系统,在无老师于2009年爆出来之后,直到10年后的今天都仍然是要有人工参与评分。那么托福口语自动评分系统,在接下来的10年之内托福口语真题,其实都只是人工评分的一个陪衬或者说背景,而不可能当成一个主角。

而且我们要考虑到一个非常重要的考试场景的问题,托福作文评分比较容易公正,因为考官看到的,就是一个又一个的字母所组成的作文,不会有其他的影响因素。但是托福口语可能出现的影响因素非常多,比如说托福考场楼上装修,会带来非常大的噪音,比如说托福考场里有人高声唱歌,也会带来非常大的噪音,比如说托福考生不小心把话筒没有摆在嘴边,那么声音的捕捉就会非常差,这也就是为什么,托福考试在进行之前要先进行试音,适应不好是不能进行考试的。但是哪怕进行了试音之后,很多托福考生,也会不经意间的减小自己的音量。

就是无老师所说的,装修的噪音,考场的噪音,话筒不小心摆错位置,这些对于人工考官来说,其实有可能都可以勉强接受。但是对于托福口语自动评分系统,这个电脑系统来说,大量的噪音和声音变小,他们其实是无法接受的。会使整个系统完全瘫痪,因此从实际应用的角度来说,托福口语自动评分系统Speech Rater会受到非常大的挑战。

因此这一套托福口语自动评分系统Speech Rater,从展示ETS自身的科技实力上来说,是非常有价值的,但是从实用的角度来说,每一名考生的1900块钱考试费,都是必须尊重的,与人工评分0.81的相关性,1000名考生就有可能有,100名上下考生出问题,哪一名考生愿意自己出现问题呢?而且全中国一共6000个托福考位,每次有可能有600名托福考生出问题,你说NEEA是否会接受自己的托福热线被打爆呢?

因此在接下来的10年之内,这套托福口语自动评分系统Speech Rater,很有可能会短时间内进入评分体系当中,但是在10年之内,托福口语分数,最终的决定权其实还是由人工来决定的,而不是这套系统所决定的。

而这套托福口语自动评分系统,已经被引入国内,各位无花果玩一玩是可以的,但是对成绩太认真就是你的不对了。

托福准备最大的秘诀:掌握本质,提分更快!

你需要的是,无老师托福!

托福口语真题_托福口语真题_托福口语task1真题

封闭严格化管理,

正课巩固提高,课堂练习,周末模考

直至晚上21点全贴身解疑,答惑,极速提高托福成绩!

无老师托福封闭班,让你考前变学霸!

一起

来冲分

扫一扫,立即报名

未经允许不得转载:阿卡索学习网 - 英语学习培训机构网站! > 【深度揭秘|全集】托福口语机器评分11大扣分点!——Speech Rater

后台-系统设置-扩展变量-手机广告位-内容正文底部

评论

留言与评论(共有 0 条评论)
   
验证码: