【深度揭秘|全集】托福口语机器评分11大扣分点！—

托福口语task1真题_托福口语真题_托福口语真题

10年前，也就是2009年无老师在中国大陆，第1个爆料了ETS开始使用作文自动评分系统e-Rater。

去年无老师全球首爆托福考试严惩作文模板。

前几天无老师又独家爆料了，ETS即将对于现行的托福考试进行改革，很多无花果风声鹤唳，因此无老师又专门发一篇文章，告诉各位无花果，托福大型的改革，通常是提前两年通知，两年后才能正式实行，也就是最早也要在2021年才能正式实行。同时无老师手里，也掌握了2013年ETS进行内部测试的试题，无老师接下来会找时间再提前爆料一下。

托福的教研，应该先研究标准，这些托福考试的标准，全都藏在ETS的官方研究论文之中，今天咱们就从ETS的官方研究论文当中，深度解读一下ETS的Speech Rater！这些论文是很有价值的，无老师10年前研究e-Rater论文的成果，直到今天对于托福考生也极有指导意义，历久弥新！

10年前的2009年，无老师系统的总结了e-Rater运营机制，今天再来权威的解读一下，托福口语最新的自动人工智能评分系统Speech Rater！

Speech Rater，是在去年2018年第一届中国托福年会首爆，无老师被邀请在本届年会第一排就坐。下面是当时第一手照片。

托福口语真题_托福口语真题_托福口语task1真题

本次无老师的解读，是有目的性的，是直接帮助各位无花果高度浓缩了ETS的官方论文，取其精华，把论述部分全都扔掉，直接把Speech Rater核心拿分点，直接送到各位无花果的面前，听无老师，得托福口语满分，就这么简单！

托福口语task1真题_托福口语真题_托福口语真题

我们直接忽略这份报告当中前面的22页，因为前面的22页全都是实验细节的剖析，对考生指导意义有限。我们直接从最终的核心实验说起，也就是从23页最核心的内容讲起。

在23页这张表当中，一共列出了整整20条，会影响最终托福口语分数的核心评分标准。

在这20条当中，ETS将其分为两大类，第一大类是Delivery——表达；第二大类是Language use——语言的使用。估计看这两大类的名字，你想直接撞南墙，具体在说什么根本看不懂。没事，继续往下看你就懂了。

第一大类Delivery——表达，又分为4个层面

1 Fluency——流畅度

2 Pronunciation——发音

3 Prosody——韵律

4 Rhythm——节奏

第二大类是Language use——语言的使用，分为两个层面

1 Grammar——语法

2 Vocabulary——词汇量

其实当各位无花果看到这里的时候，就已经开始有感觉了，相比于刚才的表达和语言使用这两个词，非常显然，流畅度、发音、韵律、节奏以及语法和词汇量，就让各位无花果很容易理解，ETS到底想要点什么了。

随着无老师解读的层层深入，很显然，高潮要来了！

在这份官方的研究报告当中，ETS非常关键的列出了这里面每一个细项的得分点，与最终总分的相关系数，换句话说，这就意味着这里面每一个得分点，到底多大程度上，会影响最终的得分。

托福口语task1真题_托福口语真题_托福口语真题

右面这一整排系数相加，它们的总和为1，这也就意味着，在这张表格当中已经列出了，所有最终会影响托福口语得分的每一个影响因素，并且还给出了每一个影响因素的权重。右面给出的权重越高，那么也就会越影响最终的得分，给出的影响权重越低，说明相关性就越低，他们对于最终得分的影响也就越低。

最终在这里，无老师用黄底标出了，所有的影响系数在0.05以上的影响因素。影响系数在0.05以上的，占据了整个表格20项当中的11项，而这里面尤其是第1项Mean silence duration平均沉默时长，影响因素最大，它是所有20项影响因素当中，唯一一项超过的0.1的影响因素，达到了0.119，这就意味着我们在托福口语考试当中，不适当的停顿，其实是最为伤害我们分数的影响因素，而且停顿时间越长，停顿次数越多，就会使我们的分数越底！

位居影响因素第二的Score point with the highest word CVA similarity score。影响因素指数达到了0.99，无老师将这段英语，翻译成各位无花果可以理解的中国话，这段话说的意思就是，你使用的单词的相似性，反过来说也就是，你的单词量越大，进行的同意替换越多，他们的分数也就越高；相反的，如果你总用相同的单词，而不进行同意替换，那么你得到的分数就越低。

位居第三的影响因素Speaking rate in words per second，影响指数达到了0.97。这个影响因素指的是，你的“语速”。也就是在正常情况下，你的语速越高，你得到的分数也就越高，你说话越慢，你最终得到的分数也就越低。但是请注意，这并不意味着，你要像机关枪一样一刻不停的说，而是应该有正常的句内、以及句子之间的停顿。

如上的三条核心影响因素，影响指数相加已经达到了0.315，是最影响我们托福口语得分的3条因素。

托福口语本次引入自动评分系统，其实ETS已经蓄谋已久，这从ETS这份官方报告当中就可以看出，其实现在所使用的引擎已经是5.0版本的引擎，而这份引擎的第1版，其实在2008年就已经开发完成。光看这个时间，就让我们对ETS肃然起敬，这本来应该是谷歌这样的公司才应该投入的项目，竟然小小的ETS，这么早就开始做投入和沉淀了。

从官方提供的研究报告来看，Speech Rater第1代版本非常的原始，所使用的数据库也非常的小，一共就十几个样本，而且这些样本很多的数据，也不是机器自动分析和读取，而是要人工来进行输入，并且在最早期1.0版本的时候，电脑也只能判断 (pronunciation发音, fluency流畅, vocabulary词汇量, and grammar语法.) 这4个领域，但是到现在的5.0版本，仅大类就分为了6类，毫无疑问，分析的维度也大大的提升。当然在ETS眼中看来，人类的考官做得更多，人类的考官要从如下

Delivery ：pronunciation, rhythm, intonation, rate of speech, pause structure, fluidity

Language Use：vocabulary and grammar

Topic Development：content and coherence

3个大领域，10个小领域，分别来进行考量和评分。

但是在最新的5.0引擎当中，就像无老师前面所展示的，最新版的引擎已经极为接近于真人阅卷者进行了评分托福口语真题，在ets官方所发布的资料当中，真人评分和机器评分的相关系数已经达到了0.81，换句话说也就是，ETS在告诉大家：我们这套系统已经做得挺好了，敢拿出来给你们看一看了。

接下来，我们再来看另外8个重要的影响因素。

很显然在这里排名第4位的影响因素，就是Total acoustic model score for all words with model trained on native data，看了这段生涩的语言，说实话无老师也有点要吐了。这个名词，还真有点不是特别好解释。总而言之，这个其实涉及到ETS在评分过程当中具体的一个流程，也就是在Speech Rater进行评分的时候，其实有一个关键性的步骤，就是让机器来识别，考生本人所说的英语是否是地道的英语，这个主要是从发音和节奏来进行判断，就是当你的口语越接近于地道的发音，那么你的分数越高，反之亦然。这个影响系数达到了0.081，因此也就有了下面第2条影响因素，Total acoustic model score with model trained on nonnative data。

如上的4条，是所有的影响系数高于0.07的影响因素，接下来所列出的7条，影响系数全都低于0.07且高于0.05，这也就意味着对于最终分数的影响，没有前面4条影响那么大，但是同时也比较重要。

其中4条高于0.06的影响因素分别是，

Average of chunk length in seconds——平均意群的长度

No.repetitions——重复程度

Score point with the highest grammatical similarity score——语法的相似程度

Total no. different lexical types——词汇的多样性

Average of chunk length in seconds——平均意群的长度，归属大类Fluency——流畅：影响因子0.066，

托福口语task1真题_托福口语真题_托福口语真题

这意味着，句子如果全都是三个词托福口语真题，类似于I like you的简单句，那么得分一定会偏低，但是如果能多用一些固定搭配、或者一些修饰性的成分，使得这个句子一方面不脱离口语化，不会像书面语那么复杂，同时句式的内容也可以比较丰富和饱满，那么得分就会提高。当然这一条的解读还可以有很多的层次，无老师在此就先不一一展开了。

No.repetitions——重复程度，归属大类Fluency——流畅：影响系数0.061。

把重复程度放在流畅程度当中，说实话有点奇怪，既然放在流畅程度这个大类当中，估计在这里面所表述的是，你是否会出现结巴的情况，也就是会连续反复同一句话。

Score point with the highest grammatical similarity score——语法的相似程度，归属大类Grammar——语法，影响系数0.062。

这一条的指向性就非常的明显了，要求考生增加自己句式的丰富性和多样性，而不要都使用相同的句式模型，比如说不要整篇全是I think或者I like，亦或者全都是There be句式。

Total no. different lexical types——词汇的多样性，归属大类——词汇量，影响系数0.061。这一条的指向性也很明显，就是要求考生增加自己用词的多样性。与前面一条Score point with the highest word CVA similarity score，指向性比较类似。只是从不同的角度来描述。

而影响系数位于0.05~0.06之间的，一共有3项分别是：

No.disfluencies——不流畅的数量，

No.silences per second——每秒的沉默数量

SD of power——对于这个名词的理解，无老师不能确定，“SD”这个名词，在论文当中也没有做过特别详细的解释，通过前后文感觉意思表达的是句子的长度。“SD of power”在这里表达的意思或许是“重音”，亦或者音量的大小。

No.disfluencies——不流畅的数量，归属大类Fluency——流畅，影响系数0.056

显然流畅程度，是ETS很在意的

No.silences per second——每秒的沉默数量，归属大类Fluency——流畅，影响系数0.056

其实这一条与第1条，平均沉默市场关联性很强，也告诉我们除了正常的抑扬顿挫之外，不应该有非常长的句子之间的停顿，这代表着你语言不连贯，对于语言不够熟悉。

如上的11条，是整个托福口语评分当中，在Speech Rater看来，最为关键的影响因素，最终影响你分数高低的核心的，影响因子就是如上的11条.

但是这并不是故事的全部！

托福口语自动评分系统Speech Rater先天的问题，简单来说就是上梁不正下梁歪！

首先我们来看ETS官方公布的，托福口语自动评分系统，与人工评分的相关性，是在0.81.

说实话，单纯的拿这么一个系数摆在我们的面前托福口语真题，我们是没有感觉的，这个系数到底是高还是低，我们根本就无从比较。但是实际上我们是有一个非常重要的参照系的，这个就是托福作文的自动评分系统e-Rater。

其实考过托福的无花果都知道有一件事情，就是托福口语和作文，作为托福考试的主观题，其实是可以申请复议的，也就是你认为考官的评分有问题，确定真实的成绩要么是太高，要么是太低，那么你就可以申请复议。

当你申请复议之后，ETS会重新安排资深考官，对于你的口语或者作文分数进行打分，当然他不会知道你原来的分数，独立对于你的分数进行评分。如果复议之后，这个分数波动的多，那就说明他们评分的一致性比较低，如果复议之后，这个分数波动的比较小，那么就说明他们评分的一致性比较高。

而无老师曾经做过复议成功率的统计，托福作文复议的成功率，提分的10%，降分的10%，不变的占80%。而托福口语复议的成功率，提分的20%，降分的20%，不变的占60%。

这就意味着托福口语，本身的评分的稳定性，其实都不如托福作文评分的稳定性，不同的考官或者说自身的考官，有可能跟新手考官的评分是不一样的。而托福作文评分的稳定性就比较好，哪怕进行复议之后大多数情况下，复议出来的分数与原来的分数其实是一致的。

这就意味着，整个托福口语自动评分系统Speech Rater，他们评分的根基，也就是ETS口语的分数评分标准稳定性，相比于托福作文来说，本身就不好。当然这个不是说托福口语，是一个非常差的评分体系，其实从世界上两大语言考试托福和雅思来说，托福口语和作文的整个评分的稳定性，其实是远好于雅思的口语和作文的。

雅思口语和作文就是因为评分的稳定性不高，人为因素影响太大，评分的高低与考官的自身素质，有极大的关联关系。中国大陆的所有雅思考场组织的相对较好，考官素质比较高，相对稳定，但是东南亚的很多考官，以及海外的很多考场组织的不是很严密，考官水平也是参差不齐。因此有很多中国的考生到海外进行雅思考试，就是为了钻这个空子，其他国家的考官给一个更高的分数。而且哪怕是中国内部的雅思考官，在私下讨论的时候也经常，对于相同的案例，大家给出的分数是不一样的。也就是在组织相对较好的中国，雅思口语和作文评分的稳定性，其实都不及托福考试口语和作文评分的稳定性。

因此在这里我们说托福的稳定性不好，是相比于托福作文评分的稳定性不够好，但是比雅思口语和作文评分的稳定性是要更高的。接下来我们回头再来说托福口语评分的问题。

在这里面我们已经非常清楚，托福口语评分的稳定性，本来就不及托福作文评分的稳定性。那么我们应该知道托福作文在采用e-Rater自动评分之后，也仍然保留了人工评分，也就是机器e-Rater与人工同时进行评分，两者分数相同或者相近的话，就给出分数。如果机器和人工评分不一致或者差距比较大的话，则交给更有经验的评分官来进行评分。

换句话说也就是，在评分体系更稳定的托福作文当中，人工评分其实也参与到了每一个细节当中，而且最终的决定权也在人工手中。

那么托福口语本身评分的稳定性，就不如托福作文评分的稳定性，那么就说明托福口语自动评分系统，带来的不确定性其实就更大，如果直接用托福口语自动评分系统Speech Rater来进行评分的话，人工的不稳定性，再加上机器评分的不稳定性，那么偏差有可能就是非常大的，复议的成功率有可能会达到40%提升，40%下降，20%不变。

而每名托福考生都交了1900块钱的考试费，每一个人的嘱托都非常重要，每一个成绩的公正性也非常重要，如果会产生这么大的偏差的话，ETS评分的公正性就不在了。因此在真正的使用当中【深度揭秘|全集】托福口语机器评分11大扣分点！——Speech Rater，托福口语自动评分系统Speech Rater在10年之内都不可能掌握主要决定权，要知道托福作文自动评分系统，在无老师于2009年爆出来之后，直到10年后的今天都仍然是要有人工参与评分。那么托福口语自动评分系统，在接下来的10年之内托福口语真题，其实都只是人工评分的一个陪衬或者说背景，而不可能当成一个主角。

而且我们要考虑到一个非常重要的考试场景的问题，托福作文评分比较容易公正，因为考官看到的，就是一个又一个的字母所组成的作文，不会有其他的影响因素。但是托福口语可能出现的影响因素非常多，比如说托福考场楼上装修，会带来非常大的噪音，比如说托福考场里有人高声唱歌，也会带来非常大的噪音，比如说托福考生不小心把话筒没有摆在嘴边，那么声音的捕捉就会非常差，这也就是为什么，托福考试在进行之前要先进行试音，适应不好是不能进行考试的。但是哪怕进行了试音之后，很多托福考生，也会不经意间的减小自己的音量。

就是无老师所说的，装修的噪音，考场的噪音，话筒不小心摆错位置，这些对于人工考官来说，其实有可能都可以勉强接受。但是对于托福口语自动评分系统，这个电脑系统来说，大量的噪音和声音变小，他们其实是无法接受的。会使整个系统完全瘫痪，因此从实际应用的角度来说，托福口语自动评分系统Speech Rater会受到非常大的挑战。

因此这一套托福口语自动评分系统Speech Rater，从展示ETS自身的科技实力上来说，是非常有价值的，但是从实用的角度来说，每一名考生的1900块钱考试费，都是必须尊重的，与人工评分0.81的相关性，1000名考生就有可能有，100名上下考生出问题，哪一名考生愿意自己出现问题呢？而且全中国一共6000个托福考位，每次有可能有600名托福考生出问题，你说NEEA是否会接受自己的托福热线被打爆呢？

因此在接下来的10年之内，这套托福口语自动评分系统Speech Rater，很有可能会短时间内进入评分体系当中，但是在10年之内，托福口语分数，最终的决定权其实还是由人工来决定的，而不是这套系统所决定的。

而这套托福口语自动评分系统，已经被引入国内，各位无花果玩一玩是可以的，但是对成绩太认真就是你的不对了。

托福准备最大的秘诀：掌握本质，提分更快！

你需要的是，无老师托福！

托福口语真题_托福口语真题_托福口语task1真题