如何在短时间内看完一本英文小说?

作为一个在海边长大的孩子,我从来没有见过大海。但这并没有妨碍我年少时对大海的幻想和向往。

童年的海洋是水族馆里的一只蝙蝠(后来被称为蝠鲼),一只奇怪的水母和一只色彩斑斓的珊瑚...

后来长大了,大海成了家里书架上的书名:《海底两万里》《金银岛》《鲁滨逊漂流记》...

现在我们也知道,大海见证了哥伦布的大航海,贡献了达尔文的进化论,也承载了路飞的海贼梦。

主体

十几年过去了,回想起小时候看过的那本关于海的书,剧情早就忘记了。在感慨时光飞逝的同时,也激起了我重温旧书的兴趣。

小时候,老人与海是我最喜欢的小说,所以就从这一本开始。因为我渴望知道小说讲的是什么,我也想发现一些我之前忽略的东西。所以这一次,我试图通过统计分析来理解这部小说。

这是一部2516字的小说。小说总字数26780。好像每个词平均出现10次左右。

1.首先,我想知道这本书的单词难度。

通常越短的单词越简单,所以我统计了不同长度单词数量的分布。

三个字母的单词最多。打开单词列表,发现大部分都是初中单词,比如:all、sky、sea,当然也有一些生僻字,比如:rig(器具)、fin(鳍)等等。

老人与海,四个字母的单词只占1/4。为了对比,我统计了60道雅思阅读题的单词分布。如下图所示,雅思阅读中,单词长度超过4的单词占比高达1/2。

这说明老人与海这两个词比雅思容易读多了。仔细想想也是有道理的。《老人与海》的内容比较活跃,而雅思阅读则以《科学美国人》、《经济学人》等专业文章为主。

2.然后,我想知道小说中不同词语的出现频率。

所以,我比较了去重前后单词数量的分布。

(去重:同一个单词的重复只计一次)

红色是去重前的字数,蓝色是去重后的字数。很明显,大部分单词在重复前是2-4个字母,而重复后大部分是4-7个字母。可见,2-4个字母的单词虽然很少,但使用频率很高,可谓语言的基石。另一方面,超过四个字母的单词,单词越长,使用的次数越少。而这些也是学英语时最头疼的单词。

最短和最长的单词是什么?

据统计,只有三个单词1个字母,却在小说中出现了907次。这三个字是:A,我和J,A和我是当之无愧的,但是J是什么字呢?我打开小说开始搜索,找到了原文:“给我讲讲伟大的约翰·j·麦格劳。”他说jota代表J,“原来J是中间名若塔的缩写。

有35个两个字母的单词,在小说中出现了4700次。经过一番观察,我发现了一些奇怪的词,比如va,la等等。在小说里搜索la,找到原文。原文是:“他总是认为大海是拉玛尔,这是人们爱她的时候用西班牙语对她的称呼。”La mar(乍一看还以为是昂贵的护肤品牌la mer),原本是西班牙语,意为大海。

看到这个词,我立刻想到了英文单词marine。词源学上,marine是从拉丁语mare(海)演变而来的。西班牙语是一种浪漫的语言,是拉丁语的一个分支,所以西班牙语中的mar和英语中的marine都来源于拉丁语mare。看来学好词源不仅可以帮助你学习英语,还可以融合其他的罗曼语。

除此之外,我对这本书里最长的单词很好奇。虽然只有两个,但是一个* * *只出现了五次。经过统计,人们发现它们是自觉的和磷光的。第一个词是正常。至于第二个词,如果不考gre,最好忽略。

接下来我想看看这部小说里有哪些长难句。

于是我统计了不同长度句子数量的分布。

据统计,整部小说由1918句组成。长度相同的句子归为一组,一共有63组。六个字组成的句子最多,***140句。

作为中国培养的学生,我最关心的就是长难句。毕竟那是考试的障碍。所以我算了最长的一句话。这个句子由69个单词组成。是这样的:“从那以后,他开始梦见长长的黄色沙滩,他看见第一只狮子在黎明时分来到沙滩上,然后是另一只。他走过来,下巴搁在船头的木板上,船在离岸的晚风中抛锚,他等着看是否会有更多的狮子,他很高兴不难看出,这句话虽然长,却是由几个简单句组成的复合句。征服每一个简单的句子。

如果你觉得这句话已经挺长了,那我们来对比一下雅思阅读中的长句。统计了60道雅思阅读题,发现雅思阅读中最长的句子。

这句话来自雅思剑桥8阅读题。这本读物的名字叫《天才的本质》。这句话由118个单词组成,几乎是上一句话长度的两倍。它是:“在天才的神话中,人们普遍认为,如果人们在一个领域有天赋,他们必须在另一个领域有所防备,知识分子不切实际,天才燃烧得太快太快而耗尽,天才的人是古怪的,他们是身体虚弱的,天才和疯狂之间只有一线之隔,天才存在于家庭中,天才如此聪明,他们不需要特殊的帮助, 这种天赋等同于高智商,某些种族比其他种族更聪明、更擅长音乐或数学,天才得不到认可和奖励,逆境使人明智,或者有天赋的人有责任使用他们.

看了这句话,我觉得海明威友好多了。

这个对比也证明了《老人与海》在句子层面比雅思阅读简单很多。

接下来,为了找出这部小说在讲什么,我试着找出最重要的话。

在这里,我使用TF-IDF统计方法。这个算法会对一系列文章中每篇文章的每个单词进行评分。分数越高,该单词对该文档越重要。

为了得到尽可能准确的结果,我的语料库包含了几十部小说和作品,从《血字研究》到《哈姆雷特》和《国富论》。

现在我们来看看统计结果。

上图是老人和大海最重要的40个字。最先吸引我的词是:鱼、海豚、沙丁鱼、海龟等等。看着这些文字,我仿佛潜入了大海,看着一群群的鱼游过。

此外,还有小船、桨、桅杆、船尾、舵柄和鱼叉。一个渔夫划着船,拿着鱼叉盯着大海的画面已经跳到了页面上。阳光和微风(breeze)可能是指有时天气还不错。

现在我知道故事的背景了。但我对发生的事情还是一头雾水。毕竟,一部获得诺贝尔文学奖的小说,不太可能只是关于渔民轻松舒适的捕鱼生活。

6.为了进一步理解故事,我想在时间轴上重新审视这些文字。

所以我用了另一个工具:word位置图。

上图中,蓝色竖线标出了文字在文章中出现的位置。我用红框把小说分成三个部分,每个部分9000字左右,然后我用黑框选了一些位置。

你一眼就能看出,鱼是整篇文章的重点。毫无疑问,这是一个关于钓鱼的故事。

让我们看看第一部分。密集出现的词是大和饵,可能表示渔民发现了一条大鱼,然后开始准备放饵。第二部,海豚频繁出现。是因为渔民想抓海豚吗?

小说的前两部分很平静,好像没有什么值得注意的地方。

开始看第三部分,内容最丰富。

出现的第一个词是圆。鱼在船周围游泳吗?然后,我发现第三部分反复提到了shark。可能船被鲨鱼袭击了!渔民们的反应是什么?

往下看,只见鱼叉(harpoon)先频繁出现,然后是刀(knife)。渔民在反击鲨鱼吗?然后,我发现了hit这个词,和shark的位置高度重合。可能是鲨鱼在撞船,也可能是渔民在还击。

再往下看,oar(桨)和skiff(独木舟)也被反复提及。也许深陷险境的渔夫正在用桨击打鲨鱼,也许他正在拼命划桨以逃离危险。

一场激烈的斗争正在展开。渔夫会怎么样?

毫无疑问,这部小说可以用统计学的方法更定量地理解。但要想欣赏精彩的情节,还是得打开书,一句一句的读。