有哪些「语言垃圾桶」?
发布时间:2023-10-05 栏目:小九体育
       

    

  印尼语(基于马来语)和菲律宾语(基于他加禄语)的历史脉络都已梳理过:(后者于2020.10.10补充)

  东南亚传统上就商贸往来频繁,以闽南语为主(也包括粤语、客家话等)的汉语方言随着汉人“下南洋”而渗透到东南亚各南岛语中。而马来语从三佛齐的兴起开始,就作为了作为一种前殖民时代的强势通用语,同样也对北边的他加禄语造成了一些影响;但因为当时菲律宾群岛的重心不在马尼拉所在的吕宋岛,而是南方的棉兰老和苏禄,所以反之不亦然,他加禄语对马来语没什么影响。

  在西方殖民者到来之前,印度教和教先后在两地传播。菲律宾的吕宋岛上有印度化的汤都,南边从苏禄群岛延伸到加里曼丹岛东北有苏禄苏丹国。印尼先是从苏门答腊岛兴起印度化的三佛齐,然后是来自爪哇岛的满者伯夷(同样是印度化),再是化的马六甲苏丹国。

  那么,印度教带来的梵语借词(包括一些泰米尔语等),教带来的阿拉伯语和波斯语借词,也都进入了马来语和他加禄语。不过,由于他加禄语使用者之后基本皈依天主教,所以这一层的影响特别大程度被后来的西语借词削弱了,没有印度教之于马来语那么明显。

  菲律宾先被西班牙殖民,不仅吸收了海量的西语借词,还因为同西语美洲的关系变得密切,有相当一部分纳瓦语(继承自阿兹特克帝国,是当时墨西哥一带的通用语)和克丘亚语(继承自印加帝国,在当时秘鲁等安第斯山脉一带通用)的词汇也进入了他加禄语中,这点放在东南亚是非常奇特的(虽然多数只是美洲当地特色物种的词汇,就算没经西语转手,之后也很可能再被英语带入,但比如用纳瓦语 tīzatl 他加禄语 tisa 来表示“粉笔”就很有墨西哥特色了)。之后再被美国殖民,所以同样也有很多英语借词,尽管放在全球学英语的背景下就没那么突出了。

  印尼苏门答腊岛的马六甲海峡沿岸先被葡萄牙殖民(但葡人的影响比较小),然后再整体纳入了荷属东印度,同样导致大量荷兰语词汇进入了当地的马来语变体。不过印尼同其它荷属殖民地的联系就相对较弱,尽管可能也因为荷兰在印度的据点而吸收了泰米尔语等印度语言,但毕竟从殖民时代之前开始,印度和东南亚就始终有联系(甚至“东南亚”这一划分某一些程度上就弱化了和印度的关系),所以倒不能说开辟了新的借词来源,毕竟荷兰没从南非之类的运来很多奴隶/劳工。

  在现代取得独立后,两者各自从“马来语”和“他加禄语”升级成为代表全国的“印尼语”和“菲律宾语”。但是在这两个民族和语言极其复杂的国家,这势必意味着需要再囊括全国各语种的词汇。这些借词的具体比例不好找,因为通常统计的是「外国语言」而非「其它语言」的借词,但能肯定存在且相当多。

  马来语在印尼差不多就是个外来语,尽管在葡人到达前,就因为早先三佛齐的影响而成为了几乎全境的通用语(而且事实上当时的“市场马来语”已经具有混合语/克里奥尔语的迹象了,并在马来群岛各地广泛吸收借词),但与之相对的是母语者比例极低。然而,爪哇语的强势地位不容忽视,毕竟母语者数量占了全国四到五成,现首都雅加达所在的也正是爪哇岛(所以要迁都……),印尼语在不可避免地爪哇化。加之,印尼又是全球人口第一的国家,群体甚至有点阿拉伯化的倾向(比如要求直接叫 Allah,不用意译的 Tuhan)。

  而他加禄族确实做到了在菲律宾国内是第一大族裔,但人口只有区区三成,无论是西属还是美属时期都不算是全国性的通用语——把国家名称安在这样一种语言上是很少见的,绝大多数缺乏主体民族的前殖民地国家都不会这么干。总之,名义上说是说要继续囊括南部米沙鄢、棉兰老等地的其它语言,从“基于他加禄语的”Pilipino 转变为真正代表全菲律宾的Filipino(因为他加禄语没有/f/,加入/f/从语言名称上就代表了包容),虽然具体怎样发展不好说,但至少确实已经有一部分宿务语、伊洛卡诺语、希利盖农语等的词汇进入了菲律宾语中。

  印尼语的词汇主体仍然是本土词(但问题是统计时似乎把「来自所有印尼境内的南岛语的词汇」都视作「本土词」了……而未必马来语自己的词汇),“外来词”(即外国语言的词汇)构成比例如下,荷兰语有将近一半:

  不过谷歌上能查到另一张图,不难发现几个数据基本没变,但“英语”换成了“(其它)本土语”,这就有点怪了。如果在数据有整体变化的同时加入“(其它)本土语”一栏还合理,但这里只是纯粹把“英语”替换了。

  至于他加禄语,在谷歌上倒是能搜到一个整体的词汇构成比,但这样的一个问题就更大了,西语的比例有点低,而纳瓦语的比例则无论如何都太高了:

  我从 reddit 的一个贴子里找到了上图,但下面有人指出,这张图先前也许会出现在维基词条 List of loanwords in Tagalog 里(我印象中最早也在维基里看到过,现在没了)。

  然后这位指了个路,在 Cui (2012):Hokkien Chinese Borrowings on Cookery in Tagalog里提到了另一个比例,引用来自 Thorp (1972),但这是一篇没有出版的论文……只能说凭感觉来看相对靠谱一些,西语借词比例占33%(大概把来自西语美洲的词也算进去了)。

  他加禄语的这张奇怪的饼状图可能已广泛流传,印尼语那张也容易被当成是整体的词汇比例(而非借词里的比例),在 Quora 上也能找到有人疑似基于这两幅提出的问题,说“为什么菲律宾语只有13%的西语借词,而印尼语有43%的荷兰语借词”。解答对于他加禄语的部分很有参考价值,因为“这个数据是错的”,其实就是针对「借入西语的阿拉伯语词汇」,在这些借词之中有13%又经西语转手借入了他加禄语,而不是「他加禄语里所有西语借词只占13%」。

  总之,这两幅图还是不要再传播了……尤其是他加禄语,这么高的纳瓦语借词比,怎么会是亚洲的语言呢。当然,印尼语和他加禄语的借词来源复杂还是要肯定的,也算是有“垃圾桶”的感觉。

  我们可优先考虑对“一个语言词源的复杂程度”这一概念进行量化。如果一门对象语言的词汇一共来自N种语言,包括它本身的固有词和来自N-1门其他语言的外来词。那么,当我们从对象语言随机抽取一个词时,这个词来自特定源语言i(i属于{1, 2, 3, …, N})的概率p_i,显然就是源语言i的词汇在对象语言中所占的比例。

  可以发现,一门对象语言的源语言越多,或者来自不同源语言的比例越平均,则该对象语言的信息熵就越大,这是符合我们预期的。特别地,当该对象语言不存在借词时,信息熵为0。

  有了这个定义之后,我们比较不同语言的词源复杂(或“垃圾桶”)程度就很简单了,只要考虑这门语言的词汇借用了其他哪些语言,以及从每门语言借词的比例即可。当然,定义“不同语言”本身是一件挺麻烦的事,不过只要比较不同语言的时候采取同样的分类标准问题也不大。比如,按照这一个定义,英语的“词源复杂度”信息熵在2.21左右。

  如果按照里给出的词源比例,匈牙利语词汇似乎是比较符合源语言多且平均这两个条件的。如果把uncertain单列成一门语言,计算出来的信息熵是2.57,比英语高一些。

  从史前时代开始就不断借词,甚至有kuningas(对应king)这种原始日耳曼语的词,和一些来自前印欧语言的借词;突厥和伊朗语言的词也借了不少。

  到了中世纪芬兰成为瑞典一部分,开始大量借瑞典语和低地德语的词,而俄语词也随着和诺夫哥罗德的贸易进来了。

  提名意第绪语(演化自中古德语)与拉迪诺语(演化自中古西语),先占个坑回头再补……