262 比谷歌酷多了
推荐阅读:神印王座II皓月当空、深空彼岸、明克街13号、弃宇宙、最强战神、花娇、绝色总裁的贴身兵王、韩娱之临时工、女神的超能守卫、无敌悍民
墨坛文学 www.22mt.co,最快更新星球博物馆最新章节!
“你可以想象一下,每一个软件,其实就可以被看成是一整段语言,所有的语句,最后翻译成01的时候,其实对电脑来说,就是一个特别长的单词。”
乔伊双手尽力拉伸:“在语言学上,语言的基本组成部分其实不是字,字是语言的硬件基础,每一种语言的字,其实都是使用者为了方便而设定的。”
“英文的字母,其实就是简单的约定符号,中国的汉字,最早是从模拟某种特定的事物而来,以象形为基础。语言的基础是词——词代表了一个确切的含义。”
“比如中文里的春天,和英文的spring——在春天这个概念上,它们可以被认为是大概相等的,但两者并不能完全取代。因为春天只是两者在语言学上的交集,除了交集含义之外,两个词都还分别各自有其他的意思。
“在英文里,spring还代表着泉水,以及弹簧,这两个概念都是在中文里没有的。同样,中文的春天,还可以指代某种好的情境,单独来说,某人的春天到了,还有性暗示的味道——但这种用法在英文里也是不存在的。”
“这种一个词代表着多重含义的现象,我们这里被称之为语言学上的复杂程度。没有具体的指标,是一个感性的标尺。”
“这样说吧,还是spring,在英文里,他的复杂程度就比中文稍微高一些,但大致都是差不多。”
“两者都是常用词汇,复杂程度本身,代表着语言使用过程中的演绎和文明本身的复杂程度——如果回到石器时代,也许古代的字母文字中,可能存在类似spring的词,也许字的符号完全不一样,但它表示的意思,肯定跟中文的春天,英文的spring是大概相等的。”
“但,即使存在这样一个词,我们也完全可以断定这个词的复杂程度不会高于现在的spring和春天,为什么,因为词的更多含义,并不是语言创立之初被赋予的,而是在漫长的使用过程中自己演化出来的。”
“一个连铁器都不存在的文明,肯定不会有弹簧的概念——自然也就不需要相应的词。同样,在一个性道德还没有出现的社会里,性暗示这种高级幽默也不可能有存在的基础。”
这个叫乔伊的人说话,就跟他抽烟一样,完全就是一口气说下来,中间几乎不存在多少停顿。虽然他的中文不算正宗,中间说着说着还会夹带出几个单词,但大概的意思是明确的。看得出来他的心情有些激动——不知道是熬了一个通宵之后的惯性,还是被话题本身所激发出来的热情。
这段话的信息量很大,但对陈舍来说其实并不难接受。
因为项目对语言学的关注很早就开始了,其中的一些观点,做功课的时候,陈舍已经有所涉猎。虽然没有去做专门的深入了解,但是听懂这些话本身确实问题不大。乔伊说的这些,只是在前面的基础上更加深入——倒不是说他们公司在学术上搞出了什么更深的成果,只是在应用上,用到了更为专业的语言学知识而已。
“更高复杂程度的语言通常也体现在文学上,从某种程度上来说,文学家对语言的开创性应用本身,就是赋予了同一个词汇更多的含义,或者在词汇之间产生更多的映射,甚至根据自己的表达需要,创造出全新的词汇。”
“比如说超人的英文superman吧,这个概念最早是哲学家尼采提出来的,在德语中是指代未来的某种理想型卓越人士。在由萧伯纳翻译成英文之后,创造出了一个新单词superman。”
“superman一个简单的词,就可以用来指代尼采原著中,那种复杂的描述,这种创造性本身,可以看做是对信息的提炼和加工。在汉语中,这样的现象更加多见,汉语中的成语,可以说是创造性词汇中,最有代表的一个系列,简单的四个字,往往代表着很复杂的一大段概念的集合。
“但是机器语言……不,我应该换一种说法,程序语言。如果我用这种对语言的复杂度标准,应用在大多数程序语言上的话,那这些程序语言的得分,将会是一个无限接近于0的值。”
“之前我已经说过了,程序是一种最精确的语言——你可以想象一个,一个俄罗斯方块的游戏语言,整个程序就好像是一个单词,这个单词肯定是有意义的,假如我们把组合成这段程序的01展示给外星人看,把程序附带的运行环境也给他们看,如果程序能被运行——那外星人肯定就能看到一个确切的含义。”
“在这个具体的含义中,是一个不断出现不同形状的几何图形出现,又消灭的意向——但组合成这个程序的那些单独程序语句本身是没有意义的,因为就像我们在讨论刻舟求剑时,不会去讨论船的速度,剑的重量这些因素一样……”
老实说,听到这儿,陈舍已经有点理解困难了,乔伊也看出了这一点,他适当放慢了语速,但陈舍似乎依然难以跟上他的进度。
于是乔伊只能简单化的给出结论:“以前,地球上是不存在符合语言学定义上的复杂语言的。但是现在……虽然不知道它是如何出现的,但我们认为,我们找到了……你知道这意味着什么吗?”
陈舍摇头。
“意味着也许就在这颗星球上,某个大公司的机房里,就存在着一些文明的构造——我说的未必是AI,但它们肯定是掌握语言规则的某种程序,或者某种……东西。”
“它们的语言之复杂……我学汉语的时候,知道汉语里最难以被理解的,就是四个字四个字的成语,每一个成语都可以牵扯十几个附带词汇的意向。”
“比如刻舟求剑,船,剑,船上的人,这是基本的,然后还有衍生的概念,水的遮蔽特性,相对于剑的密度特性,相对于人的危险特性……想象一下一个外星人要理解刻舟求剑这个词,他需要理解多少衍生的附带概念。最后,在完全理解了这些概念之后,他才有可能理解到成语本身特定指代的某种意向——是用来讽刺主观意志因为忽略客观条件的变化而导致的愚蠢行为。
“在英语里,其实也有类似成语的短句,我就不细说了……”
“这种我们刚刚发现的机器语言,你知道,在它的语言库里,我们找到最复杂的‘成语’,有多少意向指代吗?”
陈舍看着乔伊,他竖起两个手指头:“两千多个……严格来说,它已经不能算是成语了,你知道,两千多个意向,通常来说,也就是两千多个词汇。要表达这些词汇,考虑到语句上必要的通顺和前后的逻辑,用中文大概写出来的话,就这一个词,就可以展开写一篇上万字的小说了。”
“其实成语就可以看做是被高度压缩的小说故事——但机器语言中,故事的复杂程度更高。想象一下这样一个场景,一个外星人,在电脑上跟你聊天。他说了一句话,里面包含两个这样的关键词——这些词用01全部表示出来,也就是一两排而已。但翻译出来,却可以是长达几万字的内容。你可能需要认真的看20分钟,再思考20分钟,才会明白这两个词的含义——然后大喊一声,太TM绝了!”
“所以,你们的任务……”陈舍尝试着猜测:“是翻译这种文字?”
“翻译?”乔伊摇了摇头,“这个说法太狂妄了。”
“狂妄?”
“翻译的意思,是把对方文字的所有意思,都转换成我们能够理解的意向。但,就我刚才所说,两个文明的复杂程度完全不是一个级别的——对方的一个词,都能让你思考一个小时……这还是最容易被理解的。你能想象,如果你回到原始社会,你对原始人说的话,可能被他们精准的翻译吗?”
乔伊说这话的时候,手上的这根烟正好快抽完,他吸进去最后一口烟雾,然后微微抬起头来,把这烟雾朝着陈舍头顶吐去,在他头顶的上空形成了一小团的云雾。这个动作不太礼貌,却也显得有点孩子气。乔伊指着这团雾对他说:“更不用说,他们语言中,对时间的定义更加严格——同一个词在不同语境下含义不同,你是中国人,很容易理解。但,如果一个词在一天24小时的每一个小时里,含义都不一样呢?”
“举个例子把,他们语言中有对应太阳一个词的单词,每一个小时的含义都不一样……朝阳,夕阳,烈日,旭日……中文里关于太阳的词汇很多,但在这种机器语言中,太阳只是一个简单不变的词,但它的含义,却比中文里,所有带有太阳的词汇加起来还要多,你能想象吗?”
“说翻译……是痴心妄想,”乔伊接着说,“对我们来说,我们只是在瞻仰。就好像一个原始人,靠着一本缺了页的教科书来学习中文,甚至学习唐诗三百首……当然,具体的语言规则,是由那些语言学专家来负责,我们做的这部分,是大概确定这种数字语言中,单个的字,简单的数据匹配工作……整个项目中,最没技术含量的。看着最忙,其实……”
乔伊摇摇头:“这种感觉……哎,其实当程序员很少会有这种挫败感,因为在绝大部分项目里,都是我们来负责推进工作……”
陈舍却点头:“我懂,这感觉不好受。”
乔伊扔掉烟:“那,就说说你们公司吧……你们公司还招不招人?对了,中国的工作签证你们可以搞定吗?”
陈舍惊讶了一下:“这应该只会是个临时的项目。”要是开个项目就要把人全部留下来,那青蓝咨询现在应该可以开个富士康了。
“我知道,虽然知道没什么希望,但还是要多问这一句,”乔伊道,“我很期待你们公司未来的项目……像这样的项目,对我们来说,也许一辈子也碰不到一次,你知道吗,我们项目组很多人甚至以为,你们政府已经发现了外星人,现在正让我们跟对方交流。”
乔伊不知道,他的这个推断已经相当的接近事实了。
“所有资料都会需要保密的……”陈舍委婉的提醒。
“这我清楚,在这里你们连手机都不让我们用……”乔伊耸耸肩,“我在网上查过你们公司的资料,才成立不到一年……如果你们公司以后招人的话,给我发邮件……青蓝咨询比谷歌酷多了。”
“你可以想象一下,每一个软件,其实就可以被看成是一整段语言,所有的语句,最后翻译成01的时候,其实对电脑来说,就是一个特别长的单词。”
乔伊双手尽力拉伸:“在语言学上,语言的基本组成部分其实不是字,字是语言的硬件基础,每一种语言的字,其实都是使用者为了方便而设定的。”
“英文的字母,其实就是简单的约定符号,中国的汉字,最早是从模拟某种特定的事物而来,以象形为基础。语言的基础是词——词代表了一个确切的含义。”
“比如中文里的春天,和英文的spring——在春天这个概念上,它们可以被认为是大概相等的,但两者并不能完全取代。因为春天只是两者在语言学上的交集,除了交集含义之外,两个词都还分别各自有其他的意思。
“在英文里,spring还代表着泉水,以及弹簧,这两个概念都是在中文里没有的。同样,中文的春天,还可以指代某种好的情境,单独来说,某人的春天到了,还有性暗示的味道——但这种用法在英文里也是不存在的。”
“这种一个词代表着多重含义的现象,我们这里被称之为语言学上的复杂程度。没有具体的指标,是一个感性的标尺。”
“这样说吧,还是spring,在英文里,他的复杂程度就比中文稍微高一些,但大致都是差不多。”
“两者都是常用词汇,复杂程度本身,代表着语言使用过程中的演绎和文明本身的复杂程度——如果回到石器时代,也许古代的字母文字中,可能存在类似spring的词,也许字的符号完全不一样,但它表示的意思,肯定跟中文的春天,英文的spring是大概相等的。”
“但,即使存在这样一个词,我们也完全可以断定这个词的复杂程度不会高于现在的spring和春天,为什么,因为词的更多含义,并不是语言创立之初被赋予的,而是在漫长的使用过程中自己演化出来的。”
“一个连铁器都不存在的文明,肯定不会有弹簧的概念——自然也就不需要相应的词。同样,在一个性道德还没有出现的社会里,性暗示这种高级幽默也不可能有存在的基础。”
这个叫乔伊的人说话,就跟他抽烟一样,完全就是一口气说下来,中间几乎不存在多少停顿。虽然他的中文不算正宗,中间说着说着还会夹带出几个单词,但大概的意思是明确的。看得出来他的心情有些激动——不知道是熬了一个通宵之后的惯性,还是被话题本身所激发出来的热情。
这段话的信息量很大,但对陈舍来说其实并不难接受。
因为项目对语言学的关注很早就开始了,其中的一些观点,做功课的时候,陈舍已经有所涉猎。虽然没有去做专门的深入了解,但是听懂这些话本身确实问题不大。乔伊说的这些,只是在前面的基础上更加深入——倒不是说他们公司在学术上搞出了什么更深的成果,只是在应用上,用到了更为专业的语言学知识而已。
“更高复杂程度的语言通常也体现在文学上,从某种程度上来说,文学家对语言的开创性应用本身,就是赋予了同一个词汇更多的含义,或者在词汇之间产生更多的映射,甚至根据自己的表达需要,创造出全新的词汇。”
“比如说超人的英文superman吧,这个概念最早是哲学家尼采提出来的,在德语中是指代未来的某种理想型卓越人士。在由萧伯纳翻译成英文之后,创造出了一个新单词superman。”
“superman一个简单的词,就可以用来指代尼采原著中,那种复杂的描述,这种创造性本身,可以看做是对信息的提炼和加工。在汉语中,这样的现象更加多见,汉语中的成语,可以说是创造性词汇中,最有代表的一个系列,简单的四个字,往往代表着很复杂的一大段概念的集合。
“但是机器语言……不,我应该换一种说法,程序语言。如果我用这种对语言的复杂度标准,应用在大多数程序语言上的话,那这些程序语言的得分,将会是一个无限接近于0的值。”
“之前我已经说过了,程序是一种最精确的语言——你可以想象一个,一个俄罗斯方块的游戏语言,整个程序就好像是一个单词,这个单词肯定是有意义的,假如我们把组合成这段程序的01展示给外星人看,把程序附带的运行环境也给他们看,如果程序能被运行——那外星人肯定就能看到一个确切的含义。”
“在这个具体的含义中,是一个不断出现不同形状的几何图形出现,又消灭的意向——但组合成这个程序的那些单独程序语句本身是没有意义的,因为就像我们在讨论刻舟求剑时,不会去讨论船的速度,剑的重量这些因素一样……”
老实说,听到这儿,陈舍已经有点理解困难了,乔伊也看出了这一点,他适当放慢了语速,但陈舍似乎依然难以跟上他的进度。
于是乔伊只能简单化的给出结论:“以前,地球上是不存在符合语言学定义上的复杂语言的。但是现在……虽然不知道它是如何出现的,但我们认为,我们找到了……你知道这意味着什么吗?”
陈舍摇头。
“意味着也许就在这颗星球上,某个大公司的机房里,就存在着一些文明的构造——我说的未必是AI,但它们肯定是掌握语言规则的某种程序,或者某种……东西。”
“它们的语言之复杂……我学汉语的时候,知道汉语里最难以被理解的,就是四个字四个字的成语,每一个成语都可以牵扯十几个附带词汇的意向。”
“比如刻舟求剑,船,剑,船上的人,这是基本的,然后还有衍生的概念,水的遮蔽特性,相对于剑的密度特性,相对于人的危险特性……想象一下一个外星人要理解刻舟求剑这个词,他需要理解多少衍生的附带概念。最后,在完全理解了这些概念之后,他才有可能理解到成语本身特定指代的某种意向——是用来讽刺主观意志因为忽略客观条件的变化而导致的愚蠢行为。
“在英语里,其实也有类似成语的短句,我就不细说了……”
“这种我们刚刚发现的机器语言,你知道,在它的语言库里,我们找到最复杂的‘成语’,有多少意向指代吗?”
陈舍看着乔伊,他竖起两个手指头:“两千多个……严格来说,它已经不能算是成语了,你知道,两千多个意向,通常来说,也就是两千多个词汇。要表达这些词汇,考虑到语句上必要的通顺和前后的逻辑,用中文大概写出来的话,就这一个词,就可以展开写一篇上万字的小说了。”
“其实成语就可以看做是被高度压缩的小说故事——但机器语言中,故事的复杂程度更高。想象一下这样一个场景,一个外星人,在电脑上跟你聊天。他说了一句话,里面包含两个这样的关键词——这些词用01全部表示出来,也就是一两排而已。但翻译出来,却可以是长达几万字的内容。你可能需要认真的看20分钟,再思考20分钟,才会明白这两个词的含义——然后大喊一声,太TM绝了!”
“所以,你们的任务……”陈舍尝试着猜测:“是翻译这种文字?”
“翻译?”乔伊摇了摇头,“这个说法太狂妄了。”
“狂妄?”
“翻译的意思,是把对方文字的所有意思,都转换成我们能够理解的意向。但,就我刚才所说,两个文明的复杂程度完全不是一个级别的——对方的一个词,都能让你思考一个小时……这还是最容易被理解的。你能想象,如果你回到原始社会,你对原始人说的话,可能被他们精准的翻译吗?”
乔伊说这话的时候,手上的这根烟正好快抽完,他吸进去最后一口烟雾,然后微微抬起头来,把这烟雾朝着陈舍头顶吐去,在他头顶的上空形成了一小团的云雾。这个动作不太礼貌,却也显得有点孩子气。乔伊指着这团雾对他说:“更不用说,他们语言中,对时间的定义更加严格——同一个词在不同语境下含义不同,你是中国人,很容易理解。但,如果一个词在一天24小时的每一个小时里,含义都不一样呢?”
“举个例子把,他们语言中有对应太阳一个词的单词,每一个小时的含义都不一样……朝阳,夕阳,烈日,旭日……中文里关于太阳的词汇很多,但在这种机器语言中,太阳只是一个简单不变的词,但它的含义,却比中文里,所有带有太阳的词汇加起来还要多,你能想象吗?”
“说翻译……是痴心妄想,”乔伊接着说,“对我们来说,我们只是在瞻仰。就好像一个原始人,靠着一本缺了页的教科书来学习中文,甚至学习唐诗三百首……当然,具体的语言规则,是由那些语言学专家来负责,我们做的这部分,是大概确定这种数字语言中,单个的字,简单的数据匹配工作……整个项目中,最没技术含量的。看着最忙,其实……”
乔伊摇摇头:“这种感觉……哎,其实当程序员很少会有这种挫败感,因为在绝大部分项目里,都是我们来负责推进工作……”
陈舍却点头:“我懂,这感觉不好受。”
乔伊扔掉烟:“那,就说说你们公司吧……你们公司还招不招人?对了,中国的工作签证你们可以搞定吗?”
陈舍惊讶了一下:“这应该只会是个临时的项目。”要是开个项目就要把人全部留下来,那青蓝咨询现在应该可以开个富士康了。
“我知道,虽然知道没什么希望,但还是要多问这一句,”乔伊道,“我很期待你们公司未来的项目……像这样的项目,对我们来说,也许一辈子也碰不到一次,你知道吗,我们项目组很多人甚至以为,你们政府已经发现了外星人,现在正让我们跟对方交流。”
乔伊不知道,他的这个推断已经相当的接近事实了。
“所有资料都会需要保密的……”陈舍委婉的提醒。
“这我清楚,在这里你们连手机都不让我们用……”乔伊耸耸肩,“我在网上查过你们公司的资料,才成立不到一年……如果你们公司以后招人的话,给我发邮件……青蓝咨询比谷歌酷多了。”