英语快扛不住了!老祖宗留下的汉字正在改写AI世纪大战

侯选谈社会 2025-02-14 11:10:56

声明:本文内容均是根据权威资料结合个人观点撰写的原创内容,在今日头条全网首发72小时,感谢各位看官点击支持原创。

文│只言片语小胖

编辑│昭明

“英文的词组更新太快,且毫无逻辑已经大大限制AI的发展。”

这两年可以说是AI的元年,先是CHATGPT的爆火,随后是咱们国内的文心一言、deepseek

如井喷式的爆发,但是一个问题已经浮现。

那就是使用英语为底层架构的外国AI系统已经扛不住了,反而是咱们自己以汉字的为底层架构的AI系统即将异军突起,这究竟是因为什么,让我们一起来看一下。

01AI系统的底层逻辑

AI系统作为一个已经涉及到人类社会方方面面的东西,他的底层逻辑其实非常好理解,那就是通过大量的语言、数据的训练,让他成为一个数据库,当有人问到他对应的问题时他就会像个智能人一样从数据库中组合答案告知你结果。

其实这整个的过程非常像是我们人类学习的过程,人类的学习过程就是将无数已知的条件储存在大脑当中,当出现未知的问题时通过已知的条件来进行推算,已获得最优解,但是人类的大脑储存是有限的,这也是人类和AI的区别。

因此其中的学习就是AI系统的核心技术之一,它让AI能够自我调整和优化。通过输入大量数据,机器学习算法为AI提供处理新数据的模式。

这是一种自我进化的过程,AI能够利用先前学到的知识不断“进化”自己的性能。其中,深度学习作为机器学习的扩展,利用神经网络模型(拓扑结构)模拟人脑的工作方式,处理复杂的数据模式,如语音识别、图像识别、文字识别等。

而“喂数据”就是AI系统学习的关键。这不仅仅是简单地将数据输入系统,更包括数据的清洗、标注、存储和导入。

其中数据清洗至关重要,它去除数据中的错误和重复,确保AI学习的准确性,简单地说就是避免在系统运行时出现错误,所以必须把一些不实的信息给去掉,才能保证自己更高的准确度,这也是英文很大的问题之一,稍后我们会重点讲解。

数据标注则是帮助AI理解数据中的关系和网络结构,使学习更加高效,就像是我们从小读书一样,会有一个主线脉络来帮助我们更高效的学习,所以数据标注的目的就是这个。

而数据存储和导入则是确保数据能够被AI系统有效利用的重要环节,他只有拥有了庞大的数据库系统,才能更高效更准确的为人类服务。

那说完了AI的底层逻辑之后,让我们再来分别看下中文和英文对于AI的数据影响。

02英文学习的困境:词汇复杂且无逻辑性

英文,作为全球最为普及的语言之一,其词汇的丰富性和多样性无可争议。从古老的单词到现代社会的自创词汇,比如因为中国新增的kungfu(功夫)、tofu(豆腐),因此英文词汇库就像一片浩瀚的海洋,既包含了以前英语国家常用单词,又在不断地根据社会发展拓展新词汇。虽然单词量多且丰富是好事,但却给AI的学习带来了前所未有的挑战。

首先便是词汇的爆炸式增长,因为英语的使用面很广,使用国家也多,所以英文词汇的增长速度是很惊人,几乎每天都有新词诞生。

而这些新词往往源于网络文化、新的科学技术、各个国家的新兴事物等领域,但是这些词汇往往缺乏逻辑关联性。

比如中文里面对于跟电相关的东西就可以使用联想法:电驱动的车叫电车、传输电的线路叫电线、储存电的物品叫电池,但他们在英文里却是:tram、wire、Battery,这就是我们讲的缺乏明确的逻辑关联。

那对于AI而言,识别和理解这些新词就需要耗费大量的算力和时间。更为棘手的是,由于新词的含义往往随地域转变而变化,AI很难在短时间内准确把握其内涵。

再举个例子:比如同样是地铁在不同地方叫法是不一样的,subway在美式英语中尤为常见,metro则在国际上,underground特指英国的地铁系统,同样的一个意思在不同的地方叫法就不一样。

再比如咱们学习英语时都知道英语单词是由词根、词缀派生法等方式构造出来的,那这样也是会加大AI学习的难度。

首先需要学习词根、词缀是什么意思,然后是如何组合的,但是因为新生英文单词没有逻辑性,就很容易导致碰到新词汇时利用词根、词缀拆解发现并不是这个词汇的原意。

然后还有语境不同代表的意思不同,同样的词汇放到不同的语句或是场景中表达就是完全不一样的意思,举个例:“tolerance”这个词在心理学中表示“包容”或“忍让”,而在理工科中则表示“公差”,这样的语境多样性也会带来更多不可避免的麻烦。

所以针对于以英文为底层架构的AI系统来说,将要面临的挑战会更复杂,也会更浪费时间以及算力。

03汉字相较而言更为直观与高效

与英文相比,汉字则更有截然不同的特点与逻辑,我们一开始就提及过AI有一项能力那就是针对于图像有识别功能,而汉字正是象形文字发展而来,其构成往往基于直观的图像和符号。

这种直观性不仅使得汉字在视觉上更加易于识别,更在逻辑上形成了简洁明了的组合方式。这些特点使得汉字在AI自主学习中展现出了独特的优势。

比如举个例:“人”、“山”、“鸟”都是基础汉字,但是基本上看到这个字就可以联想他是什么意思,非常之观,除此以外在基础字之上进行组合也是有规律性的,这种规律只要学会就很容易让AI进行字的含义推测。

然后汉字的组合从逻辑性上也是更具有严密性的,因为我们可以在一些基础字上进行组合或拆解来表达一个新的意思,而且是很有逻辑性的。

我举个例子比如:三个人就组成了“众”表示人多,三个金就可以组成“鑫”表示财富兴盛,三个木组成“森”表示一群树木组成森林,就这一点就足以提高了AI的学习效率,同时还增强了其自主学习的能力

另外两个或多个汉字的组合往往能把一个复杂的事很轻松的表达出来,,能够用最少的字符表达最丰富的信息。

再举个例:比如我今天准备请你吃个饭,但是这顿饭是不怀好意的,那我就可以用“鸿门宴”来表示,再比如我们说话和写作都应该精简意思表达直白明确,我们就可以说“言简意赅”。

这种高效的信息传递方式不仅提高了人类的沟通效率,更为AI的学习提供了极大的便利。AI可以更加快速地理解和处理汉字信息,从而在实现自主学习方面展现出更加出色的能力。

04汉字确实更有助于推动AI自主学习

基于上述两种语言环境的分析,我们不难看出汉字在AI自主学习中的独特优势。这些优势不仅体现在汉字本身的特性上,更体现在AI在学习汉字时所形成的系统知识体系、推断能力和学习效率上。

第一是两种语言在系统构件上,因为汉字的构成具有一定的规律性,这使得AI在学习汉字时能够形成系统的知识体系。

AI可以通过分析汉字的笔画、部首和组合方式,逐步建立起对汉字的全面理解,这种知识体系不仅有助于AI在识别和理解汉字时提高效率,还为其自主学习提供了坚实的基础。

第二则是推断能力的提升,汉字的构成往往遵循一定的逻辑规律,这使得AI在学习汉字时能够通过推断来理解词汇的内在联系。既是AI可以在遇到不熟悉的汉字时,也能通过推断来猜测其含义,从而加快学习速度。

第三则是学习效率的提高,汉字的组合方式往往言简意赅,能够用最少的字符表达最丰富的信息。与英文相比,AI在学习汉字时不需要花费大量的时间和资源来解析词汇的内在联系,从而提高了整体的学习效率。

此外,汉字的组合方式还具有一定的灵活性,这使得AI在学习汉字时能够更加灵活地应对不同的语境和表达方式。

参考资料:央视网《自信之源》

环球时报《警惕“英语中心主义”加剧AI鸿沟》

0 阅读:0

侯选谈社会

简介:感谢大家的关注