汉语结构在编程中使用

原创
2020/09/10 17:02
阅读数 200

汉语与英语是两个完全不同的体系,基本架、使用方式都很大的区别。总结起来就是流和块的区别。

所以,现有流式解析和关键词模式不适用汉语,汉语是以字为基础,词为部件,组合而成。分词即理解,只有理解才能分词成功。

英语那套名词动词固定体系,不适用于汉语。汉语是基于结构组合的,编程中要使用汉语,要么提高机器的词汇量,要么使用标注。提高机器的词汇量,用人工和人工智能都不太现实,编译器没这个空间。使用标注,就要提供一个半自动的工具。

要实现这个工具,必须分类汉语结构。汉语结构抽象起来基本就是左中右的标缀组合。现有的解析是以词定性,这是英语的思维方式。汉语方式是反的,以性定词,也就是,先在一个范围(大概5-7个,最多不过9个--人脑的极限,少于5个都可以看作固定词或固定格式)找出易定性的字词,再扩展开来。

所以,解析汉语的迭代是:先分段,再从固定的开始。最后,再分段。从这可看出,汉语解析必须是形式解析和逻辑解析同时进行。和现有的先形式解析,再逻辑解析是完全不同方式。也可以看出为什么,英语说多的教条,中文说多的滑头。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部