NLP是以自然语言为对象,更具体的,是以记录自然语言的数字化数据(语料)作为对象,探索将这些数据映射到另一些数据的方法,另一些数据可以是同样的语言数据,比如机器翻译,问答系统,也可以是人为制造的结构化数据,比如知识图谱,词镶嵌。
不论怎么映射,数据本身都是没有语义的,是使用数据的人赋予了它们语义,NLP容易让人产生一种错觉,因为脑中的语言是有意义的,就扩展到说出,写出的语言也是有意义的,继而扩展到记录语言的数字化数据也是有意义的,然而,语义从来没有离开过人脑,语义较初产生于语言者的头脑,一旦说出来,写出来,就已经是编码了,之后由读者/听者的头脑解码,在接收者头脑中再次形成语义。
因此要解决语义问题,从语料之中是无从下手的,从语义到语言的编码过程,以及从语言到语义的解码过程才是关键,然而语义存在于人脑之中,无法取出来加以研究,NLP研究试图解决这个问题的方法是制造一个语义的模仿品,这个模仿品就是知识图谱,然而当下的知识图谱是对人的语义系统非常拙劣的模仿,它仅仅是一个图,其中的节点和关系贴上词语标签。
什么是语义搜索引擎。
搜索引擎排名的基础之一,就是关键词与网页的相关性。
机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解,人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析,所谓潜在语义索引指的是,怎样通过海量文献找出词汇之间的关系,当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。