首先,您的概念就错了。信息量绝不是什么“越少越好”,你还没有理解信息量的概念。
举个例子,比如将“背”字分化为“背”和“扌背”,我传递给你一个消息“背”,你不知道我是在说什么,是名词还是动词。可是分化后,我只要给你“背”字,你就知道我说的是人身体的一部分,给你“扌背”,你就知道我要让你做什么动作。而同样的概念,在分化之前,你至少要用“后背”或者是“背起”两个字表述,同样的意思,我用一个字码就可表述,而你至少要用两个,这就说明,我每个字的信息量要多于你的。
再想象极端的例子。如果越少越好,把所有字都何为两个字(如果他们出现的概率差不多,那么每个字的信息量约为1比特),这时,同样一个意思,你不只要用多少两个字的组合才能表述,就像说莫尔斯电码一样,谁都受不了的。
更极端一些,把所有汉字都合为一个字,则它出现的概率就是1了,这个字的自信息量为1×log1=0。信息量为0,也就是说,不论你怎么说话,你都传递不了任何信息,因为只用一个字,你是说不出任何意思的,也没有人能听懂的。
举个例子,比如将“背”字分化为“背”和“扌背”,我传递给你一个消息“背”,你不知道我是在说什么,是名词还是动词。可是分化后,我只要给你“背”字,你就知道我说的是人身体的一部分,给你“扌背”,你就知道我要让你做什么动作。而同样的概念,在分化之前,你至少要用“后背”或者是“背起”两个字表述,同样的意思,我用一个字码就可表述,而你至少要用两个,这就说明,我每个字的信息量要多于你的。
再想象极端的例子。如果越少越好,把所有字都何为两个字(如果他们出现的概率差不多,那么每个字的信息量约为1比特),这时,同样一个意思,你不只要用多少两个字的组合才能表述,就像说莫尔斯电码一样,谁都受不了的。
更极端一些,把所有汉字都合为一个字,则它出现的概率就是1了,这个字的自信息量为1×log1=0。信息量为0,也就是说,不论你怎么说话,你都传递不了任何信息,因为只用一个字,你是说不出任何意思的,也没有人能听懂的。