tk输入法吧 关注:298贴子:1,035
  • 26回复贴,共1

西风瘦码——当之无愧的巅峰!

只看楼主收藏回复

一直惊诧于瘦码的二码字高权重。众多形码二码权重过60%已经是优秀了,瘦码竟然到了73%。
要知道,权重这个数据越是到了后边提高的难度就越大,字频的分布到后边是急剧减少的。二码字多了不一定管用,关键的就是那高频的几百个字,必需要每字必争。
一般的形码输入法,编码规则以清晰明了为佳,追求的是规则简单易用忘不了。这么整,恰恰就失去了效率最优的本钱!因为输入法定出的规则并不能高效的描述汉字的规律,在高频字中没有一个输入法能够做到高效的区分。而高频字的处理是输入法高效性中最关键的一点。
SP(声旁)、SB(声笔)这是两种规则的同时使用,其中还利用了汉字的结构。双规则的使用解决了单规则区分度不够的问题,但需要人来协调双规则共同使用的难度,这就是记忆。很多人一看瘦码规则多,不好记,被吓跑了。我一开始看瘦码的时候也是对它的规则极为不满。其实可以换个角度考虑问题,规则多,能有几条?几条规则都记不住吗?还有一个重要的问题,规则对应下的字有多少个?多吗?常用吗?这都是需要考虑的问题。
这就是一个记忆量和输入效率间的博弈。瘦码的双规则是一个为主,一个为辅。辅规则对应的字数量不多,且属半无理。就是说一方面记忆量不高,另一方面并不难记。
不动脑子的人有拼音来满足,追求效率的人自然有高难度的输入法满足。谁都在找既简单又高效的输入法,这无非就是在进一步压榨输入法的效率。当输入法的能力被我们榨光的时候,效率的提高只能靠人!
输入法的效率是什么?就是编码空间的利用效率。
码元多,前几码的空间就大。一码、二码覆盖的字就多,码长表现就好。同时带来的问题是:一、控制的键位多,按键难度提高了;二、单一编码规则下空间利用率必定不高。所以码元多到一定数量后,输入法的整体效率反而会下降。TK就是大码元的一个极端,好在对于并击来说按键难度的提高并不明显,因为并击本身的难度就已经很大了。但对单(串)击来说,从三十码元到四十码元,难度的提升幅度就非常明显了。不过也并不是说四十码元的输入法效率就一定不好(我还没算过),但一般人的指法可并没有进行过专门的训练。现下唯一可用的击键当量数据似乎不是对普通人进行的统计。另外还有标点和选重的问题,特别是选重,有的人喜欢一简多重,所以四十码元的串击输入法应该并不好用。
而顶功则体现了高效性的另一个方面——码长。将二码及以后的字的空格省掉,码长一下子就是一个飞跃。抓住关键问题,解决关键问题。
双规则、顶功,成就了瘦码在当今输入法中的巅峰王者之位。一部红楼梦,2.09的码长俯视群马。


IP属地:河北1楼2014-11-30 20:59回复
    统计了小兮的码长,红楼梦的码长为2.11。小兮不如瘦码吗?我分析了两者的字频情况,似乎不是这样。
    二码字,小兮比瘦码少六十七个,但二码字的频占比(CCL字频)小兮比瘦码还要稍好一点(不到70%)。即二码字的字均频率质量,小兮要优于瘦码。使用网络小说字频进行比较,还是小兮要稍好(75%)。可能是三码、四码上边的区别吧,不过三、四码的差异实在是无足轻重了,懒得去算了。
    小兮、瘦码,都有很不错的单字码长表现,对同一篇文章,两者有些差异是正常的。总的看,两者在同一个水平线上。
    只要二码字频率过七十,四码一般不计,总的码长就是2*0.7+3*0.3=2.3。按每十个字有一个标点算,2.3*0.9+1*0.1=2.17。所以,常用文的单字码长就是2.1~2.2,这和用赛码器得到的结果是一致的。
    对串击而言,标点降低码长的作用还是很明显的。不像并击,标点也是一击,不能显著地降低字均击数。
    对于日常的口语化应用,前三百字就已经到68.4%了。用双拼的空间(400)看,似乎也可一用!另外双拼的适用性还强一些,到哪都能用。还可以加上一些无理码,或者把字频最高的几个部首单独拿出来以音形的方式打出,都可以提高双拼顶的分辨力。空间上可以这样:21声+30(23韵+7形)+8形+8形……简码的形式可以为:21声+空格。瘦码的SB形式就不用了。这样就少了不小的记忆量,换成了7形的记忆。二码空间为21*30+21=651,二码空间填不满也差不多。这样二码字的权重不会太低的。字均在2.3键以下应该没有问题。就算不要那7形,字均码长也不会太高。
    另外还发现一件事,在网络小说字频中,TK的一击权重是超过96%的。这和我平时打字的感觉接近,看来还是网络小说的字频比较符合日常的应用情况。本来还有通过大部首一击字的方式提高一击字权重的想法,看到这个数据后,该方式就无限期推后吧。毕竟还可以带数字并击么,对增加一击字的需求真的不迫切。有这功夫还真不如练习一下一击词,或者精调一下一击词。
    上一段中,发现、网络、比较、情况、通过、方式、毕竟、可以、真的、或者,一击词十个,使用十二次。0.93击每字呀,有什么不满意的吗?这个帖子中两击字只有【梦适串填忆】这几个字呀,还都方便带数字并击。一击词可是一片一片的。以后不会再提高按键难度,一个月优化一个按键、熟悉一个一击词、掌握一个数字并击字,提高按键的熟练程度才是正经。


    IP属地:河北3楼2014-12-01 23:10
    回复
      我又单独算了第一回,8107字。
      和赛码器进行了对比。
      我的结果:2.173
      赛码器结果:2.18
      应该没问题。


      IP属地:河北5楼2014-12-02 00:02
      回复
        再取第一段:
        第一回 甄士隐梦幻识通灵 贾雨村风尘怀闺秀
          此开卷第一回也。作者自云:因曾历过一番梦幻之后,故将真事隐去,而借“通灵”之说,撰此《石头记》一书也。故曰“甄士隐”云云。但书中所记何事何人?自又云:“今风尘碌碌,一事无成,忽念及当日所有之女子,一一细考较去,觉其行止见识,皆出于我之上。何我堂堂须眉,诚不若彼裙钗哉?实愧则有余,悔又无益之大无可如何之日也!当此,则自欲将已往所赖天恩祖德,锦衣纨绔之时,饫甘餍肥之日,背父兄教育之恩,负师友规谈之德,以至今日一技无成,半生潦倒之罪,编述一集,以告天下人:我之罪固不免,然闺阁中本自历历有人,万不可因我之不肖,自护己短,一并使其泯灭也。虽今日之茅椽蓬牖,瓦灶绳床,其晨夕风露,阶柳庭花,亦未有妨我之襟怀笔墨者。虽我未学,下笔无文,又何妨用假语村言,敷演出一段故事来,亦可使闺阁昭传,复可悦世之目,破人愁闷,不亦宜乎?”故曰“贾雨村”云云。
        共384字
        我的结果:2.2265625
        赛码器:2.23


        IP属地:河北6楼2014-12-02 00:06
        收起回复
          顶功瘦码前三码一并击上屏方案可以是如下:
          - xform/([a-z][a-z])/$1/ #前两码
          - xform/([a-z][a-z]) /$1e/ #前两码+e
          - xform/([a-z][A-Z])/\L$1u/ #前两码+u
          - xform/([a-z][A-Z]) /\L$1o/ #前两码+o
          - xform/([A-Z][a-z])/\L$1i/ #前两码+i
          - xform/([A-Z][a-z]) /\L$1a/ #前两码+a
          - xform|([A-Z][A-Z])|\L$1;| #前两码+;
          - xform|([A-Z][A-Z]) |\L$/| #前两码+/
          @mgcgogo


          8楼2015-03-14 21:58
          收起回复
            雅歌四码,借鉴西风瘦码之双规则编码。声韵双拼单字400余字,另增加声笔码单字115个。


            来自手机贴吧9楼2015-04-23 07:54
            回复