自由文本切词

一个自由文本切词的例子：
“请访问:http://www.abc.com/here.htm下载资料”
要切分成四部分：“请访问”(汉字) | “:”(冒号) | “http://www.abc.com/here.htm”(网址) | “下载资料”(汉字)
机器智能识别数据，要求自动识别出各种文本数据的组织结构，并检测其中的一些错误。
因为输入的文本有各种可能，有可能是中、英、日、韩等各国语言，以及繁体、拼音、表情符号、数学公式、html标记、编程语言段落、文本表格，也有可能是html、xml、json、csv格式的数据，数字有可能是日期、价格、手机号、身份证号、ip地址等，你很难写一套固定的程序来处理全部可能性。
统计学的方法是有用的，但统计学在具体规则细节和深层推理方面都是短板，而且对训练集要求较高，不适合多变的结构数据。
引入自动编程的思路！
面对模式搭配较多的字符串内容，与其编写固定程序对每个字符进行各种排列组合的函数检测，不如先抽取少量样本检测，并做出假设，以此假设为基础自动生成代码来验证。如果验证不通过，则针对新的情况自动修改代码，以适应新的需求。
生成代码的方式 -- 正则表达式形式
1. 大部分程序处理文本的过程，可以用状态机等价转换。
2. 正则表达式的本质是有限状态机，由状态驱动，虽然是不完备的，但可以满足词法分析的大部分需求。
3. 如果程序能检测数据的变化，以此动态生成或修改正则表达式，那么就可以把有限状态变为无限状态。
4. 正则表达式是简单的文本形式，容易通过程序生成或修改。

基本检测程序：
原理是用预定义的正则表达式类型分段匹配字符串。
例如“我的txt”，程序从开头分别尝试匹配“汉字、英文、数字、空格”等类型，最终匹配到“汉”类型和“我的”两个字
接下来从“我的”之后的“t”字开始匹配，再尝试各种类型的表达式，最终成功匹配“英”类型和“txt”
从第n个字匹配正则的方法：
python使用：r = re.compile; r.match("我的txt", n)
C#使用：Regex r = new Regex("我的txt"); Match m = r.Match(s, n);
下面是python版

执行结果

上海羽山科技有限公司

营业执照，身份证，护照，驾驶证，行驶证，银行卡各类证照OCR服务。羽山数据提供安全合规的AI服务。

2024-09-27 03:10广告

立即查看

正则表达式基本规则简介(Thompson的NFA结构)：

【先入为主的思想】
按经典概率学的思想，我们应该对未知的事情做完全均等的假设。
认知心理学告诉我们，人们在面对未知事物时，通常不会做均等的假设，而是带有明显的主观倾向。
心理学致力于纠正我们这种认知偏见，而统计法却从另一面肯定这种偏见的作用。
在各种日常琐事中，这种主观思维倾向以较小的代价，加速我们的思考过程，减少我们的思维成本。
举例来说，我们想知道自己家门口是否埋着1吨金子，因为你没挖过也没有用仪器检测过，你并不知道是否真的有金子。
那么，如果按均等的假设，你家门口有50%的概率会有1吨金子，这个假设是不是很诱惑呢？然而你会相信吗？
很显然，你的主观估算肯定不会有这么大，即使真有金子你也不会去挖，因此你不会为这种事情而伤脑筋。
你可能会觉得你的估算是基于黄金出土率本身不高的知识，但全世界的黄金出土率并不是平均分布，在没有更多信息支持的情况下，你没有一个精确的公式来计算出土黄金的准确概率值，有的只是心理估算，这个估算值可能会不恒定，但不会太高。

✠「先入之见(Preconception)原则」：在遇到不了解的事情时，在运算和试错成本较低的情况下，可以先去尝试自己经验中一些习惯性的方法(或有经验的人推荐的方法)，先假设这些方法是对的，当实践产生的数据与假设明显不符时，再试图推翻。
先入之见在贝叶斯理论中被称为“先验概率”，这个概率值常常是人凭经验和感觉手工写的主观概率，因而在严谨的学术界饱受争议。在统计法中，不但认可这种概率，而且常常直接把它转为一个确定值。

【分析状态 & 自动编程】

在代码中，我把字符的全部可能性分成了6类(6个有限状态)：汉字、英文、数字、空格、换行、其它。
显然，这是非常主观的分类法，很多人会认为这是不合理的，还会提出很多自认为更好的方案。
但最优的分类方案是客观存在的吗？这个问题目前还没人能证明。
我们通常认为合理的方案，是相对于我们要处理的数据，在一定时间或程度内是有效的方案。
我之所以分成这样6类，是我认为这种分类在我生活的区域和我经常处理的数据中非常有效，很显然我这种观点没有多少精确的证据支持，是一种“先入之见”，只是一种局部最优或次优解。如果在实践中发现它并不理想，应该能够动态修正这种观点，这样才算智能。
按传统的编程，我的程序应该是这样的流程：
1. 获取当前字符
2. 如果字符范围在u4300~\u9fa5之间，那么它是“汉字”
3. 如果字符范围在A~Z或a~z之间，那么它是“英文”
4. 如果字符范围在0~9之间，那么它是“数字”
5. 如果是空格、tab或中文空格，那么它是“空格”
6. 如果是'\n'符，那么它是“换行”
7. 剩下的任何字符都算作“其它”
检测顺序是第1到6步顺次执行，一旦检测到某种类型，那么就终止后面的步骤。这是一套机械化的检测模式，可以对应到程序的if...else机制。如果是人来检测，通常不是这种工序。
如果我开始检测了十几组字符，发现他们都是数字，我会假设后面有很长一段也是数字，因此我会调整流程，把检测0~9这一步调到前面。
也就是说，我会根据实践中积累的经验(发现都是数字的经验)，动态调整程序的流程(状态)。
同样的道理，当我积累了足够多的经验，我会把某些步骤合并或删除，也可能会添加一些步骤。
当我这样做时，我已经对状态做出了修改，已经不是传统的有限状态，而是用动态添加状态的方式解决了无限状态问题，又用调整顺序或删除状态的方式，解决了状态过多造成的搜索低效或组合爆炸问题。
固定状态的程序给人的感觉是“死”的，自动调整状态才像是“活”的。
动态生成和修改状态是自动编程的核心理念，也是自动编程和传统编程的主要区别。

数据列的对齐
之前的数据，“JackieChan”是没有带空格的，实际上一般的英文姓名之间都会有空格分隔，就成了“Jackie Chan”。
如果按空格切分，那么列数就不相等了。这就遇到一个数据列的对齐问题。程序怎么能自动把“Jackie|Chan”这样的两列合并到一列？
范冰冰|女|内地 -- 3列
Jackie|Chan|男|香港 -- 4列
按先入之见原则，我们给机器加入一些预备知识，先假设你的数据是符合这些知识的。例如在英文字母之间加入空格，我们看作是英文短语，这样可以把“Jackie Chan”看做是一个整体，另外加入小数和网址的识别规则。这样可以更快速地让计算机的处理和你的预期达成一致。

执行之后输出切词结果

【为自动生成代码做准备】
要编写一个通用性很高的程序，代码的耦合度越低，可重复使用性就越高。
为此，我们要把之前的表达式拆解成较小的单位，复杂的语句用这些小单位拼接起来。
首先要定义基本单位。基本单位并非不可细分，但在一般情况下不再细分。例如0~9定义为数字字符，不需要再分成奇数和偶数字符。
基本定义可以用于以后的未知模式检测，程序尝试汉、英、数的排列组合，或依据此定义和其它组合的搭配，自动生成代码来验证假设：[A-Z0-9]+、[a-z\u4e00-\u9fa5]+、0x[0-9]+...

rgChr是一个生成表达式字符串的小工具，输入rgChr(汉,英,+)就可以根据expCls(基本类型定义)自动转成'[\u4e00-\u9fa5A-Za-z]+'的代码，以后还可以简化成更简单的“﹩汉﹩英+”形式。

之前的expLS中的一些字符串用rgChr来生成。
现在的代码，看起来比以前更多更复杂了，但执行结果完全没变。
这么做的目的是为了以后自动生成代码做铺垫。

如果嫌可读性太低，将来可以把代码改成如下格式并做出解析，“﹩名称” 这种格式可以看作是一种正则扩展。

无锡麦创飞尔科技

人工智能，一键生成ai绘画，AI绘画，让您轻松实现绘画梦想，简单好用的AI绘画软件，一键出图，热门词条一键修饰，ai绘画图生图

2024-09-27 03:10广告

立即查看

【分类和分支处理】
现在能检测的数值类型列表(expLS)已经有了，检测比较少的规则是没什么问题了。但当规则越来越多，累积到成百上千条时，再用逐条表达式尝试的方法就很低效了。之前提到过动态排序可以提高一些效率，但这还不够，接下来需要使用分类检索。
我们可以按字段开头字符的类型给表达式归类，例如开头是数字的，有可能是整数、小数、电话号码或ip地址；而开头是'<'符的有可能是尖括号形成的html/xml标签，也可能是小于或小于等于号。
分类结构是一个树结构，可以叫“分类树”，也常被称为思维导图、故障树、决策树等，是计算机常用的数据结构。
分类结构是状态节点的多层并联，处理分类结构的程序处理可以等价于编程语言的多层嵌套 if...else 或 if...else if...else 或 switch...case 形式。

树结构是层级结构，目前把规则检测分为两层，如果加更多的规则，可能需要更多的层级。

分类处理问题的思想，可以看作是“分而治之”的古老策略。
很多优化的算法都是基于“分治”的思想，例如二分法、归并排序等。
分治算法描述：
1. 设定阈值，低于此值不被分解
2. 子问题的大小和数量，据此对问题进行分解 (父问题和子问题的大小比例，默认为1:2)
3. 用来合并子结果的算法

【中文自动分词】
如果把所有的中文词开头的一个字看作是分类(第一层)，按相同的方法构建一个词典，可以用于中文分词。
可以把词性作为小类的标签，n=名词、a=形容词、v=动词、nr=人名、ns=地名。
注意我只是把expClsA2的内容改成了中文词典，其它代码都没有改变，这样就可以进行中文分词。
可见，中文分词其实就是一个自由文本切词的特例。

目前的处理方式等价于分词算法的正向最大匹配。
写两个句子来测试：

输出结果。注意，“计算”这个词没有收录到词典，所以这两个字是分离的。

很多人更习惯于写成一词一行的文本格式，那么写一段翻译代码把词典翻译成json就行了。
现在词库加入了“计算”、“中国科学院”。

分词结果：

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
95回复贴，共2页
，跳到页

<<返回强人工智能吧

分享到:

日	一	二	三	四	五	六