et采集吧 关注:108贴子:524
  • 1回复贴,共1

怎么判断文章列表是附件还是网址的链接

只看楼主收藏回复

RT,文章列表里面有的可能是附件链接,有的就是正常文章网址,这种怎么判断采集呢


IP属地:湖北1楼2020-12-21 16:10回复
    得你自己找特征,然后通过列表分析,或 中间规则-标题 敏感词 来排除采集。
    如果从列表的代码、标题找不到特征,那就只能在采集文章页时 判断,例如 设置 一个数据项,选择不允许为空。那么当这个数据项 采不到东西时,这篇文章就会中止采集,跳到执行下一篇。


    2楼2021-01-26 20:17
    回复