写爬虫啦

想用Python但是基础太弱了
决定先试试易语言
爬站laomoit.com
目的是爬出他的下载地址
前期用了十分钟左右对他的站做了一下初步的了解
下载地址需要post验证,好在没有做cookie验证,不然真么多验证我会疯
最近他的站好像老是被CC攻击,严重影响我测试的效率
立一个flag 下个星期做好爬虫。
把url的一个关键词去掉。看到这个页面
https://www.laomoit.com/category/page/1
这应该就是网站所有数据的地图了吧,这就好办了 但是网站还是非常卡
还是一直被cc
好不容易抓取下来一段数据 正则也已经写好 匹配结果两千多个吧 一秒多暂时不需要多线程
要我也不会。
正则表达式<li><a href="(.?)l"[s|S]?title="(.*?)"
现在等他网站好了就可以测试爬虫了 如果明天还没好就先做列表框

标签: 无

评论已关闭

  • 上一篇: 11-19
  • 下一篇: 没有了