【网站解析】搞定中国商标网信息爬取

Abbey偶然间接到一个需求,那就是批量爬取中国商标网的信息,不得不说,作为一个政府网站,反爬虫能做得那么好的真是少见~~

中国商标网有哪些反爬虫?

js混淆&js加密

点击进入商标网的主页(http://wsjs.saic.gov.cn),就会给跳转到一个带加密参数的链接,

看请求的话,应该是先请求了一个js,这个js再计算一个加密值然后自动跳转到带加密参数的链接

而这个js内容又多恶心,请自行打开体会。

仅仅是这一步就把Abbey难倒了,而且Abbey并没有信心去对商标网的js进行反混淆和解密

未知的反爬虫措施

上面的问题,可以通过selenium+chromedriver解决,但是实际用selenium的时候就会发现...

TM...连selenium都不行?经过Abbey的分析,觉得是商标网能够识别出是selenium,因此这里就GG了。

解决办法呢?

一是通过修改chromedriver,将selenium的信息隐藏

二则是使用firefox,因为firefox没有带selenium的信息

最终Abbey使用firefox继续攻防

动作识别

使用selenium+firefox是可以获取到信息,但是爬了一两个商标信息之后,又会触发上面一样的错误信息,这里Abbey分析是因为商标网会判断鼠标、键盘的路径,然后如果没有识别到“人”的行为特征,就会触发错误。

这个时候就只能尽量模仿真人的行为特征。

Abbey没有做大批量测试,就测试了大概十几个数据,没有触发错误,所以就没有继续研究了。

爬虫运行效果(headless):https://showmore.com/zh/u/5g013n4

爬虫运行效果(带浏览器):https://showmore.com/zh/u/mqhovsj

ps. 代码不会开源

本文作者:Abbey

本文链接:https://www.abbeyok.com/archives/369

版权声明:本博客所有文章除特别声明外,均采用CC BY-NC-SA 3.0许可协议。转载请注明出处!

【工具】将wordpress的新浪图片下... <<
2 条评论
  1. author
    2019-07-24
    Abbey
    2019-07-22
    hardybox
    想问一下商标ID是哪里得到的? 期待大神...

    商标网有公布每个月的商标ID

  2. author
    2019-07-22
    hardybox

    想问一下商标ID是哪里得到的?
    期待大神的回复!
    另外群没有了之后,好像已经失去与大神的联系了!

请先登陆注册

已登录,注销 取消