一些常用的方法
IP代理
對于IP代理,各個語言的Native
Request
API都提供的IP代理響應的API,
需要解決的主要就是IP源的問題了.
網絡上有廉價的代理IP(1元4000個左右),
我做過簡單的測試,
100個IP中,
平均可用的在40-60左右,
訪問延遲均在200以上.
網絡有高質量的代理IP出售,
前提是你有渠道.
因為使用IP代理后,
延遲加大,
失敗率提高,
所以可以將爬蟲框架中將請求設計為異步,
將請求任務加入請求隊列(RabbitMQ,Kafka,Redis),
調用成功后再進行回調處理,
失敗則重新加入隊列.
每次請求都從IP池中取IP,
如果請求失敗則從IP池中刪除該失效的IP.
Cookies
有一些網站是基于cookies做反爬蟲,
這個基本上就是如
@朱添一
所說的,
維護一套Cookies池
注意研究下目標網站的cookies過期事件,
可以模擬瀏覽器,
定時生成cookies
限速訪問
像開多線程,循環無休眠的的暴力爬取數據,
那真是分分鐘被封IP的事,
限速訪問實現起來也挺簡單(用任務隊列實現),
效率問題也不用擔心,
一般結合IP代理已經可以很快地實現爬去目標內容.
一些坑
大批量爬取目標網站的內容后,
難免碰到紅線觸發對方的反爬蟲機制.
所以適當的告警提示爬蟲失效是很有必有的.
一般被反爬蟲后,
請求返回的HttpCode為403的失敗頁面,
有些網站還會返回輸入驗證碼(如豆瓣),
所以檢測到403調用失敗,
就發送報警,
可以結合一些監控框架,
如Metrics等,
設置短時間內,
告警到達一定閥值后,
給你發郵件,短信等.
當然,
單純的檢測403錯誤并不能解決所有情況.
有一些網站比較奇葩,
反爬蟲后返回的頁面仍然是200的(如去哪兒),
這時候往往爬蟲任務會進入解析階段,
解析失敗是必然的.
應對這些辦法,
也只能在解析失敗的時候,
發送報警,
當告警短時間到達一定閥值,
再觸發通知事件.
當然這個解決部分并不完美,
因為有時候,
因為網站結構改變,
而導致解析失敗,
同樣回觸發告警.
而你并不能很簡單地區分,
告警是由于哪個原因引起的.

李健 以上是小編整理的沙鋼股份股票:《醫療保障法》已納入全國人大全國人大常委會2021年立法工作計劃全部內容,您還可以閱讀頁面上的相似文章,喜歡科林財經問答站的話敬請關注喲!
以上就是李健沙鋼股份股票:《醫療保障法》已納入全國人大全國人大常委會2021年立法工作計劃的解讀http://www.jinmaoba.com/content/8hs.html更多股票知識,敬請關注科林財經問答站!
關鍵詞: 沙鋼股份股票 余額寶理財 廣發增強zj 600651

上一篇:股票000157:金華銀行資本充足率將提升至14.91%

下一篇:中信銀行理財寶:以及劉賢交警告并處罰款4萬元

聲明本站分享的文章旨在促進信息交流,不以盈利為目的,本文觀點與本站立場無關,不承擔任何責任。如無意侵犯媒體或個人知識產權,請來電或致函告之,本站將在第一時間處理。

相關閱讀:

沙鋼股份股票:《醫療保障法》已納入全國人大全國人大常委會2021年立法工作計劃

《醫療保障法》已納入全國人大常委會2021年立法工作計劃,為更好開展《醫療保障法》立法工作,推行法定參加基本醫療保險已有一定基礎,城鄉居民基本醫療保險個人參保遵循的是自愿原則,針對吳月代表提出的《關于推行法定參加基本醫療保險的建議》...

2021-07-08 91

熱點資訊

最新推薦

熱門搜索

tag

知識點

股票知識網站

QQ:33675653

聯系熱線
廣告合作添加QQ:3367~5653
两个奶头被吃高潮
<output id="mv4cb"><legend id="mv4cb"><strong id="mv4cb"></strong></legend></output>
<cite id="mv4cb"></cite>
<strong id="mv4cb"></strong>
      1. <rt id="mv4cb"><nav id="mv4cb"><button id="mv4cb"></button></nav></rt>

        <rt id="mv4cb"><nav id="mv4cb"></nav></rt>
      2. <rt id="mv4cb"></rt>

        1. <rt id="mv4cb"></rt>
          <source id="mv4cb"><nav id="mv4cb"></nav></source>