Pythonのスクレイピングで気を付けたいHTTPステータス | セール情報大好き

Pythonのスクレイピングで気を付けたいHTTPステータス

Pythonのスクレイピングで気を付けたいHTTPステータス

どうもこんにちは!オザキ(@s4224945)です。
Pythonでのスクレイピングにはまっています!

Pythonで画像をスクレイピングをする際にハマって気づかないで時間のロスししたので、メモ代わりに記事を書いてみます。
どうしてもできないときにチェックしてもらいたい部分です。

スポンサーリンク

画像スクレイピングをするときに気を付けたい部分

画像をスクレイピングするときに私が嵌ったのはHTTPのステータス部分でした。

スクレイピング自体は合っているのにどうしてできないんだろう?と思って考えていたら結局この部分がおかしいことに気づきました。

インタラクティブシェルで打ってみると以下のようにでました

普通だったら200になるはずなのに、503。
503っていったい何なんだ?と思っていたらエラーがでているようでした。

数字の意味

200 = OK
4xx = クライアントからのリクエストに失敗
5xx = Server Error

つまり400系や500系はエラーがでているということなんですね。

私の場合は503が出てスクレイピングが止まっていたようでした。
503はサーバーに負荷がかかりすぎているということなので、他の人もスクレイピングをしていたりしているのかもしれません。

これはサンプルで使われてたサイトをスクレイプしようとしたので止まってしまったのですね。
気づかずとんでもない時間無駄にしていました・・・。

まとめ

以上、スクレイピングをする際に気を付けたいHTTPのステータスでした。
スクレイピングをする際はこういった部分にも気を付けたいところですね。

スポンサーリンク

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする