4/16/22

格安なのに安定的にクローリングが可能になるZyte

こんにちは!DX顧問サービスの林です。

今回はZyteを紹介します。

サイトなどからデータを定期的に取得して加工して何かをするサービスを構築する場合、これまでは

  • クローリングサーバーを何個も立ち上げる

  • ジョブキューサーバーを立ち上げる

  • 取得したデータを保存するためにDBを立ち上げる

  • データを表示するための画面を表示するためのサーバーを立ち上げる

のように、大掛かりなシステム構築が必要になります。とくにやっかいなので、1点目と2点目のクローリングサーバーとジョブキューサーバーです。

クローリングでは、同じIPアドレスからのアクセスはしないよう工夫し、またBANと言ってアクセスが拒否された場合の対策をしないといけません。

その点、Zyteを使うと、これらをすべてやってくれるのです。あぁ便利。

もちろんどのサイトのどのデータを取ってくるのかは自分でPythonなどでコーディングするのですが、その後は、Zyteのサーバーにこれをアップロードすると、あら不思議、後は定期的にデータを、またIPアドレスを分散して取ってきてくれます。

便利なので是非使ってみて下さい。

※サイトの運営者に迷惑をかけるようなデータ取得はしてはいけません。また利用規約に禁止されている場合にはこのようなシステマティックなクローリングはしてはいけません。またこの記事は違法なクローリングを推奨するものではありません。

zyteはこちら

https://www.zyte.com/

海外SaaSを動画で紹介topへ

Previous

割安銘柄を驚くほど楽に見つけられるfinbox

Next

定期的にサイトやwebアプリにアタックしてくれて脆弱性をレポートしてくれるDetectify