データフィード管理ツールにおける「クローリング」のメリット・デメリットとは

コラム
コラム

データフィード管理ツールをご検討中のお客様から「dfplus.ioはクローリングに対応していないんですか?」というご質問をいただくことがあります。対応している他社製品もありますが、dfplus.ioでは現状対応していません。

本記事では、「データフィード管理ツールにおけるクローリングのメリット・デメリット」について解説し、それを踏まえてdfplus.ioが対応していない理由をお伝えします。

前提:ここでいう「クローリング」とは

メリット・デメリットを解説する前に、本記事で扱う「クローリング」とは何なのかを明らかにしておきたいと思います。

データフィードを作成するまでの基本的な流れは以下の通りです。

  • ①商品データを用意する
  • ②商品データをツールに取り込み、加工・変換を行う
  • ③媒体にデータフィードを送信する
データフィードを作成するまでの基本的な流れ

クローリングが関係するのは「①商品データを用意する」という工程です。

商品データとは、自社サイトのアイテム(商品・求人・物件など)が一覧になったファイルのことを指します。複数のアイテムを扱うサイトの多くは、特別な準備をしなくても、サイトのシステムが参照する商品データが用意されています。この商品データをcsv、tsvなどの形で出力したファイルをデータフィードの「元」として使います。

クローリングとは、出力した商品データファイルは使わずに、サイト上の情報を元に商品データを生成する仕組みのことです。

クローリングを使用した場合、データフィード作成までの流れは以下のようになります。

  • ①クローラーがサイトを巡回し、取得した情報を元に商品データを作成
  • ②商品データをツールの中に取り込み、加工・変換を行う
  • ③媒体にデータフィードを送信する
クローリングを使用した場合のデータフィード作成までの流れ

クローリングのメリット

クローリングのメリットは、

  • データフィード施策の準備にかかる負荷が低くなる(ラク)
  • 初期費用を抑えやすい

ということです。

  • 商品データをファイルとして出力する仕組みがない
  • ファイルとして出力は出来るが、必要な情報が入っていない
  • 手動で出力は出来るが、都度ツールに取り込むのは手間なので、自動出力できるようにしたい

といったケースでは、追加のシステム開発が必要になることがあり、準備にかかる負荷が高くなりがちです。クローリングを利用することにより、こういった負荷を低減することができます。

また、一般的に、システム開発費用と比較すると、クローリングの初期費用の方が安価です。ただし、多くの場合では月ごとにランニングコストが発生するので、長期間利用した場合、費用の合計がシステム開発費用を上回ることもあります。

クローリングのデメリット

一方で、クローリングにはいくつかのデメリットと、それに付随するリスクがあります。

デメリットの大きさは、クローラーの仕様や、サイトの構造などによってケースバイケースですが、いずれにしても、利用前に把握しておくことをおすすめします。

デメリットは主に以下の4つです。

  • クローラー頻度・精度によっては、データフィードの品質が低下する
  • サイト上に表示されている情報しか扱えない
  • サイトに負荷がかかる
  • サイト改修を行ったときに、データフィードが欠損する可能性がある

それぞれ順番に見ていきましょう。

クローリングの頻度・精度によっては、データフィードの品質が低下する

クローリングの頻度・精度が低い場合、最新の情報がデータフィードに反映されるまでにタイムラグが生じたり、クローラーがサイト上の情報を適切に取得できなかったりして、データフィードの品質が低下してしまうことがあります。

想定されるリスクとしては、

  • 売り切れや販売停止の商品が広告に表示されてしまう
  • 掲載終了している求人が広告に表示されてしまう
  • セール情報が反映されず、セール前の価格が広告に表示されてしまう

などが挙げられます。

クローリングを行う頻度を上げることでタイムラグは解消できますが、後述する「サーバーへの負荷」とトレードオフになってしまう点に注意が必要です。

サイト上に表示されている情報しか扱えない

クローリングは、その仕組み上、「サイト上に表示されている情報」は扱えますが、「サイト上に表示されていない情報」は扱えません。

ここから想定されるリスクとしては、

  • 利益率に関係する情報や注力フラグなど、サイト上には表示されていない情報を元にした広告最適化が出来ない
  • 媒体側で必須とされている情報がサイト上に無いため、媒体仕様に沿ったデータフィードを作成することができない

などが挙げられます。

サーバーに負荷がかかる

クローラーがサイト内の対象ページにアクセスし、情報を読み込むので、サーバーに一定の負荷が定期的にかかり続けます。

サーバーへの負荷が及ぼす影響の大きさに関しては、クローリングの頻度や、対象ページの数、サーバーの強度などによって異なるので、一概には言えません。

ただ、最悪の場合、

  • ユーザーがサイトを閲覧しにくくなる
  • サイトが落ちてしまう

といった事態につながるリスクがあることを把握しておきましょう。

また、データフィードを最新の状態に保つためにクローリングの頻度を上げると、負荷がかかる頻度も同時に高くなるので、上記のリスクは大きくなると考えられます。

サイト改修を行ったときに、データフィードが欠損する可能性がある

サイトの改修が実施され、ページの構成や配置が変わった際に、クローラーが情報を正常に読み込めず、作成されるデータフィードに欠損が生じる可能性があります。

想定されるリスクとしては

  • 広告クリエイティブが意図しない表示になってしまう
  • データフィードが媒体仕様に合致せず、広告が停止してしまう

などが挙げられます。

クローリングが合っているケースとは

上で挙げたようなデメリット・リスクをきちんと把握し、問題ない状態になっていることが前提の上で、

  • 「現状、商品データを出力する仕組みがない」かつ
  • 「データフィードを活用した施策を開発コストをかけずに試してみたい」

といったケースでは、クローリングが合っているといえるでしょう。

それ以外のケースでは、デメリットがメリットを上回ることが多いため、基本的には推奨しません。

dfplus.ioが現在クローリングに対応していない理由は、クローリングのデメリット・リスクをカバーし、データフィード品質を担保するだけの機能やサポート体制が備わっていないと考えているためです。

クローリングに頼らずデータフィード施策を実施する方法について、ご相談を承ります

「データフィード施策を実施したいが、クローリング以外に商品データを用意する手段が分からない…」という方は、ぜひdfplus.ioチームまでご相談ください。詳しい状況をヒアリングさせていただいた上で、商品データを用意し、データフィードを作成するための最適な方法をご提案いたします。クローリングが適している場合は正直にお伝えします。

お問い合わせフォーム|dfplus.io データフィード統合管理プラットフォーム
セルフサーブ型のデータフィード統合管理プラットフォーム「dfplus.io」のお問合せフォームです。サービスについてのご質問、ご相談がございましたら、お気軽にお問合せください。

それでは、よいデータフィードライフを!

タイトルとURLをコピーしました