Webスクレイピングは違法ですか?

Webスクレイピングには、Webサイトまたはページからのデータ形式での情報の収集が含まれます。あなたは意識的な行為ではないかもしれませんが、情報を収集している間、あなたは何らかの方法でウェブをこすりました。しかし、それは通常微妙です。

Webスクレイピングまたは画面スクレイピングは一般的に意図的な行為であり、専門家は膨大なデータを取得するために設計を自動化します。 Webサイトのテキストを手動でコピーするか、専用ツールを使用するか、Webスクレイピングスクリプトを作成するかに関わらず、Webスクレイパーは一度に複数のリクエストを行うことでWebサイトに大きな打撃を与えることがあります。

しかし、現在多くの企業がWebスクレイピングを活用して競争上の優位性を推進していますが、実際には合法ですか?

どのWebサイトをスクレイプする必要がありますか?

インターネットは情報のプールであり、人々が古いリアルタイムのデータにアクセスできるようにします。 Webスクレイピングまたは画面スクレイピングはしばらく前から出回っています。しかし、どれだけ使用する必要があり、どのWebサイトをスクレイプできますか?

一部のWebサイトは、Webクローラーまたはスクリーンスクレイパーで厳格であり、それらを完全にブロックします。したがって、そのようなWebサイトをこすってはいけないことは明白です。しかし、人々はまだそうしています。

残念ながら、そのようなサイトが抜け穴にパッチを当てる以外にそれを止めるためにできることはほとんどありません。

Webサイトをスクレイプする前に、理想的には、クロールが許可されているかどうかを確認する必要があります。通常、サイトのrobots.txtファイルを確認することでそれを見つけることができます。これを行うには、「[ウェブサイトのURL] /robots.txt」と入力します。

robots.txtは通常、さまざまなクローラーまたはユーザーエージェントのルールを設定します。ただし、これらのルールは、関係するWebサイトによって異なります。すべてのページでクロールを許可するサイトもあれば、ボットがクロールできるページを指定するサイトもあれば、クローラーを完全にブロックするサイトもあります。

すべてのユーザーエージェントがすべてのページをクロールするのをブロックするWebサイトは、通常、次のルールを設定します。

 user-agent: *
Disallow: /

すべてのボットが特定のディレクトリまたはページをクロールするのをブロックするrobots.txtファイルは、通常、次のようになります。

 user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2

robots.txtでクロールするページが許可されていない場合は、おそらくそれをスクレイプできます。それ以外の場合は、取り消すか、管理者の同意を求める必要があります。彼らはあなたにアクセスを許可するかもしれません。

さらに、一部のWebサイトでは、使用条件でクロールを許可するかどうかを明示的に示しています。 robots.txtの上部にもこれを記載している人もいます。あなたが正しいことをしていることを確認するために、それも常にチェックしてください。

Webスクレイピングがどのように悪用されているか

したがって、個人情報を提供したことのないWebサイトや人々からスパムメールやSMSを受信した場合は、おそらくどこかでかき集められている可能性があります。そしてほとんどの場合、それはあなたのソーシャルメディアハンドルの1つを介して行われます。

とは言うものの、Webスクレイピングは、フロントエンドにレンダリングするデータを収集するだけではない場合があります。悪意を持って使用すると、個人情報や機密情報が漏洩する可能性があります。

ほとんどのソーシャルメディアプラットフォームはそれに眉をひそめていますが、クロールボットは依然として人々のプロファイルにアクセスし、彼らの連絡先情報が漏洩してスクレイピングされます。

たとえば、Facebookには、ユーザーが連絡先情報を非公開にしているにもかかわらず、過去にユーザーの連絡先情報が漏洩する脆弱性があると報告されています。

同様に、LinkedInは最近セキュリティ違反に見舞われ、5億を超えるアカウントに属する個人データが漏洩しました。その結果、その脆弱性により、プロファイル所有者の同意なしに多くの電子メールアドレスと電話番号が共有されました。

ウェブサイトをスクレイプすることは違法ですか?

ウェブスクレイピングの合法性についての結論はこれまでありませんでした。代わりに、クローラーがケースバイケースでどのように機能するか、および収集されたデータを使用して何を達成するかに焦点が当てられます。

したがって、その合法性について結論を下すのではなく、悪意を持って行われた場合、スクレイピングは違法です。しかし、慎重に行えば、違法ではありません。

しかし、予想通り、ユーザーのプライバシーは非常に重要であるため、ソーシャルメディアデータのスクレイピングと使用に関してより厳格なポリシーがあるようです。ただし、それでも、人々がデータをどのようにスクレイピングするかということになります。

Internet&Social Media Law Blogは、hiQ Labsが公開されているLinkedInユーザーのデータをスクレイピングするのを阻止しようとした後、2019年にLinkedInに対して訴訟に勝ったデータスクレイピング会社であるhiQLabsの事例を分析しました。

hiQ Labsは、コンピューター犯罪取締法(CFAA)は不正アクセスのみを禁止していると主張しており、判決はLinkedInのデータが公開されていることを確認したため、データをスクレイピングする人は誰でもアクセスできるためにそうしました。

さらに、hiQ Labsはスクレイピングされたデータのみを使用して、企業に分析ソリューションを提供しました。これにより、企業はより適切な採用決定を下すことができます。

反対に、 Facebookは最近Facebookユーザーのプロファイルを同意なしにスクレイプChrome拡張機能開発者を訴えました。

同様に、コピーキャットサイトは、いくつかのInstagramユーザーのプロファイル情報をスクレイピングし、それらを使用してクローンを作成したとしてFacebookから訴えられました。その報告によると、Facebookはその後さらに犯罪者に対する常設仲裁裁判所の差し止め命令を取得しました。

これらは、人々がWebスクレイピングを違法に使用した可能性があるいくつかのケースです。これらの企業は、ユーザーの同意なしにFacebookユーザーのデータを不正に収集しました。そのため、プライバシーポリシーに違反していました。

したがって、Webスクレイピングはデータを取得するサイトを苛立たせる可能性がありますが、インターネット法に完全に違反しない限り、現在のところ、人々が望むものを取得することを妨げる一般的な規則はありません。

Webスクレイピングはハッキングと同義ですか?

ウェブスクレイピングを取り巻くいくつかの神話があります。これらの1つは、Webサイトをスクレイピングすることは、それをハッキングしたことを意味するという信念です。ハッキングは最終的にデータのスクレイピングにつながる可能性がありますが、この用語自体がWebサイトのハッキングを意味するという主張は真実ではありません。

Webスクレイピングには、専用のクロールまたはスクレイピングツール、アプリケーションプログラミングインターフェイス(API)、またはWebスクレイピングスクリプトを使用して、Webサイトからレンダリングされたデータを取得することが含まれます。ハッキングとは異なり、スクレイピングしたWebサイトを危険にさらしたり、ユーザーのエクスペリエンスを妨害したりすることはありません。

関連: Webスクレイピングとは何ですか?ウェブサイトからデータを収集する方法

したがって、ハッキングには、通常はWebサイトのデータベースへの不正アクセスが含まれますが、Webスクレイピングは、フロントエンドにすでに表示されているデータのみを対象としています。人々は悪意を持ってWebスクレイピングを使用できますが、それでもハッキングと同義ではありません。

それに加えて、ウェブスクレイピングとは異なり、意図的で非倫理的なハッキングは違法です。

Webスクレイピングの利点は何ですか?

Webスクレイピングには多くの利点があり、一部のテクノロジー企業でさえ、APIを介してデータを無料で提供しています。その情報は通常、ビジネスの傾向を評価して意思決定を行うのに十分ではありません。

そのため、企業はWebをスクレイピングして慣行を改善し、売り上げを伸ばすことで、より多くのデータを取得できるようになりました。さらに、データサイエンティストは、スクリーンスクレイピングを介して収集されたデータを機械学習アルゴリズムに提供します。

このようなデータは、画像認識で使用される画像、感情分析用のプレーンテキスト、またはマーケットインテリジェンスと消費者行動分析用の直接製品データです。

関連: 機械学習プロジェクトのデータセットを取得するための独自の方法

したがって、競合他社がアクセスできない情報にアクセスできれば、競合他社を打ち負かすことができるため、Webスクレイピングはさらに役立ちます。

Webスクレイパーに眉をひそめるサイトもあれば、eコマースサービスでさえ、データをスクレイピングするかどうかを気にしないサイトもあります。 eBayやSalesforceなどのWeb大手は、2000年にAPIを開始し、プログラマーに初めて公開データへのアクセスを提供しました。

あなたは実際にウェブをスクレイピングする必要がありますか?

私たちは、正しい方法で行われた場合、ウェブスクレイピングは違法ではないことを確立しました。しかし、スクレイプしたデータをどのように処理するかも懸念事項です。したがって、これを悪用するのではなく、それを使用して、あなたや他の人が情報に基づいた意思決定を行うのに役立つより多くの洞察を引き出します。

ただし、スキルとしてのWebスクレイピングを使用すると、大量のインターネットデータにアクセスできるため、あなたやあなたの会社がビジネスのニッチ市場を超えた状態を維持するのに役立ちます。データサイエンティストとして、それはあなたの範囲を広げ、あなたのコーディングと技術的スキルを向上させます。

たとえば、Pythonは、BeautifulSoupライブラリまたはScrapyフレームワークを使用してWebサイトを簡単にスクレイプするのに役立つプログラミング言語の1つです。