【解決方法】Web サイトから動的データを抽出する方法は?


皆さんこんにちは、
2 つの異なる Web ページ (異なるプロバイダー) から動的データを抽出して、それらを Web ページ (私のアプリケーションである必要があります) で処理したいと考えています。
抽出に最も適した手順やツールは何ですか?

私が試したこと:

Google で解決策を見つけようとしましたが、テストを開始できるものは何も見当たりませんでした。

解決策 1

これは、アプリに使用しているフレームワークに大きく依存します。.NET C++ プログラムの場合は、 HTMLアジリティパック[^] これは、大量のスクレイピングに役立ちます。

ただし…スクレイピング技術には問題があります。Webサイトは頻繁に変更されます。 そして、スクレイピングが行われるとすぐに、アプリを作り直して新しいデータ形式をサポートするまで、ほとんどのスクレイピングは機能しなくなります。 そして、2週間後にまた同じことをしています。 データを収集するために複数のサイトを処理している場合は特に、最新の状態に追いつくためだけに、モッドの絶え間ないサイクルが発生する可能性があります。
代わりに、一貫した方法でデータにアクセスするために使用できる API がサイト プロデューサーにあるかどうかを確認することをお勧めします (各サイトをカバーするために複数の API を使用する必要がある場合でも)。 そうすれば、より信頼性の高い最終製品が得られます。

コメント

タイトルとURLをコピーしました