>  > 【アルファマジック】ハードトップホルダー(シリーズ1) アルファロメオ スパイダー デュエット クワドリフォリオ ヴェローチェ 105系 115系
Help Center アドヴィックス パデスト フロント左右セット ブレーキパッド レパード/レパードJ.フェリー JHY33 HSN572P ADVICS アドヴィクス SEI 補修用パッド ブレーキパット【店頭受取対応商品】
Webページから情報を抽出する(スクレイピング)

【アルファマジック】ハードトップホルダー(シリーズ1) アルファロメオ スパイダー デュエット クワドリフォリオ ヴェローチェ 105系 115系

著者: サポートチーム
1週間以上前に更新

この記事では、Webページから情報を抽出する方法を説明します 【5ZIGEN】マフラーカッター オーバル・シングル出し アクセラスポーツ DBA-BL5FW などにお勧め 品番:MC10-16122-001 5次元 5ジゲン 【送料無料】 225/55R19 19インチ LEHRMEISTER レアマイスター ヴァッサーノ(ブラックポリッシュ) 7.5J 7.50-19 YOKOHAMA ヨコハマ ジオランダー SUV G055 サマータイヤ ホイール4本セット【YOsum18】。

情報の抽出には主に2つの方法があります。スクレイピング(ScrapePage)アクションを用いる方法と、テキストを取得(GetText)アクションを用いる方法です。2つのアクションの違いについては下記で詳しく説明します。

どんな場合にスクレイピングが便利なのか

厳密には異なりますが、「人がコピー&ペーストを行うときにロボットはスクレイピングをする」と考えればイメージしやすいかと思います。ただし、スクレイピングの場合は人間がコピー&ペーストするよりも多くの情報を取得することができ、ここがスクレイピングの便利なところです。

抽象的な説明だけではわかりにくいので、どのような情報が取れるのか実際に見てみましょう トヨタ ウィッシュ 10系 18インチ アルミホイール・タイヤセット 一台分(4本セット) LEONIS NAVIA 02 MGMC/GOODYEAR 215/40R18 ウィッシュ 18インチアルミホイール・タイヤセット 215/40R18 18×7.0J 47。
(最後に具体例ワークフローのソースコードを添付するので、ぜひお試しください。)

サッカーの試合結果をスクレイピングで取得する

「UEFA Champions League Liverpool vs Paris Saint-Germain (18 SEPT 2018)の試合結果情報を取得する」というワークフローでスクレイピングを実演したいと思います。合わせて、スクレイピング(ScrapePage)テキストを取得(GetText)の両方を使って違いを説明したいと思います。

では早速ワークフローを組んでみましょう。

【アルファマジック】ハードトップホルダー(シリーズ1) アルファロメオ スパイダー 4.5 デュエット PAFB519 クワドリフォリオ ヴェローチェ 105系 115系


まず、Google検索 ( https://www.google.co.jp/webhp?hl=ja&sa=X&ved=0ahUKEwi-pNOjtcbdAhUK9LwKHTonAAQQPAgD )を開いて「UCL 結果 リヴァプール PSG」を検索します。

【アルファマジック】ハードトップホルダー(シリーズ1) アルファロメオ スパイダー デュエット クワドリフォリオ ヴェローチェ 105系 115系,[#tong##]


検索するためにはブラウザを開く(OpenBrowser)アクション文字入力(TypeText)アクションを用います。

文字入力のCSSセレクタには検索欄のセレクタを用いてください。また、「UCL 結果 リヴァプール PSG」はスペースも含め全て全角で記述してください。(半角が混じると、英語の検索ページとして表示されてしまうケースがございます。)

2.Enterキーを叩いて検索する

文字入力が完了したら検索してみましょう。検索には検索ボタンをクリックする方法とEnterキーを叩く方法がありますが、今回はEnterキーを叩く方法で検索をかけてみたいと思います。

キーを送信(SendKeys)アクション【GRB/GRF インプレッサハッチバック STI ブリッツ】INTER COOLER インプレッサ GRB [EJ20] TYPE JS 07/10- GH8取付不可 ミシュラン PRIMACY プライマシー 3 サマータイヤ 225/60R16 HotStuff Laffite ラフィット LW-04 4本 ホイールセット 16インチ 16 X 6.5 +38 5穴 114.3 HKS マーク II JZX100 インテークシリーズ レーシングサクション をドラッグ&ドロップしてみてください。

ブラウザ欄には文字入力(TypeText)アクションのアウトプットを入れてください。CSSセレクタも文字入力(TypeText)と同じもので結構です。キー欄には["Enter"]と入力してください。このアクションでは叩くキーを["◯"]で囲います。( ex ["a","i","u","e","o,","Enter"] )

検索に成功するとこのような画面が表示されます ●フロントハブベアリング●ミツビシ パジェロ V25W/V45W用▼。

3.スクレイピングで情報を取得する

さて、いよいよスクレイピングです。

スクレイピング(ScrapePage)アクションを使用します ■HR-V/ホンダ■タイヤラック(専用カバー付)■高さ3段調整と横幅スライド調整で12インチ~17インチまで最大8本収納可能■タイヤ収納 コンパクト 薄型 ベランダなど省スペース 最大積載量120kg■KY-316T+315C。

今回はスクレイピングだけではなく

スパイダー デュエット クワドリフォリオ 【アルファマジック】ハードトップホルダー(シリーズ1) ヴェローチェ スパイダー 105系 115系 アルファロメオ デュエット

テキストを取得(GetText)アクションも使って、其々の違いを比較したいと思います。また、スクレイピングには文字情報のみ抽出(text_only)というモードもあるので、こちらも合わせて、3つの方法を比較したいと思います。

スクレイピングする部分はこの部分です。

スクレイピングを行うためにはスクレイピングする部分のセレクタが必要です。下の画像で示すようにGoogle Chromeのディベロッパーツールで対象部分のソースコードを右クリック、Copy selectorでセレクタを得ることができます 【送料無料】 F:245/35R19 R:275/30R19 WEDS ウェッズ マーベリック 905S F:8.50-19 R:9.50-19 SAFFIRO サフィーロ SF5000(限定) サマータイヤ ホイール4本セット。実際に取得したセレクタはこちらです。「 #sports-app 」
(ここはやや難しいので、今回は上記のセレクタをコピー&ペーストして使用してください。)



取得したセレクタを貼りつけると、このようになっているかと思います。


同様に、文字情報のみ抽出(text_only)をオンにしたアクションをドラッグ&ドロップしてください。


最後に、テキストを取得(GetText)アクションをドラッグ&ドロップしてください。セレクタはスクレイピングと同じものです。

以上でワークフローは組み上がりました!
実行を押して、其々のアクションで取れる情報にどのような違いがあるか見比べてみましょう。


スクレイピングの結果

スクレイピング(文字情報のみ抽出)の結果

テキストを取得の結果


いかがでしょうか?

其々のアクションで、情報の取れ方が違うことがわかるかと思います。テキストを取得では人の目に見える部分だけが取れているのに対して、スクレイピングでは目に見えない部分の情報も取れています。また、スクレイピング(文字情報のみ抽出)では、文字列の間に「\n(改行)」があり、文の構造の情報が入っていることがわかります。

スクレイピング、スクレイピング(文字情報のみ抽出)、テキストを取得をどのように使い分ければ良いのか

ここまでの説明で、其々のアクションの違いはご理解頂けたかと思います。では、其々の違いをどうやって使い分ければ良いのか?

最初に述べたように、スクレイピングは多くの情報を取れます。例えば、スクレイピングした部分にはYoutubeの動画リンクが挿入されていて、この情報はスクレイピングを用いないと取得できません 。ただし、スクレイピングで取得したテキストには「\n(改行)」が入ってしまい、邪魔となることもあります。なので、文字列の情報のみが欲しい場合はテキストを取得アクションを使用します。スクレイピング(文字情報のみ抽出)はあまり使う機会はないかもしれませんが、リストになっている文章を取得する時に用います。

【アルファマジック】ハードトップホルダー(シリーズ1) アルファロメオ スパイダー デュエット クワドリフォリオ ヴェローチェ 105系 115系

以上でスクレイピングの説明は終わりです!
お疲れ様でした!!

ソースコード

# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: 'https://www.google.co.jp/webhp?hl=ja&sa=X&ved=0ahUKEwi-pNOjtcbdAhUK9LwKHTonAAQQPAgDアルファード ANH・GGH20W 前期 Sタイプ カーボンアウターハンドルトリム クレイブ '

# 文字入力
+type_text_1:
  action>: TypeText
  browser: +open_browser_1
  selector: 'input[name="q"]'
  text: 'UCL 結果 リヴァプール PSG'
  clearValue: false

# キー叩く
+send_keys_1:
  action>: SendKeys
  browser: +type_text_1
  selector: 'input[name="q"]'
  keys: ["Enter"]

# スクレイピング
+scrape_page_2:
  action>: ScrapePage
  browser: +send_keys_1
  selector: '#sports-app'
  text_only: false

# スクレイピング
+scrape_page_1:
  action>: ScrapePage
  browser: +send_keys_1
  selector: '#sports-app'
  text_only: true

# テキストを取得
+get_text_1:
  action>: GetText
  browser: +send_keys_1
  selector: '#sports-app'

今回のワークフローとログ例