#011 次ページ以降の情報も検索してみよう

プログラミング

この記事は、YouTube「初めてのPython」にアップしている内容です。

今回の動画は、「次ページ以降の情報も検索してみよう」です。

「#008 キーワードを入力してサイト・URLを表示させてみよう」

「#009 タイトル・URLをエクセルファイルに添付してみよう」

「#010 複数キーワードを検索してエクセルファイルに添付してみよう」

では、サイトのタイトル、URLをエクセルファイルに添付してみました。

Google検索した結果の1ページ目の情報を取得しましたが

2ページ以降の情報も取得してみたいと思います。

Google検索の下の「次へ」にカーソルを当て

右クリックし、「開発者ツールで調査する」を

選択します。

そうすると、右のようにHTML言語が表示されます。

aタグのhref属性に次のページのURLの一部があるようです。これを取得するには、id = “penext”が

使えるようです。

それでは、コードを説明します。

ここで、これまでと違うところは、「While True」で無限ループの

繰り返し処理をしているところです。

i = 0

While True

    i = i + 1

   if i > 2

      break

if文の「2」を変更すると、ページ数を変更することができます。

今回は「2」としたので、3ページの検索となります。

for文で、xpathでa-h3要素を指定し、取得したものを

変数h3に入れています。

h3タグの親を検索して、変数URLに入れています。

取得したh3タグのテキスト(サイトのタイトル)と

aタグのhref属性(サイトのURL)をデータリストに

入れています。

そして、次のページのURLを取得しています。

ページの上限になるまで、処理を繰り返しています。

サイトを10秒間表示させてから閉じます。

「Pythonとは」で作成したエクセルファイルを活用するため

ダウンロードします。

「テキスト」と「URL」の詳細は2行目から入力します。

一列目に「テキスト」を入力させます。

二列目に「URL」を入力させます。

新規エクセルファイル名を「seleniumとは」として保存します。

キーワード「seleniumとは」を3ページ分検索した結果

「テキスト」と「URL」をエクセルファイルに貼り付けることができました。

今回は、「次ページ以降の情報も検索してみよう」動画でした。

これからも、私が「Python」を勉強するステップを一つずつ見せていきたいと思います。

今回も最後まで見て下さり、ありがとうございました。

チャンネル登録、宜しくお願いします。

コメント

タイトルとURLをコピーしました