#006 Webスクレイピングをやってみよう

プログラミング

この記事は、YouTube「初めてのPython」にアップしている内容です。

「#005 Pandas と DataFrame を使ってみよう」で、エクセルファイルのデータを

簡単に取り込むことができました。

Web上にある数字を毎日エクセルファイルやノートに記入している人も

多いと思います。

Pythonでは、Web上にある数字を取り込むことができます。

今日は、Webスクレイピングを学習してみたいと思います。

まず、今、どんなライブラリが保存されているかを確認します。

コマンドプロンプトに「pip list」を入力して、実行させると

右の結果となりました。

この中で、「selenium」は、ブラウザの自動操作できるライブラリで

これは、活用します。

また、HTMLを読み取ることができるライブラリ「Beautiful Soup4」を

インストールする必要があります。

コマンドプロンプトに「py –m pip install beautifulsoup4」を入力し、実行すると、右のように

「Successfully installed beautifulsoup4-4.10.0」

と表示されているので、きちんとインストールされたことが分かります。

コマンドプロンプトに「pip list」を入力して、実行させると右の結果となりました。

「beautifulsoup4 4.10.0」がインストールされていることが分かります。

次に、ブラウザの自動操作をするために、「Google Chrome」を使います。

まず、「Google Chrome」をインストールします。

「Google」検索に「Google Chrome インストール」を

入力し、クリックすると、右の「Google Chrome

今すぐ、Chromeをインストール」をクリックします。

右のように表示され、「Chrome ダウンロード」をクリックします。

右上の「Chromeをダウンロード」をクリックします。

右のように表示され、「同意してインストール」をクリックします。

ChromeのVersionと合わせる必要があるのでVersionを調べる必要があります。

右上の黒点をクリックし、ヘルプを選定しGoogle Chromeについてクリックします。

バージョンが「94.0.4606.81」であることが分かりました。

「Google Chrome」を操作するために、「Chrome Driver」を使います。

ここで、「Chrome Driver」をインストールします。

Google検索に「Chrome Driver」を入力し右の表示をクリックします。

バージョン「94.0.4606.81」なので「ChromeDriver 94.0.4606.61」を

インストールします。

私のパソコンは、Windowsなので、「chromedriver win32.zip」をクリックします。

ダウンロードした「chromedriver」を展開させます。

ダウンロードしてZIPファイルを解凍します。

Pythonがインストールされているフォルダ(python.exeがあるフォルダ)に

ChomeDriverファイル(chromedriver.exe)をコピーします。

Python39のアプリは右のフォルダにあります。

C:\Users\user\AppData\Local\Programs\Python\Python39

ChromeDriverがインストールされているかプログラムを実行させて確認してみます。

Chromeを起動して、Yahoo Japanを表示させてみます。

20秒後に自動でChromeを閉じます。

下記のように、きちんと開きました。

今回は、「Webスクレイピング」をやってみました。

「Yahoo Japan」のホームページが開いた時は、「おっ」と感激しました。

これからも、私が「Python」を勉強するステップを一つずつ見せていきたいと思います。

今回も最後まで見て下さり、ありがとうございました。

チャンネル登録、宜しくお願いします。

コメント

タイトルとURLをコピーしました