この記事は、YouTube「初めてのPython」にアップしている内容です。
「#006 Webスクレイピングをやってみよう」では、「Yahoo Japan」のホームページを表示させてみました。
Webスクレイピングは、総務省統計局のホームページを見ると
統計データの分析で、POSデータやWebスクレイピングの活用は、調査員を介さない非接触型の
価格収集方式という意味においても有用であり、今後も取組を拡大していくことが必要であると
書かれています。
しかし、相手のサーバーの負荷が大きくなったり、著作権の問題があったりと、
アクセス先を選ぶ場合は事前に調査が必要です。
例えば、右のように「Yahoo ファイナンス」では、スクレイピングは禁止されています。

このように、Googleのような検索エンジンを使って、
Webスクレイピングをする場合は必ずサイトをチェックしましょう。
それでは、今回の動画は、「HTMLとは」です。
Webスクレイピングをするには、Webサイトの仕組みを理解しないとどの要素を取り込んでいいか、
分かりません。
だから、今回は、「HTML」の仕組みを勉強したいと思います。
HTMLとは、「Hyper Text Markup Language」(ハイパー・テキスト・マークアップ・ランゲージ)
の略称です。
Google検索に「Pythonとは」を入力し、クリックすると

Webページが表示され、画面上で右クリックすると、右のように表示がされます。
一番下にある「開発者ツールで調査する」をクリックします。

右のように表示されます。これが、「HTML」の言語です。
今回は、これを簡単に勉強していきます。
HTMLは、「<」と「>」で挟まれた「タグ」と
呼ばれる文字列で囲んで書いていきます。
以下に、代表的な「タグ」について
説明します。
<!DOCTYPE html>
ドグタイプ タグと言い、HTMLのバージョンを指定します。
<html> </html>
htmlタグと言い、DOCTYPEタグのすぐ後に記述します。
HTMLページ全体を表す最上位階層のタグです。
「lang」は、Webページの言語を設定できる部分です。
「ja」はJapaneseの略で、
日本語の文書であることを表しています。

<head> </head>
ヘッドタグと言い、ページ全体に関する設定情報を記述します。
ページのタイトルや説明文、使用する外部ファイルのリンクなどです。
<body> </body>
ボディータグと言い、実際にブラウザの画面上に表示されるページ、コンテンツを記述します。
<style> </style>
スタイルタグと言い、スタイルを記述します。
<div> </div>
ディブタグと言い、ページ内に汎用的なブロックエリアを設置します。
<script> </script>
スクリプトタグと言い、スクリプトを記述します。
<nonscript> </nonscript>
ノンスクリプトタグと言い、scriptタグに対応していない
ブラウザに対する代替メッセージを記述します。
<span> </span>
スパンタグと言い、ページ内に汎用的なインラインエリアを設置します。


今回は、「HTMLとは」の動画でした。
「Webスクレイピング」をやるためには、「HTML」の構成を勉強しなければならないので
少しずつやっていこうと思います。
これからも、私が「Python」を勉強するステップを一つずつ
見せていきたいと思います。
今回も最後まで見て下さり、ありがとうございました。
チャンネル登録、宜しくお願いします。


コメント