#007 HTMLとは

プログラミング

この記事は、YouTube「初めてのPython」にアップしている内容です。

「#006 Webスクレイピングをやってみよう」では、「Yahoo Japan」のホームページを表示させてみました。

Webスクレイピングは、総務省統計局のホームページを見ると

https://www.sta.go.jp/

統計データの分析で、POSデータやWebスクレイピングの活用は、調査員を介さない非接触型の

価格収集方式という意味においても有用であり、今後も取組を拡大していくことが必要であると

書かれています。

しかし、相手のサーバーの負荷が大きくなったり、著作権の問題があったりと、

アクセス先を選ぶ場合は事前に調査が必要です。

例えば、右のように「Yahoo ファイナンス」では、スクレイピングは禁止されています。

このように、Googleのような検索エンジンを使って、

Webスクレイピングをする場合は必ずサイトをチェックしましょう。

それでは、今回の動画は、「HTMLとは」です。

Webスクレイピングをするには、Webサイトの仕組みを理解しないとどの要素を取り込んでいいか、

分かりません。

だから、今回は、「HTML」の仕組みを勉強したいと思います。

HTMLとは、「Hyper Text Markup Language」(ハイパー・テキスト・マークアップ・ランゲージ)

の略称です。

Google検索に「Pythonとは」を入力し、クリックすると

Webページが表示され、画面上で右クリックすると、右のように表示がされます。

一番下にある「開発者ツールで調査する」をクリックします。

右のように表示されます。これが、「HTML」の言語です。

今回は、これを簡単に勉強していきます。

HTMLは、「<」と「>」で挟まれた「タグ」と

呼ばれる文字列で囲んで書いていきます。

以下に、代表的な「タグ」について

説明します。

<!DOCTYPE html>

ドグタイプ タグと言い、HTMLのバージョンを指定します。

<html> </html>

htmlタグと言い、DOCTYPEタグのすぐ後に記述します。

HTMLページ全体を表す最上位階層のタグです。

「lang」は、Webページの言語を設定できる部分です。

「ja」はJapaneseの略で、

日本語の文書であることを表しています。

<head> </head>

ヘッドタグと言い、ページ全体に関する設定情報を記述します。

ページのタイトルや説明文、使用する外部ファイルのリンクなどです。

<body> </body>

ボディータグと言い、実際にブラウザの画面上に表示されるページ、コンテンツを記述します。

<style> </style>

スタイルタグと言い、スタイルを記述します。

<div> </div>

ディブタグと言い、ページ内に汎用的なブロックエリアを設置します。

<script> </script>

スクリプトタグと言い、スクリプトを記述します。

<nonscript> </nonscript>

ノンスクリプトタグと言い、scriptタグに対応していない

ブラウザに対する代替メッセージを記述します。

<span> </span>

スパンタグと言い、ページ内に汎用的なインラインエリアを設置します。

今回は、「HTMLとは」の動画でした。

「Webスクレイピング」をやるためには、「HTML」の構成を勉強しなければならないので

少しずつやっていこうと思います。

これからも、私が「Python」を勉強するステップを一つずつ

見せていきたいと思います。

今回も最後まで見て下さり、ありがとうございました。

チャンネル登録、宜しくお願いします。

コメント

タイトルとURLをコピーしました