【RでWebスクレイピング】をする際に知っておきたい、HTMLの知識

Webスクレイピングをする際に、HTMLの知識はひつようです。

また、HTMLの知識はRのみならず、他のことでも使えます。

ここで一度、振り返ってみましょう。意外に忘れていることもあります。

目次

HTMLの基礎知識

HTMLはハイパーテキスト・マークアップ・ランゲージの略です。(なまえかっこよ)

うちたちがスマホやPCで検索して表示されるのは、【HTMLドキュメント】というものです。

  1. RでHTMLドキュメントをPCに取り込む
  2. DOMに変換される
  3. DOMに変換されたドキュメントから、必要な部分を検索・抽出

HTMLドキュメントをそのままRに取り込んでいるわけではないのですね。

タグ名

▼HTMLコード▼

HTML

▼【HTMLドキュメント】(ブラウザで表示されるやつ)▼

HTML

HTMLは<html>という開始タグ始まり、</html>という終了タグで終わります。

「html」はタグ名です。小文字で表記されます。

<head>タグ内に<title>タグが入っていますね。<title>タグで挟まれた文字「タイトル」がブラウザに表示されます。

また<body>タグ内に記載された本文が、ブラウザに表示されます。今回で言う、「タイトル」「見出し1」「リンク」です。

要素・属性・値の説明

webスクレイピングを実行する際に必要なものは、要素・属性・値です。

<head>
    <title>タイトル</title>
</head>
タイトル
要素名title
要素開始タグ、値、終了タグのセットのこと
<a href="https://miyastyle.net">リンク</a>
属性href
https://miyastyle.net
a要素の値リンク

まとめ:要素・属性・値が重要

  • 私達が目にするのはHTMLドキュメント
  • 要素・属性・値が重要

HTML以外もCSSの知識も必要になります。以上HTMLの説明でした。

HTMLに関する本

▼おすすめ商品!画像をクリック▼

一生使い続けたい商品・製品

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
URLをコピーする
URLをコピーしました!
プロフィール背景画像
鷺ノ宮らび
「Unishar-ユニシャー」編集長
ゲーム開発を手助けするメディア「Unishar-ユニシャー」の編集長です。「Rabbishar-ラビシャー」の運営もしています。

コメント

コメントする

CAPTCHA


目次
閉じる