URLからHTML取得してほしい情報を抜き出す

Webスクレイピングに興味を持って少し勉強してます。メモです。

Webスクレイピングの流れ

大まかにこういった流れになります。

①Request

Pythonに限らないが、WebサイトへHTMLデータを取りに行く。

②Get HTML Data

HTMLデータを取得する。

③Save HTML Data

取得したHTMLデータを保存する。分析の度にWebサイトにアクセスすると先方に負荷をかけたりするし、静的なデータでない(度々更新される)データの可能性があるため。

④Get Data for Analysis

分析をするためにデータを取得する。

⑤Analyze

分析する。

前提条件

色々なライブラリをインストールしておきます。

BeautifulSoup

requests

①Request、②Get, and ③Save HTML Data

以下のようなコードで可能です。

# Get HTML from website
import requests
response = requests.get(r"https://url/hogehoge")
print(response.text)

with open("result.html", "w") as Out_File:
    print("ykDebug: try open")
    Out_File.write(response.text)

④Get Data for Analysis

取り急ぎ、以下の方法でHTMLファイルを読み込めます。通常のファイルの読み込み方法と同じですね。

下の例でいうと変数「html」に対してBeautifulSoupのMethodやらを使って分析できるようになります。

# Read HTML files
File_Path = r"index.html"
with open(File_Path, "r") as file:
    html = file.read()
よっさん
  • よっさん
  • 当サイトの管理人。ニューヨークの大学を飛び級で卒業。その後某日系IT企業でグローバル案件に携わる。マレーシアに1.5年赴任した経験を持つ。バイリンガルITエンジニアとしていかに楽に稼ぐか日々考えている。

1件のピンバック

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です