URLからHTML取得してほしい情報を抜き出す

2022/1/20 2022/4/15

めっさん

Webスクレイピングに興味を持って少し勉強してます。メモです。

Webスクレイピングの流れ

大まかにこういった流れになります。

①Request

Pythonに限らないが、WebサイトへHTMLデータを取りに行く。

②Get HTML Data

HTMLデータを取得する。

③Save HTML Data

取得したHTMLデータを保存する。分析の度にWebサイトにアクセスすると先方に負荷をかけたりするし、静的なデータでない（度々更新される）データの可能性があるため。

④Get Data for Analysis

分析をするためにデータを取得する。

⑤Analyze

分析する。

前提条件

色々なライブラリをインストールしておきます。

BeautifulSoup

requests

①Request、②Get, and ③Save HTML Data

以下のようなコードで可能です。

# Get HTML from website
import requests
response = requests.get(r"https://url/hogehoge")
print(response.text)

with open("result.html", "w") as Out_File:
    print("ykDebug: try open")
    Out_File.write(response.text)

④Get Data for Analysis

取り急ぎ、以下の方法でHTMLファイルを読み込めます。通常のファイルの読み込み方法と同じですね。

下の例でいうと変数「html」に対してBeautifulSoupのMethodやらを使って分析できるようになります。

# Read HTML files
File_Path = r"index.html"
with open(File_Path, "r") as file:
    html = file.read()

この記事の投稿者最新記事

めっさん
当サイトの管理人。ニューヨークの大学を飛び級で卒業。その後日系企業でグローバル案件に携わる。大小様々な企業を転々としながら、マレーシアやアメリカへの赴任経験を持つ。バイリンガルITエンジニアとしていかに楽に稼ぐか日々考えている。年齢は秘密だけど定年も間近かな。

Python PythonでWebスクレイピング

Python Webスクレイピング

1件のピンバック

サイト上の特定の情報を抜き出す（その1） | バイリンガルITエンジニアのほぼ不労所得までの道

URLからHTML取得してほしい情報を抜き出す

Webスクレイピングの流れ

①Request

②Get HTML Data

③Save HTML Data

④Get Data for Analysis

⑤Analyze

前提条件

①Request、②Get, and ③Save HTML Data

④Get Data for Analysis

1件のピンバック

コメントする コメントをキャンセル

コメントするコメントをキャンセル