URLからHTML取得してほしい情報を抜き出す
2022/1/20 2022/4/15
Webスクレイピングに興味を持って少し勉強してます。メモです。
Webスクレイピングの流れ
大まかにこういった流れになります。
①Request
Pythonに限らないが、WebサイトへHTMLデータを取りに行く。
②Get HTML Data
HTMLデータを取得する。
③Save HTML Data
取得したHTMLデータを保存する。分析の度にWebサイトにアクセスすると先方に負荷をかけたりするし、静的なデータでない(度々更新される)データの可能性があるため。
④Get Data for Analysis
分析をするためにデータを取得する。
⑤Analyze
分析する。
前提条件
色々なライブラリをインストールしておきます。
BeautifulSoup
requests
①Request、②Get, and ③Save HTML Data
以下のようなコードで可能です。
# Get HTML from website
import requests
response = requests.get(r"https://url/hogehoge")
print(response.text)
with open("result.html", "w") as Out_File:
print("ykDebug: try open")
Out_File.write(response.text)
④Get Data for Analysis
取り急ぎ、以下の方法でHTMLファイルを読み込めます。通常のファイルの読み込み方法と同じですね。
下の例でいうと変数「html」に対してBeautifulSoupのMethodやらを使って分析できるようになります。
# Read HTML files
File_Path = r"index.html"
with open(File_Path, "r") as file:
html = file.read()
1件のピンバック
サイト上の特定の情報を抜き出す(その1) | バイリンガルITエンジニアのほぼ不労所得までの道