ホーム
PythonとXML
PythonでHTMLから特定のタグを抜き出してCSVにする

PythonでHTMLから特定のタグを抜き出してCSVにする

PythonでHTMLからaタグをリストアップして、リンク先とリンクテキストをCSV形式で出力します。

HTMLから特定のタグを抜き出す手順
HTMLのパースにはxmlモジュールではなくBeautifulSoupを使う
csv出力は文字コードと改行に注意
実施例

HTMLから特定のタグを抜き出す手順

例えばpreタグの中以外の箇所にある指定のタグだけを抜き出したいという場合、正規表現で検索するのはたいへんです。

そこで、HTMLをパースできるパーサーで希望のタグだけを抜き出して、その抜き出したタグに対して正規表現でさらに中身を取り出します。

ここでは、HTMLファイル内の全てのaタグを抜き出して、そのリンク先URLとリンクテキストをCSV形式で出力するようにします。

HTMLのパースにはxmlモジュールではなくBeautifulSoupを使う

HTMLはXMLの一種なので、本来はXMLとしてパースできるはずです。ただし、実際にxmlモジュールを使ってパースしようとするとエラーになります。

HTMLはXMLほど厳格ではないからです。

そこで、HTMLをパースするときはBeautifulSoupモジュールを使用します。

csv出力は文字コードと改行に注意

CSVファイルに出力した後でそのファイルをExcelで開く場合は、CSV出力の際の文字コードをshift_jisにするように注意してください。Excelでutf-8のファイルを開くと文字化けします。

また、csvモジュールのwriterowsメソッドで出力する場合は、ファイルを開くときのnewlinesを空文字に設定します。そうしないと、csvファイルの各行の間に無駄な空行が入ってしまいます。

実施例

サンプルコードはこんな感じです。

from bs4 import BeautifulSoup
import re
import csv

link_list = []
with open('a.html', mode='rt', encoding='utf-8') as f:
    soup = BeautifulSoup(f.read(), 'html.parser')
    link_list = soup.find_all('a')

out_data = []
for i in link_list:
    m = re.match('<a.*?href="(.+?)".*?>(.*?)</a>', str(i))
    if m != None:
        out_data.append([m.group(1), m.group(2)])

with open('out.csv', mode='wt', encoding='shift_jis', newline='') as f:
    csv_writer = csv.writer(f)
    csv_writer.writerows(out_data)

入力ファイルはa.htmlで、実行するとout.csvが出力されます。

Visual Studio Codeで定型文（スニペット）を入力する Pythonでマスク画像を作る方法（３選）

公開日 2020-07-25

PythonでHTMLから特定のタグを抜き出してCSVにする

HTMLから特定のタグを抜き出す手順

HTMLのパースにはxmlモジュールではなくBeautifulSoupを使う

csv出力は文字コードと改行に注意

実施例

PythonとXMLカテゴリの投稿

某エンジニアのお仕事以外のメモ（分冊）

Recent Posts

Tags

Categories