アイキャッチ画像

PythonでHTMLを加工する

PythonでHTMLを加工したりHTMLからデータを抜き出したりするときに便利なモジュールとして、Beauriful Soup 4というモジュールがあります。このモジュールを使ってみます。

目次

  1. Beautiful Soup 4のインストール
  2. Beautiful Soupの基本的な使い方

Beautiful Soup 4のインストール

ドキュメントサイト にインストールの方法が書かれています。

MacOSにpyenvでPython 3.6をインストールした環境ですが、pipでインストールできました。

$ pip install beautifulsoup4

Beautiful Soupの基本的な使い方

加工したいHTMLをコンストラクタとしたBeautifulSoupクラスのオブジェクトを作って、そのオブジェクトに対して操作をします。

つまり、

from bs4 import BeautifulSoup

soup = BeautifulSoup('<html>context</html>')

というように(この例では)soupというオブジェクトを作って、このオブジェクトから要素を取り出したり追加したりします。

実際にはHTMLファイルから読み込んで、加工して、書き出すという操作をすると思いますが、下記のような流れになります。

公開日

広告