PythonでHTMLを加工する

PythonでHTMLを加工したりHTMLからデータを抜き出したりするときに便利なモジュールとして、Beauriful Soup 4というモジュールがあります。このモジュールを使ってみます。

Beautiful Soup 4のインストール

ドキュメントサイトにインストールの方法が書かれています。

MacOSにpyenvでPython 3.6をインストールした環境ですが、pipでインストールできました。

$ pip install beautifulsoup4

加工したいHTMLをコンストラクタとしたBeautifulSoupクラスのオブジェクトを作って、そのオブジェクトに対して操作をします。

つまり、

from bs4 import BeautifulSoup

soup = BeautifulSoup('<html>context</html>')

というように（この例では）soupというオブジェクトを作って、このオブジェクトから要素を取り出したり追加したりします。

実際にはHTMLファイルから読み込んで、加工して、書き出すという操作をすると思いますが、下記のような流れになります。

公開日 2018-03-13