PythonでHTMLを加工する
PythonでHTMLを加工したりHTMLからデータを抜き出したりするときに便利なモジュールとして、Beauriful Soup 4というモジュールがあります。このモジュールを使ってみます。
目次
Beautiful Soup 4のインストール
ドキュメントサイト にインストールの方法が書かれています。
MacOSにpyenvでPython 3.6をインストールした環境ですが、pipでインストールできました。
$ pip install beautifulsoup4
Beautiful Soupの基本的な使い方
加工したいHTMLをコンストラクタとしたBeautifulSoupクラスのオブジェクトを作って、そのオブジェクトに対して操作をします。
つまり、
from bs4 import BeautifulSoup
soup = BeautifulSoup('<html>context</html>')
というように(この例では)soupというオブジェクトを作って、このオブジェクトから要素を取り出したり追加したりします。
実際にはHTMLファイルから読み込んで、加工して、書き出すという操作をすると思いますが、下記のような流れになります。
公開日
広告
PythonとXMLカテゴリの投稿
- PythonでHTMLから特定のタグを抜き出してCSVにする
- PythonでHTMLを加工する
- PythonでXMLと文字列の変換
- PythonでXMLの構造を表示してみた
- PythonでXMLの読み込みと書き出し
- PythonのBeautifulSoup4でHTMLに要素を追加する
- PythonのBeautifulSoup4でHTMLの要素の内容にアクセスする
- PythonのBeautifulSoup4でHTMLの要素の内容を削除する
- PythonのBeautifulSoup4でHTMLの要素の囲いを外す
- PythonのBeautifulSoup4でHTMLの要素を削除する
- PythonのBeautifulSoup4でHTMLの要素を抜き出す
- PythonのBeautifulSoup4でHTMLの要素を新しい要素で囲う
- PythonのBeautifulSoup4でHTMLの要素を検索する
- Pythonのxmlで要素を列挙する
- PythonのxmlモジュールのElementTreeのルート要素を取得する
- PythonのxmlモジュールのElementからElementTreeを作る