(O+P)ut

ITエンジニアのアウトプット録



(O+P)ut

OutPut Log by SE

wgetにてブログ記事のタイトル一覧を取得する

スポンサーリンク

f:id:mtiit:20181210163051p:plain

はじめに

本記事でははてなブログを想定して記載しています。

また、wgetコマンドを用いて実施するため、こちらのコマンドが打てる環境を用意ください。
今回はWindows環境ですのでCygwinにて実施しました。

ちなみに、上の文字列の画像は本ブログのタイトル一覧から英数字だけを抜き出して可視化してみました。*1

はてなブログの記事タイトル一覧を取得する

はてなブログ特有の構造

はてなブログはブログのトップページのURLに「/archive」を付与すると記事一覧ページになっています。
私のブログの場合は以下が記事一覧です。
https://www.mtioutput.com/archive

ほかのブログでも、同様のURLがあれば適宜それに置き換えてください。

HTMLの取得/切り出し

こちらの記事一覧のHTMLをwgetで取得して欲しい箇所を切り出します。

各記事の箇所が

<a class="entry-title-link" href="記事のURL">記事のタイトル</a>

という構造ですので、「entry-title-link」という箇所でひっかけて<>を区切り文字として3列目を表示します。

実際の結果

$ wget -O - 'https://www.mtioutput.com/archive' 2> /dev/null | grep entry-title-link | awk  -F'[<>]' '{print $3}'
【ブロックチェーン】なぜ送金手数料を高めに設定するのか
【サルでも分かる】Java Servlet入門
インフラエンジニアにおすすめのWebサイト5選
....

とずらずら表示されます。

採用しているテンプレートデザイン等に依存すると思いますが、私の場合は30記事が取得できました。
30記事以降を表示したい場合は/archiveの後ろに「?page=2」「?page=3」といったようにページの指定を追加すれば取得可能です。


以上、ご参考ください。

*1:Wordleを利用