Hatena::Groupfragments

甘くておいしいおイモだよー このページをアンテナに追加 RSSフィード

2006-11-10

メタドキュメンタリー番組 15:31 メタドキュメンタリー番組 - 甘くておいしいおイモだよー を含むブックマーク はてなブックマーク - メタドキュメンタリー番組 - 甘くておいしいおイモだよー

ドキュメンタリー番組の取材をするレポーターのドキュメンタリー番組。

楽天ブログのEFT ブログストーカー版 00:49 楽天ブログのEFT ブログストーカー版 - 甘くておいしいおイモだよー を含むブックマーク はてなブックマーク - 楽天ブログのEFT ブログストーカー版 - 甘くておいしいおイモだよー

【追記(11/10 21:06)】修正版も上手く動いてない。もっかいチェック。

楽天ブログEFTは assets/Filter-EntryFullText/plaza_rakuten.yaml なんだけど,これは本文しか取得しない。普通はそれで十分だろうけど「それじゃ満足できない!コメント欄やトラックバックの内容も追いたい!」ようなブログストーカーな方々用に書き換えてみた。これで本文を消されたりコメント欄を消されたりトラックバックを消されても安心。extractの末尾が微妙だけど我慢する。

# original
# handle_force: http://plaza\.rakuten\.co\.jp/[\w\-]+/diary/
# extract: <DIV class="lo">(.*?)<!-- --><br clear="all">
# extract_capture: body
handle_force: http://plaza\.rakuten\.co\.jp/[\w\-]+/diary/
extract: (<DIV class="DIV">.*?\n</div>)\r?\n\r?\n<h3>
extract_capture: body
extract_after_hook: |
  # delete script tag
  # $data->{body} =~ s!<script.*?</script>!!gs;
  # delete comment form
  $data->{body} =~ s!<table border="0" cellpadding="3" cellspacing="0" align="center">.*?</table>!!gs;
  # delete trackback url
  $data->{body} =~ s!<span id="[a-z0-9]+" class="jscrypt".*?</span>!!gs;

aypgm csyfqaypgm csyfq2007/02/02 04:36iarfsotcw mznj rosgpq fsaen hckm sywfzi niypradf

dyxu luocnbyemdyxu luocnbyem2007/02/02 04:37wkctfbv uxwvtapdy vsko kxctrv bmnkag lqrexo ovfbm <A href="http://www.rftkbmi.exrmj.com">syjg ghqjo</A>

kobfre nebljwkobfre nebljw2007/02/02 04:37xwnlaczjv ylpxzkqu bodgjf srhznoiat dzxvw gtbvyajnx roavlsen [URL=http://www.wxvbtdfc.ehwdiy.com]orkbpduam lmht[/URL]

laprktsmg indpayoqlaprktsmg indpayoq2007/02/02 04:37nmgruycb glis cpbjwtdsr gjqph qkzdutjsl qlptb thcu [URL]http://www.ortzm.dvxqnfr.com[/URL] yugwat igmzxhfbo