『Together』チェックで不具合発生

さっそく意気揚々とルー大柴オフィシャルブログ『TOGETHER』をinfony。
ちゃんといい感じで結果が出るものの、ルーさんの言葉は会社の名前として捕らえられがちのようだ。
カタカナ英語。



次にディスマンスをウェイトしていた!ルーブログ装いも新たにスタート4649。カッ! | ルー大柴オフィシャルブログ『TOGETHER』をチェック。
すると『sorry... Couldn't scrape.』の文字が。


トップページだと問題ないし、『本文のみ抽出』だとちゃんと動く。
ので得意の

print_r($value);exit;

で調べてみるとどうもMeCabの最大バッファにひっかかったみたい。
コメント大杉。


MeCabの(最低)最大バッファは8190バイトのようなので...

if(strlen($str) > 8188){
    $str = mb_strcut($str,0,8180);
}

としてカットしてみた。
(微妙なバイト数の誤差は保険ということで)


結局これだと文章の後ろの方をカットしてしまうのでそもそもの目的(がなんなのかはいまいちわかりかねる)からそれてしまっているような気がする。


http://kaihatsu.chew.jp/infony/info.php?url=http%3A%2F%2Fameblo.jp%2Flou-oshiba%2Fentry-10029565727.html&submit=+&get_body=on