OreOre Twitter Search を作りました http://twitter.ssig33.com/ OreOre Twitter Search 俺が俺の為に作った Twitter 検索です。今のところ検索出来るというだけで、他は何も出来ない感じです。 現状フロントエンドもバックエンドも Rails で書かれています。 フロントエンドは、 nginx の裏で unix socket で thin が動いているとかそんなので、まあ普通の Rails です。検索には Tritonn を使っています。 バックエンドでは、 AP4R で非同期化およびタスクの分割を行なって、 EventMachine で並列化をさせている感じです。現在、 2 万人弱をかなりリアルタイムに近い形でクロールしていますが、非同期化と並列化によってそれなりにスケールするクローラーになっていますので、
twitter検索はpublic_timelineをスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響はかなり出てしまい、回収率は1/10程度に落ち込んでしまいました。 代替策 TwitterはData mining feedという600ほどのポストを一度でもらえるAPIを提供していてポストを多く集めたい人はそれを使うようにというアナウンスをしています。しかしこれもキャッシュが効いているようですからそれほど改善しないのではないかと思い試していません。 また、既に事実上日本語のみを検索対象にするサービスになっているので日本語ユーザーのポストだけもらえればいいかと思い、日本語ユーザー(7万人前後)をRSSで取得する方法を考えましたが、
■結論 Twitter検索は、“つぶやいている感”と“その伝染イメージ”を視覚的に伝えられる形でも実装すべきだ。例えば『検索ワードと対象期間を入力すると、Twitter広場にアイコンが沸いてきて、各アイコンにマウスオンすると吹き出しでコメントが見られる』など。 ■背景 TwitterSearchを使ってみた。 検索してみると… 皆さんも使ってみてほしい。「まあ想定範囲内の出来ですな」とつぶやくことだろう。 私は物足りなかった。いや、だって普通すぎて…。そして、リアルタイムでつぶやかれていた感じが全く伝わってこないので、Twitterの魅力が消えているなと思った。 というわけで、いつもの悪い癖で代案を妄想してみた。 ■サービスイメージ 仮称は「TwitterLand」といったところか。 ■機能 対象期間中に検索ワードを含むつぶやきをしたユーザがアイコンで一括表示される。 検索後も期間変更バー
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
全文検索エンジンのgroongaをテストリリースしました。 groonga 本日開催された、key-value store勉強会で発表させていただきました。 今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna本来のパフォーマンスが発揮できなかった。 従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。 といった問題がありました。 groongaは、それに対する返答です。 自分でデータベース書けばいいんじゃね? 柔軟なAPI用意すればいいんじゃね? ってことですね。 データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。 詳細については、今後別エントリやドキュメントで述べます。 今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。 実際使ってみよう 今回
ところで、これを調べるためにフランス書院のホームページを拝見させていただきましたが、結構おもしろかったので紹介しておきます。というのは、刊行書籍を検索できるページがあるんですが、そこでタイトルの検索条件がめちゃくちゃ細かく設定できるんですよ。普通、本の検索画面って、入力できるのはタイトル・著者名・ISBN・発売年月ぐらいが普通だと思うんですけど、そんなレベルじゃないのです。ちょっと見に行ってみてください。 http://www.france.jp/servlet/Satellite?c=Page&cid=1176198273200&p=1174985087037&pagename=france%2FSimple3Layout 何と!シチュエーション、とか、登場人物の名前とか、年齢とか職業までお好みで指定できてしまう優れもの。ちょっとやってみましょう。 じゃあ、まずは年齢のしぼりこみから。1
まとめサイトやSBMサイトはもっとリンクを意識したUIに改善し、googleは検索評価を下げるべき。[Web系](http://www.milkstand.net/fsgarage/archives/001494.html)を読んで あーそういえば同じコンテンツのサイトが増えたなーというわけで、 自分用にGoogle検索にフィルタリング設定するようにしてみたところ、精度がマシになった。 例えば 「vimperator まとめ」で検索 フィルタリング検索結果 vimperator まとめ -buzzurl -clip.livedoor -bookmarks.yahoo -minna.topics.yahoo -kotonoha -faves.com -designlinkdatabase.net -feeds. -mark.jolt -pg.thumbnailcloud -s.phpspot
『伊集院光 深夜の馬鹿力』で語られたフリートークの内容、コーナーの投稿内容などを検索できるようにした検索ボックスです。『心の終バス』『メカ 山崎』『はみチン隠しまSHOW』『夢遊ちゃん』『コロッケパーティー』などのキーワード検索で、「あの放送回、いつだっけ?」といったことや、「こんな話、してたような気がするけど、思い出せない」といったことのご確認などにも使えます。 注1))Javascriptをonにして検索を実行してください。当サイト内に検索結果が表示されます。 注2))サイト内でさらにキーワード検索したい場合は、「ctrlとF」を押して、検索してください。 検索対象となるのは、以下のサイト(ほぼこれで網羅できるのではないか、と思われます。少なくとも、自分が放送回を調べる上では問題ないように思います)。 ・脳汁さん 深夜の馬鹿力のテキスト起こしをされているサイトです。フリートークからコー
UNIX系のOSは、標準で含まれる多様なツールによって強力なコマンドライン環境を実現しています。例えば ある文字列を含むファイルを、その出現箇所とともにリストアップする といったタスクを達成したいときは、以下のようにfindとgrepを併用すれば出来ます。 find DIR -name "FILE" -exec grep -IHn STRING {} \; しかし、比較的よく発生するタスクの割にコマンドが複雑なので、よくman findやman grepする羽目になります。そこで、より直感的に使えるコマンドをシェル関数として書いてみました。 function search() { dir=. file=* case $# in 0) echo usage: search STRING [DIR [FILE]] ;; 1) string=$1 ;; 2) string=$1 dir=$2 ;
美しい壁紙やHDR画像を探すのにはFlickerが最適です。しかしながら、膨大な量から一番しっくり来るものを探すのは難しいものです。 Google検索でもおなじみの『Feeling Lucky』ですが、今回のサービスはGoogle App EngineとflickerAPIを組み合わせた画像検索のマッシュアップサービスです。少し見てみましょう。 ■ページを開くとランダムにおすすめ画像が選択されます。 画像の大きさは、小さめ、小さい正方形、中くらい、巨大と選択できます。 HDR画像はできれば一番大きなサイズで見るのがいいと思います。 表示される画像がそれほどしっくりこなければ右側の更新ボタンを押します。 ■ちなみにジャンル選択もできます。 壁紙、おもしろトップ10、HDR、パノラマ、HQ、数字などが選択可能です。 *Feeling Lucky http://feeling-lucky.app
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く