[B! OCR] gntのブックマーク

https://docs.google.com/presentation/d/1LHplQ8nqNJNxaqY7DL4eM329jZKfO-E15XHoadYeLfE/mobilepresent?slide=id.g240ca7fffa_0_15369

gnt 2017/08/05

グーグル先生が日本語OCRも支配したのか…

google
ocr

リンク

横山光輝三国志画像検索

検索結果クリック or タップすることで画像を全画面表示します全画面表示した状態で再度画像を右クリック or 長押しタッチしてコピーすることで、TwitterやLineなどに直接画像貼り付けが行えます全画面表示した状態で再度画像を左クリック or タップすると、出典情報を閲覧できます左右にスワイプ or ←→操作することで、次の画像へ移動できます下スワイプ or Esc することで、検索結果に戻ります

gnt 2017/08/04

「待て」オススメ

リンク

吉田調書・全文をテキスト化

政府は9月11日、福島第一原発事故当時、所長だった吉田昌郎氏に当時の状況を聞いた、いわゆる「吉田調書」を内閣官房ホームページで公開した。政府が公開したテキスト埋め込みがされていないPDFファイルを、機械読み取りでテキストデータ化した。部分的に不正確な箇所もあるため、元の書類も合わせてご覧頂きたい。 Cranes operate at Unit 3, center, standing next to Unit 4, right, at Tokyo Electric Power Co.'s (Tepco) Fukushima Dai-ichi nuclear power plant in Okuma, Fukushima Prefecture, Japan, on Wednesday, July 9, 2014. All of Japan's 48 operable commercial re

gnt 2014/09/12

日本語OCRってもうどうにもならんのですかね。

OCR

リンク

電力会社が原子力、東京電力の力（ちから）をカタカナのカにしてネットで検索避けをしていると話題に : はちま起稿

「ストロンチウム」に続いて「原子力」「東京電力」も検索避けをしていると話題に原子カ（カタカナのカ）で検索して驚いた。情報公開は義務なのに電力会社は原子力（ちから）でなくて意図的に多くの情報でカタカナのカを利用して検索逃れ。東京電力は東京電カ（←カタカナ）。似た漢字やカタカナと漢字で似た形は多いから、きっと他にも沢山やってる。 — 中山幹夫 (@nakayamamikio) 2014, 6月 8 検索避け要注意ワード：「ス卜口ンチウム」、「プル卜ニウム」、「原子カ」、「東京電カ」　ト＝卜(ぼく)、ロ＝口(くち)、力＝カ(カタカナのカ) — Koji (@kwave526) 2014, 6月 8 東京電力じゃなくて、東京電カで検索すると原子力関連の記事出るの、見ちゃいけないもの見た感じあって怖いな — matui (@kyog02) 2014, 6月 8 すっげぇw 「東京電力」じゃなくて「

gnt 2014/06/09

これを機に「役所のワープロ→紙→PDF&OCR文化はクソ」「テキスト抽出不可はもっとクソ」「ていうか日本語OCRはまだまだクソ」という認識が広まることを望みます。

hoge
OCR

リンク

「サンレコ」「キーマガ」など音楽専門誌の記事資産、電子書籍化スタート　

gnt 2013/12/19

画像なのかテキストなのかOCR具合が気になる。

リンク

PFU、オーバーヘッド構造で非接触型の「ScanSnap SV600」

gnt 2013/06/13

きたわこれー……うう、もうひとこえ！

OCR
gadget

リンク

河合楽器、PDFの楽譜を楽譜として認識し、自動演奏するiPadアプリ　

gnt 2012/04/25

なるほど。自然言語認識よりはぜんぜん文字数が少ないし定型化されてる（写真の上に乗った楽譜とか見たこと無い）けど、どの単位で切り分けるかとか難しそう。

OCR
music

リンク

http://www-06.ibm.com/jp/press/pdf/archive_2011.pdf

gnt 2011/08/01

けっきょく校正は（ツールの工夫で多少効率化しても）コストのバカ高い日本語話者による目検しかない、っつーのがネックですが。粗くでもかけたほうが五万倍いいよね

books
OCR

リンク

iPadの登場で価値が上がったもの - 川崎裕一 / マネタイズおじさん

iPadの登場で価値が上がったもの＝裁断済みの本。理由はこんなかんじ。公式電子書籍の数＜勝手電子書籍の数の関係が崩れない限り自炊のニーズは存在する。自炊の流れはこんな感じ→本を裁断@裁断機>電子化@スキャナ>閲覧@PC。最後の閲覧フェーズがiPadに変化。自炊の際のプロセスで自動化されにくく、利用者にとってコストが高いのが、a.裁断、b.裁断済み本のスキャナへの投入（セット）の二つ。 b.裁断済み本のスキャナへの投入、の解決には機械的なアプローチが必要そう。機械好きの方の登場を願う。 a.裁断、の部分はアウトソースが効く。だが裁断してPDFにするというところはグレーライン。個人単位で考える。自炊ニーズが高まれば、裁断した本が手元に残るはず。多くの人はそれを捨てていると思うが、実はこの本には「裁断」という付加価値がついている。ということで。関連して。自炊の盛り上がりで裁断

gnt 2010/06/01

http://d.hatena.ne.jp/inouetakuya/20100512/1273624430の※欄あたりにも同意見が / id:mgkiller そうだっけ？とちょっと調べたのですが、オリジナルの譲渡については特に明記した法令はないような。なんかありましたっけ？

リンク

ケータイコミック関係者による最近の電子書籍ブームへのぼやき

むらかみふくゆき Fukuyuki @fukuyuki 解像度の問題を除けばそっちのほうが現実的かも。SD入るし。 RT ニンテンドーDSファミリの耐久性は異常 RT @junkoaile 例えばもしもｉPadで教科書が見られたら？ (via @poyopoyochan) 2010-05-07 09:40:35 むらかみふくゆき Fukuyuki @fukuyuki 非プロな書き手がたくさん出てくると今のiphoneアプリみたいにコンテンツの価格破壊がさらに進んで食えないモノカキがさらに増えるかも RT @sasakitoshinao: 電子書籍化されたらそこにも非プロな書き手が入ってきて、本を書く力量を持った人がたくさん現れてくると思う。 2010-05-07 14:57:38 むらかみふくゆき Fukuyuki @fukuyuki 電子書籍って今のケータイコミック業界の歴史を踏襲しそう

gnt 2010/05/13

なんかねーかなー、とゆー。「オーサリングしました！」で終わりじゃなくて、DB使って何か。もうやってるかもだけど。

リンク

裁断機 PK-513L で本を 100冊裁断してみた - 経験した 9つの失敗とその回避方法 - おいちゃんと呼ばれています

< 数冊なら机の上でもいいだろう。数十冊なら枕元でもいいだろう。しかし数百冊になると本棚は必須。数千冊を超えると本棚が日用品と干渉するようになり、そして数万冊となると不動産の問題になってくるのだ。 < そうなんです。そんなだから、前々から本を裁断＆スキャンして電子化（PDF 化）しようと思っていて、今年のゴールデンウィークは、本の裁断＆スキャンに没頭していました。誰だってある程度数をこなせばコツをつかむものだと思うのですが、大切な本、1冊だって失敗したくないって人のために、気をつけるべきポイントをまとめてみます。今回はとりあえず本の「裁断」について。あんまり長くなるとアレなので、スキャンその他については次の機会にチャレンジしてみる予定です。 **（2010年5月20日、5月30日、8月29日、9月17日追記）スキャンや PDF 圧縮、PDF リーダーについても書きました。よろしけれ

gnt 2010/05/13

「裁断済みの古書としてヤフオクに」その手があったか！　そうだよな需要はあるかもな。「裁断済み」がプラスの付加価値になるか。しかし書いた本人も言うように悪魔的所業だなー。

リンク

BOOKSCAN(ブックスキャン) 蔵書電子書籍化サービス - 大和印刷

gnt 2010/04/15

これはアウアウ。/既出だけど「裁断してスキャナにかければ全自動で……」というもんでもないので手間賃考えると100円/冊ではペイしない。なので複数重なったときは……おっとだｒ（ｒｙ

リンク

ポルノ雑誌「デラべっぴん」1996年8月号のエヴァンゲリオン特集記事

gnt 2009/07/29

OCRかけんのは……ムダかな。この分量なら読めばすむ。

リンク

本は分解・スキャンして寝床を確保-作業手順解説

本は分解・スキャンして寝床を確保 (作業手順解説) 猫本棚白光ハッコーヒーティングガン 883B 100V-1KW平型プラグ 883-13 "1: まず本のカバーを外してから背表紙を剥がします。このときドライヤーで本の背を暖めて糊を溶かし気味にすると楽に背表紙を剥がせます。ヒートガン(工業用ドライヤー)があるとより手早く作業できます。それから、ユリイカの目次やラノベの擬似ポスターのように折り返しになってるページは、この作業のすぐ後に展開しておきましょう。忘れて裁断すると涙目になりますから。" プラス断裁機 PK-513L 裁断幅A4タテ 26-106 "2: 次に本の背を綴じた糊を含めて5〜10mmほど裁断機で裁ち落とします。糊が残っているとスキャナに汚れがついて画像に黒い縦スジが入るので余分に切るのがコツです。この裁断機は力をかけずとも垂直に裁ち落とせるので特にお勧めです。(PK-

gnt 2009/07/01

元とるには数百冊単位でやらなきゃいけないけど、１冊当たり15分から1時間、しかも寝てる間にフルオートとは行かず目詰まり監視が必要、という。

books
OCR

リンク

国会図書館が蔵書90万冊以上をデジタル化？！　−国立国会図書館所蔵資料のデジタルアーカイブ整備費百数十億円を含む補正予算案、衆院通過／権利者の許諾なし��国会図書館所蔵資料の電子化を行える著作権改正法案も衆院全会一致で可決 - かたつむりは電子図書館の夢をみるか（はてなブログ版）

Web上のニュース等ではまだ上がっていないようですが、5/13付けの朝日新聞で、今年度の補正予算案で国立国会図書館の蔵書デジタル化として計127億円が計上された、という報道がありました。これは前年の100倍規模だそうです。同館の蔵書は全部で９１７万冊。うち明治・大正期に刊行された書籍の一部、約１４万８千冊をデジタル化してネットで公開しているが、蔵書の１.６％にすぎない。予算案が認められれば約９２万冊、同館の国内図書の４分の１近くのデジタル化が終わる計算だ。 [朝日新聞.2009-05-13.朝刊.社会面.25ページ] 自分が確認したのは朝日新聞のデータベース「聞蔵IIビジュアル」版と筑波大学に所蔵されてた紙版ですが、こちらのリンク先にも途中まではほぼ同じ内容が掲載されています（ただし最後の１文が聞蔵版とリンク先では違って、聞蔵版ではGoogle Book Searchについての言及と国

国会図書館が蔵書90万冊以上をデジタル化？！　−国立国会図書館所蔵資料のデジタルアーカイブ整備費百数十億円を含む補正予算案、衆院通過／権利者の許諾なしで国会図書館所蔵資料の電子化を行える著作権改正法案も衆院全会一致で可決 - かたつむりは電子図書館の夢をみるか（はてなブログ版）

gnt 2009/05/16

とりあえず無校正かけっぱでスピード＆コスパ優先してほしい。

リンク

大規模インフラ個人運用：AWS+Hadoopの成功例 | wrong, rogue and log

これは西村さんからTwitterで教えてもらったことなのであるが、AWS+Hadoopの幸せな成功例である： Self-service, Prorated Super Computing Fun! NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。これを行うのに次の構成をとったそうだ：PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換（なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そ

gnt 2009/04/20

NYTimesの画像アーカイブ4TBのTIFF→PDF変換を、AWS使って2人日+使用料60,000円のみでできちゃった、というお話し。タイミング的にバッチリすぎてAmazon営業が頑張ったんじゃねーかな、とか。

リンク

米グーグル「書籍全文検索」日本の絶版本も対象になる可能性

米グーグル社が進めている書籍検索サービスが、波紋を広げている。「絶版だが著作権はある」という書籍のデジタル化をめぐる訴訟が「和解」という形で決着しそうで、この影響が日本の本にも及ぶというのだ。米国内に条件を満たした日本の絶版本があれば、すべて内容が世界中に公開されることになる。日本の業界からの反発は必至だが、専門家からは「利益が適切に配分されるのであれば、拒否すべきではない。紙で『死蔵』するよりはましだ」と、著作権側の立ち位置の見直しを迫る声もあがっている。「絶版になったが著作権は存在している」書籍のデジタル化が進む米グーグルは2004年、書籍の全文検索が可能になるサービス「グーグル・ブック・サーチ」を立ち上げ、現在は書籍100万冊以上の内容がウェブ上で検索できる。当然、この仕組みに、著作権者側は反発。米作家協会や米出版協会(AAP)が05年9月から10月にかけて、著作権侵害を訴え、グ

gnt 2009/02/24

日本語のOCR精度の低さはものすごいディスアドバンテージになると思う。正直、webがもう一度ブレイクスルーするにはソレしかない気が。

リンク

大日本印刷、先生が授業中に生徒全員のノートをPC上で読めるツールを発表 | 情報・通信 | nikkei BPnet 〈日経BPネット〉

大日本印刷、先生が授業中に生徒全員のノートをPC上で読めるツールを発表写真●「オープンノート　OpenNOTE」の使用イメージ[画像のクリックで拡大表示] 大日本印刷は2008年11月26日、生徒が書いた文字や図形を教師がパソコン上で確認できる授業支援ツール「オープンノート　OpenNOTE」を発表した。2008年12月から、小中学校、高校、大学向けに販売を開始する。価格は、ディジタル・ペン7本に受信機などを組み合わせたセットで65万円から。オープンノート　OpenNOTE（以下、オープンノート）は、ディジタル・ペンを使って専用用紙に記述した文字や図形をパソコンに送信するツール。ディジタル・ペンに内蔵された小型カメラがペンの軌跡を記録し、ディジタル・データ化する。そのディジタル・データをBluetooth受信機経由でパソコンに取り込む。 Bluetoothは、2.45GHz帯の電波を利

gnt 2008/11/27

デジタルペン技術でhttp://tinyurl.com/56lnfl。ああ。なるほど。それは可能だ。そういう使い方があったか。まあ監視社会のひとつのモデル。/ただ7本セットで65万は高杉。前述リンクの使えば余裕で10万切るでしょ。

リンク

MOONGIFT: » 待ちに待ったオープンソースの日本語OCR「NHocr」:オープンソースを毎日紹介

OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。デモサービスで試せます今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル（さらに各ファイルをGZip圧縮していても可能）をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。読み取らせた画像手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ

gnt 2008/09/12

さあどんなもんでしょ。現状ではかなり使えない印象。けっきょくノウハウの固まりだからなぁ。集合知か衆愚か。

OCR

リンク

『Googleの明治の活字　OCR化の次なる　一手（まったくの推測です。）』

Googleが、明治の活字に挑戦している。現在の状況をみるとかなり苦戦しているようだ。ところで、学問のすすめ　は、どこにある？どうりで、検索できないわけだ。ほんとうは、學問すゝめ: 自第一篇至第十七篇というらしい。一瞬、慶応義塾大学が、とんでもないミスをしたと喜んだ、私が馬鹿だった。明治に出版された表紙をみると、読めない。うーん。 Googleが正しいようだ。ちなみに、青空文庫では、さて、Googleは、明治の活字をどのように攻略するのか。福翁自傳で考えてみよう。すでに、デジタルデータがある。すくなくとも、青空文庫にはある。これを��ルビなどのない、OCRに対応するデータに加工して、 Googleが読んだOCRデータと付き合わせる。すると、OCR読み取りパターンとテキストと対応することになるので、そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。

gnt 2008/01/25

OCR
Google

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

OCRに関するgntのブックマーク (42)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス