辞書を読む

辞書を読んでいくストイックなブログです。

スキャンした文字をデジタル文字に変換|Tesseract OCRを使う

持っている本をデジタル化したい、とは多くの蔵書家が思うことだと思います。特に自分用のノートを作る際には、デジタル化が簡単にできるととてもはかどります。

ここで私の悪戦苦闘記を書いて行きます。

Tesseract OCRのインストール

ダウンロードとインストール

Googleが提供しているTesseract OCRというフリーソフトがあります。それをインストールします。

UB-Menheim/tesseractのページから32bitか64bit、ご自身のPCにあったものをダウンロードしてインストールしてください。インストール途中でAdditional Script DataとAdditional Language Dataが追加できるので、日本語や自分が使う言語を選んでください。

以下のところが参考になると思います。

パスを通す

このまま、Windowsキー+rで「ファイル名を指定して実行」を起動し、cmdと入力してEnterを押すとコマンドプロンプトが起動します。このままtesseractと打つと以下のようになります。

C:\Users\***>tesseract
'tesseract' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。

「C:\Tesseract-OCR」のフォルダにインストールと仮定して、PATHを通します。

コントロール パネル\システムとセキュリティ\システムから「システムの詳細設定」をクリック。

f:id:utibori1:20210101130120p:plain
環境変数の設定

システム環境のPathを選んで「編集」をクリックし、半角セミコロン(;)で区切ってから「C:\Tesseract-OCR」と入力し、保存します。

f:id:utibori1:20210101131002p:plain
Pathを通す

もう一度コマンドプロンプトを起動して、「tesseract」と入力します。

C:\Users\***>tesseract
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

それでは文字を読んでいきましょう。

たとえばOxford English Dictionary、通称OEDの初版の一部ページを読み込みます。

f:id:utibori1:20210101132642p:plain
OED First Edition

出典:

public.oed.com

Tesseract OCRは「tesseract 画像ファイル名 出力ファイル名 -l 言語」と書いて動かします。具体的には以下の通り動かしました。

C:\Users\***\Desktop>tesseract oed.png oed -l eng
THE VOCABULARY.

Tue Vocabulary of a widely-diffused and highly-cultivated living language is not a fixed quantity circumscribed by
definite limits. That vast aggregate of words and phrases which constitutes the Vocabulary of English-speaking men
presents, to the mind that endeavours to grasp it as a definite whole, the aspect of one of those nebulous masses familiar to
the astronomer, in which a clear and unmistakable nucleus shades off on all sides, through zones of decreasing brightness,
to a dim marginal film that seems to end nowhere, but to lose itself imperceptibly in the surrounding darkness. In its
constitution it may be compared to one of those natural groups of the zoologist or botanist, wherein typical species,
forming the characteristic nucleus of the order, are linked on every side to other species, in which the typical character is
less and less distinctly apparent, till it fades away in an outer fringe of aberrant forms, which merge imperceptibly in
various surrounding orders, and whose own position is ambiguous and uncertain. For the convenience of classification,
the naturalist may draw the line, which bounds a class or order, outside or inside of a particular form; but Nature has
drawn it nowhere. So the English Vocabulary contains a nucleus or central mass of many thousand words whose
‘Anglicity’ is unquestioned ; some of them only literary, some of them only colloquial, the great majority at once literary
and colloquial,—they are the Common Words of the language. But they are linked on every side with other words which
are less and less entitled to this appellation, and which pertain ever more and more distinctly to the domain of local
dialect, of the slang and cant of ‘sets’ and classes, of the peculiar technicalities of trades and processes, of the scientific
terminology common to all civilized nations, of the actual languages of other lands and peoples. And there is absolutely
no defining line in any direction: the circle of the English language has a well-defined centre but no discernible

ほぼ成功、といえると思います。

Paperback Oxford English Dictionary 7/E

Paperback Oxford English Dictionary 7/E

そして、僕はOEDを読んだ

そして、僕はOEDを読んだ

世の中がつまらないときは語学をやろう

2019年4月現在、コロナウイルス(COVID-19)が猛威を振るっています。人生で数少ない「猖獗を極める」という言い回しを使うべき機会です。

外出自粛など世の中がつまらない時代だからこそ、家で語学をやりましょう。

 

英語

英語は中学、高校の教材も豊富で大学受験用参考書にも優れた本が多くあります。辞書を片手に動画を見れば勉強になります。

英語は辞書も多いので好みで選べばいいと思います。私はジーニアスを持っています。

ジーニアス英和辞典 第5版

ジーニアス英和辞典 第5版

  • 発売日: 2014/12/17
  • メディア: 単行本
 
プログレッシブ英和中辞典〔第5版〕

プログレッシブ英和中辞典〔第5版〕

  • 発売日: 2012/02/23
  • メディア: ペーパーバック
 
ウィズダム英和辞典 第4版

ウィズダム英和辞典 第4版

  • 発売日: 2018/11/23
  • メディア: 単行本
 
熟語本位 英和中辞典 新版 CD-ROM付

熟語本位 英和中辞典 新版 CD-ROM付

 

英国

BBC

www.youtube.com

英国放送協会BBC)のニュース動画では英国英語(Queen's English)が学べます。字幕がついていますので、聞き取れなくても大丈夫です。

また、コロナウイルスに関連しては、エリザベス女王のコメント動画が公開されて話題になりました。こちらもBBCの動画から。字幕をONにするとみられます。


The Queen's Coronavirus broadcast: 'We will meet again' - BBC

米国

CNN

www.youtube.com

アメリカのニュース専門テレビ局、こちらは字幕がありません。なれれば聞き取れるようになる気がします。


CNN. Go There.

ABC

www.youtube.com

同じくアメリカのニュース放送局ABCのチャンネルです。こちらはライブ配信もある上に字幕付きです。

ドイツ語

ドイツ語は大学の第二外国語として、かつては化学系、医学系では必修でした。以前は人気がありましたが、今は人気に陰りが出ているようです。

新現代独和辞典

新現代独和辞典

  • 発売日: 2008/04/01
  • メディア: 単行本
 

DW Deutsch

ドイツ語のニュースをオンラインストリーミングで流してくれています。勉強になります。

www.youtube.com

www.youtube.com

 

フランス語

 フランス語も大学の第二外国語として提供されていますが、ドイツ語よりも状況は厳しいようです。私は好きですが。

ロワイヤル仏和中辞典 第2版

ロワイヤル仏和中辞典 第2版

 
フランス語で読む星の王子さま (IBC対訳ライブラリー)

フランス語で読む星の王子さま (IBC対訳ライブラリー)

 

 France 24

フランス語のニュース放送局です。24時間ライブ配信をしてくれています。しばらく見ていると似たようなニュースが繰り返されていることに気づきます。

www.youtube.com

中国語

最近は経済面での結びつきが強くなっている中国語、文字は違いますが台湾でも使えます。以前は香港だと通じなかったらしいですが(香港は広東語を使います)、今はかなり使えます。

クラウン中日辞典

クラウン中日辞典

 

中国

中国国際電視台(CCTV

中国国営放送のYouTubeチャンネル。中国ではYouTubeはアクセス制限がかかってみられないのですが、なぜか国営の公式チャンネルが存在します。在外華僑向けのチャンネルです。同時に中国の明るいニュースを世界に発信するという国策が反映されています。


正在直播:CCTV 中文国际频道

https://www.youtube.com/watch?v=vCDDYb_M2B4

台湾

中国に対抗してか、台湾でもライブ配信が盛んです。

三立

台湾のテレビ局です。

www.youtube.com

www.youtube.com

台視

台湾のテレビ局です。

www.youtube.com


台視新聞台HD 24 小時線上直播|TAIWAN TTV NEWS HD (Live)|台湾のTTV ニュースHD (生放送)|대만 뉴스 라이브

韓国・朝鮮語

 一時期韓国ドラマが一世を風靡しましたが、今はどうなっているのでしょう?

朝鮮語辞典

朝鮮語辞典

  • 発売日: 1992/12/14
  • メディア: 単行本(ソフトカバー)
 

韓国

韓国は90年代からネット配信が盛んです。

KBS

韓国の国営放送です。

www.youtube.com


[LIVE] 언제, 어디서나 KBS 24시 뉴스

YTN

韓国のニュース専門放送局です。

www.youtube.com


[YTN LIVE] 뉴스특보 - 이천 물류창고 폭발

朝鮮民主主義人民共和国北朝鮮

中国同様、社会主義国家は投資額が少なくてすむオンライン配信に積極的です。しかし北朝鮮アメリカからの経済制裁がかけられているので、過去にチャンネルが削除されたこともありました。貴重なニュース映画もあったのに…。

www.youtube.com

韓国とは違った文法・語彙体系があるので興味深いです。

コンマの有無で数億円の残業代が発生?

ニューヨーク・タイムズの記事でオックスフォードコンマの有無が数億円の残業代の支払いをもたらしたと報じました。

www.nytimes.com

問題となったのはメーン州の州法です。条文では以下の項目には残業代を除外すると書かれてあります。(参照:Title 26: LABOR AND INDUSTRY Chapter 7: EMPLOYMENT PRACTICES Subchapter 3: MINIMUM WAGES

The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of:
(1) Agricultural produce;
(2) Meat and fish products; and
(3) Perishable foods.

(訳:以下のものにかかる輸送または配達のための缶詰、加工、保存、冷凍、乾燥、取引、保管、梱包:
(1) 農産物
(2) 肉製品、魚製品及び
(3) 生もの)

 条文にあるコンマと「or」が曲者です。オックスフォードコンマと言われるもので、オックスフォード大学出版局が採用した正書法から来ています。

法律が残業代を除外しているのは以下のどちらなのかが論点になりました。

  • 「(輸送・配達のための)梱包」(packing for shipment or distribution)
  • 「(輸送のための)梱包」と「配達」(packing for shipmentとdistribution)

原告はトラック運転手で会社に残業代を請求しました。彼らは配達は残業代を除外する対象ではないと主張しました。

 結果、一審では残業代の支払いは認められませんでしたが、二審では法律が曖昧であったことが認められ、支払いが命じられました。

以下の判決文には29ページに渡って文法的な法解釈が述べられています。

https://cases.justia.com/federal/appellate-courts/ca1/16-1901/16-1901-2017-03-13.pdf?ts=1489437006

ワシントン・ポストの記事も大いに参考になりました。

www.washingtonpost.com

 

余談

オックスフォードコンマの有名な例としては以下のようなものがあります。

  1. We invited strippers, JFK, and Stalin.
    (私達はストリッパーたちとJFKスターリンを招待した。)
  2. We invited strippers, JFK and Stalin.
    (私達はJFKスターリンというストリッパーたちを招待した。)

1の文章では私達が招待したのは少なくとも4人で、ストリッパーとJFKスターリンはそれぞれ別人です。一方、2の文章では招待したのは2人です。JFKスターリンという名前のストリッパーたちを招待したことになります。以下の文章も同様ですね。

  1. We invited the Rhinoceri, Washington, and Lincoln.
    (私達はサイとワシントン、リンカーンを招待した。)
  2. We invited the Rhinoceri, Washington and Lincoln.
    (私達はワシントンとリンカーンという名のサイを招待した。)

 

www.verbicidemagazine.com

www.verbicidemagazine.com

 

大岩のいちばんはじめの英文法【超基礎文法編】 (名人の授業)

大岩のいちばんはじめの英文法【超基礎文法編】 (名人の授業)

 

英議会で聞き取られなかったスコットランド英語

こんなニュースが話題になりました。

英議会 スコットランドなまりキツすぎ質問聞き取れず すれ違い
2018年10月20日 9時11分

イギリス議会で、与党の議員がスコットランドの政党の議員から質問を受けたところ、スコットランドなまりの強い英語を何度聞いても聞き取れず、質問が理解できなかったため、最後には文書で問題を解決するよう促されることになり、2人のすれ違いぶりが話題となっています。

イギリスの議会下院で18日、スコットランド民族党のデビッド・リンデン議員が障害者のバリアフリー対策について質問をしました。

ところが質問を受けた、ニュージーランド生まれでイギリスとの二重国籍を持つ与党 保守党のポール・ベレスフォード議員は、リンデン議員のスコットランドなまりの強い英語が聞き取れなかったため、もう一度質問するよう求めました。

このためリンデン議員は質問を繰り返しましたが、それでも理解できず、ベレスフォード議員は「本当に申し訳ない。ニュージーランドの英語で非常にゆっくりと質問をしてくれませんか」と改めて質問するよう求めました。

このやり取りに議場は笑いに包まれ、最後には副議長から文書で問題を解決するよう促されて質疑を終えました。

2人のすれ違いぶりは地元メディアで大きく報じられ、ネット上では、「スコットランドなまりは確かに難しい」と同情の声があがる一方で「何年もイギリス議会にいて一度も聞いたことがないのか」と、議員の理解力を疑問視する声もあり、話題となっています。

https://www3.nhk.or.jp/news/html/20181020/k10011678991000.html

実際、どんな英語だったか聞いてみました。私はわからないけど、ネイティブはわかるのでは、と思いました。(5秒後から。字幕をオンにするとわかりやすいです。)

"I know from speaking to a number of parliamentary colleagues that there are still certain aspects of the estate, including the northern estate, that are not great for people with disabilities, Can I ask the honourable gentleman what work is being done to make sure this place is more accessible, particularly for some of our colleagues who have a disability?"
「議会の同僚たち、北部のを含む建物にかかわる人達と話ました。それらの建物は身体障害者には親切ではありません。そこで、名誉ある紳士たちにお聞きしたい。この場所を、特に障害を持った同僚たちにもアクセスしやすいようにした実績はあるでしょうか。」

だいたいこんな意味だと思います。

これに対する返答はこちら。

"I'm sorry, it must be something to do with my antipodean background. Could he please repeat the question because I didn't follow it?"
「すみません、ずいぶん離れたところの出身なので。聞き取れなかったのでもう一度質問を繰り返してもらえますか?」

質問を繰り返し、結局は"I think the answer might be helped if you can reply in writing when you will read."(もし書いて質問を渡したら、回答の手助けになるでしょう)と言われて終わった。

qを含む単語

Oxford Living Dictionaries「Words containing the letter q | Oxford Dictionaries」より。

 英語のスペルでは、qの後には必ずuがつきます。

 

queue(行列)

quiz(クイズ)

acquaintance(知り合い)

squash(押しつぶす)

frequent(たびたびの)

tranquil(穏やかな)

 

ただし、niqab(スカーフの一種)のようなアラビア語から来た単語には当てはまりません。

海外ドラマはたった350の単語でできている

 

 

eの前であり、かつcの後でないi

Oxford Living Dictionaries「i before e except after c | Oxford Dictionaries」より。

 

いったい何のことを言っているか分かりませんよね。順にみていきましょう。

ほとんどの人はeの前であり、かつcの後でないiのスペルのルールを、以下の単語で知っていると思います。

 

-ie- -ei-
achieve(達成する) ceiling(天井)
belief(信念) conceit(気に入る)
believe(信じる) deceit(詐欺)
chief(チーフ) deceive(騙す)
piece(片) perceive(気づく)
thief(泥棒) receipt(領収書)
yield(産出する) receive(受け取る)

 

このルールは「ee」(イとエの間の音)と発音するときに適用されます。だからscience(科学)やefficient(効果的)といった単語には適用されません。これらの–ieはcのあとに来ていますし、「ee」と発音されません。

 

このルールは、たとえcの音が含まれていなくても「ee」の音がない単語には適用されません。

 

-ei- (「ee」と発音されないもの)
beige(ベージュ)
feign(よそおう)
foreign(外国の)
forfeit(罰金)
height(高さ)
neighbour(お隣)
vein(静脈)
weight(重さ)

 

eの前のiの一般的なルールは完全ではありません。「ee」と発音される場合でも例外があります。例えばseize(つかむ)、weird(変な)、caffeine(カフェイン)のような単語です。結局は書いて覚えるしかありません。覚えるまで辞書を引き続けましょう。

海外ドラマはたった350の単語でできている

 

-LLで終わる語に何かを付ける場合

Oxford Living Dictionaries「Adding endings to words that end in a... | Oxford Dictionaries」より

 

子音から始まる語尾(例 -ment, -ful, and -ly)を-LLで終わる単語につける場合、LLはLになります。

 

install instalment(インストールする、備え付け)
skill skilful(技術、技術のある)
chill chilly(寒さ、寒い)

 

-nessをつける場合、このルールは適用されません。

 

small smallness(小さい、小ささ)
ill illness(苦しみ、病)

海外ドラマはたった350の単語でできている