Evernote に出来ないこと
なんでも Evernote に登録して、いつでも探せる~ とかよく見かけますが、基本的な仕様を理解せずに使うと、むしろ不便なツールになり、全く捗りません。
前方一致(先頭一致)でしか検索できない
これは、Evernote のインデックス作成に関する仕様で、データベースの構造に及ぶことは容易に考えられるため、おそらく変更される事はないでしょう。
その結果 evernote という単語を ever や evern では検索できますが note では検索できません。また、このインデックス化における分離は、英数アンダーバー等を一つのグループとして認識するため、B747 を 747 で検索できません。私の試したところでは、Onenote や Dropbox Paper も Evernote と同じ結果でしたが、Google Keep は 747 で検索可能でした。Google は検索から得られる膨大な辞書を持っている事が影響しているのか、インデックスの構造がそもそも違う可能性があります(47でも検索可能なので全文検索が可能なのかもしれません)。
日本語については、比較的短い文字でインデックス化されているようですが、変なところで分断される事があり、そもそも辞書無しで日本語をインデックス化するのは難しいのではないかとも思います。
文字列のゆらぎを吸収しない
引っ越し を 引越し や 引越 では検索できません。 子ども会 こども会 子供会 も全て別のものです。
ノートの文末等に、考えられる関連キーワードを記載しておく自衛手段が必要です。
OCR
スキャナ等で利用される OCR は、テキストへの変換が目的のため 1対1の結果を出しますが、Evernote の OCR は、1対多 の結果を生成します。
人名の「松本」という画像があった場合、松本 松木 松犬 松太 木公本 のように、可能性のあるキーワードが同じ位置に埋め込まれ、より幅の広い検索にヒットする可能性が高まるようになっています。ただし、幅広くヒットする事が、検索結果にノイズを多く生む結果に繋がっています。
Evernoteに限った話ではありませんが、OCRで目的の文字が認識されていない場合も多く有るため、最終的には人間が判断してノートの何処かへテキストで挿入しておくしか方法は無いことになります。
私は手持ちの名刺をまとめて投入しましたが、時間の開いた時にチビチビと件名へ社名と氏名を入れていきました。
OCRの結果は、対象のノートを enex 形式でエクスポートすると tタグで記載されています(画像データの後あたり)。
前方一致(先頭一致)でしか検索できない
これは、Evernote のインデックス作成に関する仕様で、データベースの構造に及ぶことは容易に考えられるため、おそらく変更される事はないでしょう。
その結果 evernote という単語を ever や evern では検索できますが note では検索できません。また、このインデックス化における分離は、英数アンダーバー等を一つのグループとして認識するため、B747 を 747 で検索できません。私の試したところでは、Onenote や Dropbox Paper も Evernote と同じ結果でしたが、Google Keep は 747 で検索可能でした。Google は検索から得られる膨大な辞書を持っている事が影響しているのか、インデックスの構造がそもそも違う可能性があります(47でも検索可能なので全文検索が可能なのかもしれません)。
日本語については、比較的短い文字でインデックス化されているようですが、変なところで分断される事があり、そもそも辞書無しで日本語をインデックス化するのは難しいのではないかとも思います。
文字列のゆらぎを吸収しない
引っ越し を 引越し や 引越 では検索できません。 子ども会 こども会 子供会 も全て別のものです。
ノートの文末等に、考えられる関連キーワードを記載しておく自衛手段が必要です。
OCR
スキャナ等で利用される OCR は、テキストへの変換が目的のため 1対1の結果を出しますが、Evernote の OCR は、1対多 の結果を生成します。
人名の「松本」という画像があった場合、松本 松木 松犬 松太 木公本 のように、可能性のあるキーワードが同じ位置に埋め込まれ、より幅の広い検索にヒットする可能性が高まるようになっています。ただし、幅広くヒットする事が、検索結果にノイズを多く生む結果に繋がっています。
Evernoteに限った話ではありませんが、OCRで目的の文字が認識されていない場合も多く有るため、最終的には人間が判断してノートの何処かへテキストで挿入しておくしか方法は無いことになります。
私は手持ちの名刺をまとめて投入しましたが、時間の開いた時にチビチビと件名へ社名と氏名を入れていきました。
OCRの結果は、対象のノートを enex 形式でエクスポートすると t
プラットフォームごとにアプリの機能が違う
各OS用のアプリケーションごとに出来たり出来なかったりと機能がバラバラです。OSXアプリで編集可能なものがWindowsアプリでは編集不能等があり、スマートフォンでは更に機能が制約されます。
データサイズに比例して検索や編集が遅くなる
データベースにはインデックス数の増加が検索時間に影響を与えないのを売りにしているものもありますが、Evernote のデータベースは、データ量(インデックス量)の増加により検索時間が増加します。
もしかしたら、pdf等の中身をインデックス化されない無料ユーザーの方が同じ容量の場合、検索が早かもしれません。
また、Windowsアプリでは、データを一つのファイルにまとめている(SQLite3を利用)ため、ノートの編集を行うと(おそらく)編集したノートを末尾に追加し、元々ノートのあった場所のデータを削除するために多くの時間がかかります。
目的の領域への削除フラグだけでは、旧データが探せてしまい、プライバシーの問題が残るという事なのでしょう。
各OS用のアプリケーションごとに出来たり出来なかったりと機能がバラバラです。OSXアプリで編集可能なものがWindowsアプリでは編集不能等があり、スマートフォンでは更に機能が制約されます。
データサイズに比例して検索や編集が遅くなる
データベースにはインデックス数の増加が検索時間に影響を与えないのを売りにしているものもありますが、Evernote のデータベースは、データ量(インデックス量)の増加により検索時間が増加します。
もしかしたら、pdf等の中身をインデックス化されない無料ユーザーの方が同じ容量の場合、検索が早かもしれません。
また、Windowsアプリでは、データを一つのファイルにまとめている(SQLite3を利用)ため、ノートの編集を行うと(おそらく)編集したノートを末尾に追加し、元々ノートのあった場所のデータを削除するために多くの時間がかかります。
目的の領域への削除フラグだけでは、旧データが探せてしまい、プライバシーの問題が残るという事なのでしょう。
機械学習とプライバシー
ユーザー個々のデータを、そのユーザーの範疇にのみ留めておく事でプライバシーは保たれますが、それ以上の利便性を求めると、検索語やユーザーをまたいだ情報の比較が必要になるでしょう。
Google の得意とする分野であり(あちらはWebという公の情報)、先日 Evernote が撤回した機械学習のためのノートの閲覧が、上記に記載した、 ゆらぎ や OCR、前方一致も気にならないような改善につながるかもしれません。
プライバシーとの兼ね合いを考えると、機械学習の閲覧対象にしていいノートとそうでないノートを、ユーザーが指定できるようにするくらいしかないかもしれません。
コメント