アウトライン化してもPDF内の文字が文字として保持されているという話
2008年02月14日公開予定だったエントリ。つまりその数日前に書いた分。2月~3月が仕事が超絶多忙プラス、超絶意想外の事件とかあったりして全FeZn系サイトが一旦停止したりしたあと、なんとか諸々片づいて復活中。あちら(武道)のほうもエントリというか何というかを書いたり。(なんと4年もかかったのか! 実際に書いたのは数時間だけど。)
で、以下のエントリの内容については実はもう少し知見が進んだのですが、書き直すのも面倒なのでそのままuploadする次第。
「Webで公開されているPDFファイルを作ろう。しかしフォントの字形や意匠は保持したい」というときに、
世の中を見回してみると「Illustrator(など)でアウトライン化してPDF保存」してある例が結構あったりします。
DTPの教科書的な解としては「アウトライン化じゃなくて、フォント埋め込み(エンベッド)を使うべし!」といったところでしょうか。
しかしながら、企業の製品のカタログ・パンフレット類を見ると、わざわざ文字をアウトライン化したPDFが使ってあったりします。(最近はそうでもない気がしますが。)
これは、「アウトライン化は出来るけれど、エンベッドはできないフォント」を使っているからなのでしょうか?
あるいは、「文字列として再利用されたくない」から、なのでしょうか。
普通は「図形化」したら、「文字としての検索対象にはならない」と考えてしまいますよね。というか自分もそうだったのですが。
しばらく前に(これ下書きしたの、いつだったか……多分かなり前です)、そのようなファイルを作ったことがあります。ある事情で。
全部の文字を(敢えて)アウトライン化してあるので、検索対象にならない……
と思ってWeb上にupしておいたところ……
Googleさんが拾っているじゃないですか。中身の文字列も。
調べてみるとカンタンな事で、
たとえば「xdoc2txt( http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html )」を使って、そのPDFファイル(全文字をアウトライン化してあるもの)をtxt化してみると、まるっとごっそり隅から隅までお見通しなカンジで、文字列を抽出できてしまいました。
元の文字が探せるというのは、アプリのバージョンや作り方によって異なってくるのかもしれません。
えぇと、PDFの仕様云々というよりは、Illustrator9.0(10.0かも)でアウトライン化してPDF保存するときに、元の文字列をどこかにきっと隠しているから、あの地平線は輝くのでしょう。
……じゃなくて、再利用させないとかそういうのはWeb時代(?)には古いんだということを主張し説得する材料に使ってみようかと思う一方、
「それをなんとかするのだ!」と言われたらどうしようもないなぁと思う今日このごろ。
いや、当該の案件においては、その必要性が発生しなかったので、それ以降の調査・研究はいまのところおこなっていません。
( cryptlib.dll を使えば、結局文字列抽出はできてしまうわけですが……)
追記。結局たしかAcrobatの暗号化とかで「Googleに文字列を拾わせない」は可能だった気がしますが詳細確認検証etc.面倒なのでココマデ。
で、以下のエントリの内容については実はもう少し知見が進んだのですが、書き直すのも面倒なのでそのままuploadする次第。
「Webで公開されているPDFファイルを作ろう。しかしフォントの字形や意匠は保持したい」というときに、
世の中を見回してみると「Illustrator(など)でアウトライン化してPDF保存」してある例が結構あったりします。
DTPの教科書的な解としては「アウトライン化じゃなくて、フォント埋め込み(エンベッド)を使うべし!」といったところでしょうか。
しかしながら、企業の製品のカタログ・パンフレット類を見ると、わざわざ文字をアウトライン化したPDFが使ってあったりします。(最近はそうでもない気がしますが。)
これは、「アウトライン化は出来るけれど、エンベッドはできないフォント」を使っているからなのでしょうか?
あるいは、「文字列として再利用されたくない」から、なのでしょうか。
普通は「図形化」したら、「文字としての検索対象にはならない」と考えてしまいますよね。というか自分もそうだったのですが。
しばらく前に(これ下書きしたの、いつだったか……多分かなり前です)、そのようなファイルを作ったことがあります。ある事情で。
全部の文字を(敢えて)アウトライン化してあるので、検索対象にならない……
と思ってWeb上にupしておいたところ……
Googleさんが拾っているじゃないですか。中身の文字列も。
調べてみるとカンタンな事で、
たとえば「xdoc2txt( http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html )」を使って、そのPDFファイル(全文字をアウトライン化してあるもの)をtxt化してみると、まるっとごっそり隅から隅までお見通しなカンジで、文字列を抽出できてしまいました。
元の文字が探せるというのは、アプリのバージョンや作り方によって異なってくるのかもしれません。
えぇと、PDFの仕様云々というよりは、Illustrator9.0(10.0かも)でアウトライン化してPDF保存するときに、元の文字列をどこかにきっと隠しているから、あの地平線は輝くのでしょう。
……じゃなくて、再利用させないとかそういうのはWeb時代(?)には古いんだということを主張し説得する材料に使ってみようかと思う一方、
「それをなんとかするのだ!」と言われたらどうしようもないなぁと思う今日このごろ。
いや、当該の案件においては、その必要性が発生しなかったので、それ以降の調査・研究はいまのところおこなっていません。
( cryptlib.dll を使えば、結局文字列抽出はできてしまうわけですが……)
追記。結局たしかAcrobatの暗号化とかで「Googleに文字列を拾わせない」は可能だった気がしますが詳細確認検証etc.面倒なのでココマデ。
by fezn
| 2008-04-17 13:06
| DTP
メディアの海の片隅で、ぷかぷかと漂っているクラゲ。文字とか組版とか、勉強中。
by fezn
S | M | T | W | T | F | S |
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
最新の記事
そろそろBlog再開しますかね |
at 2015-01-31 04:32 |
ようこそFeZn/Bookm.. |
at 2014-12-31 23:59 |
スクープ! QWERTY俗説.. |
at 2013-06-20 01:56 |
更新してなかった月日に関する諸々 |
at 2013-06-16 13:24 |
「文字とコンピュータ」第一回.. |
at 2011-10-20 15:28 |
なんとなく作業用メモ……その.. |
at 2011-07-27 19:35 |
私家版・「様々な訓読み」(2.. |
at 2011-07-25 05:43 |
常用漢字表・付表=熟字訓(2.. |
at 2011-07-25 04:14 |
可動SPICA募集中(亮月製.. |
at 2010-10-08 20:56 |
(記事移転)「和文フォントの.. |
at 2010-09-18 21:22 |
(記事移転)先にアリガトウと.. |
at 2010-09-18 21:06 |
(記事移転)Excel で重.. |
at 2010-09-18 21:01 |
(記事移転)【memo】DT.. |
at 2010-09-18 20:57 |
(記事移転)『「成り立ち」「.. |
at 2010-09-18 20:47 |
(記事移転)グリフ主義そして疑問 |
at 2010-09-18 20:30 |
カテゴリ
全体Bookmark
Typeface
DTP
EDICOLOR
Script
Source
Stationary
Wandering
Books
TIBF
未分類
検索
ライフログ
最新のトラックバック
以前の記事
2015年 01月2014年 12月
2013年 06月
2011年 10月
2011年 07月
2010年 10月
2010年 09月
2010年 03月
2010年 02月
2010年 01月
2009年 12月
2009年 10月
2009年 09月
2009年 08月
2009年 07月
2009年 06月
2009年 03月
2009年 02月
2009年 01月
2008年 12月
2008年 09月
2008年 08月
2008年 07月
2008年 04月
2008年 02月
2008年 01月
2007年 12月
2007年 07月
2007年 04月
2007年 02月
2007年 01月
2006年 11月
2006年 10月
2006年 09月
2006年 08月
2006年 07月
2006年 06月
2006年 05月
2006年 04月
2006年 03月
2006年 02月
2006年 01月
2005年 12月
2005年 11月
2005年 10月
2005年 09月
2005年 08月
2005年 07月
2005年 06月
2005年 05月
2005年 04月
2005年 03月
2005年 02月
2005年 01月
2004年 12月
2004年 11月