電子リテラシー入門
編集者K氏の死を悼み、電子データのリテラシーについて考える
先月、これまで長年にわたり(個人的な部分も含め)お世話になって来た編集者K氏の通夜に参列した。彼は業界では有名な編集者で、屈指のデータ処理を誇り、日本の辞書産業を支えてきた編プロの代表的人物であった。
私個人としては、編プロ時代からお世話になっていたし、現在の会社に移ってからも、というより移ってからのほうが何かとお世話になることが多かった。編プロ時代は、彼の会社の下請けとして、データ処理のお手伝いをしたこともあったし、データの処理をお願いすることもあった。例えばだが、複数の辞書データを組み合わせて一つの辞書用の下データを作ったり(これは言ってはいけないことか…)、一行の例文を複数個の問題に分岐させるプログラムを開発したりと、いろいろなことに挑戦させてもらっていた。
当時、それは特別な体験だった。これからはデータの2次利用、3次利用が書籍作りを変えていくと本気で信じていた。もう10年近く前のことだ。
その後、ホームページの制作を手がけたことから、いまの会社である駿河台出版社から1枚のCDを受け取ることになる。そこには、SGMLと呼ばれる様式で書かれた辞書データが入っていた。それはフランスで出版されている辞書のデータだという。当時、仕事でXMLはいじっていたのでそれがどんなものであるかは知っていたが、実際にそれによって管理されている書籍というのを見たのははじめてだった。というよりも日本では、まだXMLが登場して少しずつではあるがどちらかといえばe-learningの分野で普及しつつはあったが、この技術はあくまでもWebのものという認識ぐらいしかなったと思う。書籍での活用は、記事では読んだことはあっても、じっさいの活用例は聞いたことがなかった。ましてや辞書の分野では。
そのデータを見たとき、世界は進んでいる、と驚いたし、これは何か先駆的な仕事になるかもしれないとも思った。
しかし結局のところ、この仕事をK氏の会社にふることになってしまった。金額的なこと、マンパワーの問題などいくつか理由はあったが、当時の会社ではこなしきれないというのが結論だったのだ。当然ながら、その後、この件からは完全に手を引くことになる。
事情が変わるのは、それから1年ぐらいしてからのことだ。私が駿河台出版社に移ることになり、ふたたびこの件に関与せざるを得なくなったのだ。もちろん、転職の理由はこの辞書の件があったからだ。
ふたたび当事者とになり、様変わりしていたこのプロジェクトについて驚くとともに、失望さえ感じた。それはSGMLのデータが完全に別のデータへ読み替えられていたからだ。しかもそれは、それはK氏の会社がベースとしている処理体系用の行データにだった。
本来、XMLであれば、日本語訳なりあらたに足すべき情報があれば新しいタグで追加してしまえば、じっさいのデータをいじることなく編集が進められるはずだった。もちろんそれは直接にXMLを読み書きできればという話である。K氏の会社が用いていた処理の方法は、行ごとに処理の方法を決定し、出力のできる、これもある意味ではタグ情報をベースとした処理システムである。わかりやすく言うと、先頭の文字列によって“=”以後の文字列の処理を決定できるものである。
無論、その様式が悪いというわけではないが、紙の辞書のみを視野に入れていればおそらくこのやり方で問題はなかっただろうが、Web展開、CD-ROM展開を視野に入れていたとしたら二度手間になる可能性が高い(一度分解したデータをそれ専用に再構築していかなくてはならないから。それは検証さえ必要になる)。
事実、Web展開、CD-ROM展開を前提に話が進んでいたから、そうした手間の問題は具体的なものとなっていた(じっさい、CD-ROMのα版では、行データを再現するためのプログラムを組み込んでいる。しかし今はXMLをデータベースソフト自体が直接読み込めるためにいまであればXMLデータであってほしかった。行管理→テキスト出力は無駄が多い)。いまになってみればXMLの技術は、ブログ、WikiといったWeb技術として一般化していて処理についてある程度見通しがつけられたかも知れないが、いかんせん当時はまだ早すぎた。いずれにしてももし仮にXMLで管理されていれば2次利用、3次利用についてはもっと容易だったように思う。
さて。話はちょっと飛ぶが、じつは辞書はデータをいじることができるようになって、飛躍的に編集の精度の面、行程の面で革新的に効率があがったことは事実だ。というよりそのような技術なしには今日の辞書編集はありえない。しかしデータ化されデータを扱うようになったことで、紙の上に蓄積された時間が軽視されるようになる。そうして辞書は自らを殺すことになる。電子辞書の登場である。
考えてみれば、辞書は何人もの人間が関わり、何年にもわたり作られるものだ。そのコストは、じっさいには数字には出てこないが、相当なものだ(それはいま作業をしているのでよくわかる)。しかしそのことは所詮活字には読むことができない。ましてやデータには。紙の辞書を手にとってみよう。その厚みに、その活字の量に圧倒されるだろう。それによって、少なくともそのプロジェクトの労力の重みを一端でも知ることができるはずだ。しかし電子辞書にはその重みはまったくない。ましてインターネット時代、クリック一つで何でも調べられる時代においては、辞書という情報のメディアが一つの情報にたいしてその信憑性のためにかけている労力など想像などできないだろう。
しかし現場の人間はその重みを知っている。いや知っていたはずである。ところが、電子辞書の登場のうらでは、そうした労力を安く見積もったとしか思えないほど安くそのデータが売られていたのである。なぜならそれはデータに過ぎなかったからではないか?紙のゲラという重みがない、わずか数メガという程度のデータだったからではないのか?
データの安売りという点では、こんな例も好例となるだろう。二、三年前にCD-ROM付きである辞書が再版になった。辞書の規模としては、中から上というぐらいのかなり本格的なものである。これについては制作段階からROMの試作版を見せてもらったり、その行程についていろいろと知っていた(もちろんいまの会社に来る前の話だ)。私は、これについてはちょっとばかり疑問があった。理由は、ソフトウェアがHTML形式であったからだ。単純に考えれば、汎用性は高いので(とはいいながらJavaScriptをかませているために、Macおよびブラウザソフトによっては機能が正常に働かない)シンプルで使いやすいという考えかたもある。反対に、多少腕に覚えがある人にとってみれば、データそのものを取り出せることができるのだからこれほどにおいしいものはない(じっさいに取り出した人間を何人も知っている。私もじっさいに取り出していまの編集に活用をしている)。つまり、これはデータそのものを付録という形で配布しているのである。そもそも紙版しかなかったものを今回のためにすべてのページにOCRをかけてデータ化したそうである。それだけのコストをかけてデータ化したものをこのような形で配布するのははたしてよかったのだろうか?
私はこのことについてK氏に聞いたことがあった。答えはきわめて単純だった。編集に関わった先生がデータをほしがったのだという。
このCD-ROMについてはもう少し話をする必要はあると思うが、本筋とは関係がないので割愛をさせていただく。
辞書業界がいま危機的状況にあるということは言うまでもない。それは時代の趨勢と片付けてしまうこともできるだろう。オンライン辞書がここまで充実してしまえば紙の辞書など必要がないのかもしれない。しかしながら、どんなにインターネットが発達してもそれを活用できる人口の割合はそれほど多くない。もちろん全人口に比してということにはなるが。こうした状況をもっとプラスに捉えれば、辞書という様式の是非が電子化の時代において問われているということでもあるだろう。そういう点では、いま駿河台出版社が進めている辞書のプロジェクトは、そのことについてなんらかの答えが出せるのだろうか?
おそらくはK氏も、この辞書についてはそうした思いを持っていたのではないかと思う。私は彼の考え方に賛成する。「辞書は時間をかけて作るものではない」彼はいつもそう言っていた。いまの時代に、かつての辞書のように時間をかけていたのでは情報が古くなる、いや、すでに書籍化する時点では情報は古くなっているのだ。その割り切った考え方には、辞書はありがたがるものではない、もっと消費物としてとらえなくてはいけない、そんな気持ちがあったように思う。
消費物としての辞書。それを実現するには、データ編集を最大限に活かし尽くさなければ難しいのかもしれない。
彼はまず辞書編集の第一人者であり、辞書の生き字引のような人であった。辞書を知り尽くした人だったと思う。そういう人を亡くすことは大きな財産を失ったようなものだ。技術的な部分は残っても、こうした人間が積み重ねた経験知は、継承されることがない。そのことをきわめて残念に思う。
通夜に参列していたH社の編集の方も言っていた。やはり彼のセンスにはほかのひとは到底及ばないと。
辞書ということで話を進めてきたが、ここで話をしていることは今現在における電子データのリテラシーの問題、ひいては電子コンテンツのリテラリーの問題だ。昔にくらべるとずいぶんと手軽にデータのやり取りがされるようになってきた。なぜならデータは手軽だからだ。ただし、忘れてはならないのはそのデータを作り上げるために割かれた労力は、相当のものであるということだ。それを忘れてはいけない気がする。「本を送ってください。こちらでスキャンしますから」ご存知のとおり「なか見検索」のことである。私はこの考えがしっくりこない。宣伝のために致し方なしで取り組んではいるが、なにか扱いが軽い気がしてならない。敬意がないと言うべきか。そう考えてしまう自分は、まだまだこれからの新たなデータリテラシーを疎んでいる側の人間かもしれない。
データの重さをどう考えるべきか。いいかえれば書籍にしてもそうだが時間をかけてコンテンツは電子化される。いまではあらかじめ電子化された状態でいち著者が時間をかけて情報化したものを手にする。それをどう扱うべきか。おそらくはいまのあらゆる著作権問題にも通底する問題になるのだが、はたしてどう考えていくべきなのか。
また一方でもっとポジティブな意味で、データをどう作り、どう活用していくかも取り組む課題としては大きい。少しばかり弊社の辞書の話をさせていただくが、現時点での話だが、「成長する辞書」をテーマに制作を進めている(誤植を訂正していくというネガティブな意味ではなく、情報が付加されていくという意味で。もちろんCD-ROMとWebでということにはなるが)。また、裏側に隠された時間についてもなんらかの形で表現できたらと思っている(現実的には、この部分についてはかなり困難になっている。当初は、議論の一部を記録をとっていたが、時間的に余裕がなくなり停まってしまった)。ブログにしてもそうだが、どう電子化し、蓄積をしていくのか。そして効率よく商品化するのか。まさしくいま様々な形で模索がはじまっているリテラシーであると言ってよい。
そのことについてとことん考えなくてはなならない。それが私たちの宿題なのかもしれない。それはK氏から渡されたバトンだろう。先人たちもまた時代のなかで考えて結論を出してきたことに違いない。そしてその時代に合った答えが、結果として残った仕事だったわけだから。
とうとうひとつも彼に答えを示せず終わってしまった。その偉大な先人であるK氏がいないいまとなっては、とても悔いが残る。