1. どんなものか
私の専門は植物地理学で、植物の分布を扱う。このため標本や資料の産地が地図上のどこにあるかを調べて分布図を作るのだが、それには図1Aの流れ図のように、いつ終わるとも知れない厄介な地名探しと打点が必要である。
そこで先回りして、国土地理院(旧陸軍参謀本部陸地測量部)発行の地図に載っているすべての地名に、経緯度による位置座標をつけた索引を作った。日本全体を覆う3種類の地図に対応して表1に示す3篇がある。以下のはなしで3篇を一括して「地名索引」と呼ぶが、主に『新日本地名索引』にもとづいて記す。
▼ 表1.地名索引三部作。アボック社発行、丸善販売(**は絶版 *は残部僅少)。
頁数は文字索引や付表をのぞいた数字である。
書名 発行年依拠資料(枚数) 年代 地名件数 よみ篇 漢字篇 日本地名索引** (1981年) 1/20万図(124枚) 1960-70 124,578 653頁 1,519頁 新日本地名索引* (1993年)1/2.5万図(4,422枚) 1970-80 384,859 2,014頁 5,221頁 地名レッドデータブック (1994年)1/5万図(1,305枚) 1900-20 82,805 460頁 1,291頁 項目は地名よみ、地名漢字、よみ確認記号、広域記号、所属市町村名、所載地図名、所属県名、位置座標である。確認記号とは、地名のよみをふり仮名や資料で確認できた印である。広域記号とは、川、鉄道、湾のように、1つの位置座標で位置を特定できない地名につける印である。位置座標はその地名の指す地物の位置の経緯度を示したものである。
よみ篇は地名が読みの50音順に配列されている。漢字篇は、地名の漢字文字列を一字ずつ順繰りに後ろに送ってできる文字列について、すべて検索できるようにしてある。このために、よみ篇より頁数がふえている。配列は講談社の『大字典』にならっている。『地名レッドデータブック』は、戦前の陸地測量部 1/5万地形図から拾ったものである。この地図は敗戦の際散逸してしまったようで、復刻版には空白部があったり原図が不鮮明で文字が読めないものもあったが、とにかく1,305枚の地図から230,107件の地名を拾い出した。しかしそのまま刊行すると、先行した2篇との重複が多いと考え、電算機で 2.5万図の地名と比較して、近傍に同じ地名があれば削除した結果、82,805件が残ったものである。地名の位置が経緯度に換算できる数値になっているので、「近傍」かどうかを判断するのはそうむずかしくなかった。これらは今では消えてしまった地名なので、レッドデータと称した。
2.どうやって作ったか
地図の入手は金の問題であるが、2.5万図は4,422枚あるので、しまっておく場所の確保の方が大きな問題だった。丸めてあっては使えないので、平らにしかも必要な地図がすぐ取り出せるように、順序づけてしまっておかねばならない。2.5万図にはありがたいことに分の目盛りがついている。ここへ定規を当てて線を引く。1枚の地図に引かれる線の数は、縦7本横4本合計11本である。全部で48,642本の線を引いたことになる。旧5万図となると縦横20本の線を、目盛りを切りながら引かねばならない。この線がないと、地名の位置座標を判定できない。位置座標とは、地名の位置を示す数字で、地図に引いた線の間に記入しておかねばならない。経緯度の度と分の値を繋いだ4桁の数字を、少なくとも縦5箇所横8箇所に記入する。57,486箇所である。
地名が属する市町村名を記録するため、境界線をはっきりマークする。峠や山の名には両側、ときには3つも4つも、の市町村名を与えねばならない。境界未定のところは結構多いが、電算処理では「不明」というデータは困るので、無理にでも線を引いてしまった。だから、この索引を土地や地名の所属の根拠とするのは誤りである。境界線をマークして見ると、その中央あたりに市町村名がある。これもマークして採録者が迷うことのないようにする。一方、採録しないでよい地名も別にマークする。郡名は特定の地点を示さないので、採録しないことにした。もう1つは重複した地名である。大字名と小字名が同じ場合には、小字の方が位置を決め易いので、大字名は不要とした。問題なのは図画線に近いところに記された地名で、隣の地図にも同じ地名があり、隅のところではへたをすると同じ地名が4つある。これは採録のときにはつかめず、全地名をソートしたリストをそのつもりで見るとはじめて見えてくる。しかし実際には、ごく近い距離でも同じ地名が異なる集落や地物に与えられている例もあり、簡単には整理できなかった。それ以前に、何が地名なのかという問題があるのだが、長くなるのでやめる。
アルバイターは主として女子大生である。地名の文字は常識的でないものが少なくないので、知らない漢字でもその通り書き写すことを要求した。しかしこれは無理だった。書き手に漢字の知識が無ければ、自分の知識に合わせて書き取ってしまうのだ。その結果「烏」が「鳥」に、「干」は「千」に、「糠」は「糖」に、「垰」は「峠」になってしまったものがたくさんあるらしい。「らしい」というのは、こちらが気付かないものがあるからである。公刊された地図でさえ、「烏帽子」の筈なのに「鳥帽子」となっている地名が少なくない。更に、片仮名のシとツ、ンとソの書き方の区別がつかない人、書順が正しくないためにおかしな文字になる人がかなりいた。たとえばシの第3画の代わりにツの第3画を書く人が1人ならずいるのである。地名が変わってゆく原因には、こういう書き取りの際の無意識のエラーもかなりありそうだ。
よみに至っては全く冷汗ものである。漢字はとにかく地図のとおり書き写せと指示できるが、よみについては「こう読め」と指示するわけにはゆかない。そこで「読めなくても無理してよみをすべて付ける」ことを作業条件とした。その結果、烏帽子は「からすぼうし」、虚空蔵は「うそらくら」、中山道は「なかやまみち」、権現山は「けんげんさん」、槍ケ嶽は「くらけごく」という調子で、直すのが間に合わない。地名のよみというものは、実際にも常識では片づかないのだから、まあ仕方がないとあきらめる他はない。こういうむずかしいものはともかく、新田とか-町のとなるともっとわからない。むずかしい文字にはふりがながつくことはあっても、こういうやさしい文字にはつかないのである。つまり「正しく」読ませることを放棄しているのだから、何と読もうとこっちの勝手である。よみは平仮名で記録させたが、例の丸文字が横行していて、私には読めない平仮名が原稿に結構あった。これは電算機入力の際、オペレータが読み誤るおそれがきわめて高い。まして数字となると、誤読してしまえば直しようがない。
3.索引のスタイル
この索引は地名よみの五十音篇と漢字篇より成る。漢字篇では文字列の途中の文字でも検索できるように、地名の構成文字を順次にうしろに送り、残った文字列の先頭の文字で検索できるようにしてある。たとえば大久保という地名は、この他に久保や保からでも検索できるようになっている。こういうことをやれば、当然無意味な字列がたくさんできる。そういう無駄なことをやって頁数をふやけさせているというのが、いくつかの出版社に断られた大きな理由だった。けれども逆引索引を作ったと喧伝する出版社があることを考えると、それよりはるかに有用だと思う。逆引き索引では中間文字列は検出できないからである。そういえば、逆引き索引という単語はすでに一般的であるが、文字を順次うしろに送ってできる文字列を何と呼ぶか私は知らなかった。だから勝手に「巡環綴り」という呼び名をつけてしまった。
巡環綴りが無駄かどうかは利用のし方による。表1でわかるように、漢字篇の頁数はよみ篇の約 2.5倍である。ということは、日本の漢字(少なくとも地名漢字)のよみは平均2.5字だということになる。巡環綴りによる「地名」は 1,150,253件あり、これは地名全部に使われた文字数にあたる。地名1件の文字数は、平均3字となる。使われた文字は 3,418種類だった。それぞれの文字の出現数を比較すれば、日本語(遠慮して「地名についての」とつけ加えるが)の漢字使用頻度のスペクトルができるだろう。このスペクトルは、文章の「個性」を分析するための標準パタンの1つとなり得るはずである。最も多く出現した文字は「川」で41,409件(3.6%)、以下町(33,034件2.9%)、山(31,465件2.7%)、田(25,137件2.2%)という具合である。こういう副産物については、『地名レッドデータブック』の付表を参照されたい。
漢字地名の配列をどうするかは最も悩んだことである。文字のJISコードで配列すれば作業は1番簡単なのだが、あのコードは第1水準と第2水準では配列体系が違う。それにこの索引では表外文字がたくさんあるので、いわゆる外字コードをつければアウトローの文字がいっぱいできる。目標は普通の漢字辞書と同じにしたかったのだが、その手段がわからなかった。たまたま講談社の『大字典』を手にしたら、これには文字1つずつに固有番号がついていたので、これにならうこととした。漢字篇の配列は『大字典』(1976年普及版第16刷)の文字番号によっている。この字典に出ていない文字には適当な文字番号を与え、ふさわしい位置に納まるようにしてある。文字番号をつけるという『大字典』の行為は一見無駄に思えるが、テータ処理の時代にはとても有用である。
しかしこれでは目的の文字がどこにあるかはわからない。最近では部首や字画で辞書をひく習慣は廃れつつある。ワープロの文字などは、見たって画数などわからない。草かんむりは3画にしか見えないのに4画のところにあり、正式には6画だそうだ。月という篇が月篇と肉づきで別な文字だったり、衣篇(ネ)と示篇(ネ)は5画と4画だと思ったら同じ5画にあり、その元がネと示だなどというのはまごつくばかりである。つくりの画数となったら、旧制中学までの下地のある私などはまだよい方で、中年以下の人となれば気にしていられないだろう。それよりは文字のよみから検出できるように、漢字篇の後尾に音訓索引がつけてある。地名のよみとは無関係に、1つの文字に対してありそうな音訓を用意してある。結局この音訓索引が最も使い易い。
なにはともあれ、こうして地名索引ができた結果、地名の位置検索と分布図作図のプロセスは図1Bのようになった。
1番の利点は、地名索引では地名がよみ順か漢字順に並んでいるので、余計な走査をせずに時間が非常に短縮できることのほか、「見つけた?ループ」が最大3回で済み、それで見つからなければ「探しそこない」の心配なしにあきらめられることである。位置座標のおかげで、白図への転記も楽になった。
4.よみの問題
地名索引で真先に問題とされるのは、地名の「よみ」が「正しい」か、ということである。この索引は地名のよみについてはまったく配慮していない。権現山がケンゲンサンでは困るので最小限のチェックはしたが、「どれが正しいよみか」ということには無頓着である。というのは、標本や資料にある地名は、採集者のその場の判断で記録されるので、正しいかどうかは問題外なのである。だから白馬山はシロウマヤマが正しいとしても、ハクバサンでも検出できないと私の目的に合わないのだ。そうなるとシロウマサン、シロウマガタケ、ハクバヤマ、ハクバダケ、ハクバガタケでも検出できる方がよい。データベース検索の経験のある人なら、ささいな1文字の違いでヒットできずにイライラした経験があるだろう。だいたい、正しい地名が1つしか存在しないと考える方が、おかしいのではなかろうか?
5.分布地図
私の目的は、植物の分布図を作ることにあった。それで産地を位置座標として与えるための地名索引を作ったのである。位置座標が与えられれば、それを地図上に打点することは、電算機を使えばすぐできるかというと、そうはいかなかった。打点すべき地図がないのである。分布図は全国規模のものも県単位のものもほしい。それに応じて一々白地図を買ったり描いたりできるものではない。どうせ電算機を使うのだから、地図も一緒に描かせるのが早いし融通がきく。ところが地図のためのデータが無かった。今ならデジタルマップがあるが、私がやろうとした1970年頃には影もなかった。だから地図データも自作することになってしまった。というわけで、地図データと位置座標を流し込めば分布図ができるパソコンプログラムが用意されている。日本全図でも県別でも作図できる。「それで植物分布図は?」とたずねられると、実はまだなのである。肝心の植物のデータがまだ整わないからである。これは地図のようにまとめて手にすることができず、全国の標本室や図書室に散らばっているからである。でも最近は誰もがパソコンを使い、いろんな標本室で標本資料データベースを作るようになった。その際産地の位置座標を入れることは、植物分野ではもはや常識である。もっとも、産地に位置座標を与えるについては問題が多い。過去の採集者が、こちらが用意した位置座標の精度に見合うほどの産地記録を残していることはまずないからである。そんな記録に対して「精密な」位置座標を与えざるを得ないとき、きわめてうしろめたい気持ちになる。ともあれ道具は用意され、やり方はわかっているのだから、あとは時間の問題である。
それよりは、植物以外の人たちが、地名分布図を簡単に作れることになかなか気付いてくれないのを、私は不思議に思っている。地図に代わって地名索引から目的の地名を抽出することには何の苦労もなくなった。その位置座標を用いて分布図は誰にでもできる。地名索引はデータベースになっているので、パソコンでデータを抽出して作図ソフトに流せば、全国規模の分布図が数分で得られる。地名や資料を扱う文科系の人達に、もっと手を出して欲しいと思っている。「他人の仕事を横取りしない」とか「自分の仕事に踏み込まれたくない」とかの気配りがあるらしいのだが、包丁を作った鍛冶屋がうまい料理を作れるとは限らない。作図ソフトは研究のためなら誰にでも提供する。
6.「鐙」の分布
地名分布図の例として、本誌にちなんで「鐙」のつく地名の分布図を作った。漢字篇の末尾に漢字よみの索引がある。地名のよみとは無関係に、音でも訓でも目指す漢字がみつかる筈なのに、「あぶみ」では見つからず「とう」で見つかった。「あぶみ」でみつからない理由は、この音訓索引の作り方が悪かったためである。これとは別に部首字画索引もあるから、そちらからも検出できる。とにかく鐙の横に12646という数字が見える。これが『大字典』の文字番号で、漢字篇の地名配列はこの番号順である。各頁の下に中点で区切った5桁の数字が2組、ハイフンでつないである。これはその頁の先頭と最後の地名の第1・2字の文字番号である。巡環綴りと文字番号検索は、従来の漢字辞書にない、シロウトならではの無謀な試みだが、私には使い易い。
こうやって「鐙」のつく地名を探し出すと31件ある(表2)。位置座標は経緯度の分の単位である。「鐙」が文字列のどこにあろうと、巡環綴りのおかげで探し出すのはなんでもない。3巻の2,288頁にまとめて出ている。データベースの場合には、中間文字列検索を行なえばよい。これから先は索引を離れて、データベース検索した結果を作図ソフトに流し、分布図が出来る(図2)。作図時間は約5分である。元にした地名は31件だが、分布図には21個しかマークがない。そのわけは、この日本全図では分布点を1/5万図を単位として表現しており、位置座標が少々違っても1つの点にまとめる処理をしているからである。
ところでこの日本全図は、グラフィック画面のハードコピーで、分布点の描画はアッという間だが、地図の描画は気のきかないプログラムなので時間がかかる。「こうやればもっと早くできる」とアドバイスしてくれる人はいるが、私は気にとめていない。手作業やプロッタで作業した頃にくらべれば、雲泥の差だからである。なにしろ眠っている間に百数十枚も作図できるのだから、これで十分である。
「鐙」の分布図は、近畿地方の空白をはさんで東西に分かれるという、意外と面白いパタンになった。この解釈は私の縄張りではないのでその方面の方々にゆだねるが、なかなか由緒のあるものらしい。ただこの分布図は少々淋しいので、もう1つ「国見」を含む地名の分布図を作った(図2)。これも見る人が見れば、意味のあるものだろう。それよりは、こういう図がすぐにいくらでもできることの方に有用性を見出してくれる方が、1人でもふえることを期待している。
7.JIS漢字表の問題
地名索引3篇はデータベースになっており、パソコンで利用できる。地名にはパソコンで扱えないし代替する文字もない「表外文字」がたくさんあるので、その扱い方をうまく考えないと情報処理に差し支える。外字パタンを作ってコードを割りつけることは、やらない方がよいと思っている。そんな特殊コードが多くの人の情報交換の過程で保存されるとは思われず、むしろコードとパタンのとり違えがおこって、データベースの信頼性を落とすだろうから。地名索引のデータベースは我が国の漢字情報処理装置の揺籃期からの産物なので、これ迄にいくつかの会社を経由しながら蓄積されてきた。その受け渡しの際、コード体系の相違には細心の注意が払われたに違いないのだが、気がついてみると「化けて」しまった文字がいくつもある。こういうことは偶然にしかわからない。その道のプロの手を経てもこうなのだから、パソコンで自由にやりとりする場では、外字は「化け」ない方がおかしいだろう。
そうならない為に、外字に相当するパタンをJIS漢字表の文字を使って作ることを考えた。それには2つの文字を論理記号で結びつければよい。例えば魚+成=鯎 木+無=橅 竹/林=箖である。ややこしい例としては艸/(爿+(木/寸))=●(※編集部注:Webで表示できない文字のため省略)となる。こういうやり方で多くの外字は片がつく。ただこれをやれる為には、篇やつくりの単位となるパタンが、JIS漢字表に揃っていてくれねばならない。そういう視点からみると、JISの表はどうも片手落ちなところがある。たとえばニスイはあるけれどサンズイはなく、ギョウニンベンはあるがニンベンはなく、コザトヘン、リッシンベン、イヌヘン等々がない。クサカンムリも常用のパタンはない。だから⻖^平=𨸶のように、置換する記号が必要になる。あともう1つ2つ補助的な記号を用意すれば、たいていの外字は JIS漢字表で表現できる。そうすれば祖先の遺産である「おかしな」地名文字も保存できるし、情報交換のとき外字パタンを気にする必要がなくなる。もちろん検索やソートには不都合があるが、これは外字コードを付けた場合でも同じである。地名索引のデータベースは3篇を統合したものを作っているので、その中で試みたい。
JIS漢字表をながめているうちにもう1つ気付いたことは、同じ「単位文字」なのにパタンが異なるものが混在することである。第一水準レの音の最後の方に蓮と連が並んでいるが、シンニュウの点々が蓮は2つ連は1つである。シンニュウは何画だったろう? もちろん相応の理由はあるのだと思うが、最近は初等教育までパソコンがとり入れられており、国語とも当然関係してくるのだから、パソコンの文字はその面からも考えねばなるまい。さもないと、教科書との整合性で問題が起こるだろう。パソコンやワープロの文字パタンは、これからの日本文字に絶大な影響を与えるので、それを念頭においた検討が必要である。
『新日本地名索引』を作った直後、「JIS の委員」という人から知人を通じて、表外文字のリストを検討資料として欲しいというので提供した。これは当然未公表のオリジナル資料であるが、受け取ったはずの人からは何の反応もなかった。大学の先生であるそういう立場の人が、知的所有権に無関心とは思えないので、私の資料はよほど役立たずだったとみえる。
[学鎧93(8):10-17]
元・国立科学博物館 金井弘夫 著
菊判 / 上製 / 904頁/ 定価15,715円(本体14,286+税)/ ISBN978-4-900358-62-1
〔花の美術館〕カテゴリリンク