はじめ | しごと | ノート | ながれ


デ ー タ


「近代語データベース」解説

テキスト化ツール などへの リンク


以下 別ページ

テキストデータ化のための バッチ処理 解説

近代語データベース ファイル(作品)名 一覧


日本語学外史 年表 (未定稿)

民主主義科学者協会 言語科学部会 関連資料

言語学研究会『ことばの科学』総目次・内容別分類


「近代語データベース」解説

【ただし いまだ工事中】

 私が 修正・増補しながら 使用している「近代語データベース」(仮称)というのは、小説と新聞が中心で、2002年9月1日現在 約352MB(メガバイト)の容量である。352MBとは、かな・漢字の1文字が2バイトだから、文字数に単純に換算すると 約1億7,600万字分の情報量(ただし、句読点はもちろん、スペース記号・改行記号・タブ記号等も含めて)ということになる。
 分かりやすく言えば、文庫本 270編分の近代小説と、1995年一年間の毎日新聞全紙面と、1997年9月から2002年8月まで 満5年分の朝日新聞主要紙面とが、データの主要部分であるが、その他の「補充資料」も含めて、以下に、データ・ベース化の素材や典拠を一覧しておく。
 個々の作品名については、目次にも かかげた「近代語データベース ファイル(作品)名一覧」をクリックして、見て下さい。

    『CD-ROM版 新潮文庫の100冊』
    『CD-ROM版 新潮文庫 明治の文豪』
    『CD-ROM版 新潮文庫 大正の文豪』
    『CD-ROM版 新潮文庫の絶版100冊』
        【以上4点に含まれる 重複作品10編は 調整済み】

    『CD-ROM版 毎日新聞 '95』(全紙面)
    『CD-ROM版 朝日新聞──天声人語・社説('85〜'89)』
     朝日新聞社のサイト(アサヒ.コム)から「今日の朝刊」の主要紙面をダウンロードしたもの(1997/09〜2002/08)
      #2003年01月30日(木)付から、商用化に向け「リニューアル」され、データとしての均質性は失われた。

その他 次のものを、<統計外の補充資料>として 使用することもある。
    「青空文庫」のうち、上の新潮文庫版と重複しない作品
    「日本文学(e-text)全集」【以上と重複しない作品】
     その他、折にふれ、インターネット上からダウンロードしたもの

 このうち、はじめの『CD-ROM版 新潮文庫』関係の4点は、あとに掲げるテクスト化ツールを使って、テクストファイル化したものである。その際、当時 上智大学大学院生だった 上尾 紀子 氏の技術指導を受け、テクスト化ツールに付属の 柴田 雅生 氏の作成した「ファイルと作品の対応」の表【"s100file.lzh" を解凍した "s100.dat"のこと。明治・大正の文豪に関しては、ファイル数が少ないので自分で作成】を「AWK」によって加工して「バッチファイル」を作り「バッチ処理」を行なったため、きわめて短時間で作業を終えることが出来た。
 ここに明記して、テクスト化ツールの作者「ジャック川崎」氏、柴田 雅生 氏、上尾 紀子 氏、それに 私がそもそも電子化資料に興味を持つきっかけを作ってくれた 当時 東京外国語大学 大学院生だった 花薗 悟 氏(現 東京外国語大学 留日センター 専任講師)に、それぞれ 心からの感謝の気持ちを表したいと思います。

 ただし、以上の機械的な作業によるテキスト化作業だけでは、作品によって かなりの「乱丁(順序の乱れ)」が残ってしまうこと、また「落丁(抜け落ち)」も 少数ながら あることが わかっており、それをどう処置したらいいか について 思いあぐねていたのだが、最近 ある強力な 助力や協力が えられるようになったため、現在 改変・点検作業等が すすめられている。上に「工事中」とした おもな理由の ひとつである。

 『CD-ROM版 毎日新聞 '95』のテクストファイル化については、諸般の事情で、謝意を表すべき人の名を明記できない。


テキスト化ツール などへの リンク

『新潮文庫』の「テクスト化ツール」は、
次の「ベクター」のサイト内の、作者「ジャック川崎」さんのページに あります。

EXB2T(「新潮文庫の100冊」テキスト読み出しツール)

EBK2T(「明治の文豪」「大正の文豪」からテキストを読みとるツール)


「バッチ処理」によって、テクスト化をより能率的に行なってみたい人は、ここをクリックしてみて下さい。

その際 必要になる「awk(オーク)」というプログラムは、やはり「ベクター」などで「サイト検索」すれば、

いろいろなものが ダウンロードできます。参考書類も、検索でき ダウンロードもできます。


ご意見や ご感想は Eメールで どうぞ

工藤 浩 / くどう ひろし / KUDOO Hirosi / Hiroshi Kudow


はじめ | しごと | ノート | ながれ