Perl を用いてインターネット上のデータをコーパス化する試み

補足HP

2004.05.22 LET 中部 春期
清水伸一


Lyrics DB ダウンロードツール

ファイルのダウンロード

使用法
  • ダウンロードファイルを解凍して下さい。
  • スクリプトは「lwp_365.pl」と「lwp_dloader365.pl」の2つがあります。
  • これらのスクリプトを動作させるためには、perlがインストールしてある必要があります。(「perlインストールと起動のさせ方」を参照)
  • また、「LWP」というモジュールもインストールされている必要があります。(「Perl を利用したコーパス処理の自動化」を参照)
  • 最初に「lwp_365.pl」を走らせて下さい。このスクリプトは、複数のLyrics リンク情報ファイルを作成します。ターゲットのファイル数が多いため、実際のダウンロードに先行してこの作業を行わないと、ダウンロードを途中で止め、再開することが難しくなるためです。
  • 上記作業終了後、「lwp_dloader365.pl」を走らせて下さい。このスクリプトが実際のデータをテキスト形式で保存します。
  • これらのスクリプトはテキストエディタで編集できます。ダウンロード作業を中断・再開するためには、スクリプトに指示してある箇所を直接書き換える必要があります。
  • 全データダウンロードには、高速回線でも相当な時間を要します。
  • ダウンロードされたファイルは、文字化け等が含まれますので、実際に使用するには編集が必要です。
  • 注意
    最初に使用する際、「lwp_dloader365.pl」の18〜21行目を以下のように書き換えて下さい。
    $fst = 0;
    $fin = 9999999999;
    $skipper1 = 9999999999;
    $skipper2 = 9999999999;