Perl を用いてインターネット上のデータをコーパス化する試み
補足HP
2004.05.22 LET 中部 春期
清水伸一
Lyrics DB ダウンロードツール
ファイルのダウンロード
使用法
ダウンロードファイルを解凍して下さい。
スクリプトは「lwp_365.pl」と「lwp_dloader365.pl」の2つがあります。
これらのスクリプトを動作させるためには、perlがインストールしてある必要があります。(「perlインストールと起動のさせ方」を参照)
また、「LWP」というモジュールもインストールされている必要があります。(「Perl を利用したコーパス処理の自動化」を参照)
最初に「lwp_365.pl」を走らせて下さい。このスクリプトは、複数のLyrics リンク情報ファイルを作成します。ターゲットのファイル数が多いため、実際のダウンロードに先行してこの作業を行わないと、ダウンロードを途中で止め、再開することが難しくなるためです。
上記作業終了後、「lwp_dloader365.pl」を走らせて下さい。このスクリプトが実際のデータをテキスト形式で保存します。
これらのスクリプトはテキストエディタで編集できます。ダウンロード作業を中断・再開するためには、スクリプトに指示してある箇所を直接書き換える必要があります。
全データダウンロードには、高速回線でも相当な時間を要します。
ダウンロードされたファイルは、文字化け等が含まれますので、実際に使用するには編集が必要です。
注意
最初に使用する際、「lwp_dloader365.pl」の18〜21行目を以下のように書き換えて下さい。
$fst = 0;
$fin = 9999999999;
$skipper1 = 9999999999;
$skipper2 = 9999999999;