1
第
8 回: 外国語ウェブページの作成
1. テキスト閲覧環境としてのウェブブラウザ
1.1. 外国語テキストの閲覧 テキスト文書は,さまざまなソフトウエアで利用できるが,外国語の文字エンコード方式 のテキスト文書を閲覧 (さらには印刷) できるソフトウエアとして最も手軽に使えるのは WWW ブラウザである。ブラウザを使うと,文字エンコード方式に応じ読み込んだテキス トに適切なフォントをあてがい,テキストを表示することができる。 外国語の文字エンコード方式で作成されたテキスト文書は,ウェブページを閲覧する場合 と同様の方法でエンコードを指定し,ブラウザ上に正しく表示させることができる。手順 は以下のとおり。 1. ブラウザを起動する 2. マイコンピュータなどでテキストファイルの入っているフォルダを開く 3. テキストファイルのアイコンをブラウザにドラッグ&ドロップ (マウスでアイ コンをドラッグしてブラウザ上にもっていき,マウスボタンを放す) ※ ブラウザの[ファイル]→[開く]でテキスト文書を指定すると,ブラウザでな く,テキスト文書が関連付けられているソフトウエアが起動することがあ る。 4. テキストがブラウザで開かれる 5. 文字エンコード方式を選択し,文字を正しく表示する※ Internet Explorer でエンコード方式を選択 ※ Netscape でエンコード方式を選択
文字エンコード方式の表記はブラウザにより若干異なる (e.g.「繁体字中国語」⇔「中国語」; 「西ヨーロッパ言語」⇔「欧米」)。また,Internet Explorer では,「西ヨーロッパ言語 (ISO)」 と「西ヨーロッパ言語 (Windows)」 (Windows コードページ 1252 で表示) のように,「コ ードページ」と呼ばれるWindows 独自の拡張を含む文字エンコードが利用できる (コード ページについては次回授業で解説)。
実習1: Kadai サーバの [schiba]→[2003fl] にある [No8] フォルダを file_server の Home にコピーしなさい。Internet Explorer を使い,コピーした [No8] フォルダにある English.txt (英語), Korean.txt (韓国語), SimplifiedChinese.txt (簡体字中国語), TraditionalChinese.txt (繁 体字中国語) を表示させ,ブラウザのメニューバーの「表示」→「エンコード」で正しいエ ンコードを指定し,文字を正しく表示させなさい (文字エンコード方式としてそれぞれ「西 ヨーロッパ言語(ISO)」「韓国語」「簡体字中国語 (GB2312)」「(繁体字)中国語 (Big5)」を選 ぶ)。同様の作業を Netscape Communicator でも行いなさい (文字エンコード方式は,[表 示]→[文字コードセット] から選ぶ)。 1.2. フォントの選択とフォントの種類 Internet Explorer は,特に設定しなくとも,標準の状態で各国語のフォントを使えるが, Netscape Communicator の場合は,ソフトウエアのフォントの設定が不完全なため,言語 によっては,ユーザがフォントを設定してやらなければテキストを正しく表示できないこ とがある。実習1 の中国語テキストを Netscape Navigator で閲覧しようとすると文字化け が起こるが,Netscape 自体は文字エンコードをきちんと解釈するので,フォントさえ正し く指定すれば,表示ができるようになる。 Internet Explorer,Netscape でのフォントの設定・確認の仕方は以下のとおり: Internet Explorer: 1. [ツール]→[インターネ ッ ト オ プ シ ョ ン]を開 く。「全般」タブの下に ある「フォント」ボタ ンを押して,「フォン ト」画面を開く。 2. 「言語セット」を選び, 言語セットごとにフォ ントを選択する。 3. [OK]ボタンを押す。 Netscape Communicator: 1. [編集]→[設定]で,「設 定」画面を開く。 2. 「表示」カテゴリから 「フォント」をマウス で選択する。 3. 文字コードセットごと に フ ォ ン ト を 選 択 す る。 4. [OK]ボタンを押す。
Internet Explorer, Netscape Communicator とも,各言語・地域の文字エンコード方式(呼 び名はソフトによって異なる)ごとにプロポーショナルフォント,等幅フォントをそれぞれ
3 実習2:下記フォントリストや Internet Explorer の設定を参考に,Netscape Communicator で韓国語,中国語(簡体字,繁体字)が表示できるようにフォントを設定しなさい。 WindowsXP 日本語版に搭載されている韓国語,中国語フォントの例 (第 4 回資料より) 韓国語 Batang 안녕하십니까? ‘Hello!’ プロポーショナル,セリフ BatanChe 안녕하십니까? ‘Hello!’ 等幅,セリフ Dotum 안녕하십니까? ‘Hello!’ プロポーショナル,サンセリフ DotumChe 안녕하십니까? ‘Hello!’ 等幅 中国語 (簡体字)
SimSun 我喜欢学习中文。I wanna study Chinese. 等幅 SimHei 我喜欢学习中文。I wanna study Chinese. 等幅 中国語 (繁体字)
PmingLiU 我喜欢学习中文。I wanna study Chise. プロポーショナル MingLiU 我喜欢学习中文。I wanna study Chinese. 等幅
実習3: Netscape Communicator で Yahoo! の各国版を閲覧しなさい。アメリカの本家の ページ http://www.yahoo.com の下方に各国語版へのリンクがあるので参照し,自分の言語 のページへすすみなさい。うまく閲覧できたら,サイトをブックマークに登録しなさい。
大学のPC の仕様では,Internet Explorer の設定に施した変更は,ログオフするとリセッ トされてしまい,保存されない。これに対し,Netscape Communicator では,各ユーザ の「file_server の Home (F:)」内 (の「netscape」フォルダの中) に設定内容が保存される。 そのため,Netscape でおこなったフォント等の設定や,ブックマークはログオフ後も残る ので,便利である。 ただし,大学のNetscape のバージョンはかなり古い (4.72,現在のバージョンは 7.1)ので 使い勝手はあまりよくない。また,ロシア語などに使われるキリル文字の表示や,スタイ ルシートの表現に問題があるなど,いくつか重要なバグが残っている。
2. テキスト文書としてのウェブページ:HTML 文書の基本
• ウェブページは,HTML (HyperText Markup Language) という決まりに従って書か れている。このため,ウェブページのことをHTML 文書と呼ぶ。 • HTML 文書の中身 (「ソース」という) は,実はテキスト文書である。つまり,エン コード方法さえおさえれば,どんな言語のウェブページでもテキストとまったく同じ ように編集できる。 • テキスト文書でよく使われるファイルの拡張子は .txt だが,HTML 文書では .htm ないし .html が一般的に用いられる (拡張子のおすすめは,.html。特に,自宅で Windows95, 98, ME を使っている人は,拡張子を .html に統一することをすすめる。)。 これらの拡張子をつけたファイルは,大学の PC では WWW ブラウザ (Internet Explorer) に関連づけられている。 • 文書の構造をマークアップというきめられた方法で表現する。マークアップは,「タグ」 と呼ばれる半角の三角カッコで囲まれた文字列 (例:<h1>) によっておこなう。マー クアップ各部の名称は,以下のとおり。
<h1 lang=“ja”>第1の見出し</h1> h1要素 開始タグ 終了タグ 内容 属性 属性の値 要素名,属性名 (h1 と lang)は必ず半角 (ASCII) で記述すること (大文字,小文字ど ちらでもOK)。 • 4つの記号,角括弧 < と >,アンパーサンド & ,2 重引用符 " は HTML 文書のマ ークアップに使う特別な記号である。これらを文章中の文字として使う場合は,マー クアップの一部と混同されないよう,その文字を「文字実体参照 (Character Entity References)」と呼ばれる方法で置き換えて表現する必要がある。
< < (less than) & & (ampersand) > > (greater than) " " (quotation)
• テキストファイルを閲覧する場合と異なり,HTML 文書では,余分な空白(半角スペー スやタブ)と改行は無視される。逆に言うと,改行や空白は,作成者がテキストを見や すくするために適宜入れてよい (全角スペースはそのまま表示されるので注意)。 • HTML 文書の基本構造は,次のとおり: 文書型宣言 HTML文書本体 ヘッダ情報 本文
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> </html> <head> ... </head> <body> ... </body> ※ 文書型宣言は,文書先頭に記述し,その文書がHTML のどのバージョンに従 っているかを示す (HTML にはバージョンが複数ある)。 ※ 「ヘッダ情報」は,タイトル要素 <title> … </title> のほか,文字エンコー ド方式情報 (後述) など,文書に関する説明(「メタ情報」という)を入れる。 • HTML についての情報 HTML 4.01 仕様書 (Specification): http://www.w3.org/TR/html4/ HTML 文法チェッカー Another HTML-lint gateway:
http://openlab.ring.gr.jp/k16/htmllint/htmllint.html 国際経済学部高辻先生の HTML 解説「初めての HTML」: http://www.reitaku-u.ac.jp/tak/tak/ntwk/html.html その他,参考になる無数のウェブページや書籍がある。活用しよう! よいデザインのページに出会ったら,ソースを分析して勉強しよう。 Internet Explorer: [表示]→[ソース] (または右クリックで「ソースの表示」) Netscape Communicator: [表示]→[ページのソース] 要素名
5
3. 外国語ウェブページの作成
外国語のテキスト文書同様,HTML 文書を作成する場合も,テキストを正しい文字エンコ ード方式で処理する必要がある。保存・(再) 編集の際は充分に注意すること。 3.1. EmEditor での外国語 HTML 文書の編集 • ファイルを保存:メニューバーの [ファイル] → [名前をつけて保存] を選択し,ファ イルの種類を「全てのファイル」(または「HTML」)とし,ファイル名には拡張子を含 む正確なファイル名 (HTML 文書の拡張子は .html または .htm) をつける (下図)。 • ファイルを開く:メニューバーの [ファイル] → [開く] を選択し,「ファイルの種類」 を「全てのファイル」(または「HTML」) に指定し,HTML 文書を選択する(下図,「Text (*.txt)」のままでは HTML 文書が選択できないので注意)。文字エンコード方式の設定 は「コードページ」でおこなうか,ファイルを開いた後で「ファイル」→「コードペ ージを変更して読み直し」を選択し,文字エンコード方式を設定する。 なお,テキストの拡張子が .htm ないし .html のファイルを開くと,EmEditor の編集 モードが自動的に切り替わり,タグが種類によって色分け表示される (見やすい!)。 3.2. Word での外国語 HTML 文書の編集 • 準備:[ツール] から[オプション] を開き,「全般」タブの「文書 を開くときにファイル形式を確認する」をチェックし,HTML を テキスト文書として読み込めるように設定しておく (大学の PC ではログオンごとに設定が必要!)。 • ファイルを保存:ファイルを開く際,ファイルの種類を「エンコ ードされたテキスト」にする (右図参照,「HTML 文書」にはしな いこと)。ファイル名は拡張子 .html (または .htm) までつける。 「エンコードされたテキスト」として開き,「ファイルの変換」ダ イアログで,エンコードを指定する。これで,HTML 文書をテキストとして編集でき るようになる。 「ファイルの種類」をいちいち変更しなければならない上記の方 法がわずらわしい場合,ショートカットを利用するとよい。開き たいファイルのアイコン上でマウスを右クリックし,[送る] → [EmEditor] を選択すると,すばやくファイルを開くことができる (右図参照,自宅 PC にインストールした EmEditor の場合には, 右クリックしたメニューに「EmEditor」という項目がある)。文 字エンコード方式は「ファイル」メニューの「コードページを変 更して読み直し」を用いてファイルを開いてからおこなう。注意: Word には,保存するファイルの形式として「HTML 文書」があるが,この形式は 外国語のHTML 文書を作成する場合には使ってはならない。Word 文書の書式維持のため独 自のタグが挿入されてしまい,Word 以外のアプリケーションで適切な編集をすることがで きなくなるばかりか,外国語の文字エンコード方式でソースが保存されない。 • ファイルを開く:ファイルの種類を「すべてのファイル (*.*)」にする。(上の「準備」 で記したオプションの設定が出来ていないと,HTML 文書を選択すると Word の HTML 文書編集モードで開いてしまい,HTML のタグや文字の情報が勝手に修正され てしまう。この場合,保存せずに終了させ,設定を変更すること。) 3.3. HTML 文書のファイル名のつけかたに関する注意 • HTML 文書のファイル名には,ASCII の基本アルファベットと英数字,ハイフン,アン ダーバーのみを使い,日本語や,各言語の特殊なアルファベットや記号,スペースは使 わないこと。 • インターネット上で公開する場合,ファイル名の大文字・小文字は区別されるので注意。 index.htm と index.html, Index.htm は全て異なるファイル名である。困ったことに, Windows 上では大文字小文字の違いは区別されないので,このうち,1 番目と 3 番目の 違いに気づかないことがある! 実習4: English.txt を EmEditor で開き,「西ヨーロッパ言語」をエンコード方式に指 定してポンド記号などを正しく表示しなさい。「名前をつけて保存」を選択し,テキストを English.html というファイル名で新たに保存しなさい (コードページは「西ヨーロッパ 言語」としなさい)。アイコンをダブルクリックして WWW ブラウザで開いて表示を確認し, 必要ならばエンコードを正しく設定しなさい。(続いて実習 5.をおこないなさい。) 実習5: 別紙のサンプルを参考にしながら,EmEditor を使って English.html に HTML のマークアップを行いなさい。主な編集のポイントを以下にリストする。 • 文書の基本構造をあらわす html, head, body 要素を入れる。
• ヘッダ要素: title 要素の内容を「Editorial Note of Barnes (1989)」とする。 • h1 (最初の見出し)要素を「Editorial Note」とし,本文冒頭に置く。h2 (小見
出し) は 「Julian Barnes (1989) A History…」 にする。
• Paperback Version…, Price …, ISBN …, First published… を番号なしリス トにする:
<ul>
<li>Paperback … </li> <li>Price… </li> <li>ISBN … </li>
<li>First published… </li> </ul>
• Editorial Note の本文を一つの段落を表す <p> … </p> で囲む。
• 文書の末尾にaddress 要素 (<address> … </address>) を加え,名前(アルフ ァベット)と学籍番号,メールアドレスを記入する (外国語のテキストである ので,名前に漢字は使わず,ASCII で入力すること)。
• 書名 (A History of …, Metroland, Before She… , Flaubert’s … etc.) は斜字 体 (<i> … </i>で囲む) にする。
編集後ファイルを上書き保存し,WWW ブラウザで再度表示し (ツールバーの「更 新」ボタンをクリックする),別紙サンプルのように表示されるか確認しなさい。
7 実習6: 自己紹介の ウェブページを作成しなさい。外国語で作成したテキスト intro.txt を [あなたのユーザ ID].html として,日本語テキスト intro-j.txt を [あなたのユーザ ID]-j.html として新たに保存し,実習 5 のサンプル等を参照しながらマークアップをおこないなさい ( ユ ー ザ ID が schiba の 場 合 , 外 国 語 ウ ェ ブ ペ ー ジ は schiba.html, 日 本 語 版 は schiba-j.html となる。←四角カッコは不要)。作成の際は以下の条件に従いなさい: • 文書の基本構造をあらわす html, head, body 要素を入れる。 • ヘッダ要素: title 要素の内容を「Introducing ○○ in ◎◎」とする (○○ には自分の名前をASCII の基本アルファベットで記す。◎◎には言語名を英 語で記す)。
Introducing CHIBA Shoju in German
↑ ↑
自分の名前をASCII で テキストの言語名を英語で English Thai
German Simplified Chinese Spanish Traditional Chinese French Korean
実際のソースは,以下のようになる: <head>
<title> Introducing CHIBA Shoju in German</title>
</head> title 要素は head 要素の中に「入れ子」にすること。 • ページの大見出しに h1 要素を使い,本文冒頭に置く (内容は自由)。 • 大見出しの下に,以下のように外国語バージョンと日本語バージョンを行き 来できるよう相互にリンクを作成すること。 ※外国語版:
<p align=”right”>To <a href=”[あなたのユーザ ID]-j.html”>Japanese Version</a></p> ※日本語版:
<p align=”right”><a href=”[あなたのユーザ ID].html”>●●語版の自己紹介</a>を開く</p> • 本文の内容にあわせ,段落を表す p 要素や 箇条書きを表す ul, li 要素など
を使う (</p> や </ul>,</li> といった終了タグを忘れずに)。
• 文書の末尾にaddress 要素 (<address> … </address>) を加え,名前(アルフ ァベット)と学籍番号,メールアドレスを記入する (外国語のテキストである ので,名前に漢字は使わず,ASCII の基本アルファベットで入力すること)。 • 外 国 語 版 の ペ ー ジ は そ の 外 国 語 の 文 字 エ ン コ ー ド 方 式 で , 日 本 語 版 は Shift_JIS にて保存し,エンコードを確認して編集すること。 アイコンをダブルクリックしてWWW ブラウザで表示し,エンコードを正しく指定して正 しく表示されるか確認しなさい。
4. 外国語ウェブページ作成のポイント
4.1. 文字エンコード方式の記述 • HTML 文書がどの文字エンコード方式で作成されているかをヘッダ情報(<head> … </head> の中)に入れておくことができる。このタグは開始タグのみで,内容,終了タ グはもたない(「空要素」と呼ばれる)。タグの末尾,charset= の直後にあるのがコー ド体系の表記である。文字エンコード方式の記述は,他の属性表記 (属性名="属性値") に比べ特殊であるので,とりあえずこのように書くものと覚えておけばよい。日本語シフトJIS:
<meta http-equiv="Content-type" content="text/html; charset=Shift_JIS"> 英語,スペイン語,ドイツ語,フランス語:
<meta http-equiv="Content-type" content="text/html; charset=iso-8859-1"> タイ語:
<meta http-equiv="Content-type" content="text/html; charset=tis-620"> 韓国語:
<meta http-equiv="Content-type" content="text/html; charset=euc-kr"> 簡体字中国語:
<meta http-equiv="Content-type" content="text/html; charset=gb2312"> 繁体字中国語:
<meta http-equiv="Content-type" content="text/html; charset=big5"> WWW ブラウザの多くはこの情報に基づいて自動的にエンコードを判別し,フォント を切り替えるので,ウェブページを閲覧する際,この記述があると大変重宝する (この タグがなければページが正しく表示できない,というわけではないが,文字エンコー ド方式が分からないときの手がかりになるので,記述しておくことをすすめる)。第 1 回の授業で閲覧した,自動的にエンコードを判別する多言語ウェブページの例は,こ のmeta タグを使っている。 4.2. 言語名の属性表示 • テキストが何語で書かれているのか,という情報は,エンコード方式の表示だけでは わかりにくい (ISO-8859-1 のページは,英語?ドイツ語?スペイン語?はたまたフラ ンス語?)。そこで,HTML では,lang という属性を使い,より明示的に言語名を記 述することができる。言語名属性は,現時点ではまだ利用されているとはいえないが, HTML の規格書でも記述が推奨されている。今後検索ツールなどに活用される可能性 があるので,積極的に記述したい (Google などで一部実用化が進んでいる)。 • lang 属性は,lang="言語名" という形で開始タグの中に記述する。 例: <p lang="ja">これは日本語です。</p> lang 属性の言語名として,言語名表記の国際標準規格 RFC 1766 1 に従った,以下の ような言語名を記述するのが一般的である。
¾ 英語 en, en-UK (英語, イギリス), en-US (英語, アメリカ) ¾ ドイツ語 de
1 RFC は Request For Comments の略で,インターネットの技術標準を提案する団体 IETF
(Internet Engineering Task Force) によって策定,公開されている。インターネットにかかわ る技術的な実装のほとんどはRFC に準拠しておこなわれており,RTF は事実上インターネット の技術仕様書としての意味をもっている。このような標準化推進団体には,HTML を策定して いるW3C (World Wide Web Consortium) や Unicode の規格策定と普及のための活動をおこ なっている Unicode Consortium などがある。
RFC1766 の正式名称は "Tags for the Identification of Languages" で IETF のホームページ (http://www.ietf.org/rfc/rfc1766.txt) で読むことができる (ただし,内容はテクニカルである)。 表記は言語の表記 (前半部) を ISO 639 ("Code for the representation of names of languages", http://www.ics.uci.edu/pub/ietf/http/related/iso639.txt) による 2 字の表記に従い,国・地域名 の 表 記 (後半 部) は ISO 3166 ("Codes for the representation of names of countries", http://www.ics.uci.edu/pub/ietf/http/related/iso3166.txt) に従って記述するのが現在のところ 一般的である。(1988 年に策定された ISO639 は約 130 足らずの言語しか規定しておらず,その
9 ¾ フランス語 fr, fr-FA (フランス語, フランス), fr-CA (フランス語, カナダ) ¾ スペイン語 es ¾ タイ語 th ¾ 中国語 zh, zh-CN (中国の中国語), zh-TW (台湾の中国語) ¾ 韓国語 ko ¾ 日本語 ja 日本語はjp でなく,ja であることに注意。zh-tw の tw のような言語名の二次属性は 国や地域をあらわす (省略可能だが,中国語のように地域によって文字エンコード方式 が大きく異なる場合には,つけたほうがよいだろう)。 例: <html lang="zh-CN"> <head>
<meta http-equiv="Content-type" content="text/html; charset=gb2312"> <title lang="en">Introducing Shoju CHIBA in Chinese</title>
</head> <body>
<p lang="en">This page is written in Simplified Chinese (GB2312).</p> <h1>我是千叶, 你好吗!</h1> … </body> </html> 4.3. 文字参照・実体参照を使った文字表記 • HTML 文書では,普段あまり使わない文字など,ある特定の文字を「文字参照」とい うしくみを使って文書中に呼び出すことができる。文字参照には2種類あり,使用し たい文字の文字コード (Unicode で表記) を 10 進数または 16 進数で表記する「数値文 字参照」と,文字をあらかじめ決められた略称で表現する「文字実体参照」がある。 前者はUnicode に存在している文字であれば原則として何でも表記できる。一方後者 は西ヨーロッパ言語 ISO-8859-1 に収録された文字について利用できる (補足資料参 照,§2.で挙げた<, >, &, " の 4 つの記号の置き換え規則も文字実体参照を使っている)。 数値文字参照を使うと,編集中の言語の文字エンコード方式で表現できない文字を表 示させることができる。たとえば,日本語のWeb ページ中でも,日本語 (Shift JIS) に ない文字を表示させることができる。たとえば,ユーロ記号 (€) の Unicode での文字 コードは16 進法で「20AC」であるが,€ という表記 (10 進法なら € ) を使えば各国・地域の文字エンコード方式で作成されたテキストの中に,ユーロ記号 を挿入することができる (Unicode について,詳細は次回扱う)。 参照文字を使った HTML の例: 文字実体参照: <p>フィンランド語で「お母さん」は <i>äiti</i> といいます。</p> 数値文字参照(16 進数): <p>フィンランド語で「お母さん」は <i>äiti</i> といいます。</p> 数値文字参照(10 進数): <p>フィンランド語で「お母さん」は <i>äiti</i> といいます。</p> ブラウザでの表示例:
フィンランド語で「お母さん」は
äiti といいます。
ブラウザによっては,参照を使って呼び出した文字が正しく表示されないことがある (例えば,16 進数表記の数値文字参照は大学の Netscape (バージョン 4.72) ではうま くいかないようだ)。古いブラウザは,先にあげた 4 つの記号,<, >, &, " の文字参照 しか正しく表示できない。
実習7:§4.3. を参考に,数値文字参照を使い English.html にユーロ記号を入れなさい。 <li>Price: UK £6.99, EUR €12.23</li>