| プロフィール | 私書(メール) 受 /送 /送済 | 評価(一覧 /絞) 投票 /共:受 /送 | ファン登録 作品/情報/曲 | DB構築(受) | 書き物 [書く] | 攻略記事 | リンク集 My Play List |
|---|
| <=新記事2008/09/14 インストール::コマンドでのインストール =>古記事2008/09/13 皆声.jp::リリース予定 1. 2008/09/14 「検索エンジンレポート > 検索エンジンの作り方 > 日本語を対象の検索エンジンに最適な内部文字コードとは(UTF8 or EUC-JP or ?)」 [この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラバ送信 / 共有分類に追加(タグ付け)] 日本語を対象にした検索エンジンは内部の文字コードを何で保持するのが良いのだろうか。
また最大6bytesまでが割り当てが可能な分、日本語に限らず韓国語、中国語なども同じくUTF8という文字コードセットで表現できる。 これはグローバルで動作する検索エンジンにとっては都合が良い。 何故なら同じ文字コードで色々な言語の処理が行えるので、実装がとてもしやすい。 その為、ソフトの国際化といえば、まずUTF8化が行われる。 あと、日本語固有の文字コードとしては、Shift_JIS(携帯などで使われる)、EUC-JP(プログラムでよく使われる)、JIS(メールで使われる)がある。 このうち、日本語固有の文字コードでプログラミングに適したEUC-JPの文字コードレンジは
日本語の表現しか出来ないが、UTF8に比べて2/3の量で同じことを表現できる。 極端な例では、ネットワークを通じてホームページを表示する時にはUTF8に比べて2/3の時間で済み、またディスク消費量や読み込み等の処理時間も2/3になる。 正確に言うと、UTF8でしか表現できない日本語もあり、その点で劣るが、その領域は限られるし、携帯電話がShift_JISでしか表現できないように、いずれにせよ表示する時にはUTF8=>Shift_JIS, EUC-JPといった文字コード変換する時には該当文字無しとして消さなければいけない文字なので、日本語だけを考えるとUTF8のメリットはデメリットに比べてそんなに大きくない。 また、Shift_JIS<=>UTF-8<=>JISは文字コード変換を計算で行えるが、UTF8はそうした対応関係が無いので、文字コード変換をする時の「コスト」が高い。 よって、 ・速度(CPU/IO消費量削減) ・日本語各種文字コードへの変換コスト削減 ・必要ディスク量/サーバーの削減 の為にはEUC-JPの方がUTF-8よりも良い。 勿論、Yahoo, Google, MSN, Askといったグローバルの検索エンジンならそうしたローカルの文字コードを採用する理由は無いわけだが、単純に速度と処理能力の極限化を重んじて日本語対象専用の検索エンジンを作るのなら、EUC-JPを採用するメリットは大きいと言えるでしょう。 作品データベースとminakoe.jpの検索エンジン(うーん、何と名づけよう? これについては後でよく考えよう...)は、そうした理由で内部の文字コードはEUC-JPで保持しています。 韓国語や中国語に対応するということが来たら内部の文字コードも処理もUTF8化するということになるでしょうが、その予定は近い将来見えるところには無いので、日本語対象の検索エンジンとしての最適化を優先しています。 ※ ちなみに最近の記事はminakoe.jpの開発に作業が集中しているのに合わせて検索エンジンネタばかりですが、minakoe.jpのリリースが終わったら作品DBの方に開発リソースを戻せる予定です。 ※ あとhttp://minakoe.jp/の機能は検索と大量データ解析というベーシックな機能なので、現在の作品DBの検索システムにその機能とサーバー群を流用しているように、作品DBの方にも回りめぐって有用な機能を流用できると思います。 ※ 寝る間もなく作成作業をしていても、本日のギアスは「また見てギアス」がかかっているので見ます。そろそろエンデインング。 ※ あ、長老御推奨のウォーキングバタフライはギアスかかっていないので今週飛ばしで来週見ます。
[他の記事も読む] |