1. 文章目的
2. クローラー
  1. wget
  2. cURL
  3. LWP
3. メディアコンバーター
  1. Excel
  2. PDF
  3. PowerPoint
  4. Word
4. データベース
  1. Berkeley DB
  2. MySQL
5. インデックス
  1. Inverted Index
6. 言語判別
  1. Rosette言語判別システム (商用)
7. 文字コード処理
  1. Encode.pm
  2. Jcode.pm
  3. Iconv
  4. lv
  5. Rosette Unicode対応ライブラリ (商用)
8. 形態素解析
  1. Rosette形態素解析システム (商用)
  2. ChaSen
  3. Kakasi
  4. MeCab
9. 辞書
  1. Ipadic
10. インデックサー+検索システム(フリー系)
  1. Freya SX
  2. Hyper Estraier
  3. Kiss Search
  4. Lucene(Nutch)
  5. msearch
  6. Namazu
  7. Senna
  8. S.CREW
  9. Splendid Search
  10. Swish++
  11. Suzaku
  12. Yomi Search
  13. 検索Boy
11. インデックサー+検索システム (商用)
  1. Akao
  2. Bibliotheca
  3. Concept Base
  4. Co.Co.Da
  5. Express Finder
  6. GTR
  7. InfoBee
  8. Savvy
  9. 俊司
12. Web検索
  1. Ask
  2. FreshEye
  3. Google
  4. KartOO
  5. MSN
  6. Marsflag
  7. Mooter
  8. Naver
  9. Sagool
  10. Yahoo
  11. 百度
13. Blog検索
  1. Accelanavi
  2. Ask
  3. Bulkfeeds
  4. Fc2
  5. Goo
  6. Google
  7. Jetrun
  8. Livedoor
  9. Marsflag
  10. Mobloget
  11. Speenee
  12. Technorati
  13. Yahoo
  14. Namaan
  15. 楽天
14. モバイル検索
  1. Ask
  2. Crooz
  3. Froute
  4. Goo
  5. Google
  6. Infoseek
  7. MSN
  8. Seaftyy
  9. Yahoo
  10. Yicha
15. スコアリング
  1. ページランク
  2. Tf/Idf
16. Web検索関係者のホームページ(Blog)
  1. Google
  2. Naver
  3. Yahoo
17. オープンソース検索関係者ホームページ(Blog)
  1. Freya
  2. Hyper Estraier
  3. Lucene
  4. Mobloget
  5. Namazu
  6. Senna
18. 自分(栗田 創)の経験
  1. 自己紹介はこちら
  2. ウェブ検索
  3. ブログ検索
  4. オープンソース検索エンジン
  5. 専用検索
  6. 登録型カテゴリー検索
  7. CGIとして提供していた検索
  8. メタサーチ
ふと色々な検索エンジンのソースと状況を再度見てみようと思った時に、昔リンク集を作っていたのを思い出して、ブログの方に移動させてきてみました。
ウェブサイト上に公開されている情報に限り、集めて体系立ています。
http://www.gnu.org/software/wget/wget.html
歴史のあるコマンド版クローラー。UNIXシステムだと通常付いてくる。
http://search.cpan.org/~gaas/libwww-perl-5.805/lib/LWP.pm
Perlの定番クロールライブラリ
xlHtml
http://chicago.sourceforge.net/xlhtml/
xpdf
http://www.foolabs.com/xpdf/download.html
PullDoc
http://www.simplesystems.co.jp/product/pulldoc/pulldoc.html
xlHtml
http://chicago.sourceforge.net/xlhtml/
wvWare
http://sourceforge.net/projects/wvware/
公式
http://www.oracle.com/database/berkeley-db/db/index.html
Oracleに買収されてSleepycatのサイトが無くなっている。
ガーン。
SQL不必要。
シンプル最高速DB (accessup.orgはこれとTEXTファイルしかデータ保持には使っていない)。
MySQLの底に使われていたりする(今もどうかは知らない)。
DB_File.pm
http://search.cpan.org/~pmqs/DB_File-1.814/DB_File.pm
BerkeleyDB.pm
http://search.cpan.org/~pmqs/BerkeleyDB-0.31/BerkeleyDB.pod
http://www.mysql.com/
自分は仕事でしか使わないけれど(自分のサイトには使わない)。
http://en.wikipedia.org/wiki/Inverted_index
http://www.basistech.co.jp/language-identification/
http://search.cpan.org/~autrijus/Encode-compat-0.07/lib/Encode/compat.pm
Perl5.8からの標準付属言語文字コードライブラリ。
http://openlab.ring.gr.jp/Jcode/index-j.html
http://www.gnu.org/software/libiconv/
http://www.ff.iij4u.or.jp/~nrt/lv/
http://www.basistech.co.jp/unicode
http://www.basistech.co.jp/base-linguistics/
http://chasen.aist-nara.ac.jp/index.html.ja
http://chasen.aist-nara.ac.jp/chasen/ml.html.ja
http://www.delegate.org/freyasx/index-ja.html
http://hyperestraier.sourceforge.net/index.ja.html
http://www2.osk.3web.ne.jp/~nkon/search/
http://lucene.apache.org/java/docs/
http://www.kiteya.net/script/msearch/
http://qwik.jp/senna/FrontPageJ.html
http://www.peanuts.gr.jp/Search/download-j.html
http://swishplusplus.sourceforge.net/
http://hoshizawa.no-ip.com/suzaku/
http://yomi.pekori.to/yomi-search.shtml
http://www.yippee.ne.jp/K_Boy/
http://www.dehenken.co.jp/products/products-02/products-akao01.html
http://www.hitachi.co.jp/Prod/comp/soft1/biblio2/bib2-index.htm
http://www.justsystem.co.jp/km/product/cb5/
http://www.netsystems.co.jp/services/cocoda/
http://www.ntt-at.co.jp/product/sdk_index/
http://www-06.ibm.com/jp/Search/gtr_doc.html
http://www.info-brdg.co.jp/savvy/
http://www.mmjp.or.jp/gengo/ken.htm
Blog検索は、Google, Technorati以外は日本で開発されたものではないかと思われます。
単純なインデックス構造とWeb検索に比べて少ないリソースで実装できるのでたくさん出来ています(その分実際に成功するのは一部でしょうが)。
http://blogsearch.google.co.jp/
http://www.marsflag.com/blogtop.x
http://www.namaan.net/
今はどうかは知りませんが昔はnamazuを活用して作っていたらしいです(サーバーを並列化させることで)。
もちろんnamazuはソフトとしてはBlog検索向きではありませんが、システム構成である程度補ってここまで作れたということですね。
Efficient Computation of PageRank
http://dbpubs.stanford.edu:8090/pub/1999-31
http://en.wikipedia.org/wiki/Tf-idf
鵜飼文敏 氏
http://ukai.org/d/
後藤正徳 氏
http://gotom.jp/~gotom/index-j.html
小松弘幸 氏
http://www.taiyaki.org/
高林哲 氏(Namazu作者)
http://0xcc.net/blog/
原田昌紀 氏 (Freya作者)
http://www.ingrid.org/~harada/index-ja.html
林芳樹 氏
http://www.sodan.org/~penny/
井上俊一 氏
http://inoue.typepad.com/
関裕司 氏
http://www.shikencho.com/
原田昌紀 氏
http://www.ingrid.org/~harada/index-ja.html
平林幹雄 氏
http://qdbm.sourceforge.net/mikio/rbbs.cgi
関口宏司 氏
http://lucene.jugem.jp/
井原伸介 氏
http://blog.windy.ac/
グニャラくん
http://d.hatena.ne.jp/tasukuchan/
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/
Web検索エンジンのローカライゼーション仕様設計/QA/構築/運用。
0から自分で作りました。
世界のどの検索エンジンよりも速く更新できる検索エンジン(正確にはインデックス構造)が思いついたので作ってみた。
B2C, B2B向けに提供。
2007/12末までが自分の責任(そこで退社)
バグ情報提供 / リメイクしてASPへの提供。40社以上に提供。
作品DBの各種検索エンジン。
http://www.accessup.org/anime/
基本的に全てフルインデックス型検索エンジン。
定番サーチ
http://find.accessup.org/teiban/
メンテナンス最近していませんが。
すごーく昔に作ったものでgrep型検索。
元々はサーチエンジン一括登録(昔は商用で提供していたもの)の対象に自分の検索も追加してみたいなぁ、と作ってみたもの
CGIの提供は止めてしまいましたが、昔は提供して配っていました。
http://find.accessup.org/find/
結構使われています。
自分でもホームページ&毎日の利用検索エンジンにしています。
使い方が理解&知られれば、個人的に最強に便利な検索だと思うことを考えれば、その割にはいまいちな知名度とも言えますが。
携帯版
http://find.accessup.org/find/i/
PDA版
http://find.accessup.org/find/pda.html
も提供。
結構昔からあります。
↓一番昔に雑誌に掲載された記事
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20061030.html