2-/執筆者ページ/日記投稿
1. 2006/12/28 検索エンジンレポート > 検索情報源 > サーチエンジン情報リソース集」コメントする/記事編集/削除/共有分類に追加

1. 文章目的       
2. クローラー  
    1. wget           
    2. cURL    
    3. LWP       
3. メディアコンバーター           
    1. Excel    
    2. PDF 
    3. PowerPoint  
    4. Word           
4. データベース         
    1. Berkeley DB    
    2. MySQL
5. インデックス
    1. Inverted Index
6. 言語判別
    1. Rosette言語判別システム (商用)
7. 文字コード処理
    1. Encode.pm
    2. Jcode.pm
    3. Iconv
    4. lv
    5. Rosette Unicode対応ライブラリ (商用)
8. 形態素解析
    1. Rosette形態素解析システム (商用)
    2. ChaSen
    3. Kakasi
    4. MeCab
9. 辞書
    1. Ipadic
10. インデックサー+検索システム(フリー系)
    1. Freya SX
    2. Hyper Estraier
    3. Kiss Search
    4. Lucene(Nutch)
    5. msearch
    6. Namazu
    7. Senna
    8. S.CREW
    9. Splendid Search
    10. Swish++
    11. Suzaku
    12. Yomi Search
    13. 検索Boy
11. インデックサー+検索システム (商用)
    1. Akao
    2. Bibliotheca
    3. Concept Base
    4. Co.Co.Da
    5. Express Finder
    6. GTR
    7. InfoBee
    8. Savvy
    9. 俊司
12. Web検索
    1. Ask
    2. FreshEye
    3. Google
    4. KartOO
    5. MSN
    6. Marsflag
    7. Mooter
    8. Naver
    9. Sagool
    10. Yahoo
    11. 百度
13. Blog検索
    1. Accelanavi
    2. Ask
    3. Bulkfeeds
    4. Fc2
    5. Goo
    6. Google
    7. Jetrun
    8. Livedoor
    9. Marsflag
    10. Mobloget
    11. Speenee
    12. Technorati
    13. Yahoo
    14. Namaan
    15. 楽天
14. モバイル検索
    1. Ask
    2. Crooz
    3. Froute
    4. Goo
    5. Google
    6. Infoseek
    7. MSN
    8. Seaftyy
    9. Yahoo
    10. Yicha
15. スコアリング
    1. ページランク
    2. Tf/Idf
16. Web検索関係者のホームページ(Blog)
    1. Google
    2. Naver
    3. Yahoo
17. オープンソース検索関係者ホームページ(Blog)
    1. Freya
    2. Hyper Estraier
    3. Lucene
    4. Mobloget
    5. Namazu
    6. Senna
18. 自分(栗田 創)の経験
    1. 自己紹介はこちら
    2. ウェブ検索
    3. ブログ検索
    4. オープンソース検索エンジン
    5. 専用検索
    6. 登録型カテゴリー検索
    7. CGIとして提供していた検索
    8. メタサーチ


1. 文章目的

ふと色々な検索エンジンのソースと状況を再度見てみようと思った時に、昔リンク集を作っていたのを思い出して、ブログの方に移動させてきてみました。
ウェブサイト上に公開されている情報に限り、集めて体系立ています。


2. クローラー


   1. wget

http://www.gnu.org/software/wget/wget.html
歴史のあるコマンド版クローラー。UNIXシステムだと通常付いてくる。


   2. cURL

http://curl.haxx.se/


   3. LWP

http://search.cpan.org/~gaas/libwww-perl-5.805/lib/LWP.pm
Perlの定番クロールライブラリ


3. メディアコンバーター


   1. Excel

xlHtml
http://chicago.sourceforge.net/xlhtml/


   2. PDF

xpdf
http://www.foolabs.com/xpdf/download.html
PullDoc
http://www.simplesystems.co.jp/product/pulldoc/pulldoc.html


   3. PowerPoint

xlHtml
http://chicago.sourceforge.net/xlhtml/


   4. Word

wvWare
http://sourceforge.net/projects/wvware/


4. データベース


   1. Berkeley DB

公式
http://www.oracle.com/database/berkeley-db/db/index.html
Oracleに買収されてSleepycatのサイトが無くなっている。
ガーン。
SQL不必要。
シンプル最高速DB (accessup.orgはこれとTEXTファイルしかデータ保持には使っていない)。
MySQLの底に使われていたりする(今もどうかは知らない)。
DB_File.pm
http://search.cpan.org/~pmqs/DB_File-1.814/DB_File.pm
BerkeleyDB.pm
http://search.cpan.org/~pmqs/BerkeleyDB-0.31/BerkeleyDB.pod


   2. MySQL

http://www.mysql.com/
自分は仕事でしか使わないけれど(自分のサイトには使わない)。


5. インデックス


   1. Inverted Index

http://en.wikipedia.org/wiki/Inverted_index


6. 言語判別


   1. Rosette言語判別システム (商用)

http://www.basistech.co.jp/language-identification/


7. 文字コード処理


   1. Encode.pm

http://search.cpan.org/~autrijus/Encode-compat-0.07/lib/Encode/compat.pm
Perl5.8からの標準付属言語文字コードライブラリ。


   2. Jcode.pm

http://openlab.ring.gr.jp/Jcode/index-j.html


   3. Iconv

http://www.gnu.org/software/libiconv/


   4. lv

http://www.ff.iij4u.or.jp/~nrt/lv/


   5. Rosette Unicode対応ライブラリ (商用)

http://www.basistech.co.jp/unicode


8. 形態素解析


   1. Rosette形態素解析システム (商用)

http://www.basistech.co.jp/base-linguistics/


   2. ChaSen

http://chasen.aist-nara.ac.jp/index.html.ja


   3. Kakasi

http://kakasi.namazu.org/


   4. MeCab

http://mecab.sourceforge.jp/


9. 辞書


   1. Ipadic

http://chasen.aist-nara.ac.jp/chasen/ml.html.ja


10. インデックサー+検索システム(フリー系)


   1. Freya SX

http://www.delegate.org/freyasx/index-ja.html


   2. Hyper Estraier

http://hyperestraier.sourceforge.net/index.ja.html


   3. Kiss Search

http://www2.osk.3web.ne.jp/~nkon/search/


   4. Lucene(Nutch)

http://lucene.apache.org/java/docs/


   5. msearch

http://www.kiteya.net/script/msearch/


   6. Namazu

http://www.namazu.org/


   7. Senna

http://qwik.jp/senna/FrontPageJ.html


   8. S.CREW

http://www.peanuts.gr.jp/Search/download-j.html


   9. Splendid Search

http://www.afrisoft.com/ass/


   10. Swish++

http://swishplusplus.sourceforge.net/


   11. Suzaku

http://hoshizawa.no-ip.com/suzaku/


   12. Yomi Search

http://yomi.pekori.to/yomi-search.shtml


   13. 検索Boy

http://www.yippee.ne.jp/K_Boy/


11. インデックサー+検索システム (商用)


   1. Akao

http://www.dehenken.co.jp/products/products-02/products-akao01.html


   2. Bibliotheca

http://www.hitachi.co.jp/Prod/comp/soft1/biblio2/bib2-index.htm


   3. Concept Base

http://www.justsystem.co.jp/km/product/cb5/


   4. Co.Co.Da

http://www.netsystems.co.jp/services/cocoda/


   5. Express Finder

http://www.ntt-at.co.jp/product/sdk_index/


   6. GTR

http://www-06.ibm.com/jp/Search/gtr_doc.html


   7. InfoBee

http://bee.ntt-it.co.jp/


   8. Savvy

http://www.info-brdg.co.jp/savvy/


   9. 俊司

http://www.mmjp.or.jp/gengo/ken.htm


12. Web検索


   1. Ask

http://ask.jp/


   2. FreshEye

http://www.fresheye.com/


   3. Google

http://www.google.com/


   4. KartOO

http://www.kartoo.com/


   5. MSN

http://www.msn.co.jp/


   6. Marsflag

http://www.marsflag.com/


   7. Mooter

http://www.mooter.co.jp/


   8. Naver

http://www.naver.com/


   9. Sagool

http://www.sagool.com/


   10. Yahoo

http://www.yahoo.co.jp/


   11. 百度

http://www.baidu.com/


13. Blog検索

Blog検索は、Google, Technorati以外は日本で開発されたものではないかと思われます。
単純なインデックス構造とWeb検索に比べて少ないリソースで実装できるのでたくさん出来ています(その分実際に成功するのは一部でしょうが)。


   1. Accelanavi

http://www.accelanavi.com/


   2. Ask

http://ask.jp/blghome.asp


   3. Bulkfeeds

http://bulkfeeds.net/


   4. Fc2

http://blogsearch.fc2.com/


   5. Goo

http://blog.goo.ne.jp/


   6. Google

http://blogsearch.google.co.jp/


   7. Jetrun

http://www.jetrun.jp/


   8. Livedoor

http://blog.livedoor.com/


   9. Marsflag

http://www.marsflag.com/blogtop.x


   10. Mobloget

http://mobloget.jp/


   11. Speenee

http://speenee.com/


   12. Technorati

http://www.technorati.jp/


   13. Yahoo

http://blogs.yahoo.co.jp/


   14. Namaan

http://www.namaan.net/
今はどうかは知りませんが昔はnamazuを活用して作っていたらしいです(サーバーを並列化させることで)。
もちろんnamazuはソフトとしてはBlog検索向きではありませんが、システム構成である程度補ってここまで作れたということですね。


   15. 楽天

http://plaza.rakuten.co.jp/


14. モバイル検索


   1. Ask

http://m.ask.jp/


   2. Crooz

http://crooz.jp/


   3. Froute

http://froute.jp/


   4. Goo

http://mobile.goo.ne.jp/


   5. Google

http://www.google.co.jp/jsky


   6. Infoseek

http://m.infoseek.co.jp/


   7. MSN

http://m.msn.co.jp/


   8. Seaftyy

http://seaftyy.jp/


   9. Yahoo

http://mobile.yahoo.co.jp/


   10. Yicha

http://yicha.jp/


15. スコアリング


   1. ページランク

Efficient Computation of PageRank
http://dbpubs.stanford.edu:8090/pub/1999-31


   2. Tf/Idf

http://en.wikipedia.org/wiki/Tf-idf


16. Web検索関係者のホームページ(Blog)


   1. Google

鵜飼文敏 氏
http://ukai.org/d/
後藤正徳 氏
http://gotom.jp/~gotom/index-j.html
小松弘幸 氏
http://www.taiyaki.org/
高林哲 氏(Namazu作者)
http://0xcc.net/blog/
原田昌紀 氏 (Freya作者)
http://www.ingrid.org/~harada/index-ja.html
林芳樹 氏
http://www.sodan.org/~penny/


   2. Naver

くま 氏
http://www.lostintime.jp/


   3. Yahoo

井上俊一 氏
http://inoue.typepad.com/
関裕司 氏
http://www.shikencho.com/


17. オープンソース検索関係者ホームページ(Blog)


   1. Freya

原田昌紀 氏
http://www.ingrid.org/~harada/index-ja.html


   2. Hyper Estraier

平林幹雄 氏
http://qdbm.sourceforge.net/mikio/rbbs.cgi


   3. Lucene

関口宏司 氏
http://lucene.jugem.jp/


   4. Mobloget

井原伸介 氏
http://blog.windy.ac/


   5. Namazu

高林哲 氏
http://0xcc.net/blog/


   6. Senna

グニャラくん
http://d.hatena.ne.jp/tasukuchan/


18. 自分(栗田 創)の経験


   1. 自己紹介はこちら

http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/


   2. ウェブ検索

Web検索エンジンのローカライゼーション仕様設計/QA/構築/運用。


   3. ブログ検索

0から自分で作りました。
世界のどの検索エンジンよりも速く更新できる検索エンジン(正確にはインデックス構造)が思いついたので作ってみた。
B2C, B2B向けに提供。
2007/12末までが自分の責任(そこで退社)


   4. オープンソース検索エンジン

バグ情報提供 / リメイクしてASPへの提供。40社以上に提供。


   5. 専用検索

作品DBの各種検索エンジン。
http://www.accessup.org/anime/
基本的に全てフルインデックス型検索エンジン。


   6. 登録型カテゴリー検索

定番サーチ
http://find.accessup.org/teiban/
メンテナンス最近していませんが。
すごーく昔に作ったものでgrep型検索。
元々はサーチエンジン一括登録(昔は商用で提供していたもの)の対象に自分の検索も追加してみたいなぁ、と作ってみたもの


   7. CGIとして提供していた検索

CGIの提供は止めてしまいましたが、昔は提供して配っていました。


   8. メタサーチ

http://find.accessup.org/find/
結構使われています。
自分でもホームページ&毎日の利用検索エンジンにしています。
使い方が理解&知られれば、個人的に最強に便利な検索だと思うことを考えれば、その割にはいまいちな知名度とも言えますが。
携帯版
http://find.accessup.org/find/i/
PDA版
http://find.accessup.org/find/pda.html
も提供。
結構昔からあります。
↓一番昔に雑誌に掲載された記事
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20061030.html


2-/執筆者ページ/日記投稿


Myページ 作品DB(友達招待) 最速検索