1. 2006/12/28 「検索エンジンレポート > 検索情報源 > サーチエンジン情報リソース集」 [この書込みのみ表示(記事URL紹介用) / 書込変更/削除 / トラックバック送信 / 共有分類に追加(タグ付け)](この日の語りにコメント/感想つけてみる)1. 文章目的 2. クローラー   1. wget   2. cURL   3. LWP 3. メディアコンバーター   1. Excel   2. PDF   3. PowerPoint   4. Word 4. データベース   1. Berkeley DB   2. MySQL 5. インデックス   1. Inverted Index 6. 言語判別   1. Rosette言語判別システム (商用) 7. 文字コード処理   1. Encode.pm   2. Jcode.pm   3. Iconv   4. lv   5. Rosette Unicode対応ライブラリ (商用) 8. 形態素解析   1. Rosette形態素解析システム (商用)   2. ChaSen   3. Kakasi   4. MeCab 9. 辞書   1. Ipadic 10. インデックサー+検索システム(フリー系)   1. Freya SX   2. Hyper Estraier   3. Kiss Search   4. Lucene(Nutch)   5. msearch   6. Namazu   7. Senna   8. S.CREW   9. Splendid Search   10. Swish++   11. Suzaku   12. Yomi Search   13. 検索Boy 11. インデックサー+検索システム (商用)   1. Akao   2. Bibliotheca   3. Concept Base   4. Co.Co.Da   5. Express Finder   6. GTR   7. InfoBee   8. Savvy   9. 俊司 12. Web検索   1. Ask   2. FreshEye   3. Google   4. KartOO   5. MSN   6. Marsflag   7. Mooter   8. Naver   9. Sagool   10. Yahoo   11. 百度 13. Blog検索   1. Accelanavi   2. Ask   3. Bulkfeeds   4. Fc2   5. Goo   6. Google   7. Jetrun   8. Livedoor   9. Marsflag   10. Mobloget   11. Speenee   12. Technorati   13. Yahoo   14. Namaan   15. 楽天 14. モバイル検索   1. Ask   2. Crooz   3. Froute   4. Goo   5. Google   6. Infoseek   7. MSN   8. Seaftyy   9. Yahoo   10. Yicha 15. スコアリング   1. ページランク   2. Tf/Idf 16. Web検索関係者のホームページ(Blog)   1. Google   2. Naver   3. Yahoo 17. オープンソース検索関係者ホームページ(Blog)   1. Freya   2. Hyper Estraier   3. Lucene   4. Mobloget   5. Namazu   6. Senna 18. 自分(栗田 創)の経験   1. 自己紹介はこちら   2. ウェブ検索   3. ブログ検索   4. オープンソース検索エンジン   5. 専用検索   6. 登録型カテゴリー検索   7. CGIとして提供していた検索   8. メタサーチ
1. 文章目的
ふと色々な検索エンジンのソースと状況を再度見てみようと思った時に、昔リンク集を作っていたのを思い出して、ブログの方に移動させてきてみました。 ウェブサイト上に公開されている情報に限り、集めて体系立ています。
2. クローラー
1. wget
http://www.gnu.org/software/wget/wget.html 歴史のあるコマンド版クローラー。UNIXシステムだと通常付いてくる。
2. cURL
http://curl.haxx.se/
3. LWP
http://search.cpan.org/~gaas/libwww-perl-5.805/lib/LWP.pm Perlの定番クロールライブラリ
3. メディアコンバーター
1. Excel
xlHtml http://chicago.sourceforge.net/xlhtml/
2. PDF
xpdf http://www.foolabs.com/xpdf/download.html
PullDoc http://www.simplesystems.co.jp/product/pulldoc/pulldoc.html
3. PowerPoint
xlHtml http://chicago.sourceforge.net/xlhtml/
4. Word
wvWare http://sourceforge.net/projects/wvware/
4. データベース
1. Berkeley DB
公式 http://www.oracle.com/database/berkeley-db/db/index.html Oracleに買収されてSleepycatのサイトが無くなっている。 ガーン。 SQL不必要。 シンプル最高速DB (accessup.orgはこれとTEXTファイルしかデータ保持には使っていない)。 MySQLの底に使われていたりする(今もどうかは知らない)。
DB_File.pm http://search.cpan.org/~pmqs/DB_File-1.814/DB_File.pm
BerkeleyDB.pm http://search.cpan.org/~pmqs/BerkeleyDB-0.31/BerkeleyDB.pod
2. MySQL
http://www.mysql.com/ 自分は仕事でしか使わないけれど(自分のサイトには使わない)。
5. インデックス
1. Inverted Index
http://en.wikipedia.org/wiki/Inverted_index
6. 言語判別
1. Rosette言語判別システム (商用)
http://www.basistech.co.jp/language-identification/
7. 文字コード処理
1. Encode.pm
http://search.cpan.org/~autrijus/Encode-compat-0.07/lib/Encode/compat.pm Perl5.8からの標準付属言語文字コードライブラリ。
2. Jcode.pm
http://openlab.ring.gr.jp/Jcode/index-j.html
3. Iconv
http://www.gnu.org/software/libiconv/
4. lv
http://www.ff.iij4u.or.jp/~nrt/lv/
5. Rosette Unicode対応ライブラリ (商用)
http://www.basistech.co.jp/unicode
8. 形態素解析
1. Rosette形態素解析システム (商用)
http://www.basistech.co.jp/base-linguistics/
2. ChaSen
http://chasen.aist-nara.ac.jp/index.html.ja
3. Kakasi
http://kakasi.namazu.org/
4. MeCab
http://mecab.sourceforge.jp/
9. 辞書
1. Ipadic
http://chasen.aist-nara.ac.jp/chasen/ml.html.ja
10. インデックサー+検索システム(フリー系)
1. Freya SX
http://www.delegate.org/freyasx/index-ja.html
2. Hyper Estraier
http://hyperestraier.sourceforge.net/index.ja.html
3. Kiss Search
http://www2.osk.3web.ne.jp/~nkon/search/
4. Lucene(Nutch)
http://lucene.apache.org/java/docs/
5. msearch
http://www.kiteya.net/script/msearch/
6. Namazu
http://www.namazu.org/
7. Senna
http://qwik.jp/senna/FrontPageJ.html
8. S.CREW
http://www.peanuts.gr.jp/Search/download-j.html
9. Splendid Search
http://www.afrisoft.com/ass/
10. Swish++
http://swishplusplus.sourceforge.net/
11. Suzaku
http://hoshizawa.no-ip.com/suzaku/
12. Yomi Search
http://yomi.pekori.to/yomi-search.shtml
13. 検索Boy
http://www.yippee.ne.jp/K_Boy/
11. インデックサー+検索システム (商用)
1. Akao
http://www.dehenken.co.jp/products/products-02/products-akao01.html
2. Bibliotheca
http://www.hitachi.co.jp/Prod/comp/soft1/biblio2/bib2-index.htm
3. Concept Base
http://www.justsystem.co.jp/km/product/cb5/
4. Co.Co.Da
http://www.netsystems.co.jp/services/cocoda/
5. Express Finder
http://www.ntt-at.co.jp/product/sdk_index/
6. GTR
http://www-06.ibm.com/jp/Search/gtr_doc.html
7. InfoBee
http://bee.ntt-it.co.jp/
8. Savvy
http://www.info-brdg.co.jp/savvy/
9. 俊司
http://www.mmjp.or.jp/gengo/ken.htm
12. Web検索
1. Ask
http://ask.jp/
2. FreshEye
http://www.fresheye.com/
3. Google
http://www.google.com/
4. KartOO
http://www.kartoo.com/
5. MSN
http://www.msn.co.jp/
6. Marsflag
http://www.marsflag.com/
7. Mooter
http://www.mooter.co.jp/
8. Naver
http://www.naver.com/
9. Sagool
http://www.sagool.com/
10. Yahoo
http://www.yahoo.co.jp/
11. 百度
http://www.baidu.com/
13. Blog検索
Blog検索は、Google, Technorati以外は日本で開発されたものではないかと思われます。 単純なインデックス構造とWeb検索に比べて少ないリソースで実装できるのでたくさん出来ています(その分実際に成功するのは一部でしょうが)。
1. Accelanavi
http://www.accelanavi.com/
2. Ask
http://ask.jp/blghome.asp
3. Bulkfeeds
http://bulkfeeds.net/
4. Fc2
http://blogsearch.fc2.com/
5. Goo
http://blog.goo.ne.jp/
6. Google
http://blogsearch.google.co.jp/
7. Jetrun
http://www.jetrun.jp/
8. Livedoor
http://blog.livedoor.com/
9. Marsflag
http://www.marsflag.com/blogtop.x
10. Mobloget
http://mobloget.jp/
11. Speenee
http://speenee.com/
12. Technorati
http://www.technorati.jp/
13. Yahoo
http://blogs.yahoo.co.jp/
14. Namaan
http://www.namaan.net/ 今はどうかは知りませんが昔はnamazuを活用して作っていたらしいです(サーバーを並列化させることで)。 もちろんnamazuはソフトとしてはBlog検索向きではありませんが、システム構成である程度補ってここまで作れたということですね。
15. 楽天
http://plaza.rakuten.co.jp/
14. モバイル検索
1. Ask
http://m.ask.jp/
2. Crooz
http://crooz.jp/
3. Froute
http://froute.jp/
4. Goo
http://mobile.goo.ne.jp/
5. Google
http://www.google.co.jp/jsky
6. Infoseek
http://m.infoseek.co.jp/
7. MSN
http://m.msn.co.jp/
8. Seaftyy
http://seaftyy.jp/
9. Yahoo
http://mobile.yahoo.co.jp/
10. Yicha
http://yicha.jp/
15. スコアリング
1. ページランク
Efficient Computation of PageRank http://dbpubs.stanford.edu:8090/pub/1999-31
2. Tf/Idf
http://en.wikipedia.org/wiki/Tf-idf
16. Web検索関係者のホームページ(Blog)
1. Google
鵜飼文敏 氏 http://ukai.org/d/
後藤正徳 氏 http://gotom.jp/~gotom/index-j.html
小松弘幸 氏 http://www.taiyaki.org/
高林哲 氏(Namazu作者) http://0xcc.net/blog/
原田昌紀 氏 (Freya作者) http://www.ingrid.org/~harada/index-ja.html
林芳樹 氏 http://www.sodan.org/~penny/
2. Naver
くま 氏 http://www.lostintime.jp/
3. Yahoo
井上俊一 氏 http://inoue.typepad.com/
関裕司 氏 http://www.shikencho.com/
17. オープンソース検索関係者ホームページ(Blog)
1. Freya
原田昌紀 氏 http://www.ingrid.org/~harada/index-ja.html
2. Hyper Estraier
平林幹雄 氏 http://qdbm.sourceforge.net/mikio/rbbs.cgi
3. Lucene
関口宏司 氏 http://lucene.jugem.jp/
4. Mobloget
井原伸介 氏 http://blog.windy.ac/
5. Namazu
高林哲 氏 http://0xcc.net/blog/
6. Senna
グニャラくん http://d.hatena.ne.jp/tasukuchan/
18. 自分(栗田 創)の経験
1. 自己紹介はこちら
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/
2. ウェブ検索
Web検索エンジンのローカライゼーション仕様設計/QA/構築/運用。
3. ブログ検索
0から自分で作りました。 世界のどの検索エンジンよりも速く更新できる検索エンジン(正確にはインデックス構造)が思いついたので作ってみた。 B2C, B2B向けに提供。 2007/12末までが自分の責任(そこで退社)
4. オープンソース検索エンジン
バグ情報提供 / リメイクしてASPへの提供。40社以上に提供。
5. 専用検索
作品DBの各種検索エンジン。 http://www.accessup.org/anime/ 基本的に全てフルインデックス型検索エンジン。
6. 登録型カテゴリー検索
定番サーチ http://find.accessup.org/teiban/ メンテナンス最近していませんが。 すごーく昔に作ったものでgrep型検索。 元々はサーチエンジン一括登録(昔は商用で提供していたもの)の対象に自分の検索も追加してみたいなぁ、と作ってみたもの
7. CGIとして提供していた検索
CGIの提供は止めてしまいましたが、昔は提供して配っていました。
8. メタサーチ
http://find.accessup.org/find/ 結構使われています。 自分でもホームページ&毎日の利用検索エンジンにしています。 使い方が理解&知られれば、個人的に最強に便利な検索だと思うことを考えれば、その割にはいまいちな知名度とも言えますが。
携帯版 http://find.accessup.org/find/i/
PDA版 http://find.accessup.org/find/pda.html
も提供。
結構昔からあります。 ↓一番昔に雑誌に掲載された記事 http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20061030.html |