文系プログラマによるTIPSブログ

文系プログラマ脳の私が開発現場で学んだ事やプログラミングのTIPSをまとめています。

s2robotを使ってみました

java seasar

そういえばtree-tipsのサイトマップ xmlを作ってなかったので、作る事にしました。
まだページも少ないので手動で作ろうかとも思いましたが、
せっかくなのでlocalhostをクロールしてリンクを収集しようとしました。

Seasar2 - S2Robot 概要
同じくseasarプロダクののFess は、
内部でsolrとs2robotを組み合わせて使ってるそうです。Fess凄い。

以下、ざっくり使ったみた感想です。

diconファイルで設定できるし、javaでも設定できる、一体どっちで設定するのがいいか迷う。

デフォルトのXPathTransFormerは機能が足りなすぎて使えない。

標準で並列処理できるのは素晴らしい。

本当は負荷かけても全く構わない自分のサイトのlocalhostに向けて、
1ページだけクロールし、そのページからアンカーリンクを取得してhrefの値を収集。
それをサイトマップ xmlとして使用、という事を標準機能だけでやりたかったんですが、
XPathでaタグの「ラベル」は取得できますが、
属性であるhrefが取得できず。。。（単に取得方法を知らないだけかも）

あと、クロールするページのURL（localhost）のフィルタ（正規表現で可能）はできても、
クロールしたページ内のパース処理のフィルタ（headタグは無視とか）はできないようです。
処理的に激しく無駄なので省きたいです。

結局XPathTransFormerを参考に、HtmlTransformerを継承したSitemapTransformerを作りました。

なんか本来のクロールの使い道とは違う気がしますが、
初めてのクローラ作成と、サイトマップ xmlの自動生成＋ping送信までできました。

プロフィール

id:treeapps はてなブログPro

最終更新: 2020-12-31 03:24

昔は業務系SIer、今はベンチャー企業でプログラムを書いています。
Ansible/Docker/React/Angular/SpringBoot/Kotlin/Go/Typescript/GAE/solr/MySQL/1980年

地図系サービス

https://www.tree-maps.com/
GAE/Go,react,redux,material-ui,ServiceWorkerで開発し、高速で便利な地図系ツールを個人で開発しています！

文字列ユーティリティー

https://www.string-utility.com/
GAE/Go,angular,ngrx/store,angular-material,ServiceWorkerで開発し、全てがリアルタイムに処理され、「変換ボタン」が存在しないストレスフリーなサイトを個人で開発しています！

@tree_tipsをフォロー

このブログについて

はてブ数が多い記事

Reactオススメ書籍

React自体の基礎、AtomicDesignの適用、CSSの運用手法の歴史的な経緯とメリットデメリット、Reduxの基礎、redux-sagaによる非同期処理、サーバサイドレンダリング、テスト、lint、を学ぶ事ができます。特に、Redux自体の解説と、React+Reduxを絡めた解説部分は他に類を見ない程解りやすく、ほぼ間違いなく習得できると思われる解説になっています！

React開発現場の教科書

作者:石橋啓太
マイナビ出版

Angularオススメ書籍

Angularを学ぶなら絶対以下がおすすめです！バインディング、ディレクティブ、パイプ、フォーム、コンポーネント、サービス、ルーティング、httpClientによる非同期httpリクエスト、テスト、angular-cli、を非常に丁寧な説明で網羅的に解説しています。私はこれを見て https://www.string-utility.com/ を開発しました！

Angularアプリケーションプログラミング

作者:山田祥寛
技術評論社

SEOオススメ書籍

SEOを学ぶなら絶対以下がおすすめです！クローラに対して何をどうすればサイトの巡回効率・速度を上げる事ができるのか、どういったマークアップをする事が標準仕様なのか。巷に溢れる業者による経験則に基づくオレオレSEO情報は一切無く、全てGoogle等のオフィシャルな情報に基づいて何をすべきか、どんな手段があるのかを解説されています。プログラマな私が業務で行った施策が多く書かれており、プログラマ寄りで高度な内容となっており、巷のビギナー向けの曖昧な情報集とは一線を画しています。

現場のプロから学ぶ SEO技術バイブル(特典PDF付き)

作者:西山悠太朗,小林睦
マイナビ出版

treeの管理サイト

にほんブログ村

文系プログラマによるTIPSブログは、amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイト宣伝プログラムである、 Amazonアソシエイト・プログラムの参加者です。

js