node v12.13.0
gulp 3.9.1
node
+ gulp
を使って作ったものです。
任意のページ内の情報を、抽出してデータ化するものです。
ページタイトルを取ってきたり、リンクの一覧を取得など、必要なページ情報を半自動的に取ってくる時に使います。
今回それをjqueryを使う要領で簡単に取ってこれるツールを作りました。
▼ものさす制作記事
http://www.monosus.co.jp/posts/2018/05/233343.html
node
とgulp
がインストールされていない方は別途インストール作業を行なってください。- このデータをクローンorダウンロードしてください。
- ダウンロードしたフォルダにて、コマンドラインorターミナルで
npm install
を実行してください。
gulpfile.js
を開きます。var urlDomain = 'http://www.monosus.co.jp';
を任意のドメインに変更します。var urlList = [
を任意のページに変更します。(ルート相対パスvar searchRoot = 'body';
で、ページ内のどの範囲で情報を取得するか指定します。(セレクタvar searchSelector = [
で、どのパーツ情報を取得するか指定します。(セレクタvar searchSelector = [
で、どのパーツ情報を取得するか指定します。(セレクタvar exportPath = './dest/scraping_data/';
にてどこにエクセルデータを出力するかを設定します。(相対パス- ダウンロードしたフォルダにて、コマンドラインorターミナルで
gulp scraping
を実行してください。 var exportPath = './dest/scraping_data/'
で設定したフォルダに、エクセルが出力されます。