Skip to content

monosus/cf_web-scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

webスクレイピングツール

動作環境

node v12.13.0
gulp 3.9.1

概要

node + gulp を使って作ったものです。
任意のページ内の情報を、抽出してデータ化するものです。
ページタイトルを取ってきたり、リンクの一覧を取得など、必要なページ情報を半自動的に取ってくる時に使います。
今回それをjqueryを使う要領で簡単に取ってこれるツールを作りました。

▼ものさす制作記事
http://www.monosus.co.jp/posts/2018/05/233343.html

インストール方法

  1. nodegulpがインストールされていない方は別途インストール作業を行なってください。
  2. このデータをクローンorダウンロードしてください。
  3. ダウンロードしたフォルダにて、コマンドラインorターミナルでnpm installを実行してください。

使用方法

  1. gulpfile.jsを開きます。
  2. var urlDomain = 'http://www.monosus.co.jp';を任意のドメインに変更します。
  3. var urlList = [を任意のページに変更します。(ルート相対パス
  4. var searchRoot = 'body';で、ページ内のどの範囲で情報を取得するか指定します。(セレクタ
  5. var searchSelector = [で、どのパーツ情報を取得するか指定します。(セレクタ
  6. var searchSelector = [で、どのパーツ情報を取得するか指定します。(セレクタ
  7. var exportPath = './dest/scraping_data/';にてどこにエクセルデータを出力するかを設定します。(相対パス
  8. ダウンロードしたフォルダにて、コマンドラインorターミナルでgulp scrapingを実行してください。
  9. var exportPath = './dest/scraping_data/'で設定したフォルダに、エクセルが出力されます。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published