スクレイピング

node.js 画像取得

// モジュールの読み込みvar client = require('cheerio-httpcli');var request = require('request');var fs = require('fs');var URL = require('url'); // ダウンロード先URLを作るvar savedir = __dirname + "/img";if (!fs.existsSync(savedir)) { fs.m…

Flickr で検索してスクショ。

ユーザーエージェントが合わない × ------------ // Flickrでスクリーンショットを撮る var casper = require('casper').create(); casper.start(); // 画像サイズ指定casper.viewport(1400, 800); // UserAgentの指定casper.userAgent('User-Agent: Mozilla…

pahntomjs 画面キャプチャを取る

// CasperJS でスクリーンショットを撮る var casper = require('casper').create(); casper.start(); // ページを開くcasper.open('http://tokotoko6667777.hippy.jp/tossy-n/'); // スクリーンショット撮影casper.then(function(){ casper.capture("screen…

node.js 階層を指定してURLダウンロード

// リンクを解析してダウンロード // モジュール読みこみvar client = require('cheerio-httpcli');var request = require('request');var URL = require('url');var fs = require('fs');var path = require('path'); // 階層の指定var LINK_LEVEL = 3;// ペ…

node.js htmlファイル ダウンロード

// urlにあるファイルを savepath にダウンロードする // ダウンロード元URLの指定var url = "http://tokotoko6667777.hippy.jp/tossy-n/"; // 保存先のパスを指定var savepath = "test.html"; // 利用モジュールの取り込みvar http = require('http'); // H…

クローラーの処理の流れ

➀ 対象ページをダウンロードする ➁ ダウンロードしたページを解析する ➂ そこから必要なデータを抜き出す ➃ データを加工する ➄ 出力する

Ruby スクレイピング memo_01

・scan : 文字列に対して、正規表現を繰り返し適用して、文字列配列を返します。正規表現に、括弧(グルーピング)が含まれてるか否かで挙動が変わる。 ・%r から ! : 正規表現。 元データ:<p>2016年1月30日 <a href="http://www.????.com">あいうえお</a></p> # 日付の抜き出し:date_t = html.scan(/…