クローラー

node.js ログインして、お気に入りを取得 (作詞掲示板)

// お気に入りの作品を取り出す for CasperJS // 作詞掲示場のユーザー名とパスワードvar BBS_USER = "ユーザー名";var BBS_PASS = "パスワード"; // CasperJSを使えるようにするvar casper = require('casper').create();casper.start(); // 作詞掲示板のロ…

Flickr で検索してスクショ。

ユーザーエージェントが合わない × ------------ // Flickrでスクリーンショットを撮る var casper = require('casper').create(); casper.start(); // 画像サイズ指定casper.viewport(1400, 800); // UserAgentの指定casper.userAgent('User-Agent: Mozilla…

pahntomjs 画面キャプチャを取る

// CasperJS でスクリーンショットを撮る var casper = require('casper').create(); casper.start(); // ページを開くcasper.open('http://tokotoko6667777.hippy.jp/tossy-n/'); // スクリーンショット撮影casper.then(function(){ casper.capture("screen…

node.js 階層を指定してURLダウンロード

// リンクを解析してダウンロード // モジュール読みこみvar client = require('cheerio-httpcli');var request = require('request');var URL = require('url');var fs = require('fs');var path = require('path'); // 階層の指定var LINK_LEVEL = 3;// ペ…

node.js 絶対パスに変換 <a>

// モジュールの読み込み var client = require('cheerio-httpcli'); // nodeのモジュールvar URL = require('url'); // 標準モジュール // URLとパラメーターvar url = "http://www.aozora.gr.jp/index_pages/person81.html";var param = {}; // ダウンロー…

node.js モジュール cheerio-httpcli

// モジュールの取り込みvar client = require('cheerio-httpcli'); // ダウンロード var url = "http://www.aozora.gr.jp/index_pages/person81.html"; var param = {};// fetch ダウンロードからページの解析ができるメソッドclient.fetch(url, param, fun…

node.js htmlファイル ダウンロード

// urlにあるファイルを savepath にダウンロードする // ダウンロード元URLの指定var url = "http://tokotoko6667777.hippy.jp/tossy-n/"; // 保存先のパスを指定var savepath = "test.html"; // 利用モジュールの取り込みvar http = require('http'); // H…

クローラーの処理の流れ

➀ 対象ページをダウンロードする ➁ ダウンロードしたページを解析する ➂ そこから必要なデータを抜き出す ➃ データを加工する ➄ 出力する

Ruby WEBrick サーバー

○Ruby WEBrick サーバー立ち上げ require 'webrick'Thread.start {WEBrick::HTTPServer.new(DocumentRoot:".",Port:????, BindAddress: "???.?.?.?").start} gets

Ruby クローラー memo_02

○ファイルを読み書きする open メソッド。 ファイルの内容を、そのまま文字列で得る。 4記法。 ・File.read(filename) ・open(filename){|f| f.read} ・open(filename, &:read) // good ・open(filename).read

Ruby スクレイピング memo_01

・scan : 文字列に対して、正規表現を繰り返し適用して、文字列配列を返します。正規表現に、括弧(グルーピング)が含まれてるか否かで挙動が変わる。 ・%r から ! : 正規表現。 元データ:<p>2016年1月30日 <a href="http://www.????.com">あいうえお</a></p> # 日付の抜き出し:date_t = html.scan(/…