壊れたgzipファイルの直し方

Flumeなどのアプリやgzipコマンドを使って、 ストリームで圧縮をかけていると、 ディスクが壊れたり、 プロセスが突然死して、 成果物なる圧縮ファイルが壊れることってよくありますよね。 しかもストリーム使っている場合は、 オリジナル(圧縮前)のファイル…

Hiveで半構造化ログをそのまま読み込んでしまえ!

Hiveを勉強したら、思った以上によかったので いいと思ったことを紹介。 ①正規表現で半構造化ログファイルを読める! Hiveのテーブルを以下のように作ると、 ログファイルをそのまま読むことができます! https://issues.apache.org/jira/browse/HIVE-662 in…

Fluentd meetup in Japanに参加してきました。

今日はFluentd meetup in Japan >http://www.zusaar.com/event/193104に参加してきました。そのメモを少し書き換えて、感想を書かせていただきます。 ※かなり雑ですみません。 ※あと私のフィルタがかかってしまい、メモし切れていない箇所が多分にあります。…

[FlumeNG]FlumeNGを動かしてみる

昨日の続き。 mvnコマンドで作成された、 flume-ng-dist-1.1.0-incubating-SNAPSHOT-dist.tar.gz をLinux環境で展開し、 できたディレクトリに移動します。 このディレクトリが基本的にFlumeNGを動かすHomeディレクトリになるので、 覚えておいてください。 …

[FlumeNG]FlumeNGを使ってみよう

あまりにFlumeNGに関する情報がネット上にないので、 私がいろいろ動かして見知った情報を書いてみます。 といっても、 今日は眠いので、動かす直前(セットアップ)だけ。 まず、そもそもFlumeNGがなんなのかわからない方は 以前HadoopAdventCalendarでFlum…

[Hadoop][HDFS]HDFSはファイルディスクリプタをどのくらい使うのか?

HDFSはよくファイルハンドル数の上限値(ulimit -n)を上げるよう、言われている。 さもないと、IOException : too many open filesが発生してしまう。 じゃあ、 HDFSが使用するファイルハンドル数はいくつが適性なの? プロセスが使用しているファイルディスク…

[Hadoop][HBase][Cloudera]HBase 0.92 がリリースされました

Apache HBase 0.92.0がついにリリースされました。 http://www.cloudera.com/blog/2012/01/apache-hbase-0-92-0-has-been-released/ 最近あまりHBaseは触っていなかったのですが、 紹介だけでも。 HBaseなにが変わったか、ざっくりといいますと、 性能(perfo…

[Hadoop][MapR]MapR(GreenPlumHD)の中身説明会に参加してきました。

今日はMapR(GreenPlumHD)の中身説明会に参加してきました。 感想です。 >http://www.zusaar.com/event/198012タグは#asakusamaprです。 やった内容はMapRの実装とか、本当の中身の話ではなく、 MapRの機能についての説明です。こちらのブログにある図と同じ…

[teraterm]ログインマクロ内の共通部分を集約する

teratermをつかうならログインマクロは必須。しかし、 踏み台を経由してログインするマシンが複数ある場合、 「踏み台サーバへのログイン」という共通的な部分がいくつものログインマクロファイルに分かれてしまい、 あとでの修正が非常に面倒なことになる。…

[evernote][twitter][hatena]ツイッターをベースにevernoteへ集約

最近、 お気に入りの情報収集方法が私の中で確立した。 twitterで他の人がつぶやいていた内容(※)を残しておきたい場合は、 そのつぶやきをコメントつきでリツイート。 そのリツイートが自動ではてなブックマークに登録され、 その後hatebte経由でevernoteに…