かえるのプログラミングブログ

プログラミングでつまずいたところとその解決策などを書いていきます。

Google Colab で MeCab + Neologd の環境を整える @2020年05月07日版

表題の内容の自分用の備忘録です。 Google Colaboratory は ubuntu 上で動いているので下記記事を参考にしました。 ubuntu 18.10 に mecab をインストール - Qiita 実装 Utils/colab_settings_to_use_mecab_neologd.py at master · osuossu8/Utils · GitHub …

local の mac に mysql をインストールし、Sequel Pro から接続できるようにする

表題の内容の自分用の備忘録です。 流れ インストール brew install mysql 起動 mysql.server start root user でのログイン mysql -uroot セキュリティ設定 mysql_secure_installation パスワード設定の確認 強度の設定 新パスワードの設定 匿名ユーザーの…

kaggle カーネルで commit せずに output file を DL する.

こんばんは、かえるるるです。 既知とは思いますが、表題の内容を自分用にメモを残しておきます。 内容 kaggle kernel 上で、 df.to_csv('/path/to/file/df.csv, index=False') などのコマンドで出力したファイルは、右上の commit ボタンを押して、 カーネ…

自然数の順番になっているリストが欲しい

こんばんは、かえるるるです。 今回は、 os.listdir() などで ['file11.txt', 'file2.txt', 'file4.txt', 'file5.txt', 'file8.txt', 'file3.txt', 'file1.txt', 'file13.txt', 'file14.txt', 'file6.txt', 'file10.txt', 'file12.txt', 'file9.txt', 'file7…

私がよく使う kaggle api command まとめた

こんばんは。kaerururu です。 今回は個人的にざっと調べてみても出てこなかった kaggle api command の使い方のチートシートのようなものを作ったので共有致します。 GitHub のリンク https://github.com/osuossu8/Utils/blob/master/kaggle_api_usage.py (…

2019 年を振り返る

ごきげんよう。かえるるるです もう2019年もあと数日で終了しますので、いくつかの観点で振り返ってみようと思います。2019年は私の人生にとって激動の一年と言っても過言ではありません。それくらい濃い一年でした。 1. kaggle 私の2019年を語る上で kaggle…

BERT の事前学習タスク NSP と SOP の精度差を日本語の公開コーパスを用いて簡単に検証した。

こんにちはかえるるるです。 【この記事は自然言語処理アドベントカレンダー2019の 13日目の記事です。(https://qiita.com/advent-calendar/2019/nlp)】 2018年に BERT が出現して以来、今日まで BERT, XLNet, RoBERTa, ALBERT, T5 と Transformer ベースの…

kaggle の discussion の upvote downvote 予測をしてみた

おはようございます、かえるるるです。 【 こちらは 「kaggle Advent Calendar 2019」 の6日目の記事です https://qiita.com/advent-calendar/2019/kaggle 】 皆さま、楽しい kaggle life を送れておりますでしょうか。 kaggle には Competition tier の他に…

PyTorch lightening で Titanic 問題解いてみた。

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、PyTorch lightening を使ってみたいと思ったので 以前公開したカーネル をベースに PyTorch lightening に書き換えたものを公開したのでその紹介をします。 目次 本ポストのモチベーション ソースコ…

エルピクセルさんの論文読み会で初LTをした感想。

LT

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、エルピクセルさんにてありました、[画像処理&機械学習] 論文LT会 #5 https://lpixel.connpass.com/event/138687/ に LT発表者として参加し、2019年の目標であった 「初LT をやる」という目標を達成で…

モデルの蒸留を実装し freesound2019 コンペで検証してみた。

こんばんは、kaerururu (@kaeru_nantoka)です。 今回は、Distillation the Knowledge in a Neural Network (2015) [ https://arxiv.org/pdf/1503.02531.pdf ] を読みました。 そして、kaggle freesound2019 コンペで実際に使ったデータとモデルを用いて蒸留…

単語 ID 列を長さでソートしてミニバッチ内で padding する。

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、kaggle meetup #6 での tks さんの発表にもありました、「 (batch 内で) batch 毎に padding する」の実装にプラスして ID列を長さでソートしたものを batch 内で padding できるようにした実装を公…

Kaggle Master になりました!

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、3人チームで参加した先日 Freesound Audio Tagging 2019 にて2枚目の金メダルを獲得し、Kaggle Master になることができたので私が kaggle (というか機械学習) を始めてから今までの 10ヵ月を振り返…

Xonsh はじめました。

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、興が乗ったのでみんな大好き某くし氏激推しの shell 'xonsh' のセットアップを行いました。控えめにいってサイコーです。 xonshrc は基本的に某ブログのコピペで問題ないと思いますが、私の環境では丸…

「 Sports Analyst Meetup #2 (#spoana)」に参加してきました。~ 安西先生 LTがしたいです。 ~

こんばんは、かえるるる(@kaeru_nantoka)です。 今日は、「 Sports Analyst Meetup #2 (#spoana)」に参加してきました。 こちらのイベントに参加(聴講)するにあたって、目標を1つ自分に課しました。その観点に沿って聞いてメモしたものの中から抜粋して、そ…

PetFinder.my Adoption Prediction で準優勝しました!

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、5人チームで参加した Kaggle の通称ペットコンペで準優勝し、金メダルを無事獲得できたのでそのポエム簡単な経緯と役割分担のような話を綴っていきます:) 技術的な話(解法など)は、kaggle の dis…

Google Colaboratory で fastText の pretrained model のSetup をする。

NLP

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、fastText の公式ページだと説明が不親切だなーと感じたので 「pretrained の fasttext を GoogleColaboratory で利用する」というタイトルで手順を備忘録として残しておきます。 ソースは例のごとく Gi…

PyTorch NN を用いて Titanic コンペに挑戦する。

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、テーブルデータに Neural Network (以下 NN) を応用してみる Tutorial として PyTorch で Titanic 問題に取り組んでみたので、そのソースコードと説明をご紹介できればと思います。 今回のソースコード…

日本語版 ELMo のチュートリアル (2019/02/23)

かえるるる(@kaeru_nantoka)です。 今回は、「日本語 ELMo の Tutorial 」と題して、私が来たる 4月より join するストックマーク社が公開した(一応掲載許可はもらいました) pre-trained model ELMo の日本語 ver を Google Colaboratory で扱う手順をご紹…

営業マンが1年でSEになって機械学習エンジニアに転職する話

こんばんは、かえるるる(@kaeru_nantoka)です。 先日、10ヶ月勤めたSES企業に辞意を伝えました。 そして4月からは、ストックマーク株式会社(https://stockmark.ai/ )にて、NLPを応用した機械学習エンジンを開発する機械学習エンジニアとして参画することに…

VOC2007 dataset で遊ぶ① (2019/01/26)

かえるるる(@kaeru_nantoka)です。 今回はかねてより segmentation task に取り組みたいなあ と思っていた私が、手頃なデータ落ちてないかな〜とネットサーフィンをしていたところ tarファイルで 480MB という頑張ったらローカルで云々できそうなデータセ…

julia 言語に入門してみた。 (2019/1/11)

かえるるる(@kaeru_nantoka)です。今回は julia 言語を Jupyter notebook 上で扱えるよう環境構築をしたので備忘として残しておきます。 環境 ** PC : MacBook Air OS : macOS High Sierra ver 10.13.6 参考URLs ** julia-doc-ja https://julia-doc-ja.readt…

Confusion Matrix の復習をしてみた。 2018/12/18

かえるるる(@kaeru_nantoka)です。今回は、私が今朝まで参加していた通称 PLAsTiccコンペ (PLAsTiCC Astronomical Classification | Kaggle)で大変お世話になった、 Confusion Matrix (sklearn.metrics.confusion_matrix — scikit-learn 0.20.1 document…

$gcloud コマンドがどうしても効かない時の tips. 2018/12/18

GCP

お久しぶりです。かえるるる(@kaeru_nantoka) です。今回は、私が2ヶ月ぶりに GCP で GPU インスタンスを立てようとした時につまづいたことと、それを脱することができた解決法を記していきます。根本的な解決法ではないのですが、藁にもすがりたい. そんな…

「深層学習を用いた株価予測の分析」宮崎・松尾(2017)を読了して

かえるるる(@kaeru_nantoka) です。 最近AI関連の技術論文を読むのにハマっておりまして、発見や思ったことを文字として残しておこうかなと思ったので書いていきます。 第1弾はこちらです。 https://www.ai-gakkai.or.jp/jsai2017/webprogram/2017/pdf/1112…

Google Cloud Datalb で kaggle の画像コンペ用の画像データを扱えるようにする。 2018/09/28

かえるるる(@kaeru_nantoka)です。 今回は、有料のGPUインスタンスが立てられる、 Google Cloud Datalab 環境でkaggle の画像コンペ用の大容量の画像ファイルを扱えるようにするプロセスについて書いていきます。 以前、無料でGPU を扱える Google Colab …

Google Cloud Datalab で OpenCV を使えるようにする。 2018/09/28

かえるるる(@kaeru_nantoka)です。今回は、 Google Cloud Datalab で kaggle の画像コンペに挑戦するにあたって、 import cv2 がエラーになったのでその解決法を残しておきます。 結論 ** 以下のコードを実行したら使えるようになりました! !apt-get upd…

Google Colab で kaggle の画像コンペに挑戦する。

かえるるる(@kaeru_nantoka)です。 今回は環境構築不要かつ無料でGPUを使用して開発できる Google Colab環境で kaggle の画像コンペの提出ファイルを提出するまでの手順についてまとめていきます。 ライブラリのインストールなどは適宜よろしくお願いしま…

herokuで python3 + opencv を動かす 2018/09/16

かえるるる(@kaeru_nantoka)です。 今回は、heroku 環境で python3 + opencv を動かす という内容で書いていきます。方法は主に二つありまして i ) docker 環境を構築する。 i i ) build pack を利用する。で、今回は後者で実装していきます。この時参考にさ…

kaggle のGPU環境で作成した CSVファイルの出力先はどこ? 2018/9/8

かえるるる(@kaeru_nantoka)です。 今回はいろいろあって kaggle のkernels で利用できるJupyter Notebook( 以下kaggle環境) でkaggle に取り組んでいた時に勝手が分からなくてつまづきました。日本語のブログやqiita記事だと「kaggleのkernels で取り組…