かえるのプログラミングブログ

プログラミングでつまずいたところとその解決策などを書いていきます。

2019-01-01から1年間の記事一覧

2019 年を振り返る

ごきげんよう。かえるるるです もう2019年もあと数日で終了しますので、いくつかの観点で振り返ってみようと思います。2019年は私の人生にとって激動の一年と言っても過言ではありません。それくらい濃い一年でした。 1. kaggle 私の2019年を語る上で kaggle…

BERT の事前学習タスク NSP と SOP の精度差を日本語の公開コーパスを用いて簡単に検証した。

こんにちはかえるるるです。 【この記事は自然言語処理アドベントカレンダー2019の 13日目の記事です。(https://qiita.com/advent-calendar/2019/nlp)】 2018年に BERT が出現して以来、今日まで BERT, XLNet, RoBERTa, ALBERT, T5 と Transformer ベースの…

kaggle の discussion の upvote downvote 予測をしてみた

おはようございます、かえるるるです。 【 こちらは 「kaggle Advent Calendar 2019」 の6日目の記事です https://qiita.com/advent-calendar/2019/kaggle 】 皆さま、楽しい kaggle life を送れておりますでしょうか。 kaggle には Competition tier の他に…

PyTorch lightening で Titanic 問題解いてみた。

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、PyTorch lightening を使ってみたいと思ったので 以前公開したカーネル をベースに PyTorch lightening に書き換えたものを公開したのでその紹介をします。 目次 本ポストのモチベーション ソースコ…

エルピクセルさんの論文読み会で初LTをした感想。

LT

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、エルピクセルさんにてありました、[画像処理&機械学習] 論文LT会 #5 https://lpixel.connpass.com/event/138687/ に LT発表者として参加し、2019年の目標であった 「初LT をやる」という目標を達成で…

モデルの蒸留を実装し freesound2019 コンペで検証してみた。

こんばんは、kaerururu (@kaeru_nantoka)です。 今回は、Distillation the Knowledge in a Neural Network (2015) [ https://arxiv.org/pdf/1503.02531.pdf ] を読みました。 そして、kaggle freesound2019 コンペで実際に使ったデータとモデルを用いて蒸留…

単語 ID 列を長さでソートしてミニバッチ内で padding する。

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、kaggle meetup #6 での tks さんの発表にもありました、「 (batch 内で) batch 毎に padding する」の実装にプラスして ID列を長さでソートしたものを batch 内で padding できるようにした実装を公…

Kaggle Master になりました!

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、3人チームで参加した先日 Freesound Audio Tagging 2019 にて2枚目の金メダルを獲得し、Kaggle Master になることができたので私が kaggle (というか機械学習) を始めてから今までの 10ヵ月を振り返…

Xonsh はじめました。

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、興が乗ったのでみんな大好き某くし氏激推しの shell 'xonsh' のセットアップを行いました。控えめにいってサイコーです。 xonshrc は基本的に某ブログのコピペで問題ないと思いますが、私の環境では丸…

「 Sports Analyst Meetup #2 (#spoana)」に参加してきました。~ 安西先生 LTがしたいです。 ~

こんばんは、かえるるる(@kaeru_nantoka)です。 今日は、「 Sports Analyst Meetup #2 (#spoana)」に参加してきました。 こちらのイベントに参加(聴講)するにあたって、目標を1つ自分に課しました。その観点に沿って聞いてメモしたものの中から抜粋して、そ…

PetFinder.my Adoption Prediction で準優勝しました!

こんばんは、kaerururu (@kaeru_nantoka) です。 今回は、5人チームで参加した Kaggle の通称ペットコンペで準優勝し、金メダルを無事獲得できたのでそのポエム簡単な経緯と役割分担のような話を綴っていきます:) 技術的な話(解法など)は、kaggle の dis…

Google Colaboratory で fastText の pretrained model のSetup をする。

NLP

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、fastText の公式ページだと説明が不親切だなーと感じたので 「pretrained の fasttext を GoogleColaboratory で利用する」というタイトルで手順を備忘録として残しておきます。 ソースは例のごとく Gi…

PyTorch NN を用いて Titanic コンペに挑戦する。

こんばんは、かえるるる(@kaeru_nantoka)です。今回は、テーブルデータに Neural Network (以下 NN) を応用してみる Tutorial として PyTorch で Titanic 問題に取り組んでみたので、そのソースコードと説明をご紹介できればと思います。 今回のソースコード…

日本語版 ELMo のチュートリアル (2019/02/23)

かえるるる(@kaeru_nantoka)です。 今回は、「日本語 ELMo の Tutorial 」と題して、私が来たる 4月より join するストックマーク社が公開した(一応掲載許可はもらいました) pre-trained model ELMo の日本語 ver を Google Colaboratory で扱う手順をご紹…

営業マンが1年でSEになって機械学習エンジニアに転職する話

こんばんは、かえるるる(@kaeru_nantoka)です。 先日、10ヶ月勤めたSES企業に辞意を伝えました。 そして4月からは、ストックマーク株式会社(https://stockmark.ai/ )にて、NLPを応用した機械学習エンジンを開発する機械学習エンジニアとして参画することに…

VOC2007 dataset で遊ぶ① (2019/01/26)

かえるるる(@kaeru_nantoka)です。 今回はかねてより segmentation task に取り組みたいなあ と思っていた私が、手頃なデータ落ちてないかな〜とネットサーフィンをしていたところ tarファイルで 480MB という頑張ったらローカルで云々できそうなデータセ…

julia 言語に入門してみた。 (2019/1/11)

かえるるる(@kaeru_nantoka)です。今回は julia 言語を Jupyter notebook 上で扱えるよう環境構築をしたので備忘として残しておきます。 環境 ** PC : MacBook Air OS : macOS High Sierra ver 10.13.6 参考URLs ** julia-doc-ja https://julia-doc-ja.readt…