The kaggle_cassava from riron1206

雲コンペ「Understanding Clouds from Satellite Images」(2018年)

初めての画像分類コンペでめっちゃ頑張って上位まで行ったが、閾値を攻め過ぎて大爆死した
- https://tawara.hatenablog.com/entry/2018/10/30/063916

Kaggleの画像コンペに初めて挑んでみた
- https://sinchir0.hatenablog.com/entry/2019/11/21/231502

壺コンペ「iMet Collection 2019 - FGVC6」

壺コンペ振り返り
- https://nmaviv.hatenablog.com/entry/2019/06/27/112404

2019年 APTOSコンペ

【APTOS2019参戦記録】
- http://icebee.hatenablog.com/entry/2019/09/10/221351

Kaggle APTOS 2019 Blindness Detection まとめ
- https://uiiurz1.hatenablog.com/entry/2019/09/12/224242

【kaggle】APTOS 2019 Blindness Detection解法まとめ
- https://yaakublog.com/%E3%80%90kaggle%E3%80%91aptos-2019-blindness-detection%E8%A7%A3%E6%B3%95%E3%81%BE%E3%81%A8%E3%82%81
Kaggle APTOS 2019 @ U-Tokyo Med
- https://speakerdeck.com/hoxomaxwell/kaggle-aptos-2019-at-u-tokyo-med?slide=18

音声分類コンペ「Freesound Audio Tagging 2019」

kaggle Freesound Audio Tagging 2019 4th place solution
- https://www.slideshare.net/ssuser20fb43/kaggle-freesound-audio-tagging-2019-4th-place-solution-156063956

ベンガル語コンペ（2020年）

Kaggle Bengali Classificationコンペに参加した記録
- https://st1990.hatenablog.com/entry/2020/03/18/175001

【質疑応答付き】Kaggle Tokyo Meetup #6 に参加しました

https://amalog.hateblo.jp/entry/kaggle-tokyo-meetup-6

20201210

kick off
- 来週までにディスカッションとnotebook一通り見ておく
- ベースラインのnotebook作ってサブミットすること
- 毎週木曜17:30から定例

自宅PCにpytorch_lightning環境作成した。pytorchのインストールにめちゃめちゃ時間かかった
pytorch lightningのサンプルnotebokを修正した。夜中の2時。。。
https://www.kaggle.com/anonamename/cassava-disease-identification-with-lightning

20201211

pytorch lightningのサンプルnotebokを修正した。efficientnetとpretrainedmodelsも使えるようにした
https://www.kaggle.com/anonamename/efficientnet-with-pytorch-lightning-train-infer
C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\efficientnet-with-pytorch-lightning-train-infer\20201211

20201212

ディスカッション確認した

efficientnet-b5の結果サブミットした
- gpuでサブしないと失敗する（gpuなら数分で終わる）
- LB: 0.86
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\efficientnet-with-pytorch-lightning-train-infer\20201212

20201213

seresnet50で学習できるようにした
TTA実装した
- LB: 0.873
- https://www.kaggle.com/anonamename/cassava-efficientnet-with-pytorch-lightning-pred?scriptVersionId=49218624
ラベルスムージング実装した（実装合ってるか微妙。。。）
ローカルで実行中
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\efficientnet-with-pytorch-lightning-train-infer\20201213
https://www.kaggle.com/anonamename/efficientnet-with-pytorch-lightning-train-infer/edit/run/49200045

20201214

ラベルスムージング修正した
- https://www.kaggle.com/anonamename/efficientnet-with-pytorch-lightning-train-infer?scriptVersionId=49266558

tensorflowのSwAV実行中
- https://www.kaggle.com/anonamename/swav-tf

20201215

EfficientNetB3試した
- cv:088 / LB:0.877
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\efficientnet-with-pytorch-lightning-train-infer\20201214

20201216

cutmix/fmix比較
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\aug_test

20201217

20201218

20201219

20201220

seresnet50 + TTA + Label smoothing Loss + cutmix, fmix + マイナークラスのみover sampling + 過去コンペのデータ追加 + バッチノーマライゼーションの重み凍結
- LB: 0.892
- 元notebook: https://www.kaggle.com/anonamename/efficientnet-with-pytorch-lightning-train-infer/edit/run/49989302

20201221

BYOL試した。ローカルで実行中
- https://www.kaggle.com/anonamename/byol-pytorch
- https://www.kaggle.com/anonamename/byol-pytorch-supervised-training
- augmentなしの224*224ならBYOLの重みの方がわずかにval_acc改善
- augmentなしの512*512、augmentありの224*224ならBYOLの重みの方がval_acc悪化

20201222

snapmix試してる
- https://www.kaggle.com/anonamename/debug-v2
- トレーニング済みレイヤーは学習率下げる必要があるがエラーになる。。。

20201223

20201224

各手法のval_acc比較
- resnestが良さそう
- https://www.kaggle.com/anonamename/experiment
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\experiment_result.xlsx

20201225

resnest50d_4s2x40d + cutmix + bitempered-loss
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\efficientnet-with-pytorch-lightning-train-infer\20201224
- oof: 0.8894

seresnext50_32x4d + fmix + bitempered-loss
- old PCで実行
- oof: 0.8898

20201226

bitempered-logistic-loss の公開notebookぱくった
- https://www.kaggle.com/debarshichanda/cassava-bitempered-logistic-loss

20201227

vit_base_patch16_224 + bitempered-loss
- https://www.kaggle.com/anonamename/cassava-vit-base-patch16-224-fit
- oof: 0.879

tf_efficientnet_b4_ns + bitempered-loss
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava-bitempered-logistic-loss\20201227
- oof: 0.894

20201228

efficientnet_b4 + vit_base_patch16_224 + seresnext50_32x4d の3種のモデルアンサンブル
- oof: 0.9002
- LB: 0.903
- https://www.kaggle.com/anonamename/cassava-ensemble-pred

vit_base_patch32_384 + bitempered-loss
- oof: 0.8792
- https://www.kaggle.com/anonamename/cassava-vit-base-patch32-384-fit

optuna+debugコードをリファクタ
- TPU失敗する。。。→efficientnetがtpuに対応してないみたい。vitやresnestならいけた
- https://www.kaggle.com/anonamename/experiment-optuna

20201229

efficientnet_b4 + vit_base_patch16_224 + seresnext50_32x4d の3種のモデルアンサンブル + 輝度など変更しないシンプルなTTA
- LB: 0.905
- https://www.kaggle.com/anonamename/cassava-ensemble-pred

バッチ内でクラス不均衡補正するSampler作成した
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=50509675

optuna+debugをローカルで実行
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\experiment_optuna\20201229

resnest101e + bitempered-loss
- old PCで実行
- oof: 0.8948
- コピーしてきた
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\run_old_myPC\notebook\cassava-bitempered-logistic-loss\20201227

20201230

efficientnet_b4 + vit_base_patch32_384 + seresnext50_32x4d + efficientnet_b3 + resnest50d_4s2x40d の5種のモデルアンサンブル + 輝度など変更しないシンプルなTTA
- oof: 0.9024（輝度変更含めたttaでのスコア）
- LB: 0.903
- https://www.kaggle.com/anonamename/cassava-ensemble-pred
- 8時間ぐらいかかる。時間的にモデルアンサンブルは5種ぐらいが限界っぽい

20201231

20210101

20210102

tf_efficientnet_b5_ns + bitempered-loss + fmix
- old PCで実行。1週間以上回した。mix系のaugmentは30epochぐらいでよさそう。あまり効いてなかったが
- oof: 0.8933
- コピーしてきた
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\run_old_myPC\notebook\cassava-bitempered-logistic-loss\20201227

20210103

pseudo-labeling したらLB=0.001上がった(0.900→0.901)
out of foldのaccuracy も0.01上がった(0.89→0.90) （これはpseudo-labeling関係ないが）

pseudo-labeling は強力そう
問題は非常に時間かかる
cv=5でtest setに疑似ラベル付けて1epochだけ出力層のみ再学習したnotebookはサブミットに8時間ぐらいかかった
時間的にモデルアンサンブルと組み合わせるのは難しそう

pseudo-labelingしたnotebook
https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=50870074

pseudo-labelingなしnotebook
https://www.kaggle.com/anonamename/cassava-resnest101e-predict?scriptVersionId=50870782

20210104

20210105

ラベルノイズに強いらしい SymmetricCrossEntropyLoss 実装だけした
- https://www.kaggle.com/anonamename/debug-v2?scriptVersionId=51183025

efficientnet_b4 + vit-base-patch16-224+ vit_base_patch32_384 + seresnext50_32x4d + tf_efficientnet_b5_ns + resnest50d_4s2x40d の6種のモデルアンサンブル + 輝度など変更しないシンプルなTTA
- oof: 0.9033（輝度変更含めたttaでのスコア）
- LB: 0.899 (cv=5)
  - https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=51151295
- LB: 0.9 (cv=3)
  - https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=51135498
- 6時間ぐらいかかる。バッチサイス上げたら時間短縮できるが精度下がってる？

20210106

resnest101e_pseudo-labeling + Distribution alignment
- LB: 0.901
- https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=51235983

resnest101e_pseudo-labeling + cv fold=1だけ使ってアンサンブル + Distribution alignment
- LB: 0.899 (tf_efficientnet_b4_ns + vit-base-patch16-224 + seresnext50_32x4d_cutmixfmix +resnest101e をアンサンブル )
- kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=51351813

resnest101e_pseudo-labeling + cv fold=1だけ使ってアンサンブル + Distribution alignment
- LB: 0.900 (tf_efficientnet_b4_ns + vit-base-patch16-224 + seresnext50_32x4d_cutmixfmix をアンサンブル )
- https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=51376730

vit-base-patch16-224とresnest101eでpseudo-labeling + cv fold=1だけ使ってアンサンブル + Denoise train set
- LB: 0.899 (tf_efficientnet_b4_ns + vit-base-patch16-224 + seresnext50_32x4d_cutmixfmix をアンサンブル )
- https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=51397181

20210107

resnest101eでlabel_smoothingとcutmix半々にするのローカルで試してる
- resnest101e + bitempered-loss + cutmix_labelsmooth_half
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava-bitempered-logistic-loss\20210107
- oof: 0.8958

画像サイズ512でBYOL+ seresnext50_32x4d試した。ローカルで実行中
- 教師ありで再学習するとlossの下がりがBYOLの方が早い。val_accはやや上がる
- byol + seresnext50_32x4d + bitempered-loss + cutmix_labelsmooth_half
- oof: 0.8946

過去コンペのデータに疑似ラベル付けた。ローカルで実行してkaggleに上げた
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava_old_compe_data.pred
- https://www.kaggle.com/anonamename/cassava-efficientnetwithpytorchlightning?select=kaggle_upload_old-compe-data-pred

gcp使えるようにした

20210108

ノイズ多いvalidation set信頼できるか調べた論文確認した
- riron1206/read_paper#43

DALI試した
- https://www.kaggle.com/anonamename/debug-v2-dali
- https://www.kaggle.com/anonamename/dali-test
- openCV+albumentation でData Augmentation するよりも学習推論時間半分ぐらいにできそう
- ただし、openCV+albumentation のテンソルの値をNVIDA DALI で再現できないため、openCV+albumentation 使って作ったモデルの予測結果がおかしくなる
- このため、openCV+albumentation で作ったモデルでサブミットするときNVIDA DALI 使うことができない。。。

20210109

ttaは乱数に依存する。LB=0.905のを投げ直したらLB=0.903に下がった。乱数指定していなかった
- https://www.kaggle.com/anonamename/fork-of-cassava-ensemble-pred?scriptVersionId=51423907

類似画像検索した
- https://www.kaggle.com/anonamename/duplicate-images-in-two-competitions?scriptVersionId=51461155

20210110

resnest101eで蒸留試してる
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\distillation\20210110
- メモリエラーでfold1の途中で落ちた。蒸留精度上がらず

画像サイズ512でBYOL + tf_efficientnet_b4_ns+DALI
- https://www.kaggle.com/anonamename/byol-tf-efficientnet-b4-ns-dali
- fine-tuningはval_accやや悪化。tf_efficientnet_b4_nsの重みから学習方がごくわずかにoofのacc良かった
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\byol\20210110
  - oof: 0.8917

画像サイズ512でBYOL + resnest101e +DALI
- https://www.kaggle.com/anonamename/byol-resnest101e-dali?scriptVersionId=51522754
- fine-tuningは過去データ入れてもやや1 fold目のval_acc悪化。途中でやめた
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\byol\20210111

20210111

20210112

gcpでDeiT学習中
- windowsで使えない+TPU3時間に収まらないため
- 課金されてる。。。
- ローカルに結果コピーした
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\gcp\jupyter\working\20210112
- oof: 0.8853

stacking試そうとしてる
- https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=51618138

Confident Learning の理論少しわかった
- riron1206/read_paper#45

20210113

TTAは画像サイズが小さい場合効くみたい。512だとあんま変わらんが224だと結構違う
モデルアンサンブルは画像サイズが違うのが有効そう

n_fold=2, n_tta = 3でpseudo-labeling+ アンサンブルしたらLB=0.903だった
- https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict/edit/run/51607314

n_fold=2, n_tta = 3, vit_n_tta = 5でpseudo-labeling+ アンサンブルしたらLB=0.902だった

vit-base-patch16-224 + vit_base_patch32_384 + resnest101e + byol_seresnext50_32x4d + tf_efficientnet_b5_ns +tf_efficientnet_b4_ns の6種のモデルアンサンブル + 輝度など変更しないシンプルなTTA
- n_fold = 3
- 画像サイズによってttaの回数変える
  - n_tta_224 = 6
  - n_tta_384 = 5
  - n_tta_456 = 4
  - n_tta = 3
- oof: 0.9033
- LB: 0.901

20210114

gcpでvit_base_patch32_384+ val_RandomResizedCrop 学習中
- windowsで使えない+TPU3時間に収まらないため
- 課金されてる。。。
- ローカルに結果コピーした
- oof:

gcpのモデルファイルをjupyter labでダウンロードすると失敗する。gcloud コマンドからならダウンロードできそう。めちゃくちゃ苦労した。夜中の3時だ。。。

20210115

224*224のcropはvalidation CenterCropでやった方がval_acc若干上がる
- tf_efficientnet_b7_ns_labelsmooth_bi_224_val_RandomResizedCrop
  - oof: 0.8791
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava-bitempered-logistic-loss\20210113
- tf_efficientnet_b7_ns_labelsmooth_bi_224
  - oof: 0.8825
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\run_old_myPC\notebook\cassava-bitempered-logistic-loss\20210113

20210116

hard vote
- LB: 0.899
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=51924797
- 同じ条件のsoft vote
  - LB: 0.900
  - https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=51934583

20210117

cleanlab( https://github.com/cgnorthcutt/cleanlab )でラベルノイズを推定して
①trainのラベルノイズ抜いて学習
➁trainのラベルノイズあるbatchはcutmix付けて学習
(validationはラベルノイズ抜いてない)
の2種流してますが、
①➁どちらもcv fold=0,1についてはval_lossもval_accも改善見られない
（①のtrainのラベルノイズ抜いて学習はtrain_acc0.94ぐらい高くなりますが）
単純にラベルノイズを学習から抜くやmixでラベルノイズを強めるだけはダメそう…

①C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cleanlab_test\20210117
- cv: 0.8929(ttaなしは0.8944)
- LB: 0.900。ノイズありのときと変わらず
➁old PCで実行

20210118

5クラスCEモデル予測→0か4と予測したサンプルは0/4のBCEモデルで予測
みたいに2段モデルしたらアノテータに近い予測にできないか

①病気(0,1,2,3)/健康(4)のBCEモデル
➁0/4のBCEモデル
の2パターン作ってる

①のモデルでサブミット

https://www.kaggle.com/anonamename/cassava-vit-base-patch16-224-bce-cls-0-4-predict
- LB: 0.888
  - 後処理なしだとLB: 0.886 なので効果ある？
- LB:0.903のアンサンブル+①のモデルだと LB: 0.902 で悪化したからダメそう

20210119

augmentなしで5epochぐらい再学習
- 精度上がるらしいので試した（ https://twitter.com/zfphalanx/status/1351084721548251137?s=21 ）
- DALIでためした
- cv 悪化（0.88→0.85）。。。やっぱデータIOは揃えないとだめっぽい
- https://www.kaggle.com/anonamename/retrain-dali

20210120

モデルアンサンブルを
ニューラルネットを2段目モデルにしたstackingでやると加重平均よりcv改善する場合ありました
cv0.9超えてくるとLBと相関とれない感じなので意味ないかもですが…
試したnotebook: https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=52237887

加重平均(各モデルのcvで傾斜とってる): cv=0.9016
MLPでstacking: cv=0.9018
1D-CNNでstacking: cv=0.9024
2D-CNNでstacking: cv=0.9012

optunaでパラメータチューニング実行

https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=52301613

LB:0.903のアンサンブル+Distribution alignment (from ReMixMatch)でサブミット

LB: 0.898
https://www.kaggle.com/anonamename/fork-of-cassava-ensemble-pred?scriptVersionId=52277677
大分悪化する。LBのラベルの分布はtrainの分布と結構違うっぽいな。。。

20210121

Stacking

加重平均(各モデルのcvで傾斜とってる): cv=0.9026, LB: 0.903
- https://www.kaggle.com/anonamename/check-oof?scriptVersionId=52344418
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=52346385

MLPでstacking: cv=0.9030, LB: 0.903
- https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=52301613
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=52345807

1D-CNNでstacking: cv=0.9035, LB: 0.902
- https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=52301613
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=52345615

2D-CNNでstacking: cv=0.9034, LB: 0.903
- https://www.kaggle.com/anonamename/stacking-test?scriptVersionId=52301613
- https://www.kaggle.com/anonamename/cassava-ensemble-pred?scriptVersionId=52370545

20210122

foldやseed変えてモデル作成
- tf_efficientnet_b4_ns_fold3
- oof: 0.8923(ttaなしは0.8911)
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava-bitempered-logistic-loss\20210121
- vit 224 fold=3 をold PCで実行
- oof: 0.8785(ttaなしは0.8587)
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\run_old_myPC\notebook\cassava-bitempered-logistic-loss\20210121\kaggle_upload_vit_base_patch16_224_fold3

gcpでvit 384 + bitempで学習回してる
- oof: 0.8825(ttaなしは0.8738)
- data augもちょっと変えてる
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\gcp\jupyter\working\20210121\kaggle_upload_vit_base_patch32_384_val_freeze_bn

gcpでvit 384 + label_smoothで学習回してる
- oof:
- data augもちょっと変えてる
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\gcp\jupyter\working\20210121\kaggle_upload_vit_base_patch32_384_val_freeze_bn

foldやseed変えてモデル作成2
- tf_efficientnet_b4_ns_fold10
- oof: (ttaなしは)
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cassava-bitempered-logistic-loss\20210122
- vit 224 fold=10 をold PCで実行
- oof: (ttaなしは)
  - C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\run_old_myPC\notebook\cassava-bitempered-logistic-loss\20210121\kaggle_upload_vit_base_patch16_224_fold3\vit_b16_224_fold10

repvgg ためした。推論モードにできないから良さを享受できない
- https://www.kaggle.com/anonamename/cassava-repvgg-b3-fit

deit_base_distilled_patch16_384 試した。エラーになる
- https://www.kaggle.com/anonamename/cassava-deit-base-distilled-patch16-384-fit

Stacking2
LB: 0.903の3modelでやった版

加重平均(各モデルのcvで傾斜とってる): cv=0.9002, LB: 0.898
- https://www.kaggle.com/anonamename/cassava-stacking-fit?scriptVersionId=52421298
- https://www.kaggle.com/anonamename/cassava-stacking-pred?scriptVersionId=52439337

MLPでstacking: cv=0.9005, LB:
- https://www.kaggle.com/anonamename/cassava-stacking-fit?scriptVersionId=52421298

1D-CNNでstacking: cv=0.9008, LB:
- https://www.kaggle.com/anonamename/cassava-stacking-fit?scriptVersionId=52421298
- https://www.kaggle.com/anonamename/cassava-stacking-pred?scriptVersionId=52439558

2D-CNNでstacking: cv=0.9008, LB: 0.898
- https://www.kaggle.com/anonamename/cassava-stacking-fit?scriptVersionId=52421298
- https://www.kaggle.com/anonamename/cassava-stacking-pred?scriptVersionId=52439143

20210123

bestなmodel average探すコード書いた
- https://www.kaggle.com/anonamename/check-oof

bestなmodel averageで選んだモデルでサブした
- LB:0.903 (失敗版。本来は5モデルaverageしたかったが4つ。ミスってる)
  - https://www.kaggle.com/anonamename/cassava-ensemble-v2-pred?scriptVersionId=52534547
- 5モデルaverageしたのはタイムアウト
  - https://www.kaggle.com/anonamename/cassava-ensemble-v2-pred?scriptVersionId=52534097

pseudoラベル+stacking時間かかりすぎてダメ
- https://www.kaggle.com/anonamename/cassava-resnest101e-pseudo-labeling-predict?scriptVersionId=52511088

20210124

oof再計算するためのnotebook作成した
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\check_oof

cv:0.9033(CenterCrop) + CenterCropするTTA + cfm weight をサブしてる
- LB: 0.903
- https://www.kaggle.com/anonamename/cassava-ensemble-v2-pred?scriptVersionId=52588945

cv:0.9033(CenterCrop) + image_size<500 はRandomCropするTTA + cfm weight をサブしてる
- LB: 0.903
- https://www.kaggle.com/anonamename/cassava-ensemble-v2-pred?scriptVersionId=52590977

LB:0.903+image_size<500 はRandomCropするTTAをサブしてる
- LB: 0.904
- https://www.kaggle.com/anonamename/fork-of-cassava-ensemble-pred?scriptVersionId=52603813

20210125

モデルによって正解率クラス違うみたい

https://www.kaggle.com/anonamename/check-oof?scriptVersionId=52659818
tf_efficientnet_b4_ns はcls0が得意
seresnext50_32x4d_cutmixfmix はcls4の正解数高い。他のseresnext50_32x4d には見られないのでcutmixとfmixを交互に入れるとcls4が当てやすくなるのか？

LB:0.903+image_size<500 はRandomCropするTTA+cfmに合わせた重みづけをサブしてる
- LB: 0.903。改善せず。。。
- https://www.kaggle.com/anonamename/fork-of-cassava-ensemble-pred?scriptVersionId=52658672

cls0,4の正解数多い2モデル+全クラスバランス良い1モデル+image_size<500 はRandomCropするTTA+cfmに合わせた重みづけをサブ予定
- LB: 0.901。下がっとる。。。
- https://www.kaggle.com/anonamename/cassava-ensemble-v2-pred?scriptVersionId=52659460

20210126

gcpでdeit_base_patch16_384_cleanlab_noise_cutmix_fmix_n_over 投げてる。gcp準備するのに2時間ぐらいかかるのなんとならんのかなあ。。。
- P100だと1h1000円ぐらいかかるのでやめた

埋め込みベクトルをsvmで分類するのうまくいかず
- old PCで実行
- めちゃくちゃ時間かかる
- なんでacc悪化するんだろう。。。

20210127

20210128

20210129

20210130

20210131

20210201

trainからノイズラベル除いて0/4の2値分類のモデル作成
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cleanlab_test\20210201

Stacking用にoof再実行
- https://www.kaggle.com/anonamename/cassava-stacking-v2-fit?scriptVersionId=53230998

20210202

予測ミスった画像確認するnotebook作成した
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\check_oof\pred_img_check.ipynb

20210203

cleanlabで推測したラベルノイズを使って、ノイズか/そうでないかの2クラス分類モデル作成
- https://www.kaggle.com/anonamename/cassava-deit-base-patch16-224-bce-cleanlab-noise
- Focal lossでやろうとしてるがうまくいかなそう

cleanlabで推測したラベルノイズを使って、ノイズか/そうでないかの2クラス分類と 5クラス分類のマルチタスクモデル作成
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cleanlab_test\20210202
- ラベルノイズは1000件ぐらいしかない。cvの分け方は5クラス分類のStratified K-Fold だから不均衡考慮できてないからダメそう。。。

cleanlabの使い方やラベルノイズの画像可視化をした
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\cleanlab_test\cleanlab_test.ipynb
- 各クラスの画像の特徴メモ
  - CBB：角ばった斑点、黄色の縁取りのある茶色の斑点、黄色の葉、葉がしおれていく
  - CBSD：黄色斑点
  - CGM：黄色の模様、黄色と緑の不規則な斑点、葉縁の歪み、発育不良
  - CMD：重度の形状歪曲、モザイク模様
  - Healthy：その他

20210204- 20210218

cnn2d stackingを頑張った
- C:\Users\81908\jupyter_notebook\pytorch_lightning_work\kaggle_Cassava\notebook\stacking_test

riron1206 / kaggle_cassava Goto Github PK

kaggle_cassava's Introduction

kaggle_cassava's People

Contributors

Watchers

kaggle_cassava's Issues