View Code? Open in Web Editor
NEW
Automatic mail classification extension with Bayesian filter for Thunderbird
Home Page: https://a-tak.com/blog/tag/autobucket/
License: MIT License
JavaScript 6.55%
TypeScript 62.09%
Vue 29.09%
HTML 1.72%
Dockerfile 0.30%
Shell 0.25%
auto-bucket's Introduction
- 👋 Hi, I’m @a-tak
- 👀 I’m interested in DaVinci Resolve
- 🌱 I’m currently learning DaVinci Resolve
auto-bucket's People
Contributors
Watchers
auto-bucket's Issues
APIのバグじゃね?って感じがする。深追いしない方がいいかも。
aMsgHdr is null mimemsg.js:190
MsgHdrToMimeMessage resource:///modules/gloda/mimemsg.js:190
getFull chrome://messenger/content/parent/ext-messages.js:158
getFull chrome://messenger/content/parent/ext-messages.js:156
getFull self-hosted:1003
result resource://gre/modules/ExtensionParent.jsm:1139
withPendingBrowser resource://gre/modules/ExtensionParent.jsm:770
result resource://gre/modules/ExtensionParent.jsm:1139
withTiming resource://gre/modules/ExtensionParent.jsm:1100
call resource://gre/modules/ExtensionParent.jsm:1138
InterpretGeneratorResume self-hosted:1284
AsyncFunctionNext self-hosted:839
おそらくnode_modulesという名前のフォルダの中にfontがあるからではないかと予測。
web-extのソースも見たがイマイチそのあたりの仕様は不明。
現在の所dist内を手動でzip化している。
精度はかなりあがってきて、1日1通を学習し直すかどうかぐらいになってきたのは体感できるが、統計としてみたい。時系列で見れると特に精度が上がってきているのが可視化されていいかもしれない。
タグは本文中に何度も出てきて内容に直接影響しないため学習対象から外す。pxとかが上位に出てきてしまう。
まだ誤判定なども多いので、それを確認する上でも今の学習したモデルを可視化する画面はほしい。
今の段階ではPOPFileのようなどのような単語が家運撮れているかをみる画面が欲しいかも。
POPFileのように判定したログを確認できる画面があるといいが(せめて直前のやつだけでもみれるといいな)
Thunderbird内部で管理されているkeyを元にタグ操作が必要なことがわかったので根本からすべて修正。
UIもThunderbirdのタグから分類用のタグを選択する形式に変更。
FromやToは判定で重視する情報として入れていいのではないか?
アドレスはドメインとフルメールの2つを記録。
from:@a-tak.comのようにする
必要になってからでもいいかもしれない。
バージョンアップで必要がなくなった設定項目とかを削除したいが、毎回存在確認して消しに行くのも効率悪いので、設定ファイルのバージョン管理のような仕組みがそろそろ必要かもしれない。
過去○件のログのみ残してそれより古いログは自動削除する機能。
どのカテゴリも同じワードが並んでいて何がそのカテゴリにはまる為に影響が高かったがわからない。絶対評価ではなく相対評価でみせないと。
単語毎のスコアで一番高い得点のカテゴリだけを集計すればいいのでは?
デカいメールだと遅い(サーバーの監視メールとか)
一つのメールの処理も結構遅め
alt + shift + v がwindowsだとメニューの表示とかぶるので修正が必要。
毎回、判定前のメールを選んで右クリックして処理するのは面倒なので、一括で未判定のメールを判定できるようにする。
設定にタイムスタンプを持たせて変更されていたらリロードするとか
タグが追加されていたらリロードするとか
スペースや"や「」なども今カウントしているが、これはどんな文章にも出てくるので結果に悪影響及ぼす可能性が高い。
学習しないようにする。
#27 で記号は削除して、例外的に削除すると単語がくっついてしまうので「/」や「.」は削除対象外としたが、削除ではなくスペースに置き換えるといいかもしれない。
間違って振り分けられたメールを再振り分けするときはバイアス掛けて学習させる。
間違って着けられた分類から再学習させたい分類に判定されるまで、繰り返し同じメールを繰り返し学習させるとかがいいかも。
スペースや記号、助詞などがスコアランキング上位に来て判定に影響していると思われる為。
HTMLメールのaltのワードは対象にする。
だいたい判定はできると思うので優先度は低い。
- 間違って判定されたメールを再学習させると他のメールも巻き添えでガラッと判定が変わるケースが多い
- POPFileのロジックを参考にさせてもらう
現在、タグ名は重複しない前提で作成している。
ThunderbirdのUI上では同じ名前のタグ名は許容されないので大丈夫なはずだが、保存している設定では特に重複チェックしていない。
問題が起きないか検討しておく。