Code Monkey home page Code Monkey logo

ublacklistrule's Introduction

uBlacklistRule

uBlacklist向けのルールです。

購読

uBlacklist

こちらから最新版の購読が可能です。

https://raw.githubusercontent.com/ncaq/uBlacklistRule/master/uBlacklist.txt

Google Chrome(Desktop版)を利用している場合は、 こちら をクリックすることで、購読する直前までの操作をスキップすることが出来ます。

uBlock Origin(Android)

Warning

uBlacklistがFirefox for Androidでも使えるようになったため推奨しません。 特にメンテナンスコストがかからないうちはわざわざ廃止しませんが真面目にメンテナンスすることは今後ありません。

Firefox for Android向けの、 uBlock Originで利用するためのルールはこちらにあります。

https://raw.githubusercontent.com/ncaq/uBlacklistRule/master/uBlockOrigin.txt

おそらくGoogle Search Fixerを使っていても使っていなくても動くはずです。 今私はGoogle Search Fixerを使っていませんが、使っていた時にも動いていました。 動かない場合は報告をお願いします。

何故既にルールを共有するリポジトリがあるのに新しく作ったのか?

arosh/ublacklist-stackoverflow-translation: Stack Overflow の機械翻訳サイトの除外用フィルタなどすばらしい先駆者様が居ます。

ただこのリポジトリの対象はあくまで機械翻訳サイトのみなので、もっと広くブロックする自前のルールを作っていました。

メンテナンスが結構大変になってきたので、生成ツール付きで独立リポジトリとして公開することにしました。

ブロックするサイト

技術系スパムサイト

Stack Overflowなどから機械翻訳した内容を大量生成するサイトです。

翻訳してないで単にコピーしているサイトも対象です。

拡張子解説サイト

ファイル拡張子に関するページを機械で大量生成しているサイト。

まともに解説しているならば良いのですが、大抵は間違っているかテキストエディタか拡張子判別ソフトみたいなものを宣伝しているだけです。

普通に検索して拡張子が意味するファイルの種別が分かればそこから検索し直したほうが早いし正確。 もしくはテキストファイルとして開いて内容を確認するかfileコマンドを使えば良いです。 拡張子と明示的に検索しなくても出てくることが多く有害。

コピペサイト

特に新しい情報を生み出さないデッドコピーなサイト。

webプロキシなども対象です。 明示的にwebプロキシを使いたい場合は検索結果経由で行かないでブックマークなどからトップページから使いますよね? なのでブロックしても問題ないと判断しています。

5chのコピーサイト

5ちゃんねるなどから内容をコピーした、機械生成の割合が高いサイトです。

全てをブロックしない理由

一つはあまりにもサイト数が多いので対処しきれないためです。

もう一つは5chは条件付きで公式にまとめサイトの生成を許可しているためです。 5chまとめブログ・5chまとめアプリ運営者の皆さまへ

ただランキングまとめみたいなのは出てきても情報収集が面倒になるだけなので除外します。

ゲハブログ

主にゲームに関するネガティブなデマを多く含む情報を撒き散らすことでPVを稼ぐサイトは、ゲームを楽しむ上で障害になるので除外します。

YouTubeやニコニコ動画などのコピーサイト

インラインで動画を出していたりメタデータを転載しているサイトです。

トップレベルドメインを偽装しているサイト

com.brみたいなまともな用途で使うことはないだろうドメインを利用しているサイトです。

タイトルが設定されていないサイト

タイトルマッチングを使って無題などは除外します。

ftpライクなミラーインデックス

Linuxディストリビューションのミラーなど、Apacheやnginxの自動生成インデックスを返すサイトはソフトウェアを検索する上で邪魔なのでタイトルマッチングを使って除外します。

その他検索の役に立たないサイト

要らない検索結果はガンガン排除していきます。

存在しないサイトのURLがたくさん載っている理由

コピーサイトはドメインの一部分を変えるなどの方法でどんどん増えていきます。 増えるたびにリストに追加するのは面倒です。 機械増殖には機械増殖で対応します。 よってこちらもURLを自動生成します。

何故類似のサイトを正規表現で除外しないのですか?

uBlacklistの現在のバージョンではルールに正規表現を使うことが出来ます。

これを使えば同じサイトのトップレベルドメインだけ変えたものだけを簡素に1行でブロックすることが可能です。

しかし私はあえてタイトル以外には使っていません。 その理由は複数あります。

1つめの理由。 このサイトがどのルールでブロックされているか確認したい時に単純なテキストの並びならgrepなどですぐに検索できますが、正規表現はどのルールがマッチするかどうか確認するツールを作るのが必要です。

2つめの理由。 テキストデータをそのまま作るだけなら正規表現で無駄な繰り返しを除外するのは大いに有用ですが、Haskellプログラムでデータを生成する場合は正規表現より書きやすく除外出来るので、わざわざ正規表現を使う意義があまり無いためです。

このサイトが載ってないのはおかしい/このサイトが載っているのはおかしい

IssuePull requestを是非ともお待ちしております。

Issueだけ建てるのも歓迎しますし、PRを作ってくださるのも歓迎いたします。

example.comはブロックするべき

というようなタイトル一行だけのIssueでも問題ありません。

ただし取り込むことは確約できません。

関連リンク

ublacklistrule's People

Contributors

daisukedaisuke avatar ncaq avatar ponkio-o avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

ublacklistrule's Issues

変換ツール部分の説明を追加して欲しい

uBlacklistのfilterからuBlock Originのfilterへの変換ツール部分の使い方を教えてください。
当方もuBlacklistのfilterを作成しており、uBlock OriginではなくAdGuardを使用していますが、この変換をtext editorの置換機能でやると副作用が多いので...

uBlock Origin向けのルールも生成する

Firefox for AndroidにすぐにuBlacklistも戻るだろうと思っていましたが、
思ったより長引きそうなので。
他のアドブロック系ツールがあるプラットフォームで広く使えるかもしれません。

uBlock Origin向けのフィルターをダイエットする

uBlock Origin向けのルールも生成する · Issue #5 · ncaq/uBlacklistRule
は一応ルールを生成したので閉じました。
しかしこのルールには問題があり、
ルールが2万行ぐらいになるからか、
Google検索がとても重くなります。
コンテンツスクリプトの方で動かしてるのかな?デスクトップPCでモバイルエミュレートしても重いぐらいですし、スマートフォンではめっちゃカクつきます。
フィルターのダイエットが必要でしょう。

追加依頼 ja.loudoun-valley.com

ドメイン

ja.loudoun-valley.com

正規URL

https://askubuntu.com/questions/1189713/l2tp-ipsec-failing-to-connect-ubuntu-19-10

コピペURL

https://ja.loudoun-valley.com/392162-l2tp-ipsec-failing-to-connect-FGSDRK-article

備考

jaの他にも

https://ko.loudoun-valley.com/392162-l2tp-ipsec-failing-to-connect-FGSDRK-article など多数言語があります。(サイト下部にリンク)

確認できているドメインは以下です。

https://loudoun-valley.com/
https://ar.loudoun-valley.com/
https://bg.loudoun-valley.com/
https://cs.loudoun-valley.com/
https://da.loudoun-valley.com/
https://de.loudoun-valley.com/
https://el.loudoun-valley.com/
https://es.loudoun-valley.com/
https://et.loudoun-valley.com/
https://fi.loudoun-valley.com/
https://fr.loudoun-valley.com/
https://hi.loudoun-valley.com/
https://hr.loudoun-valley.com/
https://hu.loudoun-valley.com/
https://id.loudoun-valley.com/
https://it.loudoun-valley.com/
https://iw.loudoun-valley.com/
https://ja.loudoun-valley.com/
https://ko.loudoun-valley.com/
https://lt.loudoun-valley.com/
https://lv.loudoun-valley.com/
https://ms.loudoun-valley.com/
https://nl.loudoun-valley.com/
https://no.loudoun-valley.com/
https://pl.loudoun-valley.com/
https://pt.loudoun-valley.com/
https://ro.loudoun-valley.com/
https://ru.loudoun-valley.com/
https://sk.loudoun-valley.com/
https://sl.loudoun-valley.com/
https://sr.loudoun-valley.com/
https://th.loudoun-valley.com/
https://tr.loudoun-valley.com/
https://uk.loudoun-valley.com/
https://vi.loudoun-valley.com/
https://cn.loudoun-valley.com/
https://tw.loudoun-valley.com/

肌感として ja.loudoun-valley.com が多く出ますが、こちらも一括で追加していただけると幸いです。

uBlock Origin向けのルールではTLDを埋めず、部分一致のみに任せる

uBlock Origin向けのフィルターをダイエットする · Issue #7 · ncaq/uBlacklistRule
で指摘された事項、

uBlacklistと異なり単に部分一致させているだけなので、TLDの自動生成は完全に不要ではないでしょうか (もし必要なら正規表現も書けます)。

に対応。

型的にホスト名とホストテンプレート(TLD入れる前)を区別して、
uBlock Origin向けのルールでは一つ以外除外する。

構造をかなり変える必要があるので、
それなりに面倒そうです。

TLD入れる前の文字列を持っておいて、
そのまま取り出す関数と、
埋めて取り出す関数があれば良さそうですね。

Public Suffix Listでチェックする

ホスティングサービスをまるごとブロックしないように、Public Suffix Listを調査して含まれてないか調べるのをテストコードに追加する。

過激なフィルタを追加

人によっては誤爆が強そうなフィルタを追加する。

全部まとめたfullを提供しても良いかもしれません。

タイトルでマッチ

title/^無題$/
title/^Index of \//

割とうまく行っている。
これは過激扱いじゃなくて本流に追加しても良いぐらいかも。

国別マッチ

もうロシア・**・韓国・ブラジルあたりのドメインとかブロックしてしまう?
でも大半はスパムか善良だけどこちらには読めないブログですけど、
コードブロックと機械翻訳でたまに役に立つことも無いことは無いんですよね。

プログラミングスクール系

主にレガシーな言語で役に立つこともあるからブロックしてないんだけど…
明らかに嘘(間違いという意味ではなく、釣りタイトル)書いてる時はブロックしてますが。

広告のための記事という性格が強すぎて、
途中まで読むとモーダルで広告が出てくるのはちょっと…
他の人がそういうリスト作ってるからそれに誘導するだけで良いかもしれません。

cdn.ncaq.netからリダイレクトする

当初は生成物をGit管理したくないとか考えてましたが、
テキストファイルだしした方が良いし、
実際今は行っている。

2重管理は面倒くさい。

ただURLを変えると混乱するため、
リダイレクト設定で問題ないか確認する。

uBlock Originのフィルターのスニペットなどを復活させるか判断して実装する

uBlock Origin向けのフィルターをダイエットする · Issue #7 · ncaq/uBlacklistRule
で指摘された、

なお後者2つはGoogle Search Fixer有効がメインの環境なら必要です。たまに現れるFeatured SnippetsとPeople also askを消しています。

に対応。

今の所使ってみてどれぐらいうざいか分かってないのでフィルターを膨らませて対処するか迷い中です。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.