Comments (59)
了解です。準備します。
from codeforelection.
Twitterのid、https://github.com/hkwi/shuin48pre/blob/master/docs/twitter_sn_map.csv を元に更新をかけました。
from codeforelection.
公式ブログと公式サイト、URL 気になるところの手動調整終わりましたー
from codeforelection.
@higa4 了解です、拾います
from codeforelection.
小選挙区の得票数を graydb の右端のほうに入れました。朝日と毎日で突合せ済みです。
from codeforelection.
はーー、なるほど、各claimsに関してはIDとしてqidの他にuuidがあって、同じpropertyでも区別できるんですね…。
https://www.wikidata.org/wiki/Special:EntityData/Q41770570.json でも確認できました。
データ構造的にどうやって区別するんだこれ、と思ってたのですが、ちょっと理解できました。
from codeforelection.
そもそも、wikidataの登録方法について何処かのドキュメントを見たら良いとか、基本的な整理があるとありがたいです。
from codeforelection.
#59 で登録スキーマを扱ってます。
from codeforelection.
差分収集の bot は作るつもりでいました。ただおそらく長時間走る jobになるので、travis や circle ci などのサービスだと実行時間超えそうな予感。試しに作ってみて測ってみるので、相談させていただきたく。
from codeforelection.
例えば性別や誕生日について、登録済みの候補者についてもquickstatementsで更新をかけると、二重登録されたりするんでしょうか?
同じ場合にはそのまま、異なる場合には上書きされるのであれば、そのまま走らせれば良いのでしょうか。更新前には一応差分を確認した方がよいとは思いますが。
from codeforelection.
上書きではなく、追加になると思います。
from codeforelection.
@takahashim @hkwi これ、出典を付けることを考慮すれば、特に問題なさそうなので進めましょうか。作業はお願いしてもよいのでしょうか。分担が必要であれば何か分担表のようなものを作ります?
from codeforelection.
分担表を作ってみました。当方でできそうなところから始めてみます。
https://docs.google.com/spreadsheets/d/1jho09We-3bS4jzF3uvQnPdnjMkQJs5_ljwZyuzkKGPU/edit#gid=1376986153
from codeforelection.
P4100
の代わりに P1268
使いませんか?
from codeforelection.
一括登録系は私の方で拾えると思います
from codeforelection.
@higa4 @hkwi 確かにWikidataの「立候補選挙」に修飾子を追加入力しようとすると「代表する団体(P1268)」が候補として表示されるようなので、P1268で良さそうです。
from codeforelection.
@hkwi @takahashim 了解です。公認政党にはP1268を当てましょう。
from codeforelection.
@takahashim すみませんが一括登録系、お願いします。性別については私の方でやりかけなのでそこだけ担当します。batchのqueが詰まってるかんじで8時間たっても動かずstopもできない。。
from codeforelection.
とりあえず今回のコアの情報である出馬情報についてはこんな感じで作ってみました。場所は暫定。日次チェック。
from codeforelection.
WikidataのフェイスブックID(P2013)はfacebook pageじゃなくてIDを登録するためのもののようなので、現状のZ列のデータは登録できない(登録して良いものとそうでないものが混ざっているので分けないとまずそう)ようです…。
from codeforelection.
Q9047844 = wikipedia 田中健 (江戸川区議会議員) のページに同姓同名の 田中健_(東京都議会議員) と、参照されていますが、衆院選出馬されたのはこの大田区議員だった田中さんのようです。また参照先のページが特筆性無しで削除されています。Wikidata には割当たっていないようなので、新規作成が必要そうです。
from codeforelection.
Q11529448 松原 さとし さんも同姓同名の別人のようです。
from codeforelection.
Q9047844 さん GrayDB と wikidata から、いったん情報外しました。
from codeforelection.
Q11529448 も同様にいったん両方から外しました。
from codeforelection.
Q9047844 = wikipedia 田中健 (江戸川区議会議員) のページに同姓同名の 田中健_(東京都議会議員) と、参照されていますが
ご指摘ありがとうございます。Q42290522でwikidataに新規登録しました。GrayDB511行目にもQ番号を入れました。
from codeforelection.
Q11529448 松原 さとし さんも同姓同名の別人のようです。
こちらもQ42290611でwikidataに新規登録しました。GrayDB510行目にもQ番号を入れました。
from codeforelection.
qname 新規割り当てありがとうございます。差分出力開発中で、出力増やしました。
プロパティ値差分 https://github.com/hkwi/shuin48pre/blob/master/docs/wikidata_properties.csv
候補者差分 https://github.com/hkwi/shuin48pre/blob/master/docs/wikidata_P3602_Q20983100.csv
from codeforelection.
facebookはAPIで一度検査してから入れないとダメそうですね。ところでtwitterのscreen_nameも大文字小文字を元のものに戻してから差分を取るようにしました(twitter API 使用)。
https://github.com/hkwi/shuin48pre/blob/master/docs/twitter_sn_map.csv
from codeforelection.
どうやら facebook は普通にクロールして meta[@property="al:ios:url"]
辺りを見れば判別できそうですね。後で組んで回します。
from codeforelection.
facebook のメタデータ集め始めました。
https://github.com/hkwi/shuin48pre/blob/master/docs/fb.csv
- qname : 候補者
- url : (GrayDBに登録されている)元になっている URL
- type : 検査結果のページタイプ page か profile になっているはず。
- ident : page や profile どちらの場合でも、この ID を使って
/profile.php?id=ID
で飛んでいけます - dst : 飛んで行った先。こちらが facebook 自体が誘導したい URL
P2013
は type=profile な ident を登録すればいいのかな。
from codeforelection.
blog URL 1581
は、もう少しデータをクレンジングしてから入れたい所存。path 部分が冗長すぎるものが多々。
from codeforelection.
@takahashim さん、当選者の情報を入れたいのですがお願いしても大丈夫でしょうか。必要でしたら分担しますので言ってください。
GrayDBの当選列に1が立っている人について、政治家・立候補者シート
https://docs.google.com/spreadsheets/d/1jho09We-3bS4jzF3uvQnPdnjMkQJs5_ljwZyuzkKGPU/edit#gid=0
の23-29行目あたりの内容をwikidataに登録する作業です。24行目「開始日」は10/22となるんですかね。とりあえずは無くても良いのかな。25行目「終了日」は不要ですね。
from codeforelection.
任期開始日はたぶん決まっているので、調べないとですね。例:参議院の解説
とりあえずは Term のほうに 10/22 を設定しておけばよいかと思います。
from codeforelection.
投票数ですが、重複立候補はこんな風にしたらどうかなというのを https://www.wikidata.org/wiki/Q41770570 やってみました。どうでしょう?
from codeforelection.
よいと思います。
from codeforelection.
「公職」について、QuickStatements2をつかって単純に追加しようとすると、すでに「衆議院議員」が登録されている場合に既存の情報と混ざってしまいますね…。
https://www.wikidata.org/wiki/Q7677156 の更新をかけると以下のようになってしまいました(現在はrevert済み)
from codeforelection.
「公職-衆議院議員」ステートメントをもうひとつ作りたいのですが上書きされるんですね。時間が取れたら調べてみます。
from codeforelection.
Q4115189
「サンドボックス」というのがあって、P31
が Q4115189
になっているサンドボックス達がいるので、これらを使うとテストしやすそう。
from codeforelection.
@takahashim 思い出しました。これ、mySocietyから連絡が来ていたヤツで現行のQS2の制約のようです。対策は下記のスクリプトを動かすか、同一ステートメントが未登録の政治家を選んでそこだけバッチ更新する(残りは手動)かというところでしょうか。
--以下引用--
For creating new items, or adding basic statements to existing items,
everything should work smoothly, but you should beware that if you use
it for adding P39 (position held) records to existing items, it
doesn't work if someone has held the same position more than once.
Unfortunately that's very common with political data, where it's very
likely that there will be a large number of people elected as a
Q17506823 (member of the House of Representatives of Japan) in the
48th Term, who already have a P39: Q17506823 record for the 47th Term.
To help with that, we've developed a bot called PositionStatements
that takes input in exactly the same format as QuickStatements, but
adds an entirely new P39 record each time, rather than combining them
all into one as QS does. There's no web interface to that yet, but you
can either try to get the bot running yourselves locally (it's a
Python script, linked from
https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/PositionStatements_Bot),
or you can send us a TSV file of commands, and we can run it on behalf
of a Wikidata account of your choosing.
from codeforelection.
@higa4 公職について、選出選挙名・議会開催期・選挙区・代表する団体と出典URLについて一通り登録しておきました。
from codeforelection.
お疲れ様です!これで当選者の分析ができますね。どういうsparqlをかけば良いのかまだわかってないけど :)
from codeforelection.
一覧だと http://tinyurl.com/y8am7lcv ですね。
政党別だと http://tinyurl.com/yb39yhcq になるんですが、これだとwikipediaの https://ja.wikipedia.org/wiki/%E7%AC%AC48%E5%9B%9E%E8%A1%86%E8%AD%B0%E9%99%A2%E8%AD%B0%E5%93%A1%E7%B7%8F%E9%81%B8%E6%8C%99 の数とは追加公認の関係でずれがありますね…。
from codeforelection.
おお、早速ありがとうございます。
ある時点のデータで作った図表はスナップショットとして取っておく意義はありますが、いずれ陳腐化してしまいます。wikidataからクエリで抜くメリットはデータさえ適切に入れておけば常に最新状態が見られることだと思います。がんばれば時系列の推移も。
from codeforelection.
代表する団体、会派、所属政党の3プロパティの使い分けを改めて整理しておきたいのですが、以下のような感じでよいでしょうか。
- 代表する団体:選挙時の公認政党。
- 会派:内閣成立後の院内会派。政党単位で、もしくは無所属議員の個人単位で決まる。追加公認を含む。
<現在の会派>
https://ja.wikipedia.org/wiki/%E9%99%A2%E5%86%85%E4%BC%9A%E6%B4%BE#.E7.8F.BE.E5.9C.A8.E3.81.AE.E9.99.A2.E5.86.85.E4.BC.9A.E6.B4.BE - 所属政党:本来の所属政党または「無所属」。各政党の名簿等に記載されているもの。
<例:自民党>
https://www.jimin.jp/member/member_list/legislator/
登録例(前原誠司)
https://www.wikidata.org/wiki/Q132280
from codeforelection.
懸案の「議会開催期」について ;) 内容的には下記2つの内容は矛盾はしないと思われるため、マージして「第4次安倍内閣」というラベルにしてはどうかと思いますがいかがでしょうか。
https://www.wikidata.org/wiki/Q42479041
https://www.wikidata.org/wiki/Q41655079
参考:ウィキペディア「第4次安倍内閣」
https://ja.wikipedia.org/wiki/%E7%AC%AC4%E6%AC%A1%E5%AE%89%E5%80%8D%E5%86%85%E9%96%A3
from codeforelection.
「議会開催期」については、それでいくと例えば「Term for House of Representatives 47th general election」 https://www.wikidata.org/wiki/Q41654707 は「第3次安倍内閣」https://www.wikidata.org/wiki/Q18657782 になりそうですが、これは2015年10月7日に終わってその後は「第3次安倍改造内閣」https://www.wikidata.org/wiki/Q21074124 になっていたようなので、ちょっと概念が違いそうに見えました。
from codeforelection.
「代表する団体」「会派」「所属政党」の考え方はそれでよさそうですが、「代表する団体」「所属政党」は「議会開催期」に紐付ける(qualifierにする)のではなく、その個人に紐ついていればいいのではないかな、という気がしないでもないです。
細かいと管理が大変になって続かないと思うので。
「議会開催期」に紐付くのが「会派(院内会派)」、「立候補選挙」に紐付くのが「代表する団体」�で、「所属政党」は個人に紐付くのでどうでしょうか。所属政党は議員になっていてもなっていなくても、選挙しててもしてなくても決まる項目だと思うので。(という理解なんですが、ひょっとして議員じゃなくなると政党に所属してないことになるんでしょうか…?)
from codeforelection.
そっかぁ。ウィキペディア記事は内閣改造ごとで、それと衆院選は紐付かないですねー。
第3次安倍内閣2014/12/24-2015/10/7
https://ja.wikipedia.org/wiki/%E7%AC%AC3%E6%AC%A1%E5%AE%89%E5%80%8D%E5%86%85%E9%96%A3
第3次安倍内閣 (第1次改造)2015/10/7-2016/8/3
https://ja.wikipedia.org/wiki/%E7%AC%AC3%E6%AC%A1%E5%AE%89%E5%80%8D%E5%86%85%E9%96%A3_(%E7%AC%AC1%E6%AC%A1%E6%94%B9%E9%80%A0)
第3次安倍内閣 (第2次改造)2016/8/3-2017/8/3
https://ja.wikipedia.org/wiki/%E7%AC%AC3%E6%AC%A1%E5%AE%89%E5%80%8D%E5%86%85%E9%96%A3_(%E7%AC%AC2%E6%AC%A1%E6%94%B9%E9%80%A0)
第3次安倍内閣 (第3次改造)20178/3-2017/11/1/
https://ja.wikipedia.org/wiki/%E7%AC%AC3%E6%AC%A1%E5%AE%89%E5%80%8D%E5%86%85%E9%96%A3_(%E7%AC%AC3%E6%AC%A1%E6%94%B9%E9%80%A0)
全期間に対して「第3次安倍内閣」というitemをwikidata側で作ったら混乱するかなー。
from codeforelection.
「議会開催期」に紐付くのが「会派(院内会派)」、「立候補選挙」に紐付くのが「代表する団体」�で、「所属政党」は個人に紐付くのでどうでしょうか。
賛成です
from codeforelection.
修正してみました。
https://www.wikidata.org/wiki/Q132280
from codeforelection.
「議会開催期」についてですが、 http://tinyurl.com/y8vgpgfo のクエリで見た結果では、どうも普通に国会の会期と結びついているようなので、ここは抜本的に何とかしないと解決しなさそうに思えました…。
こういうのの議論ってWikidataではどこでやってるんでしょうか。
from codeforelection.
あー、でも最近の国会は、「議会開催期 (Q15238777)」ではなく「立法期制 (Q1812889)」で、立法期制は議会開催期の一部(part of, P361)になってるんですね…。
じゃあこれは国会が直接議会開催期に紐ついているのが要修正なのかも。
from codeforelection.
「議会開催期」ですが、内閣が総辞職すると衆議院を解散しなくても次の内閣に代わってしまうので、議会開催期とずれてしまいますよね。
やはり議会開催期と内閣を紐つけるのはやはり適切ではないのではないでしょうか。
from codeforelection.
あー、でも最近の国会は、「議会開催期 (Q15238777)」ではなく「立法期制 (Q1812889)」で、立法期制は議会開催期の一部(part of, P361)になってるんですね…。
じゃあこれは国会が直接議会開催期に紐ついているのが要修正なのかも。
「立法期制」 (Q1812889)は第n会国会
http://www.shugiin.go.jp/internet/itdb_annai.nsf/html/statics/shiryo/kaiki.htm
に対応する概念で、日本では「国会会期」というラベルに変えた方が良いかもしれませんね。
現在、例えば「第136回国会」 (Q10885874)の分類に議会開催期 (Q15238777)が当てられているのは間違いで、「立法期制」 (Q1812889)に修正する必要があると思います。
from codeforelection.
「議会開催期」ですが、内閣が総辞職すると衆議院を解散しなくても次の内閣に代わってしまうので、議会開催期とずれてしまいますよね。
やはり議会開催期と内閣を紐つけるのはやはり適切ではないのではないでしょうか。
「議会開催期」(Q15238777)はイギリスにはあるけど日本には元々無い概念で衆議院総選挙から次の衆議院総選挙までの(複数の)国会開催期間を指しています。日本ではこれにn番目の開催期間の名前ではなく、「第n次◯◯内閣」という内閣を指す名称が付けられているので、(英語ラベルは変えずに)日本語ラベルにはその名前を当ててはどうか、というのが私の意見です。
ただし、ウィキペディアでは「第n次◯◯内閣」は内閣改造ごと(第n次改造)に別の記事になっていて、全体を通した「第n次◯◯内閣」の記事が無いのでwikipediaとwikidataの対応付けが混乱しそう、というのが懸念点です。
from codeforelection.
いえ、内閣改造ではなく内閣総辞職の場合です。
例えば、Term for House of Representatives 45th general election https://www.wikidata.org/wiki/Q41806822 の内閣は鳩山由紀夫内閣・菅内閣・野田内閣(〜第3次改造内閣)にまたがると思うのですが、Wikidataの日本語ラベルではどういう名前になるのでしょうか?
from codeforelection.
対象となる内閣の組閣/改造は以下のとおりです。そうかー。内閣総辞職後に必ずしも総選挙があるわけじゃないんですね。下記をまとめると「鳩山由紀夫・菅・野田内閣」という名前になりますが、どうでしょうか。そんな名前は一般的に使われていないのでボツですね。やはりラベルは英語名を使って、内閣名は使うにしても説明欄で表現するくらいですかね。
- 鳩山由紀夫内閣 2009/9/16-2010/6/8
https://ja.wikipedia.org/wiki/%E9%B3%A9%E5%B1%B1%E7%94%B1%E7%B4%80%E5%A4%AB%E5%86%85%E9%96%A3 - 菅内閣 2010/6/8-2010/9/17
https://ja.wikipedia.org/wiki/%E8%8F%85%E5%86%85%E9%96%A3 - 菅内閣_(第1次改造)2010/9/17-2011/1/14
https://ja.wikipedia.org/wiki/%E8%8F%85%E5%86%85%E9%96%A3_(%E7%AC%AC1%E6%AC%A1%E6%94%B9%E9%80%A0) - 菅内閣 (第2次改造)2011/1/14-2011/9/2
https://ja.wikipedia.org/wiki/%E8%8F%85%E5%86%85%E9%96%A3_(%E7%AC%AC2%E6%AC%A1%E6%94%B9%E9%80%A0) - 野田内閣 2011/9/2-2012/1/13
https://ja.wikipedia.org/wiki/%E9%87%8E%E7%94%B0%E5%86%85%E9%96%A3 - 野田内閣 (第1次改造)2012/1/13-2012/6/4
https://ja.wikipedia.org/wiki/%E9%87%8E%E7%94%B0%E5%86%85%E9%96%A3_(%E7%AC%AC1%E6%AC%A1%E6%94%B9%E9%80%A0) - 野田内閣 (第2次改造)2012/6/4-2012/10/1
https://ja.wikipedia.org/wiki/%E9%87%8E%E7%94%B0%E5%86%85%E9%96%A3_(%E7%AC%AC2%E6%AC%A1%E6%94%B9%E9%80%A0) - 野田内閣 (第3次改造)2012/10/1-2012/12/26
https://ja.wikipedia.org/wiki/%E9%87%8E%E7%94%B0%E5%86%85%E9%96%A3_(%E7%AC%AC3%E6%AC%A1%E6%94%B9%E9%80%A0)
from codeforelection.
そうなりますよね…。やっぱり「ラベルは英語名」で良いかと思います。
from codeforelection.
別のIssueに乗り換えたほうがよさそう。
from codeforelection.
Related Issues (20)
- Wikidata data model HOT 12
- 月末までのデータの整備についてのタスク整理 HOT 20
- Wikidata:Notability HOT 8
- popolo JSONを作成する HOT 2
- 参議院と都道府県知事のデータを集める HOT 29
- GrayDBの不要シートの削除 HOT 3
- 当選者に対する収集データについて(選挙後:22日以降) HOT 1
- 選挙区に対して、area_id (区コード) の割り振りは可能? HOT 6
- wikidata 名寄せ依頼 HOT 1
- Wikidata: 選挙立候補者について HOT 7
- Wikidata: 立候補者の分析・視覚化クエリー集 HOT 6
- 当落情報の記載について HOT 10
- Wikidata: フェイスブックID・公式フェイスブックページの登録方法 HOT 8
- 第48回衆議院総選挙「前」の議員データベース HOT 6
- Popolo と Wikidata の対応をドキュメント化
- [Wikidata][merge依頼] Masahara Nakagawa HOT 7
- 2017の状態を残せるドメインにする HOT 1
- Wikidata関連ツールのフィードバック HOT 1
- 衆議院開催期間のwikidata上の表現を決める
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from codeforelection.