经过前期探讨，初步确定和 PaddlePaddle 社区联合举办黑客送活动，主题为：PaddlePaddle 社区的数据洞察黑客松：<

想到的几个可行的问题：社区开发者流动/流失预测：类似于电商的客户流失预测类的比赛，可以预测社区内开发者未来是否有

我们现在可以确定的两个任务是：任务1：paddle的PR和issue的可视化展示与分析。（需求一和需求二） <l

上一期的黑客松：<a href="https://www.paddlepaddle.org.cn/PaddlePaddleHackathon-2022-3" r

感谢~ 数据ok的，提供到2022.6.30就好一起做吧，只做情感分析典型画像吧，不

[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动 about open-wonderland HOT 9 OPEN

x-lab2017 commented on August 13, 2024 6

[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动

from open-wonderland.

Comments (9)

xgdyp commented on August 13, 2024 4

想到的几个可行的问题：

社区开发者流动/流失预测：
类似于电商的客户流失预测类的比赛，可以预测社区内开发者未来是否有可能流失
社区成员onboarding晋升机制
刚刚看了下paddle的仓库，成员只有几个人，貌似是组织不会有成员的变化。
但是我们可以根据数据进行分析从而确定一个用户在贡献多少的情况下应该给他发放一些奖励（例如开发者证书之类）
对于有晋升机制的社区，这完全可以成为判断成员晋升的事实（因为现在很多社区都是通过主观判断进行投票的）
开发者推荐
有点类似于会议上所说的，例如paddle组织下有很多仓库，可以通过用户过往的数据判断用户的技能，从而当其他仓库需要该技能的成员时可以进行匹配

from open-wonderland.

frank-zsy commented on August 13, 2024 3

【任务说明】

任务标题：Paddle 社区数据分析

技术标签：GitHub 社区数据分析，深度学习

任务难度：中等

详细描述：使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区进行深度的分析。

分析任务包含：

各类统计型任务（如 Issue、PR 数量，响应周期，解决周期等）并进行可视化和介绍。可参考 CHAOSS 指标体系：https://chaoss.community/metrics/
评论的情感分析：使用算法对 Issue 和 PR 中的评论内容进行情感分析，对正面或负面情绪进行识别。
PR 的 reviewer 推荐：使用算法对特定 PR 进行 Reviewer 推荐。

【提交流程】

对任务进行分析工作，并将结果汇总为 Jupyter Notebook 报告文件，上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件，至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务，最终排名由评判委员会对完成任务的参赛者打分，分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js，熟悉 Clickhouse SQL 语法，了解 GitHub 日志数据。

【参考内容】

数据集获取：https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js，可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题，欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题，欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

from open-wonderland.

frank-zsy commented on August 13, 2024 3

【任务说明】

任务标题：Paddle 外部开发者行为可视化

技术标签：GitHub 社区数据分析，深度学习

任务难度：中等

详细描述：使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区中的开发者进行深入分析。

分析任务包含：

对 Paddle 社区的开发者的行为进行统计性分析，如日常贡献项目、使用语言、活跃情况、在 Paddle 社区的活跃周期等。
进阶任务：
利用算法对 Paddle 社区的贡献者进行开发者画像分析，如开发者的技能标签预测、所在时区分析等。

【提交流程】

对任务进行分析工作，并将结果汇总为 Jupyter Notebook 报告文件，上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件，至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务，最终排名由评判委员会对完成任务的参赛者打分，分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js，熟悉 Clickhouse SQL 语法，了解 GitHub 日志数据。

【参考内容】

数据集获取：https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js，可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题，欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题，欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

from open-wonderland.

Ligoml commented on August 13, 2024 2

我们现在可以确定的两个任务是：

任务1：paddle的PR和issue的可视化展示与分析。（需求一和需求二）
任务2：外部开发者行为可视化展示与分析。（需求三）

两个任务的产出都应该是一个开源的工具库与一份分析报告

前面提到的一些开发者下一步行为的预测，感觉一方面数据不好标，另一方面也不好去判断准确性，相比较确定性的数据分析可能优先级没有那么高

另外还有一个新的任务可以讨论一下，不一定要加，就是 paddle 社区与国内外其他优秀开源社区的对比研究，如"online social structure"等，偏社会学研究，我们想看一看从外部视角去看这些开源社区会有什么样不一样的新结论~

from open-wonderland.

bifenglin commented on August 13, 2024 1

预测类的问题适合机器学习方法，第三个问题可以变成一个预测类问题，例如上面说的社区开发者流动/流失预测。而且相关指标和数据也比较好获取。

from open-wonderland.

will-ww commented on August 13, 2024

上一期的黑客松：https://www.paddlepaddle.org.cn/PaddlePaddleHackathon-2022-3
开发者社区：https://www.paddlepaddle.org.cn/developercommunity

from open-wonderland.

Ligoml commented on August 13, 2024

有几个问题想要沟通一下：

数据问题：归档数据只有2021年以前的吗？其实是很希望能获取最近的数据，比如2022年上半年
如果是历史数据，那么 PR reviewer推荐 可能意义就不是太大了，情感分析 可以保留，且需要在题目中说明是都要做的，如果区分基础任务和进阶任务可能会给大家一种只需要做基础就可以的感觉
外部开发者如何定义？因为不方便直接给出 paddle 员工以外的开发者 github 清单，所以这个定义可能只能根据公开数据，如邮箱后缀等来做分析。可以把第二个任务改为开发者行为分析，其中重点关注 paddle 以外的成员行为，并描述一些典型画像
任务的冠军评定标准需要做额外的说明，在飞桨其他任务中，会把 pr 合入作为任务完成的标志，第一个合入 pr 的开发者即为任务冠军。但是 社区洞察 这三个任务我理解应该是择优的，所以需要额外的说明，否则开发者会产生一些疑惑

from open-wonderland.

frank-zsy commented on August 13, 2024

有几个问题想要沟通一下：

数据问题：归档数据只有2021年以前的吗？其实是很希望能获取最近的数据，比如2022年上半年

如果是历史数据，那么 PR reviewer推荐 可能意义就不是太大了，情感分析 可以保留，且需要在题目中说明是都要做的，如果区分基础任务和进阶任务可能会给大家一种只需要做基础就可以的感觉

外部开发者如何定义？因为不方便直接给出 paddle 员工以外的开发者 github 清单，所以这个定义可能只能根据公开数据，如邮箱后缀等来做分析。可以把第二个任务改为开发者行为分析，其中重点关注 paddle 以外的成员行为，并描述一些典型画像

任务的冠军评定标准需要做额外的说明，在飞桨其他任务中，会把 pr 合入作为任务完成的标志，第一个合入 pr 的开发者即为任务冠军。但是 社区洞察 这三个任务我理解应该是择优的，所以需要额外的说明，否则开发者会产生一些疑惑

数据是可以拿到最新的，例如今天制作数据的话就是到 2022.06.30 的
主要区分是基础任务偏统计，而进阶任务偏算法。如果都需要做的话那就取消基础任务和进阶任务的区分。
因为之前提到会开放 PaddlePaddle 组织的 Member 信息，如果暂时不方便的话那对于参赛者来说就比较困难区分内外部的开发者了，要不就不再区分内外部，对头部开发者都做画像分析。
是的，如果这样的话可以再说明一下评判标准。

from open-wonderland.

Ligoml commented on August 13, 2024

感谢~

数据ok的，提供到2022.6.30就好
一起做吧，只做情感分析
典型画像吧，不强调头部，如果分析头部的话大概率是内部员工了，比如做个聚类，每类开发者选取一个典型画像这样

from open-wonderland.

[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动 about open-wonderland HOT 9 OPEN

Comments (9)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent