程序员的双手是魔术师的双手,他们把枯燥无味的代码变成了丰富多彩的软件。——《疯狂的程序员》
apachecn / interview Goto Github PK
View Code? Open in Web Editor NEWInterview = 简历指南 + 算法题 + 八股文 + 源码分析
Home Page: https://interview.apachecn.org
License: Other
Interview = 简历指南 + 算法题 + 八股文 + 源码分析
Home Page: https://interview.apachecn.org
License: Other
程序员的双手是魔术师的双手,他们把枯燥无味的代码变成了丰富多彩的软件。——《疯狂的程序员》
业务建模:
数据建模:使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。
统计分析:
对比分析:
聚类分析:它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。
回归分析:
判别分析:
相关性分析:
相关系数:是研究变量之间线性相关程度的量(较为常用的是皮尔森相关系数)
异常检测:在数据集中搜索与预期模式或行为不匹配的数据项。
数据采样:
数据增强:
特征选择:
特征工程:
数据清洗:对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
降维:
我个人的 LeetCode 题解汇总。
坚持更新,全 Github 最全的啦。
希望可以加入 “推荐 LeetCode 网站” 列表中。
天猫国际是**消费升级的第一跨境平台,是阿里经济体5年2000亿美金进口承诺的主力军。2019年天猫国际技术部和考拉合并成立了阿里巴巴大进口技术部,是阿里巴巴国际化战略的核心技术部门。致力于进口业务的技术突破和创新,助力**的消费者实现“买遍全球”的需求,跨入未来的万亿级市场。想了解更多的话,直接联系我吧,我帮你组内直推,大量HC,走过路过不可错过。
邮箱:[email protected]
微信:isHunterZhang
经济类型的书目:
管理思维:
http://blog.csdn.net/guyuealian/article/details/70995333
感觉可以用在我们基本算法结束之后,对于不同算法的整合上,比简单的选择某个样本在这些算法中出现最多的最为最终结果要好。
open的时候加newline=''
def saveResult(result, csvName):
with open(csvName, 'w',newline='') as myFile:
myWriter = csv.writer(myFile)
myWriter.writerow(["ImageId", "Label"])
index = 0
for r in result:
index += 1
myWriter.writerow([index, int(r)])
print('Saved successfully...') # 保存预测结果
如果你有想法,有热情参与某个比赛(或者复现某个现有比赛),但苦于没人一起组队的话,加入我们,成为比赛活动负责人吧!发起你的活动,招募队友,互相学习,争取更大的胜利!
请在这个 ISSUE 中留言,“昵称 + QQ + 比赛名称”,示例:“飞龙+562826179+kaggle Leaf Classification”。
负责人 | 比赛名称 | 备注 | |
---|---|---|---|
张一极 | 2533524298 | 手写数字百分百准确率模型探究 | |
呆呆 | 728634974 | ds、kdd相关皆可,个人水平kaggle top20,cv的话小数据集可以,我这里算力有限 | |
Roman | 570515024 | 大数据 | |
1266 | 1097828409 | 桑坦德客户交易预测 | |
Datawhale | - | 搭建文本情感分类模型 |
比赛平台
kaggle/competitions/getting-started/house-price/里面readme.md中的rmsle_cv函数是什么?我按照代码敲进去发现报错,而且这个里面好多函数的都没有import,例如:
from sklearn.preprocessing import RobustScaler
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import Lasso, ElasticNet
from sklearn.kernel_ridge import KernelRidge
from sklearn.ensemble import GradientBoostingRegressor
import xgboost as xgb
import lightgbm as lgb
Hello!
I found an AI-Specific Code smell in your project.
The smell is called: Columns and DataType Not Explicitly Set
You can find more information about it in this paper: https://dl.acm.org/doi/abs/10.1145/3522664.3528620.
According to the paper, the smell is described as follows:
Problem | If the columns are not selected explicitly, it is not easy for developers to know what to expect in the downstream data schema. If the datatype is not set explicitly, it may silently continue the next step even though the input is unexpected, which may cause errors later. The same applies to other data importing scenarios. |
---|---|
Solution | It is recommended to set the columns and DataType explicitly in data processing. |
Impact | Readability |
Example:
### Pandas Column Selection
import pandas as pd
df = pd.read_csv('data.csv')
+ df = df[['col1', 'col2', 'col3']]
### Pandas Set DataType
import pandas as pd
- df = pd.read_csv('data.csv')
+ df = pd.read_csv('data.csv', dtype={'col1': 'str', 'col2': 'int', 'col3': 'float'})
You can find the code related to this smell in this link:
Interview/src/py3.x/kaggle/getting-started/titanic/titanic-python3.6.py
Lines 335 to 355 in 4b25be7
I also found instances of this smell in other files, such as:
File: https://github.com/apachecn/Interview/blob/master/src/py3.x/kaggle/getting-started/digit-recognizer/cnn_pytorch-python3.6.py#L24-L34 Line: 29
File: https://github.com/apachecn/Interview/blob/master/src/py3.x/kaggle/getting-started/digit-recognizer/cnn_pytorch-python3.6.py#L34-L44 Line: 39
File: https://github.com/apachecn/Interview/blob/master/src/py3.x/kaggle/getting-started/digit-recognizer/knn-python3.6.py#L19-L29 Line: 24
File: https://github.com/apachecn/Interview/blob/master/src/py3.x/kaggle/getting-started/digit-recognizer/knn-python3.6.py#L20-L30 Line: 25
File: https://github.com/apachecn/Interview/blob/master/src/py3.x/kaggle/getting-started/digit-recognizer/rf-python3.6.py#L23-L33 Line: 28
.
I hope this information is helpful!
没什么把握啊,感觉好像不行,但没准有奇效?
我现在还没怎么看懂,有人能浅显的讲一下吗?
数据分析理论
统计分析方法论有:
描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树
数据分析模型
数据分析项目
大厂面试: 1面知识面,2面技术深度,3面项目经验,4面职业规划
小厂面试: 1面技能和项目, 2面职业规划
知识面: 基础的算法面试题,技能的知识面
技术深度:基于技能的知识面,会针对具体的几个聊聊深入的底层原理和优化
项目经验:只要是看项目经验中,是否能胜任目前公司招聘人员的要求
职业规划:扯淡为主,毕竟大家都是相互套路一下
后期需要完善
欢迎补充 ...
请问在构建训练/测试数据集的时候,为什么没有drop PassengerId这一列?这也可以作为特征来用吗?
数据处理
在每个样本上减去数据的统计平均值可以移除共同的部分,凸显个体差异。
使用sklearn做单机特征工程
特征工程系列
混淆矩阵及confusion_matrix函数的使用
sklearn 网格搜索 - 得到最优参数
去年刷了一年的题,把每道题的题解都整理在这里了:https://github.com/halfrost/LeetCode-Go/
解题汇集成了这本《LeetCode Cookbook》。
作者如果觉得质量还可以,可以把我这里链接放在算法刷题的专栏下面。
打算用go来实现leetCode,能否支持
up主你好,有机会可以讲解一下特征选择过程吗?有关于特征选择过程中特征抽取算法的,比如启发式算法的过程
已经合并更新到: #343
可以尝试图片处理中缩放,来将原始图片缩小,较少特征。
之后进行锐化,使图片更加清晰,特征更突出。
在 Interview 项目中添加系统设计面试解答
(1)我之前翻译过一个小册子,可以合并进来:
https://github.com/apachecn/gainlo-interview-guide-zh
(2)一亩三分地有个系统设计版,很多人在里面贴英文的资源,可以翻译
https://www.1point3acres.com/bbs/forum-323-1.html
(3)HighScalability.com 是个权威的站点,但是我不知道从哪里下手。
转到新的连接: #273
在 Interview 项目中添加系统设计面试解答
推荐链接:
感觉可以讲一些kaggle的api,很多在网页上的操作可以转换成命令。
https://github.com/Kaggle/kaggle-api
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.