Daniel pacimrez Rubio,西班牙瓜达拉哈拉的开发者
Daniel is available for hire
Hire Daniel

丹尼尔·帕姆雷斯·卢比奥

验证专家  in Engineering

数据科学家和开发人员

Location
瓜达拉哈拉,西班牙
至今成员总数
2021年11月29日

Daniel是一位经验丰富的数据科学家,拥有信号理论(电信)硕士学位。. 他有8年的专业经验:从有影响力的种子期创业公司,如Ketekelo(首席技术官), 到巴斯夫(BASF)等跨国公司(资深数据科学家), two years). 丹尼尔努力迎接挑战, 因此,他决定成为一名自由数据科学家,帮助Toptal客户在开发机器学习方面取得卓越成就, deep learning, NLP, 大数据解决方案.

Portfolio

麻省理工学院的非公开NLP创业公司(总参与)
Python, Jupyter笔记本,主题建模...
Daimler
Python, Databricks, PySpark, Spark SQL, Scikit-learn, Pandas, NumPy, SciPy...
BASF
Python, Pandas, Scikit-learn, NumPy, SciPy, Docker, MongoDB, SpaCy...

Experience

Availability

Part-time

首选的环境

Windows, Windows Linux子系统(WSL), Visual Studio Code (VS Code), Docker

最神奇的...

...我开发的产品是一个内部服务台票务优先排序模型, 是什么帮助减少了60%的员工之间的冲突.

工作经验

数据科学家

2021 - 2022
麻省理工学院的非公开NLP创业公司(总参与)
  • 开发了一个基于Shapely值的模型可解释性的生产管道,用于分析公司中语言和文化趋势之间的复杂依赖关系.
  • 设计了一个强大的可复制设置,确保AutoML功能具有多重过拟合, 维数, 和信号/噪声控制过程,如SMOTE, hyperparameter调优, 基于shape的特征选择, 交叉验证, 还有种子控制.
  • 重构和优化了两个现有的大数据管道, 提高稳定性,减少资源分配,成本降低75%.
  • 实现并优化了一个基于大型语言模型(BERT)的主题建模管道, 这有助于验证他们的自定义主题建模方法.
  • 为BERT和GPT2等大型语言模型架构实现了灵活的微调过程,并使用它来训练多个主题分类模型, 哪些是用来改进自定义主题建模管道的.
  • 为子句情感分类工具实现了基于大型语言模型的子句解析分类管道.
  • 设计并证明了一种基于自动标记技术的半监督学习概念,用于大型语言模型的迭代改进.
  • 实现了一个高效的运行时预测资源分配概念,以避免GPU和系统内存问题. 这是一个基于资源使用记录和多项式插值管道的过程,它有助于减少大多数内存分配错误.
  • 在9个月内对客户设计的不同功能特性进行了多次可行性分析, 根据客户的决定进行后续实施,并完成其产品路线图中的所有开放点.
  • 与CTO和CEO保持日常联系, 为他们提供所有必要的见解和底层细节,以便他们能够指导产品开发, 总是提出建议和我的专家意见,但优先考虑他们的意愿.
技术:Python, Jupyter笔记本,主题建模, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, 亚马逊网络服务(AWS), Amazon S3 (AWS S3), Amazon Elastic MapReduce (EMR), 亚马逊SageMaker, Shapely, Spark SQL, PySpark, SciPy, SpaCy, Scikit-learn, PyTorch, BERT, Docker, 语言模型, Deep Learning, StatsModels, Matplotlib, Pandas, NumPy, Clustering, 无监督学习, ETL, HyperOpt, Data Analysis, Dashboards, 数据可视化, 产品的领导, Python 3, 预测建模, 工程数据

高级数据科学家

2021 - 2021
Daimler
  • 开发三大大数据售后时间序列预测产品:轮胎更换时间, 制动盘更换的时机, 以及刹车片更换的时机.
  • kickstarter创建了一个实验库,允许多个数据科学家对同一产品进行实验, 因此,这些实验的结果可以进行比较, replicated, 并且很容易与商业伙伴沟通.
  • 促进了分支模型和CI/CD管道的改进,以消除人为错误和操作开销,并开启了在笔记本中开发软件包而不是脚本的可能性.
  • 为团队的数据湖创建了两个新数据源:30米分辨率的全球海拔(Aster 30)和地区名称本地化, 包括共同国家, cities, provinces, 还有用十多种语言写的名字.
  • 参与组织2021年戴姆勒创新日, 为期两天的活动重点是创造新鲜的产品设计和熟悉最现代的技术.
技术:Python, Databricks, PySpark, Spark SQL, Scikit-learn, Pandas, NumPy, SciPy, Matplotlib, MLflow, Plotly, Azure数据湖, Azure数据工厂, Azure DevOps, GitHub, Jira, Seaborn, GIS, Spark ML, Docker, Data Science, SQL, 预见性维护, 数据可视化, Data Analysis, Python 3, 预测建模, 工程数据

高级数据科学家

2019 - 2021
BASF
  • 开发了两个成功的NLP产品:用于客户名称匹配的模糊逻辑专家系统和用于专利搜索引擎监控的主题建模仪表板.
  • 提出了三个通用性产品:推荐系统、健康库存管理, 用于域名商标欺诈检测的威胁级分类器, 以及为服务台的票务优先排序提供升级概率预测.
  • 为HR执行西班牙2020-2021年员工调查的主题和情绪分析报告,帮助他们处理数千个有价值的自由文本反馈字段.
  • 为机器学习进行了多次研讨会, Git, 开源软件, 和远程Docker环境.
  • 通过促进和共同组织本地和全球倡议来支持公司文化:10%的创新时间, 跨团队协作计划, 定制培训计划.
  • Led, 和我的同事一起, 在一家全球性公司中引入现代Python工作流, 无缝地使用最佳代码实践, CI / CD管道, 集装箱化, 远程环境.
  • 通过多次技术面试支持招聘流程.
  • 在团队生命周期的一半以上时间里,承担了产品负责人的共享角色.
  • 在Scrum和看板敏捷框架下成功高效地工作, 两年内推出了五款成功的产品.
技术:Python, Pandas, Scikit-learn, NumPy, SciPy, Docker, MongoDB, SpaCy, 自然语言工具包(NLTK), Django, FastAPI, Apache气流, Databricks, PyTorch, Helm, Kubernetes, 多处理, R, PySpark, Spark SQL, Microsoft SQL Server, SAP HANA SQLScript, 美丽的汤, lxml, Plotly, Matplotlib, TextRank, GitLab CI/CD, Seaborn, Data Science, SQL, ETL, Data Analysis, 数据可视化, Python 3, 预测建模, 工程数据

高级数据科学家

2018 - 2019
Rebold
  • 执行并维护模型培训的每日CD管道, optimization, 以及广告购买代理的部署.
  • 开发了一个完整的电子邮件活动受众丰富的分析解决方案.
  • 拥有三大大数据日运行产品:机器学习广告购买代理培训, 电子邮件活动的受众丰富分析, 以及基于cookie的受众分类.
  • 支持商业智能(BI)同事, 实现自定义Python脚本和SQL查询,以改进其流程并帮助其更有效地工作.
  • Developed, 在一个自由DevOps工程师的帮助下, 一个Python工具,用于创建和运行基于剧本的Ansible模板.
  • kickstarter启动了一个基于Flask的公民开发web平台.
技术:PySpark, Spark SQL, PostgreSQL, Apache气流, 亚马逊网络服务(AWS), Ansible, Git, Python, Scikit-learn, NumPy, Pandas, HyperOpt, Amazon Elastic MapReduce (EMR), Amazon S3 (AWS S3), Spark ML, Flask, Apache超集, Google Data Studio, 持续交付(CD), ETL, Data Science, SQL, Data Analysis, Dashboards, 数据可视化, Python 3, 预测建模, 工程数据

数据科学家

2016 - 2018
Human Forecast
  • 作为公司唯一的技术人员独立工作.
  • 开发了几个基于机器学习的价值主张的PoC解决方案, 其中大部分可以在我的GitHub配置文件中找到.
  • 销售和开发了四个最终产品:一个用于市场研究的主题发现引擎, 一个实时的社会品牌形象观察站, Edge AI扶手使用顾问, 以及一个基于聊天机器人的智能合约解决方案,用于国际商务跟踪.
  • 与CEO一起制定售前策略.
  • 为空客等大公司做过几次产品演示, Navantia, 瓦尔德希布伦医院, 和Cemex Ventures.
  • 在主题建模等不同领域工作过, 人体姿势识别, 高光谱影像, Edge AI, 情绪分析, chatbots, 聪明的合同, data mining, dashboarding, and APIs.
技术:Python, 机器学习, Google Cloud, Scikit-learn, 自然语言工具包(NLTK), OpenCV, Node.js, Git, TensorFlow, Pandas, NumPy, Raspberry Pi, Arduino, Solidity, Flask, Matplotlib, Bokeh, Plotly, D3.. js, Asyncio, superord, Apache HTTP服务器, NGINX, Web3.js、SciPy、美丽的汤、Docker、Express.js, Tableau, GIS, C, Data Science, SQL, Dashboards, Data Analysis, 数据可视化, 产品的领导, 预测建模

CTO

2014 - 2015
Ketekelo
  • 担任技术主管和全栈开发人员, 设置开发路线图并执行它, 和一名实习生一起.
  • 实现了几个自定义WordPress/WooCommerce组件、API集成和一个抓取工具.
  • 参加多个活动. 被马德里当地政府评为最佳球场, 吸引了Kike Sarasola和Fundación等投资者的兴趣.
  • 获得IE商学院、兰萨德拉和马德里地方政府的加速项目.
技术:PHP, JavaScript, HTML, Linux管理, WooCommerce, jQuery, Bootstrap, MySQL, Scraping, APIs, Ajax, SQL, 亚马逊网络服务(AWS), 产品的领导

市场研究主题发现引擎

http://github.com/danielperezr88/TOM
我创建了一个web服务,由Google自定义搜索API之间的集成组成, a web scraper, 以及一个主题建模管道, 所有这些都通过交互式前端进行管理和消费. 该服务的特色是创建新的搜索词D3.每个搜索词和日期确定的不同主题的可视化, 以及不同聚合级别的导航(每天的主题重要性), 每个主题的重要性, 每主题物品重量, etc.). 取消了具有不同级别权限和访问文章的用户管理.

它允许用户定义对感兴趣字段的细粒度搜索, 跟踪每个领域发现的不同主题及其随时间的相关性, 如果在这个领域中出现了一个新的感兴趣的话题,你就会迅速发现.

物流Dapp:用于货运跟踪的智能合约聊天机器人应用程序

http://github.com/danielperezr88/logistics-dapp
我开发的一个应用程序,运行在传统的Coinbase Toshi(目前被Wallet取代)上。, 旨在支持和记录所有涉及国际货运的交易. 该应用程序的界面是完全对话的,并具有多方功能, 基于角色的权限, 以及整个过程的一步一步跟进.

该应用程序处于活跃的MVP阶段. 它已经被测试并证明是有用的, 但由于Coinbase的Dapp平台的变化以及与赞助商关系的中断,目前不支持.

扶手顾问:现场人体姿势跟踪相机,提高工人的安全

http://github.com/danielperezr88/idoonet-rpi-mvncs
我在一个边缘AI设备上工作,该设备装载了一个独立的人体姿势跟踪软件(一个来自FOSS姿势估计项目的修改叉),并由一个小的, 低消耗计算单元, 附相机, 还有一个可选的警告灯泡, a screen, 还有音响系统.

Once placed on a point with good visibility of a handrail-guarded area and configured with labels of the handrail positions and associated areas of use; it will track the correct use of the handrail by all workers on the area and show real-time feedback to those in a preferred way (sound, video, 和灯泡反馈).

Languages

Python, Python 3, C, c++, SQL, PHP, JavaScript, HTML, Solidity, R, Java

Libraries/APIs

Scikit-learn, 自然语言工具包(NLTK), Pandas, NumPy, 美丽的汤, PySpark, PyTorch, Shapely, Matplotlib, Spark ML, jQuery, OpenCV, Node.. js, TensorFlow, D3.js、Asyncio、Web3.js, SciPy, SpaCy

Tools

Spark SQL, Amazon Elastic MapReduce (EMR), Git, Supervisord, Apache HTTP服务器, Apache气流, 命名实体识别(NER), GitLab CI/CD, GitHub, Jira, Seaborn, MATLAB, 亚马逊SageMaker, Plotly, NGINX, Tableau, GIS, Ansible, Helm, StatsModels

Paradigms

数据科学,持续交付(CD), ETL, Azure DevOps,敏捷,动态编程

Platforms

Visual Studio Code (VS Code), Jupyter笔记本, Windows, Docker, Unix, Raspberry Pi, Arduino, 亚马逊网络服务(AWS), Databricks, WooCommerce, Kubernetes

Other

Statistics, 自然语言处理(NLP), 机器学习, k近邻(KNN), TextRank, Data Analysis, 数据可视化, 预测建模, GPT, 生成预训练变压器(GPT), Windows Linux子系统(WSL), 数值方法, Programming, 嵌入式系统, Optimization, 计算机视觉, 信号处理, Deep Learning, Linux管理, Scraping, APIs, HyperOpt, Apache超集, Google Data Studio, 支持向量机(SVM), 神经网络, k - means聚类, 贝叶斯统计, 信息检索, Transformers, 字嵌入, 语言标签, FastAPI, 多处理, lxml, MLflow, 时间序列分析, 递归神经网络(rnn), 情绪分析, 业务规划, Chatbots, 主题建模, BERT, Dashboards, 产品的领导, 工程数据, Electronics, Telematics, 进化计算, Ajax, Bokeh, Robotics, 运动规划, 语言模型, Azure数据湖, Azure数据工厂, 编码器-解码器神经结构, 序列模型, 基本面分析, 定量分析, 投资组合优化, Risk Models, 归因建模, 回测交易策略, Negotiation, 税务会计, 业务建模, 商业模式画布, Partnerships, 谷歌自定义搜索, Clustering, 无监督学习, 预见性维护, 强化学习, 蒙特卡罗模拟, 深度强化学习, 时间差异学习, Monte Carlo

Frameworks

Flask, Django, Bootstrap, Express.js, Jinja

Storage

MySQL, PostgreSQL, Amazon S3 (AWS S3), MongoDB, Google Cloud, Microsoft SQL Server, SAP HANA SQLScript

2020 - 2020

人工智能研究生课程

斯坦福大学-加州斯坦福

2006 - 2014

本科及硕士学历,电信专业

阿尔卡尔大学-阿尔卡尔埃纳雷斯,马德里,西班牙

2022年10月至今

斯坦福强化学习

斯坦福大学|在线

2020年12月至今

斯坦福自然语言处理与深度学习

斯坦福大学|在线

2020年8月至今

人工智能交易纳米度

Udacity

2015年5月至今

创业加速与整合

IE商学院

2011年12月至今

人工智能概论

塞巴斯蒂安·特伦和彼得·诺维格

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring