大数据

大数据

机器学习面试之各种混乱的熵

请听题:什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么?   如果你感到回答这些问题...

21CTO社区 发表了文章 • 0 个评论 • 210 次浏览 • 2018-03-24 08:10

使用Node.js 抓取网页内容

很长时间以来,我尝试使用后端语言来抓取网页,比如Java,PHP。后端语言开发纯粹,也很方便,但是有时候内容不可见。我开始使用Node.js来抓取页面。   [...

21CTO社区 发表了文章 • 0 个评论 • 246 次浏览 • 2018-03-24 07:46

如何使用PHP读取大文件(一)

作为PHP开发者,我们并需要经常担心内存管理。PHP引擎在后台为我们做了很好的清理工作,执行完上下文就短期释放的Web服务器模型意味着,就算是烂代码也不会产生...

21CTO社区 发表了文章 • 0 个评论 • 745 次浏览 • 2017-11-20 23:52

1682亿背后:人类历史最大的协同技术支撑天猫双11

今年是第 9 次参加双 11 节,阿里巴巴集团首席技术官张建锋实现了“喝茶过零点洪峰”的心愿。      “今年双 11 不是由我指挥的,是机器一起指挥的”,张...

21CTO社区 发表了文章 • 0 个评论 • 353 次浏览 • 2017-11-15 22:31

Python 爬虫抓取了百万知乎,并做了分析

最近用 python 爬虫抓取了知乎用户个人资料(公开信息),去重之后有300+万条记录,为了得到这些数据,还不小心跑崩了一台服务器…… 当然主要是配置太低。...

21CTO社区 发表了文章 • 0 个评论 • 1751 次浏览 • 2017-11-09 06:59

全文搜索引擎 Elasticsearch 入门

全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。维...

21CTO社区 发表了文章 • 0 个评论 • 404 次浏览 • 2017-10-20 22:26

数据科学家必须知道的10个深度学习架构

近年来,深度学习的发展势头迅猛,要跟上深度学习的进步速度变得越来越困难了。几乎每一天都有关于深度学习的创新,而大部分的深度学习创新都隐藏在那些发表于ArXiv...

21CTO社区 发表了文章 • 0 个评论 • 474 次浏览 • 2017-10-07 07:11

推荐系统杂谈

推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容。现象级的资讯类app“今日头条”就得益于此成...

21CTO社区 发表了文章 • 0 个评论 • 562 次浏览 • 2017-09-17 07:02

干货:PHP与大数据开发实践

大数据是使用工具和技术处理大量和复杂数据集合的术语。能够处理大量数据的技术称为MapReduce。 何时使用MapReduce MapReduce特别适合涉及...

21CTO社区 发表了文章 • 1 个评论 • 1081 次浏览 • 2017-09-05 23:18

大数据处理框架的类型、比较和选择

前言   说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Process...

21CTO社区 发表了文章 • 0 个评论 • 399 次浏览 • 2017-09-03 09:08

用Python爬取微博数据生成词云图片

 很早前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较...

21CTO社区 发表了文章 • 0 个评论 • 479 次浏览 • 2017-09-03 07:48

面向大数据的分布式调度

前言   大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文从调度、分布式调度的特征展开,再对...

21CTO社区 发表了文章 • 0 个评论 • 488 次浏览 • 2017-09-02 11:47

技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

数据科学家老司机的30个经验之谈,教你如何在公司内获得认同,带你绕过他们曾经踩过的坑。 大数据文摘作品,作者 | SeattleDataGuy,编译 | Ai...

21CTO社区 发表了文章 • 0 个评论 • 443 次浏览 • 2017-08-30 21:52

我爬下摩拜6万单车数据,聊聊共享经济在城市中的热潮

共享经济的浪潮席卷着各行各业,而出行行业是这股大潮中的主要分支。如今,在城市中随处可见共享单车的身影,给人们的生活出行带来了便利。相信大家总会遇到这样的窘境,...

21CTO社区 发表了文章 • 0 个评论 • 413 次浏览 • 2017-08-28 00:27

基于mybatis读写分离插件

我相信很多朋友都尝试写过读写分离插件,或者项目中用到过。首先读写分离的职责应该属于数据访问层而不是业务层,其次读写分离不应该侵入我们代码层中。因此在servi...

21CTO社区 发表了文章 • 0 个评论 • 396 次浏览 • 2017-08-27 13:22

机器学习面试之各种混乱的熵

请听题:什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么?   如果你感到回答这些问题...

21CTO社区 发表了文章 • 0 个评论 • 210 次浏览 • 2018-03-24 08:10

使用Node.js 抓取网页内容

很长时间以来,我尝试使用后端语言来抓取网页,比如Java,PHP。后端语言开发纯粹,也很方便,但是有时候内容不可见。我开始使用Node.js来抓取页面。   [...

21CTO社区 发表了文章 • 0 个评论 • 246 次浏览 • 2018-03-24 07:46

如何使用PHP读取大文件(一)

作为PHP开发者,我们并需要经常担心内存管理。PHP引擎在后台为我们做了很好的清理工作,执行完上下文就短期释放的Web服务器模型意味着,就算是烂代码也不会产生...

21CTO社区 发表了文章 • 0 个评论 • 745 次浏览 • 2017-11-20 23:52

1682亿背后:人类历史最大的协同技术支撑天猫双11

今年是第 9 次参加双 11 节,阿里巴巴集团首席技术官张建锋实现了“喝茶过零点洪峰”的心愿。      “今年双 11 不是由我指挥的,是机器一起指挥的”,张...

21CTO社区 发表了文章 • 0 个评论 • 353 次浏览 • 2017-11-15 22:31

Python 爬虫抓取了百万知乎,并做了分析

最近用 python 爬虫抓取了知乎用户个人资料(公开信息),去重之后有300+万条记录,为了得到这些数据,还不小心跑崩了一台服务器…… 当然主要是配置太低。...

21CTO社区 发表了文章 • 0 个评论 • 1751 次浏览 • 2017-11-09 06:59

全文搜索引擎 Elasticsearch 入门

全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。维...

21CTO社区 发表了文章 • 0 个评论 • 404 次浏览 • 2017-10-20 22:26

数据科学家必须知道的10个深度学习架构

近年来,深度学习的发展势头迅猛,要跟上深度学习的进步速度变得越来越困难了。几乎每一天都有关于深度学习的创新,而大部分的深度学习创新都隐藏在那些发表于ArXiv...

21CTO社区 发表了文章 • 0 个评论 • 474 次浏览 • 2017-10-07 07:11

推荐系统杂谈

推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容。现象级的资讯类app“今日头条”就得益于此成...

21CTO社区 发表了文章 • 0 个评论 • 562 次浏览 • 2017-09-17 07:02

干货:PHP与大数据开发实践

大数据是使用工具和技术处理大量和复杂数据集合的术语。能够处理大量数据的技术称为MapReduce。 何时使用MapReduce MapReduce特别适合涉及...

21CTO社区 发表了文章 • 1 个评论 • 1081 次浏览 • 2017-09-05 23:18

大数据处理框架的类型、比较和选择

前言   说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Process...

21CTO社区 发表了文章 • 0 个评论 • 399 次浏览 • 2017-09-03 09:08

用Python爬取微博数据生成词云图片

 很早前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较...

21CTO社区 发表了文章 • 0 个评论 • 479 次浏览 • 2017-09-03 07:48

面向大数据的分布式调度

前言   大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文从调度、分布式调度的特征展开,再对...

21CTO社区 发表了文章 • 0 个评论 • 488 次浏览 • 2017-09-02 11:47

技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

数据科学家老司机的30个经验之谈,教你如何在公司内获得认同,带你绕过他们曾经踩过的坑。 大数据文摘作品,作者 | SeattleDataGuy,编译 | Ai...

21CTO社区 发表了文章 • 0 个评论 • 443 次浏览 • 2017-08-30 21:52

我爬下摩拜6万单车数据,聊聊共享经济在城市中的热潮

共享经济的浪潮席卷着各行各业,而出行行业是这股大潮中的主要分支。如今,在城市中随处可见共享单车的身影,给人们的生活出行带来了便利。相信大家总会遇到这样的窘境,...

21CTO社区 发表了文章 • 0 个评论 • 413 次浏览 • 2017-08-28 00:27

基于mybatis读写分离插件

我相信很多朋友都尝试写过读写分离插件,或者项目中用到过。首先读写分离的职责应该属于数据访问层而不是业务层,其次读写分离不应该侵入我们代码层中。因此在servi...

21CTO社区 发表了文章 • 0 个评论 • 396 次浏览 • 2017-08-27 13:22