MySQL数据库事务的基本性质为ACID即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)。接下来就来了解一下各种特性的内容:查看全文>>
有两种方法可以进行二次排序,分别为:buffer and in memory sort和 value-to-key conversion。buffer and in memory sort的主要思想是:在reduce()函数中,将某个key对应的所有value保存到内存中,然后进行排序。查看全文>>
join() 方法的作用 join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。查看全文>>
一般情况下,在选择是使用多进程还是多线程时,主要考虑的业务到底是IO密集型(多线程)还是计算密集型(多进程)。在爬虫中,请求的并发业务属于是网络的IO类型业务,因此网络并发适宜使用多线程;但特殊需求下,比如使用phantomjs 或者chrome-headless来抓取的爬虫,应当是多进程的,因为每一个phan/chro实例就是一个进程了,并发只能是多进程。查看全文>>
如果抓取的数据之间的耦合性很高,关系比较复杂的话,那么mysql可能会是更好的选择。如果抓取的数据是分版块的,并且它们之间没有相似性或关联性不强,那么可能mongodb 会更好。查看全文>>
每个数据仓库都包含一个或者多个事实数据表,事实表是对分析主题的度量,它包含了与各维度表相关联的外键,并通过连接(Join)方式与维度表关联。查看全文>>