所謂海量數(shù)據(jù)處理,無(wú)非就是基于海量數(shù)據(jù)上的存儲(chǔ)、處理、操作。何謂海量,就是數(shù)據(jù)量太大,所以導(dǎo)致要么是無(wú)法在較短時(shí)間內(nèi)迅速解決,要么是數(shù)據(jù)太大,導(dǎo)致無(wú)法一次性裝入內(nèi)存。
那解決辦法呢?
針對(duì)時(shí)間: 我們可以采用巧妙的算法搭配合適的數(shù)據(jù)結(jié)構(gòu),如Bloom filter/Hash/bit-map/堆/數(shù)據(jù)庫(kù)或倒排索引/trie樹(shù);
針對(duì)空間: 無(wú)非就一個(gè)辦法: 大而化小,分而治之(hash映射);
集群|分布式: 通俗點(diǎn)來(lái)講,單機(jī)就是處理裝載數(shù)據(jù)的機(jī)器有限(只要考慮cpu,內(nèi)存,硬盤(pán)的數(shù)據(jù)交互); 而集群適合分布式處理,并行計(jì)算(更多考慮節(jié)點(diǎn)和節(jié)點(diǎn)間的數(shù)據(jù)交互)。