* string.c (hash): added MurmurHash 2.0.
git-svn-id: svn+ssh://ci.ruby-lang.org/ruby/trunk@21663 b2dd03c8-39d4-4d8f-98ff-823fe69b080e
This commit is contained in:
parent
4c4aef3bbe
commit
768988f918
@ -1,3 +1,7 @@
|
|||||||
|
Mon Jan 19 16:32:35 2009 Nobuyoshi Nakada <nobu@ruby-lang.org>
|
||||||
|
|
||||||
|
* string.c (hash): added MurmurHash 2.0.
|
||||||
|
|
||||||
Mon Jan 19 14:31:59 2009 Nobuyoshi Nakada <nobu@ruby-lang.org>
|
Mon Jan 19 14:31:59 2009 Nobuyoshi Nakada <nobu@ruby-lang.org>
|
||||||
|
|
||||||
* thread.c (rb_thread_execute_interrupts): needs
|
* thread.c (rb_thread_execute_interrupts): needs
|
||||||
|
147
string.c
147
string.c
@ -1882,81 +1882,123 @@ rb_str_concat(VALUE str1, VALUE str2)
|
|||||||
#endif
|
#endif
|
||||||
|
|
||||||
/* MurmurHash described in http://murmurhash.googlepages.com/ */
|
/* MurmurHash described in http://murmurhash.googlepages.com/ */
|
||||||
|
#ifndef MURMUR
|
||||||
|
#define MURMUR 1
|
||||||
|
#endif
|
||||||
|
|
||||||
|
#define MurmurMagic 0x7fd652ad
|
||||||
|
|
||||||
|
static inline unsigned int
|
||||||
|
murmur(unsigned int h, unsigned int k, int r)
|
||||||
|
{
|
||||||
|
const unsigned int m = MurmurMagic;
|
||||||
|
#if MURMUR == 1
|
||||||
|
h += k;
|
||||||
|
h *= m;
|
||||||
|
h ^= h >> r;
|
||||||
|
#elif MURMUR == 2
|
||||||
|
k *= m;
|
||||||
|
k ^= k >> r;
|
||||||
|
k *= m;
|
||||||
|
|
||||||
|
h *= m;
|
||||||
|
h ^= k;
|
||||||
|
#endif
|
||||||
|
return h;
|
||||||
|
}
|
||||||
|
|
||||||
|
static inline unsigned int
|
||||||
|
murmur_finish(unsigned int h)
|
||||||
|
{
|
||||||
|
#if MURMUR == 1
|
||||||
|
h = murmur(h, 0, 10);
|
||||||
|
h = murmur(h, 0, 17);
|
||||||
|
#elif MURMUR == 2
|
||||||
|
h ^= h >> 13;
|
||||||
|
h *= MurmurMagic;
|
||||||
|
h ^= h >> 15;
|
||||||
|
#endif
|
||||||
|
return h;
|
||||||
|
}
|
||||||
|
|
||||||
|
#define murmur_step(h, k) murmur(h, k, 16)
|
||||||
|
|
||||||
static unsigned int
|
static unsigned int
|
||||||
hash(const unsigned char * data, int len, unsigned int h)
|
hash(const unsigned char * data, int len, unsigned int h)
|
||||||
{
|
{
|
||||||
const unsigned int m = 0x7fd652ad;
|
uint32_t t = 0;
|
||||||
const int r = 16;
|
|
||||||
|
|
||||||
h += 0xdeadbeef;
|
h += 0xdeadbeef;
|
||||||
|
|
||||||
if (len >= 4) {
|
#ifdef WORDS_BIGENDIAN
|
||||||
|
# define SHIFT_OFFSET(i) ((i)*CHAR_BIT)
|
||||||
|
#else
|
||||||
|
# define SHIFT_OFFSET(i) (32-(i)*CHAR_BIT)
|
||||||
|
#endif
|
||||||
|
if (len >= sizeof(uint32_t)) {
|
||||||
#if !UNALIGNED_WORD_ACCESS
|
#if !UNALIGNED_WORD_ACCESS
|
||||||
int align = (VALUE)data & 3;
|
int align = (VALUE)data % sizeof(uint32_t);
|
||||||
if (align) {
|
if (align) {
|
||||||
uint32_t t = 0, d = 0;
|
uint32_t d = 0;
|
||||||
int sl, sr, pack;
|
int sl, sr, pack;
|
||||||
|
|
||||||
switch (align) {
|
switch (align) {
|
||||||
#ifdef WORDS_BIGENDIAN
|
#ifdef WORDS_BIGENDIAN
|
||||||
case 1: t |= data[2];
|
case 1: t |= data[2];
|
||||||
case 2: t |= data[1] << 8;
|
case 2: t |= data[1] << CHAR_BIT;
|
||||||
case 3: t |= data[0] << 16;
|
case 3: t |= data[0] << CHAR_BIT*2;
|
||||||
#else
|
#else
|
||||||
case 1: t |= data[2] << 16;
|
case 1: t |= data[2] << CHAR_BIT*2;
|
||||||
case 2: t |= data[1] << 8;
|
case 2: t |= data[1] << CHAR_BIT;
|
||||||
case 3: t |= data[0];
|
case 3: t |= data[0];
|
||||||
#endif
|
#endif
|
||||||
}
|
}
|
||||||
|
|
||||||
#ifdef WORDS_BIGENDIAN
|
#ifdef WORDS_BIGENDIAN
|
||||||
t >>= (8 * align) - 8;
|
t >>= (CHAR_BIT * align) - CHAR_BIT;
|
||||||
#else
|
#else
|
||||||
t <<= (8 * align);
|
t <<= (CHAR_BIT * align);
|
||||||
#endif
|
#endif
|
||||||
|
|
||||||
data += 4-align;
|
data += sizeof(uint32_t)-align;
|
||||||
len -= 4-align;
|
len -= sizeof(uint32_t)-align;
|
||||||
|
|
||||||
sl = 8 * (4-align);
|
sl = CHAR_BIT * (sizeof(uint32_t)-align);
|
||||||
sr = 8 * align;
|
sr = CHAR_BIT * align;
|
||||||
|
|
||||||
while (len >= 4) {
|
while (len >= sizeof(uint32_t)) {
|
||||||
d = *(uint32_t *)data;
|
d = *(uint32_t *)data;
|
||||||
#ifdef WORDS_BIGENDIAN
|
#ifdef WORDS_BIGENDIAN
|
||||||
t = (t << sr) | (d >> sl);
|
t = (t << sr) | (d >> sl);
|
||||||
#else
|
#else
|
||||||
t = (t >> sr) | (d << sl);
|
t = (t >> sr) | (d << sl);
|
||||||
#endif
|
#endif
|
||||||
h += t;
|
h = murmur(h, t);
|
||||||
h *= m;
|
|
||||||
h ^= h >> r;
|
|
||||||
t = d;
|
t = d;
|
||||||
|
data += sizeof(uint32_t);
|
||||||
data += 4;
|
len -= sizeof(uint32_t);
|
||||||
len -= 4;
|
|
||||||
}
|
}
|
||||||
|
|
||||||
pack = len < align ? len : align;
|
pack = len < align ? len : align;
|
||||||
d = 0;
|
d = 0;
|
||||||
switch (pack) {
|
switch (pack) {
|
||||||
#ifdef WORDS_BIGENDIAN
|
#ifdef WORDS_BIGENDIAN
|
||||||
case 3: d |= data[2] << 8;
|
case 3: d |= data[2] << CHAR_BIT;
|
||||||
case 2: d |= data[1] << 16;
|
case 2: d |= data[1] << CHAR_BIT*2;
|
||||||
case 1: d |= data[0] << 24;
|
case 1: d |= data[0] << CHAR_BIT*3;
|
||||||
case 0:
|
|
||||||
h += (t << sr) | (d >> sl);
|
|
||||||
#else
|
#else
|
||||||
case 3: d |= data[2] << 16;
|
case 3: d |= data[2] << CHAR_BIT*2;
|
||||||
case 2: d |= data[1] << 8;
|
case 2: d |= data[1] << CHAR_BIT;
|
||||||
case 1: d |= data[0];
|
case 1: d |= data[0];
|
||||||
case 0:
|
|
||||||
h += (t >> sr) | (d << sl);
|
|
||||||
#endif
|
#endif
|
||||||
h *= m;
|
|
||||||
h ^= h >> r;
|
|
||||||
}
|
}
|
||||||
|
#ifdef WORDS_BIGENDIAN
|
||||||
|
t = (t << sr) | (d >> sl);
|
||||||
|
#else
|
||||||
|
t = (t >> sr) | (d << sl);
|
||||||
|
#endif
|
||||||
|
|
||||||
|
h = murmur_step(h, t);
|
||||||
data += pack;
|
data += pack;
|
||||||
len -= pack;
|
len -= pack;
|
||||||
}
|
}
|
||||||
@ -1964,42 +2006,39 @@ hash(const unsigned char * data, int len, unsigned int h)
|
|||||||
#endif
|
#endif
|
||||||
{
|
{
|
||||||
do {
|
do {
|
||||||
h += *(uint32_t *)data;
|
h = murmur_step(h, *(uint32_t *)data);
|
||||||
h *= m;
|
data += sizeof(uint32_t);
|
||||||
h ^= h >> r;
|
len -= sizeof(uint32_t);
|
||||||
|
} while (len >= sizeof(uint32_t));
|
||||||
data += 4;
|
|
||||||
len -= 4;
|
|
||||||
} while (len >= 4);
|
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
|
|
||||||
|
t = 0;
|
||||||
switch(len) {
|
switch(len) {
|
||||||
#ifdef WORDS_BIGENDIAN
|
#ifdef WORDS_BIGENDIAN
|
||||||
case 3:
|
case 3:
|
||||||
h += data[2] << 8;
|
t |= data[2] << CHAR_BIT;
|
||||||
case 2:
|
case 2:
|
||||||
h += data[1] << 16;
|
t |= data[1] << CHAR_BIT*2;
|
||||||
case 1:
|
case 1:
|
||||||
h += data[0] << 24;
|
t |= data[0] << CHAR_BIT*3;
|
||||||
#else
|
#else
|
||||||
case 3:
|
case 3:
|
||||||
h += data[2] << 16;
|
t |= data[2] << CHAR_BIT*2;
|
||||||
case 2:
|
case 2:
|
||||||
h += data[1] << 8;
|
t |= data[1] << CHAR_BIT;
|
||||||
case 1:
|
case 1:
|
||||||
h += data[0];
|
t |= data[0];
|
||||||
|
#endif
|
||||||
|
#if MURMUR == 1
|
||||||
|
h = murmur_step(h, t);
|
||||||
|
#elif MURMUR1 == 2
|
||||||
|
h ^= t;
|
||||||
|
h *= MurmurMagic;
|
||||||
#endif
|
#endif
|
||||||
h *= m;
|
|
||||||
h ^= h >> r;
|
|
||||||
}
|
}
|
||||||
|
|
||||||
h *= m;
|
return murmur_finish(h);
|
||||||
h ^= h >> 10;
|
|
||||||
h *= m;
|
|
||||||
h ^= h >> 17;
|
|
||||||
|
|
||||||
return h;
|
|
||||||
}
|
}
|
||||||
|
|
||||||
int
|
int
|
||||||
|
Loading…
x
Reference in New Issue
Block a user