]> git.saurik.com Git - redis.git/log
redis.git
12 years agoIncrementally flush RDB on disk while loading it from a master.
antirez [Fri, 24 Aug 2012 17:28:44 +0000 (19:28 +0200)] 
Incrementally flush RDB on disk while loading it from a master.

This fixes issue #539.

Basically if there is enough free memory the OS may buffer the RDB file
that the slave transfers on disk from the master. The file may
actually be flused on disk at once by the operating system when it gets
closed by Redis, causing the close system call to block for a long time.

This patch is a modified version of one provided by yoav-steinberg of
@garantiadata (the original version was posted in the issue #539
comments), and tries to flush the OS buffers incrementally (every 8 MB
of loaded data).

12 years agoFix a forget zmalloc_oom() -> zmalloc_oom_handler() replacement.
antirez [Fri, 24 Aug 2012 13:40:22 +0000 (15:40 +0200)] 
Fix a forget zmalloc_oom() -> zmalloc_oom_handler() replacement.

12 years agoBetter Out of Memory handling.
antirez [Fri, 24 Aug 2012 10:55:37 +0000 (12:55 +0200)] 
Better Out of Memory handling.

The previous implementation of zmalloc.c was not able to handle out of
memory in an application-specific way. It just logged an error on
standard error, and aborted.

The result was that in the case of an actual out of memory in Redis
where malloc returned NULL (In Linux this actually happens under
specific overcommit policy settings and/or with no or little swap
configured) the error was not properly logged in the Redis log.

This commit fixes this problem, fixing issue #509.
Now the out of memory is properly reported in the Redis log and a stack
trace is generated.

The approach used is to provide a configurable out of memory handler
to zmalloc (otherwise the default one logging the event on the
standard output is used).

12 years agoSentinel: send SCRIPT KILL on -BUSY reply and SDOWN instance.
antirez [Fri, 24 Aug 2012 10:29:54 +0000 (12:29 +0200)] 
Sentinel: send SCRIPT KILL on -BUSY reply and SDOWN instance.

From the point of view of Redis an instance replying -BUSY is down,
since it is effectively not able to reply to user requests. However
a looping script is a recoverable condition in Redis if the script still
did not performed any write to the dataset. In that case performing a
fail over is not optimal, so Sentinel now tries to restore the normal server
condition killing the script with a SCRIPT KILL command.

If the script already performed some write before entering an infinite
(or long enough to timeout) loop, SCRIPT KILL will not work and the
fail over will be triggered anyway.

12 years agoSentinel: fixed a crash on script execution.
antirez [Fri, 24 Aug 2012 10:10:24 +0000 (12:10 +0200)] 
Sentinel: fixed a crash on script execution.

The call to sentinelScheduleScriptExecution() lacked the final NULL
argument to signal the end of arguments. This resulted into a crash.

12 years agoMerge pull request #628 from pietern/unstable-zip
Salvatore Sanfilippo [Wed, 22 Aug 2012 09:32:27 +0000 (02:32 -0700)] 
Merge pull request #628 from pietern/unstable-zip

Fix ziplist edge case

12 years agoredis-benchmark: disable big buffer cleanup in hiredis context.
antirez [Tue, 21 Aug 2012 15:31:44 +0000 (17:31 +0200)] 
redis-benchmark: disable big buffer cleanup in hiredis context.

This new hiredis features allows us to reuse a previous context reader
buffer even if already very big in order to maximize performances with
big payloads (Usually hiredis re-creates buffers when they are too big
and unused in order to save memory).

12 years agohiredis library updated.
antirez [Tue, 21 Aug 2012 15:27:01 +0000 (17:27 +0200)] 
hiredis library updated.

This version of hiredis merges modifications of the Redis fork with
latest changes in the hiredis repository.

The same version was pushed on the hiredis repository and will probably
merged into the master branch in short time.

12 years agoSet p to its new offset before modifying it
Pieter Noordhuis [Mon, 13 Aug 2012 19:39:49 +0000 (12:39 -0700)] 
Set p to its new offset before modifying it

12 years agoAdd ziplist test for deleting next to last entries
Pieter Noordhuis [Mon, 13 Aug 2012 21:09:40 +0000 (14:09 -0700)] 
Add ziplist test for deleting next to last entries

12 years agoSentinel: SENTINEL FAILOVER command implemented.
antirez [Fri, 3 Aug 2012 10:39:13 +0000 (12:39 +0200)] 
Sentinel: SENTINEL FAILOVER command implemented.

This command can be used in order to force a Sentinel instance to start
a failover for the specified master, as leader, forcing the failover
even if the master is up.

The commit also adds some minor refactoring and other improvements to
functions already implemented that make them able to work when the
master is not in SDOWN condition. For instance slave selection
assumed that we ask INFO every second to every slave, this is true
only when the master is in SDOWN condition, so slave selection did not
worked when the master was not in SDOWN condition.

12 years agoSentinel: client reconfiguration script execution.
antirez [Thu, 2 Aug 2012 16:40:30 +0000 (18:40 +0200)] 
Sentinel: client reconfiguration script execution.

This commit adds support to optionally execute a script when one of the
following events happen:

* The failover starts (with a slave already promoted).
* The failover ends.
* The failover is aborted.

The script is called with enough parameters (documented in the example
sentinel.conf file) to provide information about the old and new ip:port
pair of the master, the role of the sentinel (leader or observer) and
the name of the master.

The goal of the script is to inform clients of the configuration change
in a way specific to the environment Sentinel is running, that can't be
implemented in a genereal way inside Sentinel itself.

12 years agoMerge pull request #613 from tobstarr/patch-1
Salvatore Sanfilippo [Thu, 2 Aug 2012 12:37:10 +0000 (05:37 -0700)] 
Merge pull request #613 from tobstarr/patch-1

Fix version numbers

12 years agoFix version numbers
Tobias Schwab [Thu, 2 Aug 2012 12:10:51 +0000 (15:10 +0300)] 
Fix version numbers

12 years agoSentinel: when leader in wait-start, sense another leader as race.
antirez [Tue, 31 Jul 2012 15:11:26 +0000 (17:11 +0200)] 
Sentinel: when leader in wait-start, sense another leader as race.

When we are in wait start, if another leader (or any other external
entity) turns a slave into a master, abort the failover, and detect it
as an observer.

Note that the wait-start state is mainly there for this reason but the
abort was yet not implemented.

This adds a new sentinel event -failover-abort-race.

12 years agoSentinel: sentinelRefreshInstanceInfo() comments improved a bit.
antirez [Tue, 31 Jul 2012 14:18:15 +0000 (16:18 +0200)] 
Sentinel: sentinelRefreshInstanceInfo() comments improved a bit.

12 years agoUse correct variable name for value to convert.
Michael Parker [Thu, 26 Jul 2012 06:51:22 +0000 (23:51 -0700)] 
Use correct variable name for value to convert.

Note by @antirez: this code was never compiled because utils.c lacked the
float.h include, so we never noticed this variable was mispelled in the
past.

This should provide a noticeable speed boost when saving certain types
of databases with many sorted sets inside.

12 years agoSentinel: sentinel.conf self-documenation improved.
antirez [Tue, 31 Jul 2012 09:05:21 +0000 (11:05 +0200)] 
Sentinel: sentinel.conf self-documenation improved.

12 years agoSentinel: abort failover when in wait-start if master is back.
antirez [Tue, 31 Jul 2012 08:14:23 +0000 (10:14 +0200)] 
Sentinel: abort failover when in wait-start if master is back.

When we are a Leader Sentinel in wait-start state, starting with this
commit the failover is aborted if the master returns online.

This improves the way we handle a notable case of net split, that is the
split between Sentinels and Redis servers, that will be a very common
case of split becase Sentinels will often be installed in the client's
network and servers can be in a differnt arm of the network.

When Sentinels and Redis servers are isolated the master is in ODOWN
condition since the Sentinels can agree about this state, however the
failover does not start since there are no good slaves to promote (in
this specific case all the slaves are unreachable).

However when the split is resolved, Sentinels may sense the slave back
a moment before they sense the master is back, so the failover may start
without a good reason (since the master is actually working too).

Now this condition is reversible, so the failover will be aborted
immediately after if the master is detected to be working again, that
is, not in SDOWN nor in ODOWN condition.

12 years agoMerge remote-tracking branch 'origin/unstable' into unstable
antirez [Sat, 28 Jul 2012 18:55:17 +0000 (20:55 +0200)] 
Merge remote-tracking branch 'origin/unstable' into unstable

12 years agoSentinel: scripts execution engine improved.
antirez [Fri, 27 Jul 2012 08:39:39 +0000 (10:39 +0200)] 
Sentinel: scripts execution engine improved.

We no longer use a vanilla fork+execve but take a queue of jobs of
scripts to execute, with retry on error, timeouts, and so forth.

Currently this is used only for notifications but soon the ability to
also call clients reconfiguration scripts will be added.

12 years agocomment fix
Jeremy Zawodny [Wed, 25 Jul 2012 15:29:11 +0000 (08:29 -0700)] 
comment fix

improve English a bit. :-)

12 years agoMerge pull request #606 from badboy/patch-1
Salvatore Sanfilippo [Sat, 28 Jul 2012 09:51:56 +0000 (02:51 -0700)] 
Merge pull request #606 from badboy/patch-1

Include sys/wait.h to avoid compiler warning

12 years agoInclude sys/wait.h to avoid compiler warning
Jan-Erik Rediger [Sat, 28 Jul 2012 09:33:01 +0000 (12:33 +0300)] 
Include sys/wait.h to avoid compiler warning

gcc warned about an implicit declaration of function 'wait3'.
Including this header fixes this.

12 years agoMerge pull request #587 from saj/truncate-short-write-from-aof
Salvatore Sanfilippo [Fri, 27 Jul 2012 10:56:48 +0000 (03:56 -0700)] 
Merge pull request #587 from saj/truncate-short-write-from-aof

Truncate short write from the AOF

12 years agoMerge pull request #586 from saj/aof_last_bgrewrite_status
Salvatore Sanfilippo [Fri, 27 Jul 2012 10:55:20 +0000 (03:55 -0700)] 
Merge pull request #586 from saj/aof_last_bgrewrite_status

New in INFO: aof_last_bgrewrite_status

12 years agoSentinel: don't start a failover as leader if there is no good slave.
antirez [Thu, 26 Jul 2012 10:09:40 +0000 (12:09 +0200)] 
Sentinel: don't start a failover as leader if there is no good slave.

12 years agoMerge pull request #604 from jzawodn/patch-1
Salvatore Sanfilippo [Wed, 25 Jul 2012 15:31:57 +0000 (08:31 -0700)] 
Merge pull request #604 from jzawodn/patch-1

comment fix

12 years agocomment fix
Jeremy Zawodny [Wed, 25 Jul 2012 15:29:11 +0000 (08:29 -0700)] 
comment fix

improve English a bit. :-)

12 years agoSentinel: ability to execute notification scripts.
antirez [Wed, 25 Jul 2012 14:33:37 +0000 (16:33 +0200)] 
Sentinel: ability to execute notification scripts.

12 years agoMerge pull request #603 from mrb/fix_sentinel_config_warning
Salvatore Sanfilippo [Wed, 25 Jul 2012 14:15:53 +0000 (07:15 -0700)] 
Merge pull request #603 from mrb/fix_sentinel_config_warning

Fix warning in redis.c for sentinel config load

12 years agoMerge pull request #602 from mrb/sentinel_docs
Salvatore Sanfilippo [Wed, 25 Jul 2012 14:15:02 +0000 (07:15 -0700)] 
Merge pull request #602 from mrb/sentinel_docs

Some cleanup in sentinel.conf

12 years agoFix warning in redis.c for sentinel config load
mrb [Wed, 25 Jul 2012 13:55:53 +0000 (09:55 -0400)] 
Fix warning in redis.c for sentinel config load

12 years agoSome cleanup in sentinel.conf
mrb [Wed, 25 Jul 2012 13:52:26 +0000 (09:52 -0400)] 
Some cleanup in sentinel.conf

12 years agoSentinel: abort failover if no good slave is available.
antirez [Wed, 25 Jul 2012 09:32:19 +0000 (11:32 +0200)] 
Sentinel: abort failover if no good slave is available.

The previous behavior of the state machine was to wait some time and
retry the slave selection, but this is not robust enough against drastic
changes in the conditions of the monitored instances.

What we do now when the slave selection fails is to abort the failover
and return back monitoring the master. If the ODOWN condition is still
present a new failover will be triggered and so forth.

This commit also refactors the code we use to abort a failover.

12 years agoSentinel: reset pending_commands in a more generic way.
antirez [Tue, 24 Jul 2012 16:57:26 +0000 (18:57 +0200)] 
Sentinel: reset pending_commands in a more generic way.

12 years agoPrevent a spurious +sdown event on switch.
antirez [Tue, 24 Jul 2012 16:46:04 +0000 (18:46 +0200)] 
Prevent a spurious +sdown event on switch.

When we reset the master we should start with clean timestamps for ping
replies otherwise we'll detect a spurious +sdown event, because on
+master-switch event the previous master instance was probably in +sdown
condition. Since we updated the address we should count time from
scratch again.

Also this commit makes sure to explicitly reset the count of pending
commands, now we can do this because of the new way the hiredis link
is closed.

12 years agoSentinel: debugging message removed.
antirez [Tue, 24 Jul 2012 16:20:05 +0000 (18:20 +0200)] 
Sentinel: debugging message removed.

12 years agoSentinel: changes to connection handling and redirection.
antirez [Tue, 24 Jul 2012 16:15:44 +0000 (18:15 +0200)] 
Sentinel: changes to connection handling and redirection.

We disconnect the Redis instances hiredis link in a more robust way now.
Also we change the way we perform the redirection for the +switch-master
event, that is not just an instance reset with an address change.

Using the same system we now implement the +redirect-to-master event
that is triggered by an instance that is configured to be master but
found to be a slave at the first INFO reply. In that case we monitor the
master instead, logging the incident as an event.

12 years agoSentinel: check that instance still exists in reply callbacks.
antirez [Tue, 24 Jul 2012 14:35:23 +0000 (16:35 +0200)] 
Sentinel: check that instance still exists in reply callbacks.

We can't be sure the instance object still exists when the reply
callback is called.

12 years agoSentinel: more robust failover detection as observer.
antirez [Tue, 24 Jul 2012 10:42:40 +0000 (12:42 +0200)] 
Sentinel: more robust failover detection as observer.

Sentinel observers detect failover checking if a slave attached to the
monitored master turns into its replication state from slave to master.
However while this change may in theory only happen after a SLAVEOF NO
ONE command, in practie it is very easy to reboot a slave instance with
a wrong configuration that turns it into a master, especially if it was
a past master before a successfull failover.

This commit changes the detection policy so that if an instance goes
from slave to master, but at the same time the runid has changed, we
sense a reboot, and in that case we don't detect a failover at all.

This commit also introduces the "reboot" sentinel event, that is logged
at "warning" level (so this will trigger an admin notification).

The commit also fixes a problem in the disconnect handler that assumed
that the instance object always existed, that is not the case. Now we
no longer assume that redisAsyncFree() will call the disconnection
handler before returning.

12 years agoFixed an error in the example sentinel.conf.
antirez [Mon, 23 Jul 2012 13:08:36 +0000 (15:08 +0200)] 
Fixed an error in the example sentinel.conf.

12 years agoTypo.
antirez [Mon, 23 Jul 2012 13:06:55 +0000 (15:06 +0200)] 
Typo.

12 years agoFirst implementation of Redis Sentinel.
antirez [Mon, 23 Jul 2012 10:54:52 +0000 (12:54 +0200)] 
First implementation of Redis Sentinel.

This commit implements the first, beta quality implementation of Redis
Sentinel, a distributed monitoring system for Redis with notification
and automatic failover capabilities.

More info at http://redis.io/topics/sentinel

12 years agoMerge remote-tracking branch 'origin/unstable' into unstable
antirez [Sun, 22 Jul 2012 15:18:42 +0000 (17:18 +0200)] 
Merge remote-tracking branch 'origin/unstable' into unstable

12 years agoAllow Pub/Sub in contexts where other commands are blocked.
antirez [Sun, 22 Jul 2012 15:13:49 +0000 (17:13 +0200)] 
Allow Pub/Sub in contexts where other commands are blocked.

Redis loading data from disk, and a Redis slave disconnected from its
master with serve-stale-data disabled, are two conditions where
commands are normally refused by Redis, returning an error.

However there is no reason to disable Pub/Sub commands as well, given
that this layer does not interact with the dataset. To allow Pub/Sub in
as many contexts as possible is especially interesting now that Redis
Sentinel uses Pub/Sub of a Redis master as a communication channel
between Sentinels.

This commit allows Pub/Sub to be used in the above two contexts where
it was previously denied.

12 years agoMerge pull request #593 from steevel/unstable
Salvatore Sanfilippo [Sat, 21 Jul 2012 18:12:35 +0000 (11:12 -0700)] 
Merge pull request #593 from steevel/unstable

Check that we have connection before enabling pipe mode

12 years agoDon't assume that "char" is signed.
antirez [Wed, 18 Jul 2012 10:01:43 +0000 (12:01 +0200)] 
Don't assume that "char" is signed.

For the C standard char can be either signed or unsigned, it's up to the
compiler, but Redis assumed that it was signed in a few places.

The practical effect of this patch is that now Redis 2.6 will run
correctly in every system where char is unsigned, notably the RaspBerry
PI and other ARM systems with GCC.

Thanks to Georgi Marinov (@eesn on twitter) that reported the problem
and allowed me to use his RaspBerry via SSH to trace and fix the issue!

12 years agoTruncate short write from the AOF
Saj Goonatilleke [Mon, 16 Jul 2012 05:33:25 +0000 (15:33 +1000)] 
Truncate short write from the AOF

If Redis only manages to write out a partial buffer, the AOF file won't
load back into Redis the next time it starts up.  It is better to
discard the short write than waste time running redis-check-aof.

12 years agoNew in INFO: aof_last_bgrewrite_status
Saj Goonatilleke [Tue, 17 Jul 2012 02:06:53 +0000 (12:06 +1000)] 
New in INFO: aof_last_bgrewrite_status

Behaves like rdb_last_bgsave_status -- even down to reporting 'ok' when
no rewrite has been done yet.  (You might want to check that
aof_last_rewrite_time_sec is not -1.)

12 years agoCheck that we have connection before enabling pipe mode
Steeve Lennmark [Sun, 15 Jul 2012 12:35:02 +0000 (14:35 +0200)] 
Check that we have connection before enabling pipe mode

12 years agoMerge pull request #569 from jokea/unstable
Salvatore Sanfilippo [Mon, 9 Jul 2012 10:14:08 +0000 (03:14 -0700)] 
Merge pull request #569 from jokea/unstable

mark fd as writable when EPOLLERR or EPOLLHUP is returned by epoll_wait.

12 years agomark fd as writable when EPOLLERR or EPOLLHUP is returned by epoll_wait.
jokea [Fri, 29 Jun 2012 04:06:38 +0000 (12:06 +0800)] 
mark fd as writable when EPOLLERR or EPOLLHUP is returned by epoll_wait.

12 years agoTypo in comment.
antirez [Wed, 27 Jun 2012 09:26:37 +0000 (11:26 +0200)] 
Typo in comment.

12 years agoREPLCONF internal command introduced.
antirez [Tue, 26 Jun 2012 07:47:47 +0000 (09:47 +0200)] 
REPLCONF internal command introduced.

The REPLCONF command is an internal command (not designed to be directly
used by normal clients) that allows a slave to set some replication
related state in the master before issuing SYNC to start the
replication.

The initial motivation for this command, and the only reason currently
it is used by the implementation, is to let the slave instance
communicate its listening port to the slave, so that the master can
show all the slaves with their listening ports in the "replication"
section of the INFO output.

This allows clients to auto discover and query all the slaves attached
into a master.

Currently only a single option of the REPLCONF command is supported, and
it is called "listening-port", so the slave now starts the replication
process with something like the following chat:

    REPLCONF listening-prot 6380
    SYNC

Note that this works even if the master is an older version of Redis and
does not understand REPLCONF, because the slave ignores the REPLCONF
error.

In the future REPLCONF can be used for partial replication and other
replication related features where there is the need to exchange
information between master and slave.

NOTE: This commit also fixes a bug: the INFO outout already carried
information about slaves, but the port was broken, and was obtained
with getpeername(2), so it was actually just the ephemeral port used
by the slave to connect to the master as a client.

12 years agoFixed comment typo into time_independent_strcmp().
antirez [Thu, 21 Jun 2012 12:25:53 +0000 (14:25 +0200)] 
Fixed comment typo into time_independent_strcmp().

12 years agoFixed a timing attack on AUTH (Issue #560).
antirez [Thu, 21 Jun 2012 09:50:01 +0000 (11:50 +0200)] 
Fixed a timing attack on AUTH (Issue #560).

The way we compared the authentication password using strcmp() allowed
an attacker to gain information about the password using a well known
class of attacks called "timing attacks".

The bug appears to be practically not exploitable in most modern systems
running Redis since even using multiple bytes of differences in the
input at a time instead of one the difference in running time in in the
order of 10 nanoseconds, making it hard to exploit even on LAN. However
attacks always get better so we are providing a fix ASAP.

The new implementation uses two fixed length buffers and a constant time
comparison function, with the goal of:

1) Completely avoid leaking information about the content of the
password, since the comparison is always performed between 512
characters and without conditionals.
2) Partially avoid leaking information about the length of the
password.

About "2" we still have a stage in the code where the real password and
the user provided password are copied in the static buffers, we also run
two strlen() operations against the two inputs, so the running time
of the comparison is a fixed amount plus a time proportional to
LENGTH(A)+LENGTH(B). This means that the absolute time of the operation
performed is still related to the length of the password in some way,
but there is no way to change the input in order to get a difference in
the execution time in the comparison that is not just proportional to
the string provided by the user (because the password length is fixed).

Thus in practical terms the user should try to discover LENGTH(PASSWORD)
looking at the whole execution time of the AUTH command and trying to
guess a proportionality between the whole execution time and the
password length: this appears to be mostly unfeasible in the real world.

Also protecting from this attack is not very useful in the case of Redis
as a brute force attack is anyway feasible if the password is too short,
while with a long password makes it not an issue that the attacker knows
the length.

12 years agoFix c->reply_bytes computation in setDeferredMultiBulkLength()
antirez [Fri, 15 Jun 2012 08:03:25 +0000 (10:03 +0200)] 
Fix c->reply_bytes computation in setDeferredMultiBulkLength()

In order to implement reply buffer limits introduced in 2.6 and useful
to close the connection under user-selected circumastances of big output
buffers (for instance slow consumers in pub/sub, a blocked slave, and so
forth) Redis takes a counter with the amount of used memory in objects
inside the output list stored into c->reply.

The computation was broken in the function setDeferredMultiBulkLength(),
in the case the object was glued with the next one. This caused the
c->reply_bytes field to go out of sync, be subtracted more than needed,
and wrap back near to ULONG_MAX values.

This commit fixes this bug and adds an assertion that is able to trap
this class of problems.

This problem was discovered looking at the INFO output of an unrelated
issue (issue #547).

12 years agoziplistFind(): don't assume that entries are comparable by encoding.
antirez [Thu, 14 Jun 2012 13:59:25 +0000 (15:59 +0200)] 
ziplistFind(): don't assume that entries are comparable by encoding.

Because Redis 2.6 introduced new integer encodings it is no longer true
that if two entries have a different encoding they are not equal.

An old ziplist can be loaded from an RDB file generated with Redis 2.4,
in this case for instance a small unsigned integers is encoded with a
16 bit encoding, while in Redis 2.6 a more specific 8 bit encoding
format is used.

Because of this bug hashes ended with duplicated values or fields lookup
failed, causing many bad behaviors.
This in turn caused a crash while converting the ziplist encoded hash into
a real hash table because an assertion was raised on duplicated elements.

This commit fixes issue #547.

Many thanks to Pinterest's Marty Weiner and colleagues for discovering
the problem and helping us in the debugging process.

12 years agoMerge pull request #552 from tnm/unstable
Salvatore Sanfilippo [Wed, 13 Jun 2012 08:25:52 +0000 (01:25 -0700)] 
Merge pull request #552 from tnm/unstable

Standardize punctuation in redis-cli help.

12 years agoStandardize punctuation in redis-cli help.
Ted Nyman [Wed, 13 Jun 2012 05:35:00 +0000 (22:35 -0700)] 
Standardize punctuation in redis-cli help.

Right there is a mix of help entries ending with periods or
without periods. This standardizes the end of command as without
periods, which seems to be the general custom in most unix tools,
at least.

12 years agoAdded a new hash fuzzy tester.
antirez [Tue, 12 Jun 2012 13:20:16 +0000 (15:20 +0200)] 
Added a new hash fuzzy tester.

The new fuzzy tester also removes elements from the hash instead of just
adding random fields. This should increase the probability to find bugs
in the implementations of the hash type internal representations.

12 years agoDump ziplist hex value on failed assertion.
antirez [Mon, 11 Jun 2012 21:44:34 +0000 (23:44 +0200)] 
Dump ziplist hex value on failed assertion.

The ziplist -> hashtable conversion code is triggered every time an hash
value must be promoted to a full hash table because the number or size of
elements reached the threshold.

If a problem in the ziplist causes the same field to be present
multiple times, the assertion of successful addition of the element
inside the hash table will fail, crashing server with a failed
assertion, but providing little information about the problem.

This code adds a new logging function to perform the hex dump of binary
data, and makes sure that the ziplist -> hashtable conversion code uses
this new logging facility to dump the content of the ziplist when the
assertion fails.

This change was originally made in order to investigate issue #547.

12 years agoNew test: hash ziplist -> hashtable encoding conversion.
antirez [Mon, 11 Jun 2012 13:19:46 +0000 (15:19 +0200)] 
New test: hash ziplist -> hashtable encoding conversion.

A new stress test was added to stress test the code converting a ziplist
into an hash table.

In this commit also randomValue helper function was modified to also
return negative values.

12 years agoEVAL replication test: less false positives.
antirez [Sat, 2 Jun 2012 21:29:57 +0000 (23:29 +0200)] 
EVAL replication test: less false positives.

wait_for_condition is now used instead of the usual "after 1000" (that
is the way to sleep in Tcl). This should avoid to find the replica in
a state where it is loading the RDB in memory, returning -LOADING error.

This test used to fail when running the test over valgrind, due to the
added latencies.

12 years agoFixed RESTORE hash failure (Issue #532)
Alex Mitrofanov [Sat, 2 Jun 2012 01:48:45 +0000 (18:48 -0700)] 
Fixed RESTORE hash failure (Issue #532)

(additional commit notes by antirez@gmail.com):

The rdbIsObjectType() macro was not updated when the new RDB object type
of ziplist encoded hashes was added.

As a result RESTORE, that uses rdbLoadObjectType(), failed when a
ziplist encoded hash was loaded.
This does not affected normal RDB loading because in that case we use
the lower-level function rdbLoadType().

The commit also adds a regression test.

12 years agoRDB type loading functions clarified in comments.
antirez [Sat, 2 Jun 2012 08:21:57 +0000 (10:21 +0200)] 
RDB type loading functions clarified in comments.

Improved comments to make clear that rdbLoadType() just loads a
general TYPE in the context of RDB that can be an object type or an
expire type, end-of-file, and so forth.

While rdbLoadObjectType() enforces that the type is a valid Object Type
otherwise it returns -1.

12 years agoBITOP bug when called against non existing keys fixed.
antirez [Thu, 31 May 2012 19:45:39 +0000 (21:45 +0200)] 
BITOP bug when called against non existing keys fixed.

In the issue #529 an user reported a bug that can be triggered with the
following code:

flushdb
set a
"\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00"
bitop or x a b

The bug was introduced with the speed optimization in commit 8bbc076
that specializes every BITOP operation loop up to the minimum length of
the input strings.

However the computation of the minimum length contained an error when a
non existing key was present in the input, after a key that was non zero
length.

This commit fixes the bug and adds a regression test for it.

12 years agoTests modified to account for INFO fields renaming.
antirez [Fri, 25 May 2012 13:20:59 +0000 (15:20 +0200)] 
Tests modified to account for INFO fields renaming.

Commit 33e1db36fa3948c8b9baa3991fd40e7f6b31fb9e modified the name of a
few INFO fields. This commit changes the Redis test to account for this
changes.

12 years agoFour new persistence fields in INFO. A few renamed.
antirez [Fri, 25 May 2012 10:11:30 +0000 (12:11 +0200)] 
Four new persistence fields in INFO. A few renamed.

The 'persistence' section of INFO output now contains additional four
fields related to RDB and AOF persistence:

 rdb_last_bgsave_time_sec       Duration of latest BGSAVE in sec.
 rdb_current_bgsave_time_sec    Duration of current BGSAVE in sec.
 aof_last_rewrite_time_sec      Duration of latest AOF rewrite in sec.
 aof_current_rewrite_time_sec   Duration of current AOF rewrite in sec.

The 'current' fields are set to -1 if a BGSAVE / AOF rewrite is not in
progress. The 'last' fileds are set to -1 if no previous BGSAVE / AOF
rewrites were performed.

Additionally a few fields in the persistence section were renamed for
consistency:

 changes_since_last_save -> rdb_changes_since_last_save
 bgsave_in_progress -> rdb_bgsave_in_progress
 last_save_time -> rdb_last_save_time
 last_bgsave_status -> rdb_last_bgsave_status
 bgrewriteaof_in_progress -> aof_rewrite_in_progress
 bgrewriteaof_scheduled -> aof_rewrite_scheduled

After the renaming, fields in the persistence section start with rdb_ or
aof_ prefix depending on the persistence method they describe.
The field 'loading' and related fields are not prefixed because they are
unique for both the persistence methods.

12 years agoBITOP command 10x speed improvement.
antirez [Wed, 23 May 2012 20:12:50 +0000 (22:12 +0200)] 
BITOP command 10x speed improvement.

This commit adds a fast-path to the BITOP that can be used for all the
bytes from 0 to the minimal length of the string, and if there are
at max 16 input keys.

Often the intersected bitmaps are roughly the same size, so this
optimization can provide a 10x speed boost to most real world usages
of the command.

Bytes are processed four full words at a time, in loops specialized
for the specific BITOP sub-command, without the need to check for
length issues with the inputs (since we run this algorithm only as far
as there is data from all the keys at the same time).

The remaining part of the string is intersected in the usual way using
the slow but generic algorith.

It is possible to do better than this with inputs that are not roughly
the same size, sorting the input keys by length, by initializing the
result string in a smarter way, and noticing that the final part of the
output string composed of only data from the longest string does not
need any proecessing since AND, OR and XOR against an empty string does
not alter the output (zero in the first case, and the original string in
the other two cases).

More implementations will be implemented later likely, but this should
be enough to release Redis 2.6-RC4 with bitops merged in.

Note: this commit also adds better testing for BITOP NOT command, that
is currently the faster and hard to optimize further since it just
flips the bits of a single input string.

12 years agoBITOP: handle integer encoded objects correctly.
antirez [Tue, 22 May 2012 15:40:20 +0000 (17:40 +0200)] 
BITOP: handle integer encoded objects correctly.

A bug in the implementation caused BITOP to crash the server if at least
one one of the source objects was integer encoded.

The new implementation takes an additional array of Redis objects
pointers and calls getDecodedObject() to get a reference to a string
encoded object, and then uses decrRefCount() to release the object.

Tests modified to cover the regression and improve coverage.

12 years agoBITCOUNT performance improved.
antirez [Sun, 20 May 2012 19:34:58 +0000 (21:34 +0200)] 
BITCOUNT performance improved.

At Redis's default optimization level the command is now much faster,
always using a constant-time bit manipualtion technique to count bits
instead of GCC builtin popcount, and unrolling the loop.

The current implementation performance is 1.5GB/s in a MBA 11" (1.8 Ghz
i7) compiled with both GCC and clang.

The algorithm used is described here:

http://graphics.stanford.edu/~seander/bithacks.html

12 years agobitop.c renamed bitops.c
antirez [Sun, 20 May 2012 09:06:29 +0000 (11:06 +0200)] 
bitop.c renamed bitops.c

bitop.c contains the "Bit related string operations" so it seems more
logical to call it bitops instead of bitop.
This also makes it matching the name of the test (unit/bitops.tcl).

12 years agoBit operations tests improved.
antirez [Sun, 20 May 2012 09:03:54 +0000 (11:03 +0200)] 
Bit operations tests improved.

Fuzzing tests of BITCOUNT / BITOP are iterated multiple times.
The new BITCOUNT fuzzing test uses random strings in a wider interval of
lengths including zero-len strings.

12 years agopopcount() optimization for speed.
antirez [Sat, 19 May 2012 22:49:35 +0000 (00:49 +0200)] 
popcount() optimization for speed.

We run the array by 32 bit words instead of processing it byte per byte.
If the code is compiled using GCC __builtin_popcount() builtin function
is used instead.

12 years agoBITCOUNT refactoring.
antirez [Sat, 19 May 2012 14:16:25 +0000 (16:16 +0200)] 
BITCOUNT refactoring.

The low level popualtion counting function is now separated from the
BITCOUNT command implementation, so that the low level function can be
further optimized and eventually used in other contexts if needed.

12 years agoBit-related string operations moved to bitop.c
antirez [Sat, 19 May 2012 08:33:20 +0000 (10:33 +0200)] 
Bit-related string operations moved to bitop.c

All the general string operations are implemented in t_string.c, however
the bit operations, while targeting the string type, are better served
in a specific file where we have the implementations of the following
four commands and helper functions:

    GETBIT
    SETBIT
    BITOP
    BITCOUNT

In the future this file will probably contain more code related to
making the BITOP and BITCOUNT operations faster.

12 years agoBITOP and BITCOUNT tests.
antirez [Thu, 17 May 2012 13:50:44 +0000 (15:50 +0200)] 
BITOP and BITCOUNT tests.

The Redis implementation is tested against Tcl implementations of the
same operation. Both fuzzing and testing of specific aspects of the
commands behavior are performed.

12 years agoNew commands: BITOP and BITCOUNT.
antirez [Wed, 16 May 2012 14:23:09 +0000 (16:23 +0200)] 
New commands: BITOP and BITCOUNT.

The motivation for this new commands is to be search in the usage of
Redis for real time statistics. See the article "Fast real time metrics
using Redis".

http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/

In general Redis strings when used as bitmaps using the SETBIT/GETBIT
command provide a very space-efficient and fast way to store statistics.
For instance in a web application with users, every user can be
associated with a key that shows every day in which the user visited the
web service. This information can be really valuable to extract user
behaviour information.

With Redis bitmaps doing this is very simple just saying that a given
day is 0 (the data the service was put online) and all the next days are
1, 2, 3, and so forth. So with SETBIT it is possible to set the bit
corresponding to the current day every time the user visits the site.

It is possible to take the count of the bit sets on the run, this is
extremely easy using a Lua script. However a fast bit count native
operation can be useful, especially if it can operate on ranges, or when
the string is small like in the case of days (even if you consider many
years it is still extremely little data).

For this reason BITOP was introduced. The command counts the number of
bits set to 1 in a string, with optional range:

BITCOUNT key [start end]

The start/end parameters are similar to GETRANGE. If omitted the whole
string is tested.

Population counting is more useful when bit-level operations like AND,
OR and XOR are avaialble. For instance I can test multiple users to see
the number of days three users visited the site at the same time. To do
this we can take the AND of all the bitmaps, and then count the set bits.

For this reason the BITOP command was introduced:

BITOP [AND|OR|XOR|NOT] dest_key src_key1 src_key2 src_key3 ... src_keyN

In the special case of NOT (that inverts the bits) only one source key
can be passed.

The judicious use of BITCOUNT and BITOP combined can lead to interesting
use cases with very space efficient representation of data.

The implementation provided is still not tested and optimized for speed,
next commits will introduce unit tests. Later the implementation will be
profiled to see if it is possible to gain an important amount of speed
without making the code much more complex.

12 years agoAdd aof_rewrite_buffer_length INFO field.
antirez [Thu, 24 May 2012 13:03:23 +0000 (15:03 +0200)] 
Add aof_rewrite_buffer_length INFO field.

The INFO output, persistence section, already contained the field
describing the size of the current AOF buffer to flush on disk. However
the other AOF buffer, used to accumulate changes during an AOF rewrite,
was not mentioned in the INFO output.

This commit introduces a new field called aof_rewrite_buffer_length with
the length of the rewrite buffer.

12 years agoAllow an AOF rewrite buffer > 2GB (Fix for issue #504).
antirez [Tue, 22 May 2012 11:03:41 +0000 (13:03 +0200)] 
Allow an AOF rewrite buffer > 2GB (Fix for issue #504).

During the AOF rewrite process, the parent process needs to accumulate
the new writes in an in-memory buffer: when the child will terminate the
AOF rewriting process this buffer (that ist the difference between the
dataset when the rewrite was started, and the current dataset) is
flushed to the new AOF file.

We used to implement this buffer using an sds.c string, but sds.c has a
2GB limit. Sometimes the dataset can be big enough, the amount of writes
so high, and the rewrite process slow enough that we overflow the 2GB
limit, causing a crash, documented on github by issue #504.

In order to prevent this from happening, this commit introduces a new
system to accumulate writes, implemented by a linked list of blocks of
10 MB each, so that we also avoid paying the reallocation cost.

Note that theoretically modern operating systems may implement realloc()
simply as a remaping of the old pages, thus with very good performances,
see for instance the mremap() syscall on Linux. However this is not
always true, and jemalloc by default avoids doing this because there are
issues with the current implementation of mremap().

For this reason we are using a linked list of blocks instead of a single
block that gets reallocated again and again.

The changes in this commit lacks testing, that will be performed before
merging into the unstable branch. This fix will not enter 2.4 because it
is too invasive. However 2.4 will log a warning when the AOF rewrite
buffer is near to the 2GB limit.

12 years agoDead code removed from replication.c.
antirez [Thu, 24 May 2012 09:35:21 +0000 (11:35 +0200)] 
Dead code removed from replication.c.

The user @jokea noticed that the following line of code into
replication.c made little sense:

    addReplySds(slave,sdsempty());

Investigating a bit I found that this was introduced by commit 6208b3a7
three years ago in the early stages of Redis. The code apparently is not
useful at all, so I'm removing it.

This change will not be backported into 2.4 so that in the rare case
this should introduce a bug, we'll have a chance to detect it into the
development branch. However following the code path it seems like the
code is not useful at all, so the risk is truly small.

12 years agoSet fd to writable when poll(2) detects POLLERR or POLLHUP event.
jokea [Wed, 23 May 2012 09:19:49 +0000 (17:19 +0800)] 
Set fd to writable when poll(2) detects POLLERR or POLLHUP event.

12 years agoFixed issue #516 (ZINTERSTORE mixing sets and zsets).
antirez [Wed, 23 May 2012 09:02:38 +0000 (11:02 +0200)] 
Fixed issue #516 (ZINTERSTORE mixing sets and zsets).

Weeks ago trying to fix an harmless GCC warning I introduced a bug in
the ziplist-encoded implementations of sorted sets.

The bug completely broke zuiNext() iterator, that is used in the
ZINTERSTORE and ZUNIONSTORE implementation, so those two commands are no
longer reliable starting from Redis version 2.4.12 and latest 2.6.0-RC
releases.

This commit fixes the problem and adds a regression test.

12 years agoRedis test: include bug report on crash.
antirez [Tue, 22 May 2012 11:13:24 +0000 (13:13 +0200)] 
Redis test: include bug report on crash.

Due to a change in the format of the bug report in case of crash of
failed assertion the test suite was no longer able to properly log it.
Instead just a protocol error was logged by the Redis TCL client that
provided no clue about the actual problem.

This commit resolves the issue by logging everything from the first line
of the log including the string REDIS BUG REPORT, till the end of the
file.

12 years agoUse comments to split aof.c into sections.
antirez [Mon, 21 May 2012 14:50:05 +0000 (16:50 +0200)] 
Use comments to split aof.c into sections.

This makes the code more readable, it is still not the case to split the
file itself into three different files, but the logical separation
improves the readability especially since new commits are going to
introduce an additional section.

12 years agoTODO file removed.
antirez [Sun, 20 May 2012 21:47:45 +0000 (23:47 +0200)] 
TODO file removed.

The list of things to do is since long time in two places:

1) Github issues.
2) I've a private TOOD list of random ideas, what makes sense is later
moved to github issues. So github is anyway the true source of things to
do.

12 years agoDeleted jemalloc.orig from /deps.
antirez [Wed, 16 May 2012 10:22:29 +0000 (12:22 +0200)] 
Deleted jemalloc.orig from /deps.

In the commit upgrading jemalloc to version 3.0.0 I added the old
version of Jemalloc in the 'jemalloc.orig' directory for an error.
This commit removes the not useful version of jemalloc.

12 years agoJemalloc updated to 3.0.0.
antirez [Tue, 15 May 2012 13:27:12 +0000 (15:27 +0200)] 
Jemalloc updated to 3.0.0.

Full changelog here:

http://www.canonware.com/cgi-bin/gitweb.cgi?p=jemalloc.git;a=blob_plain;f=ChangeLog;hb=master

Notable improvements from the point of view of Redis:

1) Bugfixing.
2) Support for Valgrind.
3) Support for OSX Lion, FreeBSD.

12 years agoWhitespace
Pieter Noordhuis [Mon, 14 May 2012 18:06:34 +0000 (11:06 -0700)] 
Whitespace

12 years agouse port_getn instead of port_get
Dave Pacheco [Tue, 27 Mar 2012 03:41:58 +0000 (20:41 -0700)] 
use port_getn instead of port_get

12 years agofirst cut at event port support
Dave Pacheco [Tue, 27 Mar 2012 00:58:19 +0000 (17:58 -0700)] 
first cut at event port support

12 years agoFix `install` target on OSX (see #495)
Pieter Noordhuis [Fri, 4 May 2012 18:54:06 +0000 (11:54 -0700)] 
Fix `install` target on OSX (see #495)

12 years agoAdded time.h include in redis-cli.
antirez [Mon, 14 May 2012 15:35:51 +0000 (17:35 +0200)] 
Added time.h include in redis-cli.

redis-cli.c uses the time() function to seed the PRNG, but time.h was
not included. This was not noticed since sys/time.h is included and was
enough in most systems (but not correct). With Ubuntu 12.04 GCC
generates a warning that made us aware of the issue.

12 years agoactiveExpireCycle(): better precision in max time used.
antirez [Mon, 14 May 2012 14:04:41 +0000 (16:04 +0200)] 
activeExpireCycle(): better precision in max time used.

activeExpireCycle() can consume no more than a few milliseconds per
iteration. This commit improves the precision of the check for the time
elapsed in two ways:

1) We check every 16 iterations instead of the main loop instead of 256.
2) We reset iterations at the start of the function and not every time
   we switch to the next database, so the check is correctly performed
   every 16 iterations.

12 years agoImpovements for: Redis timer, hashes rehashing, keys collection.
antirez [Sun, 13 May 2012 19:52:35 +0000 (21:52 +0200)] 
Impovements for: Redis timer, hashes rehashing, keys collection.

A previous commit introduced REDIS_HZ define that changes the frequency
of calls to the serverCron() Redis function. This commit improves
different related things:

1) Software watchdog: now the minimal period can be set according to
REDIS_HZ. The minimal period is two times the timer period, that is:

    (1000/REDIS_HZ)*2 milliseconds

2) The incremental rehashing is now performed in the expires dictionary
as well.

3) The activeExpireCycle() function was improved in different ways:

- Now it checks if it already used too much time using microseconds
  instead of milliseconds for better precision.
- The time limit is now calculated correctly, in the previous version
  the division was performed before of the multiplication resulting in
  a timelimit of 0 if HZ was big enough.
- Databases with less than 1% of buckets fill in the hash table are
  skipped, because getting random keys is too expensive in this
  condition.

4) tryResizeHashTables() is now called at every timer call, we need to
   match the number of calls we do to the expired keys colleciton cycle.

5) REDIS_HZ was raised to 100.

12 years agoRedis timer interrupt frequency configurable as REDIS_HZ.
antirez [Sun, 13 May 2012 14:40:29 +0000 (16:40 +0200)] 
Redis timer interrupt frequency configurable as REDIS_HZ.

Redis uses a function called serverCron() that is very similar to the
timer interrupt of an operating system. This function is used to handle
a number of asynchronous things, like active expired keys collection,
clients timeouts, update of statistics, things related to the cluster
and replication, triggering of BGSAVE and AOF rewrite process, and so
forth.

In the past the timer was called 1 time per second. At some point it was
raised to 10 times per second, but it still was fixed and could not be
changed even at compile time, because different functions called from
serverCron() assumed a given fixed frequency.

This commmit makes the frequency configurable, so that it is simpler to
pick a good tradeoff between overhead of this function (that is usually
very small) and the responsiveness of Redis during a few critical
circumstances where a lot of work is done inside the timer.

An example of such a critical condition is mass-expire of a lot of keys
in the same second. Up to a given percentage of CPU time is used to
perform expired keys collection per expire cylce. Now changing the
REDIS_HZ macro it is possible to do less work but more times per second
in order to block the server for less time.

If this patch will work well in our tests it will enter Redis 2.6-final.

12 years agoComment improved so that the code goal is more clear. Thx to @agladysh.
antirez [Fri, 11 May 2012 20:33:28 +0000 (22:33 +0200)] 
Comment improved so that the code goal is more clear. Thx to @agladysh.

12 years agoMore incremental active expired keys collection process.
antirez [Fri, 11 May 2012 17:17:31 +0000 (19:17 +0200)] 
More incremental active expired keys collection process.

If a large amonut of keys are all expiring about at the same time, the
"active" expired keys collection cycle used to block as far as the
percentage of already expired keys was >= 25% of the total population of
keys with an expire set.

This could block the server even for many seconds in order to reclaim
memory ASAP. The new algorithm uses at max a small amount of
milliseconds per cycle, even if this means reclaiming the memory less
promptly it also means a more responsive server.