On Mon, May 17, 2010 at 10:37 PM, Charles Sprickman <span dir="ltr"><<a href="mailto:spork@bway.net">spork@bway.net</a>></span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div><div></div><div class="h5">On Mon, 17 May 2010, Edward Capriolo wrote:<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
You can jail anything of course. The issue with jailing hadoop is that it is<br>
very IO heavy because data is constantly being spilled to disk. Even if your<br>
jail can limit memory or processor ticks the real problem is jails do not<br>
protect your disk. Now if you system is only being used for background batch<br>
processing that is fine. However, if you are trying to run a "real time" ish<br>
mysql instance and hadoop on the same they may not play together well if<br>
they fight for the disk. Same is true with any jail/vm solution, but hadoop<br>
batching likes to saturate things with load.<br>
</blockquote>
<br></div></div>
Thanks for the excellent feedback...  Right now I just need to get something up for various reasons:<br>
<br>
-Evaluate Hadoop/HBase/Pig running on multiple hosts<br>
-Get myself up to speed on Hadoop and to some extent, Java from a sysadmin perspective<br>
-Get the folks that will be using this an environment to evaluate it and see if this is the proper set of tools to do the type of data analysis they want to do<br>
-Shake out any BSD-specific issues<br>
<br>
If this all goes well, we'd likely just bring up a few cheap servers as a standalone cluster.<br>
<br>
Until then, the idea of jailing it on servers that have very sporadic usage patterns and don't have to really do stuff in "real time" seems like it might be a good compromise.  I'll be throwing this onto a few boxes in the next few days, so I'll report back with any interesting issues.<br>

<br>
I'm going to do two things to try and keep hadoop from being a total pig - it's jail will be on it's own zfs partition with a quota to prevent it from chewing up too much space, and when I put together an rc.d script for it, I'll nice down hadoop.<br>

<br>
For the future, there's some disk scheduling stuff coming into 8.1:<br>
<br>
<a href="http://wiki.freebsd.org/Releng/8.1TODO" target="_blank">http://wiki.freebsd.org/Releng/8.1TODO</a><br>
<a href="http://info.iet.unipi.it/%7Eluigi/papers/20090508-geom_sched-slides.pdf" target="_blank">http://info.iet.unipi.it/~luigi/papers/20090508-geom_sched-slides.pdf</a><br><font color="#888888">
<br>
Charles<br>
</font></blockquote></div><br>Shameless plug here:<br><br>I am going to do another hadoop talk. <br><a href="http://www.meetup.com/Hadoop-NYC/calendar/13512732/">http://www.meetup.com/Hadoop-NYC/calendar/13512732/</a><br>
<br>It is going to be very low level (no powerpoint slides!). I hope some of you guys can make it.<br><br>