Каскадная функция выполняется в одном потоке как функция отображения Hadoop?

Я читаю каскадную документацию, глава 5.2 «Функции», и мне интересно, что произойдет со следующим кодом. Должен ли он нормально работать в многопоточной среде? Более общий вопрос: может ли функция быть многопоточной? насколько я знаю, одиночный картограф является однопоточным.

В частности, я тестировал такой код, и мне кажется, что он не является потокобезопасным. Возможно, я неправильно понимаю документацию на странице (39).

public class NotThreadSafeObject{ 
 ...
 public void doSomething(){
       // update state
 }
 public String getValue(){
       // returns value from state 
 }
public class SomeFunction extends BaseOperation<Tuple> implements Function<Tuple>
 {
    // constructors
   @Override
   public void prepare( FlowProcess flowProcess, OperationCall<Tuple> call )
   {
   // create a reusable Object with state of size 1
    call.setContext( new NotThreadSafeObject() );
   }

   public void operate( FlowProcess flowProcess, FunctionCall<Tuple> call )
   {
     // ...
     NotThreadSafeObject obj = call.getContext();
     obj.doSomething(); 
     Tuple tup = new Tuple();
     tup.set(0,obj.getValue());  
     call.getOutputCollector().add(tup);
   }

   @Override
   public void cleanup( FlowProcess flowProcess, OperationCall<Tuple> call )
   {
      call.setContext( null );
   }
}

person Julias    schedule 10.06.2013    source источник


Ответы (1)


Судя по каскадной документации, это должно работать нормально, и на самом деле основная причина использовать Context в операции без агрегирования.

person diomedes01    schedule 20.11.2013