Its an attempt to do the last data crunching in Spark¶

import pandas as pd
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import metrics
import sys
import numpy as np
%config IPCompleter.greedy = True
%matplotlib inline

from pyspark import  SparkContext
from pyspark import SparkConf
from pyspark import  SparkContext
from pyspark.mllib.clustering import KMeans, KMeansModel

auto = pd.read_csv("/home/kirtiman/Downloads/winequality-white.csv")

sc = SparkContext( 'local', 'pyspark')
con = ( SparkConf().setMaster("local[*]").setAppName('pyspark'))

def parseVector(line):
    # data values separated by blanks
    return np.array([float(x) for x in line.split(',')])

File_name = "/home/kirtiman/Downloads/winequality-white.csv"
lines = sc.textFile(File_name)

data = lines.map(parseVector)

Clusters = "4" 
k = int(Clusters)

model = KMeans.train(data, k)

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-9-00738c255891> in <module>()
----> 1 model = KMeans.train(data, k)

/home/kirtiman/spark/python/pyspark/mllib/clustering.py in train(cls, rdd, k, maxIterations, runs, initializationMode, seed, initializationSteps, epsilon, initialModel)
    354         model = callMLlibFunc("trainKMeansModel", rdd.map(_convert_to_vector), k, maxIterations,
    355                               runs, initializationMode, seed, initializationSteps, epsilon,
--> 356                               clusterInitialModel)
    357         centers = callJavaFunc(rdd.context, model.clusterCenters)
    358         return KMeansModel([c.toArray() for c in centers])

/home/kirtiman/spark/python/pyspark/mllib/common.py in callMLlibFunc(name, *args)
    128     sc = SparkContext.getOrCreate()
    129     api = getattr(sc._jvm.PythonMLLibAPI(), name)
--> 130     return callJavaFunc(sc, api, *args)
    131 
    132 

/home/kirtiman/spark/python/pyspark/mllib/common.py in callJavaFunc(sc, func, *args)
    121     """ Call Java Function """
    122     args = [_py2java(sc, a) for a in args]
--> 123     return _java2py(sc, func(*args))
    124 
    125 

/home/kirtiman/spark/python/lib/py4j-0.10.3-src.zip/py4j/java_gateway.py in __call__(self, *args)
   1131         answer = self.gateway_client.send_command(command)
   1132         return_value = get_return_value(
-> 1133             answer, self.gateway_client, self.target_id, self.name)
   1134 
   1135         for temp_arg in temp_args:

/home/kirtiman/spark/python/lib/py4j-0.10.3-src.zip/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, name)
    317                 raise Py4JJavaError(
    318                     "An error occurred while calling {0}{1}{2}.\n".
--> 319                     format(target_id, ".", name), value)
    320             else:
    321                 raise Py4JError(

Py4JJavaError: An error occurred while calling o25.trainKMeansModel.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/worker.py", line 172, in main
    process()
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/worker.py", line 167, in process
    serializer.dump_stream(func(split_index, iterator), outfile)
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "<ipython-input-5-55857df91074>", line 3, in parseVector
  File "<ipython-input-5-55857df91074>", line 3, in <listcomp>
ValueError: could not convert string to float: '"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"'

 at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
 at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
 at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
 at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:332)
 at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:330)
 at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
 at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
 at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
 at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
 at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
 at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
 at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
 at org.apache.spark.scheduler.Task.run(Task.scala:86)
 at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
 at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
 at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
 at java.lang.Thread.run(Thread.java:745)

Driver stacktrace:
 at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1454)
 at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1442)
 at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1441)
 at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
 at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
 at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1441)
 at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:811)
 at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:811)
 at scala.Option.foreach(Option.scala:257)
 at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:811)
 at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1667)
 at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1622)
 at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1611)
 at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
 at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:632)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1890)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1903)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1916)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1930)
 at org.apache.spark.rdd.RDD.count(RDD.scala:1134)
 at org.apache.spark.rdd.RDD$$anonfun$takeSample$1.apply(RDD.scala:558)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
 at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
 at org.apache.spark.rdd.RDD.withScope(RDD.scala:358)
 at org.apache.spark.rdd.RDD.takeSample(RDD.scala:547)
 at org.apache.spark.mllib.clustering.KMeans.initKMeansParallel(KMeans.scala:386)
 at org.apache.spark.mllib.clustering.KMeans.runAlgorithm(KMeans.scala:256)
 at org.apache.spark.mllib.clustering.KMeans.run(KMeans.scala:219)
 at org.apache.spark.mllib.clustering.KMeans.run(KMeans.scala:201)
 at org.apache.spark.mllib.api.python.PythonMLLibAPI.trainKMeansModel(PythonMLLibAPI.scala:367)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 at java.lang.reflect.Method.invoke(Method.java:498)
 at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:237)
 at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
 at py4j.Gateway.invoke(Gateway.java:280)
 at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
 at py4j.commands.CallCommand.execute(CallCommand.java:79)
 at py4j.GatewayConnection.run(GatewayConnection.java:214)
 at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/worker.py", line 172, in main
    process()
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/worker.py", line 167, in process
    serializer.dump_stream(func(split_index, iterator), outfile)
  File "/home/kirtiman/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream
    vs = list(itertools.islice(iterator, batch))
  File "<ipython-input-5-55857df91074>", line 3, in parseVector
  File "<ipython-input-5-55857df91074>", line 3, in <listcomp>
ValueError: could not convert string to float: '"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"'

 at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
 at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
 at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
 at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:332)
 at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:330)
 at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
 at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
 at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
 at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
 at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
 at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
 at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
 at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
 at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
 at org.apache.spark.scheduler.Task.run(Task.scala:86)
 at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
 at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
 at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
 ... 1 more

Open Data Science World

Thursday, 8 December 2016

An Attempt...

Its an attempt to do the last data crunching in Spark¶

Blog Archive