实例介绍
数据算法Hadoop/Spark大数据处理技巧 源代码 内有部分数据集
【实例截图】
【核心代码】
0e0bb67e-4f32-4cba-a332-21bcd5af713f
└── 数据算法MapReduceSpark大数据处理技巧源代码
├── build.gradle
├── build.xml
├── data
│ ├── README.md
│ ├── sample.fasta
│ ├── sample.fastq
│ ├── student_alcohol_query_data.txt
│ └── student_alcohol_training_data.txt
├── gradle
│ └── wrapper
│ ├── gradle-wrapper.jar
│ └── gradle-wrapper.properties
├── gradlew
├── gradlew.bat
├── lib
│ ├── activation-1.1.1.jar
│ ├── antlr-2.7.7.jar
│ ├── antlr4-runtime-4.5.3.jar
│ ├── antlr-runtime-3.4.jar
│ ├── aopalliance-1.0.jar
│ ├── aopalliance-repackaged-2.4.0-b34.jar
│ ├── apacheds-i18n-2.0.0-M15.jar
│ ├── apacheds-kerberos-codec-2.0.0-M15.jar
│ ├── apache-log4j-extras-1.2.17.jar
│ ├── api-asn1-api-1.0.0-M20.jar
│ ├── api-util-1.0.0-M20.jar
│ ├── arpack_combined_all-0.1.jar
│ ├── asm-3.1.jar
│ ├── avro-1.7.7.jar
│ ├── avro-ipc-1.7.7.jar
│ ├── avro-ipc-1.7.7-tests.jar
│ ├── avro-mapred-1.7.7-hadoop2.jar
│ ├── base64-2.3.8.jar
│ ├── bcprov-jdk15on-1.51.jar
│ ├── bliki-core-3.0.19.jar
│ ├── bonecp-0.8.0.RELEASE.jar
│ ├── breeze_2.11-0.12.jar
│ ├── breeze-macros_2.11-0.12.jar
│ ├── calcite-avatica-1.2.0-incubating.jar
│ ├── calcite-core-1.2.0-incubating.jar
│ ├── calcite-linq4j-1.2.0-incubating.jar
│ ├── chill_2.11-0.8.0.jar
│ ├── chill-java-0.8.0.jar
│ ├── cloud9-1.3.2.jar
│ ├── commons-beanutils-1.7.0.jar
│ ├── commons-beanutils-core-1.8.0.jar
│ ├── commons-cli-1.3.jar
│ ├── commons-codec-1.10.jar
│ ├── commons-collections-3.2.2.jar
│ ├── commons-compiler-3.0.0.jar
│ ├── commons-compress-1.4.1.jar
│ ├── commons-configuration-1.10.jar
│ ├── commons-crypto-1.0.0.jar
│ ├── commons-daemon-1.0.15.jar
│ ├── commons-dbcp-1.4.jar
│ ├── commons-digester-1.8.jar
│ ├── commons-el-1.0.jar
│ ├── commons-httpclient-3.1.jar
│ ├── commons-io-2.4.jar
│ ├── commons-lang-2.6.jar
│ ├── commons-lang3-3.5.jar
│ ├── commons-logging-1.1.3.jar
│ ├── commons-math-2.1.jar
│ ├── commons-math3-3.4.1.jar
│ ├── commons-net-2.2.jar
│ ├── commons-pool-1.5.4.jar
│ ├── compress-lzf-1.0.3.jar
│ ├── core-1.1.2.jar
│ ├── core-3.1.1.jar
│ ├── curator-client-2.6.0.jar
│ ├── curator-framework-2.6.0.jar
│ ├── curator-recipes-2.6.0.jar
│ ├── datanucleus-api-jdo-3.2.6.jar
│ ├── datanucleus-core-3.2.10.jar
│ ├── datanucleus-rdbms-3.2.9.jar
│ ├── derby-10.12.1.1.jar
│ ├── eigenbase-properties-1.1.5.jar
│ ├── graphframes-0.3.0-spark2.0-s_2.11.jar
│ ├── gson-2.2.4.jar
│ ├── guava-14.0.1.jar
│ ├── guice-3.0.jar
│ ├── guice-servlet-3.0.jar
│ ├── hadoop-annotations-2.6.4.jar
│ ├── hadoop-auth-2.6.4.jar
│ ├── hadoop-client-2.6.4.jar
│ ├── hadoop-common-2.6.4.jar
│ ├── hadoop-hdfs-2.6.4.jar
│ ├── hadoop-lzo-0.4.20-SNAPSHOT_mac.jar
│ ├── hadoop-mapreduce-client-app-2.6.4.jar
│ ├── hadoop-mapreduce-client-common-2.6.4.jar
│ ├── hadoop-mapreduce-client-core-2.6.4.jar
│ ├── hadoop-mapreduce-client-jobclient-2.6.4.jar
│ ├── hadoop-mapreduce-client-shuffle-2.6.4.jar
│ ├── hadoop-yarn-api-2.6.4.jar
│ ├── hadoop-yarn-client-2.6.4.jar
│ ├── hadoop-yarn-common-2.6.4.jar
│ ├── hadoop-yarn-server-common-2.6.4.jar
│ ├── hadoop-yarn-server-web-proxy-2.6.4.jar
│ ├── hamcrest-all-1.3.jar
│ ├── hamcrest-core-1.3.jar
│ ├── hive-beeline-1.2.1.spark2.jar
│ ├── hive-cli-1.2.1.spark2.jar
│ ├── hive-exec-1.2.1.spark2.jar
│ ├── hive-jdbc-1.2.1.spark2.jar
│ ├── hive-metastore-1.2.1.spark2.jar
│ ├── hk2-api-2.4.0-b34.jar
│ ├── hk2-locator-2.4.0-b34.jar
│ ├── hk2-utils-2.4.0-b34.jar
│ ├── hsqldb-1.8.0.10.jar
│ ├── htrace-core-3.0.4.jar
│ ├── httpclient-4.5.2.jar
│ ├── httpcore-4.4.4.jar
│ ├── ivy-2.4.0.jar
│ ├── jackson-annotations-2.6.5.jar
│ ├── jackson-core-2.6.5.jar
│ ├── jackson-core-asl-1.9.13.jar
│ ├── jackson-databind-2.6.5.jar
│ ├── jackson-jaxrs-1.9.13.jar
│ ├── jackson-mapper-asl-1.9.13.jar
│ ├── jackson-module-paranamer-2.6.5.jar
│ ├── jackson-module-scala_2.11-2.6.5.jar
│ ├── jackson-xc-1.9.13.jar
│ ├── janino-3.0.0.jar
│ ├── jasper-compiler-5.5.23.jar
│ ├── jasper-runtime-5.5.23.jar
│ ├── JavaEWAH-0.3.2.jar
│ ├── javassist-3.18.1-GA.jar
│ ├── javax.annotation-api-1.2.jar
│ ├── javax.inject-1.jar
│ ├── javax.inject-2.4.0-b34.jar
│ ├── java-xmlbuilder-1.0.jar
│ ├── javax.servlet-api-3.1.0.jar
│ ├── javax.ws.rs-api-2.0.1.jar
│ ├── javolution-5.5.1.jar
│ ├── jaxb-api-2.2.2.jar
│ ├── jaxb-impl-2.2.3-1.jar
│ ├── jcl-over-slf4j-1.7.16.jar
│ ├── jdo-api-3.0.1.jar
│ ├── jersey-client-2.22.2.jar
│ ├── jersey-common-2.22.2.jar
│ ├── jersey-container-servlet-2.22.2.jar
│ ├── jersey-container-servlet-core-2.22.2.jar
│ ├── jersey-core-1.9.jar
│ ├── jersey-guava-2.22.2.jar
│ ├── jersey-json-1.9.jar
│ ├── jersey-media-jaxb-2.22.2.jar
│ ├── jersey-server-2.22.2.jar
│ ├── jets3t-0.9.3.jar
│ ├── jettison-1.1.jar
│ ├── jetty-6.1.26.jar
│ ├── jetty-util-6.1.26.jar
│ ├── jline-2.12.1.jar
│ ├── joda-time-2.9.3.jar
│ ├── jodd-core-3.5.2.jar
│ ├── jpam-1.1.jar
│ ├── jsch-0.1.42.jar
│ ├── json4s-ast_2.11-3.2.11.jar
│ ├── json4s-core_2.11-3.2.11.jar
│ ├── json4s-jackson_2.11-3.2.11.jar
│ ├── jsp-2.1-6.1.14.jar
│ ├── jsp-api-2.1-6.1.14.jar
│ ├── jsr305-1.3.9.jar
│ ├── jta-1.1.jar
│ ├── jtransforms-2.4.0.jar
│ ├── jul-to-slf4j-1.7.16.jar
│ ├── junit-4.12.jar
│ ├── kryo-shaded-3.0.3.jar
│ ├── leveldbjni-all-1.8.jar
│ ├── libfb303-0.9.2.jar
│ ├── libthrift-0.9.2.jar
│ ├── log4j-1.2.17.jar
│ ├── lz4-1.3.0.jar
│ ├── lzo-core-1.0.0.jar
│ ├── lzo-hadoop-1.0.0.jar
│ ├── mail-1.4.7.jar
│ ├── mesos-1.0.0-shaded-protobuf.jar
│ ├── metrics-core-3.1.2.jar
│ ├── metrics-graphite-3.1.2.jar
│ ├── metrics-json-3.1.2.jar
│ ├── metrics-jvm-3.1.2.jar
│ ├── minlog-1.3.0.jar
│ ├── mx4j-3.0.2.jar
│ ├── netty-3.8.0.Final.jar
│ ├── netty-all-4.0.42.Final.jar
│ ├── objenesis-2.1.jar
│ ├── opencsv-2.3.jar
│ ├── oro-2.0.8.jar
│ ├── osgi-resource-locator-1.0.1.jar
│ ├── paranamer-2.3.jar
│ ├── parquet-column-1.8.1.jar
│ ├── parquet-common-1.8.1.jar
│ ├── parquet-encoding-1.8.1.jar
│ ├── parquet-format-2.3.0-incubating.jar
│ ├── parquet-generator-1.7.0.jar
│ ├── parquet-hadoop-1.8.1.jar
│ ├── parquet-hadoop-bundle-1.6.0.jar
│ ├── parquet-jackson-1.8.1.jar
│ ├── pmml-model-1.2.15.jar
│ ├── pmml-schema-1.2.15.jar
│ ├── protobuf-java-2.5.0.jar
│ ├── py4j-0.10.4.jar
│ ├── pyrolite-4.13.jar
│ ├── RoaringBitmap-0.5.11.jar
│ ├── scala-archetype-simple-1.3.jar
│ ├── scala-compiler-2.11.8.jar
│ ├── scala-library-2.11.8.jar
│ ├── scala-logging_2.11-3.5.0.jar
│ ├── scala-logging-api_2.11.0-RC3-2.0.1.jar
│ ├── scala-logging-slf4j_2.11-2.1.2.jar
│ ├── scalap-2.11.8.jar
│ ├── scala-parser-combinators_2.11-1.0.4.jar
│ ├── scala-reflect-2.11.8.jar
│ ├── scalatest_2.11-2.2.6.jar
│ ├── scala-xml_2.11-1.0.2.jar
│ ├── servlet-api-2.5-6.1.14.jar
│ ├── servlet-api-2.5.jar
│ ├── shapeless_2.11-2.0.0.jar
│ ├── slf4j-api-1.7.16.jar
│ ├── slf4j-log4j12-1.7.16.jar
│ ├── snappy-0.2.jar
│ ├── snappy-java-1.1.2.6.jar
│ ├── spark-catalyst_2.11-2.1.0.jar
│ ├── spark-core_2.11-2.1.0.jar
│ ├── spark-graphx_2.11-2.1.0.jar
│ ├── spark-hive_2.11-2.1.0.jar
│ ├── spark-hive-thriftserver_2.11-2.1.0.jar
│ ├── spark-launcher_2.11-2.1.0.jar
│ ├── spark-mesos_2.11-2.1.0.jar
│ ├── spark-mllib_2.11-2.1.0.jar
│ ├── spark-mllib-local_2.11-2.1.0.jar
│ ├── spark-network-common_2.11-2.1.0.jar
│ ├── spark-network-shuffle_2.11-2.1.0.jar
│ ├── spark-repl_2.11-2.1.0.jar
│ ├── spark-sketch_2.11-2.1.0.jar
│ ├── spark-sql_2.11-2.1.0.jar
│ ├── spark-streaming_2.11-2.1.0.jar
│ ├── spark-tags_2.11-2.1.0.jar
│ ├── spark-unsafe_2.11-2.1.0.jar
│ ├── spark-yarn_2.11-2.1.0.jar
│ ├── spire_2.11-0.7.4.jar
│ ├── spire-macros_2.11-0.7.4.jar
│ ├── ST4-4.0.4.jar
│ ├── stax-api-1.0.1.jar
│ ├── stax-api-1.0-2.jar
│ ├── stream-2.7.0.jar
│ ├── stringtemplate-3.2.1.jar
│ ├── super-csv-2.2.0.jar
│ ├── univocity-parsers-2.2.1.jar
│ ├── unused-1.0.0.jar
│ ├── validation-api-1.1.0.Final.jar
│ ├── xbean-asm5-shaded-4.4.jar
│ ├── xercesImpl-2.9.1.jar
│ ├── xml-apis-1.3.04.jar
│ ├── xmlenc-0.52.jar
│ ├── xz-1.0.jar
│ └── zookeeper-3.4.6.jar
├── LICENSE
├── misc
│ ├── ant
│ │ ├── how_to_build_with_ant.md
│ │ ├── README.md
│ │ ├── sample_ant_build_linux.txt
│ │ └── sample_ant_build_mac.txt
│ ├── bonus-chapters.md
│ ├── book-signing.md
│ ├── da_book3.jpeg
│ ├── da_book_image2.gif
│ ├── da_small2.gif
│ ├── da_small.gif
│ ├── data-algorithms-2nd-ed-cover.jpg
│ ├── data-algorithms-2nd-ed-cover.pdf
│ ├── data_algorithms_image.jpg
│ ├── data_algorithms_image_small.gif
│ ├── data_algorithms_image_small.jpg
│ ├── favorite_quotes
│ │ └── README.md
│ ├── how_to_create_a_lot_of_small_files.txt
│ ├── how-to-submit-spark-job-from-java-code.md
│ ├── how-to-submit-spark-job-to-yarn-from-java-code.md
│ ├── jdk8_and_lambda.md
│ ├── large-image.jpg
│ ├── linear_regression_line.png
│ ├── machine_learning.jpg
│ ├── Mahmoud_Parsian_Guest_Speaker.pdf
│ ├── maven
│ │ ├── how_to_build_with_maven.md
│ │ └── README.md
│ ├── option1-log.txt
│ ├── README_lib.md
│ ├── rplot.jpg
│ ├── run_spark
│ │ ├── how_to_run_hadoop_programs.sh
│ │ ├── how_to_run_spark_in_spark_cluster.sh
│ │ ├── how_to_run_spark_in_yarn.sh
│ │ └── README.md
│ ├── source-code.md
│ ├── source_tree.png
│ ├── webinars.md
│ ├── work_in_progress2.jpeg
│ └── work_in_progress.jpeg
├── pom.xml
├── README.md
├── resource
│ └── chap12
│ ├── Figure-12-1.jpeg
│ ├── Figure-12-1.pdf
│ ├── Figure-12-2.jpeg
│ ├── Figure-12-2.pdf
│ ├── kmeans-example-0.jpeg
│ ├── kmeans-example-0.pdf
│ ├── kmeans-example-1.jpeg
│ └── kmeans-example-1.pdf
├── scripts
│ └── org
│ └── dataalgorithms
│ ├── chap03
│ │ ├── mapreduce
│ │ │ └── run_top_N_mapreduce.sh
│ │ └── spark
│ │ ├── run_top10_nonunique_spark_cluster.sh
│ │ ├── run_top10_spark_cluster.sh
│ │ ├── run_top10usingtakeordered_yarn.sh
│ │ ├── run_top10usingtop_yarn.sh
│ │ └── run_top10_yarn.sh
│ └── chap24
│ └── spark
│ └── run_spark_dna_base_count_fastq.sh
├── setenv.sh
├── settings.gradle
├── src
│ ├── main
│ │ ├── java
│ │ │ └── org
│ │ │ └── dataalgorithms
│ │ │ ├── chap01
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── DateTemperatureGroupingComparator.java
│ │ │ │ │ ├── DateTemperaturePair.java
│ │ │ │ │ ├── DateTemperaturePartitioner.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SecondarySortDriver.java
│ │ │ │ │ ├── SecondarySortMapper.java
│ │ │ │ │ └── SecondarySortReducer.java
│ │ │ │ ├── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── secondary_sorting.png
│ │ │ │ ├── spark
│ │ │ │ │ ├── CustomPartitioner.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── RepartitionAndSortWithinPartitionsExample1.java
│ │ │ │ │ ├── sample_input.txt
│ │ │ │ │ ├── sample_output.txt
│ │ │ │ │ ├── SecondarySortUsingCombineByKey.java
│ │ │ │ │ ├── SecondarySortUsingGroupByKey.java
│ │ │ │ │ ├── SecondarySortUsingRepartitionAndSortWithinPartitions.java
│ │ │ │ │ └── TupleComparatorDescending.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SecondarySortUsingCombineByKey.java
│ │ │ │ │ └── SecondarySortUsingGroupByKey.java
│ │ │ │ └── util
│ │ │ │ ├── package-info.java
│ │ │ │ └── SparkTupleComparator.java
│ │ │ ├── chap02
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── CompositeKeyComparator.java
│ │ │ │ │ ├── CompositeKey.java
│ │ │ │ │ ├── NaturalKeyGroupingComparator.java
│ │ │ │ │ ├── NaturalKeyPartitioner.java
│ │ │ │ │ ├── NaturalValue.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SecondarySortDriver.java
│ │ │ │ │ ├── SecondarySortMapper.java
│ │ │ │ │ └── SecondarySortReducer.java
│ │ │ │ ├── README.md
│ │ │ │ └── secondary_sorting.png
│ │ │ ├── chap03
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── AggregateByKeyDriver.java
│ │ │ │ │ ├── AggregateByKeyMapper.java
│ │ │ │ │ ├── AggregateByKeyReducer.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SequenceFileWriterForTopN.java
│ │ │ │ │ ├── TopNDriver.java
│ │ │ │ │ ├── TopNMapper.java
│ │ │ │ │ └── TopNReducer.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── Top10.java
│ │ │ │ │ ├── Top10NonUnique.java
│ │ │ │ │ └── Top10UsingTakeOrdered.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── Top10.java
│ │ │ │ │ ├── Top10NonUnique.java
│ │ │ │ │ └── Top10UsingTakeOrdered.java
│ │ │ │ └── top10.jpg
│ │ │ ├── chap04
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── LeftJoinDriver.java
│ │ │ │ │ ├── LeftJoinReducer.java
│ │ │ │ │ ├── LeftJoinTransactionMapper.java
│ │ │ │ │ ├── LeftJoinUserMapper.java
│ │ │ │ │ ├── LocationCountDriver.java
│ │ │ │ │ ├── LocationCountMapper.java
│ │ │ │ │ ├── LocationCountReducer.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SecondarySortGroupComparator.java
│ │ │ │ │ └── SecondarySortPartitioner.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ └── SparkLeftOuterJoin.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── package-info.java
│ │ │ │ └── SparkLeftOuterJoin.java
│ │ │ ├── chap05
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── OrderInversionPartitioner.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── PairOfWords.java
│ │ │ │ │ ├── RelativeFrequencyCombiner.java
│ │ │ │ │ ├── RelativeFrequencyDriver.java
│ │ │ │ │ ├── RelativeFrequencyMapper.java
│ │ │ │ │ └── RelativeFrequencyReducer.java
│ │ │ │ └── spark
│ │ │ │ ├── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── RelativeFrequency.java
│ │ │ │ └── SparkSQLRelativeFrequency.java
│ │ │ ├── chap06
│ │ │ │ ├── memorysort
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── run.log
│ │ │ │ │ ├── run.sh
│ │ │ │ │ ├── sample.txt
│ │ │ │ │ ├── SortInMemory_MovingAverageDriver.java
│ │ │ │ │ ├── SortInMemory_MovingAverageMapper.java
│ │ │ │ │ └── SortInMemory_MovingAverageReducer.java
│ │ │ │ ├── package-info.java
│ │ │ │ ├── pojo
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SimpleMovingAverage.java
│ │ │ │ │ ├── SimpleMovingAverageUsingArray.java
│ │ │ │ │ └── TestSimpleMovingAverage.java
│ │ │ │ ├── secondarysort
│ │ │ │ │ ├── CompositeKeyComparator.java
│ │ │ │ │ ├── CompositeKey.java
│ │ │ │ │ ├── MovingAverage.java
│ │ │ │ │ ├── NaturalKeyGroupingComparator.java
│ │ │ │ │ ├── NaturalKeyPartitioner.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SortByMRF_MovingAverageDriver.java
│ │ │ │ │ ├── SortByMRF_MovingAverageMapper.java
│ │ │ │ │ └── SortByMRF_MovingAverageReducer.java
│ │ │ │ └── TimeSeriesData.java
│ │ │ ├── chap07
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── MBADriver.java
│ │ │ │ │ ├── MBAMapper.java
│ │ │ │ │ ├── MBAReducer.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── spark
│ │ │ │ ├── FindAssociationRules.java
│ │ │ │ ├── FindAssociationRulesWithLambda.java
│ │ │ │ ├── package-info.java
│ │ │ │ └── Util.java
│ │ │ ├── chap08
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── CommonFriendsDriver.java
│ │ │ │ │ ├── CommonFriendsDriverUsingList.java
│ │ │ │ │ ├── CommonFriendsMapper.java
│ │ │ │ │ ├── CommonFriendsMapperUsingList.java
│ │ │ │ │ ├── CommonFriendsReducer.java
│ │ │ │ │ ├── CommonFriendsReducerUsingList.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── FindCommonFriends.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── FindCommonFriends.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap09
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ └── spark
│ │ │ │ ├── package-info.java
│ │ │ │ └── SparkFriendRecommendation.java
│ │ │ ├── chap10
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ └── spark
│ │ │ │ ├── MovieRecommendations.java
│ │ │ │ ├── MovieRecommendationsWithJoin.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap11
│ │ │ │ ├── package-info.java
│ │ │ │ ├── projection
│ │ │ │ │ ├── memorysort
│ │ │ │ │ │ ├── package-info.java
│ │ │ │ │ │ ├── SortInMemoryProjectionDriver.java
│ │ │ │ │ │ ├── SortInMemoryProjectionMapper.java
│ │ │ │ │ │ └── SortInMemoryProjectionReducer.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ └── secondarysort
│ │ │ │ │ ├── CompositeKeyComparator.java
│ │ │ │ │ ├── CompositeKey.java
│ │ │ │ │ ├── NaturalKeyGroupingComparator.java
│ │ │ │ │ ├── NaturalKeyPartitioner.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SecondarySortProjectionDriver.java
│ │ │ │ │ ├── SecondarySortProjectionMapper.java
│ │ │ │ │ └── SecondarySortProjectionReducer.java
│ │ │ │ ├── resources
│ │ │ │ │ └── smart_email_training.txt
│ │ │ │ ├── spark
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SparkMarkov.java
│ │ │ │ │ └── SparkMarkovWithLambda.java
│ │ │ │ └── statemodel
│ │ │ │ ├── MarkovStateTransitionModelCombiner.java
│ │ │ │ ├── MarkovStateTransitionModelDriver.java
│ │ │ │ ├── MarkovStateTransitionModelMapper.java
│ │ │ │ ├── MarkovStateTransitionModelReducer.java
│ │ │ │ ├── package-info.java
│ │ │ │ ├── ReadDataFromHDFS.java
│ │ │ │ ├── StateTransitionTableBuilder.java
│ │ │ │ └── TableItem.java
│ │ │ ├── chap13
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── spark
│ │ │ │ │ ├── kNN2.java
│ │ │ │ │ ├── kNN.java
│ │ │ │ │ ├── output
│ │ │ │ │ │ ├── cart
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ ├── knnMapped
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ ├── knnOutput
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ ├── R
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ └── S
│ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ ├── output2
│ │ │ │ │ │ ├── knnMapped
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ ├── knnOutput
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ ├── R
│ │ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ │ └── S
│ │ │ │ │ │ ├── part-00000
│ │ │ │ │ │ └── _SUCCESS
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── resources
│ │ │ │ │ │ ├── R.txt
│ │ │ │ │ │ └── S.txt
│ │ │ │ │ ├── run_knn2_spark.sh
│ │ │ │ │ ├── run_knn_spark.log
│ │ │ │ │ ├── run_knn_spark.sh
│ │ │ │ │ ├── run_knn_spark_yarn.log
│ │ │ │ │ └── run_knn_spark_yarn.sh
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── kNN.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── util
│ │ │ │ ├── package-info.java
│ │ │ │ └── Util.java
│ │ │ ├── chap14
│ │ │ │ ├── bayes-theorem.png
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── NaiveBayesClassifierBuilder.java
│ │ │ │ │ ├── NaiveBayesClassifier.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── NaiveBayesClassifierBuilder.java
│ │ │ │ ├── NaiveBayesClassifier.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap16
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── GraphEdgeMapper.java
│ │ │ │ │ ├── GraphEdgeReducer.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── TriadsMapper.java
│ │ │ │ │ ├── TriadsReducer.java
│ │ │ │ │ ├── TriangleCounterDriver.java
│ │ │ │ │ ├── UniqueTriadsMapper.java
│ │ │ │ │ └── UniqueTriadsReducer.java
│ │ │ │ └── spark
│ │ │ │ ├── CountTriangles.java
│ │ │ │ ├── CountTrianglesWithLambda.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap17
│ │ │ │ ├── kmer.jpg
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── KmerCountDriver.java
│ │ │ │ │ ├── KmerCountMapper.java
│ │ │ │ │ ├── KmerCountReducer.java
│ │ │ │ │ ├── KmerUtil.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── Kmer.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── Kmer.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap22
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ └── SparkTtest.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ └── SparkTtest.java
│ │ │ │ └── ttest.png
│ │ │ ├── chap23
│ │ │ │ ├── correlation
│ │ │ │ │ ├── MutableDouble.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── Pearson.java
│ │ │ │ │ ├── Spearman.java
│ │ │ │ │ ├── TestPearson.java
│ │ │ │ │ └── TestSpearman.java
│ │ │ │ ├── spark
│ │ │ │ │ ├── AllVersusAllCorrelation.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── AllVersusAllCorrelation.java
│ │ │ │ └── package-info.java
│ │ │ ├── chap24
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── BaseComparator.java
│ │ │ │ │ ├── BasePartitioner.java
│ │ │ │ │ ├── FastaCountBaseCombiner.java
│ │ │ │ │ ├── FastaCountBaseDriver.java
│ │ │ │ │ ├── FastaCountBaseMapper.java
│ │ │ │ │ ├── FastaCountBaseReducer.java
│ │ │ │ │ ├── FastaInputFormat.java
│ │ │ │ │ ├── FastaRecordReader.java
│ │ │ │ │ ├── FastqCountBaseDriver.java
│ │ │ │ │ ├── FastqCountBaseMapper.java
│ │ │ │ │ ├── FastqCountBaseReducer.java
│ │ │ │ │ ├── FastqInputFormat.java
│ │ │ │ │ ├── FastqRecordReader.java
│ │ │ │ │ └── package-info.java
│ │ │ │ └── spark
│ │ │ │ ├── DNABaseCountFASTA.java
│ │ │ │ ├── DNABaseCountFASTQCustomFormat.java
│ │ │ │ ├── DNABaseCountFASTQTextFormat.java
│ │ │ │ ├── dna-structure.jpg
│ │ │ │ ├── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ └── Util.java
│ │ │ ├── chap26
│ │ │ │ ├── mapreduce
│ │ │ │ │ └── package-info.java
│ │ │ │ └── spark
│ │ │ │ ├── package-info.java
│ │ │ │ ├── SparkGeneAggregationByAverage.java
│ │ │ │ └── SparkGeneAggregationByIndividual.java
│ │ │ ├── chap28
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── MeanDriver.java
│ │ │ │ │ ├── MeanMonoidizedCombiner.java
│ │ │ │ │ ├── MeanMonoidizedMapper.java
│ │ │ │ │ ├── MeanMonoidizedReducer.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ └── SparkMeanMonoidized.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ ├── package-info.java
│ │ │ │ └── SparkMeanMonoidized.java
│ │ │ ├── chap29
│ │ │ │ ├── combinesmallfilesbybuckets
│ │ │ │ │ ├── BucketThread.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── SmallFilesConsolidator.java
│ │ │ │ │ ├── WordCountDriverWithConsolidator.java
│ │ │ │ │ ├── WordCountDriverWithoutConsolidator.java
│ │ │ │ │ ├── WordCountMapper.java
│ │ │ │ │ └── WordCountReducer.java
│ │ │ │ ├── combinesmallfilesbyhadoop
│ │ │ │ │ ├── CombineSmallFilesDriver.java
│ │ │ │ │ ├── CustomCFIF128MB.java
│ │ │ │ │ ├── CustomCFIF256MB.java
│ │ │ │ │ ├── CustomCFIF.java
│ │ │ │ │ ├── CustomRecordReader.java
│ │ │ │ │ ├── package-info.java
│ │ │ │ │ ├── WordCountMapper.java
│ │ │ │ │ └── WordCountReducer.java
│ │ │ │ └── package-info.java
│ │ │ ├── chapB01
│ │ │ │ └── wordcount
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── WordCountCombiner.java
│ │ │ │ │ ├── WordCountDriver.java
│ │ │ │ │ ├── WordCountMapper.java
│ │ │ │ │ └── WordCountReducer.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ └── SparkWordCount.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ └── SparkWordCount.java
│ │ │ │ ├── util
│ │ │ │ │ └── Util.java
│ │ │ │ ├── word-count.jpg
│ │ │ │ └── wordcount-with-mapreduce.jpg
│ │ │ ├── chapB02
│ │ │ │ └── sortedwordcount
│ │ │ │ └── spark
│ │ │ │ ├── SortedWordCount.java
│ │ │ │ ├── SortedWordCountWithLambda.java
│ │ │ │ └── Util.java
│ │ │ ├── chapB03
│ │ │ │ └── perkeyaverage
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ └── PerKeyAverage.java
│ │ │ │ └── sparkwithlambda
│ │ │ │ └── PerKeyAverage.java
│ │ │ ├── chapB04
│ │ │ │ └── rankproduct
│ │ │ │ ├── RankProduct_chapter.pdf
│ │ │ │ ├── rank-product.png
│ │ │ │ ├── RankProduct_slides.pdf
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── SparkRankProductUsingCombineByKey.java
│ │ │ │ │ └── SparkRankProductUsingGroupByKey.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── SparkRankProductUsingCombineByKey.java
│ │ │ │ │ └── SparkRankProductUsingGroupByKey.java
│ │ │ │ └── util
│ │ │ │ └── Util.java
│ │ │ ├── chapB05
│ │ │ │ └── anagram
│ │ │ │ ├── anagram.png
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── AnagramDriver.java
│ │ │ │ │ ├── AnagramMapper.java
│ │ │ │ │ └── AnagramReducer.java
│ │ │ │ ├── README.md
│ │ │ │ ├── spark
│ │ │ │ │ ├── AnagramCountUsingCombineByKey.java
│ │ │ │ │ ├── AnagramCountUsingGroupByKey.java
│ │ │ │ │ └── AnagramFinder.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ ├── AnagramCountUsingCombineByKey.java
│ │ │ │ │ ├── AnagramCountUsingGroupByKey.java
│ │ │ │ │ └── AnagramFinder.java
│ │ │ │ └── util
│ │ │ │ └── Util.java
│ │ │ ├── chapB06
│ │ │ │ └── outlierdetection
│ │ │ │ └── spark
│ │ │ │ ├── Fast_Parallel_Outlier_Detection_for_Categorical_Datasets_using_MapReduce.pdf
│ │ │ │ ├── OutlierDetection.java
│ │ │ │ ├── OutlierDetectionWithLambda.java
│ │ │ │ ├── outlier.gif
│ │ │ │ ├── README.md
│ │ │ │ ├── run_spark_outlier_detection_yarn.sh
│ │ │ │ ├── sample-input-breast-cancer-wisconsin.data.txt
│ │ │ │ └── sample-output.txt
│ │ │ ├── chapB07
│ │ │ │ └── sql
│ │ │ │ ├── Person.java
│ │ │ │ ├── README.md
│ │ │ │ ├── SparkSQLExample.java
│ │ │ │ └── SparkSQLExampleWithLambda.java
│ │ │ ├── chapB08
│ │ │ │ └── logquery
│ │ │ │ └── spark
│ │ │ │ ├── LogStatistics.java
│ │ │ │ ├── SparkLogQuery.java
│ │ │ │ ├── SparkLogQueryWithLambda.java
│ │ │ │ └── Util.java
│ │ │ ├── chapB09
│ │ │ │ └── charcount
│ │ │ │ ├── Introduction-to-MapReduce.pdf
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── basic
│ │ │ │ │ │ ├── CharCountDriver.java
│ │ │ │ │ │ ├── CharCountMapper.java
│ │ │ │ │ │ └── CharCountReducer.java
│ │ │ │ │ ├── inmapper
│ │ │ │ │ │ ├── CharCountInMapperCombinerDriver.java
│ │ │ │ │ │ ├── CharCountInMapperCombinerMapper.java
│ │ │ │ │ │ └── CharCountInMapperCombinerReducer.java
│ │ │ │ │ └── localaggregation
│ │ │ │ │ ├── CharCountLocalAggregationDriver.java
│ │ │ │ │ ├── CharCountLocalAggregationMapper.java
│ │ │ │ │ └── CharCountLocalAggregationReducer.java
│ │ │ │ ├── README.md
│ │ │ │ └── spark
│ │ │ │ ├── basic
│ │ │ │ │ └── CharCount.java
│ │ │ │ ├── inmapper
│ │ │ │ │ └── CharCountInMapperCombiner.java
│ │ │ │ └── localaggregation
│ │ │ │ └── CharCountLocalAggregation.java
│ │ │ ├── chapB10
│ │ │ │ └── friendrecommendation
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── FriendRecommendationDriver.java
│ │ │ │ │ ├── PairOfLongs.java
│ │ │ │ │ ├── Phase1Mapper.java
│ │ │ │ │ ├── Phase1Reducer.java
│ │ │ │ │ ├── Phase2Mapper.java
│ │ │ │ │ └── Phase2Reducer.java
│ │ │ │ ├── README.md
│ │ │ │ └── spark
│ │ │ │ ├── SparkFriendRecommendation.java
│ │ │ │ └── SubmitSparkJobToYARNFromJavaCode.java
│ │ │ ├── chapB11
│ │ │ │ └── cartesian
│ │ │ │ └── spark
│ │ │ │ └── TestCartesian.java
│ │ │ ├── chapB12
│ │ │ │ └── docwordcount
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── WordCountDriver.java
│ │ │ │ │ ├── WordCountMapper.java
│ │ │ │ │ └── WordCountReducer.java
│ │ │ │ ├── spark
│ │ │ │ │ └── DocumentWordCount.java
│ │ │ │ ├── sparkwithlambda
│ │ │ │ │ └── DocumentWordCount.java
│ │ │ │ └── util
│ │ │ │ ├── FrequencyComparator.java
│ │ │ │ └── Util.java
│ │ │ ├── chapB13
│ │ │ │ └── client
│ │ │ │ ├── BasicAppClientListener.java
│ │ │ │ ├── ConfigurationManager.java
│ │ │ │ ├── InputStreamReaderRunnable.java
│ │ │ │ ├── package-info.java
│ │ │ │ ├── README.md
│ │ │ │ ├── SubmitSparkJobToClusterFromJavaCode.java
│ │ │ │ ├── SubmitSparkJobToYARNFromJavaCode.java
│ │ │ │ ├── SubmitSparkPiToClusterFromJavaCode.java
│ │ │ │ ├── SubmitSparkPiToClusterFromJavaCode.log
│ │ │ │ ├── SubmitSparkPiToYARNFromJavaCode.java
│ │ │ │ ├── SubmitSparkPiToYARNFromJavaCode.log
│ │ │ │ ├── SubmitSparkPiToYARNFromJavaCode.stderr.html
│ │ │ │ └── SubmitSparkPiToYARNFromJavaCode.stdout.html
│ │ │ ├── chapB14
│ │ │ │ └── minmax
│ │ │ │ ├── mapreduce
│ │ │ │ │ ├── MinMaxDriver.java
│ │ │ │ │ ├── MinMaxMapper.java
│ │ │ │ │ ├── MinMaxReducer.java
│ │ │ │ │ └── README.md
│ │ │ │ └── spark
│ │ │ │ ├── MinMax.java
│ │ │ │ ├── MinMaxWithLambda.java
│ │ │ │ ├── README.md
│ │ │ │ └── Util.java
│ │ │ ├── machinelearning
│ │ │ │ ├── kmeans
│ │ │ │ │ ├── Featurization.java
│ │ │ │ │ ├── OptimizedWikipediaKMeans.java
│ │ │ │ │ ├── Util.java
│ │ │ │ │ └── WikipediaKMeans.java
│ │ │ │ ├── linear
│ │ │ │ │ ├── OLS
│ │ │ │ │ │ ├── OrdinaryLeastSquaresRegressionDriver.java
│ │ │ │ │ │ ├── OrdinaryLeastSquaresRegressionModel.java
│ │ │ │ │ │ └── README.md
│ │ │ │ │ ├── R
│ │ │ │ │ │ └── query.r
│ │ │ │ │ ├── README.md
│ │ │ │ │ ├── resources
│ │ │ │ │ │ ├── predicting-car-prices-part-1-linear-regression.pdf
│ │ │ │ │ │ ├── query.txt
│ │ │ │ │ │ ├── query_with_prices.txt
│ │ │ │ │ │ ├── rplot.jpg
│ │ │ │ │ │ ├── ToyotaCorolla.csv
│ │ │ │ │ │ ├── ToyotaCorolla_Transformed.csv
│ │ │ │ │ │ └── ToyotaCorolla_Transformed_without_head.csv
│ │ │ │ │ ├── scripts
│ │ │ │ │ │ ├── run_build_model_on_yarn.sh
│ │ │ │ │ │ ├── run_car_price_prediction_on_yarn.sh
│ │ │ │ │ │ ├── run_check_accuracy_on_yarn.sh
│ │ │ │ │ │ └── transform.awk
│ │ │ │ │ └── SGD
│ │ │ │ │ ├── CarPricePredictionBuildModel.java
│ │ │ │ │ ├── CarPricePrediction.java
│ │ │ │ │ ├── ModelEvaluation.java
│ │ │ │ │ ├── README.md
│ │ │ │ │ └── Util.java
│ │ │ │ ├── logistic
│ │ │ │ │ ├── alcohol
│ │ │ │ │ │ ├── README.md
│ │ │ │ │ │ ├── StudentAlcoholDetectionBuildModel.java
│ │ │ │ │ │ ├── StudentAlcoholDetection.java
│ │ │ │ │ │ └── Util.java
│ │ │ │ │ ├── cancer
│ │ │ │ │ │ ├── BreastCancerDetectionBuildModel.java
│ │ │ │ │ │ ├── BreastCancerDetection.java
│ │ │ │ │ │ ├── README.md
│ │ │ │ │ │ ├── resources
│ │ │ │ │ │ │ ├── breast-cancer-wisconsin-wdbc-data.txt
│ │ │ │ │ │ │ ├── query-data.txt
│ │ │ │ │ │ │ └── README.md
│ │ │ │ │ │ ├── scripts
│ │ │ │ │ │ │ ├── run_build_model_on_yarn.sh
│ │ │ │ │ │ │ └── run_cancer_detection_on_yarn.sh
│ │ │ │ │ │ └── Util.java
│ │ │ │ │ └── spam
│ │ │ │ │ ├── EmailSpamDetectionBuildModel.java
│ │ │ │ │ ├── EmailSpamDetection.java
│ │ │ │ │ ├── README.md
│ │ │ │ │ ├── resources
│ │ │ │ │ │ ├── emails_nospam.txt
│ │ │ │ │ │ ├── emails_spam.txt
│ │ │ │ │ │ └── query.txt
│ │ │ │ │ ├── scripts
│ │ │ │ │ │ ├── run_build_model_on_spark.sh
│ │ │ │ │ │ ├── run_build_model_on_yarn.sh
│ │ │ │ │ │ ├── run_spam_detection_on_spark.sh
│ │ │ │ │ │ └── run_spam_detection_on_yarn.sh
│ │ │ │ │ └── Util.java
│ │ │ │ ├── naivebayes
│ │ │ │ │ ├── diabetes
│ │ │ │ │ │ ├── BuildDiabetesModel.java
│ │ │ │ │ │ ├── PredictDiabetes.java
│ │ │ │ │ │ ├── README.md
│ │ │ │ │ │ ├── resources
│ │ │ │ │ │ │ ├── part.csv
│ │ │ │ │ │ │ ├── part-r-00000-e9e426df-f8fa-4422-8a90-3bc517293a34.gz.parquet
│ │ │ │ │ │ │ ├── pima-indians-diabetes.data
│ │ │ │ │ │ │ ├── query.txt
│ │ │ │ │ │ │ └── query_with_valid_classifications.txt
│ │ │ │ │ │ ├── scripts
│ │ │ │ │ │ │ ├── run_build_model_on_yarn.sh
│ │ │ │ │ │ │ ├── run_check_accuracy_on_yarn.sh
│ │ │ │ │ │ │ └── run_diabetes_prediction_on_yarn.sh
│ │ │ │ │ │ ├── TestAccuracyOfModel.java
│ │ │ │ │ │ └── Util.java
│ │ │ │ │ └── tennis
│ │ │ │ │ ├── BuildTennisModel.java
│ │ │ │ │ ├── PredictTennisPlay.java
│ │ │ │ │ ├── PredictTennisPlayWithLambda.java
│ │ │ │ │ ├── README.md
│ │ │ │ │ ├── scripts
│ │ │ │ │ │ ├── run_build_model_on_yarn.sh
│ │ │ │ │ │ ├── run_check_accuracy_on_yarn.sh
│ │ │ │ │ │ └── run_tennis_play_prediction_on_yarn.sh
│ │ │ │ │ ├── TestAccuracyOfModel.java
│ │ │ │ │ ├── TestAccuracyOfModelWithLambda.java
│ │ │ │ │ └── Util.java
│ │ │ │ ├── package-info.java
│ │ │ │ └── README.md
│ │ │ └── util
│ │ │ ├── Combination.java
│ │ │ ├── DataStructures.java
│ │ │ ├── DateUtil.java
│ │ │ ├── HadoopUtil.java
│ │ │ ├── InputOutputUtil.java
│ │ │ ├── MathUtil.java
│ │ │ ├── Pair.java
│ │ │ ├── PairOfDoubleInteger.java
│ │ │ ├── SequenceFileWriterDemo.java
│ │ │ ├── SparkUtil.java
│ │ │ ├── Tuple3.java
│ │ │ ├── Tuple7.java
│ │ │ └── TupleComparator.java
│ │ └── scala
│ │ ├── org
│ │ │ └── dataalgorithms
│ │ │ ├── chap01
│ │ │ │ └── scala
│ │ │ │ ├── CustomPartitioner.scala
│ │ │ │ ├── README.md
│ │ │ │ └── SecondarySort.scala
│ │ │ ├── chap03
│ │ │ │ └── scala
│ │ │ │ ├── README.md
│ │ │ │ ├── sample_input
│ │ │ │ │ ├── cat1.csv
│ │ │ │ │ ├── cat2.csv
│ │ │ │ │ └── cat3.csv
│ │ │ │ ├── TopNNonUnique.scala
│ │ │ │ └── TopN.scala
│ │ │ ├── chap04
│ │ │ │ └── scala
│ │ │ │ ├── DataFrameLeftOuterJoin.scala
│ │ │ │ ├── LeftOuterJoin.scala
│ │ │ │ ├── README.md
│ │ │ │ ├── SparkLeftOuterJoin.scala
│ │ │ │ ├── transactions.tsv
│ │ │ │ └── users.tsv
│ │ │ ├── chap05
│ │ │ │ └── scala
│ │ │ │ ├── README.md
│ │ │ │ ├── RelativeFrequency.scala
│ │ │ │ ├── resources
│ │ │ │ │ └── MapReduce_Algorithm_Design_by_Jordan_Boyd-Graber.pdf
│ │ │ │ └── SparkSQLRelativeFrequency.scala
│ │ │ ├── chap06
│ │ │ │ └── scala
│ │ │ │ ├── MovingAverageInMemory.scala
│ │ │ │ ├── MovingAverage.scala
│ │ │ │ └── README.md
│ │ │ ├── chap07
│ │ │ │ └── scala
│ │ │ │ └── FindAssociationRules.scala
│ │ │ ├── chap08
│ │ │ │ └── scala
│ │ │ │ └── FindCommonFriends.scala
│ │ │ ├── chap09
│ │ │ │ └── scala
│ │ │ │ └── FriendRecommendation.scala
│ │ │ ├── chap10
│ │ │ │ └── scala
│ │ │ │ └── MovieRecommendations.scala
│ │ │ ├── chap11
│ │ │ │ └── scala
│ │ │ │ └── Markov.scala
│ │ │ ├── chap12
│ │ │ │ └── scala
│ │ │ │ └── ScalaKMeans.scala
│ │ │ ├── chap13
│ │ │ │ └── scala
│ │ │ │ └── kNN.scala
│ │ │ ├── chap14
│ │ │ │ └── scala
│ │ │ │ ├── bayes-theorem.png
│ │ │ │ ├── NaiveBayesClassifierBuilder.scala
│ │ │ │ ├── NaiveBayesClassifier.scala
│ │ │ │ └── README.md
│ │ │ ├── chap16
│ │ │ │ └── scala
│ │ │ │ ├── CountTriangles.scala
│ │ │ │ ├── README.md
│ │ │ │ └── social_network_example.png
│ │ │ ├── chap17
│ │ │ │ └── scala
│ │ │ │ └── Kmer.scala
│ │ │ ├── chap22
│ │ │ │ └── scala
│ │ │ │ ├── README.md
│ │ │ │ ├── ttest.jpg
│ │ │ │ └── Ttest.scala
│ │ │ ├── chap23
│ │ │ │ └── scala
│ │ │ │ ├── AllVersusAllCorrelation.scala
│ │ │ │ ├── correlation.gif
│ │ │ │ └── README.md
│ │ │ ├── chap24
│ │ │ │ └── scala
│ │ │ │ ├── DNABaseCountFASTAWithCombineByKey.scala
│ │ │ │ ├── DNABaseCountFASTAWithMapPartitions.scala
│ │ │ │ ├── DNABaseCountFASTQWithCombineByKey.scala
│ │ │ │ ├── DNABaseCountFASTQWithMapPartitions.scala
│ │ │ │ ├── dna-structure.jpg
│ │ │ │ └── README.md
│ │ │ ├── chap26
│ │ │ │ └── scala
│ │ │ │ ├── GeneAggregationByAverage.scala
│ │ │ │ ├── GeneAggregationByIndividual.scala
│ │ │ │ ├── gene-cell-DNA.jpg
│ │ │ │ └── README.md
│ │ │ ├── chap28
│ │ │ │ └── scala
│ │ │ │ ├── MeanMonoidizedUsingCombineByKey.scala
│ │ │ │ ├── MeanMonoidizedUsingReduceByKey.scala
│ │ │ │ ├── monoid.png
│ │ │ │ ├── monoids-by-Piyush-Mishra.pdf
│ │ │ │ └── README.md
│ │ │ ├── README.md
│ │ │ └── scala.jpeg
│ │ └── scala
│ │ └── annotation
│ │ ├── cloneable.scala
│ │ ├── README.md
│ │ └── serializable.scala
│ ├── python
│ │ └── chap01
│ │ └── SparkSecondarySort.py
│ └── test
│ └── java
│ └── org
│ └── dataalgorithms
│ ├── chap05
│ │ └── mapreduce
│ │ └── PairOfWordsTest.java
│ └── util
│ └── TestCombination.java
└── webcast
├── oreilly_webinar_2015_07_23.pdf
├── RankProduct_slides.pdf
└── README.md
257 directories, 857 files
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论