在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → 数据算法Hadoop/Spark大数据处理技巧 源代码

数据算法Hadoop/Spark大数据处理技巧 源代码

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:204.27M
  • 下载次数:37
  • 浏览次数:155
  • 发布时间:2021-01-18
  • 实例类别:一般编程问题
  • 发 布 人:好学IT男
  • 文件格式:.zip
  • 所需积分:2
 

实例介绍

【实例简介】
数据算法Hadoop/Spark大数据处理技巧 源代码 内有部分数据集
【实例截图】
【核心代码】
0e0bb67e-4f32-4cba-a332-21bcd5af713f
└── 数据算法MapReduceSpark大数据处理技巧源代码
├── build.gradle
├── build.xml
├── data
│   ├── README.md
│   ├── sample.fasta
│   ├── sample.fastq
│   ├── student_alcohol_query_data.txt
│   └── student_alcohol_training_data.txt
├── gradle
│   └── wrapper
│   ├── gradle-wrapper.jar
│   └── gradle-wrapper.properties
├── gradlew
├── gradlew.bat
├── lib
│   ├── activation-1.1.1.jar
│   ├── antlr-2.7.7.jar
│   ├── antlr4-runtime-4.5.3.jar
│   ├── antlr-runtime-3.4.jar
│   ├── aopalliance-1.0.jar
│   ├── aopalliance-repackaged-2.4.0-b34.jar
│   ├── apacheds-i18n-2.0.0-M15.jar
│   ├── apacheds-kerberos-codec-2.0.0-M15.jar
│   ├── apache-log4j-extras-1.2.17.jar
│   ├── api-asn1-api-1.0.0-M20.jar
│   ├── api-util-1.0.0-M20.jar
│   ├── arpack_combined_all-0.1.jar
│   ├── asm-3.1.jar
│   ├── avro-1.7.7.jar
│   ├── avro-ipc-1.7.7.jar
│   ├── avro-ipc-1.7.7-tests.jar
│   ├── avro-mapred-1.7.7-hadoop2.jar
│   ├── base64-2.3.8.jar
│   ├── bcprov-jdk15on-1.51.jar
│   ├── bliki-core-3.0.19.jar
│   ├── bonecp-0.8.0.RELEASE.jar
│   ├── breeze_2.11-0.12.jar
│   ├── breeze-macros_2.11-0.12.jar
│   ├── calcite-avatica-1.2.0-incubating.jar
│   ├── calcite-core-1.2.0-incubating.jar
│   ├── calcite-linq4j-1.2.0-incubating.jar
│   ├── chill_2.11-0.8.0.jar
│   ├── chill-java-0.8.0.jar
│   ├── cloud9-1.3.2.jar
│   ├── commons-beanutils-1.7.0.jar
│   ├── commons-beanutils-core-1.8.0.jar
│   ├── commons-cli-1.3.jar
│   ├── commons-codec-1.10.jar
│   ├── commons-collections-3.2.2.jar
│   ├── commons-compiler-3.0.0.jar
│   ├── commons-compress-1.4.1.jar
│   ├── commons-configuration-1.10.jar
│   ├── commons-crypto-1.0.0.jar
│   ├── commons-daemon-1.0.15.jar
│   ├── commons-dbcp-1.4.jar
│   ├── commons-digester-1.8.jar
│   ├── commons-el-1.0.jar
│   ├── commons-httpclient-3.1.jar
│   ├── commons-io-2.4.jar
│   ├── commons-lang-2.6.jar
│   ├── commons-lang3-3.5.jar
│   ├── commons-logging-1.1.3.jar
│   ├── commons-math-2.1.jar
│   ├── commons-math3-3.4.1.jar
│   ├── commons-net-2.2.jar
│   ├── commons-pool-1.5.4.jar
│   ├── compress-lzf-1.0.3.jar
│   ├── core-1.1.2.jar
│   ├── core-3.1.1.jar
│   ├── curator-client-2.6.0.jar
│   ├── curator-framework-2.6.0.jar
│   ├── curator-recipes-2.6.0.jar
│   ├── datanucleus-api-jdo-3.2.6.jar
│   ├── datanucleus-core-3.2.10.jar
│   ├── datanucleus-rdbms-3.2.9.jar
│   ├── derby-10.12.1.1.jar
│   ├── eigenbase-properties-1.1.5.jar
│   ├── graphframes-0.3.0-spark2.0-s_2.11.jar
│   ├── gson-2.2.4.jar
│   ├── guava-14.0.1.jar
│   ├── guice-3.0.jar
│   ├── guice-servlet-3.0.jar
│   ├── hadoop-annotations-2.6.4.jar
│   ├── hadoop-auth-2.6.4.jar
│   ├── hadoop-client-2.6.4.jar
│   ├── hadoop-common-2.6.4.jar
│   ├── hadoop-hdfs-2.6.4.jar
│   ├── hadoop-lzo-0.4.20-SNAPSHOT_mac.jar
│   ├── hadoop-mapreduce-client-app-2.6.4.jar
│   ├── hadoop-mapreduce-client-common-2.6.4.jar
│   ├── hadoop-mapreduce-client-core-2.6.4.jar
│   ├── hadoop-mapreduce-client-jobclient-2.6.4.jar
│   ├── hadoop-mapreduce-client-shuffle-2.6.4.jar
│   ├── hadoop-yarn-api-2.6.4.jar
│   ├── hadoop-yarn-client-2.6.4.jar
│   ├── hadoop-yarn-common-2.6.4.jar
│   ├── hadoop-yarn-server-common-2.6.4.jar
│   ├── hadoop-yarn-server-web-proxy-2.6.4.jar
│   ├── hamcrest-all-1.3.jar
│   ├── hamcrest-core-1.3.jar
│   ├── hive-beeline-1.2.1.spark2.jar
│   ├── hive-cli-1.2.1.spark2.jar
│   ├── hive-exec-1.2.1.spark2.jar
│   ├── hive-jdbc-1.2.1.spark2.jar
│   ├── hive-metastore-1.2.1.spark2.jar
│   ├── hk2-api-2.4.0-b34.jar
│   ├── hk2-locator-2.4.0-b34.jar
│   ├── hk2-utils-2.4.0-b34.jar
│   ├── hsqldb-1.8.0.10.jar
│   ├── htrace-core-3.0.4.jar
│   ├── httpclient-4.5.2.jar
│   ├── httpcore-4.4.4.jar
│   ├── ivy-2.4.0.jar
│   ├── jackson-annotations-2.6.5.jar
│   ├── jackson-core-2.6.5.jar
│   ├── jackson-core-asl-1.9.13.jar
│   ├── jackson-databind-2.6.5.jar
│   ├── jackson-jaxrs-1.9.13.jar
│   ├── jackson-mapper-asl-1.9.13.jar
│   ├── jackson-module-paranamer-2.6.5.jar
│   ├── jackson-module-scala_2.11-2.6.5.jar
│   ├── jackson-xc-1.9.13.jar
│   ├── janino-3.0.0.jar
│   ├── jasper-compiler-5.5.23.jar
│   ├── jasper-runtime-5.5.23.jar
│   ├── JavaEWAH-0.3.2.jar
│   ├── javassist-3.18.1-GA.jar
│   ├── javax.annotation-api-1.2.jar
│   ├── javax.inject-1.jar
│   ├── javax.inject-2.4.0-b34.jar
│   ├── java-xmlbuilder-1.0.jar
│   ├── javax.servlet-api-3.1.0.jar
│   ├── javax.ws.rs-api-2.0.1.jar
│   ├── javolution-5.5.1.jar
│   ├── jaxb-api-2.2.2.jar
│   ├── jaxb-impl-2.2.3-1.jar
│   ├── jcl-over-slf4j-1.7.16.jar
│   ├── jdo-api-3.0.1.jar
│   ├── jersey-client-2.22.2.jar
│   ├── jersey-common-2.22.2.jar
│   ├── jersey-container-servlet-2.22.2.jar
│   ├── jersey-container-servlet-core-2.22.2.jar
│   ├── jersey-core-1.9.jar
│   ├── jersey-guava-2.22.2.jar
│   ├── jersey-json-1.9.jar
│   ├── jersey-media-jaxb-2.22.2.jar
│   ├── jersey-server-2.22.2.jar
│   ├── jets3t-0.9.3.jar
│   ├── jettison-1.1.jar
│   ├── jetty-6.1.26.jar
│   ├── jetty-util-6.1.26.jar
│   ├── jline-2.12.1.jar
│   ├── joda-time-2.9.3.jar
│   ├── jodd-core-3.5.2.jar
│   ├── jpam-1.1.jar
│   ├── jsch-0.1.42.jar
│   ├── json4s-ast_2.11-3.2.11.jar
│   ├── json4s-core_2.11-3.2.11.jar
│   ├── json4s-jackson_2.11-3.2.11.jar
│   ├── jsp-2.1-6.1.14.jar
│   ├── jsp-api-2.1-6.1.14.jar
│   ├── jsr305-1.3.9.jar
│   ├── jta-1.1.jar
│   ├── jtransforms-2.4.0.jar
│   ├── jul-to-slf4j-1.7.16.jar
│   ├── junit-4.12.jar
│   ├── kryo-shaded-3.0.3.jar
│   ├── leveldbjni-all-1.8.jar
│   ├── libfb303-0.9.2.jar
│   ├── libthrift-0.9.2.jar
│   ├── log4j-1.2.17.jar
│   ├── lz4-1.3.0.jar
│   ├── lzo-core-1.0.0.jar
│   ├── lzo-hadoop-1.0.0.jar
│   ├── mail-1.4.7.jar
│   ├── mesos-1.0.0-shaded-protobuf.jar
│   ├── metrics-core-3.1.2.jar
│   ├── metrics-graphite-3.1.2.jar
│   ├── metrics-json-3.1.2.jar
│   ├── metrics-jvm-3.1.2.jar
│   ├── minlog-1.3.0.jar
│   ├── mx4j-3.0.2.jar
│   ├── netty-3.8.0.Final.jar
│   ├── netty-all-4.0.42.Final.jar
│   ├── objenesis-2.1.jar
│   ├── opencsv-2.3.jar
│   ├── oro-2.0.8.jar
│   ├── osgi-resource-locator-1.0.1.jar
│   ├── paranamer-2.3.jar
│   ├── parquet-column-1.8.1.jar
│   ├── parquet-common-1.8.1.jar
│   ├── parquet-encoding-1.8.1.jar
│   ├── parquet-format-2.3.0-incubating.jar
│   ├── parquet-generator-1.7.0.jar
│   ├── parquet-hadoop-1.8.1.jar
│   ├── parquet-hadoop-bundle-1.6.0.jar
│   ├── parquet-jackson-1.8.1.jar
│   ├── pmml-model-1.2.15.jar
│   ├── pmml-schema-1.2.15.jar
│   ├── protobuf-java-2.5.0.jar
│   ├── py4j-0.10.4.jar
│   ├── pyrolite-4.13.jar
│   ├── RoaringBitmap-0.5.11.jar
│   ├── scala-archetype-simple-1.3.jar
│   ├── scala-compiler-2.11.8.jar
│   ├── scala-library-2.11.8.jar
│   ├── scala-logging_2.11-3.5.0.jar
│   ├── scala-logging-api_2.11.0-RC3-2.0.1.jar
│   ├── scala-logging-slf4j_2.11-2.1.2.jar
│   ├── scalap-2.11.8.jar
│   ├── scala-parser-combinators_2.11-1.0.4.jar
│   ├── scala-reflect-2.11.8.jar
│   ├── scalatest_2.11-2.2.6.jar
│   ├── scala-xml_2.11-1.0.2.jar
│   ├── servlet-api-2.5-6.1.14.jar
│   ├── servlet-api-2.5.jar
│   ├── shapeless_2.11-2.0.0.jar
│   ├── slf4j-api-1.7.16.jar
│   ├── slf4j-log4j12-1.7.16.jar
│   ├── snappy-0.2.jar
│   ├── snappy-java-1.1.2.6.jar
│   ├── spark-catalyst_2.11-2.1.0.jar
│   ├── spark-core_2.11-2.1.0.jar
│   ├── spark-graphx_2.11-2.1.0.jar
│   ├── spark-hive_2.11-2.1.0.jar
│   ├── spark-hive-thriftserver_2.11-2.1.0.jar
│   ├── spark-launcher_2.11-2.1.0.jar
│   ├── spark-mesos_2.11-2.1.0.jar
│   ├── spark-mllib_2.11-2.1.0.jar
│   ├── spark-mllib-local_2.11-2.1.0.jar
│   ├── spark-network-common_2.11-2.1.0.jar
│   ├── spark-network-shuffle_2.11-2.1.0.jar
│   ├── spark-repl_2.11-2.1.0.jar
│   ├── spark-sketch_2.11-2.1.0.jar
│   ├── spark-sql_2.11-2.1.0.jar
│   ├── spark-streaming_2.11-2.1.0.jar
│   ├── spark-tags_2.11-2.1.0.jar
│   ├── spark-unsafe_2.11-2.1.0.jar
│   ├── spark-yarn_2.11-2.1.0.jar
│   ├── spire_2.11-0.7.4.jar
│   ├── spire-macros_2.11-0.7.4.jar
│   ├── ST4-4.0.4.jar
│   ├── stax-api-1.0.1.jar
│   ├── stax-api-1.0-2.jar
│   ├── stream-2.7.0.jar
│   ├── stringtemplate-3.2.1.jar
│   ├── super-csv-2.2.0.jar
│   ├── univocity-parsers-2.2.1.jar
│   ├── unused-1.0.0.jar
│   ├── validation-api-1.1.0.Final.jar
│   ├── xbean-asm5-shaded-4.4.jar
│   ├── xercesImpl-2.9.1.jar
│   ├── xml-apis-1.3.04.jar
│   ├── xmlenc-0.52.jar
│   ├── xz-1.0.jar
│   └── zookeeper-3.4.6.jar
├── LICENSE
├── misc
│   ├── ant
│   │   ├── how_to_build_with_ant.md
│   │   ├── README.md
│   │   ├── sample_ant_build_linux.txt
│   │   └── sample_ant_build_mac.txt
│   ├── bonus-chapters.md
│   ├── book-signing.md
│   ├── da_book3.jpeg
│   ├── da_book_image2.gif
│   ├── da_small2.gif
│   ├── da_small.gif
│   ├── data-algorithms-2nd-ed-cover.jpg
│   ├── data-algorithms-2nd-ed-cover.pdf
│   ├── data_algorithms_image.jpg
│   ├── data_algorithms_image_small.gif
│   ├── data_algorithms_image_small.jpg
│   ├── favorite_quotes
│   │   └── README.md
│   ├── how_to_create_a_lot_of_small_files.txt
│   ├── how-to-submit-spark-job-from-java-code.md
│   ├── how-to-submit-spark-job-to-yarn-from-java-code.md
│   ├── jdk8_and_lambda.md
│   ├── large-image.jpg
│   ├── linear_regression_line.png
│   ├── machine_learning.jpg
│   ├── Mahmoud_Parsian_Guest_Speaker.pdf
│   ├── maven
│   │   ├── how_to_build_with_maven.md
│   │   └── README.md
│   ├── option1-log.txt
│   ├── README_lib.md
│   ├── rplot.jpg
│   ├── run_spark
│   │   ├── how_to_run_hadoop_programs.sh
│   │   ├── how_to_run_spark_in_spark_cluster.sh
│   │   ├── how_to_run_spark_in_yarn.sh
│   │   └── README.md
│   ├── source-code.md
│   ├── source_tree.png
│   ├── webinars.md
│   ├── work_in_progress2.jpeg
│   └── work_in_progress.jpeg
├── pom.xml
├── README.md
├── resource
│   └── chap12
│   ├── Figure-12-1.jpeg
│   ├── Figure-12-1.pdf
│   ├── Figure-12-2.jpeg
│   ├── Figure-12-2.pdf
│   ├── kmeans-example-0.jpeg
│   ├── kmeans-example-0.pdf
│   ├── kmeans-example-1.jpeg
│   └── kmeans-example-1.pdf
├── scripts
│   └── org
│   └── dataalgorithms
│   ├── chap03
│   │   ├── mapreduce
│   │   │   └── run_top_N_mapreduce.sh
│   │   └── spark
│   │   ├── run_top10_nonunique_spark_cluster.sh
│   │   ├── run_top10_spark_cluster.sh
│   │   ├── run_top10usingtakeordered_yarn.sh
│   │   ├── run_top10usingtop_yarn.sh
│   │   └── run_top10_yarn.sh
│   └── chap24
│   └── spark
│   └── run_spark_dna_base_count_fastq.sh
├── setenv.sh
├── settings.gradle
├── src
│   ├── main
│   │   ├── java
│   │   │   └── org
│   │   │   └── dataalgorithms
│   │   │   ├── chap01
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── DateTemperatureGroupingComparator.java
│   │   │   │   │   ├── DateTemperaturePair.java
│   │   │   │   │   ├── DateTemperaturePartitioner.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SecondarySortDriver.java
│   │   │   │   │   ├── SecondarySortMapper.java
│   │   │   │   │   └── SecondarySortReducer.java
│   │   │   │   ├── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── secondary_sorting.png
│   │   │   │   ├── spark
│   │   │   │   │   ├── CustomPartitioner.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── RepartitionAndSortWithinPartitionsExample1.java
│   │   │   │   │   ├── sample_input.txt
│   │   │   │   │   ├── sample_output.txt
│   │   │   │   │   ├── SecondarySortUsingCombineByKey.java
│   │   │   │   │   ├── SecondarySortUsingGroupByKey.java
│   │   │   │   │   ├── SecondarySortUsingRepartitionAndSortWithinPartitions.java
│   │   │   │   │   └── TupleComparatorDescending.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SecondarySortUsingCombineByKey.java
│   │   │   │   │   └── SecondarySortUsingGroupByKey.java
│   │   │   │   └── util
│   │   │   │   ├── package-info.java
│   │   │   │   └── SparkTupleComparator.java
│   │   │   ├── chap02
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── CompositeKeyComparator.java
│   │   │   │   │   ├── CompositeKey.java
│   │   │   │   │   ├── NaturalKeyGroupingComparator.java
│   │   │   │   │   ├── NaturalKeyPartitioner.java
│   │   │   │   │   ├── NaturalValue.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SecondarySortDriver.java
│   │   │   │   │   ├── SecondarySortMapper.java
│   │   │   │   │   └── SecondarySortReducer.java
│   │   │   │   ├── README.md
│   │   │   │   └── secondary_sorting.png
│   │   │   ├── chap03
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── AggregateByKeyDriver.java
│   │   │   │   │   ├── AggregateByKeyMapper.java
│   │   │   │   │   ├── AggregateByKeyReducer.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SequenceFileWriterForTopN.java
│   │   │   │   │   ├── TopNDriver.java
│   │   │   │   │   ├── TopNMapper.java
│   │   │   │   │   └── TopNReducer.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── Top10.java
│   │   │   │   │   ├── Top10NonUnique.java
│   │   │   │   │   └── Top10UsingTakeOrdered.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── Top10.java
│   │   │   │   │   ├── Top10NonUnique.java
│   │   │   │   │   └── Top10UsingTakeOrdered.java
│   │   │   │   └── top10.jpg
│   │   │   ├── chap04
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── LeftJoinDriver.java
│   │   │   │   │   ├── LeftJoinReducer.java
│   │   │   │   │   ├── LeftJoinTransactionMapper.java
│   │   │   │   │   ├── LeftJoinUserMapper.java
│   │   │   │   │   ├── LocationCountDriver.java
│   │   │   │   │   ├── LocationCountMapper.java
│   │   │   │   │   ├── LocationCountReducer.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SecondarySortGroupComparator.java
│   │   │   │   │   └── SecondarySortPartitioner.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   └── SparkLeftOuterJoin.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── package-info.java
│   │   │   │   └── SparkLeftOuterJoin.java
│   │   │   ├── chap05
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── OrderInversionPartitioner.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── PairOfWords.java
│   │   │   │   │   ├── RelativeFrequencyCombiner.java
│   │   │   │   │   ├── RelativeFrequencyDriver.java
│   │   │   │   │   ├── RelativeFrequencyMapper.java
│   │   │   │   │   └── RelativeFrequencyReducer.java
│   │   │   │   └── spark
│   │   │   │   ├── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── RelativeFrequency.java
│   │   │   │   └── SparkSQLRelativeFrequency.java
│   │   │   ├── chap06
│   │   │   │   ├── memorysort
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── run.log
│   │   │   │   │   ├── run.sh
│   │   │   │   │   ├── sample.txt
│   │   │   │   │   ├── SortInMemory_MovingAverageDriver.java
│   │   │   │   │   ├── SortInMemory_MovingAverageMapper.java
│   │   │   │   │   └── SortInMemory_MovingAverageReducer.java
│   │   │   │   ├── package-info.java
│   │   │   │   ├── pojo
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SimpleMovingAverage.java
│   │   │   │   │   ├── SimpleMovingAverageUsingArray.java
│   │   │   │   │   └── TestSimpleMovingAverage.java
│   │   │   │   ├── secondarysort
│   │   │   │   │   ├── CompositeKeyComparator.java
│   │   │   │   │   ├── CompositeKey.java
│   │   │   │   │   ├── MovingAverage.java
│   │   │   │   │   ├── NaturalKeyGroupingComparator.java
│   │   │   │   │   ├── NaturalKeyPartitioner.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SortByMRF_MovingAverageDriver.java
│   │   │   │   │   ├── SortByMRF_MovingAverageMapper.java
│   │   │   │   │   └── SortByMRF_MovingAverageReducer.java
│   │   │   │   └── TimeSeriesData.java
│   │   │   ├── chap07
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── MBADriver.java
│   │   │   │   │   ├── MBAMapper.java
│   │   │   │   │   ├── MBAReducer.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── spark
│   │   │   │   ├── FindAssociationRules.java
│   │   │   │   ├── FindAssociationRulesWithLambda.java
│   │   │   │   ├── package-info.java
│   │   │   │   └── Util.java
│   │   │   ├── chap08
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── CommonFriendsDriver.java
│   │   │   │   │   ├── CommonFriendsDriverUsingList.java
│   │   │   │   │   ├── CommonFriendsMapper.java
│   │   │   │   │   ├── CommonFriendsMapperUsingList.java
│   │   │   │   │   ├── CommonFriendsReducer.java
│   │   │   │   │   ├── CommonFriendsReducerUsingList.java
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── FindCommonFriends.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── FindCommonFriends.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap09
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   └── spark
│   │   │   │   ├── package-info.java
│   │   │   │   └── SparkFriendRecommendation.java
│   │   │   ├── chap10
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   └── spark
│   │   │   │   ├── MovieRecommendations.java
│   │   │   │   ├── MovieRecommendationsWithJoin.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap11
│   │   │   │   ├── package-info.java
│   │   │   │   ├── projection
│   │   │   │   │   ├── memorysort
│   │   │   │   │   │   ├── package-info.java
│   │   │   │   │   │   ├── SortInMemoryProjectionDriver.java
│   │   │   │   │   │   ├── SortInMemoryProjectionMapper.java
│   │   │   │   │   │   └── SortInMemoryProjectionReducer.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   └── secondarysort
│   │   │   │   │   ├── CompositeKeyComparator.java
│   │   │   │   │   ├── CompositeKey.java
│   │   │   │   │   ├── NaturalKeyGroupingComparator.java
│   │   │   │   │   ├── NaturalKeyPartitioner.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SecondarySortProjectionDriver.java
│   │   │   │   │   ├── SecondarySortProjectionMapper.java
│   │   │   │   │   └── SecondarySortProjectionReducer.java
│   │   │   │   ├── resources
│   │   │   │   │   └── smart_email_training.txt
│   │   │   │   ├── spark
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SparkMarkov.java
│   │   │   │   │   └── SparkMarkovWithLambda.java
│   │   │   │   └── statemodel
│   │   │   │   ├── MarkovStateTransitionModelCombiner.java
│   │   │   │   ├── MarkovStateTransitionModelDriver.java
│   │   │   │   ├── MarkovStateTransitionModelMapper.java
│   │   │   │   ├── MarkovStateTransitionModelReducer.java
│   │   │   │   ├── package-info.java
│   │   │   │   ├── ReadDataFromHDFS.java
│   │   │   │   ├── StateTransitionTableBuilder.java
│   │   │   │   └── TableItem.java
│   │   │   ├── chap13
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── spark
│   │   │   │   │   ├── kNN2.java
│   │   │   │   │   ├── kNN.java
│   │   │   │   │   ├── output
│   │   │   │   │   │   ├── cart
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   ├── knnMapped
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   ├── knnOutput
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   ├── R
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   └── S
│   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   ├── output2
│   │   │   │   │   │   ├── knnMapped
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   ├── knnOutput
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   ├── R
│   │   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   │   └── S
│   │   │   │   │   │   ├── part-00000
│   │   │   │   │   │   └── _SUCCESS
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── resources
│   │   │   │   │   │   ├── R.txt
│   │   │   │   │   │   └── S.txt
│   │   │   │   │   ├── run_knn2_spark.sh
│   │   │   │   │   ├── run_knn_spark.log
│   │   │   │   │   ├── run_knn_spark.sh
│   │   │   │   │   ├── run_knn_spark_yarn.log
│   │   │   │   │   └── run_knn_spark_yarn.sh
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── kNN.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── util
│   │   │   │   ├── package-info.java
│   │   │   │   └── Util.java
│   │   │   ├── chap14
│   │   │   │   ├── bayes-theorem.png
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── NaiveBayesClassifierBuilder.java
│   │   │   │   │   ├── NaiveBayesClassifier.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── NaiveBayesClassifierBuilder.java
│   │   │   │   ├── NaiveBayesClassifier.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap16
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── GraphEdgeMapper.java
│   │   │   │   │   ├── GraphEdgeReducer.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── TriadsMapper.java
│   │   │   │   │   ├── TriadsReducer.java
│   │   │   │   │   ├── TriangleCounterDriver.java
│   │   │   │   │   ├── UniqueTriadsMapper.java
│   │   │   │   │   └── UniqueTriadsReducer.java
│   │   │   │   └── spark
│   │   │   │   ├── CountTriangles.java
│   │   │   │   ├── CountTrianglesWithLambda.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap17
│   │   │   │   ├── kmer.jpg
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── KmerCountDriver.java
│   │   │   │   │   ├── KmerCountMapper.java
│   │   │   │   │   ├── KmerCountReducer.java
│   │   │   │   │   ├── KmerUtil.java
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── Kmer.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── Kmer.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap22
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   └── SparkTtest.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   └── SparkTtest.java
│   │   │   │   └── ttest.png
│   │   │   ├── chap23
│   │   │   │   ├── correlation
│   │   │   │   │   ├── MutableDouble.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── Pearson.java
│   │   │   │   │   ├── Spearman.java
│   │   │   │   │   ├── TestPearson.java
│   │   │   │   │   └── TestSpearman.java
│   │   │   │   ├── spark
│   │   │   │   │   ├── AllVersusAllCorrelation.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── AllVersusAllCorrelation.java
│   │   │   │   └── package-info.java
│   │   │   ├── chap24
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── BaseComparator.java
│   │   │   │   │   ├── BasePartitioner.java
│   │   │   │   │   ├── FastaCountBaseCombiner.java
│   │   │   │   │   ├── FastaCountBaseDriver.java
│   │   │   │   │   ├── FastaCountBaseMapper.java
│   │   │   │   │   ├── FastaCountBaseReducer.java
│   │   │   │   │   ├── FastaInputFormat.java
│   │   │   │   │   ├── FastaRecordReader.java
│   │   │   │   │   ├── FastqCountBaseDriver.java
│   │   │   │   │   ├── FastqCountBaseMapper.java
│   │   │   │   │   ├── FastqCountBaseReducer.java
│   │   │   │   │   ├── FastqInputFormat.java
│   │   │   │   │   ├── FastqRecordReader.java
│   │   │   │   │   └── package-info.java
│   │   │   │   └── spark
│   │   │   │   ├── DNABaseCountFASTA.java
│   │   │   │   ├── DNABaseCountFASTQCustomFormat.java
│   │   │   │   ├── DNABaseCountFASTQTextFormat.java
│   │   │   │   ├── dna-structure.jpg
│   │   │   │   ├── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   └── Util.java
│   │   │   ├── chap26
│   │   │   │   ├── mapreduce
│   │   │   │   │   └── package-info.java
│   │   │   │   └── spark
│   │   │   │   ├── package-info.java
│   │   │   │   ├── SparkGeneAggregationByAverage.java
│   │   │   │   └── SparkGeneAggregationByIndividual.java
│   │   │   ├── chap28
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── MeanDriver.java
│   │   │   │   │   ├── MeanMonoidizedCombiner.java
│   │   │   │   │   ├── MeanMonoidizedMapper.java
│   │   │   │   │   ├── MeanMonoidizedReducer.java
│   │   │   │   │   └── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   └── SparkMeanMonoidized.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   ├── package-info.java
│   │   │   │   └── SparkMeanMonoidized.java
│   │   │   ├── chap29
│   │   │   │   ├── combinesmallfilesbybuckets
│   │   │   │   │   ├── BucketThread.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── SmallFilesConsolidator.java
│   │   │   │   │   ├── WordCountDriverWithConsolidator.java
│   │   │   │   │   ├── WordCountDriverWithoutConsolidator.java
│   │   │   │   │   ├── WordCountMapper.java
│   │   │   │   │   └── WordCountReducer.java
│   │   │   │   ├── combinesmallfilesbyhadoop
│   │   │   │   │   ├── CombineSmallFilesDriver.java
│   │   │   │   │   ├── CustomCFIF128MB.java
│   │   │   │   │   ├── CustomCFIF256MB.java
│   │   │   │   │   ├── CustomCFIF.java
│   │   │   │   │   ├── CustomRecordReader.java
│   │   │   │   │   ├── package-info.java
│   │   │   │   │   ├── WordCountMapper.java
│   │   │   │   │   └── WordCountReducer.java
│   │   │   │   └── package-info.java
│   │   │   ├── chapB01
│   │   │   │   └── wordcount
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── WordCountCombiner.java
│   │   │   │   │   ├── WordCountDriver.java
│   │   │   │   │   ├── WordCountMapper.java
│   │   │   │   │   └── WordCountReducer.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   └── SparkWordCount.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   └── SparkWordCount.java
│   │   │   │   ├── util
│   │   │   │   │   └── Util.java
│   │   │   │   ├── word-count.jpg
│   │   │   │   └── wordcount-with-mapreduce.jpg
│   │   │   ├── chapB02
│   │   │   │   └── sortedwordcount
│   │   │   │   └── spark
│   │   │   │   ├── SortedWordCount.java
│   │   │   │   ├── SortedWordCountWithLambda.java
│   │   │   │   └── Util.java
│   │   │   ├── chapB03
│   │   │   │   └── perkeyaverage
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   └── PerKeyAverage.java
│   │   │   │   └── sparkwithlambda
│   │   │   │   └── PerKeyAverage.java
│   │   │   ├── chapB04
│   │   │   │   └── rankproduct
│   │   │   │   ├── RankProduct_chapter.pdf
│   │   │   │   ├── rank-product.png
│   │   │   │   ├── RankProduct_slides.pdf
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── SparkRankProductUsingCombineByKey.java
│   │   │   │   │   └── SparkRankProductUsingGroupByKey.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── SparkRankProductUsingCombineByKey.java
│   │   │   │   │   └── SparkRankProductUsingGroupByKey.java
│   │   │   │   └── util
│   │   │   │   └── Util.java
│   │   │   ├── chapB05
│   │   │   │   └── anagram
│   │   │   │   ├── anagram.png
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── AnagramDriver.java
│   │   │   │   │   ├── AnagramMapper.java
│   │   │   │   │   └── AnagramReducer.java
│   │   │   │   ├── README.md
│   │   │   │   ├── spark
│   │   │   │   │   ├── AnagramCountUsingCombineByKey.java
│   │   │   │   │   ├── AnagramCountUsingGroupByKey.java
│   │   │   │   │   └── AnagramFinder.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   ├── AnagramCountUsingCombineByKey.java
│   │   │   │   │   ├── AnagramCountUsingGroupByKey.java
│   │   │   │   │   └── AnagramFinder.java
│   │   │   │   └── util
│   │   │   │   └── Util.java
│   │   │   ├── chapB06
│   │   │   │   └── outlierdetection
│   │   │   │   └── spark
│   │   │   │   ├── Fast_Parallel_Outlier_Detection_for_Categorical_Datasets_using_MapReduce.pdf
│   │   │   │   ├── OutlierDetection.java
│   │   │   │   ├── OutlierDetectionWithLambda.java
│   │   │   │   ├── outlier.gif
│   │   │   │   ├── README.md
│   │   │   │   ├── run_spark_outlier_detection_yarn.sh
│   │   │   │   ├── sample-input-breast-cancer-wisconsin.data.txt
│   │   │   │   └── sample-output.txt
│   │   │   ├── chapB07
│   │   │   │   └── sql
│   │   │   │   ├── Person.java
│   │   │   │   ├── README.md
│   │   │   │   ├── SparkSQLExample.java
│   │   │   │   └── SparkSQLExampleWithLambda.java
│   │   │   ├── chapB08
│   │   │   │   └── logquery
│   │   │   │   └── spark
│   │   │   │   ├── LogStatistics.java
│   │   │   │   ├── SparkLogQuery.java
│   │   │   │   ├── SparkLogQueryWithLambda.java
│   │   │   │   └── Util.java
│   │   │   ├── chapB09
│   │   │   │   └── charcount
│   │   │   │   ├── Introduction-to-MapReduce.pdf
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── basic
│   │   │   │   │   │   ├── CharCountDriver.java
│   │   │   │   │   │   ├── CharCountMapper.java
│   │   │   │   │   │   └── CharCountReducer.java
│   │   │   │   │   ├── inmapper
│   │   │   │   │   │   ├── CharCountInMapperCombinerDriver.java
│   │   │   │   │   │   ├── CharCountInMapperCombinerMapper.java
│   │   │   │   │   │   └── CharCountInMapperCombinerReducer.java
│   │   │   │   │   └── localaggregation
│   │   │   │   │   ├── CharCountLocalAggregationDriver.java
│   │   │   │   │   ├── CharCountLocalAggregationMapper.java
│   │   │   │   │   └── CharCountLocalAggregationReducer.java
│   │   │   │   ├── README.md
│   │   │   │   └── spark
│   │   │   │   ├── basic
│   │   │   │   │   └── CharCount.java
│   │   │   │   ├── inmapper
│   │   │   │   │   └── CharCountInMapperCombiner.java
│   │   │   │   └── localaggregation
│   │   │   │   └── CharCountLocalAggregation.java
│   │   │   ├── chapB10
│   │   │   │   └── friendrecommendation
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── FriendRecommendationDriver.java
│   │   │   │   │   ├── PairOfLongs.java
│   │   │   │   │   ├── Phase1Mapper.java
│   │   │   │   │   ├── Phase1Reducer.java
│   │   │   │   │   ├── Phase2Mapper.java
│   │   │   │   │   └── Phase2Reducer.java
│   │   │   │   ├── README.md
│   │   │   │   └── spark
│   │   │   │   ├── SparkFriendRecommendation.java
│   │   │   │   └── SubmitSparkJobToYARNFromJavaCode.java
│   │   │   ├── chapB11
│   │   │   │   └── cartesian
│   │   │   │   └── spark
│   │   │   │   └── TestCartesian.java
│   │   │   ├── chapB12
│   │   │   │   └── docwordcount
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── WordCountDriver.java
│   │   │   │   │   ├── WordCountMapper.java
│   │   │   │   │   └── WordCountReducer.java
│   │   │   │   ├── spark
│   │   │   │   │   └── DocumentWordCount.java
│   │   │   │   ├── sparkwithlambda
│   │   │   │   │   └── DocumentWordCount.java
│   │   │   │   └── util
│   │   │   │   ├── FrequencyComparator.java
│   │   │   │   └── Util.java
│   │   │   ├── chapB13
│   │   │   │   └── client
│   │   │   │   ├── BasicAppClientListener.java
│   │   │   │   ├── ConfigurationManager.java
│   │   │   │   ├── InputStreamReaderRunnable.java
│   │   │   │   ├── package-info.java
│   │   │   │   ├── README.md
│   │   │   │   ├── SubmitSparkJobToClusterFromJavaCode.java
│   │   │   │   ├── SubmitSparkJobToYARNFromJavaCode.java
│   │   │   │   ├── SubmitSparkPiToClusterFromJavaCode.java
│   │   │   │   ├── SubmitSparkPiToClusterFromJavaCode.log
│   │   │   │   ├── SubmitSparkPiToYARNFromJavaCode.java
│   │   │   │   ├── SubmitSparkPiToYARNFromJavaCode.log
│   │   │   │   ├── SubmitSparkPiToYARNFromJavaCode.stderr.html
│   │   │   │   └── SubmitSparkPiToYARNFromJavaCode.stdout.html
│   │   │   ├── chapB14
│   │   │   │   └── minmax
│   │   │   │   ├── mapreduce
│   │   │   │   │   ├── MinMaxDriver.java
│   │   │   │   │   ├── MinMaxMapper.java
│   │   │   │   │   ├── MinMaxReducer.java
│   │   │   │   │   └── README.md
│   │   │   │   └── spark
│   │   │   │   ├── MinMax.java
│   │   │   │   ├── MinMaxWithLambda.java
│   │   │   │   ├── README.md
│   │   │   │   └── Util.java
│   │   │   ├── machinelearning
│   │   │   │   ├── kmeans
│   │   │   │   │   ├── Featurization.java
│   │   │   │   │   ├── OptimizedWikipediaKMeans.java
│   │   │   │   │   ├── Util.java
│   │   │   │   │   └── WikipediaKMeans.java
│   │   │   │   ├── linear
│   │   │   │   │   ├── OLS
│   │   │   │   │   │   ├── OrdinaryLeastSquaresRegressionDriver.java
│   │   │   │   │   │   ├── OrdinaryLeastSquaresRegressionModel.java
│   │   │   │   │   │   └── README.md
│   │   │   │   │   ├── R
│   │   │   │   │   │   └── query.r
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── resources
│   │   │   │   │   │   ├── predicting-car-prices-part-1-linear-regression.pdf
│   │   │   │   │   │   ├── query.txt
│   │   │   │   │   │   ├── query_with_prices.txt
│   │   │   │   │   │   ├── rplot.jpg
│   │   │   │   │   │   ├── ToyotaCorolla.csv
│   │   │   │   │   │   ├── ToyotaCorolla_Transformed.csv
│   │   │   │   │   │   └── ToyotaCorolla_Transformed_without_head.csv
│   │   │   │   │   ├── scripts
│   │   │   │   │   │   ├── run_build_model_on_yarn.sh
│   │   │   │   │   │   ├── run_car_price_prediction_on_yarn.sh
│   │   │   │   │   │   ├── run_check_accuracy_on_yarn.sh
│   │   │   │   │   │   └── transform.awk
│   │   │   │   │   └── SGD
│   │   │   │   │   ├── CarPricePredictionBuildModel.java
│   │   │   │   │   ├── CarPricePrediction.java
│   │   │   │   │   ├── ModelEvaluation.java
│   │   │   │   │   ├── README.md
│   │   │   │   │   └── Util.java
│   │   │   │   ├── logistic
│   │   │   │   │   ├── alcohol
│   │   │   │   │   │   ├── README.md
│   │   │   │   │   │   ├── StudentAlcoholDetectionBuildModel.java
│   │   │   │   │   │   ├── StudentAlcoholDetection.java
│   │   │   │   │   │   └── Util.java
│   │   │   │   │   ├── cancer
│   │   │   │   │   │   ├── BreastCancerDetectionBuildModel.java
│   │   │   │   │   │   ├── BreastCancerDetection.java
│   │   │   │   │   │   ├── README.md
│   │   │   │   │   │   ├── resources
│   │   │   │   │   │   │   ├── breast-cancer-wisconsin-wdbc-data.txt
│   │   │   │   │   │   │   ├── query-data.txt
│   │   │   │   │   │   │   └── README.md
│   │   │   │   │   │   ├── scripts
│   │   │   │   │   │   │   ├── run_build_model_on_yarn.sh
│   │   │   │   │   │   │   └── run_cancer_detection_on_yarn.sh
│   │   │   │   │   │   └── Util.java
│   │   │   │   │   └── spam
│   │   │   │   │   ├── EmailSpamDetectionBuildModel.java
│   │   │   │   │   ├── EmailSpamDetection.java
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── resources
│   │   │   │   │   │   ├── emails_nospam.txt
│   │   │   │   │   │   ├── emails_spam.txt
│   │   │   │   │   │   └── query.txt
│   │   │   │   │   ├── scripts
│   │   │   │   │   │   ├── run_build_model_on_spark.sh
│   │   │   │   │   │   ├── run_build_model_on_yarn.sh
│   │   │   │   │   │   ├── run_spam_detection_on_spark.sh
│   │   │   │   │   │   └── run_spam_detection_on_yarn.sh
│   │   │   │   │   └── Util.java
│   │   │   │   ├── naivebayes
│   │   │   │   │   ├── diabetes
│   │   │   │   │   │   ├── BuildDiabetesModel.java
│   │   │   │   │   │   ├── PredictDiabetes.java
│   │   │   │   │   │   ├── README.md
│   │   │   │   │   │   ├── resources
│   │   │   │   │   │   │   ├── part.csv
│   │   │   │   │   │   │   ├── part-r-00000-e9e426df-f8fa-4422-8a90-3bc517293a34.gz.parquet
│   │   │   │   │   │   │   ├── pima-indians-diabetes.data
│   │   │   │   │   │   │   ├── query.txt
│   │   │   │   │   │   │   └── query_with_valid_classifications.txt
│   │   │   │   │   │   ├── scripts
│   │   │   │   │   │   │   ├── run_build_model_on_yarn.sh
│   │   │   │   │   │   │   ├── run_check_accuracy_on_yarn.sh
│   │   │   │   │   │   │   └── run_diabetes_prediction_on_yarn.sh
│   │   │   │   │   │   ├── TestAccuracyOfModel.java
│   │   │   │   │   │   └── Util.java
│   │   │   │   │   └── tennis
│   │   │   │   │   ├── BuildTennisModel.java
│   │   │   │   │   ├── PredictTennisPlay.java
│   │   │   │   │   ├── PredictTennisPlayWithLambda.java
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── scripts
│   │   │   │   │   │   ├── run_build_model_on_yarn.sh
│   │   │   │   │   │   ├── run_check_accuracy_on_yarn.sh
│   │   │   │   │   │   └── run_tennis_play_prediction_on_yarn.sh
│   │   │   │   │   ├── TestAccuracyOfModel.java
│   │   │   │   │   ├── TestAccuracyOfModelWithLambda.java
│   │   │   │   │   └── Util.java
│   │   │   │   ├── package-info.java
│   │   │   │   └── README.md
│   │   │   └── util
│   │   │   ├── Combination.java
│   │   │   ├── DataStructures.java
│   │   │   ├── DateUtil.java
│   │   │   ├── HadoopUtil.java
│   │   │   ├── InputOutputUtil.java
│   │   │   ├── MathUtil.java
│   │   │   ├── Pair.java
│   │   │   ├── PairOfDoubleInteger.java
│   │   │   ├── SequenceFileWriterDemo.java
│   │   │   ├── SparkUtil.java
│   │   │   ├── Tuple3.java
│   │   │   ├── Tuple7.java
│   │   │   └── TupleComparator.java
│   │   └── scala
│   │   ├── org
│   │   │   └── dataalgorithms
│   │   │   ├── chap01
│   │   │   │   └── scala
│   │   │   │   ├── CustomPartitioner.scala
│   │   │   │   ├── README.md
│   │   │   │   └── SecondarySort.scala
│   │   │   ├── chap03
│   │   │   │   └── scala
│   │   │   │   ├── README.md
│   │   │   │   ├── sample_input
│   │   │   │   │   ├── cat1.csv
│   │   │   │   │   ├── cat2.csv
│   │   │   │   │   └── cat3.csv
│   │   │   │   ├── TopNNonUnique.scala
│   │   │   │   └── TopN.scala
│   │   │   ├── chap04
│   │   │   │   └── scala
│   │   │   │   ├── DataFrameLeftOuterJoin.scala
│   │   │   │   ├── LeftOuterJoin.scala
│   │   │   │   ├── README.md
│   │   │   │   ├── SparkLeftOuterJoin.scala
│   │   │   │   ├── transactions.tsv
│   │   │   │   └── users.tsv
│   │   │   ├── chap05
│   │   │   │   └── scala
│   │   │   │   ├── README.md
│   │   │   │   ├── RelativeFrequency.scala
│   │   │   │   ├── resources
│   │   │   │   │   └── MapReduce_Algorithm_Design_by_Jordan_Boyd-Graber.pdf
│   │   │   │   └── SparkSQLRelativeFrequency.scala
│   │   │   ├── chap06
│   │   │   │   └── scala
│   │   │   │   ├── MovingAverageInMemory.scala
│   │   │   │   ├── MovingAverage.scala
│   │   │   │   └── README.md
│   │   │   ├── chap07
│   │   │   │   └── scala
│   │   │   │   └── FindAssociationRules.scala
│   │   │   ├── chap08
│   │   │   │   └── scala
│   │   │   │   └── FindCommonFriends.scala
│   │   │   ├── chap09
│   │   │   │   └── scala
│   │   │   │   └── FriendRecommendation.scala
│   │   │   ├── chap10
│   │   │   │   └── scala
│   │   │   │   └── MovieRecommendations.scala
│   │   │   ├── chap11
│   │   │   │   └── scala
│   │   │   │   └── Markov.scala
│   │   │   ├── chap12
│   │   │   │   └── scala
│   │   │   │   └── ScalaKMeans.scala
│   │   │   ├── chap13
│   │   │   │   └── scala
│   │   │   │   └── kNN.scala
│   │   │   ├── chap14
│   │   │   │   └── scala
│   │   │   │   ├── bayes-theorem.png
│   │   │   │   ├── NaiveBayesClassifierBuilder.scala
│   │   │   │   ├── NaiveBayesClassifier.scala
│   │   │   │   └── README.md
│   │   │   ├── chap16
│   │   │   │   └── scala
│   │   │   │   ├── CountTriangles.scala
│   │   │   │   ├── README.md
│   │   │   │   └── social_network_example.png
│   │   │   ├── chap17
│   │   │   │   └── scala
│   │   │   │   └── Kmer.scala
│   │   │   ├── chap22
│   │   │   │   └── scala
│   │   │   │   ├── README.md
│   │   │   │   ├── ttest.jpg
│   │   │   │   └── Ttest.scala
│   │   │   ├── chap23
│   │   │   │   └── scala
│   │   │   │   ├── AllVersusAllCorrelation.scala
│   │   │   │   ├── correlation.gif
│   │   │   │   └── README.md
│   │   │   ├── chap24
│   │   │   │   └── scala
│   │   │   │   ├── DNABaseCountFASTAWithCombineByKey.scala
│   │   │   │   ├── DNABaseCountFASTAWithMapPartitions.scala
│   │   │   │   ├── DNABaseCountFASTQWithCombineByKey.scala
│   │   │   │   ├── DNABaseCountFASTQWithMapPartitions.scala
│   │   │   │   ├── dna-structure.jpg
│   │   │   │   └── README.md
│   │   │   ├── chap26
│   │   │   │   └── scala
│   │   │   │   ├── GeneAggregationByAverage.scala
│   │   │   │   ├── GeneAggregationByIndividual.scala
│   │   │   │   ├── gene-cell-DNA.jpg
│   │   │   │   └── README.md
│   │   │   ├── chap28
│   │   │   │   └── scala
│   │   │   │   ├── MeanMonoidizedUsingCombineByKey.scala
│   │   │   │   ├── MeanMonoidizedUsingReduceByKey.scala
│   │   │   │   ├── monoid.png
│   │   │   │   ├── monoids-by-Piyush-Mishra.pdf
│   │   │   │   └── README.md
│   │   │   ├── README.md
│   │   │   └── scala.jpeg
│   │   └── scala
│   │   └── annotation
│   │   ├── cloneable.scala
│   │   ├── README.md
│   │   └── serializable.scala
│   ├── python
│   │   └── chap01
│   │   └── SparkSecondarySort.py
│   └── test
│   └── java
│   └── org
│   └── dataalgorithms
│   ├── chap05
│   │   └── mapreduce
│   │   └── PairOfWordsTest.java
│   └── util
│   └── TestCombination.java
└── webcast
├── oreilly_webinar_2015_07_23.pdf
├── RankProduct_slides.pdf
└── README.md

257 directories, 857 files

标签:

实例下载地址

数据算法Hadoop/Spark大数据处理技巧 源代码

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警