联系方式

  • QQ:99515681
  • 邮箱:99515681@qq.com
  • 工作时间:8:00-23:00
  • 微信:codinghelp

您当前位置:首页 >> OS作业OS作业

日期:2025-03-15 05:36

STATS 3DA3

Homework Assignment 4

Instruction

•  Due before 10:00 PM on Tuesday, March 18, 2025.

•  Upload a PDF copy of your solutions to Avenue to Learn.  You do not need to rewrite the questions in your submission.

•  Late  Submission  Penalty:  A  15%  deduction  per  day will be applied to assignments submitted after the deadline.

•  Late Submission Limit: Assignments submitted more than 72 hours late will receive a grade of zero.

•  Grace Period for Accommodations: A 72-hour extension beyond the due date is granted for students with approved accommodations through SAS.

•  Your submission must follow the Assignment Standards listed below.

Assignment Standards

•  Include a title page with your name and student number.  Assignments without a title page will not be graded.

•  Use Quarto Jupyter Notebook for your work (strongly recommended).

•  Format your document with an  11-point  font  (Times or similar),  1.5  line  spacing, and 1-inch margins on all sides.

•  Use a new page for the solution to each question (e.g.,  Question 1,  Question 2,  Question 3).

—  Clearly number all solutions and sub-parts.

•  Do not include screenshots in your submission; they will not be accepted.

•  Ensure your writing and referencing are appropriate for the undergraduate level.

•  You may discuss homework problems with other students, but you must prepare and submit your own written work.

•  The originality of submitted work will be checked using various tools, including publicly available internet tools.

Assignment Policy on the Use of Generative AI

•  The use of Generative  AI is not  permitted in assignments, except for using GitHub Copilot as a coding assistant.

  If GitHub Copilot is used, you must clearly indicate this in the code comments.

•  In alignment with McMaster academic integrity policy, it “shall be an offence knowingly to  submit academic work for assessment that was purchased or acquired from another source”.

This includes work created by generative AI tools.  Also state in the policy is the following, “Contract Cheating is the act of”outsourcing of student work to third parties” with or without payment.”  Using Generative AI tools is a form of contract cheating.  Charges of academic dishonesty will be brought forward to the Office of Academic Integrity.

Question

Consider the banknote dataset from the mclust package in R. The dataset can be downloaded from banknote.

You can read the data dictionary for the banknote dataset at Banknote dataset.  The data set con- tains six measurements made on 100 genuine and 100 counterfeit old Swiss 1000-franc banknotes.

You will uncover patterns in the data using clustering and principal component analysis, but first, you must prepare the dataset.

1.  Store the Status variable in a separate object.  Later, we will compare the outcomes of the unsupervised methods against the actual labels to evaluate their performance.

2.  What are the variables in the dataset?

3.  From the banknote dataset, remove the Status variable. Ensure that all analyses and tasks going forward are conducted using this modified dataset.

4.  Calculate the mean and variance for each variable in the dataset.  Which variable has the  largest variance?  Discuss the implications of this finding for unsupervised learning, particu- larly how this variable’s characteristics might influence the analysis compared to the other variables.

5.  Normalize the dataset by centering and scaling all variables.  Use this standardized dataset for all subsequent analyses (Questions 6-12).

6.  Using k-means clustering,  group the banknotes into clusters.   Select a random number of clusters, denoted as k, according to your discretion.  Set n_init to 20 to ensure the algorithm runs with 20 different centroid seeds.  After clustering, calculate the average silhouette score for the cluster assignments to evaluate the clustering performance.

7.  Determine the optimal number of clusters, k, for the dataset based on the silhouette score  distribution. To achieve this, plot the silhouette scores for various values of k (e.g., k = 2, 3, 4). Based on these plots, select the k that best fits the data.  Provide two reasons supporting  your choice of k.

8.  Apply k-means clustering to find clusters of banknotes with you found in question (7).  Set n__init to 20 to ensure multiple initial centroid seeds are tested.  After clustering, calculate and report the number of observations within each identified cluster.

9.  Since visualizing clusters with all variables in the dataset is not feasible, we will employ princi- pal component analysis (PCA) to reduce the dimensionality of the banknote data, excluding  the Status variable.  Use the normalized data prepared in question (5) for this analysis.  De- termine the number of principal components to compute.  Justify your choice of the number of components, considering factors such as explained variance and the scree plot.

10.  Refer to the PCA obtained in question (9) to identify which variable has the most significant influence on the second principal component.  Explain your rationale for identifying this variable.

11.  Determine the proportion of the total variance in the original dataset that is explained by the first two principal components.  Provide the Python code that calculates this proportion based on the PCA results obtained in question (9).

12.  Create a visualization of the k-means cluster assignments from question  (8), using the first two principal components as the axes. This visualization will help illustrate how the clusters are distributed in the reduced-dimensional space.

13.  Compare  the  true  labels,  represented  by  the  Status variable  saved  in  question  (1),  with the k-means cluster assignments determined in question  (8).  Use the adjusted Rand index to quantify the similarity between the true labels and the clustering assignments.  Provide commentary on the implications of the results obtained from this comparison.

Grading scheme

1.                            Codes  [1]

2.                          Answer the question  [1]

3.                            Codes [1]

4.                            codes [1] and answer two questions [2]

5.                            Codes [1]

6.                            Codes with appropriate inputs [2]

7.                          Codes and Plots  [2]

Choose the best [1]

Write two reasons for choosing that [2]

8.                          Codes  [1] and answer the question  [1]

9.                          Codes  [1] and answer the questions  [2]

10.                        Answer the question  [1] and explain the reason [1]

11.                          Codes [1] and answer the question [1]

12.                        Codes  [1], readable plot  [1], readable axes labels  [1], cluster an- notation with colors [1]

13.                        Codes  [1] and comment on the results  [1]

The maximum point for this assignment is 29.  We will convert this to 100%.





版权所有:留学生编程辅导网 2020 All Rights Reserved 联系方式:QQ:99515681 微信:codinghelp 电子信箱:99515681@qq.com
免责声明:本站部分内容从网络整理而来,只供参考!如有版权问题可联系本站删除。 站长地图

python代写
微信客服:codinghelp