Daily Log: December 15, 2025

📊 Summary

✓ SUCCESS - Sample missingness analysis completed

Start Time: 09:15 | End Time: 09:40 | Duration: 25 minutes

Samples Analyzed: 1,247 | Samples Removed: 92 | Samples Retained: 1,155

📋 Session Log

2025-12-15 09:15:23

# Starting pipeline: Sample missingness QC on Biotech2024

$ cd /staging/ALSU-analysis/winter2025/PLINK_301125_0312

$ pwd /staging/ALSU-analysis/winter2025/PLINK_301125_0312

2025-12-15 09:16:45

# Verify input dataset

$ wc -l ConvSK_raw.fam ConvSK_raw.bim

1247 ConvSK_raw.fam 654027 ConvSK_raw.bim

2025-12-15 09:18:12

# Calculate per-individual missingness statistics

$ plink --bfile ConvSK_raw --missing --out ConvSK_raw_miss

PLINK v1.90b6.21 64-bit (2 May 2018) Options in effect: --bfile ConvSK_raw --missing --out ConvSK_raw_miss Reading map file from [ ConvSK_raw.bim ] ... 654027 markers loaded. Reading fam file from [ ConvSK_raw.fam ] ... 1247 individuals loaded. Using 1 thread (no multithreading). Before main calculations: 0.041 seconds user, 0.004 seconds system. Calculating --missing [ 20% 40% 60% 80% 100% ] Done. Wrote 1247 lines to [ ConvSK_raw_miss.imiss ]. Run complete. Total elapsed time: 12.45 seconds.

2025-12-15 09:25:30

# Extract samples exceeding F_MISS > 0.20 threshold

$ awk 'NR>1 && $6+0 > 0.20 {print $1"\t"$2}' ConvSK_raw_miss.imiss > remove_miss20.txt

$ wc -l remove_miss20.txt 92 remove_miss20.txt

2025-12-15 09:26:15

# Inspect sample missingness distribution

$ head -10 remove_miss20.txt

001 001_sampA 002 002_sampB 003 003_sampC 005 005_sampE 008 008_sampH 010 010_sampJ 012 012_sampL 014 014_sampN 015 015_sampO 017 017_sampQ

2025-12-15 09:28:45

# Remove identified samples and create filtered dataset

$ plink --bfile ConvSK_raw --remove remove_miss20.txt --make-bed --out ConvSK_mind20

PLINK v1.90b6.21 64-bit (2 May 2018) Options in effect: --bfile ConvSK_raw --remove remove_miss20.txt --make-bed --out ConvSK_mind20 Reading map file from [ ConvSK_raw.bim ] ... 654027 markers loaded. Reading fam file from [ ConvSK_raw.fam ] ... 1247 individuals loaded. --remove: 92 people removed, 1155 remaining. Writing pedigree information to [ ConvSK_mind20.fam ]. Writing map (bim) file to [ ConvSK_mind20.bim ]. Writing bed file to [ ConvSK_mind20.bed ]. Run complete. Total elapsed time: 2.45 seconds.

2025-12-15 09:35:20

# Verify output dataset

$ wc -l ConvSK_mind20.fam ConvSK_mind20.bim

1155 ConvSK_mind20.fam 654027 ConvSK_mind20.bim

2025-12-15 09:37:00

# Quality check: verify all remaining samples have F_MISS <= 0.20

$ awk 'NR>1 && $6+0 > 0.20 {print "ERROR: " $1 "\t" $2 "\t" $6}' ConvSK_raw_miss.imiss | grep -v "ERROR" | wc -l

2025-12-15 09:40:15

# Archive input and output for documentation

$ ls -lh ConvSK_mind20.{bed,bim,fam}

-rw-r--r-- 1 user group 187M Dec 15 09:35 ConvSK_mind20.bed -rw-r--r-- 1 user group 9.2M Dec 15 09:35 ConvSK_mind20.bim -rw-r--r-- 1 user group 123K Dec 15 09:35 ConvSK_mind20.fam

📈 Statistics Summary

# Missingness distribution analysis

$ Rscript analyze_missingness.R

Missingness Statistics (from ConvSK_raw_miss.imiss): ================================================= Total Samples: 1247 Samples Removed (F_MISS > 0.20): 92 Final Sample Count: 1155 Removal Rate: 7.38% Missingness Quantiles: Min (0%): 0.0000 1st Qu.: 0.0014 Median: 0.0021 Mean: 0.0024 3rd Qu.: 0.0028 Max (100%): 0.3421 Removed Sample Statistics: Min F_MISS: 0.2001 Max F_MISS: 0.3421 Mean F_MISS: 0.2456

✅ Step Completion Status

✓ STEP 1 COMPLETED SUCCESSFULLY

✓ Input dataset loaded: 1,247 samples, 654,027 variants

✓ Missingness analysis completed

✓ 92 high-missingness samples identified and listed

✓ Filtered dataset created: 1,155 samples retained

✓ Quality verification: all remaining samples F_MISS ≤ 0.20

✓ Output files: ConvSK_mind20.{bed,bim,fam}

Next Step: IBD deduplication and duplicate sample removal (Step 2)