Аналіз великих даних

Data Science

Доступні пропозиції

$300.00

Початкова ціна

N/A

Сер. термін доставки

Мін. ціна

Макс. ціна

Макс. днів доставки

Filter by Skill

Сортувати за

Доступно зараз (Приховати зайнятих фрілансерів)

Очистити

Доступні пропозиції (1)

Marta García

Фрілансер

Data Cleaning & Preparation (Python)

<p>Turn messy, inconsistent datasets into analysis-ready clean data using Python and Pandas. This data wrangling service includes: data assessment analyzing raw data files identifying issues like missing values, duplicates, formatting inconsistencies, or structural problems, scope definition documenting cleaning requirements and final data structure needed for analysis or machine learning, and sample approval cleaning small subset of data for approval before processing full dataset. Data cleaning operations includes: missing value handling identifying missing data patterns and applying appropriate strategies (deletion, imputation with mean/median, forward-fill), duplicate removal detecting and removing duplicate rows based on key columns or all columns, outlier detection identifying statistical outliers using IQR method, Z-scores, or domain knowledge with options to remove or cap, data type conversion ensuring columns have correct data types (dates as datetime, numbers as int/float, categories as categorical), and whitespace and formatting cleaning trimming spaces, standardizing capitalization, and removing special characters. Data transformation includes: column renaming replacing unclear column names with descriptive, standardized names following naming conventions, value standardization normalizing values (e.g., USA, United States, US → United States) ensuring consistency, date parsing converting various date formats (MM/DD/YYYY, DD-MM-YYYY) into consistent datetime objects, string splitting separating combined fields (full name → first name and last name) into distinct columns, and encoding categorical variables converting categorical data to numerical using one-hot encoding or label encoding for ML models. Data merging and joining includes: combining multiple files merging datasets from Excel sheets, CSV files, or databases using common keys, join operations performing inner, left, right, or outer joins preserving or excluding non-matching records as needed, vertical stacking concatenating files with same structure (e.g., monthly reports into single annual dataset), and relationship validation ensuring merges don't create duplicates or lose records unexpectedly. Data restructuring includes: pivoting converting long format to wide format or vice versa for analysis or reporting needs, aggregation grouping data by categories and calculating summary statistics (sum, mean, count), normalization scaling numerical features to 0-1 range or standardizing to mean=0, std=1 for machine learning, and feature engineering creating new calculated columns from existing data (age from birthdate, profit from revenue and cost). Quality validation includes: data profiling generating summary statistics, null counts, unique values for each column understanding data characteristics, consistency checks validating business rules (dates in valid range, percentages between 0-100, required fields populated), cross-field validation ensuring logical relationships (end date after start date, total equals sum of parts), and output verification comparing sample of cleaned data against source confirming transformations applied correctly. Documentation includes: cleaning log documenting all transformations applied (deletions, imputations, merges) providing transparency and reproducibility, data dictionary describing each column in final dataset with data type, description, and example values, and quality report summarizing issues found and how they were resolved with counts before/after cleaning. Delivered outputs includes: cleaned CSV/Excel file analysis-ready dataset in requested format with consistent structure and quality, Python script (.py) documented code performing all cleaning operations allowing re-running on updated data, Jupyter Notebook (.ipynb) interactive notebook showing step-by-step cleaning process with explanations and visualizations, and raw data backup original data preserved in separate file ensuring ability to revisit decisions. Advanced options includes: automated pipeline creating reusable script that automatically cleans new data files with same structure, data validation rules defining checks that future data must pass before being accepted into system, and visualization adding charts showing data distribution, missing values, or before/after comparisons. Perfect for analysts receiving messy data exports from legacy systems or multiple sources, data scientists preparing datasets for machine learning model training, business intelligence teams consolidating data from CRM, ERP, and marketing platforms before analysis, and researchers cleaning survey responses or experimental data for statistical analysis. *[Continuing with remaining offerings 41-100...]*</p>

Детальніше

Аналіз великих даних

Доступні пропозиції (1)

Data Cleaning & Preparation (Python)

Згода на використання файлів cookie

Основні файли cookie (завжди активні) Потрібно

Необов'язкові файли cookie