01 Association
- definition ์ค์
- frequent pattern - pattern with frequency larger than minimum freq.
- support, confidence
- closed pattern
- max-pattern - min. support์ ๋๋ ์ต๋์ ํจํด
- downward closure
- Apriori pruning principle(Apriori Algorithm)
- Self-joining -> Pruning
- ๊ณผ์ max-freq. set ๊ด๋ จ์์. ๊ฒฐ๊ณผ๊ฐ - ๋ชจ๋ freq. set์ ๋ํด ๊ฒฐ๊ณผ ์ถ๋ ฅ
- freq. pattern mining์ ๋จ์
- ์ค์บ์ ์ฌ๋ฌ๋ฒ ํด์ผํจ
- ํ๋ณด๊ฐ ์ฌ๋ฌ๊ฐ: ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋จ. ๊ฐ์ฅ ์๊ธํ ๋ฌธ์
- support ๊ณ์ฐ์ด ์ค๋๊ฑธ๋ฆผ
- ํด๊ฒฐ์ฑ
- Partition: db๋ฅผ ๋๋ฒ๋ง ์ค์บ
- 17์ชฝ: at least one์ด๋ผ๋ ์๋ฏธ๋ ๋ชจ๋ partition์์ ๋ฏธ๋ฌ์ด๋ฉด ์ ์ฒด์์๋ ๋ฏธ๋ฌ์ด๋ผ๋ ์๋ฏธ. ๋ฐ๋ผ์ ์ ์ด๋ ํ๋์์๋ local minimum freq.๋ฅผ ๋์ด์ผ ํจ
- ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ๋ถํ์ํ candidate๋ฅผ ์์ฑ. ๋ฉ์ธ ๋ฉ๋ชจ๋ฆฌ ์ธก๋ฉด์์ ์์ข๋ค๊ณ ํ ์ ์๋ค
- Sampling: db์ ์ํ๋ก apriori ์งํ
- ์ค๋ฅ์ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋ดํจ
- sample minimum freq.๋ก ์งํํด์ผํจ
- 1. ์ํ๋ก apriori ์งํ ํ freq. pattern set์ ๊ตฌํจ
- 2. 1๋ฒ์์ ๊ตฌํ set + negative border๋ฅผ ์ ์ฒด db์์ min freq๋ก ์ค์บํ์ฌ ํ์ธ
- 3. 2๋ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฌ ์ ์ฒดdb๋ฅผ ๋ค์ ์ค์บํด์ missed freq. patterns๋ฅผ ์ฐพ์(nb ๋๋ฌธ์ sample์์ ์ฐพ์ง ๋ชปํ์ ์๋ ์์ผ๋๊น)
- ๊ฒฐ๋ก : 2๋ฒ์ db + 1๋ฒ์ sample ์ค์บ
- DIC: ์ค์บ ์ ๊ฐ์
- frequentํ๋ค๊ณ ์๋ ค์ง๊ฒ์ด ์๋ ค์ง ์๊ฐ ๋ฐ๋ก ๋ฌถ์ด์ ์ค์บ์ ์์ํจ. ๊ฐ์ ๊ธธ์ด์ ํจํด๋ค์ด ๋ค ๋์ฌ๋๊น์ง ๊ธฐ๋ค๋ฆฌ์ง ์์
- Mining Freq. Patterns w/o Candidate Generation
- freqํจํด์ ์ฐพ์ผ๋ฉด ์ ์ฒด๋ฅผ ์ค์บํ๋๊ฒ ์๋๋ผ ๊ทธ ํจํด์ ๊ฐ์ง itemset๋ง ์ค์บํจ. ๊ณ์ ๋ฐ๋ณตํ์ฌ ์ค์บํ๋ ๋ถ๋ถ์ ์ค์ฌ๋๊ฐ๋ค
- FP-tree
- 1. ๊ธธ์ด๊ฐ 1์ธ ํจํด์ ์ฐพ์
- 2. 1์ ๊ฒฐ๊ณผ๋ฅผ freq.์์ผ๋ก ๋์ดํ์ฌ f-list์์ฑ
- 3. db๋ฅผ ๋ค์ ์ค์บํ์ฌ fp-tree์์ฑ
- ํ์ฅ์์ ๊ฐ์ฅ ์ด์์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ธ ์ด์ :
- completeness: ๊ณผ์ ์์ ๋ชจ๋ ์ ๋ณด๋ฅผ ์ ์ฅํจ
- compactness: ํ์ํ ์ ๋ณด๋ง ๊ฐ์ง๊ณ ์์. ์๋์ db๋ฅผ ๋ฒ๋ฆฌ๊ณ tree๋ง ๊ฐ์ง๊ณ ์์ด๋ ๋ฐ์ดํฐ ๋ง์ด๋์ ํ์ํ ๋ชจ๋ ๊ฒ์ ํ ์์๋ค.
- DHP
- 26์ชฝ conditional pattern bases ํ ์ด๋ธ์์ ๊ฐ๊ฐ item์ ๋ํด ์์ฑ๋ row๋ฅผ c-conditional database, a-conditional database, b-conditional databaseโฆ ๋ฑ๋ฑ์ผ๋ก ๋ถ๋ฅธ๋ค
- ์ด ํ ์ด๋ธ์ ์ด์ฉํ๋ฉด m์ ํฌํจํ๊ณ ์๋ ์ ์ ๊ฐ์๋ฅผ ์ฐพ์๋ ํธํจ.
- 27์ชฝ์์ m-conditional fp tree๋ฅผ ์์ฑํ ๋ fcabm์ 1๋ฒ๋ฐ์ ์๋์ค๋ฏ๋ก ์์ ๊ณ fca๋ง ๊ทธ๋ฆฐ๋ค
- MaxMiner: ๋๋ฒ์งธ ์ดํ ์ค์บ์์๋ ๊ฐ ์ํ๋ฒณ์ ํฌํจํ๊ณ ์๋ 2 item set์ ๊ณ์ฐํ ๋๋ง๋ค potential max-pattern์ ๊ณ์ฐํ์ฌ ๊ทธ๊ฒ์ freq.๋ฅผ ๊ณ์ฐํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ ์ค์ ๋ก max-pattern์ผ๋ก ํ๋ณ๋๋ฉด ํด๋น ๋จ๊ณ์ max-pattern๋จ๊ณ ์ฌ์ด์ ์๋ ๋จ๊ณ๋ ๊ณ์ฐํ ํ์๊ฐ ์์ผ๋ฏ๋ก candidate๋ฅผ ์ค์ผ ์ ์์.
- CHARM: vertical data format - ์ด์ ๊น์ง์ ์๊ณ ๋ฆฌ์ฆ์ T1: a, b, c/T2: b, d, e ์ด๋ฐ์์ผ๋ก ํ๋์ ์ ์ด ๊ฐ์ง๊ณ ์๋ ์ํ๋ฒณ์ ๋ํ๋๋ค๋ฉด ์ด๊ฑฐ๋ a: T1, T3/b: T1, T2, T3 ์ด๋ฐ์์ผ๋ก ํ๋์ ์ํ๋ฒณ์ด ๋ฑ์ฅํ๋ ์ ์ ๋ฌถ์ด ๋ํ๋ธ๋ค
@Mining various kinds of association rules
- Mining multiple-level association rules
- ๊ฐ์ item์ค ๋ค๋ฅธ ์ข ๋ฅ๊ฐ ์์ ๋ (ex) 2% milk, skim milk ๋๋ค milk์ ์ํ๋ค
- milk์ min support๋ณด๋ค 2%๋ skim์ min support๋ฅผ ๊ฐ๊ฐ ์๊ฒ ์ ํ๋ค
- descendent์ rule์ redundantํด์ง ์ ์๋ค
- 45์ชฝ dimension์ predicate๋ฅผ ์๋ฏธํ๋ค
- age์ occupation. 2๊ฐ์ predicate
- age์ buys. 2๊ฐ์ predicate
- attribute types
- categorical: occupation
- quantitative: salary -> ์์ํํด์ผํจ
- 51์ชฝ misleadingํ ์ด์ ๋ ๋๊ตฌ๋ฅผ ์ํด๋ ์จ๋ฆฌ์ผ์ ๋จน๋ ์ฌ๋์ด ๋ ๋ง๊ธฐ ๋๋ฌธ. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ฒ์ด lift.
- lift๊ฐ 1์ด๋ฉด ๋ ์ฌ๊ฑด์ ๋ ๋ฆฝ์
- cosine๋ total number of transaction์ ์ํฅ์ ๋ฐ์ง ์๋๋ค๋ ์์๊ฐ ์๋ค. lift๋ ๋ฐ์ ์๋ํ๋ฉด ๋ถ๋ชจ์์ ํ๋ ์ฌ๋ผ๊ฐ์ ๋ถ์์ ๊ณฑํด์ง๋๊น
- ์ฑ ์์ ๋ฌธ์ ๋์ฌ์๋์๋ค
- constraint์ ์ข ๋ฅ: knowledge type, data constraint, dimension, interestingness
- 56์ชฝ ์ค์ํ์ง ์์
- mining๊ณผ search์ ์ฐจ์ด
- mining์ constraint๋ฅผ ๋ง์กฑํ๋ ๋ชจ๋ ๊ฒ์ ์ฐพ๋๊ฑฐ๊ณ search๋ constraint๋ฅผ ๋ง์กฑํ๋ ํ๋/๋ช๊ฐ์ง์ ๋ต์ ์ฐพ๋๊ฒ
- mining๊ณผ query processing ๋น์ท..
- Anti-Monotonicity in Constraint Pushing
- price๋ ํญ์ ์์๋ผ๊ณ ๊ฐ์ ํ ๋ sum<= v๋ anti-monotone์ด๋ค. ์๋ํ๋ฉด ์ด๋ค set์ superset์ ํญ์ ๋ ํฐ sum์ ๊ฐ์ง ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค
- Monotonicity
- anti-monotoneํ constraint์์ ๋ถ๋ฑํธ๋ฅผ ๋ฐ๊พธ๋ฉด monotoneํ๋ค
- Succinctness constraint c๋ฅผ ๋ง์กฑํ๋ a๊ฐ ์๋ค๋ฉด a์ ๋ค๋ฅธ item์ ๋ถ์ฌ์ c๋ฅผ ๋ง์กฑํ๋ set์ ๋ชจ๋ ๋ง๋ค์ด๋ผ ์ ์๋ค.
- a๋ c๋ฅผ ๋ง์กฑํ๊ฒ ํ๋ minimum set์
- 63์ชฝ์ min์ succinctness constraint์ ์๋ํ๋ฉด c์ ๋ํด์ a๋ฅผ ๋ง๋ค ์ ์์ผ๋๊น. ์ฌ๊ธฐ์ a = {1}์
- 64์ชฝ anti-monotone/monotoneํ์ง ์์ constraint๋ค์ ๊ทธ๋ ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ: item์ ์์๋๋ก ๋์ดํจ
02 Introduction
- Data Mining์ ์ฌ๋ฌ๊ฐ์ง ํ๋ฌธ์ด ์ตํฉ๋ ํ๋ฌธ์ด๋ค
- Statistics, Machine Learning, Database Technology ๋ฑ
03 Classification
- classification: training set์ ํตํด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅ
- prediction: continuous-values function์ ์์ฑ -> ์๋ ค์ง์ง ์์ ๊ฐ์ ์ถ์
- classification์ ๋ ๋จ๊ณ
- 1. Model construction: training set์ ์ด์ฉํ์ฌ class label์ ์์ฑ์ ์ ์
- 2. Model usage: accuracy๋ฅผ ์ธก์ ํ๊ณ acceptableํ ๊ฒฝ์ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค
- supervised/unsupervised
- supervised๋ class label์ด ์๋ ค์ง -> classification
- un- ์ ์์๋ ค์ง. ์์์ ๋ถ๋ฅํจ -> clustering
- classification method๋ฅผ ํ๊ฐํ๋๋ฐ๋ ๋ง์ ๊ธฐ์ค์ด ์๋ค. accuracy, speed, robustness, scalability, interpretability ๋ฑ
- decision tree
- top-down recursive divide-and-conquer manner
- ๊ฐ ๋ ๋ฒจ์์์ attribute๋ฅผ ์ ์ ํ๋ ๋ฐฉ๋ฒ
- Information gain
- ๋ชจ๋ attribute์ homogeneity๋ฅผ ๊ตฌํ๊ณ ์์๋๋ก ์ ํ
- 50/50์ธ๊ฒ์ heterogeneous๋ผ๊ณ ํ๋ค
- highest information gain์ ํ ์ ์๋ attribute๋ฅผ ์ ํํ๋ค
- ๋๋ ์ง expected info์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ ํ๊ท ์ ๊ตฌํ๋ค. ๊ฐ์ค์น๋ ๋๋ ์ง subset์ ํฌ๊ธฐ
- Gain ratio
- 1. continuous value์ ๊ฒฝ์ฐ ๋จผ์ best split point๋ฅผ ๊ตฌํ๋ค.
- 2. ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌ
- 3. ๊ทผ์ ํ ๋ ๊ฐ์ ๋ฐ์ผ๋ก ๋๋ ์ง์ ์ ๋ณดํต split point๋ก ์ ํ๋ค
- gain ratio: information gain๊ณผ ๊ฐ์ ๊ฐ๋ ์ด์ง๋ง set์ ํฌ๊ธฐ๊ฐ ์น์ฐ์น๋ ๊ฒ๊น์ง ๊ฐ์ํด์ split info๋ฅผ ๋๋ ์ค ๊ฐ์
- ํฌ๊ธฐ๊ฐ ์น์ฐ์น๋ ๊ฒ์ preferํจ
- gini index
- ํฌ๊ธฐ๊ฐ ๋น์ทํ ๊ฒ์ preferํจ. (equal-sized partitions)
- Overfitting and Tree Pruning
- overfitting: training set์ ๋ชจ๋ ๊ฐ์ ๊ฐ๊ฐ์ branch๋ก classifyํจ
- ํด๊ฒฐ์ฑ : prepruning/postpruning
@Bayesian Classification
- 35์ชฝ naive bayesian classifier๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ณฑํด์ง๋ ํ๋ฅ ์ค ํ๋๊ฐ 0์ด๋ฉด ์ต์ข ํ๋ฅ ์ด 0์ด ๋๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ๊ณฑํด์ง๋ ํ๋ฅ ์ด 0์ผ๊ฒฝ์ฐ 1์ ๋ํจ (1000๊ฐ์ง ๊ฒฝ์ฐ ์ค 0๋ฒ์ด๋ฉด 1000๊ฐ์ง ๊ฒฝ์ฐ ์ค 1๋ฒ์ผ๋ก ๊ฐ์ ํ๋ ์์ผ๋ก)
- ์ฅ์ : ์ ์ฉ์ด ์ฌ์
- ๋จ์ : ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ ์ด ๊ฐ attribute๋ ๋ ๋ฆฝ์ ์ด๋ผ๋๊ฑด๋ฐ ์ค์ ์๋ฃ์์๋ attribute๊ฐ dependency๊ฐ ์กด์ฌํ ์ ์์. (๋ณ์ db๋ผ๋ฉด ๋์ด์ ์ง๋ณ ์ข ๋ฅ์ ๊ด๊ณ)
@Rule-based classification
- if-then rules
- 38์ชฝ decision tree์์ rule์ ์ถ์ถ
@Associative Classification
@Lazy/Eager Learning
@The k-Nearest Neighbor Algorithm
- k-nearest: k๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด point
@Prediction
- predictor variable: ์์ธก์ ํ๋๋ฐ ์ด์ฉ๋๋ attribute๋ก, independent variable์ด๋ผ๊ณ ๋ ํ๋ค
- response variable: ์์ธก์ ๊ฒฐ๊ณผ๋ก ๊ฒฐ์ ๋๋ attribute๋ก, dependent variable์ด๋ผ๊ณ ๋ ํ๋ค
- multiple linear regression: predictor variable์ด ํ๋ ์ด์์ผ ๋
- nonlinear regression: 2์ฐจ ์ด์์ ์(polynomial function)
@Accuracy and error measures
- 51์ชฝ: ํ - label, ์ด(๋นจ๊ฐ์) - ์ค์ ๊ฐ
- loss function: ์ค์ y๊ฐ๊ณผ label๋ y๊ฐ์ ์ฐจ
- holdout method
- ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋๊ฐ๋ก ๋๋์ด ํ๋๋ training, ํ๋๋ test์ ์ฌ์ฉํ๋ค
- random sampling: holdout๋ฅผ ๋งค๋ฒ ๋ค๋ฅธ partition์ผ๋ก k๋ฒ ์คํํ์ฌ ํ๊ท accuracy๋ฅผ ๊ตฌํ๋ค
- cross-validation
- ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ k๊ฐ์ mutually exclusiveํ subset์ผ๋ก ๋๋์ด k๋ฒ ๋ฐ๋ณตํ๋ฉฐ i๋ฒ์งธ์ subset์ test set, ๋๋จธ์ง๋ training set์ผ๋ก ์ฌ์ฉ
- leave-one-out: k๋ฅผ tuple๊ฐฏ์๋ก ํ์ฌ subset์ ํ๋์ tuple์ฉ ์๊ฒํจ
- stratified cross-validation
- bootstrap
- ์์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์ ํฉ
- training data๋ฅผ ๋ฝ์ ๋ ํ๋์ tuple์ ์ ํํ๋ฉด ๊ทธ๊ฑธ ๋ค์์ ๋ฝ์ ๋ ์ ์ธํ์ง ์๊ณ ์ ์ ๋ค์ ๋ฃ์ -> uniformly with replacement
- ensemble methods
- ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง learned model์ combine
- ์ข ๋ฅ
- bagging: average
- boosting: weighted average
- ensemble
04 Clustering
- Cluster Analysis
- unsupervised learning: no predefined classes
- classification์ supervised learning์ ์๋ํ๋ฉด class label์ด ์ฃผ์ด์ง๋๊น
- clustering method ํ๋จ์ ๊ธฐ์ค
- intra-class similarity / inter-class similarity
- Major Clustering Approaches
- Partitioning
- k-means
- Hierarchical
- Density-based
- ์ฉ์ด
- Centroid: cluster์ ์ค์ฌ
- Radius: (cluster์ ํ ์ ์์ centroid ๊น์ง์ ๊ฑฐ๋ฆฌ์ ํ๊ท )^1/2
- Diameter: (cluster์ ํ ์ ์์ ๋ค๋ฅธ์ ๊น์ง ๊ฑฐ๋ฆฌ์ ์ ๊ณฑ์ ํ๊ท )^1/2
- Single link: ํ cluster์ ์ ์์ ๋ค๋ฅธ cluster์ ์ ๊น์ง ๊ฑฐ๋ฆฌ ์ค ๊ฐ์ฅ ์งง์ ๊ฑฐ๋ฆฌ
- Complete link: ํ cluster์ ์ ์์ ๋ค๋ฅธ cluster์ ์ ๊น์ง ๊ฑฐ๋ฆฌ ์ค ๊ฐ์ฅ ๊ธด ๊ฑฐ๋ฆฌ
- Average: ํ cluster์ ์ ์์ ๋ค๋ฅธ cluster์ ์ ๊น์ง ๊ฑฐ๋ฆฌ์ ํ๊ท
- Centroid: ํ cluster์ centroid์ ๋ค๋ฅธ cluster์ centroid์ ๊ฑฐ๋ฆฌ
- Medoid: ํ cluster์ medoid์ ๋ค๋ฅธ cluster์ medoid์ ๊ฑฐ๋ฆฌ
- mediod: cluster์ median(๋ค๋ฅธ ์ ๋ค๊น์ง์ ๊ฑฐ๋ฆฌ์ ํฉ์ด ์ต์์ธ ์ )
- Partitioning Algorithms
- K-Means
- ์์ ์ด ์ํ๋ cluster์ representative์ ์์ ์ ๊ฑฐ๋ฆฌ ์ ๊ณฑ์ด ์ต์์ธ๊ฒ
- ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋จํ์ง๋ง costlyํ๋ค
- cluster center๋ฅผ ๊ณ ๋ฆ -> ๋ชจ๋ ์ ์ ๊ฐ์ฅ ๊ฐ๊น์ด center๋ก assign -> (cluster์ ์ ๋ค์ ๋ฐํ์ผ๋ก means ๋ค์ ์ ์ -> ์ ๋ค์ ์๋ก์ด means๋ก ๋ค์ assign) -> ๋ฐ๋ณตโฆ..
- ๋จ์
- global optimum์ ๋ชป์ฐพ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์. ์๋ํ๋ฉด ๋งจ ์ฒ์์ center๋ฅผ ์ ํ ๋ randomํ๊ฒ ์ ํ๊ธฐ ๋๋ฌธ
- mean์ด ์ ์๋์ด ์์ ๋๋ง ์ ์ฉ ๊ฐ๋ฅ
- k๋ ๋ฏธ๋ฆฌ ์ ์ํด์ผํจ
- noise, outlier๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค
- ์ํ์ด ์๋ cluster(๊ธธ์ญ)๋ ์ฐพ์ ์ ์์
- K-Modes
- *์์ * 18์ชฝ์์ vector Q๋ qm ๊น์ง์์ ์๋ํ๋ฉด m๊ฐ์ attribute๊ฐ ์์ผ๋๊น
- Mode ๋ํ ๊ณ์ฐ๋๋ ๊ฐ์. ์กด์ฌํ์ง ์๋ ์ ์ผ์๋ ์์
- X1 = an object represented as a vector
- ๊ทธ๋๊น Q๊ฐ X1์ด ๋ ์ ์๋๊ฒ
- k-modes๋ categorical attribute๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ๋ํด์๋ง ์ฌ์ฉ. numerical(continuous value)๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ๋ ์ฌ์ฉํ์ง ์๋๋ค
- K-Medoids
- k-means์ ๋จ์ ์ ๋ณด์: ์์ฒญ ํฐ ๊ฐ์ ๊ฐ์ง ์ (outlier)์ cluster๋ฅผ ๋ฐ๊ฟ ์ ์๋ค
- ๊ทธ๋์ mean value(centroid) ๋์ medoid(๊ฐ์ฅ ์ค์ฌ์ ์์นํ ์ )๋ฅผ ์ฌ์ฉ/centroid๋ computed ๋๋๋ฐ ๋ฐํด medoid๋ found๋จ. medoid๋ ์ด๋ฏธ ์กด์ฌํ๋ ๊ฐ์ด๋ผ๋ ๋ป์ด๋ค
- PAM(Partitioning Around Medoids)
- TCih๊ฐ ์์๋ผ๋ ๊ฑด i์ h๋ฅผ ๋ฐ๊ฟ์ผ๋ก์จ benefit์ด ์๊ธด๋ค๋ ๋ป
- cluster center๋ฅผ ๊ณ ๋ฆ -> (i์ h๋ฅผ ๋ฐ๊พธ๊ฑฐ๋ ๋ฐ๊พธ์ง ์์ -> h๋ฅผ ๋ฐฐ์ ํจ) -> ๋ฐ๋ณต
- noise/outlier ๋ฌธ์ ๊ฐ ๋ํจ. ์๋ํ๋ฉด ๋ ์ํฅ๋ฐ์
- *์์ * 24์ชฝ for each iteration์๋. ๊ทธ๋ฅ ์ ์ฒด์ ๋ํด์ ๋ณต์ก๋๊ฐ ์ ๊ฑฐ์
- ๋จ์ : kmeans๋ณด๋ค ๋น ์ค๊ฐ ์์ฒญ ํฌ๋ค. kmeans๋ linear
- CLARA(Clustering Large Applications)
- ์ํ์ฌ์ด์ฆ์ ๋ฐ๋ผ efficiency๊ฐ ๋ฌ๋ผ์ง
- Hierarchical Methods
- ํํฐ์ ๋๊ณผ ๋ฌ๋ฆฌ ํด๋ฌ์คํฐ์ ๊ฐฏ์์ธ k๋ฅผ ์คํ์๊ฐ ์์
- AGNES(Agglomerative Nesting)
- DIANA(Divisive Analysis)
- ํ๋์ ํฐ ๋ฉ์ด๋ฆฌ์์ ํ ์ ์์ ๋ชจ๋ ๋ค๋ฅธ ์ ๊น์ง์ ๊ฑฐ๋ฆฌ์ ํ๊ท (ใ )์ด ์ ์ผ ํฐ๊ฒ์ ๋ผ๋ธ๋ค -> ํฐ๋ฉ์ด๋ฆฌ์์ ใ ๊ฐ ์์๋ฉ์ด๋ฆฌ์ ใ ๋ณด๋ค ํฐ๊ฒ์ ๋ค ๋ผ๋. ์์๋๊น์ง
- AGNES>DIANA. ์๊ฐ๋ณต์ก๋์์
- 35์ชฝ LS:Linear Sum / SS: Square Sum
- BIRCH
- CF-Tree(Clustering Feature Tree)
- CF = (N, LS, SS)
- leaf์ non-leaf์ ๋ํด ์ฒ๋ฆฌ๋ฅผ ๋ค๋ฅด๊ฒ ํจ
- ๋งจ ์ฒ์์ ๋ฃจํธ์์ childํ๋์ฉ ๋๋ฉด์ ํด๋ฌ์คํฐ์ ์ถ๊ฐํจ. ๋ง์ฝ์ ๊ณ์ ์ถ๊ฐํ๋ค๊ฐ diameter๊ฐ threshold๋ณด๋ค ์ปค์ง๋ฉด ๋ค์ ํด๋ฌ์คํฐ๋ฅผ ๋ง๋ค์ด์ ๊ทธ ๋ค์๋ถํฐ๋ ๊ฑฐ๊ธฐ์ ์ถ๊ฐ. ๋ฐ๋ณตํ๋ค
- ROCK
- Jaccard coefficient: ๋ set๊ฐ์ similarity ๋น๊ต
- link(T1,T2) -> T1, T2 ๋ชจ๋์ ๋ํด์ jaccard coefficient๊ฐ threshold๋ฅผ ๋๋๊ฒ
- CHAMELEON
- โDynamicโ + bottom-up fashion(cluster๋ฅผ ํฉ์นจ)
- interconnectivity & closeness between two cluster๊ฐ ํฌ๊ณ ๊ฐ๊ฐ์ internal interconnectivity & closeness๊ฐ์ด ์์ ๋๋ง mergeํ๋ค.
- steps
1. k-nearest neighbor graph ๊ทธ๋ฆผ(์ด๋ค object์ ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ๋ ธ๋)
2. ๊ทธ๋ํ๋ฅผ ๋๋. graph partitioning์ ์ด์ฉ(weak connection์ ๊ฐ์ง๊ฒ๋ค)
3. ๊ทธ๋ํ๋ฅผ ํฉ์นจ. agglomerative hierarchical clustering์ ์ด์ฉ
- EC - edge cut
- Density-based Methods
- discover clusters of arbitrary shape, noise handling, one scan, need density parameters as termination condition
- density๋ก ์ธก์ ํ๊ธฐ ๋๋ฌธ์ ์ํ์ด ์๋ ๋ชจ์๋ ์ธก์ ๊ฐ๋ฅํ๋ค
- Basic Concepts
- Eps: ์ด๋ค ์ ์ neighborhood์ ์ต๋ ๋ฐ๊ฒฝ
- MinPts: ์ด๋ค ์ ์ neighborhood๊ฐ ๊ฐ์ง๋ ์ ์ ์ต์๋
- core point condition: q๊ฐ core point์ผ ์กฐ๊ฑด
- Directly density-reachable์ ์ญ์ ๋ฐ๋์ ์ฑ๋ฆฝํ์ง ์๋๋ค
- Density-reachable/Density-connected
- DBSCAN
- maximal set of density-connected points
- outlier๋ฅผ ๊ฐ์งํ ์ ์์ -> ์ ์์ ๋ฐ๋ผ core point๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์
- 52์ชฝ: DBSCAN์ parameter์ ๊ต์ฅํ ๋ฏผ๊ฐํจ
- OPTICS
- wrt: with respect to
- nested eps ๊ฐ nested cluster๋ฅผ ๋ง๋ ๋ค
- core distance/reachability distance
- 55์ชฝ: p2๋ฅผ o๋ก๋ถํฐ directly density reachableํ๊ฒ ํ๋ ค๋ฉด eps๋ฅผ reachability distance๋ก ์ค์ ํ๋ค.
- 57์ชฝ: eps๋ฅผ ์ด๋ป๊ฒ ์ค์ ํ๋๋์ ๋ฐ๋ผ ๋ค๋ฅธ y๊ฐ์์ ์๋ฆฌ๊ฒ ๋๊ณ cluster๊ฐ ๋ค๋ฅด๊ฒ ๋์ด
- Outlier Discovery
- statistical approach: ๋ฐ์ดํฐ์ ๋ถํฌ๊ทธ๋ํ๋ฅผ ํตํด ์ค์ฌ์ ์๋ ๋ชํผ์ผํธ์ ๊ฐ์ ์ ์ธํ๊ณ outlier๋ผ๊ณ ์๊ฐํ๋ค. ๋จ single attribute์ ๋ํด์๋ง ์ ์ฉ๊ฐ๋ฅํ๊ณ , ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ์๋ ค์ง์ง ์์ ๋ฌธ์ ๊ฐ ์์์๋ ์๋ค.
- distance-based approach: ์ ์ด๋ p๋งํผ์ ๋ฐ์ดํฐ๊ฐ ์ด๋ค ์ ๋ถํฐ ์ถฉ๋ถํ ๋ฉ๋ฉด ๊ทธ ์ ์ outlier๋ผ๊ณ ํ๋ค
- local outlier concept์ ํ์์ฑ
//์ค๊ฐ๊ณ ์ฌ k-means๊น์ง k-medoid๋นผ๊ณ
intro, association rule, classification, clustering
- KDD ๊ทธ๋ฆผ
- Partition, DIC, DHP ๋ฑ ํน์ง ์์
- FP Tree ๊ทธ๋ฆฌ๊ธฐ
- Info Gain, Gain Ratio ๊ณต์ + ์ค๋ช
- Linear Regression 1์ฐจ ๊ณต์
- TP TN FP FN ๊ณต์
- K-Means ์์ + ๋จ์ ์์
05 Outlier
- ๊ธ์ต์ฌ๊ธฐ ๋ฐฉ์ง
- outlier detection์ ๋ชฉํ: fringe object์ micro cluster๋ฅผ ์ ์ ํ๊ฒ ํ์ ํ๊ธฐ ์ํจ
- using object location features
- location feature๋ฅผ ๊ณ์ฐ -> outlierness score ๊ฒฐ์ -> score์ด ๊ฐ์ฅ ๋์ m๊ฐ๋ฅผ outlier๋ก ์ ์
- statistics-based
- ๊ฐ์ฅ ์๋ง์ statistical distribution model ๊ฒฐ์ -> model์ ๋ง์ง ์๋ ๊ฐ์ outlier๋ก ์ ์
- ๋จ์ : multi-dimensionalํ ๋ฐ์ดํฐ์ ๋ํด์๋ ๊ฒฐ์ ํ๊ธฐ ์ด๋ ค์ + real world data๋ ํน์ ํ SDM์์ ์์ฑ๋์ง ์์
- distance-based
- object๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ location feature๋ก ์ฌ์ฉ
- ํ๋์ object์ distance d ๋ด์ ์กด์ฌํ๋ object์ ๊ฐฏ์๋ฅผ ๋ณด๊ณ p๊ฐ ์ดํ์ด๋ฉด ํด๋น object๋ฅผ outlier๋ก ์ ์
- ๋จ์ : d์ p๋ฅผ ๋ชจ๋ ์ ์ํด์ผ ํจ + local density problem
- density-based
- ํ object์ density๊ฐ ์ด์ํ๋ object์ density๋ณด๋ค ๋ฎ์ผ๋ฉด outlier๋ก ์ ์
- ๋จ์ : micro-cluster problem -> ๋ฐ์ดํฐ์ ๋ด object์ characteristic์ ๊ณ ๋ คํด์ผํจ
- RWR-based
- random walk with restart(skip)
- ๊ฒฐ๋ก
- outlier๋ฅผ ์ ํํ๊ฒ ์ ์ (local density, micro-cluster, fringe object ๋ฌธ์ ํด๊ฒฐ)
- user์๊ฒ outlierness score๋ฅผ ์ ๊ณต
- ๋ชจ๋ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ handleํ ์ ์์ด์ผํจ
- parameter value์ ์ํฅ์ ์ ๊ฒ ๋ฐ์์ผํจ
- Centrality and Center-Proximity(location feature์ ์ผ์ข )
- centrality: ์ผ๋ง๋ ๋ง์ ๋ค๋ฅธ object๊ฐ ํ object๋ฅผ cluster์ center๋ผ๊ณ ์๊ฐํ๋์ง
- ์ด๋ค object์ centrality score์ด ๋์ผ๋ ค๋ฉด: neighbor๊ฐ ๋ง์์ผํจ + neighbor๊ณผ์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์์ผํจ + neighbor์ center-proximity๊ฐ ๋์์ผํจ
- center-proximity: ์ด๋ค object๊ฐ cluster center์ ์ผ๋ง๋ ๊ฐ๊น์ด ์๋์ง
- ์ด๋ค object์ center-proximity score์ด ๋์ผ๋ ค๋ฉด: neighbor๊ฐ ๋ง์์ผํจ + neighbor๊ณผ์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์์ผํจ + neighbor์ centrality๊ฐ ๋์์ผํจ
- ๋ score์ ๊ด๊ณ
- mutual reinforcement: ํ๋๊ฐ ๋์ผ๋ฉด ์ด์์ ๋์ ์ ์๋ฅผ ์ค ์ ์์
- Outlierness Score
- inverse of the converged center-proximity score
- centrality ๋์ ์ฐ๋ ์ด์ : fringe object์ outlier๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด - ๋ ๋ค centrality๊ฐ 0์
- Time complexity - O(Ei)
- Graph Modeling
- ๋ ๊ฐ์ง design issue: modeling scheme, weight assignment
- Modeling Scheme
- complete graph
- ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด o1์ด ์ค๊ฐ์ ์์๊ฒฝ์ฐ ๋ฌธ์ ๋ฐ์
- e-NN graph(์ ์ค๋ก ์์)
- ์ ํ๋๊ฐ e์ ์ํฅ์ ๋ง์ด ๋ฐ์(parameter sensitive)
- k-NN graph
- a->b๊ฐ ์๋ฏธํ๋๊ฒ: a๊ฐ b๋ฅผ neighbor๋ก ์๊ฐํ๋ค
- cluster๋ฐ์ ์๋ object b๋ neighbor๋ก ์๊ฐํ๋ ์ ๋ค์ด ์กด์ฌํ ์ ์์ง๋ง ๊ทธ ์ ๋ค์ b๋ฅผ neighbor๋ก ์๊ฐํ์ง ์์ ์ ์์
- Weight Assignment
- euclidean similarity/cosine similarity
- ์ํฉ์ ๋ฐ๋ผ ์ ์ ํ similarity๋ฅผ ์ ํํด์ผ ํจ
- ํ์ง๋ง ๋ค์ analysis๋ฅผ ๋ณด๋ฉด ๋์ฒด๋ก euclidean์ด ๋์
06 Recommender Systems
- big data: behavioral results/preference
- classification
- content-based approach: ๋์ preference ๊ธฐ๋ฐ
- ๋ด preference๋ฅผ ๋ถ์ํ๋ ๋ฐ learning์ด ๋ค์ด๊ฐ
- item profile, user profile
- user profile์ ๊ฐ๊น์ด content๋ฅผ ์ถ์ฒ
- ๋จ์ : content๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด ์ด๋ ค์ธ ์ ์์(ex - multimedia์ ๊ฒฝ์ฐ), user profile๊ณผ ๋ค๋ฅธ item์ ์ถ์ฒํ๊ธฐ ์ด๋ ค์(surprise-me recommendation), ๋ฐ์ดํฐ๊ฐ ์๋ user์๊ฒ๋ ์ถ์ฒํ ์ ์์
- collaborative filtering approach: ๋ด neighbor์ preference๊ธฐ๋ฐ
- ๋ด neighbor๋ฅผ ๋ถ์ํ๋ ๋ฐ learning์ด ๋ค์ด๊ฐ
- 1. target user๊ณผ ๋ค๋ฅธ user์ similarity ๋ถ์(PCC/Cosine ์ด์ฉ)
- PCC: ๋ user์ ์ฌ๋ฌ item์ ๋ํ preference๊ฐ ๋น๋ก๊ด๊ณ์ ์๋์ง ์ฌ๋ถ๋ฅผ ์๋ ค์ค
- 2. ํ๋์ target item์ ๋ํด ์ฌ๋ฌ neighbor๊ฐ ๋ถ์ฌํ rating์ ๊ณ์ฐํ์ฌ ํ๋์ ์ ์๋ก ๋ง๋ฌ(=aggregation)
- aggregation methods: average/weighted average/weighted average using difference(๊ฐ์ฅ ์ ํ)
- difference: rating๊ณผ ํด๋น ์ ์ ์ ratingํ๊ท ์ ์ฐจ. ์๋ํ๋ฉด ์์ฃผ ์ข๋ค๊ณ ์๊ฐํด๋ rating์ 3๋ง ์ฃผ๋ ์ฌ๋์ผ์๋ ์๊ธฐ ๋๋ฌธ.
- 24์ชฝ์์ ์ค์ ๊ตฌํํ ๋ matrix๋ฅผ ์ฐ๋ฉด ๋น ๊ณต๊ฐ์ด ๋ง์ด ๋ญ๋น๋๊ธฐ ๋๋ฌธ์ ์ฃผ๋ก ๋งํฌ๋๋ฆฌ์คํธ๋ก ๊ตฌํํ๋ค
- hybrid approach
- social network information(trust-based)
- ๋ด ์ฃผ๋ณ์(trust๊ด๊ณ์ ์๋) ๋ง์ ์ฌ๋๋ค์ด ์ ํํ ๋ฌผ๊ฑด์ ์ถ์ฒ
- emotion, web search, โฆ
- Heuristic-Based
- heuristics formula์ ๊ธฐ๋ฐํ์ฌ user preference๋ฅผ ์ถ์ธก
- Model-Based
- model์ ๊ธฐ๋ฐํ์ฌ user preference๋ฅผ ์ถ์ธก(learning required to build model)
- evaluation
- ๊ธฐ์ค: accuracy, performance(time)
- Exploiting uninteresting items
- idea: unrated item์ ์ด์ฉํ์ฌ ์ ํ๋๋ฅผ ๋์ธ๋ค
- unrated item์ user๊ฐ ์์ง ๋ชปํ item์ผ์๋ ์๊ณ , ์์์ง๋ง ์ข์ํ์ง ์์๊ธฐ ๋๋ฌธ์ ์ด์ฉํ์ง ์์ item์ผ ์๋ ์๋ค(uninteresting item)
- uninteresting item: user๊ฐ negative preference๋ฅผ ๊ฐ์ง ์์ดํ
- Preference์ ์ข ๋ฅ: pre-use preferences, post-use preferences
- 35์ชฝ
- interesting items: pre-use๊ฐ high
- preferred items: pre-use, post-use๊ฐ high
- uninteresting items: pre-use๊ฐ low
- ๋ง์ฝ์ 0์ด ์์ฒญ ๋ง์ด ๋ค์ด๊ฐ๋ฉด aggregationํ ๋ average๊ฐ ๋ฎ์์ง. ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ rating prediction์ ์ ํฉํ์ง ์๊ณ top-N recommendation์ ์ ์ ํจ
- One-class collaborative filtering(OCCF) Problem
- rating score์ด unaryํ ๋: click/bookmark/purchase ๋ฑ
- ์ด๋ด ๊ฒฝ์ฐ์๋ unrated item์ ๋ํด negative์ธ์ง unknown positive์ธ์ง ํ๋จํ ์ ์๋ค
- ํด๊ฒฐ๋ฐฉ์: OCCF Method
- unary matrix์ unrated๋ฅผ ๋ชจ๋ 0์ผ๋ก ๋์ ํ์ฌ binary matrix๋ฅผ ๋ง๋ ๋ค + unary matrix์ ์ด๋ค heuristic์ ์ ์ฉํ์ฌ weight matrix๋ฅผ ๋ง๋ ๋ค -> ์ด๋ค ๋๊ฐ์ low rank matrix๋ฅผ ๊ณฑํ์ฌ binary matrix๊ฐ ๋์ฌ์ ์๊ฒ ํจ
- ๊ณต์์คํต
- 42: ์ธํ๋ฅผ 20%์ผ๋ก ์ค์ ํ ๊ฒฝ์ฐ ํ์ฐ์ ๋ค๋ง, 80%์ผ๋ก ์ค์ ํ ๊ฒฝ์ฐ ํ์+ํ๋, 99%์ผ๊ฒฝ์ฐ ๋จ์๊น์ง uninteresting item์
- Zero-injection
- 45: ์๋์ 0์ด ์๋ rating matrix์์๋ i1๊ณผ i3์ด ๋น์ทํ ์์ดํ ์ฒ๋ผ ๋ณด์ด์ง๋ง(1-1), zero injected matrix์์๋ 5-0์ผ๋ก ratingํ user๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋ ๋น์ทํ ์์ดํ ์ฒ๋ผ ๋ณด์ธ๋ค
07 Data
- Attribute ์ข ๋ฅ
- ordinal: ์์๋ ์ค์ํ์ง๋ง ํ๋์ ๊ฐ๊ณผ ๋ค๋ฅธ ๊ฐ์ด ์ผ๋ง๋ ์ฐจ์ด๊ฐ ์๋์ง๋ ์๋ ค์ง์ง ์์
- interval: ์์ ์ค์. ํ๋์ ๊ฐ๊ณผ ๋ค๋ฅธ ๊ฐ ์ฌ์ด์ ์ฐจ์ด๊ฐ ์ผ์
- ratio: โํฌ๊ธฐโ๊ฐ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๊ฒ(๋ ์ง๋ day2๊ฐ day1์ ๋๋ฐฐ๋ผ๊ณ ํ์ง๋ ์์ผ๋๊น ratio์๋)
- Statistical Descriptions
- median์ outlier๊ฐ ์์ ๋ central tendency๋ฅผ ํ๋จํ๊ธฐ ์ข์ ๊ธฐ์ค์ด์ง๋ง dynamic handling์ด ์ด๋ ต๋ค.
- dynamic handling: ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ์ ๋ฐ์ดํธ ํ๋ ๊ฒ
- mean์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฅ ๋ํ๊ณ ๋๋๋ฉด ๋จ
- median์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํด์ sortํ ํ ๋ค์ ๊ณ์ฐํด์ผํจ. ๊ทธ๋์ estimation์ ํ๋ค(12์ชฝ ๊ณต์)
- quartiles: = quarter (Q1, Q2 = median, Q3, Q4 = max)
- five number summary: min, q1, median, q2, max
- boxplot
- histrogram
- quantile plot
- ๋ฐ์ดํฐ๋ฅผ ๋์ %์ผ๋ก ํ์ํ๊ธฐ ๋๋ฌธ์ monotonically increaseํจ
- quantile-quantile plot
- ๋๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์ถ์ ๋
- 22์ชฝ ์์์์ ๋ธ๋์น 1์์ 90์ ํ๋๊ฒ์ 2์์ 100์ ํ๋๊ฒ์ ์ ์ ์๋ค. -> 1๋ณด๋ค 2์์ ๋์ฒด์ ์ผ๋ก ๋ฌผ๊ฑด์ ๋น์ธ๊ฒ ํ๋ค๋ ์ฌ์ค์ ์ ์ ์์
- scatter plot
- attribute๊ฐ ๋๊ฐ์ธ ๋ฐ์ดํฐ(bivariate data)
- positive/negative/no correlation์ ๋ํด ์ ์ ์์
- Similarity and Dissimilarity
- similarity: ๋ ๋ฐ์ดํฐ object๊ฐ ์ผ๋ง๋ ๋น์ทํ์ง. 0๋ถํฐ 1์ฌ์ด์ ๊ฐ
- dissimilarity: ๋ ๋ฐ์ดํฐ object๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง. ์ต๋๊ฐ ์ ํ์ด ์์
- proximity: similarity/dissimilarity ์ค ํ๋
- symmetric variable: ๋๊ฐ์ง state์ ์ค์๋๊ฐ ๊ฐ์๊ฒ (์ฑ๋ณ)
- asymmetric - : ํ state๊ฐ ๋ค๋ฅธ state๋ณด๋ค ์ค์ํ๊ฒ (์ ์์ฑ)
- *์์ *32์ชฝ: โ-โ when the raw score is below the mean, โ+โ when above
- Minkowski distance์์ h=1์ด๋ฉด manhattan distance, 2์ด๋ฉด euclidean distance
- h ๋ฌดํ์ผ๊ฒฝ์ฐ supremum distance: vector๊ฐ์ attribute์ฐจ ์ค ๊ฐ์ฅ ํฐ ์ฐจ
- 38์ชฝ d(i,j)๋ weighted average์
08 Concept Description
- characterization: deals with one set
- comparison: deals with at least two sets
- data generalization: low conceptual level -> high conceptual level
- attribute-oriented induction
- attribute๋ฅผ ์ง์ฐ๊ฑฐ๋ generalizeํจ
- basic principles
- data focusing: ๊ด๋ จ ์๋ ๋ฐ์ดํฐ์ ์ง์ค
- attribute-removal
- 14์ชฝ: ๋ฐ์ ์์ quantitative characteristic rule์ ์์
- quantitative characteristic rule <-> quantitative discriminant rule
- quantative description rule: ํ์์ถฉ๋ถ์กฐ๊ฑด
09 Preprocessing
- ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ๋ฅผ ํฅ์์ํค๊ธฐ ์ํจ
Data Cleaning
- missing data ๋ฌธ์ ํด๊ฒฐ๋ฐฉ๋ฒ
- missing data๊ฐ ์๋ tuple์ ์ ์ธํ๋ค -> ๊ทธ๋ฐ tuple์ด ๋ง์ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ๋ฐ์
- ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ missing value๋ฅผ manualํ๊ฒ ์ฑ์๋ฃ๋ ๊ฒ์ด๋ค. ํ์ง๋ง ๋๋ฌด ์ค๋๊ฑธ๋ฆฌ๊ณ ๊ฐ๋์ costlyํ๋ค
- crowd sourcing
- missing value๋ฅผ automatically ์ฑ์๋ฃ๊ธฐ
- attribute mean
- attribute mean for the same class (ex) ๊ฐ์ ์ง์ ์ ๊ฐ์ง ์ฌ๋๋ค์ salary
- bayesian formula/decision tree๋ฅผ ํตํ ๊ฐ ์ถ๋ก
- noisy data ๋ฌธ์ ํด๊ฒฐ๋ฐฉ๋ฒ
- clustering
- computer/human inspection
Data Integration
- ์๋ก ๋ค๋ฅธ ์ข ๋ฅ(์ถ์ฒ)์ ๋ฐ์ดํฐ๋ฅผ integrateํ ๋
- ๋ค๋ฅธ ์ด๋ฆ์ attribute๊ฐ ๊ฐ์ ์๋ฏธ์ธ ๊ฒฝ์ฐ (customer id์ customer number)
- ๋ค๋ฅธ ์ด๋ฆ์ ๊ฐ์ง entity๊ฐ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์๋ฏธํ๋ ๊ฒฝ์ฐ(bill clinton๊ณผ william clinton)
- redundancy
- derivable data(birth date์์ age๋ฅผ derive ํ ์ ์์)
- correlation analysis๋ฅผ ํตํด ์ ๊ฑฐํ ์ ์๋ค
- chi-square test
- 15์ชฝ: ๊ดํธ์์ ์๋ ์ซ์๋ expected number์
- 90 = 350/1500 * 450/1500 * 1500
- ๊ฐ์ด ํด์๋ก ๋๊ฐ์ attribute๋ not indepenentํจ(๊ด๋ จ์ด ์์)
- ํ์ง๋ง correlation์ด ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ํ๋ด์ง๋ ์์
- correlation coefficient(numeric data์ผ ๊ฒฝ์ฐ)
- -1 ~ +1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ค
- covariance
- ์์์ด๋ฉด expected value๋ณด๋ค ํฌ๋ค
Data Reduction
- ๋ฐ์ดํฐ๋ฅผ ํตํ ๋ถ์๊ฒฐ๊ณผ๊ฐ ๋๊ฐ๋ค๋ฉด ๋ฐ์ดํฐ์ ์์ ์ ์์๋ก ์ข๋ค
- reduction ๋ฐฉ๋ฒ
- dimensionality reduction
- dimensionality๊ฐ ์ฆ๊ฐํ๋ฉด sparsity๋ ์ฆ๊ฐํ๋ค
- point๊ฐ density/distance์ ์๋ฏธ๊ฐ ๊ฐ์ํ๋ค
- wavelet transformation
- ๋ง์ง๋ง average์ detail coefficient๋ค์ ์ ์ฅํ๋๋ฐ ๋ง์ฝ ๋ชจ๋ ์ ์ฅํ๋ฉด ๋ฑํ ์ข์ ์ ์ด ์์. ๋ฐ๋ผ์ ์ต๋ํ ์ ์ฅํ ์ ์๋ ํ์์ ๋ ์ค์ํ ๊ฒ๋ค์ ์ง์ด๋ค(detail coefficient์์์๋ถํฐ ํ๋์ฉ)
- PCA(principal component analysis)
- numeric data์๋ง ์ฌ์ฉ๋๋ค
- 100๊ฐ์ dimension์ด ์์ ๊ฒฝ์ฐ 10๊ฐ์ attribute๋ง ๋ณธ๋ค๊ณ ํ๋ฉด variance๊ฐ ๊ฐ์ฅ ํฐ 10๊ฐ๋ฅผ ์ ํํ๋ค.
- ์ด๋ ์ ๋์ ๊ฒฝํฅ์ฑ์ด ์์ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉ ๊ฐ๋ฅํ๋ค. ์๋ฅผ ๋ค์ด ๋ฐ์ดํฐ๊ฐ ์๋ชจ์์ผ๋ก scatter๋์ด ์์ ๊ฒฝ์ฐ ๊ทธ์ค์ ์ด๋ค ๊ฒ์ ์ ํํด๋ data loss๊ฐ ๋ฐ์ํ ์ ๋ฐ์ ์์!!!!
- Attribute subset selection
- redundantํ๊ณ irrelevantํ ๊ฒ๋ค์ ์ง์ด๋ค
- numerosity reduction
- ๋๊ฐ์ง ์ข ๋ฅ: parametric/non-parametric
- regression analysis(parametric)
- x๋ independent variable, y๋ dependent variable
- histogram analysis(non-p)
- y์ถ์ x์ ํด๋นํ๋ ๋ฐ์ดํฐ์ sum์ด๋ count
- clustering
- sampling
- stratified sampling์ด๋ผ๋๊ฒ ์์(๊ฐ partition์์ ์ผ์ ํ ๋งํผ ๋ฝ๋๊ฒ)
- data compression
- compression์ ์ด๋ป๊ฒ ํ๋๋์ ๋ฐ๋ผ losslessํ ์๋ ์๊ณ lossyํ ์๋ ์๋ค
Data Transformation
- transformation: ์ด๋ค ๊ฐ์ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋ฐ๊พธ๋ ๊ฒ
- normalization: ๋ ์๊ณ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ผ๋ก ์ ๊ทํ
- discretization: ์์ํ
- Normalization
- min-max normalization
- ์ ์๋ min๊ณผ max์ฌ์ด์ ๊ฐ์ผ๋ก ์ ๊ทํ
- z-score normalization
- ํ์ค์ ๊ท๋ถํ๋ก ์ ๊ทํ
- normalization by decimal scaling
- 10์ ๋ฐฐ์๋ก ๋๋ -> ์๋ก์ด ๊ฐ์ max๊ฐ 1๋ณด๋ค ์๋๋ก
- Discretization
- binning
- ๋๊ฐ์ง ๋ฐฉ๋ฒ: equal width/equal depth
- smoothing by bin boundaries: bin ๋ด์ min/max์ค ๊ฐ๊น์ด ๊ฒ์ผ๋ก ๋ฐ๊ฟ
- clustering์ด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์
'CS > Lecture' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ปดํจํฐ๋น์ (0) | 2017.09.13 |
---|---|
์ง๋ฅํ์๋ฌผ์ ๋ณดํ (0) | 2017.09.13 |
์ด์์ฒด์ (0) | 2017.09.13 |
์ธ๊ณต์ง๋ฅ (3) | 2017.09.12 |
์ปดํจํฐ๊ทธ๋ํฝ์ค (0) | 2017.09.12 |