Chuyên mục

0. DỰ ÁN (16)1. ỨNG DỤNG TOÁN HỌC (384)2. TÀI CHÍNH và KINH TẾ (744)3. PHẦN MỀM TOÁN HỌC (62)4. GIÁO DỤC và NCKH (191)5. TÀI LIỆU (59)

Bài và Trang được xứng đáng chú ý

Bài viết mới


Phương pháp phân tích thành phần chủ yếu (Principal Component Analysis – PCA)

“Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation khổng lồ convert a set of observations of possibly correlated variables into a mix of values of linearly uncorrelated variables called principal components. The number of principal components is less than or equal lớn the number of original variables.”

Phân tích yếu tố chính (Principal Component Analysis – PCA) là một trong những trong những cách thức phân tích tài liệu nhiều biến dễ dàng và đơn giản nhất. Phần 1 của bài bác này sẽ nói về động lực và ý tưởng chính của PCA, kế tiếp trình bày mỗi bước trong thuật toán PCA. Như thường xuyên lệ, nhằm hiểu thuật toán thì cài đặt là cách giỏi nhất, cho nên một đoạn mã MATLAB minh họa từng bước trong PCA cũng khá được trình bày. Phần sau cùng là cụ thể các khai triển Toán học tập trong PCA. Do mục tiêu ứng dụng nên những phương trình rõ ràng được nhằm dành cho phần này, bạn đọc giả dụ thật sự thân yêu nguyên lí của PCA, nguyên nhân PCA lại thực hiện những công thức như thế v.v… thì có thể tham khảo phần này để biết thêm chi tiết.

Bạn đang xem: Phân tích thành phần chính pca

1. Giới thiệu

Như vẫn nói trong bài trước, trong thống kê, thường thì cần buộc phải “nghiên cứu” dữ liệu trước khi xây dựng các mô hình suy diễn dựa vào dữ liệu đó. Tuy nhiên đôi khi dữ liệu gồm số chiều lớn, ko thể visualize (không biết dịch là gì) trong không khí 2 hay 3 chiều, vày đó rất cần phải tìm phương pháp đưa dữ liệu về không gian có số chiều bé dại hơn.

PCA là một trong trong những phương thức như thế, tuy thế hơn thế, PCA còn hệt như một Swiss knife với những đặc tính tốt:

Giúp sút số chiều của dữ liệu,Các trục tọa độ trong không khí mới là tổ hợp tuyến tính của không gian cũ, vì thế về phương diện ngữ nghĩa, PCA thi công feature mới dựa trên các feature đã quan cạnh bên được. Điểm xuất xắc là đều feature này vẫn biểu diễn xuất sắc dữ liệu ban đầu.Trong không khí mới, những liên kết tiềm tàng của dữ liệu có thể được xét nghiệm phá, mà nếu để trong không khí cũ thì khó khăn phát hiện nay hơn, hoặc số đông liên kết như vậy không biểu đạt rõ.

Nói một phương pháp ngắn gọn, kim chỉ nam của PCA là tra cứu một không khí mới (với số chiều nhỏ hơn không khí cũ). Các trục tọa độ trong không gian mới được xây dựng thế nào cho trên mỗi trục, độ đổi thay thiên của dữ liệu trên đó là lớn nhất có thể. Tiếng Việt thì dài dòng, mà lại tiếng Anh thì phương châm này call là maximize the variability. Cha chữ này gói gọn ý tưởng chính của PCA.

*

Minh họa PCA: phép chiếu lên những trục tọa độ không giống nhau có thể cho cách nhìn rất khác biệt về cùng một dữ liệu.

Một ví dụ kinh khủng là hình ảnh về con lạc đà. Cùng là một con lạc đà dẫu vậy nếu nhìn từ bên cạnh hông thì ta bao gồm được vừa đủ thông tin nhất, trong khi nhìn từ phía đằng trước thì thật khó để nói nó là lạc đà.

Một ví dụ như thuyết phục rộng được minh họa trong hình sau

*

Minh họa PCA: tìm những trục tọa độ mới sao để cho dữ liệu tất cả độ phát triển thành thiên cao nhất

Giả sử tập dữ liệu thuở đầu (tập điểm màu xanh) được quan gần kề trong không khí 3 chiều (trục màu đen) như hình mặt trái. Cụ thể 3 trục này không biểu diễn được tốt nhất mức độ đổi thay thiên của dữ liệu. PCA do đó sẽ kiếm tìm hệ trục tọa độ bắt đầu (là hệ trục red color trong hình bên trái). Sau khoản thời gian tìm được không gian mới, dữ liệu sẽ tiến hành chuyển sang không khí này nhằm được màn trình diễn như vào hình bên phải. Rõ ràng hình bên phải chỉ cần 2 trục tọa độ nhưng biểu diễn xuất sắc hơn độ phát triển thành thiên của tài liệu so cùng với hệ trục 3 chiều ban đầu.

Một điểm siêu đẹp nữa của PCA là những trục tọa độ trong không khí mới luôn bảo đảm trực giao đôi một với nhau, mặc dù trong không gian ban đầu, các trục rất có thể không trực giao.

Dài dòng do đó là đủ, ta sẽ trình bày từng cách thuật toán PCA trong phần tới. Chi tiết về phát minh và triển khai toán học tập được dành lại để trình diễn ở cuối bài.

Xem thêm: Mua Iphone 7 Của Viettel - Viettel Store Bán Iphone 7 Và 7 Plus Với Giá 9

2. Thuật toán PCA

Cho ma trận 

*
. Công việc của PCA theo thứ tự như sau:

1. Chi phí xử lí

Dữ liệu lúc đầu có thể có giá trị đổi khác bất thường. Ví dụ như trên feature 1 (cột 1 của

*
) giá bán trị thay đổi trong khoảng chừng (0, 1), bên trên feature 2 lại đổi mới thiên trong khúc (-100, 100). Ví dụ cần phải tất cả một cách tiền cập nhật để chuẩn chỉnh hóa quý hiếm trên những cột của ma trận X. Tất cả 2 phương pháp tiền up date thường được sử dụng cho PCA là Centered PCA và Normed PCA.

Centered PCA mang tất cả các feature (các cột của X) về cùng một cội tọa độ:

*
,

*
, (1a)

*
.

Trong đó n là số mẫu của X

*
 là mean của cột thiết bị j của X, được tính như trên.

Normed PCA mang tất cả các feature về thuộc một gốc tọa độ, đồng thời chuẩn hóa về cùng một quãng standard-deviation bằng 1:

*
,

*
. (1b)

Trong đó 

*
 là độ lệch chuẩn (standard deviation) của cột lắp thêm j trong X.

Thông hay Normed PCA giỏi được dùng. Sau cách tiền xử lí, ma trận 

*
 sẽ là đầu vào cho bước tiếp theo.

2. Xây dựng không khí mới

Tính ma trận hiệp phương không nên (covariance) của các feature trong 

*
:

*
(2)

Do là tích của ma trận 

*
 với chuyển vị của chính nó nên 
*
 là ma trận positive semidefinite kích thước 
*
. Hơn nữa 
*
có p trị riêng 
*
.

Tiếp theo, PCA tìm trị riêng và vector riêng tương ứng của 

*
, thu xếp theo trang bị tự giảm dần của trị riêng. Giả sử p trị riêng của V là

*
, (3)

và p vector riêng tương ứng là

*
. (4)

Khi đó các trục của không gian mới đó là các vector riêng 

*
 ở trên, dĩ nhiên các vector riêng trả toàn tự do tuyến tính (nghĩa là trực giao đôi một).

Có thể nói vào PCA, trị riêng và vector riêng bao gồm vị trí khôn cùng đẹp, thỏa mãn toàn bộ các yêu ước của PCA. Bạn dạng thân tôi lúc đọc cho phần này cũng thấy bất ngờ vì giải mã cho PCA không gì kì cục hoàn toàn vừa đủ trong trị riêng cùng vector riêng. Mặc dù tại thời điềm này, ta sẽ gật đầu như vậy. Phần cửa hàng Toán học ở cuối bài xích sẽ phân tích và lý giải tại sao trị riêng với vector riêng rẽ lại xuất hiện (có phần bất ngờ) trong PCA như vậy.

3. Chuyển tài liệu từ không gian ban sơ vào không gian mới

Thông thường không khí mới ko được xây dựng bằng tất cả p vector riêng rẽ trong (4), mà thông thường chỉ từ k vector riêng rẽ đầu tiên, với k here.