*

Thu thập mẫu và phân tích chúng là những khía cạnh cơ bản của Thống kê <Ảnh: Pop & Zebra trên Unsplash>

Điều kiện tiên quyết – Blog này giả định rằng người đọc có một số ý tưởng cơ bản về Định lý Giới hạn Trung tâm ( CLT ). Nếu bạn chưa quen với chủ đề này thì đây là một đoạn mồi ngắn và đẹp về CLT . Mục đích của blog là so sánh và biện minh sự giống nhau và khác nhau giữa Định lý Giới hạn Trung tâm và Định luật Số lớn. Ngoài ra, nó làm nổi bật thực tế là CLT chỉ cung cấp thông tin về hình dạng của phân bố lấy mẫu. Giá trị trung bình và phương sai được đưa ra bởi tuyến tính của Kỳ vọng.

Đang xem: định lý giới hạn trung tâm

Trong Thống kê, hai khái niệm quan trọng nhưng khó hiểu nhất là Định luật số lớn ( LLN ) và Định lý giới hạn trung tâm ( CLT ). Những điều này tạo thành cơ sở của khung kiểm tra giả thuyết phổ biến. Các quyết định quan trọng trong bất kỳ công ty dựa trên internet nào (ví dụ: thương mại điện tử, giao hàng thực phẩm, OTT, v.v.) thường được hỗ trợ bởi một thử nghiệm A / B bao gồm thử nghiệm giả thuyết.

Trong thế giới thực tế, không thể loại bỏ toàn bộ dân số. Do đó, chúng tôi sử dụng cách lấy mẫu từ dân số và phân tích nó. Chúng tôi cố gắng đưa ra kết luận về dân số dựa trên mẫu.

Theo wikipedia, Luật số lớn cũng như định lý giới hạn trung tâm là giải pháp từng phần cho một vấn đề tổng quát: “Hành vi giới hạn của trung bình mẫu ( S_ n ) khi kích thước mẫu ( n ) tiến tới vô cùng là gì?”

Chúng tôi đặt ra vấn đề bằng cách xác định Phân bố dân cư, Phân bố lấy mẫu và lấy một số thống kê về mẫu:

Phân bố dân cư:

Chúng tôi bắt đầu với một dân số lý thuyết. Nó có thể có bất kỳ hình dạng nào. Nó có thể rời rạc (giả sử Bernoulli, Poisson, v.v.) hoặc liên tục (giả sử hàm mũ, đồng nhất, v.v.) Đặt giá trị trung bình và phương sai của phân phối này là µσ² .

Phân phối lấy mẫu:

Bây giờ chúng tôi chọn n mẫu từ tổng thể này một cách độc lập (theo cách nói thống kê – chúng tôi chọn n mẫu) và tính trung bình chúng. Hãy gọi biến ngẫu nhiên này Y . Đây là một biến ngẫu nhiên bởi vì chúng tôi có thể có nhiều mẫu như vậy hoặc nhiều trường hợp Y . Chúng ta có thể lặp lại quy trình này vô số lần. Phân phối của Y được gọi là Phân phối lấy mẫu. Sau đó –

*

Xác định mẫu một cách chính thức bằng cách sử dụng các biến ngẫu nhiên

Chúng ta hãy thử tìm hai đặc điểm quan trọng của biến ngẫu nhiên này là Kỳ vọng và Phương sai.

Từ tuyến tính của kỳ vọng, chúng tôi nhận được –

*

Công thức kỳ vọng vẫn đúng ngay cả khi ông Tập không độc lập. Tuy nhiên, công thức phương sai chỉ đúng khi Xi là độc lập.

Công thức phương sai của Y có thể được suy ra bằng quy tắc Tuyến tính của Kỳ vọng. Công thức được gọi là công thức Bienaymé .

Do đó, chúng tôi biết về giá trị kỳ vọng và phương sai của biến ngẫu nhiên mới của chúng tôi. Nhưng chúng ta chưa biết gì về hình dạng. Đây là nơi CLT bắt đầu.

Định lý giới hạn trung tâm phát biểu rằng:

Phân bố Lấy mẫu được phân phối gần đúng bình thường nếu cỡ mẫu đủ lớn (giả sử> 30). Điều này có thể được quan sát dễ dàng bằng cách sử dụng Mô phỏng Monte Carlo.

Xem thêm:

*

Nguồn – Wikipedia; CLT có thể được tóm tắt bằng một bức tranh này.

Ba trường hợp phát sinh tùy thuộc vào sự phân bố dân số và cỡ mẫu: –

Trường hợp – 1.) Nếu phân bố dân số là Bình thường – Ngay cả cỡ mẫu là 2 cũng sẽ dẫn đến Phân bố Lấy mẫu Bình thường . Tổng của bất kỳ số lượng biến ngẫu nhiên N (0,1) nào được phân phối chuẩn xác. Điều này có thể được chứng minh bằng nhiều cách và một trong số đó là sử dụng tích chập .

Trường hợp – 2.) Nếu phân bố dân số không Bình thường và cỡ mẫu lớn (giả sử> 30), thì phân bố lấy mẫu kết quả là xấp xỉ bình thường.

Trường hợp – 3.) Nếu phân bố dân số không Chuẩn và cỡ mẫu nhỏ hơn 30 , thì phân phối kết quả có thể được mô hình hóa tốt hơn bằng phân phối t của Student thay vì phân phối chuẩn.

Luật Số lớn phát biểu rằng:

Ví dụ về trung bình mẫu ( Y ) có kích thước n có xu hướng ngày càng gần với trung bình tổng thể µ như n → ∞.

Vì chúng ta luôn biết hình dạng từ CLT và các công thức cho giá trị trung bình và phương sai của ” Y” từ Tuyến tính của Kỳ vọng, LLN trở nên dư thừa. Dễ dàng chúng ta có thể thấy rằng bất kỳ trường hợp nào của ” Y” đều nằm trong đường cong hình chuông và khi chúng ta tăng ” n” , đường cong ngày càng mỏng hơn. Do đó, khi “n” → ∞, bất kỳ Y nào sẽ xấp xỉ bằng µ.

Kết luận :

LLN và CLT đều cố gắng cho chúng ta biết gần đúng hành vi của trung bình mẫu. CLT cho chúng ta hình dạng gần đúng của phân phối. Độ tuyến tính của kỳ vọng cho chúng ta Giá trị trung bình kỳ vọng / Phương sai của phân phối lấy mẫu. LLN chỉ nói về giá trị gần đúng của trung bình mẫu, tất nhiên giá trị nào càng ngày càng gần với trung bình tổng thể khi ” n” trở nên lớn.

Xem thêm: Tìm Địa Chỉ Thông Qua Ip Trên Google, Hướng Dẫn Tìm Địa Chỉ Ở Thật Thông Qua Địa Chỉ Ip

Lưu ý – Có nhiều phiên bản khác nhau của CLT và LLN. Nhưng vì mục đích hiểu biết chung, tôi đã bỏ qua tất cả các biệt ngữ. Hy vọng bài viết này làm rõ một số nghi ngờ của bạn.

Tài liệu tham khảo

*

Điều gì, nếu có, có gì khác biệt duy nhất về khoa học dữ liệu so với khoa học? Có bất kỳ khái niệm mới về chất lượng (các loại sự vật) hoặc phương pháp được đặt ra bởi khoa học dữ liệu mà chưa tồn tại trong bản thể luận của khoa học không? Tôi đã đưa ra những câu hỏi này trước đó trong bối cảnh hỏi liệu một triết học về khoa học dữ liệu có giữ bất kỳ giá trị nào như một lĩnh vực điều tra riêng biệt hay không. Hãy bắt đầu bằng cách hình thành câu hỏi ban đầu chính xác hơn: Liệu việc tổng hợp các phương pháp định lượng tiên tiến với máy tính gần như vô hạn – điều mà chúng ta thường coi là khoa học dữ liệu hiện đại – có tạo ra bất kỳ hiện tượng nổi bật nào không? Sự nổi lên như một phương pháp phân tích Sự nổi lên là một chủ đề hấp dẫn theo đúng nghĩa của nó, nhưng để có được một số lực kéo, chúng ta có thể định nghĩa nó là sự phát sinh của những “loại” sự vật mới (thực thể, thuộc tính) từ sự tương tác của những thứ cấp thấp hơn,và điều không thể giải quyết được đối với những điều đó mà không làm mất đi ý nghĩa thực chất nào đó.

Leave a Reply

Your email address will not be published. Required fields are marked *